داده کاوی چیست؟
داده کاوی (شناختهشده با عنوان Knowledge Discovery From Data) یک دانش بین رشته ایست که در معنای لغوی به معنی «کندوکاو معادن داده» است. علت این نامگذاری این است که همانطور که وقتی در یک معدن هستیم در ابتدا فقط خاک و کوه میبینیم اما بعد از کندوکاو به منابع ارزشمند میرسیم؛ در علم کامپیوتر و آمار نیز بدون تحلیل دادهها و یافتن ارتباط بین آنها، نمیتوانیم به گوهر وجودی آن پی ببریم.
این علم سنگ بنای تجزیهوتحلیل است. این دانش به توسعه مدلهایی که قادر به کشف ارتباطات در میلیونها یا میلیاردها رکورد باشند، کمک میکند. درواقع، کار این علم آشکارسازی اطلاعات کارآمد از میان سیل عظیمی از اطلاعات درهم و پراکنده موجود در دیتابیسهای عظیم است.
در عصر امروز که درزمینه های مختلف شاهد رشد روزافزون دادهها هستیم و باوجود حافظه های ذخیرهسازی با قیمت مناسبتر و پرظرفیتتر، وجود DBSM های بهتر و پشتیبانی نرمافزاری بهتر و افزایش توان USB ها، اهمیت این علم بسیار محسوستر از گذشته است.
بررسی سابقه و پیشرفت های کنونی data mining
فرآیند جستجوی دادهها برای کشف ارتباطات پنهان و پیشبینی روندهای آینده، دارای سابقهای طولانی است. اصطلاح دیتا ماینینگ تا دهه ۱۹۹۰ بهعنوان «کشف دانش در پایگاههای داده» مطرح نشد؛ اما پایه و اساس آن شامل سه رشته علمی درهمتنیده است:
- آمار (مطالعه عددی روابط دادهها)
- هوش مصنوعی (هوش شبیه به انسان که توسط نرمافزار و یا ماشینها نمایش داده میشود)
- یادگیری ماشین (الگوریتمهایی که میتوانند از دادهها برای پیشبینیها یاد بگیرند).
با پیشرفت و سرعت در قدرت پردازش در دهه گذشته، بشر قادر است تا بهجای استفاده از شیوههای دستی، خستهکننده و وقتگیر به سمت تجزیهوتحلیل سریع، آسان و خودکار دادهها روانه شود. هرچه مجموعه دادههای جمعآوریشده پیچیدهتر باشند، پتانسیل بیشتری برای کشف ارتباط بین آنها وجود دارد. خردهفروشان، بانکها، تولیدکنندگان، ارائهدهندگان خدمات مخابراتی و بیمه گران، از این دانش برای کشف روابط بین همهچیز، از بهینهسازی قیمت، تبلیغات و جمعیتشناسی گرفته تا تأثیر اقتصاد، ریسک، رقابت و رسانههای اجتماعی بر روی مدلهای تجاری، درآمد و عملیات آنها، استفاده میکنند.
روش استفاده از نرمافزار انبارداری و استخراج اطلاعات
برنامههای دیتا ماینینگ، روابط و الگوهای دادهها را بر اساس درخواست کاربران تجزیهوتحلیل میکنند. بهعنوانمثال، یک شرکت میتواند از نرمافزار مربوطه برای ایجاد کلاس اطلاعات استفاده کند. برای درک بهتر، تصور کنید که یک رستوران میخواهد از واکاوی اطلاعات برای تعیین زمان ارائه غذای مخصوص خود استفاده کند. این رستوران در ابتدا اطلاعاتی را که جمعآوری کرده است بررسی کرده و سپس بر اساس زمان مراجعه مشتریان و سفارش آنها، کلاس ایجاد میکند.
ارتباط این دانش با data sience در چیست؟
این علم شبیه به علم داده است با این تفاوت که توسط یک شخص منحصربهفرد، در یک موقعیت ویژه، در یک مجموعه داده مخصوص و باهدفی خاص انجام میگردد. این فرایند شامل انواع مختلفی از خدمات مانند متنکاوی، وب کاوی، استخراج صوت و تصویر و استخراج رسانههای اجتماعی است. اینگونه همه کارها را میتوان کمهزینهتر و سریعتر انجام داد. همچنین، شرکتهای تخصصی میتوانند از فناوریهای جدید برای جمعآوری دادههایی که مکانیابی دستی آنها ممکن نیست، استفاده کنند. باوجود اطلاعات زیاد در بسترهای مختلف، دانش بسیار اندکی در دسترس بشر است. بزرگترین چالش تجزیهوتحلیل دادهها، استخراج اطلاعات مهمی است که میتواند برای حل مشکل یا توسعه شرکت، مورداستفاده قرار گیرد. ابزارها و تکنیکهای قدرتمند زیادی برای استخراج و درک بهتر دادهها وجود دارد.
ارتباط علم آمار و داده کاوی چیست؟
هر دو علم با یک سری متغیر و داده سروکار دارند اما دیتاماینیگ با رشد حجم دادهها مواجه است و برای حل مسائل خود، نیازمند درک درستی از هوش مصنوعی و انواع گوناگون مدلسازی است. درواقع، این دانش همان استفاده از آمار درسطح پیشرفته و در ظرفیت وسیع است. درست است که علم آمار بهتنهایی برای شرکتها حائز اهمیت است؛ اما داده کاوی پا فراتر از علم آمار گذاشته و تسهیلاتی در اختیار آنها میگذارد که مکانیسمهای آماری توان انجام آنها را ندارند.
فرایند انجام این دانش به چه صورت است؟
این فرآیند شامل چندین مرحله است و گستره وسیعی دارد؛ از دادههای بدون تغییر گرفته تا ایجاد یک علم تازه که در ذیل به توضیح آنها میپردازیم:
۱-پاکسازی داده (Data Cleaning)
در این قسمت برای حذف و چارهجویی برای دادههای از بین رفته، راهحل ارائه میشود.
۲- یکپارچهسازی دادهها (Data Integration)
در اکثر مسئلههای پیشرو، دادهها از منابع گوناگون باید بهطور همزمان بررسی شوند. (مانند شعب مختلف دیتابیسهای یک فروشگاه زنجیرهای در شهرهای گوناگون).
برای تحلیل این دادهها باید آنها را به شکل یکنواخت، درون یک انبار داده(Data Warehouse) جمعآوری نمود؛ که این عمل در قسمت یکپارچهسازی انجام میگیرد.
۳- انتخاب داده (Data Selection)
در این مرحله، باید دادههای در ارتباط با تحلیل انتخابشده و سپس بازیابی و بررسی مجدد شوند.
۴- تبدیل داده (Data Transformation)
در این مرحله، دادههای منتخب به شکل دیگری تبدیل میگردند. این عمل به سادهسازی، بهبود دقت و درستی فرآیند جستوجو کمک میکند.
۵- ارزیابی الگو (Pattern Evaluation)
در این مرحله، الگوهای بهدستآمده در مراحل قبل از جنبههای متفاوتی ازجمله درستی، دقت، قابلتعمیم بودن و موارد دیگر بازبینی و نظارت میشوند.
۶- ارائه دانش (Knowledge Representation)
در این قسمت، دانش بهدستآمده بهگونهای قابلفهم به کاربر داده میشود. از گونههای بصریسازی در این مرحله استفاده میکنند. این عمل در فهم نتایج به کاربران کمک میکند.
مراحل اصلی طی شده در دادهکاوی
- یافتن، منتقل کردن و ذخیره دادهها در دیتابیسهای چندبعدی
- دادن دسترسی برای دادههای قسمت سازوکار توسط نرمافزارها
- نشان دادن نتیجههای حاصل از بررسی دادهها بهصورت نمودار یا گراف
تکنیکهای مورداستفاده در داده کاوی به چه صورت است؟
با استفاده از تکنیکهای داده کاوی، سرعت انجام محاسبات و فضای لازم در حافظه (RAM) پیشرفت چشمگیری مییابد. درمجموع، این تکنیکها را دریکی از سه دستهی ذکرشده در ذیل یا ترکیبی از آنها، قرار میگیرد.
-
خوشهبندی (Clustering)
در این یادگیری، الگوریتم دادهها برحسب ماهیتشان گروهبندی میشوند. بهعنوانمثال مشتریان یک فروشگاه اینترنتی را بر اساس تشابه رفتارشان به خوشههای مختلف بخشبندی میشوند.
-
طبقهبندی (classification)
در این یادگیری، طبق ویژگیهای مشخصشده به دادهها لیبل زده میشود و آنها را در کلاسهای گوناگون قرار میدهند.
-
یادگیری تقویتی (Reinforcement Learning)
در این یادگیری، الگوریتم، توسط مبادله اطلاعات و عملیات با محیط، به دانستن اطلاعات میپردازد.
چالش های پیش روی این علم
-
روششناسی
در این چالش، به شیوهها و محدودیتها میپردازیم که برای رفع آن از راهحلهایی مثل ارائه راهحلهای هرچه سادهتر، راهحلهای قابلگسترش، توانایی کار با دادههای حجیم و… استفاده میشود.
-
کارایی
امروزه، باوجود افزایش حجم اطلاعات، نیاز به روشهایی است که قادر به پردازش دادههای وسیع باشند؛ در اینجا بحث کارایی و مقیاسپذیری دادهها به میان میآید که در آن دادههای منتخب، جایگزین کل دادهها میشوند. در این روش نمونهبرداری، توسط برنامهنویسی موازی با تقسیمبندی دادهها، به حل مشکلات مربوط به حجم دادهها پرداخته میشود.
-
منابع داده
افزایش حجم دادهها و اطلاعات در جهان امروز و همچنین گسترش database system management (DBSM)، نیاز به دسترسی و یافتن انواع دادهها را افزایش میدهد. استفاده درست از این منابع، خود شروع چالش برای یادگیری صحیح از داده کاوی است.
دیتا ماینینگ در چه زمینههایی کاربرد دارد؟
سازمانها و شرکتهایی که از واکاوی دیتاها برای بررسی رقبا استفاده میکنند؛ بهسادگی قادرند عوامل فراگیر شده بهروز را حدس بزنند و در پلنهای آتی خود، همجهت با نیازهای اکثر مردم باشند و زودتر از سایر رقبا موردتوجه مشتریان گیرند.
- دادههای علمی
- دادههای پزشکی و شخصی
- عکسها و ویدئوهای بازبینی
- رقابتهای ورزشی
- رسانههای دیجیتال
- دنیا و جهانهای مجازی
- گزارشها و اسناد متنی
- تجارت الکترونیک
- خطرات درمانهای جدید
- پژوهشهای فضایی
- پیشبینی کسبوکار
- تشخیص کلاهبرداری
- تحلیل تجارت
- سهام شبکههای اجتماع
- تحلیل مشتریان
- سلامت عمومی
- تحقیقات بازار خرید
- آموزش
- ساخت و عمران
- مدیریت ارتباط با مشتریان (CRM)
شرح نمونههایی از کاربرد داده کاوی در بخش های گوناگون:
۱- مراقبتهای بهداشتی:
دیتا ماینینگ در مراقبتهای بهداشتی پتانسیل بسیار خوبی برای بهبود سیستم بهداشتی دارد. این دانش، از دادهها و تجزیهوتحلیل، برای بینش بهتر و شناسایی بهترین شیوههای افزایش خدمات مراقبتهای بهداشتی و کاهش هزینهها، استفاده میکند. تحلیلگران، از رویکردهای این دانش مانند یادگیری ماشین، پایگاه داده چندبعدی، تجسم داده، محاسبات نرم، آمار و استفاده میکنند. این روشها اطمینان میدهند که بیماران تحت مراقبتهای ویژه در مکان و زمان مناسب قرار میگیرند. این علم همچنین به بیمه گران خدمات درمانی این امکان را میدهد تا تقلب و سوءاستفاده را تشخیص دهند.
۲- تحلیل سبد بازار:
تجزیهوتحلیل سبد بازار یک روش مدلسازی بر اساس یک فرضیه است. این تکنیک، درک رفتار خرید یک خریدار و نیازهای خریدار و تغییر چیدمان فروشگاه را برای خردهفروش ممکن میسازد. این کار را با استفاده از مقایسه تحلیلی متفاوت، بین مشتریان در گروههای جمعیت شناختی مختلف میتوان انجام داد.
۳- آموزشوپرورش:
این علم در آموزشوپرورش یک حوزه تازه در حال ظهور است که به توسعه تکنیکهایی میپردازد که دانش دادههای تولیدشده از محیطهای آموزشی را کشف میکند. اهداف EDM، بهعنوان تأیید رفتار یادگیری آینده دانش آموزان، مطالعه تأثیر حمایت آموزشی و ترویج یادگیری علم شناخته میشود. یک سازمان میتواند از این علم برای تصمیمگیری دقیق و همچنین پیشبینی نتایج دانشآموز استفاده کند. با نتایج بهدستآمده، موسسه میتواند بر روی آنچه باید آموزش دهد و چگونه آموزش دهد، تمرکز کند.
۴- مهندسی تولید:
دانش، بهترین دارایی یک شرکت تولیدی است. داده کاوی میتواند در طراحی سطح سیستم، برای بهدست آوردن روابط بین معماری محصول، سبد محصول و نیازهای داده مشتریان استفاده شود. همچنین میتواند برای پیشبینی دوره توسعه محصول، هزینه و انتظارات در بین سایر وظایف، مورداستفاده قرار گیرد.
۵- مدیریت ارتباط با مشتری (CRM)
مدیریت ارتباط با مشتری (CRM) در رابطه با تمام مسائل به دست آوردن و نگهداری مشتریان، همچنین افزایش وفاداری مشتری و اجرای استراتژیهای مشتری مداری است. برای به دست آوردن یک رابطه مناسب با مشتری، یک سازمان تجاری نیازمند به جمعآوری دادهها و تجزیهوتحلیل دادهها است. با استفاده از فناوریهای این علم، دادههای جمعآوریشده آماده برای تجزیهوتحلیل است.
۶- تشخیص قلب:
میلیاردها دلار به دلیل کلاهبرداری از دست میرود. روشهای سنتی کشف کلاهبرداری کمی زمانبر و پیچیده است. داده کاوی، امکان تبدیل دادهها به اطلاعات و الگوهای معنیدار را فراهم میکند. یک سیستم تشخیص قلب ایدئال باید از دادههای همه کاربران محافظت کند. روشهای تحت نظارت شامل مجموعهای از سوابق نمونه است که بهعنوان کلاهبردار یا غیر کلاهبردار طبقهبندی میشوند. یک مدل برای این دادهها ساختهشده و از آن برای تشخیص سند تقلبی بودن آن استفاده میشود.
۷- تشخیص دروغ:
دستگیری یک جنایتکار کار بزرگی نیست، اما بیرون آوردن حقیقت از او یک مسئله بسیار چالشبرانگیز است. مجریان قانون ممکن است از تکنیکهای دیتا ماینینگ برای بررسی جرایم، نظارت بر ارتباطات مشکوک تروریستی و غیره استفاده کنند. این تکنیک شامل متنکاوی و الگوهای معنیدار در دادهها نیز میباشد. اطلاعات جمعآوریشده از تحقیقات قبلی مقایسه شده و یک مدل برای تشخیص دروغ ایجاد میشود.
۸- بانکداری مالی:
با دیجیتالی شدن سیستم بانکی، با هر تراکنش جدید، حجم عظیمی از دادهها تولید میشود. تکنیک دیتا ماینینگ با حل مشکلات مربوط به کسبوکار در بانکداری و امور مالی، شناسایی روندها، تلفات و همبستگی اطلاعات کسبوکار و هزینههای بازار به بانکداران کمک میکند.
۹- دادههای ناقص و دشوار:
دادهها در دنیای واقعی ناهمگن، ناقص و دشوار هستند. دادهها در حجم زیاد معمولاً نادرست یا غیرقابلاعتماد هستند. این مشکلات ممکن است به دلیل اندازهگیری دادهها یا به دلیل خطاهای انسانی رخ دهد. فرض کنید یک زنجیره خردهفروشی، شماره تلفن مشتریانی را که بیش از ۵۰۰ دلار هزینه میکنند، جمعآوری میکند و کارکنان حسابداری، اطلاعات را در سیستم خود قرار میدهند. ممکن است، فرد هنگام واردکردن شماره تلفن اشتباه کند. (که منجر به دادههای نادرست میشود.) حتی برخی از مشتریان ممکن است مایل به افشای شماره تلفن خود نباشند. (که اطلاعات ناقص را به همراه دارد.) ممکن است دادهها به دلیل خطای انسانی یا سیستم تغییر کنند. همه این پیامدها، علم واکاوی داده را چالشبرانگیز میکند.
۱۰- توزیع دادهها:
دادههای دنیای واقعی معمولاً در بسترهای مختلف و در محیط محاسباتی ذخیره میشوند. ممکن است در پایگاه داده یا حتی در اینترنت، سیستمهای جداگانه وجود داشته باشد. ازنظر عملی، انتقال همه دادهها به یک مخزن متمرکز داده عمدتاً به دلیل نگرانیهای سازمانی و فنی، بسیار دشوار است. بهعنوانمثال، دفاتر منطقهای مختلف ممکن است سرورهای مخصوص خود را برای ذخیره دادههای خود داشته باشند. ذخیره تمام دادههای همه دفاتر، در یک سرور مرکزی، امکانپذیر نیست؛ بنابراین، دیتا ماینینگ مستلزم توسعه ابزارها و الگوریتمهایی است که اجازه استخراج دادهها را میدهند.
۱۱- دادههای پیچیده:
دادههای دنیای واقعی ناهمگن هستند و میتوانند شامل دادههای چندرسانهای صوت و تصویر، تصاویر، دادههای پیچیده، دادههای فضایی، سریهای زمانی و غیره باشند. مدیریت این انواع مختلف دادهها و استخراج اطلاعات مفید، کار دشواری است. اکثراً برای به دست آوردن اطلاعات خاص، باید فناوریهای جدید، ابزارها و روشهای جدید اصلاح شوند.
۱۲- کارایی:
عملکرد سیستم دیتا ماینینگ در درجه اول به کارایی الگوریتمها و تکنیکهای مورداستفاده، متکی است. اگر الگوریتم و تکنیکهای طراحیشده در حد مطلوب نباشند، کارایی این فرایند بهطور منفی تحت تأثیر قرار میگیرد.
۱۳- حریم خصوصی و امنیت:
مسائل مهمی ازنظر امنیت دادهها، حکمرانی و حفظ حریم خصوصی وجود دارد. بهعنوانمثال، درصورتیکه یک خردهفروش جزئیات اقلام خریداریشده را تجزیهوتحلیل کند، اطلاعات مربوط به عادات خرید و ترجیحات مشتریان را بدون اجازه آنها فاش میکند.
۱۴- تجسم دادهها:
تجسم داده یک فرایند بسیار مهم است زیرا این ذهنیت اولیه است که خروجی را به شیوهای قابلنمایش به کاربر نشان میدهد. با توجه بهدشواری ارائه اطلاعات به کاربر نهایی به روشی دقیق و آسان، دادههای استخراجشده باید معنایی دقیق را برای کاربران منتقل کنند.
مزایا و معایب علم data mining
مزایا
- یافتن سرقتهای ممکن در مؤسسات و بانکها برحسب تراکنشها، رفتار و الگوی کاربر
- کمک به مبلغان در قرار دادن تبلیغات اصولی و درست در وب برحسب الگوریتمهای یادگیری ماشین
- کمک به فروشگاههای مواد غذایی و خردهفروشی جهت چیدمان طبقههای فروشگاهی و بررسی سبد خرید کاربران
- پیشگیری، تشخیص و درمان بیماریها در پزشکی و ژنتیک (که این عمل در رشتهی بینرشتهای بیوانفورماتیک هماکنون در دانشگاههای ایران در رشتههای مهندسی کامپیوتر، علوم کامپیوتر، آمار و ریاضی قابلبررسی است.)
- شناسایی مجرمان توسط سازمانهای قانونی
معایب
- عدم اطمینان کامل از روشهای ارائه شده که خود عامل امکان بروز عواقب فاجعه باری را فراهم میآورد.
- نیاز به تخصص بسیار بالا هنگام کار با برخی روش ها و دستگاهها
- تحت تأثیر قرار دادن حریم خصوصی و امنیت کاربر
علاوه بر مشکلاتی که در بالا ذکر شد، چالشهای بیشتری در این زمینه وجود دارد. با شروع این فرایند، مشکلات بیشتری فاش میشود و همین، برای رهایی از مشکلات ذکر شده کافی است.
همانطور که بررسی شد، داده کاوی به پیشبینی، مقایسه و بررسی دادهها میپردازد. درواقع، فلسفه وجودی این دانش این است که آینده بیشباهت به گذشته نیست و آینده مشابه تکرار رفتارهایی است که درگذشته با آنها مواجه بودیم. پس با این علم میتوانیم آینده خود را اصولی و منطقی پیش برده و راهحلهای درست ارائه دهیم.
برای مطالعه مقاله های دیگر در زمینههای مختلف فناوری اطلاعات و ارتباطات اینجا کلیک کنید.
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.