علم داده (Data Science) چیست و چه کاربردهایی دارد؟
علم داده (Data Science) ترکیبی چند رشتهای شامل استنتاج دادهها، توسعه الگوریتم و فناوری بهمنظور حل مسائل پیچیده تحلیلی است. هسته اصلی این مفهوم داده است. دیتا ساینس جنبههای حوزههای مختلف را با کمک محاسبات ترکیب میکند تا مجموعهای از دیتاها را برای اهداف تصمیمگیری تفسیر نماید. علم دادهها از تکنیکهایی مانند یادگیری ماشین و هوش مصنوعی برای استخراج اطلاعات معنادار و پیشبینی الگوها و رفتارهای آینده استفاده میکند.
فهرست مطالب:
قابلیت و تواناییهای علم داده
کاربردهای علم داده و فرصتهای شغلی آن
دانشمندان داده چه میکنند و به چه مهارتهایی نیاز دارند؟
نگاهی گذرا به تاریخچه
این اصطلاح از اوایل دهه ۱۹۶۰ بهعنوان مترادف علوم کامپیوتر مورد استفاده قرار گرفت. در مقالهای که در سال ۱۹۶۲ منتشر شد، آماردان آمریکایی جان دبلیو توکی بیان کرد که تجزیهوتحلیل دادهها یک علم تجربی است. چهار سال بعد، پیتر ناور (پیشگام در برنامهنویسی نرمافزار دانمارکی) دیتالوژی علم دادهها و فرآیندهای داده را بهعنوان جایگزینی برای علوم رایانه پیشنهاد نمود. او بعداً در کتاب خود در سال ۱۹۷۴ با بررسی مختصر روشهای رایانهای، از این اصطلاح استفاده نمود و آن را بهعنوان علم برخورد با دیتاها توصیف کرد. البته این مقاله نیز در زمینه علوم کامپیوتر بود. بعدها از این مفهوم برای تعریف بررسی روشهای پردازش داده مورد استفاده در طیف وسیعی از کاربردهای مختلف با مفهوم علوم کامپیوتر متمایز گردید.
در سال ۱۹۹۶، فدراسیون بینالمللی انجمنهای طبقهبندی، این مفهوم را به نام کنفرانس برگزارشده در آن سال گنجاند. چیکیو هایاشی، آماردان ژاپنی طی ارائهای در این رویداد این مفهوم را شامل سه مرحله طراحی، جمعآوری و تجزیهوتحلیل بر روی دیتاها درنظر گرفت. یک سال پس از این کنفرانس، سی اف جف وو (استاد دانشگاه متولد تایوان در ایالات متحده) پیشنهاد نمود که آمار به این اصطلاح تغییر نام دهد و آماردانان بهعنوان دانشمندان علم داده نامیده شوند. ویلیام اس. کلیولند (دانشمند کامپیوتر آمریکایی) این دانش را بهعنوان یک رشته تحلیلی کامل در مقاله منتشرشده در سال ۲۰۰۱ در International Statistical Review با عنوان دیتا ساینس : برنامه عملی برای گسترش حوزههای فنی آمار معرفی نمود و سپس دو مجله تحقیقاتی با تمرکز بر این مفهوم در دو سال آینده راهاندازی شدند.
اولین موارد استفاده از دانشمند علم داده در منسب یک عنوان شغلی حرفهای به DJ Patil و Jeff Hammerbacher نسبت داده میشود. این دو دانشمند بهطور مشترک در سال ۲۰۰۸ تصمیم گرفتند که از این مفهوم هنگام کار در LinkedIn و Facebook اتخاذ نمایند. در سال ۲۰۰۱ ویلیام اس. کلیولند برای اولین بار از این اصطلاح برای اشاره به یک رشته مستقل استفاده نمود. مجله هاروارد بیزینس ریویو در سال ۲۰۱۲ مقالهای توسط توماس داونپورت منتشر کرد که نقش دانشمند دیتا را بهعنوان جذابترین شغل قرن بیست و یکم توصیف نمود. از آن زمان تاکنون، این علم همچنان به رشد خود ادامه داده است که تا حدودی با افزایش استفاده از هوش مصنوعی و یادگیری ماشین در سازمانها تقویت گردیده است.
قابلیت و تواناییهای علم داده
-
کشف بینش
کشف بینش داده به معنای شناسایی یافتهها از آنها است. متخصصان برای استخراج و درک رفتارها، روندها و استنتاجهای پیچیده باید بهدقت در میان دریای دیتاها شنا کنند! این امر منجر به آشکارسازی بینشهای پنهان میشود که به شرکتها در اتخاذ تصمیمات تجاری هوشمندانهتر کمک میکند. در ادامه با ذکر یک مثال به تفصیل این مطلب میپردازیم:
- دادهکاوی نتفلیکس الگوهای تماشای فیلم را بررسی میکند تا از علت علاقه کاربر نسبت به برخی ژانرهای فیلم مطلع گردد. سپس شرکت از این اطلاعات برای تصمیمگیری درباره سریالهای اصلی نتفلیکس استفاده میکند.
- هدف بخشهای اصلی مشتری را در پایگاه خود و رفتارهای خرید منحصربهفرد در آن بخشها را شناسایی میکند تا برای هدایت پیامها به مخاطبان مختلف بازار کمک کند.
- با استفاده از مدلهای سری زمانی برای درک واضحتر تقاضای آینده استفاده برای برنامهریزی بهینهتر در سطوح تولید کمک میکند.
استخراج دیتاها با کاوش آغاز میشود. هنگام مطرحشدن یک سؤال چالشبرانگیز دانشمندان دیتا ساینس تبدیل به کارآگاه میشوند. آنها با بررسی سرنخها میکوشند تا الگو یا ویژگیهای موجود در دادهها را درک کنند. این امر نیاز به میزان زیادی از خلاقیت تحلیلی دارد. سپس در صورت نیاز دانشمندان دیتا ممکن است تکنیک کمی را بهمنظور دستیابی به سطح عمیقتر بهکار بگیرند؛ برای مثال، میتوان به مدلهای استنتاجی، تجزیهوتحلیل بخشبندی، پیشبینی سریهای زمانی، آزمایشهای کنترل مصنوعی و موارد دیگر اشاره نمود. در واقع هدف این است که بهطور علمی یک نمای ساختارمند از اطلاعات بهدست آمده توسط دیتاها ایجاد گردد. این بینش مبتنی بر داده برای ارائه راهنمایی استراتژیک مرکزی است. از این نظر، دانشمندان دیتا بهعنوان مشاور عمل میکنند و سهامداران کسبوکار را در مورد نحوه عمل بر روی یافتهها راهنمایی مینمایند.
-
توسعه محصول
محصول داده نوعی دارایی فنی است که ابتدا از دیتاها بهعنوان ورودی استفاده میکند و سپس نسبت به آن دادهها برای برگرداندن نتایج الگوریتمی تولیدشده اقدام مینماید. یک مثال پرکاربرد از این مفهوم موتورهای توصیه هستند که با دریافت دیتاهای کاربر آنها را شخصیسازی میکنند. در ادامه به ذکر چند نمونه از محصولات دیتا میپردازیم:
- موتورهای توصیه آمازون اقلامی را برای خرید به کاربران خود پیشنهاد میکنند که توسط الگوریتم آنها تعیین میگردد. نتفلیکس این پیشنهادها را در فیلمها و اسپاتیفای نیز در زمینه موسیقی به علاقهمندان توصیه مینماید.
- فیلتر اسپم جیمیل بهعنوان محصول داده یک الگوریتم در پشت صحنه نامههای دریافتی را پردازش میکند و ناخواستهبودن پیام را تعیین مینماید.
- چشمانداز کامپیوتری مورد استفاده برای خودروهای خودران نیز نوعی محصول داده است. الگوریتمهای یادگیری ماشین قادر به تشخیص چراغهای راهنمایی، خودروها در جاده، عابران پیاده و سایر موارد هستند.
محصول دیتا با بخش بینش از آنها دارای مفهوم متفاوت است. بینش دیتا قابل استفاده برای ارائه مشاوره به یک مدیر اجرایی جهت اتخاذ تصمیمات تجاری هوشمندانهتر است. در مقابل، محصول دیتا یک عملکرد فنی است که الگوریتم را محصور میکند و برای ادغام مستقیم با برنامههای اصلی طراحی شده است. در ادامه به ذکر برخی برنامههایی که محصول داده را در پشت صحنه ترکیب میکنند، میپردازیم:
- صفحه اصلی آمازون
- صندوق ورودی جیمیل
- نرمافزار رانندگی خودکار
دانشمندان دیتا ساینس نقش اصلی را در توسعه محصول داده ایفا میکنند. این نقشها شامل ساخت الگوریتمها، آزمایش، اصلاح و استقرار فنی در سیستمهای تولید هستند. این دانشمندان بهعنوان توسعهدهندگان فنی خدمت میکنند و اطلاعات قابل استفاده در مقیاس وسیع را تولید مینمایند.
-
ریاضیات
در بطن بینش داده کاوی و ساخت محصول داده، توانایی مشاهده دیتاها از طریق یک لنز کمی است. در دیتاها بافتها، ابعاد و همبستگیهایی وجود دارد که میتوان آنها را به صورت ریاضی بیان نمود. سپس میتوان بر روی یافتن راهحلها با استفاده از دیتاها جهت تبدیل به یک بازی ذهنی فکری توسط روشهای اکتشافی و کمی تمرکز نمود. راهحلهای بسیاری از مشکلات کسبوکار، با ساخت مدلهای تحلیلی مبتنی بر ریاضیات امری دشوار است. توانایی درک مکانیزمهای اساسی مدلهای تحلیلی کلید موفقیت در ساخت آن است.
در انتهای این بخش این نکته را خاطرنشان کنیم که تصور غلطی در رابطه با این مفهوم وجود دارد و تمامی مسائل را مرتبط با علم آمار میپندارد. با اینکه هیچ شکی در اهمیت آمار برای این دانش نیست، اما تنها نوع ریاضی مورد استفاده محسوب نمیشود. نکتهای که در آمار وجود دارد این است که میتوان آن را به دو شاخه آمار کلاسیک و آمار بیزی تقسیم نمود. اغلب مردم هنگام صحبت در رابطه با آمار به آمارهای کلاسیک اشاره میکنند، درحالیکه کسب هر دو دانش از اهمیت بسزایی برخوردار هستند. علاوهبراین، بسیاری از تکنیکهای استنتاجی و الگوریتمهای یادگیری ماشین بر دانش جبر خطی تکیه دارند؛ برای مثال، یک روش محبوب برای کشف ویژگیهای پنهان در یک مجموعه داده، SVD (تجزیه مقادیر منفرد) پایهگذاریشده در ریاضیات ماتریسی است که ارتباط کمتری با آمارهای کلاسیک دارد. بهطورکلی، برای دانشمندان داده گسترش عمق دانش ریاضیات از اهمیت بسیار بالایی برخوردار است.
-
فناوری و هک
قبل از بازکردن مبحث فناوری و هک این نکته را شفافسازی کنیم که منظور از هک در این بخش نفوذ به کامپیوترها نیست. منظور از هک این است از خلاقیت و نبوغ در استفاده از مهارتهای فنی برای ساختن محصولات و یافتن راهحلهای هوشمندانه برای مشکلات بهره ببریم. در اصل میتوان گفت هک کردن دو رو دارد! هر برنامهنویس باید یک هکر باشد اما عمل هک کردن را برای پروژهها و پیشرفت خود انجام دهد و از آن سوءاستفاده نکند.
علت اهمیت هک برای دانشمندان دیتا این است که آنها از فناوری برای به چالش کشیدن مجموعه دادههای عظیم و کار با الگوریتمهای پیچیده استفاده مینمایند و به ابزارهایی بسیار پیچیدهتر از Excel نیاز دارند. دانشمندان علم دادهها میبایست توانایی کدنویسی داشته باشند تا برای راهحلهای بیدرنگ اطلاعات اولیه ارائه دهند و همچنین توانایی ادغام با سیستمهای پیچیده دیتا را کسب نمایند. برخی از زبانهای اصلی مرتبط با دیتا ساینس شامل SQL، Python، R و SAS هستند. پس از آن میتوان به جاوا، اسکالا، جولیا و سایر موارد اشاره نمود. بااینحال، دانستن اصول زبان کافی نیست. یک هکر باید بتواند بهطور خلاقانه راه خود را از طریق چالشهای فنی بررسی کند تا توانایی بهکار گیری کدهای خود را بهدست آورد.
در این راستا، یک هکر دیتا ساینس همانند یک متفکر الگوریتمی مستحکم است که توانایی شکستن مشکلات آشفته و ترکیب مجدد آنها به روشهای قابل حل را دارد. این تخصص برای دانشمندان دیتا بسیار حائز اهمیت است؛ چراکه دانشمندان داده با الگوریتمهای پیچیده بسیاری کار میکنند. آنها باید درک ذهنی فوقالعادهای از دیتاهای دارای ابعاد بالا و جریانهای کنترل دادههای پیچیده داشته باشند. وضوح کامل در مورد نحوه اتصال قطعات به یکدیگر راهحلی منسجم را به ارمغان میآورد.
-
هوش تجاری
متخصصین این مفهوم باید بتوانند بهعنوان یک مشاور تجاری تکنیکی عمل کنند. این دانشمندان با صرف زمان، تجزیهوتحلیل و بررسیهای متعدد بر روی دیتاها میتوانند از اطلاعات بهدست آمده مفاهیم جدیدی را کشف نمایند. این امر مسئولیت واکاوی مشاهدات و کمک به راهاندازی استراتژی در مورد چگونگی حل مشکلات اصلی کسبوکار را ایجاد میکند. این بدان معناست که یکی از صلاحیتهای اصلی این دانش، استفاده از دادهها برای بیان قاطعانه یک سیر تحولی کامل از روند کسبوکارها است.
داشتن این ویژگی علاوهبر اهمیت در فناوری و الگوریتمها میبایست میان پروژههای دیتا ساینس و اهداف تجاری هماهنگی واضحی برقرار نماید. در نهایت، کسب ارزش دادهها از اعمال نفوذ در تمام موارد فوق جهت ایجاد قابلیتهای ارزشمند و داشتن نفوذ تجاری بالا ناشی میشود.
-
کنجکاوی و کشف اسرار دادهها
ویژگی شخصیتی مشترک دانشمندان علم داده این است که آنها متفکرانی عمیق با کنجکاوی فکری شدید هستند. این مفهوم در رابطه با کلیه مسائل مرتبط با کنجکاو بودن از جمله پرسیدن سؤالات، اکتشافات و یادگیری موارد جدید است. اغلب این دانشمندان تمرکز و علاقه بسیاری به کار خود دارند. محرک واقعی این افراد برای رونمایی از بهترین عملکردشان استفاده از کنجکاوی جهت نشاندادن خلاقیت و نبوغ خود برای حل مشکلات دشوار است. استخراج اطلاعات پیچیده از دادهها فراتر از انجام یک مشاهده بوده و به کشف اسرار حقیقی پنهان دیتاها نیازمند است. حل مسئله محرک یک سفر فکری به سوی راهحل است. این دانشمندان هنگام برخورد با چالشها بهجای مستأصل شدن هیجانزده میشوند؛ چراکه یافتن چالش بزرگترین گام برای رفع آن است و رفع مشکلات بهمعنای قدمی رو به جلو برای آنها، کسبوکار یا سازمان مربوطه است.
-
آموزش
تصور نادرستی که در رابطه با این مفهوم وجود دارد، این است که برای تبدیلشدن به یک دانشمند دیتا ساینس به یک دکترای علوم کامپیوتر یا ریاضی نیاز است. این دیدگاه، ماهیت چند رشتهای بودن این رویکرد را زیر سؤال میبرد. مطالعه بسیار متمرکز در دانشگاهها بسیار مفید است و تردیدی بر اهمیت آن نیست، اما این امر بهتنهایی تضمینی برای اینکه فارغالتحصیلان مجموعه کاملی از تجربیات و تواناییها را برای موفقیت دارند، نخواهد بود؛ برای مثال، یک آماردان دارای مدرک دکتری ممکن است همچنان نیاز به کسب مهارتهای برنامهنویسی داشته باشد. این مفهوم رشته نسبتاً جدید و رو به رشدی است که هنوز بسیار جای کار دارد. ازاینرو، به جرأت میتوان گفت که هیچکس نمیتواند ادعا کند که از کلیه مفاهیم ضروری برای تبدیلشدن به دانشمند داده آگاه است.
مفاهیم مرتبط با علم دادهها
-
دیتا آنالیز (Data Analytics) چیست؟
در سالهای اخیر تجزیهوتحلیل بهسرعت در زبانهای تجاری محبوب افزایش یافته است. این اصطلاح بهصورت آزاد به کار میرود، اما بهطورکلی به معنای توصیف تفکر انتقادی است که ماهیت کمی دارد. از نظر معنایی تجزیهوتحلیل در این مفهوم به معنای واکاوی اطلاعات جهت اتخاذ تصمیمات است.
در رابطه با ارتباط مفهوم تجزیهوتحلیل یا آنالیز با این علم میتوان گفت که این رابطه با زمینه موردبررسی متخصصین این رشته مشخص میگردد. درصورتیکه تعریف بالا را برای دیتا آنالیز درنظر بگیریم، تعریف آن مترادف با تعریف این علم خواهد شد. یک دانشمند علم داده که از دیتاهای خام برای ساختن یک الگوریتم پیشبینیکننده استفاده میکند، در حوزه تجزیهوتحلیل قرار میگیرد. در عین حال، یک کاربر تجاری غیرفنی که گزارشهای داشبورد از پیش ساختهشده را تفسیر میکند نیز در قلمرو تجزیهوتحلیل قرار میگیرد، اما به مجموعه مهارتهای موردنیاز در این دانش نمیرسد. در واقع میتوان نتیجه گرفت که تجزیهوتحلیل معنای نسبتاً گستردهای پیدا کرده است. در انتها به این نکته توجه شود که تا زمانیکه مختصصان فراتر از سطح کلمات کلیدی را درک نمایند، معنای دقیق آن اهمیت چندانی نخواهد داشت.
تفاوت میان تحلیلگران و دانشمندان داده در چیست؟
در ادامه به تفسیر این دو مفهوم با درنظر گرفتن نحوه انطباق آنها با عناوین شغلی، مهارتها و دامنه مسئولیتها میپردازیم:
- دانشمند داده: یک فعالیت تخصصی با کسب توانایی در ریاضیات، فناوری و زیرکی تجاری است. این متخصصان در سطح پایگاه دیتا خام برای استخراج بینش و ساخت محصول داده فعالیت میکنند.
- تحلیلگر: تحلیلگر بودن تا حدودی یک شغل مبهم است که میتواند انواع مختلفی از نقشها از جمله تحلیلگر دیتا، تحلیلگر بازاریابی، تحلیلگر عملیات، تحلیلگر مالی و موارد دیگر را دربر بگیرد. مفهوم مشترک میان تمام تحلیلگران این است که برای بهدست آوردن بینش به دادهها مراجعه مینمایند. تحلیلگران میتوانند سطوح مختلف از جمله پایگاه داده یا خلاصه گزارشات و داشبوردها را شامل شوند.
بنابراین با توجه به توضیحات بیانشده میتوان اینگونه برداشت کرد که تحلیلگران و دانشمندان داده کاملاً مترادف یکدیگر نیستند، اما دو مفهوم مقابل یکدیگر نیز محسوب نمیشوند.
-
یادگیری ماشین چیست؟
یادگیری ماشینی اصطلاحی است که ارتباط نزدیکی با این علم دارد. یادگیری ماشین به دسته وسیعی از روشها اشاره دارد که حول محور مدلسازی دادهها برای پیشبینیهای الگوریتمی و رمزگذاری آنها میچرخد.
-
پیشبینی
مفهوم اصلی پیشبینی در یادگیری ماشین استفاده از دادههای برچسبگذاری شده برای آموزش مدلهای پیشبینی است. دیتاهای برچسبگذاری شده به معنای مشاهداتی هستند که در آن اطلاعات موردنیاز از قبل شناختهشده هستند. مدلهای آموزشی به معنای مشخصنمودن خودکار دادههای برچسبگذاری شده بهعنوان روشهایی برای پیشبینی برچسبها برای نقاط ناشناخته داده است؛ برای مثال، یک مدل تشخیص کلاهبرداری کارت اعتباری را میتوان با استفاده از سابقه تاریخی خریدهای تقلب برچسبگذاریشده آموزش داد. مدل حاصل احتمال تقلبی بودن خریدهای جدید را تخمین میزند. روشهای متداول برای مدلهای آموزشی از رگرسیونهای پایه تا شبکههای عصبی پیچیده را شامل میشود. کلیه مراحل از الگوی مشابهی پیروی میکنند که بهعنوان یادگیری تحت نظارت شناخته میشوند.
-
کشف الگوها
الگوی مدلسازی دیگری که بهعنوان یادگیری بدون نظارت شناخته میشود، میکوشد تا الگوها و تداعیهای زیربنایی را در دادهها زمانیکه حقیقت اصلی موجود آنها شناخته نشده است و مشاهدات برچسبگذاری نشدهاند، نشان دهد. از جمله رایجترین روشهای مورد استفاده در این دسته وسیع از روشها، تکنیکهای خوشهبندی هستند که بهطور الگوریتمی گروهبندیهای طبیعی موجود در یک مجموعه داده را تشخیص میدهند؛ برای مثال، خوشهبندی را میتوان برای یادگیری برنامهای بخشهای مشتری در پایگاه کاربران یک شرکت استفاده کرد. سایر روشهای بدون نظارت برای استخراج ویژگیهای اساسی عبارتاند از:
- تجزیهوتحلیل مؤلفههای اصلی
- مدلهای مارکوف پنهان
- مدلهای موضوعی
کلیه روشهای یادگیری ماشین بهخوبی در دو دسته بالا قرار نمیگیرند؛ برای مثال، فیلتر کردن مشارکتی نوعی الگوریتم توصیه با عناصر مرتبط به یادگیری تحت نظارت و بدون نظارت است. گستره وسیع تکنیکهای یادگیری ماشین، بخش مهمی از جعبه ابزار این مفهوم را تشکیل میدهند. دانشمندان علم داده با انتخاب استراتژیهای مناسب میتوانند آگاه شوند که از چه ابزاری و با چه شیوهای در شرایط مختلف برای حل مسائل تحلیلی استفاده نمایند.
-
Data Munging چیست؟
دادههای خام میتوانند بدون ساختار و آشفته باشند و با اطلاعاتی از دادههای دارای منابع متفاوت، سوابق ناهماهنگ یا گمشده و تعداد زیادی از مسائل پیچیده دیگر همراه شوند. Data Munging اصطلاحی است برای توصیف کشمکش دادهها جهت گردآوری دیتاها در نماهای منسجم و پاکسازی دیتاها بهگونهای که برای مراحل بعدی آماده باشند. این امر نیاز به حس خوب تشخیص الگو و مهارتهای هک هوشمندانه برای ادغام و تبدیل انبوه اطلاعات در سطح دیتابیس دارد. درصورتیکه این امر بهدرستی صورت نگیرد، دادههای غربالنشده میتوانند حقیقت و رابطه پنهان در مجموعه دیتاها را مبهم کرده و نتایج را کاملاً گمراهکننده نمایند؛ بنابراین، هر دانشمند داده باید در جمعآوری دیتاها ماهر و زیرک عمل کند تا قبل از اعمال تکنیکهای تحلیلی پیچیدهتر، دادههای دقیق و قابل استفاده داشته باشد.
کاربردهای علم داده و فرصتهای شغلی آن
تقاضای فزاینده برای این مفهوم، نرخ مشاغل را حدود ۴۵ درصد افزایش داده است. این دانش در هر صنعتی تقاضای کافی دارد. در ادامه به بررسی فرصتهای شغلی دانشمندان این علم میپردازیم:
-
تجارت الکترونیک
در صنعت تجارت الکترونیک و خردهفروشی نیاز به تجزیهوتحلیل دادهها در بالاترین سطح وجود دارد. سازمانهای بزرگ با استفاده صحیح و کامل از تجزیهوتحلیل دیتاها میتوانند سود و زیان، خرید را پیشبینی و مدیریت کنند. همچنین میتوانند با ردیابی ترجیحات و علاقهمندی مشتریان، آنها را برای خرید کالاها و خدمات دستکاری کنند. تمامی مسائل ذکرشده با تجزیهوتحلیل مشخصات مشتری برای تأثیرگذاری بیشتر بر روی آنها امکانپذیر است؛ بنابراین، تجزیهوتحلیل دادهها به انجام این کار کمک شایانی میکند.
-
تولید
این علم نقش مهمی در کارایی دارد و با استفاده از آن میتوان کارایی و بهرهوری، کمیت و کیفیت تولید را افزایش و خطرات را کاهش داد. در ادامه به حوزههای تولیدی که این مفهوم در آنها مورد استفاده قرار گرفته است، میپردازیم:
- قیمتگذاری در بازار جهانی
- زنجیره تأمین و روابط تأمینکننده
- نگهداری مشروط و پیشبینیکننده
- اتوماسیون و طراحی امکانات جدید
- پایداری و بهرهوری انرژی بالاتر
- تضمین کیفیت، عملکرد و ردیابی نقص
- فرآیندهای جدید، مواد برای توسعه محصول و تکنیکهای تولید
-
مراقبتهای بهداشتی
این مفهوم در صنعت مراقبتهای بهداشتی برای سیستمهای بالینی، صورتحسابها، سوابق پزشکی و موارد دیگر استفاده میگردد. صنعت مراقبتهای بهداشتی تنها با این مفهوم میتواند با تعیین دادههای قبلی بیماران، مراقبتهای بهتری را ارائه نماید.
-
حملونقل
هر روزه دادههای بسیاری توسط صنعت حملونقل ایجاد میشود. دادهها از سیستمهای مکان وسیله نقلیه، دستگاههای شمارش مسافر، بلیط، سیستمهای جمعآوری کرایه و سار موارد جمعآوری میگردند. صنعت حملونقل با استفاده از این مفهوم میتواند بینشهایی را در مورد برنامهریزی و نظارت بر شبکههای حملونقل بیعیب و نقص ایجاد کند.
-
بانکداری و امور مالی
این مفهوم در بانکداری مالی استفاده بسیاری دارد. این دانش ذخیره اطلاعات و دادههای مشتریان را آسانتر، سریع و دقیق میکند. همچنین به بانکها کمک میکند تا از تاریخچه خرید، نحوه ارتباط، استفاده از تلفن همراه و اطلاع از تراکنشهای انجامشده از طریق کارتهای نقدی یا اعتباری مطلع گردند.
چالشهای دیتا ساینس
این مفهوم به دلیل ماهیت پیشرفته تجزیهوتحلیلی که شامل آن میشود، ذاتاً چالش برانگیز است. حجم وسیعی از ديتاها که معمولاً تجزیهوتحلیل میشوند، به پیچیدگی و افزایش زمان لازم برای تکمیل پروژهها میافزایند. علاوه بر این، دانشمندان دیتا اغلب با مجموعهای از دیتاهای بزرگ کار میکنند که ممکن است حاوی انواع دادههای ساختاریافته، بدون ساختار و نیمهساختار باشد و فرآیند تحلیل را پیچیدهتر میکنند. موانع ذکرشده از جمله چالشهایی هستند که متخصصان با آن مواجه میشوند.
یکی از بزرگترین چالشها حذف سوگیری در مجموعه دیتاها و برنامههای تحلیلی است. این امر شامل مسائل مربوط به خود، دیتاهای اساسی و مواردی است که دانشمندان داده بهطور ناخودآگاه در الگوریتمها و مدلهای پیشبینی ایجاد مینمایند. این سوگیریها میتوانند نتایج تحلیلها را در صورت عدم شناسایی و رسیدگی به آنها منحرف نمایند و یافتههای ناقصی را ایجاد کنند که منجر به تصمیمگیریهای نادرست تجاری میگردد.
معایب علم دادهها
دادهکاوی و تلاشهای صورتگرفته برای تحلیل کردن دیتاهای شخصی توسط شرکتهای رسانههای اجتماعی موردانتقاد قرار گرفته است؛ برای مثال، میتوان به رسواییهای متعددی مانند کمبریج آنالیتیکا که در آن دیتاهای شخصی توسط متخصصین دیتا برای تأثیرگذاری بر نتایج سیاسی یا تضعیف انتخابات استفاده میشد، اشاره نمود. این مفهوم حوزه بهکارگیری تکنیکهای تحلیلی پیشرفته و اصول علمی برای استخراج اطلاعات ارزشمند از دادهها جهت تصمیمگیری تجاری، برنامهریزی استراتژیک و سایر کاربردها بوده و برای کسبوکارها بهطور فزایندهای حیاتی است. سازمانها با کمک بینشهای ایجادشده توسط این مفهوم میتوانند نسبت به افزایش کارایی عملیاتی، شناسایی فرصتهای تجاری جدید، بهبود برنامههای بازاریابی و فروش و موارد دیگر اقدام نمایند. در نهایت، آنها میتوانند به مزیتهای رقابتی نسبت به رقبای تجاری منجر شوند.
این مفهوم رشتههای مختلفی از جمله مهندسی، تجسم و آمادهسازی دیتا، داده کاوی، تجزیهوتحلیل پیشبینی، یادگیری ماشین و همچنین آمار، ریاضیات و برنامهنویسی نرمافزار را شامل میشود. در وهله نخست این امر توسط دانشمندان داده ماهر با درنظر گرفتن فعالیت تحلیلگران دیتا دارای سطح پایینتر صورت میگیرد. علاوهبراین، در حال حاضر، بسیاری از سازمانها تا حدی به دانشمندان دیتا منطبق با کسبوکار خود متکی هستند. این افراد میتوانند شامل متخصصان هوش تجاری (BI)، تحلیلگران کسبوکار، کاربران تجاری آگاه به داده، مهندسان دیتا و سایر اشخاصی باشند که پیشزمینهای رسمی در مورد این دانش کسب ننمودهاند.
دانشمندان داده چه میکنند و به چه مهارتهایی نیاز دارند؟
نقش اصلی این دانشمندان، تجزیهوتحلیل دیتاها و تلاش برای یافتن اطلاعات مفیدی است که میتواند توسط مدیران شرکتها، مدیران تجاری و کارگران و همچنین مقامات دولتی، پزشکان، محققان و بسیاری دیگر به اشتراک گذاشته شود. علاوهبراین، این دانشمندان ابزارها و فناوریهای هوش مصنوعی را برای استقرار در برنامههای مختلف ایجاد میکنند. بهطورکلی، در هر دو مورد ذکرشده آنها دیتاها را جمعآوری میکنند، مدلهای تحلیلی را توسعه میدهند و سپس مدلها را بر اساس دیتاها آموزش، آزمایش و اجرا مینمایند.
در نتیجه، این دانشمندان باید ترکیبی از آمادهسازی داده، دادهکاوی، مدلسازی پیشبینیکننده، یادگیری ماشین، تجزیهوتحلیل آماری و مهارتهای ریاضی و همچنین تجربه با الگوریتمها و کدنویسی را کسب نمایند؛ برای مثال، مهارتهای برنامهنویسی در زبانهایی مانند پایتون،R و SQL وظیفه ایجاد تجسم دیتاها، داشبوردها و گزارشها را برای نشان دادن یافتههای تحلیلی بر عهده دارند.
علاوهبراین، مهارتهای فنی نیز لازمه این دانشمندان است. آنها به مجموعهای از مهارتها مانند دانش تجاری، کنجکاوی و تفکر انتقادی نیاز دارند. از دیگر مهارتهای ضروری برای این متخصصان توانایی ارائه اطلاعات، بینش و توضیح اهمیت آنها به روشی است که برای کاربران تجاری آسان است. این امر شامل قابلیتهای داستانسرایی داده برای ترکیب تجسم دادهها، متون، فلوچارتها و نمودارهایی است در یک ارائه آماده میشود.
هوش تجاری در مقابل علم داده
یکی از مهمترین اهداف هر دو مفهوم، گزارش اولیه جهت کمک به تصمیمگیری عملیاتی و برنامهریزی استراتژیک است؛ اما هوش تجاری در درجه اول بر تجزیهوتحلیل توصیفی متمرکز است. منظور از تجزیهوتحلیل توصیفی این است که اتفاقات رخداده یا درحال رخدادن که توسط سازمانها باید بررسی شوند را مشخص میکند. عموماً تحلیلگران و کاربران سلفسرویس هوش تجاری با دادههای تراکنش ساختاریافته فعالیت میکنند که از سیستمهای عملیاتی جهت سازگاری استخراج، پاکسازی و تبدیل گشتهاند و برای تجزیهوتحلیل در انبار یا بازار دیتا بارگذاری میگردند. نظارت بر عملکرد، فرآیندها و روندهای تجاری یک مورد رایج استفاده از هوش مصنوعی است.
در واقع میتوان گفته که علم داده رویکرد آیندهنگرتری دارد. این مفهوم یک روش اکتشافی با تمرکز بر تجزیهوتحلیل دادههای گذشته یا فعلی و پیشبینی نتایج آینده با هدف تصمیمگیری آگاهانه بوده و به سؤالات باز درباره چیستی و چرایی رویدادها پاسخ میدهد. در ادامه به بررسی تفاوت این دو مفهوم در جدولی مدون میپردازیم:
امکانات | هوش تجاری (BI) | علم داده |
منابع داده | ساختاریافته (اغلب انبار داده، معمولاً SQL) | هم ساختاریافته و هم بدون ساختار
(سیاهههای مربوط، دیتاهای ابری، SQL، NoSQL، متن) |
رویکرد | آمار و تجسم | یادگیری ماشین، تجزیهوتحلیل نمودار، برنامهریزی عصبی زبانی (NLP) |
تمرکز | گذشته و حال | حال و آینده |
ابزار | Pentaho ،Microsoft BI ،QlikView ،R | RapidMiner ،BigML ،Weka ،R |
آینده علم دادهها
با رواج روزافزون این علم در سازمانها، انتظار میرود که دانشمندان داده نقش بیشتری در فرآیند تجزیهوتحلیل داشته باشند. گارتنر (مؤسسه تحقیقاتی مشاوره کسبوکار) طی گزارش ۲۰۲۰ Magic Quadrant خود در مورد پلتفرمهای این مفهوم و یادگیری ماشین اظهار کرد که نیاز به حمایت مجموعه گستردهای از کاربران این دانش بهطور فزایندهای انجام میگیرد. یکی از نتایج محتمل این رویداد، افزایش استفاده از یادگیری ماشین خودکار از جمله توسط دانشمندان دیتا ساینس ماهر است که به دنبال سادهسازی و تسریع کار خود هستند.
چرخه حیات علم داده
-
کشف
پیش از شروع پروژه درک مشخصات مختلف، الزامات، اولویتها و بودجه موردنیاز ضرورتی انکارناپذیر است. متخصصان باید توانایی پرسیدن سؤالات درست را داشته باشند. در این مرحله باید در اختیار بودن منابع موردنیاز از نظر افراد، فناوری، زمان و داده برای پشتیبانی از پروژه بررسی شود. در این مرحله بازاریابان باید مشکلات پیشروی کسبوکار را چارچوببندی کنند و فرضیههای اولیه را برای آزمایش بهصورت فرمول در بیاورند.
-
آمادهسازی
دانشمندان در این مرحله به سندباکس تحلیلی نیاز دارند که در آن بتوانند تجزیهوتحلیل را برای کل مدت پروژه انجام دهند. پیش از مدلسازی میبایست دیتاها را کاوش، پیشپردازش و شرطیسازی نمود. علاوهبراین، مراحل استخراج، تبدیل، بارگذاری و تبدیل (ETLT) را برای دریافت دادهها باید انجام داد. در ادامه به یک مثال برای بررسی جریان تحلیل آماری میپردازیم:
متخصصان میتوانند از R برای تمیزکردن، تبدیل و تجسم دادهها استفاده نمایند. این امر به آنها در شناسایی نقاط پراکنده و برقراری ارتباط بین متغیرها کمک میکند. پس از پاکسازی و آمادهسازی دیتاها میبایست تجزیهوتحلیل اکتشافی بر روی آن صورت پذیرد. این بخش در مراحل بعد بررسی میشود.
-
برنامهریزی مدل
در قسمت برنامهریزی مدل، روشها و تکنیکهای ترسیم روابط بین متغیرها تعیین میشوند. این روابط پایه الگوریتمهایی را که قرار است در مرحله بعدی پیادهسازی شوند را تنظیم میکند. دانشمندان تجزیهوتحلیل دادههای اکتشافی (EDA) را با استفاده از فرمولهای آماری مختلف و ابزارهای تجسم اعمال خواهند نمود.
در ادامه به بررسی ابزارهای مختلف برنامهریزی مدل میپردازیم:
ابزارهای برنامهریزی مدل
- R: مجموعه کاملی از قابلیتهای مدلسازی را دارد و محیط خوبی را برای ساخت مدلهای تفسیری فراهم میکند.
- سرویسهایSQL Analysis: این سرویسهای تجزیهوتحلیل میتوانند بررسی درون پایگاه داده را با استفاده از توابع رایج داده کاوی و مدلهای پیشبینی اولیه انجام دهند.
- SAS وACCESS: این دو ابزار را میتوان برای دسترسی به دیتاها از Hadoop و جهت ایجاد نمودارهای جریان مدل تکرارپذیر و قابل استفاده مجدد بهکار گرفت.
علاوهبر ابزارهای فوق، ابزارهای زیادی در بازار وجود دارد، اما در میان آنها سرویس R پرکاربردترین ابزار محسوب میشود.
نکته: Hadoop یک چارچوب نرمافزاری منبعباز است که پردازش توزیعشده دادههای بزرگ را بر روی خوشههایی از سرورها امکانپذیر میکند.
متخصصان پس از طی این مرحله بینشهایی در مورد ماهیت دیتاهای خود دریافت میکنند و در رابطه با الگوریتمهای مورد استفاده خود تصمیم میگیرند. در بخش بعد الگوریتمهای شناساییشده اعمال میشوند و سپس یک مدل ساخته میشود.
-
ساختمان و چارچوب مدل
متخصصان در مرحله ساختمان و چارچوب مدل، مجموعه دادههایی را برای اهداف آموزشی و آزمایشی توسعه خواهند داد. در این بخش باید کافیبودن ابزارهای موجود برای اجرای مدلها درنظر گرفته شود. در صورت کافی نبودن ابزارها میبایست به محیط قویتری مانند پردازش سریع و موازی مراجعه نمود. دانشمندان با تکنیکهای مختلف یادگیری مانند طبقهبندی، تداعی و خوشهبندی برای ساخت مدل به تجزیهوتحلیل خواهند پرداخت.
-
عملیاتیشدن
متخصصان در این مرحله باید گزارشهای نهایی، جلسات توجیهی، کد و اسناد فنی را ارائه دهند. علاوهبراین، برخی اوقات پروژهای آزمایشی نیز در یک محیط تولید بلادرنگ اجرا میگردد. این امر تصویر واضحی از عملکرد و سایر محدودیتهای مرتبط در مقیاس کوچک پیش از استقرار کامل را در ذهن کاربر ترسیم مینماید.
-
بررسی میزان ارتباط با نتایج
در انتها باید ارزیابی نمود که چرخه طیشده توانایی هدف برنامهریزیشده در مرحله اول را دارد یا قادر به انجام هدف مورد انتظار سازمان نبوده است؛ بنابراین، این مرحله باید شناسایی کلیه یافتههای کلیدی، برقراری ارتباط با ذینفعان و تعیین موفقیتآمیز بودن یا نبودن نتایج موفقیت بر اساس معیارهای توسعهیافته در بخش کشف مشخص گردد.
پیشرفتهای فناوری، اینترنت، رسانههای اجتماعی و استفاده از فناوری و موارد دیگر دسترسی به دیتاهای بزرگ و علم داده را افزایش دادهاند. حوزه دیتا ساینس با پیشرفت فناوری و پیچیدهتر شدن تکنیکهای جمعآوری و تجزیهوتحلیل کلان دادهها بهطور فزایندهای در حال رشد است. با یادگیری و بهکار گیری این علم میتوانید در موج پیشرونده دادهها در عصر فناوری اطلاعات شناور شوید.
برای مطالعه مقاله های دیگر در زمینههای مختلف فناوری اطلاعات و ارتباطات اینجا کلیک کنید.
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.