کلان داده یا بیگ دیتا (Big data) چیست؟
کلان داده (Big data) به مجموعههای وسیع و متنوعی از اطلاعات اشاره دارد که با سرعتهای فزایندهای رشد میکنند. بیگ دیتا شامل حجم اطلاعات، سرعت یا شتابی است که در آن ایجاد و جمعآوری میشود و تنوع یا دامنه نقاط دادهای که تحت پوشش قرار میگیرند Big data اغلب از داده کاوی و در قالبهای مختلف بهدست میآید. این دادهها میتوانند ساختاری باشند. اغلب این دادهها بهصورت عددی هستند و بهراحتی قالببندی و ذخیره میگردند و یا بدون ساختار به شکل آزادتر با قابلیت اندازهگیری کمتر هستند. تقریباً هر بخش در یک شرکت میتواند از یافتههای تجزیهوتحلیل این دادهها استفاده نماید، اما مدیریت آن میتواند مشکلاتی ایجاد کند.
اصطلاح دادههای بزرگ در دهه گذشته در فرهنگ لغت ظاهر شد، اما مفهوم آن تقریباً از زمان جنگ جهانی دوم وجود داشته است. این اصطلاح همچنین میتواند به فرآیندهای جمعآوری و تجزیهوتحلیل حجم عظیمی از اطلاعات دیجیتال برای تولید هوش تجاری اشاره داشته باشد. ازآنجاییکه مجموعه دادهها به رشد خود ادامه میدهند و برنامهها دادههای جریانی و بلادرنگ بیشتری تولید میکنند، کسبوکارها برای ذخیره، مدیریت و تجزیهوتحلیل این دادههای خود به ابر روی میآورند.
بیگ دیتا ؛ پایه تحولات اثر دیجیتال در آینده
امروزه تقریباً ۶۵۰۰ میلیون دستگاه متصل اطلاعات خود را از طریق اینترنت به اشتراک میگذارند. در سال ۲۰۲۵ این رقم به ۲۰۰۰۰ میلیون خواهد رسید. این مفهوم با استفاده از تجزیهوتحلیل دادهها آن را به اطلاعات متحولکننده جهان تبدیل مینماید.
انقلاب دیجیتال در حال تغییر اقتصاد، جامعه و مردم است. آغازکننده این انقلاب، اطلاعات تولیدشده توسط هزاران نفر با استفاده از میلیونها دستگاه اینترنت است. به گفته گارتنر (شرکت پژوهشی و مشاوره آمریکایی)، در سال ۲۰۱۶ نزدیک به ۶۵۰۰ میلیون دستگاه وجود داشت و این رقم تا سال ۲۰۲۵ به ۲۰۰۰۰ میلیون دستگاه خواهد رسید. به همین ترتیب، اینترنت اشیا با اتصال ۱۰۰۰۰۰ میلیون با افزایش شدید مواجه خواهد شد.
انتظار میرود که این مفهوم در چند سال آینده ۹۰۰۰۰۰ شغل در سراسر جهان ایجاد کند و شرکتهایی که موفق به استفاده هوشمندانه از دادهها میشوند، میزان بهرهوری خود را تا ۸ درصد افزایش خواهند داد. این دادهها را میتوان از نظرات به اشتراک گذاشتهشده عمومی در شبکههای اجتماعی و وبسایتها که بهطور داوطلبانه از وسایل الکترونیکی شخصی و برنامهها، از طریق پرسشنامهها، خرید محصول و بررسی الکترونیکی گردآوری میشود، جمعآوری نمود. اغلب این دادهها در پایگاههای داده کامپیوتری ذخیره میگردند و با استفاده از نرمافزارهایی که بهطور خاص برای مدیریت مجموعه دادههای بزرگ و پیچیده طراحی شدهاند، تجزیهوتحلیل میگردند.
کلان داده چگونه کار میکند؟
این دادهها را میتوان به دو دسته بدون ساختار یا ساختیافته طبقهبندی نمود. دادههای ساختاریافته شامل اطلاعاتی است که پیشازاین توسط سازمان در پایگاههای داده و صفحات گسترده مدیریت شده است و غالباً ماهیت عددی دارد. دادههای بدون ساختار اطلاعاتی هستند که سازماندهی نشدهاند و در یک مدل یا قالب از پیش تعیینشده قرار نمیگیرند. این مفهوم شامل دادههای جمعآوریشده از منابع رسانههای اجتماعی است که به مؤسسات در جمعآوری اطلاعات مربوط به نیازهای مشتری کمک میکند.
اغلب این دادهها در پایگاههای داده کامپیوتری ذخیره میشوند و با استفاده از نرمافزارهایی که بهطور خاص برای مدیریت مجموعه دادههای بزرگ و پیچیده طراحی شدهاند، تجزیهوتحلیل میگردند. بسیاری از شرکتهای نرمافزار بهعنوان سرویس (SaaS) در مدیریت این نوع دادههای پیچیده تخصص دارند.
موارد استفاده از بیگ دیتا
تحلیلگران داده به رابطه بین انواع مختلف دادهها از جمله دادههای جمعیتی و سابقه خرید مینگرند تا همبستگی بین آنها را تعیین کنند. چنین ارزیابیهایی ممکن است توسط شخص ثالث متمرکز بر پردازش دادههای بزرگ در قالبهای قابل هضم در داخل یا خارج از کشور انجام شود. اغلب کسبوکارها با استفاده از ارزیابی دادههای بزرگ توسط کارشناسان دیتا، آنها را به اطلاعات عملی تبدیل مینمایند. بسیاری از شرکتها مانند آلفابت و متا (فیسبوک سابق) از دادههای بزرگ برای تولید درآمد تبلیغاتی با قرار دادن تبلیغات هدفمند برای کاربران در رسانههای اجتماعی و افراد جستجوکننده در وب استفاده میکنند.
بهطورکلی، تقریباً هر بخش در یک شرکت میتواند از یافتههای تجزیهوتحلیل دادهها از منابع انسانی و فناوری گرفته تا بازاریابی و فروش استفاده کند. هدف این دادهها افزایش سرعت ورود محصولات به بازار، کاهش زمان و منابع موردنیاز برای بهدست آوردن پذیرش بازار، مخاطبان هدف و اطمینان از راضی ماندن مشتریان است.
استفاده از کلان داده چه مزایا و معایبی را بهدنبال دارد؟
مزایا: افزایش حجم دادههای موجود فرصتها و مشکلات گوناگونی را ایجاد میکند. در حالت کلی، دارا بودن دادههای بیشتر در مورد مشتریان باید به شرکتها اجازه دهد تا محصولات و تلاشهای بازاریابی را بهمنظور ایجاد بالاترین سطح رضایت و تکرار تجارت تنظیم نمایند. شرکتهایی که حجم زیادی از دادهها را جمعآوری میکنند، این فرصت را دارند که تجزیهوتحلیل عمیق و غنیتری را به نفع همه ذینفعان انجام دهند. امروزه با توجه به حجم دادههای شخصی موجود در مورد افراد، بسیار مهم است که شرکتها برای محافظت از این دادهها اقدامات لازم را انجام دهند. این موضوع به یک بحث داغ در دنیای آنلاین امروزی تبدیل شده است و بهویژه با نقض دادههای بسیاری که شرکتها در چند سال اخیر تجربه کردهاند؛ حجم آن روزبهروز افزایش مییابد.
معایب: این داده ها میتوانند با ایجاد حجم اضافه و نویز از میزان مفید بودن اطلاعات اکتسابی بکاهند. شرکتها میبایست با مدیریت حجم بیشتری از دادهها، تعیین کنند که کدام داده در مقایسه با نویز سیگنالها را نشان میدهند. تصمیمگیری در مورد عناصر مرتبطکننده دادهها یک عامل کلیدی محسوب میشود. علاوهبراین، ماهیت و قالب دادهها میتواند پیش از عملکردن بر اساس آن نیاز به رسیدگی خاصی داشته باشد. دادههای ساختاریافته متشکل از مقادیر عددی میتوانند بهراحتی ذخیره و مرتب شوند. دادههای بدون ساختار، مانند ایمیلها، ویدئوها و اسناد متنی ممکن است نیاز به تکنیکهای پیچیدهتری برای قابل استفاده بودن داشته باشند.
مفهوم ۳V در بیگ دیتا چیست؟
در سال ۲۰۰۱، داگ لنی (تحلیلگر صنعت در گارتنر) به تعریف این مفهوم میپردازد:
-
ظرفیت (Volume)
انفجار بیسابقه دادهها به این معنی است که جهان دیجیتال تا سال ۲۰۲۵ به ۱۸۰ زتابایت (۱۸۰ و ۲۱ صفر در مقابل آن) خواهد رسید. در عصر دریای دادهها، چالش حجم دادهها صرفاً ذخیرهسازی آنها نیست، بلکه چگونگی شناسایی دادههای مرتبط در مجموعه دادههای غولپیکر، ساخت و استفاده بهینه از دیتاها است.
-
سرعت (Velocity)
دادهها با سرعتی فزاینده تولید میشوند. گوگل در هر دقیقه ۳٫۸ میلیون درخواست جستجو دریافت میکند. کاربران ایمیل ۱۵۶ میلیون پیام ارسال میکنند. کاربران فیسبوک ۲۴۳۰۰۰ عکس آپلود میکنند. چالش پیش روی دانشمندان داده، یافتن راههایی برای جمعآوری، پردازش و استفاده از حجم عظیمی از دادهها به محض ورود است.
-
تنوع (Variety)
دادهها به اشکال مختلف ایجاد میشوند. دادههای ساختاریافته حالتی است که میتواند بهطور منظم در ستونهای یک پایگاه داده سازماندهی گردد. ورود، ذخیره، پرسوجو و تجزیهوتحلیل این نوع دادهها نسبتاً آسان است. مرتبسازی و استخراج ارزش از دادههای بدون ساختار دشوارتر است. ایمیلها، پستهای رسانههای اجتماعی، اسناد پردازش کلمه. فایلهای صوتی، تصویری و عکس، صفحات وب و موارد دیگر نمونههایی از دادههای بدون ساختار محسوب میگردند.
فراتر از مرزهای ۳V!
دانشمندان داده IBM دادههای بزرگ را به چهار بعد حجم، تنوع، سرعت و صحت تقسیم میکنند. اخیراً متخصصان دیتا موارد دیگری را نیز پیشنهاد کردهاند:
-
صحت (Veracity)
این مورد به کیفیت دادههای جمعآوریشده اشاره دارد. اگر دادههای منبع صحیح نباشد، تحلیلها بیارزش خواهند بود. با توجه به حرکت جهان به سمت تصمیمگیری خودکار و زندگی در دورانی که رایانهها بهجای انسانها دست به انتخاب میزنند، ضروری است که سازمانها بتوانند به کیفیت دادهها اعتماد کنند.
-
تغییرپذیری (Variability)
معنای دادهها دائماً در حال تغییر است؛ برای مثال، پردازش زبان توسط رایانه بسیار دشوار است؛ چراکه اغلب کلمات معانی مختلفی دارند. دانشمندان داده باید این تنوع را با ایجاد برنامههای پیچیده که زمینه و معنای کلمات را درک میکنند، درنظر بگیرند.
-
تجسم (Visualization)
دادهها باید برای سهامداران غیر فنی و تصمیمگیرندگان قابلدرک باشد. تجسم به معنای ایجاد نمودارهای پیچیدهای است که دانشمندان داده با استفاده از آن میتوانند دیتاها را به اطلاعات، سپس اطلاعات را به بینش، پسازآن بینش را به دانش و در نهایت دانش را به مزیت تبدیل نمایند.
-
مقدار (Value)
سازمانها میتوانند از دادههای بزرگ برای بهبود تصمیمگیریهای خود استفاده نمایند. یک مقاله مک کینزی (معتبرترین شرکت مشاور مدیریت جهانی) در مورد تأثیر بالقوه دادههای بزرگ بر مراقبتهای بهداشتی در ایالات متحده پیشنهاد میکند که طرحهای این دادهها میتواند ۳۰۰ تا ۴۵۰ میلیارد دلار یا ۱۲ تا ۱۷ درصد از ۲٫۶ تریلیون دلار کاهش هزینههای مراقبتهای بهداشتی را در ایالات متحده به همراه داشته باشد. در واقع اسرار پنهان موجود در دادههای بزرگ میتواند معدن طلایی از فرصتها و پسانداز برای کسبوکارها محسوب گردد.
آثار مثبت کلان داده در کسبوکارها
- تجربه مشتری: کسبوکارها میتوانند با مشتریمداری و بهینهسازی سفر مشتری خود، نسبت به رقبا مزایای بهتری داشته باشند.
- تحول مالی: سازمانها قادر خواهند بود ارزشهای سازمانی جدید و ورود استراتژیک را از طریق فرآیندهای مالی و حسابداری ارائه دهند.
- نوآوری محصول: شرکتها میتوانند محصولاتی را ایجاد و تکرار کنند که ایمنتر، مورد تقاضا و سودآور باشند.
- کاهش خطر: استفاده از تجزیهوتحلیل این دادهها، قرار گرفتن در معرض کلاهبرداری مالی و خطر امنیت سایبری را برای شرکتها به حداقل میرساند.
- بهینهسازی دارایی: بهینهسازی ارزش دارایی با استفاده از دادههای IOT و حسگر توسط این تکنولوژی برای مشاغل امکانپذیر خواهد بود.
- برتری عملیاتی: بازاریابان با استفاده از تکنیکهای این دانش میتوانند به نقاط اوج ارزش عملکرد پرسنل، تجهیزات و سایر منابع دستیابی داشته باشند.
موارد کاربردی از کلان داده
-
موارد استفاده از تجزیهوتحلیل
- داده کاوی برای غربال کردن دادهها برای یافتن الگوها و روابط
- الگوریتمهای آماری برای ساخت مدلها و پیشبینی نتایج
- یادگیری ماشین برای مدیریت دادههای در حال تغییر و جدید، سازگاری و غنیسازی مدلها
- تجزیهوتحلیل متن و پردازش زبان طبیعی برای واکاوی متون و گفتار آزاد
-
ابزارهای تجزیهوتحلیل
- تجزیهوتحلیل توصیفی برای نشاندادن موارد اتفاق افتاده
- تجزیهوتحلیل تشخیصی برای علت بروز اتفاقات
- تجزیهوتحلیل پیشبینی برای نشان دادن احتمالات رخداده در آینده
- تجزیهوتحلیل تجویزی برای اطلاعرسانی به کاربران جهت بهدست آوردن نتایج معین
-
ویژگیهای ابزارها
- استفاده از تعداد زیادی اتصالدهنده
- منبع باز یا اوپن سورس
- قابلحمل بودن
- سهولت استفاده
- قیمتگذاری شفاف
- سازگاری با ابر
- کیفیت داده یکپارچه و حاکمیت داده
امروزه در اغلب صنایع سازمانها و برندها از بیگ دیتا برای ایجاد زمینههای جدید استفاده میکنند. این دیتاها توانایی تجزیهوتحلیل و مطالعه با سرعتی که هرگز در گذشته در دسترس نبوده است را به ارمغان میآورد. این امر بر نحوه زندگی روزانه بشر تأثیر بسزایی دارد. بینشهای کشفشده از عملیات بر روی کلان داده ها میتوانند با صرف حداقل زمان، اطلاعات مناسبی در رابطه با بهینهسازی بخشهای گوناگون در اختیار کسبوکارها قرار دهند. مدیران توسط این اطلاعات میتوانند با انعطافپذیر کردن بودجههای خود در یک محیط مدرن و سودآور فعالیت نمایند.
برای مطالعه مقاله های دیگر در زمینههای مختلف فناوری اطلاعات و ارتباطات اینجا کلیک کنید.
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.