مفاهیم پایه

داده بزرگ چیست؟ معرفی کامل بیگ دیتا (Big Data)

در این مقاله قصد داریم در مورد داده بزرگ صحبت کنیم. بنابراین در ابتدا به شما خواهیم گفت داده بزرگ چیست، چه ویژگی هایی دارد، مزایای آن چیست و انواع آن کدامند؟ در اصل داده بزرگ یا کلان داده، داده هایی هستند که از تنوع و گوناگونی زیادی برخوردارند. به زبان ساده بخواهیم بگوییم، Big Data مجموعه ای از Data های بزرگتر و پیچیده تر است، به ویژه Big Data هایی که از منابع Data جدید منتشر می شوند، مورد استقبال بیشتری قرار می گیرند.

مجموعه Big Data ها آنقدر حجیم هستند که نرم افزار های سنتی پردازش Data، نمی توانند آن ها را مدیریت کنند. کاربرد مهم این حجم عظیم از Data این است که می توان از آن ها برای رفع مشکلات تجاری که قبلاً روشی برای مقابله با آن ها وجود نداشت، استفاده کرد.

ویژگی های داده بزرگ

کلان داده را می توان با ویژگی های زیر توصیف کرد:

  • حجم
  • تنوع
  • سرعت
  • تغییر پذیری

حجم

حجم و مقدار Data یکی از ویژگی های مهم برای داده های بزرگ می باشد. برای استفاده از Big Data، باید حجم بالایی از Data کم تراکم و بدون ساختار را پردازش کنید. Big Data ها می توانند داده‌ هایی با حجم نامشخص باشند، مانند داده‌ های توییتر، تعداد کلیک در یک صفحه وب یا یک برنامه تلفن همراه، یا حتی تجهیزات دارای حسگر. برای برخی از سازمان ها. Big Data ها ممکن است شامل ده ها ترابایت Data باشند یا حتی ممکن است حجم آن تا صدها پتابایت نیز رسیده باشد.

سرعت

منظور از سرعت، سرعت بالایی است که Data دریافت می کند. برخی از محصولات هوشمند مجهز به اینترنت در زمان واقعی عمل می کنند و نیاز به ارزیابی و اقدام در زمان واقعی دارند.

تنوع و گوناگونی

تنوع به انواع مختلفی از Data موجود اشاره دارد. انواع داده های سنتی ساختار یافته بودند و به خوبی در یک پایگاه داده رابطه ای قرار می گرفتند.

چند مثال برای بیگ دیتا

در بخش زیر چند مدل بیگ دیتا آورده شده است:

بورس نیویورک

بورس نیویورک یا NYSE نمونه‌ای از کلان داده است که روزانه حدود یک ترابایت داده تجاری جدید تولید می‌ کند.

رسانه های اجتماعی

آمار نشان می‌ دهد که هر روز 500+ ترابایت Data جدید وارد پایگاه‌ های اطلاعاتی سایت رسانه‌ اجتماعی فیس‌ بوک می‌ شود. این Data عمدتاً شامل آپلود عکس و ویدیو، تبادل پیام، گذاشتن نظرات و غیره می باشند.

موتور جت

یک موتور جت می‌ تواند 10+ ترابایت Data در 30 دقیقه پرواز، تولید کند. با هزاران پرواز در روز، تولید Data به چندین پتابایت نیز می رسد.

انواع داده های بزرگ

در بخش زیر انواع Big Data آورده شده است:

  • ساختار یافته
  • بدون ساختار
  • نیمه ساختار یافته

ساختار یافته

هر Data که می تواند در قالبی ثابت ذخیره، قابل دسترسی و پردازش شود به عنوان داده “ساختار یافته” نامیده می شود.

در طول مدت زمان، استعداد های علوم کامپیوتر در توسعه تکنیک‌ های کار با این نوع داده‌ ها (که قالب آن از قبل شناخته شده است) و همچنین استخراج ارزش از آن، موفقیت بیشتری کسب کرده است. با این حال، امروزه ما مشکلاتی را پیش‌ بینی می‌ کنیم که اندازه این نوع Data تا حد زیادی افزایش می‌ یابد. اندازه هایی که از چندین زتابایت شروع می شوند.

نکته: میدانستید 1021 بایت برابر با 1 زتابایت و یک میلیارد ترابایت، یک زتابایت را تشکیل می‌دهد.

با نگاهی به این ارقام می توان به راحتی متوجه شد که چرا نام Big Data بر روی آن گذاشته شده است و چالش های موجود در ذخیره سازی و پردازش آن را می توانید تصور کنید.

نمونه هایی از Big Data ساخت یافته

جدول «کارمند» در پایگاه داده نمونه‌ ای از داده‌ های ساختار یافته است.

Employee_IDEmployee_NameGenderDepartmentSalary_In_lacs
2365 Rajesh Kulkarni Male Finance650000
3398 Pratibha Joshi Female Admin 650000
7465 Shushil Roy Male Admin 500000
7500 Shubhojit Das Male Finance 500000
7699 Priya Sane Female Finance 550000

بدون ساختار

هر Data با شکل یا ساختار ناشناخته به عنوان داده های بدون ساختار طبقه بندی می شود. علاوه بر بزرگ بودن اندازه، داده های بدون ساختار چالش های متعددی را از نظر پردازش آن برای استخراج ارزش از آن ایجاد می کنند. یک مثال معمولی از داده های بدون ساختار، منبع داده نا همگن حاوی ترکیبی از فایل های متنی ساده، تصاویر، ویدئو ها و …. می باشد.

در حال حاضر سازمان‌ ها داده‌ های زیادی را در اختیار دارند، اما متاسفانه، آن ها نمی دانند چگونه از آن ارزش استخراج کنند زیرا این Data به شکل خام یا فرمت بدون ساختار هستند.

نمونه هایی از Big Data بدون ساختار

به عنوان یک نمونه ساده می توان به خروجی بازگردانده شده توسط «جستجوی Google» اشاره کرد.

نیمه ساختار یافته

داده های نیمه ساختاریافته می توانند شامل هر دو شکل داده باشند. ما می‌ توانیم داده‌ های نیمه‌ ساختار یافته را به‌ عنوان یک شکل ساختاریافته ببینیم، اما در واقع به عنوان ساختار یافته تعریف نشده‌اند. تعریف جدول در DBMS رابطه ای نمونه ای از داده های نیمه ساختار یافته ای است که در یک فایل XML نشان داده شده است.

نمونه هایی از داده های نیمه ساختار یافته

داده های شخصی ذخیره شده در یک فایل XML:

<rec><name>Prashant Rao</name><age>35</age></rec>
<rec><name>Seema R.</name><age>41</age></rec>
<rec><name>Satish Mane</name><age>29</age></rec>
<rec><name>Subrato Roy</name><age>26</age></rec>
<rec><name>Jeremiah J.</name><age>35</age></rec>

لطفاً توجه داشته باشید که داده‌ های برنامه وب، که ساختاری ندارند، شامل فایل‌ های گزارش، فایل‌ های سابقه تراکنش و غیره می شوند. سیستم‌ های OLTP برای کار با داده‌ های ساخت‌ یافته ساخته شده‌اند که در آن داده‌ ها در جدول ذخیره می‌ شوند.

مزایای پردازش Big Data

توانایی پردازش Big Data در DBMS مزایای متعددی را به همراه دارد.

دسترسی به داده‌ های اجتماعی از موتورهای جستجو و سایت‌ هایی مانند فیس‌ بوک، توییتر، سازمان‌ ها را قادر می‌سازد تا استراتژی‌ های تجاری خود را تنظیم کنند.

سیستم‌ های سنتی بازخورد مشتری، با سیستم‌ های جدیدی که با فناوری‌ های Big Data طراحی شده‌ اند جایگزین می‌ شوند. در این سیستم‌ های جدید، فناوری‌ های پردازش زبان طبیعی و داده‌ های بزرگ برای خواندن و ارزیابی پاسخ‌ های مصرف‌ کننده استفاده می‌ شوند.

با توجه به داده باز ها، می توانید در تصویر زیر متوجه اشتراک و تفاوت بزرگ داده ها و داده باز ها بشوید.

امیدوارم از مطالعه مقاله “Big Data چیست” لذت برده باشید.

نمایش دیدگاه‌ها

منتشر شده توسط
samira.mohammadpur_server