مفاهیم پایه

معرفی کلاسترینگ و انواع آن

ما در این مقاله به معرفی کلاسترینگ به شما عزیزان می پردازیم تا به طور کامل با مفهوم و ساز و کار آن همچنین با انواع کلاسترنیگ آشنا شوید.

بررسی اجمالی

  • در مورد کلاسترینگ ، یکی از محبوب ترین تکنیک های طبقه بندی بدون نظارت، اطلاعات کسب کنید.
  • تقسیم داده ها در خوشه ها می تواند براساس سانتریفوژها، توزیع ها، تراکم و غیره باشد.
  • با K-Means و خوشه بندی سلسله مراتبی و تفاوت بین این دو آشنا شوید.

این روز ها اهمیت و پیچیدگی داده ها باعث شده است تا پایداری و در دسترس بودن سرور ها اهمیت زیادی داشته باشد. میزان حساسیت در بسیاری از سازمان ها به حدی است که حتی چند ثانیه در دسترس نبودن اطلاعات را نمی توانند تحمل کنند و این تاخیر، باعث اختلال در سازمان و کار آن ها خواهد شد.

کلاسترینگ چیست؟

آیا با شرایطی روبه رو شده اید که یک مدیر ارشد بازاریابی یک شرکت به شما می گوید: “به من کمک کنید مشتریان خود را بهتر بشناسم تا بتوانم محصولات خود را به شکلی بهتر به بازار عرضه کنم!”

این اتفاق برای ما افتاده است و آنالیزور کاملاً بی پروا بود که چه کار کند! ما عادت داریم که مشکلات خاصی را حل کنیم، جایی که نتیجه ای برای مجموعه ی مختلفی از شرایط پیش بینی می شود. اما ما در این مورد هیچ سرنخی نداشتیم که در این موضوع چه باید بکنیم. اگر شخص از ما می خواست که ارزش زندگی (LTV) یا گرایش فروش متقابل را محاسبه کند، این سوال برای ما بسیار گسترده به نظر می رسید.

این معمولاً اولین واکنشی است که وقتی برای اولین بار با مشکل یادگیری بدون نظارت روبرو می شوید با آن مواجه خواهید شد! شما به دنبال بینش خاصی برای یک پدیده نیستید، آنچه شما به دنبال آن هستید ساختارهایی است که داده ها را در برمی گیرد و آنها را به یک نتیجه خاص داخل یک نود و یا گره قرار می دهد.

این روز ها با توجه به اهمیت بالای در دسترس بودن CRM ها، برای حل مشکل عدم دسترسی موضوع کلاسترینگ ارائه شده است که در این زمینه بسیار کمک می کند.

به روش شناسایی گروه های مشابه داده در یک مجموعه داده، خوشه بندی گفته می شود. این یکی از محبوب ترین تکنیک ها در علم داده است. در این مقاله، شما را از انواع خوشه بندی، الگوریتم های مختلف خوشه بندی و مقایسه بین دو روش متداول خوشه بندی، آشنا می کنیم.

خوشه بندی وظیفه تقسیم جمعیت یا نقاط داده به تعدادی از گروه ها است. به عبارت ساده، هدف این است که برای جدا کردن گروه هایی با صفات مشابه به آن ها خوشه ای اختصاص دهیم.

بیایید این را با یک مثال درک کنیم. فرض کنید، شما رئیس یک فروشگاه اجاره ای یا یک فروشگاه بزرگ و قدرتمند اینترنتی هستید و می خواهید اولویت مشتری های خود را برای مقیاس مشاغل خود درک کنید. آیا برای شما امکان دارد که به جزئیات هر مشتری دسترسی پیدا کنید و یک استراتژی تجاری منحصر به فرد برای هر یک از آنها تدوین کنید؟ قطعا نه. اما، کاری که می توانید انجام دهید این است که بر اساس عادات خرید آنها، کلیه مشتری های خود را به 10 گروه تقسیم کنید و از یک استراتژی جداگانه برای مشتری ها در هر یک از این 10 گروه استفاده کنید. این همان چیزی است که ما آن را خوشه بندی می نامیم.

اکنون که متوجه خوشه بندی شدید، بیایید تا مروری بر انواع خوشه بندی داشته باشیم.

به طور گسترده می توان خوشه بندی را به دو زیر گروه تقسیم کرد:

خوشه بندی سخت (Hard Clustering): در خوشه بندی سخت، هر نقطه داده یا به طور کامل به یک خوشه تعلق دارد یا خیر. به عنوان مثال، در مثال بالا هر مشتری از بین 10 گروه در یک گروه مشخص قرار می گیرد.

خوشه بندی نرم (Soft Clustering): در خوشه بندی نرم، به جای قرار دادن هر نقطه از داده ها در یک خوشه جداگانه، احتمال وجود نقطه داده در آن دسته از خوشه ها داده می شود. به عنوان مثال، با توجه به سناریوی فوق هر مشتری می تواند در هر 10 خوشه بندی فروشگاه باشد.

انواع الگوریتم های کلاسترینگ

از آنجا که وظیفه خوشه بندی ذهنی است، وسایلی که می توان برای دستیابی به این هدف مورد استفاده قرار داد، فراوان است. هر متدولوژی برای تعریف “شباهت” در بین نقاط داده از مجموعه ای از قوانین مختلف پیروی می کند. در حقیقت، بیش از 100 الگوریتم خوشه بندی شناخته شده است. اما تعداد کمی از الگوریتم ها به طور گسترده ای مورد استفاده قرار می گیرند، اجازه دهید با جزئیات به آنها نگاه کنیم:

مدل های اتصال(Connectivity models): همانطور که از نام این مدل پیدا شده است، این مدل ها بر اساس این مفهوم که داده ها به فضای نزدیکتر شبیه تر هستند، شباهت بیشتری به یکدیگر نسبت به نقاط داده دورتر دارند. این مدلها می توانند از دو رویکرد پیروی کنند. در روش اول، آنها با طبقه بندی کلیه نقاط داده به خوشه های جداگانه شروع می کنند و با کاهش فاصله، آنها را جمع می کنند. در روش دوم، تمام نقاط داده ها به عنوان یک خوشه واحد طبقه بندی می شوند و با افزایش فاصله تقسیم می شوند. همچنین، انتخاب عملکرد فاصله ذهنی است. تفسیر این مدل ها بسیار آسان است اما فاقد مقیاس پذیری برای دستیابی به مجموعه داده های بزرگ است. نمونه هایی از این مدل ها الگوریتم خوشه بندی سلسله مراتبی و انواع آن است.

مدلهای Centroid models) Centroid): اینها الگوریتم های خوشه ای تکراری هستند که در آنها مفهوم شباهت با نزدیکی یک نقطه داده به مرکز سلولهای خوشه ای حاصل می شود. الگوریتم خوشه بندی K-Means یک الگوریتم محبوب است که در این گروه قرار می گیرد. در این مدل ها، از خوشه های مورد نیاز در پایان باید قبلاً ذکر شود، که باعث می شود دانش قبلی از مجموعه داده مهم باشد. این مدلها برای بهینه سازی محلی، به صورت تکراری اجرا می شوند.

مدل های توزیع (Distribution models): این مدل های خوشه بندی مبتنی بر این مفهوم هستند که چقدر ممکن است که همه نقاط داده در خوشه به یک توزیع یکسان تعلق داشته باشند (به عنوان مثال: عادی، گاوسی). این مدل ها غالباً از ریزش بیش از حد رنج می برند. یک نمونه مشهور از این مدلها الگوریتم انتظار حداکثر است که از توزیع های عادی چند متغیره استفاده می کند.

مدلهای چگالی (Density Models): این مدلها فضای داده را برای مناطقی با تراکم متنوع نقاط داده در فضای داده جستجو می کنند. این مناطق، مناطق مختلف چگالی های مختلف را جدا می کند و نقاط داده را در این مناطق در همان خوشه اختصاص می دهد. نمونه های محبوب مدلهای چگالی DBSCAN و OPTICS هستند.

امیدواریم با خواندن مقاله معرفی کلاسترینگ و انواع آن توانسته باشید اهمیت کلاسترینگ را درک کنید.

منتشر شده توسط
samira.mohammadpur_server