خوشه‌بندی در Power BI

خوشه‌بندی در Power BI

نوشته شده توسط: بابک پیروز
۰۱ شهریور ۱۳۹۷
زمان مطالعه: 9 دقیقه
۳.۵
(۲)

خوشه‌بندی

خوشه‌بندی یا کلاسترینگ، اشیاء را براساس ویژگی‌هایی که با هم دارند گروه‌بندی می‌کند. هدف اصلی در خوشه‌بندی تقسیم بندی اشیاء به گونه‌ای است که بیشترین شباهت در یک گروه و بیشترین تفاوت با اشیاء گروه‌های دیگر را دارا ‌باشد. بعنوان تعریف ساده‌تر می‌توان گفت که اشیاء در خوشه مخصوص خود دارای بیشترین شباهت و در برابر اشیای متعلق به خوشه‌های دیگر دارای بیشترین تفاوت هستند. در ادامه به توضیح خوشه بندی در Power BI می پردازیم.

الگوریتم های خوشه‌بندی در Power BI

  • الگوریتم K-means
    – ویژگی‌های آنها به گونه‌ای است که اگر یکسری داده به آنها ارسال کنید می‌توانند داده‌ها را پارتیشن‌بندی کنند هر عنصری به یک خوشه تعلق می‌گیرد.
  • در دسته الگوریتم‌های پارتیشنینگ قرار دارد.
  • معروفترین، قدیمی ترین و ساده‌ترین الگوریتم‌های داده کاوی می‌باشد.
  • ورودی آن باید مشخص شود یعنی باید اعلام کنیم چند خوشه می‌خواهیم ایجاد کنیم و همچنین داده‌ای که باید بر روی آن خوشه‌بندی ایجاد شود.
  • خروجی الگوریتم K-means شامل K کلاستر (خوشه) از داده‌های موجود می‌باشد.
  • این الگوریتم جز الگوریتم‌های تکرار شونده (Iterative) است، یعنی از یک نقطه شروع می‌شود، یک بدنه تکرار دارد و همچنین شامل یک شرط توقف هست.
  • این الگوریتم در ابتدا برای خوشه‌ها یک نقطه مرکز مشخص می‌کند و سپس هر Object به نزدیکترین خوشه اختصاص میابد.
  • در این روش وقتی سمپل‌ها خوشه‌بندی می‌شوند مرکز خوشه نیز بهنگام می‌شود. مرکز خوشه از طریق میانگین مقادیر به دست می‌آید چون هر چقدر مقادیر بیشتر می‌شود مرکز آن نیز تغییر می‌کند.
  •  تا زمانی که مراکز عوض نشوند و همچنین مقادیر در خوشه‌های مختلف جابه جا نشوند حلقه به پایان می‌رسد.
  • نقطه مثبت: این الگرویتم این است که خیلی کارها از بابت زمان اجرا می‌باشد.(خیلی سریع)
  •  نقطه ضعف: فقط برای داده‌های عددی پیوسته مناسب می‌باشد. مثلا اگر شما در داده‌هایتان گروه خونی هم داشته باشید و بخواهید بر اساس آن هم تصمیم گیری کنید این الگوریتم جوابگوی کار شما نیست چون مثلا میانگین گروه خونی برایش بی معنی می‌باشد.برای این نوع داده باید از K-Mode استفاده شود. چون می‌توان مد گروه خونی را پیاده سازی کرد.(مد پرتکرار ترین ارزش را انتخاب می‌کند)
  • نقطه ضعف دیگر آن این است که به شدت به داده‌های Noisy و یا Outlier حساس می‌باشد چون این داده‌ها در میانگین تاثیر گذار هستند برای برطرف کردن این مشکل الگوریتم K-medoid وجود دارد. K-medoid از جنس میانه است، میانه نسبت به داده‌های پرت حساسیت کمتری دارد.

دوره آموزشی Power BI نیک آموز

به مثال زیر دقت کنید

یکسری داده داریم که فاصله آنها را با مرکز تصادفی طبق جدول حساب می‌کنیم، فرمول فاصله را از روش اقلیدسی انتخاب کردیم وقتی فاصله‌ها حساب شود و مقادیر در داخل خوشه‌ها قرار بگیرند باید مرکز نسبت به اعداد تغییر کند در محور مشاهده می‌کنیم که فلش‌هایی قرار دارد که مشخص می‌کند مرکز بهنگام شده است.
شایان ذکر است که در خوشه‌ها مرکز یک مقدار فرضی می‌باشد و به هیچ کدام از اعداد ارتباط ندارد.(مثلث)بعد از تغییر مرکز در الگوریتم K-Means خوشه نیز بهنگام می‌شوند.در مثال فوق از فرمول فاصله اقلیدسی استفاده شده است. ما انواع مختلف پیدا کردن فاصله در الگوریتم‌های خوشه‌بندی می‌توانیم داشته باشیم.

مثال عملی خوشه‌بندی در Power BI

فرض کنید داده زیر در دسترس می‌باشد این داده مشخص می‌کند میزان مصرف کشورهای مختلف از بابت گوشت قرمز، گوشت سفید، ماهی، تخم مرغ، حبوبات، غلات آجیل و… چگونه می‌باشند.از طریق عمل خوشه‌بندی می‌توانیم داده‌ها را دسته‌بندی کنیم، برای پیاده سازی از الگوریتم K-Means در خوشه‌بندی استفاده می‌کنیم.
می‌خواهیم بر اساس کشورها میزان مصرف گوشت قرمز و سفید را دسته‌*بندی کنیم.در تصویر فوق سه دسته را مشخص کردیم:

  • خوشه اول: کشورهایی که میزان مصرف گوشت سفید آنها بالاست ولی گوشت قرمز پایین است مثل آلمان ، هلند.
  • خوشه دوم: کشورهایی که میزان مصرف گوشت و گوشت قرمز آنها بالا است مثل فرانسه، انگلستان
  • خوشه سوم: کشورهایی که میزان مصرف گوشت قرمز و سفید آنها پایین می‌باشد مثل رومانی، ایتالیاو…

چه رتبه ای می‌دهید؟

میانگین ۳.۵ / ۵. از مجموع ۲

اولین نفر باش

title sign
دانلود مقاله
خوشه‌بندی در Power BI
فرمت PDF
5 صفحه
حجم 1 مگابایت
دانلود مقاله
title sign
معرفی نویسنده
بابک پیروز
مقالات
6 مقاله توسط این نویسنده
محصولات
5 دوره توسط این نویسنده
بابک پیروز

بابک پیروز مدرس و مشاور سیستم‌های هوش تجاری است، همچنین او مدرس رسمی ماکروسافت نیز می‌باشد. از دیگر سوابق حرفه ای او می توان به سابقه کاری در زمینه‌های تحلیل، طراحی، پیاده سازی و مدیریت سیستم‌های یکپارچه بانک‌های اطلاعاتی، متخصص در زمینه Power BI ,Qlikview ,Tableau ,Qliksense ,Microsoft BI مشاور و مدیر پروژه شرکت تاید واتر خاورمیانه، مشاور شرکت کوبل دارو، مشاور شرکت بیمه البرز، نویسنده کتاب مرجع شاخص‌های کلیدی عملکرد سازمان ، نویسنده کتاب کلیک ویو با رویکرد هوش تجاری اشاره نمود.

پروفایل نویسنده
title sign
دیدگاه کاربران

وبینار رایگان SQL Server؛ مسیری به سوی فرصت‌های شغلی بی‌شمار       پنج‌شنبه 30 فرودین ساعت 15
ثبت نام رایگان
close-image