نیک آموز > وبلاگ > هوش تجاری > خوشه‌بندی در Power BI
خوشه‌بندی در Power BI

خوشه‌بندی در Power BI

نوشته شده توسط: بابک پیروز
تاریخ انتشار: ۰۱ شهریور ۱۳۹۷
آخرین بروزرسانی: 08 بهمن 1404
زمان مطالعه: 9 دقیقه
۳.۵
(۲)

خوشه‌‌بندی در Power BI یا کلاسترینگ، اشیاء را براساس ویژگی‌هایی که با هم دارند گروه‌بندی می‌کند. هدف اصلی خوشه‌بندی در Power BI تقسیم بندی اشیاء به گونه‌ای است که بیشترین شباهت در یک گروه و بیشترین تفاوت با اشیاء گروه‌های دیگر را دارا ‌باشد. به‌عنوان تعریف ساده‌تر می‌توان گفت که اشیاء در خوشه مخصوص خود دارای بیشترین شباهت و در برابر اشیای متعلق به خوشه‌های دیگر دارای بیشترین تفاوت هستند. در ادامه به توضیح خوشه‌بندی در Power BI می پردازیم. همچنین پیشنهاد می‌کنیم در کنار مطالعه این مطلب، آموزش هوش تجاری را مطالعه کنید تا پیش‌زمینه مناسبی از Business Intelligence به‌دست آورید.

الگوریتم های خوشه‌بندی در Power BI

الگوریتم K-means

ویژگی‌های آنها به گونه‌ای است که اگر یکسری داده به آنها ارسال کنید می‌توانند داده‌ها را پارتیشن‌‌بندی کنند هر عنصری به یک خوشه تعلق می‌گیرد.

  • در دسته الگوریتم‌های پارتیشنینگ قرار دارد.
  • معروف‌ترین، قدیمی‌ترین و ساده‌ترین الگوریتم‌های داده کاوی می‌باشد.
  • ورودی آن باید مشخص شود یعنی باید اعلام کنیم چند خوشه می‌خواهیم ایجاد کنیم و همچنین داده‌ای که باید بر روی آن خوشه‌بندی ایجاد شود.
  • خروجی الگوریتم K-means شامل K کلاستر (خوشه) از داده‌های موجود می‌باشد.
  • این الگوریتم جز الگوریتم‌های تکرار شونده (Iterative) است، یعنی از یک نقطه شروع می‌شود، یک بدنه تکرار دارد و همچنین شامل یک شرط توقف هست.
  • این الگوریتم در ابتدا برای خوشه‌ها یک نقطه مرکز مشخص می‌کند و سپس هر Object به نزدیک‌ترین خوشه اختصاص میابد.
  • در این روش وقتی سمپل‌ها خوشه‌بندی می‌شوند مرکز خوشه نیز بهنگام می‌شود. مرکز خوشه از طریق میانگین مقادیر به دست می‌آید چون هر چقدر مقادیر بیشتر می‌شود مرکز آن نیز تغییر می‌کند.
  •  تا زمانی که مراکز عوض نشوند و همچنین مقادیر در خوشه‌های مختلف جابه جا نشوند حلقه به پایان می‌رسد.
  • یکی از نقاط قوت این الگوریتم، سرعت بالای اجرای آن و کارایی مناسب در پردازش داده‌هاست.
مشاهده و خرید کامل‌ترین آموزش Power BI از نیک آموز

الگوریتم K-Mode

الگوریتم K-Mode مشابه K-Means است اما برای داده‌های دسته‌ای (Categorical) طراحی شده است. در این روش به جای میانگین، از مد (مقدار پرتکرار) برای تعیین مرکز خوشه استفاده می‌شود. این الگوریتم برای داده‌هایی مانند گروه خونی، جنسیت یا دسته‌بندی‌های متنی مناسب است، زیرا میانگین در این نوع داده‌ها معنی ندارد. K-Mode برای داده‌های غیرعددی کاربردی است، اما ممکن است دقت کمتری نسبت به روش‌های دیگر داشته باشد.

 الگوریتم K-Medoid

K-Medoid یک نسخه مقاوم‌تر از K-Means است که به جای میانگین از میانه (Medoid) استفاده می‌کند. Medoid به معنای نمونه‌ای واقعی از داده‌هاست که بیشترین شباهت را به سایر نمونه‌های خوشه دارد. به همین دلیل K-Medoid نسبت به نقاط پرت و نویز حساسیت کمتری دارد و در داده‌های دارای outlier عملکرد بهتری ارائه می‌دهد. با این حال، K-Medoid معمولاً زمان‌برتر از K-Means است و برای داده‌های بزرگ ممکن است سرعت پایین‌تری داشته باشد.

 الگوریتم DBSCAN

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) یک الگوریتم خوشه‌بندی مبتنی بر چگالی است که خوشه‌ها را بر اساس تراکم داده‌ها شناسایی می‌کند. این الگوریتم به‌خوبی قادر است خوشه‌های با شکل‌های پیچیده و غیرکروی را تشخیص دهد و همچنین نقاط پرت را به‌عنوان نویز حذف کند. DBSCAN نیازی به تعیین تعداد خوشه‌ها از قبل ندارد، اما به تنظیم دو پارامتر مهم (ε و MinPts) نیاز دارد. این الگوریتم برای داده‌های پراکنده و نامنظم بسیار مناسب است، اما در داده‌های با چگالی متفاوت ممکن است عملکرد ضعیفی داشته باشد.

 

الگوریتم های خوشه‌بندی در Power BI
الگوریتم های خوشه‌بندی در Power BI

الگوریتم‌های K-Mode، K-Medoid و DBSCAN به‌صورت مستقیم در Power BI ارائه نمی‌شوند

در صورت نیاز به استفاده از این الگوریتم‌های خوشه‌بندی در Power BI، یکی از روش‌های زیر باید مورد استفاده قرار گیرد:

۱) استفاده از Python یا R در Power BI

Power BI امکان اجرای اسکریپت‌های Python و R را فراهم می‌کند. در این حالت، الگوریتم‌های K-Mode، K-Medoid یا DBSCAN می‌توانند با استفاده از Python یا R پیاده‌سازی شوند و خروجی حاصل در Power BI نمایش داده شود. در این رویکرد، محاسبات اصلی توسط Python یا R انجام می‌پذیرد و Power BI صرفاً به‌عنوان ابزار نمایش و گزارش‌دهی مورد استفاده قرار می‌گیرد.

۲) استفاده از Power Query (زبان M) یا DAX

برای برخی تحلیل‌های ساده‌تر، می‌توان از Power Query (زبان M) یا DAX استفاده کرد، اما این روش برای الگوریتم‌های پیچیده‌تر مانند DBSCAN یا K-Medoid مناسب نبوده و معمولاً در سناریوهای محدود کاربرد دارد.

۳) استفاده از سرویس‌های خارجی مانند Azure

در پروژه‌های بزرگ و حرفه‌ای، می‌توان مدل‌سازی خوشه‌بندی در Power BI را در سرویس‌های خارجی مانند Azure Machine Learning انجام داد و سپس خروجی حاصل را در Power BI بارگذاری کرد. در این حالت، Power BI نقش ابزار نمایش و تحلیل داده را ایفا می‌کند و محاسبات اصلی در محیط خارجی انجام می‌شود.

چگونه تعداد خوشه‌ها (K) را در K-Means انتخاب کنیم؟

در الگوریتم K-Means، قبل از اجرا باید تعداد خوشه‌ها (K) را مشخص کنیم. انتخاب K مناسب اهمیت زیادی دارد، چون تعیین تعداد خوشه‌ها روی کیفیت خروجی و معنی‌دار بودن نتایج تأثیر مستقیم دارد. برای انتخاب بهترین مقدار K معمولاً از دو روش رایج استفاده می‌شود:

۱. روش آرنج (Elbow Method)

در این روش، الگوریتم K-Means را برای مقادیر مختلف K اجرا می‌کنیم و مقدار Sum of Squared Errors (SSE) را برای هر K محاسبه می‌کنیم. سپس نمودار SSE نسبت به K رسم می‌شود. نقطه‌ای که پس از آن کاهش SSE به‌صورت قابل توجهی کمتر می‌شود (شبیه شکل یک آرنج)، معمولاً بهترین مقدار K محسوب می‌شود.

۲. امتیاز سیلوئت (Silhouette Score)

Silhouette Score یک معیار برای سنجش کیفیت خوشه‌بندی است و مقدار آن بین -۱ تا ۱ قرار می‌گیرد. مقدار نزدیک به ۱ نشان‌دهنده خوشه‌بندی مناسب و تفکیک‌پذیری خوب بین خوشه‌ها است. در این روش، برای مقادیر مختلف K، Silhouette Score محاسبه می‌شود و مقدار K که بیشترین امتیاز را دارد، بهترین تعداد خوشه انتخاب می‌شود.

جهت مطالعه بیشتر اتصال به منابع داده در Power BI  

 

خوشه‌بندی در Power BI با گروه‌بندی چه تفاوتی دارد؟

در برخی آموزش‌ها، خوشه‌بندی در Power BI با گروه‌بندی اشتباه گرفته می‌شود. تفاوت اصلی این دو در این است که:

  • گروه‌بندی (Grouping) بر اساس یک قانون از پیش تعیین‌شده انجام می‌شود؛ مثل گروه‌بندی افراد بر اساس سن (مثلاً ۲۰ تا ۳۰ سال، ۳۰ تا ۴۰ سال و …).

  • خوشه‌بندی (Clustering) بر اساس شباهت داده‌ها انجام می‌شود و هیچ قانون از پیش تعیین‌شده‌ای ندارد؛ یعنی الگوریتم خودش تصمیم می‌گیرد داده‌ها چگونه به خوشه‌ها تقسیم شوند.

بنابراین خوشه‌بندی برای کشف الگوهای پنهان در داده‌ها مناسب است، در حالی که گروه‌بندی بیشتر برای دسته‌بندی بر اساس معیارهای مشخص و از پیش تعریف‌شده کاربرد دارد.

خوشه‌بندی در Power BI با گروه‌بندی چه تفاوتی دارد؟
خوشه‌بندی در Power BI با گروه‌بندی چه تفاوتی دارد؟

محدودیت‌ها و نکات مهم در خوشه‌بندی Power BI

خوشه‌بندی در Power BI ابزار قدرتمندی است، اما محدودیت‌هایی نیز دارد که باید هنگام استفاده مدنظر قرار گیرد:

  • فقط برای داده‌های عددی پیوسته مناسب می‌باشد. مثلا اگر شما در داده‌هایتان گروه خونی هم داشته باشید و بخواهید بر اساس آن هم تصمیم گیری کنید این الگوریتم جوابگوی کار شما نیست چون مثلا میانگین گروه خونی برایش بی معنی می‌باشد.برای این نوع داده باید از K-Mode استفاده شود. چون می‌توان مد گروه خونی را پیاده سازی کرد (مد پرتکرار ترین ارزش را انتخاب می‌کند).
  • به شدت به داده‌های Noisy و یا Outlier حساس می‌باشد چون این داده‌ها در میانگین تاثیر گذار هستند برای برطرف کردن این مشکل الگوریتم K-medoid وجود دارد. K-medoid از جنس میانه است، میانه نسبت به داده‌های پرت حساسیت کمتری دارد.

راهکارهای جایگزین

  • داده‌های دسته‌ای: K-Mode

  • داده‌های نویزی و outlier :K-Medoid یا DBSCAN

  • خوشه‌های پیچیده: Hierarchical Clustering یا DBSCAN

الگوریتم های خوشه‌بندی در Power BI مناسب برای مزیت ضعف
K-Means داده‌های عددی پیوسته سریع و ساده حساس به نویز و outlier
K-Mode داده‌های دسته‌ای مناسب برای داده غیر عددی ممکن است دقت پایین‌تری داشته باشد
K-Medoid داده‌های نویزی کمتر حساس به outlier زمان‌ برتر از K-Means
DBSCAN داده‌های پراکنده و نامنظم شناسایی outlier نیاز به تنظیم پارامتر و حساس به مقیاس داده

به مثالی از خوشه‌بندی در Power BI دقت کنید

در خوشه‌بندی در Power BI یکسری داده داریم که فاصله آنها را با مرکز تصادفی طبق جدول حساب می‌کنیم، فرمول فاصله را از روش اقلیدسی انتخاب کردیم وقتی فاصله‌ها حساب شود و مقادیر در داخل خوشه‌ها قرار بگیرند باید مرکز نسبت به اعداد تغییر کند در محور مشاهده می‌کنیم که فلش‌هایی قرار دارد که مشخص می‌کند مرکز بهنگام شده است.
شایان ذکر است که در خوشه‌ها مرکز یک مقدار فرضی می‌باشد و به هیچ کدام از اعداد ارتباط ندارد. (مثلث)روش اقلیدسی

بعد از تغییر مرکز در الگوریتم K-Means خوشه نیز بهنگام می‌شوند.

الگوریتم K-Means

در مثال فوق از فرمول فاصله اقلیدسی استفاده شده است. در الگوریتم‌های خوشه‌بندی، معیارهای مختلفی برای محاسبه فاصله استفاده می‌شود.

الگوریتم‌های خوشه‌بندی

مثال عملی خوشه‌بندی در Power BI

فرض کنید داده زیر در دسترس می‌باشد این داده مشخص می‌کند میزان مصرف کشورهای مختلف از بابت گوشت قرمز، گوشت سفید، ماهی، تخم مرغ، حبوبات، غلات آجیل و… چگونه می‌باشند.مثال عملی خوشه‌بندی در Power BIاز طریق عمل خوشه‌بندی در Power BI می‌توانیم داده‌ها را دسته‌بندی کنیم، برای پیاده سازی از الگوریتم K-Means در خوشه‌بندی استفاده می‌کنیم.
می‌خواهیم بر اساس کشورها میزان مصرف گوشت قرمز و سفید را دسته‌بندی کنیم.میزان مصرف گوشت قرمز و سفید

  • خوشه اول: کشورهایی که میزان مصرف گوشت سفید آنها بالاست ولی گوشت قرمز پایین است مثل آلمان، هلند.
  • خوشه دوم: کشورهایی که میزان مصرف گوشت و گوشت قرمز آنها بالا است مثل فرانسه، انگلستان
  • خوشه سوم: کشورهایی که میزان مصرف گوشت قرمز و سفید آنها پایین می‌باشد مثل رومانی، ایتالیا و…

ویدیوی آموزشی خوشه‌بندی در Power BI

برای درک بهتر مفاهیم مطرح‌شده در این مقاله، مشاهده ویدیو زیر می‌تواند مفید باشد. در این ویدیو با شیوه اجرای خوشه‌بندی در Power BI آشنا می‌شوید که به درک کاربرد عملی این تکنیک تحلیلی کمک خواهد کرد.

سخن پایانی خوشه‌بندی در Power BI

خوشه‌بندی در Power BI یک روش تحلیل داده است که به شما امکان می‌دهد داده‌ها را به گروه‌های مشابه تقسیم کنید. این فرآیند به شما کمک می‌کند تا الگوها و روابط پنهان در داده‌ها را شناسایی کنید و تحلیل‌های دقیق‌تری انجام دهید. با استفاده از خوشه‌بندی، می‌توانید داده‌ها را به صورت بصری نمایش دهید و تصمیمات بهتری بگیرید. این ابزار به ویژه در تحلیل‌های بازاریابی، تقسیم‌بندی مشتریان و شناسایی رفتارهای مشابه بسیار مفید است. برای مسیر آموزشی کامل‌تر Power BI و هوش تجاری، نیک‌ آموز می‌تواند همراه شما باشد.

سوالات متداول خوشه‌بندی در Power BI

۱. خوشه‌بندی در Power BI چیست و چه هدفی دارد؟

خوشه‌بندی در Power BI فرآیندی است که اشیاء را بر اساس میزان شباهت ویژگی‌هایشان در گروه‌هایی قرار می‌دهد، به‌طوری‌که بیشترین شباهت درون هر خوشه و بیشترین تفاوت بین خوشه‌ها وجود داشته باشد.

۲. چه الگوریتم خوشه‌بندی به‌صورت پیش‌فرض در Power BI وجود دارد؟

در Power BI به‌صورت داخلی فقط الگوریتم K-Means پشتیبانی می‌شود و سایر الگوریتم‌های خوشه‌بندی به‌صورت مستقیم در دسترس نیستند.

۳. الگوریتم K-Means چگونه کار می‌کند؟

K-Means با تعیین تعداد خوشه‌ها (K) شروع می‌شود، مراکز اولیه‌ای برای خوشه‌ها انتخاب می‌کند و سپس داده‌ها را بر اساس کمترین فاصله (معمولاً فاصله اقلیدسی) به نزدیک‌ترین خوشه اختصاص می‌دهد. این فرآیند به‌صورت تکرارشونده ادامه پیدا می‌کند تا مراکز خوشه‌ها ثابت شوند.

۴. چرا الگوریتم K-Means برای داده‌های دسته‌ای مناسب نیست؟

زیرا K-Means بر اساس میانگین مقادیر عددی عمل می‌کند و در داده‌های دسته‌ای مانند گروه خونی یا جنسیت، محاسبه میانگین معنایی ندارد. برای این نوع داده‌ها باید از الگوریتم K-Mode استفاده شود.

۵. الگوریتم‌های K-Mode، K-Medoid و DBSCAN چگونه در Power BI قابل استفاده هستند؟

این الگوریتم‌ها به‌صورت مستقیم در Power BI ارائه نمی‌شوند و برای استفاده از آن‌ها باید از Python یا R، یا سرویس‌های خارجی مانند Azure Machine Learning استفاده کرد و سپس خروجی را در Power BI نمایش داد.

۶. تفاوت خوشه‌بندی با گروه‌بندی چیست؟

گروه‌بندی بر اساس قوانین از پیش تعریف‌شده انجام می‌شود، اما خوشه‌بندی هیچ قانون مشخصی از قبل ندارد و الگوریتم بر اساس شباهت داده‌ها، الگوهای پنهان را کشف کرده و خوشه‌ها را تشکیل می‌دهد.

چه رتبه ای می‌دهید؟

میانگین ۳.۵ / ۵. از مجموع ۲

اولین نفر باش

title sign
دانلود مقاله
خوشه‌بندی در Power BI
فرمت PDF
5 صفحه
حجم 1 مگابایت
دانلود مقاله
title sign
معرفی نویسنده
بابک پیروز
مقالات
6 مقاله توسط این نویسنده
محصولات
6 دوره توسط این نویسنده
بابک پیروز

بابک پیروز مدرس و مشاور سیستم‌های هوش تجاری است، همچنین او مدرس رسمی ماکروسافت نیز می‌باشد. از دیگر سوابق حرفه ای او می توان به سابقه کاری در زمینه‌های تحلیل، طراحی، پیاده سازی و مدیریت سیستم‌های یکپارچه بانک‌های اطلاعاتی، متخصص در زمینه Power BI ,Qlikview ,Tableau ,Qliksense ,Microsoft BI مشاور و مدیر پروژه شرکت تاید واتر خاورمیانه، مشاور شرکت کوبل دارو، مشاور شرکت بیمه البرز، نویسنده کتاب مرجع شاخص‌های کلیدی عملکرد سازمان ، نویسنده کتاب کلیک ویو با رویکرد هوش تجاری اشاره نمود.

title sign
دیدگاه کاربران

مسیر اجرای پروژه‌های هوش تجاری

چگونه یک پروژه هوش تجاری از صفر تا صد اجرا می‌شود؟

  • این قسمت برای اهداف اعتبارسنجی است و باید بدون تغییر باقی بماند.

ویدئو رایگان