خوشهبندی
کلاسترینگ، اشیاء را براساس ویژگیهایی که با هم دارند گروهبندی میکند. هدف اصلی در خوشهبندی تقسیم بندی اشیاء به گونهای است که بیشترین شباهت در یک گروه و بیشترین تفاوت با اشیاء گروههای دیگر را دارا باشد. بعنوان تعریف سادهتر میتوان گفت که اشیاء در خوشه مخصوص خود دارای بیشترین شباهت و در برابر اشیای متعلق به خوشههای دیگر دارای بیشترین تفاوت هستند.
الگوریتم های خوشهبندی
- الگوریتم K-means
– ویژگیهای آنها به گونهای است که اگر یکسری داده به آنها ارسال کنید میتوانند دادهها را پارتیشنبندی کنند هر عنصری به یک خوشه تعلق میگیرد. - در دسته الگوریتمهای پارتیشنینگ قرار دارد.
- معروفترین، قدیمی ترین و سادهترین الگوریتمهای داده کاوی میباشد.
- ورودی آن باید مشخص شود یعنی باید اعلام کنیم چند خوشه میخواهیم ایجاد کنیم و همچنین دادهای که باید بر روی آن خوشهبندی ایجاد شود.
- خروجی الگوریتم K-means شامل K کلاستر (خوشه) از دادههای موجود میباشد.
- این الگوریتم جز الگوریتمهای تکرار شونده (Iterative) است، یعنی از یک نقطه شروع میشود، یک بدنه تکرار دارد و همچنین شامل یک شرط توقف هست.
- این الگوریتم در ابتدا برای خوشهها یک نقطه مرکز مشخص میکند و سپس هر Object به نزدیکترین خوشه اختصاص میابد.
- در این روش وقتی سمپلها خوشهبندی میشوند مرکز خوشه نیز بهنگام میشود. مرکز خوشه از طریق میانگین مقادیر به دست میآید چون هر چقدر مقادیر بیشتر میشود مرکز آن نیز تغییر میکند.
- تا زمانی که مراکز عوض نشوند و همچنین مقادیر در خوشههای مختلف جابه جا نشوند حلقه به پایان میرسد.
- نقطه مثبت: این الگرویتم این است که خیلی کارها از بابت زمان اجرا میباشد.(خیلی سریع)
- نقطه ضعف: فقط برای دادههای عددی پیوسته مناسب میباشد. مثلا اگر شما در دادههایتان گروه خونی هم داشته باشید و بخواهید بر اساس آن هم تصمیم گیری کنید این الگوریتم جوابگوی کار شما نیست چون مثلا میانگین گروه خونی برایش بی معنی میباشد.برای این نوع داده باید از K-Mode استفاده شود. چون میتوان مد گروه خونی را پیاده سازی کرد.(مد پرتکرار ترین ارزش را انتخاب میکند)
- نقطه ضعف دیگر آن این است که به شدت به دادههای Noisy و یا Outlier حساس میباشد چون این دادهها در میانگین تاثیر گذار هستند برای برطرف کردن این مشکل الگوریتم K-medoid وجود دارد. K-medoid از جنس میانه است، میانه نسبت به دادههای پرت حساسیت کمتری دارد.
به مثال زیر دقت کنید
یکسری داده داریم که فاصله آنها را با مرکز تصادفی طبق جدول حساب میکنیم، فرمول فاصله را از روش اقلیدسی انتخاب کردیم وقتی فاصلهها حساب شود و مقادیر در داخل خوشهها قرار بگیرند باید مرکز نسبت به اعداد تغییر کند در محور مشاهده میکنیم که فلشهایی قرار دارد که مشخص میکند مرکز بهنگام شده است.
شایان ذکر است که در خوشهها مرکز یک مقدار فرضی میباشد و به هیچ کدام از اعداد ارتباط ندارد.(مثلث)
بعد از تغییر مرکز در الگوریتم K-Means خوشه نیز بهنگام میشوند.
در مثال فوق از فرمول فاصله اقلیدسی استفاده شده است. ما انواع مختلف پیدا کردن فاصله در الگوریتمهای خوشهبندی میتوانیم داشته باشیم.
مثال عملی در Power BI:
فرض کنید داده زیر در دسترس میباشد این داده مشخص میکند میزان مصرف کشورهای مختلف از بابت گوشت قرمز، گوشت سفید، ماهی، تخم مرغ، حبوبات، غلات آجیل و… چگونه میباشند.
از طریق عمل خوشهبندی میتوانیم دادهها را دستهبندی کنیم، برای پیاده سازی از الگوریتم K-Means در خوشهبندی استفاده میکنیم.
میخواهیم بر اساس کشورها میزان مصرف گوشت قرمز و سفید را دسته*بندی کنیم.
در تصویر فوق سه دسته را مشخص کردیم:
- خوشه اول: کشورهایی که میزان مصرف گوشت سفید آنها بالاست ولی گوشت قرمز پایین است مثل آلمان ، هلند.
- خوشه دوم: کشورهایی که میزان مصرف گوشت و گوشت قرمز آنها بالا است مثل فرانسه، انگلستان
- خوشه سوم: کشورهایی که میزان مصرف گوشت قرمز و سفید آنها پایین میباشد مثل رومانی، ایتالیاو…
دانلود این مقاله
[ratings]
2 دیدگاه
h.m4571
سلام. کاش اکسل مورد استفاده رو هم برای دانلود قرار میداید تا آموزش شما رو به صورت عملی تست میکردیم. ممنونم
بابک پیروز
سلام . منبع اطلاعات آدرس زیر می باشد
http://www.public.iastate.edu/~maitra/stat501/datasets/Europrotein.dat