مقدمه:
اگر مطالب مرتبط با پایتون و یادگیری ماشین را در سایت نیکآموز پیگیری کرده باشید، در مطالب قبلی به دو موضوع جایگاه یادگیری ماشین و همچنین نصب پایتون در ویندوز پرداختیم. در این مطلب میخواهیم در مورد دیتاستها به بحث و گفتگو بپردازیم. بهطورکلی تمامی روشها و متدهای یادگیری ماشین بر روی دادهها اجرا میشوند و درواقع این دادهها هستند که نقطه شروع فرایند دادهکاوی، علم دادهها و بهطورکلی یادگیری ماشین میباشند.
دیتاست چیست؟
دیتاست یا مجموعه داده یا DataSet به مجموعهای از دادهها میگویند که با موضوعیت واحد، جهت انجام کارها و پروژههای یادگیری ماشین استفاده میشوند. البته یک کاربرد دیگر دیتاست ها نیز برای مقایسه بین روشهای مختلف هست، به این صورت که بهطور نمونه بر روی دیتاست A، دو روش(الگوریتم) مختلف را اجرا کرده و با توجه به نتایج میتوان بر اساس معیارهای دقت، سرعت و پیچیدگی هریک از روشها را مقایسه کرد.
چگونگی انتخاب دیتاست مناسب
فرض کنید کاری که میخواهید انجام دهید در مورد ردهبندی (Classification) است. درنتیجه شما باید به دنبال دیتایی باشید که لیبل یا برچسب دادههای آن مشخص باشد. یا در مثال دیگر، فرض کنید شما به دنبال ایجاد یا ارتقاء روشی برای کاهش بُعد دیتا هستید در این صورت نیز شما باید دیتایی را انتخاب کنید که دارای بُعد زیاد باشد.
پس میتوان نتیجه گرفت برای هر تسک باید به دنبال دیتاست مناسب آن باشیم. دستهبندیهای مختلفی در دیتاستها وجود دارد بهطور خلاصه میتوان دیتاست ها را به موارد زیر تقسیمبندی کنیم:
- دادههای متنی (متن کتاب، نظرات شبکههای اجتماعی، توییت ها و …)
- دادههای جدولی (دادههای خوشهبندی، طبقهبندی، سری زمانی و …)
- دادههای مولتیمدیا (عکس، ویدیو و صوت)(عکسهای هوایی، دوربینهای مداربسته و …)
از نظر نوع رسانهای که دیتاست بر روی آن ارائه میگردد نیز میتوان چهار دستهبندی زیر را معرفی کرد:
- دیتاستهایی که بر روی فایل هستند
- دیتاستهایی که بر روی چند فایل هستند
- دیتاستهایی که بر روی پایگاه داده هستند
- دیتاستهایی که بر روی وب هستند
اگر دیتاست مناسب پیدا نکردیم چکار کنیم؟
با اینکه دیتاست های خیلی زیادی به صورت عمومی عرضه میشوند ولی بازهم امکان دارد در مورد یک موضوع خاص دیتاست مناسبی پیدا نشود. در این صورت معمولاً از روش ایجاد دیتاست استفاده میشود.
ایجاد دیتاست در دادههای جدولی شاید ساده باشد ولی در مورد برخی دادهها بهطور نمونه دادههای تصاویر صورت اشخاص خیلی با سادگی قابل انجام نیست. البته این نکته نیز فراموش نشود که اصولاً از دیتاست ها برای مواقعی استفاده میشود که ما در حال یادگیری هستیم، درحالیکه در پروژهها و کارهای حرفهای باید سازمانها به ارائه دیتا واقعی اقدام کنند.
معرفی پایگاههای دیتاستها
و در انتها به معرفی برخی از پایگاههایی که دیتاستهای خوبی در آنها قابلدسترسی هست میپردازیم:
- و همچنین دیتاست دادههای نرمافزارها و بازیهای موجود در کافه بازار که با روش استخراج داده از وب جمعآوریشده است:
https://github.com/Mahdi-Mohammadi/CafeBazaar.ir