خانه علم داده تحلیل کردن (Modeling the problem) چیست؟ علم داده نوشته شده توسط: امیر باقری ۰۳ آذر ۱۳۹۸ زمان مطالعه: 5 دقیقه ۲ (۱) براساس تعریف، مدل کردن مسئله، هنر فرموله کردن موضوع به شکلی کاملا واضح و مرحله به مرحله است. معمولا یک گپ بین سوالات کسب و کار محور و سوالات علوم دادهای است. پر کردن این گپ یا به بیان بهتر “مدل” کردن مسئله جز وظایف دانشمند علم داده است. امروزه مشکل بر سر ابزار نیست. به عبارت دیگر مشکل اصلی و گلوگاه عدم دانش برنامهنویسی با پایتون یا R و یا شناخت نداشتن به الگوریتمهای هوش مصنوعی نیست. اصلی ترین و ارزشمندترین نکته ترسیم و مشخص کردن مسئله و راه حل است. به بیان دیگر آنچه در مرحله Data Exploration یا همان کند و کاو در داده، انجام میگیرد. مثالی برای شما میزنم. کارفرمای من یک فایل حاوی مشخصات خانههای شهر را به من میدهد. مشخصات حاوی کد پستی، آدرس، نام مالک، شماره کنتور آب، شماره شهربانی و میزان مصرف آب و برق و گاز است. کارفرما از من میخواهد تا سیستمی طراحی کنم که قیمت خانه را با تخمین خوبی تشخیص دهد. سوالاتی در ذهن من شکل میگیرد. بهطور مثال آیا شماره کنتور، کد پستی، نام مالک، میزان مصرف آب، برق و گاز ارتباطی با قیمت ملک میتواند داشته باشد؟ آیا من باید به عنوان یک دانشمند داده به کارفرما جواب منفی بدهم و بگویم با این داده نمیتوان راه به جایی برد؟ کمی جای تامل وجود دارد. میدانیم که پارامترهای زیادی در قیمت ملک موثر است مانند کیفیت ساخت، سال ساخت، متراژ، محله و بسیاری دیگر. این اطلاعات در دادههایی که از کارفرما دریافت شده نیست. چه راهی را میتوانم برای رسیدن به اطلاعات پیدا کنیم؟ امروزه داشتن کدپستی و آدرس با توجه به نقشههای شهری برای یافتن حدود دقیق جغرافیایی ملک کافی است. حتما این نقشهها را در خودروهای دارای سرویس جی پی اس دیدهاید. تمام بلوکهای شهر با ذکر پلاک دقیق در این نقشهها دیده میشود. حال با داشتن موقعیت جغرافیایی چه نکات مفیدی برای من قابل استخراج است؟ آیا میتوانم فاصله ایستگاه اتوبوس، مترو، مرکز خرید، میدان ترهبار و یا تعداد پارکهای نزدیک موقعیت جغرافیایی مورد نظر را بیابم؟ پاسخ این سوال مثبت است. بله! نقشههای امروزی با داشتن امکانات گوناگون این نکته را میسر میسازند. ما با استفاده از نقشه گوگل تمام این مناطق را میتوانیم شناسایی کنیم و فاصلهی هر نقطه تا این مکانها را بیابیم. ما همچنین میتوانیم فاصله محل مورد نظر را با نقاط بسیار شلوغ شهر بسینجیم؛ میتوانیم ترافیک اطراف محل مورد نظر را در ساعات مختلف داشته باشیم. فاصله این نقطه با نقاط خوش آب و هوا و گران قیمت شهر نیز قابل استخراج است. تمامی موارد ذکر شده در قیمت ملک تاثیر دارد. پس من با اطلاعاتی که توسط آن کارفرما ارائه شده میتوانم کارهایی را انجام دهم. من میتوانم سیستمی به کارفرما ارائه دهم که قیمت تقریبی هر متر مربع از ملک مسکونی را در منطقهای خاص تخمین زده باشد. مسئله شرح داده شده یک پروژه واقعی بوده است اما تمامی جزییات آن در این مثال ذکر نشده است. کارفرما متراژ و سال ساخت ملک را داشت، اما حاضر نبود قبل از اعتماد کامل، این دادهها را در اختیار دانشمند داده قرار دهد. در نهایت قیمت تقریبی ملک در یک منطقه از شهر، با فرموله کردن مقدار افت قیمت براساس سال ساخت و در نهایت متراژ ملک، بدست آمد و با توجه به بازخورد کارفرما این تخمین به واقیعیت بسیار نزدیک بود. در شرح پروژهی بالا، هیچ دغدغهای در حیطهی الگوریتم یادگیری ماشین، ابزار مورد استفاده، آمادگی دادهها و غیره مطرح نشد. فقط و فقط امکانسنجی پروژه و آنچه میشود از دادههای ارائه شده استخراج کرد مطرح شد. شاید اگر دانش فنی و الگوریتمیک را کنار بگذاریم، بتوانیم بگوییم مهمترین بخش هر پروژه داده محوری در مدل سازی مسئله خلاصه میشود. پس پیشنهاد بنده این است که تمام مسیر متخصص شدن در این علم را محصور به دانش فنی و تبحر خود در استفاده از ابزار نکنیم بلکه همزمان با فراگیری دانش فنی، تلاش کنیم “مدل ساز” متبحری بشویم. چه رتبه ای میدهید؟ میانگین ۲ / ۵. از مجموع ۱ اولین نفر باش برچسب ها # data science# modeling the problem# آموزش data science# آموزش علم داده# تحلیل کردن# یادگیری data science# یادگیری علم داده معرفی نویسنده مقالات 3 مقاله توسط این نویسنده محصولات 2 دوره توسط این نویسنده امیر باقری امیر باقری مدیریت داده کاوی و تحلیل داده و مشاور فنی در زمینه راهکارهای مبتنی بر علم داده است. وی فارغ التحصیل مهندسی کامپیوتر از دانشگاه پیزا و پلی تکنیک میلان ایتالیا است و در حال حاضر کاندیدای دکتری پردازش متن حجیم Big Text Mining است. حیطه تخصصی وی در دو زمینه کلی شامل رمز نگاری و علوم داده است. اکثر پروژههای ایشان در زمینههای فرایند داده کاوی و هوش مصنوعی بوده است.عمده پروژههای ایشان شامل: کشف تقلب در سیستمهای بانکی و پشتیبانی محصول، تشخیص تخلف در خود اظهاری بر اساس تراکنش و یا دیگر خصیصههای مالی و غیر مالی، OSINT ، بوده است. پروفایل نویسنده معرفی محصول امیر باقری دوره یادگیری علم داده 1.490.000 تومان مقالات مرتبط ۲۳ بهمن علم داده ۶ دلیل مهم برای اینکه چرا پایتون یاد بگیریم؟ تیم فنی نیک آموز ۱۹ بهمن علم داده راه اندازی یک پروژه مهندسی داده برای تازه کاران تیم فنی نیک آموز ۰۳ مهر علم داده نگاهی به نمودارها در Plotly [بخش سوم] تیم فنی نیک آموز ۱۱ شهریور علم داده علم داده، تحلیل داده و یادگیری ماشین چه تفاوتهایی باهم دارند تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ