خانه هوش مصنوعی نقشه راه پروژههای عملیاتی در علم داده هوش مصنوعی علم داده نوشته شده توسط: امیر باقری تاریخ انتشار: ۰۲ شهریور ۱۳۹۸ آخرین بروزرسانی: 17 تیر 1403 زمان مطالعه: 18 دقیقه ۰ (۰) مقدمه هر کدام از موارد استفادهی علم داده در بخش قبل، مراحل فنی و علمی مشخصی دارد. اگر ما از منظر فنی آمادگی لازم را داشته باشیم، با کمی ذکاوت و دستهبندی خلاقانهی دادهها، اکثر مسائل پیشنهادی را میتوانیم حل کنیم. جهت شناسایی مهارتهای فنی لازم، در ادامه به معرفی مراحل موجود و قالبا مشترک در تمامی پروژههای علم داده میپردازیم. جمع آوری داده در ابتدای هر پروژهی داده محور، اولین نیاز ما دریافت داده است. در این مرحله به طور ساده ما نیاز داریم از منابع گوناگون دادههای مورد نیاز خود را جمع آوری کنیم. گاها نیاز داریم تا در یک یا چند پایگاه داده رابطهای کوئری بنویسیم. این پایگاه داده میتواند MS-S، Mysql، Oracle و یا دیگر پایگاه دادههای رابطهای باشد. ممکن است داده در یک فایل اکسل و حتی یک فایل متنی ساده ارائه شود. بعید نیست داده در قالب یک پایگاه داده Nosqlباشد و یا حتی در هیچ جا ذخیره نشده باشد و در متن یا محتوای یک وب سایت باشد و ما باید بتوانیم دادههای خود را جمع آوری کنیم. این کار از طریق متصل شدن بهWeb API ممکن است. که ازین طریق میتوان دادهها را به صورت قانونی و با رضایت مقصد دریافت کرد. مسلم این است که تقریبا در محیط عملیاتی هیچ گاه یک دیتا ست تمیز مانند آنچه امروز برای مقالات و تدریس استفاده میشود، به شما داده نخواهد شد. پس ما باید به عنوان یک دانشمند علم داده یا داوطلب داشمند علم داده شدن این تکنیکها را فرا بگیریم. بدانیم چگونه کوئری بنویسیم و اگر با دادههای زیادی سرو کار داریم، بدانیم چگونه کوئری بهینه بنویسیم. چگونه با No SQL کار کنیم، و اگر دادههایمان بسیار حجیم شدند، به اندازه نیاز خودمان با محیطهای نگهداری داده توزیعی مانند Hbase ،HDSF و بسیاری دیگر آشنا باشیم. در یک پروژه باید تجربیات عملی وسیعی داشته باشیم و بطور مثال بدانیم در کدام بخش از بین SparkSqlAPI , Hive, MsSQL میتوانیم بهینهتر سیستممان را بسازیم. آیا به Kafka نیاز داریم؟ آیا Pandas Data Frame برای ما کافی است؟ و بسیاری سوالات دیگر پاکسازی، آمادهسازی و فیلترینگ در این بخش طیف وسیعی از اتفاقات بر روی داده به فراخور نیاز، رخ خواهد داد. بطور نمونه کانورت فرمت داده از متن به ساختار یافته و برعکس تجمیع چندین فایل در یک فایل پر کردن مقادیر از دست رفته و یا خالی گرفتن نویز داده نرمال سازی پاکسازی اگر ما با حجم کمی از داده کار میکنیم برای پیشبرد این بخش نیاز به دانش برنامه نویسی و مدیریت داده داریم. بطور مثال اگر با پایتون کدنویسی میکنیم باید آشنایی کافی با کتابخانه Pandas داشته باشیم که یک ابزار بسیار مناسب است و تقریبا اکثر نیازمندیهای ما را مرتفع میکند. اگر با دادههای حجیم کار میکنیم نیاز به دانش کلان داده، هر چند مختصر، داریم و باید با برنامه نویسی با Spark ، Map-Reduce و احتمالا Hive آشنایی لازم را داشته باشیم. کند و کاو در دادهها (Data Exploration) بر خلاف تصور ما از دیتا ست که فایلی است حاوی چندین خصیصه که نهایت کند و کاو و پیش پردازش ما روی آن شامل کم کردن نویز، نرمال سازی و کم کردن خصیصه هاست، در دنیای واقعی دیتا ستی وجود ندارد. معمولا کار فرما به شما فایلی میدهد و میگوید: ببین با اینها چه کاری می توانی انجام دهی؟ یا اگر کارفرمای شما به اندازه کافی در کسب و کارش خبره باشد میتواند اهداف کلی خود را برای شما بیان کند و این به هنر، علم و ابتکار شما بستگی دارد که بتوانید هدف مورد نظر را از دل دادههای موجود بیرون بکشید. برای تبدیل مسئله به یک موضوع قابل لمس در علم داده، ما باید مسیرهای گوناگونی را طی کنیم که یکی از آنها تعیین نوع دادهها است. به طور مثال خصیصهها “Features/Attributes” عددی هستند یا اسمی؟ اگر عددی هستند پیوسته هستند یا گسسته ؟ و مشخصاتی از این قبیل. خصیصهها همان بندهای توصیفی یک شی است. بهطور مثال یک انسان خصایصی از قبیل سن، جنسیت، اسم، مقدار درآمد ماهیانه ، نوع شغل، رشته تحصیلی، قد و … دارد. که بعضی از این خصیصهها مانند قد و حقوق نوعشان اعداد حقیقی و پیوسته هستند و خصیصه نوع شغل اسمی است. مرحله بعدی بهدست آوردن کمی اطلاعات آماری از دادهها است. واریانس دادههای ما زیاد است؟ اگر گسسته و اسمی هستند چند نوع متفاوت دارند؟ فراوانی هر نوع چقدر است؟ این اطلاعات در کنار اطلاعات دیگر آماری راهی برای ورود به بخش آمار تحلیل یا Inferential Statistics و مصور سازی داده است. اگر دلیل این نوع آمارهای اولیه برایتان مشخص نیست، کمی صبر کنید. باید به چالشهایی بر بخوریم تا بدانیم دانستن اینها به ما چه کمکی میکند مدل سازی در این بخش ما دادههایی را که پیشتر آماده کرده بودیم به الگوریتمهای خودمان دادیم تا آنها را یاد بگیرند. با این هدف که در آینده دادههای جدید و دیده نشده توسط مدلهایمان و براساس علمی که کسب کردند دسته بندی و یا پیشبینی شوند. گویا جذابترین بخش در علم داده و یادگیری ماشین همین بخش است. چرا که الگوریتمهای جذاب خودشان را در این لایه به نمایش میگذارند. در این مرحله با توجه به دادههایی که دردست داریم فرایند مدل سازی را آغاز میکنیم. در این مرحله ما مدلهایی را به ماشین آموزش میدهیم تا در آینده برایمان دستهبندی بین دادهها را انجام دهند. بهطور مثال با یک دیتا ست از اطلاعات مشتریان، بین این که آیا یک مشتری خرید انجام خواهد داد یا نه دستهبندی ای انجام میدهد. ما همچنین میتوانیم در این مرحله پیشبینی کنیم که چه محصولی در ماه آینده بهتر فروش خواهد رفت. یا رفتار مشتریان یک وب سایت را پیشبینی کنیم و یا بدون داشتن هر گونه دسته بندی، به وجود گروهبندیها در درون داده خود پی ببریم. بهطور مثال با همان داده مشتریان، با این تفاوت که این بار نمیدانیم چه کسی محصول را خرید و چه کسی نخرید، مشتریان خود را به چند گروه دسته بندی کنیم. این گروه بندی میتواند بر اساس مقدار حقوق یا سن یا هر خصیصهی دیگر و یا ادغامی از خصایص گوناگون انجام گیرد. این یک حقیقت غیر قابل انکار است که شناخت الگوریتمها و آنچه در آنها اتفاق می افتد جزء دانشهای مبنایی یک دانشمند داده است. اما باید در نظر داشته باشید که سرنوشت این بخش کاملا منوط به چیزی است که در مراحل قبل اتفاق افتاده و همچنان کند و کاو و مسیر تحلیل، سرنوشت ساز ترین مرحله است. اگر آنچه در مرحله قبل انجام شده به درستی طرح ریزی شده باشد حتی سادهترین الگوریتمها هم میتوانند دقت مناسبی را به ما ارائه بدهند، اما طرح ریزی غلط و کم کیفیت در مسیر تحلیل و دادههای بیکیفیت در نهایت ما را به جایی نخواهند رساند. در این صورت ریاضیات پیچیده در الگوریتمهای بسیار نوین هم کمک چشمگیری به ما نخواهد کرد. هر چند این نکته قطعی نیست اما احتمال بسیار زیادی دارد تفسیر نتایج در این مرحله ما آنچه را با دانش علم و تحلیل دادهی خود دریافتیم، به زبان کسب و کار تبدیل میکنیم تا به کارفرما انتقال دهیم. یادمان باشد کارفرما درکی از علم داده ندارد و اگر به او بگوییم الگوریتم میگوید با فلان درصد اتفاق الف میافتد، برای او جالب و ملموس نیست. بلکه باید با نتایجمان برای کارفرما تصمیمسازی و یا تصمیمیاری کنیم و سپس اورا با دلایل و توضیحات محسوسمان در کنار مصورسازی مناسب قانع کنیم. نمودارهای گویا و جذاب میتوانند بهترین کمک در راه انتقال مقاهیم ما باشند. مراحل بالا بدست آمده از متودولوژی OSEMN است. متودولوژی دیگری جهت راهبرد پروژه های علوم داده ای بنام CRISP-DM وجود دارد که از منظر مدیریت پروژههای داده محور کارایی بیشتری دارد و تمامی مراحل کار به همراه مفروضات و مستندات آنها در آن به صورت کامل توضیح داده شده است. این استاندارد در آینده معرفی خواهد شد چه رتبه ای میدهید؟ میانگین ۰ / ۵. از مجموع ۰ اولین نفر باش معرفی نویسنده مقالات 3 مقاله توسط این نویسنده محصولات 1 دوره توسط این نویسنده امیر باقری امیر باقری مدیریت داده کاوی و تحلیل داده و مشاور فنی در زمینه راهکارهای مبتنی بر علم داده است. وی فارغ التحصیل مهندسی کامپیوتر از دانشگاه پیزا و پلی تکنیک میلان ایتالیا است و در حال حاضر کاندیدای دکتری پردازش متن حجیم Big Text Mining است. حیطه تخصصی وی در دو زمینه کلی شامل رمز نگاری و علوم داده است. اکثر پروژههای ایشان در زمینههای فرایند داده کاوی و هوش مصنوعی بوده است.عمده پروژههای ایشان شامل: کشف تقلب در سیستمهای بانکی و پشتیبانی محصول، تشخیص تخلف در خود اظهاری بر اساس تراکنش و یا دیگر خصیصههای مالی و غیر مالی، OSINT ، بوده است. معرفی محصول دوره یادگیری علم داده 1.780.000 تومان 1.068.000 تومان مقالات مرتبط ۰۳ آبان هوش مصنوعی راهنمای کاربردی اصطلاحات هوش مصنوعی تیم فنی نیک آموز ۰۱ آبان هوش مصنوعی ساخت پایپ لاین RAG در یک قدم بسیار ساده + نمونه کد واقعی نگین فاتحی ۰۴ مهر هوش مصنوعی پارادایم های RAG در مدل های زبانی بزرگ تیم فنی نیک آموز ۲۰ شهریور هوش مصنوعی نحوه ساخت RAG های کارآمد با Query Routing نگین فاتحی دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ