آموزش پردازش زبان طبیعی با پایتون [NLP] در زبان فارسی

عنوان: آموزش پردازش زبان طبیعی با پایتون در زبان فارسی
مخاطبین: علاقه مندان به حوزه یادگیری پردازش زبان طبیعی
پیش نیاز دوره: آشنایی با مقدمات برنامه نویسی
محتوا: ویدئو فارسی، PDF مربوط به جزوات و کدهای سناریوها
توجه: در حال حاضر این محصول آموزشی ارائه نمی گردد…

توضیحات

در حال حاضر این محصول آموزشی ارائه نمی گردد…

در سال های اخیر، پردازش زبان طبیعی در سطح جهان فراگیرتر شده و مثل یک موج، فضای کسب و کار کشورهای مختلف از جمله ایران را تحت تاثیر قرار داده است. این مساله باعث شده هر روزه تعداد آگهی‌های مربوط به پردازش زبان طبیعی بیشتر شوند و فرصت مناسبی برای افرادی باشد که به دنبال یک موقعیت شغلی پرچالش و خلاقانه هستند (البته با درآمد مناسب). کافی است به سایتهایی که آگهی شغلی قرار می‌دهند توجه کنید فرصت های شغلی زیادی در زمینه پردازش زبان طبیعی با درآمد مناسب خواهید دید. پس یک موقعیت مناسب فراهم شده و کافی است مهارت خودمان را بالا ببریم و سپس به سراغ این موقعیت‌های شغلی برویم.

ما در این دوره سعی کردیم یک دید خوب تئوری نسبت به پردازش زبان طبیعی داده شود البته از گفتن مباحث جزئی و حوصله سربر جدا خودداری شده است. در ادامه تلاش شده مهارت برنامه نویسی تقویت بشود و فرد آماده پیاده سازی پروژه‌ها شود. البته در تمامی قسمت‌ها داده های استفاده شده، متون فارسی بوده و تلاش شده مهم ترین چالش‌های در محیط کار در کار با متون فارسی بررسی شوند. بخش اعظم دوره آموزش پیاده سازی پروژه‌های کاربردی و واقعی می باشد.
بعد از دیدن آموزش ها، به شرط تمرین مناسب(پروژه به گونه ای پیاده سازی شده اند که امکان توسعه و گسترش دارند و هر فرد ابتدا باید منطق پروژه و کدها را با تمرین متوجه شود و سپس ایده‌های جدید را به آن اضافه کند)، شما آمادگی کافی برای انجام پروژه‌های حوزه پردازش زبان طبیعی را پیدا خواهید کرد و با آرامش خاطر می‌توانید برای یکی از جایگاه‌های شغلی پردازش زبان طبیعی درخواست دهید.

  • موضوع: آموزش پردازش متون فارسی با پایتون
  • مخاطب: علاقه مندان و برنامه نویسانی که تمایل به یادگیری پردازش زبان طبیعی

سرفصل‌های این دوره آموزشی

۱- مقدمات

  • مرور کلی دوره
  • معرفی مدرس
  • بررسی پیش نیازها
  • معرفی و نصب ابزارهای لازم

در این فصل ابتدا سه مثال کاربردی در سه زمینه مختلف مربوط به پردازش زبان طبیعی توضیح داده می شود در ادامه به سوالاتی مثل “مخاطب دوره کیست؟”، “پیش نیازهای لازم برای بهره برداری حداکثری از این دوره چیست” پاسخ می دهیم. سپس کمی در مورد پایتون صحبت کرده و دلایل انتخاب این زبان در این دوره، بررسی شده و در نهایت نحوه نصب پایتون آموزش داده می شود.

۲- پایتون

  • معرفی متغیرها
  • اعمال ریاضی
  • معرفی حلقه و عبارات شرطی
  • معرفی داده ساختارها(لیست، تاپل، دیکشنری)
  • آموزش کار با فایل(text , pickle)
  • آموزش فانکشن نویسی
  • معرفی عبارات منظم(regex)
  • کلاس چیست و آموزش مقدمات شی گرایی در پایتون

وقتی در یک پروژه واقعی با داده سرکار داشته باشیم(داده هایی از جنس تصویر، صوت یا متن و غیره) به دو ابزار احتیاج داریم. ابزار اول دانش اولیه نسبت به یک زبان برنامه نویسی و ابزار دوم آشنایی با مفاهیم مقدماتی حوزه‌ای که قرار است در آن پروژه پیاده سازی شود. در این فصل سعی شده مهم ترین قابلیت های پایتون به زبان ساده بیان شوند و از گفتن نکاتی که در آینده کاری احتمالا مورد استفاده قرار نمی گیرند پرهیز شود. برای مثال فرض کنید در یک پروژه قرار است کدهای ملی افراد از متن خبرهای روزنامه های رسمی فارسی استخراج شوند، طبیعتا یکی از بهترین روش ها، استفاده از عبارات منظم است که در این فصل مفصلا به آن پرداخته می شود. یا مانند شکل زیر به کمک یک عبارت منظم ایمیل های موجود در یک متن را استخراج می کنیم.

۳- Pandas و Numpy

  • معرفی و کار با پکیج Numpy
  • معرفی و کار با پکیج Pandas

در حوزه یادگیری ماشین، یکی از دغدغه های جدی افزایش سرعت اجرای برنامه هاست. اگر وظیفه بهبود کدهای یک برنامه برعهده شماست قطعا استفاده از کتابخانه ای مثل Numpy راه حل کار شماست. pandas و Numpy دو کتابخانه پایتونی هستند که یادیگیری شان برای هر فرد فعال در حوزه یادگیری ماشین جز واجبات است. برای مثال گاهی فقط با استفاده از توابع اماده Pandas به جای استفاده از حلقه for چندین برابر می شود. مانند مقایسه زیر از این سایت.

۴- پیش پردازش متون

  • NLPچیست؟
  • معرفی متدلوژی CRISP
  • معرفی و نصب کتابخانه هضم
  • معرفی و نصب کتابخانه Parsivar
  • معرفی ابزار Nltk
  • معرفی Stemmer
  • معرفی Lemmatizer
  • معرفی NER
  • Stop word چیست؟
  • Chunker و N-Gram چیست؟
  • POS Tagger چیست؟

در مواردی ممکن است برای حل یک مساله در حوزه یادگیری ماشین گیج شده و تشخیص ندهید باید از کجا شروع کنید. استفاده از متدلوژی مثل CRISP کمک می کند شروع و پایان کار مشخص شده و به نوعی کارها به زیرکارها تقسیم شوند. از طرفی فرض کنید در یک پروژه فورس باید نقش کلمات در جملات را استخراج کنید. در چنین شرایطی اگر برخی کتابخانه های معروف را شناخته و کار با آنها را بلد باشید به سرعت می توانید به یک دقت حداقلی رسیده و در آینده و با فراغ بال، به افزایش دقت کار بپردازید.
تفاوت یک برنامه نویس که گاهی در زمینه پردازش زبان طبیعی پروژه انجام می دهد و کسی که تخصصی در این زمینه کار می کند، دانستن ادبیات اولیه پردازش زبان طبیعی است. مواردی که با دانستن آن هم در مصاحبه های شغلی موفق تر می شوید و هم می توانید به کمک قدرت خلاقیت از این مفاهیم اولیه استفاده کرده و محصولات جدید و ترکیبی بسازید. در شکل زیر به کمک ابزار پارسی ور، جمله “این سمینار تا 13 شهریور ادامه می‌یابد .” را گرفته و نقش هرکلمه در جمله را نمایش دادیم.

۵- استخراج ویژگی

  • بردار چیست؟
  • معرفی BOW
  • معرفی TFIDF
  • تبدیل متن به بردار
  • شباهت کسینوسی
  • پیاده سازی پروژه شباهت یابی جملات

در پروژه ای تعداد زیادی سند حقوقی به شما داده و باید سندهای با محتوای یکسان را تشخیص دهید. یک طرف داده های اولیه یعنی سندها هستند و طرف دیگر الگوریتم ها ولی سوال اصلی این است که چگونه داده به فرمت خوانا تبدیل شوند که بتوان برای الگوریتم ارسالشان کرد. آیا می توان داده ها را مستقیم به سمت الگوریتم فرستاده و انتظار خروج مناسب داشته باشیم. سوال مهم دیگر نحوه پیش پردازش و تمیز کردن متون است.در ادامه یک تصویر از پروژه که در این فصل پیاده شده و شباهت بین جملات را می سنجد را خواهیم دید.

۶- پروژه خلاصه سازی متون

  • معرفی کتاب خانه های bs4 و request
  • تمیز کردن متون و حذف کلمات توقف
  • محاسبه میزان اهمیت هر جمله در متن
  • انتخاب جملات برگزیده

در یک پروژه باید اطلاعات یک صفحه وب را دریافت کرده و خلاصه از محتوای ان ارائه دهید. چالش اول نحوه کرال کردن صفحه وب می باشد. پس از کرال، حال باید برای خلاصه سازی یک روش پیشنهاد داده و آن را پیاده سازی کنید. در این فصل ابتدا نحوه کرال یک صفحه وب آموزش داده می شود سپس یک روش برای خلاصه سازی متون پیشنهاد شده و پیاده سازی می شود.

۷- پروژه تشخیص کپی بودن متون

  • تمیز کردن متون و حذف کلمات توقف
  • نرمال کردن متون
  • تبدیل متن به بردار
  • محاسبه اشتراک بین جملات

پروژه تشخیص کپی، چالش های فراوانی دارد زیرا روش های مختلفی برای کپی کردن وجود دارد. ساده ترین مدل کپی، کپی کردن کل متن است. ولی گاهی متن عینا کپی نمی شود و برخی کلمات حذف می شوند. گاهی از منابع مختلف متون ترکیب می شوند تا تشخیص کپی سخت شود. در برخی موارد متن کپی شده، برخی کلمات را حذف کرده و به جای آن کلمات هم معنا می آورد و موارد متعدد دیگر. همه اینها نشان می دهد پیاده سازی چنین پروژه ای سخت بوده و برای رسیدن به دقت بالا، موارد مختلف را در نظر گرفت. خروجی زیر مربوط به پروژه این فصل است.

۸- پروژه خوشه بندی اخبار

  • معرفی اجمالی الگوریتم kmeans
  • معرفی Elbow Method
  • دریافت و خواندن داده های ورودی
  • انجام پیش پردازش های لازم و نرمال کردن متون
  • پیاده سازی الگوریتم روی داده ها
  • آزمایش مدل روی اخبار جدید
  • ساخت ابرکلمات برای هر خوشه
  • نمایش نمودار دایره ای برای هر خوشه

تشخیص موضوع یک متن همیشه یک فعالیت پرکاربرد در پردازش زبان طبیعی است. این متن خواه خبر، کتاب، مقاله یا موارد دیگر باشد. در این فصل ابتدا داده های یکی از سایت های خبری را تمیزسازی کرده و سپس برای تشخیص موضوع هر خبر، از روش خوشه بندی استفاده می کنیم.

در ادامه ابر کلمات (word cloud) مربوط به خوشه اخبار سیاسی خواهیم دید.

۹- پروژه تحلیل عواطف دیجی کالا

  • معرفی اجمالی الگوریتم SVM
  • معرفی اجمالی الگوریتم Decision Tree
  • معرفی اجمالی الگوریتم Random Forest
  • آشنایی با JSON
  • بررسی Confusion Matrix
  • ساخت و آموزش مدل
  • بررسی دقت مدل

در یک پروژه نظرات کاربران یک سایت در اختیار شما قرار می گیرد و از شما می خواهند به صورت خودکار نظرات مثبت از نظرات منفی جدا شوند. وقتی هدف تشخیص مثبت یا منفی بودن یک نوشته باشد(یک جمله، پاراگراف یا یک متن طولانی) باید به سراغ تحلیل عواطف برویم. تحلیل عواطف(sentiment analysis) از پرکاربردترین فعالیت های حوزه پردازش زبان طبیعی است که در این فصل یک پروژه واقعی در همین زمینه پیاده سازی می شود.

۱۰- پروژه سیستم توصیه دهنده کتاب در SQL Server

  • معرفی سیستم های توصیه دهنده
  • معرفی Matrix Factorization
  • معرفی اجمالی SVD
  • پیاده سازی مدل
  • بررسی عملکرد برنامه روی برخی داده های تستی
  • نصب SQL Server
  • اجرای کد پایتون در SQL Server
  • نصب pyodbc
  • اتصال Jupyter Notebook و SQL Server
  • آموزش کار با vscode

یک فروشگاه آنلاین، داده های خود را در یک پایگاه داده SQL Server ذخیره می کند. از شما می خواهد از راه دور به آن متصل شده و روی داده های جداول آن تحلیل داده انجام دهید. در این فصل به کمک پکیج pyodbc این سناریو عملی می کنیم.
بعد از مدتی به دلایلی تصمیم عوض شده و دسترسی از راه دور به پایگاه داده بسته می شود. حالا باید تمام عملیات تحلیل داده در خود SQL Server انجام شود.
سناریو دوم نیز در این فصل پیاده سازی می شود.

دیدگاهها

  1. فرزاد

    (مالک تایید شده):

    سلام خدمت شما
    واقعا جالب بود
    فقط در این دوره آموزش استخراج از سایتهای که لاگین(به شرط داشتن رمز و پسورد) داره هم آموزش داده میشه

  2. مجتبی رضایی

    (مالک تایید شده):

    با سلام و تشکر از استاد دهقانی و نیک آموز.
    من این دوره بسیار بسیار بسیار کاربردی رو تهیه و در یک پروژه کاملا جدی و واقعی استفاده کردم و تقریبا موفق هم شدم.
    عالی و عالی مثل همیشه.

  3. b.naderloo

    :

    با سلام و خسته نباشید
    من در دوره علم داده ثبت نام کردم و این دوره NLP قبلا دارای تخفیف بود
    امکانش هست مجدد تخفیف این دوره را فعال کنید؟
    با تشکر

  4. z77aghahadi

    (مالک تایید شده):

    سلام من این دوره رو خریدم چه طوری می تونم از پشتیبانی تلگرامیش استفاده کنم؟

    • آرزو محمدزاده

      :

      درود بر شما
      بلافاصله بعد از ثبت سفارش ایمیل عضویت در گرون برای شما ارسال شده است لینک گروه تلگرامی داخل ایمیل است.
      همچنین لینک عضویت در گروه برای شما در تلگرام ارسال شد لطفا بررسی نمایید.
      با تشکر از همراهی شما

  5. Hadise

    :

    سلام. لطفا میشه این دوره رو دوباره برای فروش بزارین. ممنون

دیدگاه خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

تمامی حقوق مادی و معنوی این وب سایت متعلق به نیک آموز می باشد.
این سایت توسط تیم آموزش برنامه نویسی نیک آموز مدیریت می شود.

همایش تخصصی SQL Server 2022 Summit، با نگاهی به ویژگی‌های NET 7. 
ثبت نام در همایش
close-image