خانه علم داده انجام مراحل مختلف پیش پردازش متون با استفاده از Parsivar [بخش دوم] علم داده نوشته شده توسط: تیم فنی نیک آموز ۰۲ تیر ۱۳۹۹ زمان مطالعه: 18 دقیقه ۰ (۰) مقدمه در این مقاله آموزشی بخش دوم از مراحل پیش پردازش متون را به کمک کتابخانه پارسی ور پیاده سازی کردیم. در این مجموعه ۴ بخشی، در بخش اول مفاهیم پردازش زبان طبیعی بررسی کرده و مهم ترین کاربردهای آن بیان شد. سپس در بخش دوم با ابزارهای پیش نیاز برای انجام یک پروژه پردازش زبان طبیعی آشنا شدیم. در بخش سوم برخی از مراحل مختلف پیش پردازش متون را با استفاده از Parsivar انجام دادیم. در نهایت و در بخش چهارم مابقی مراح پیش پردازش متون را با استفاده از پارسی ور پیاده کردیم. مراحل پیش پردازش معمولا ثابت بوده و شامل مواردیست که در این آموزش به مرور ابتدا تعریف شده و سپس نحوه استفاده از آن در پارسی ور بررسی میشود. پیش پردازش متون شامل موارد زیر است نرمال سازی متن تبدیل متن به جملات(Sentence Segmentation) تبدیل جملات به کلمات(Tokenization) ریشه یابی(Stemming) Lemmatization تشخیص نقش کلمات (Part-of-speech Tagging) قطعهبندی (Chunker) پارسر یا تجزیهگر جملات تصحیح خطای املایی (Spell Correction) تشخیص نقش کلمات (Part-of-speech Tagging) هدف تعیین نقش هر کلمه در جمله است؛ مثلا تعیین میکنیم یک کلمه فعل است یا قید یا دیگر نقشها. نقش کلمات در جملات از مهم ترین پیش پرادزشهایی است که در بسیاری از فعالیتهای دیگر مثل Chunker استفاده میشود. برای استفاده از این قابلیت در parsivar کافی است POSTagger را import کنیم.سپس یک شی از کلاس POSTagger بسازیم.حال یک متغیر رشته ای حاوی یک جمله تعریف میکنیم.سپس تابع parse از شی my_tagger فراخوانی کرده و جمله مان را به عنوان ورودی ارسال می کنیم.اگر با خطای مربوط به نصب نبودن جاوا روبرو شدید باید “Java Standard Edition” و ” Java Development Kit (JDK)” نصب کنید. سپس طبق این سایت، متغیرهای سیستمی لازم را ایجاد کنید و سیستم خود را Restart کنید. سپس این سلول را مجددا Run کنید. نباید دچار خطا شوید.در نهایت خروجی را چاپ میکنیم.برای مثال کلمه “سمینار” به عنوان “اسم” شناخته شده است “مییابد” فعل تشخیص داده است. خروجی “.” خودش است و یعنی پارسی ور نقش آن را نتوانسته تشخیص دهد زیرا اگر به ازای کلمهای، POSTagger خود کلمه را برگرداند، یعنی POSTagger نتوانسته نقش کلمه را تشخیص دهد. قطعهبندی (Chunker) فرآیندی که طی آن گروههای (عبارات) اسمی، فعلی، صفات و … در یک جمله تشخیص داده می شوند. برای مثال “نخستین فاتح قله اورست” یک عبارت اسمی است. برای استفاده از این ابزار در parsivar ابتدا FindChunks را import می کنیم.در گام بعدی یک شی از کلاس FindChunks ایجاد میکنیم.سپس تابع chunk_sentence از شی my_chunker فراخوانی کرده و جمله مان را به عنوان ورودی ارسال میکنیم.برای نمایش خروجی، کد زیر را اجرا میکنیم.“این سمینار” به درستی تشخیص داده شده ولی دو مورد بعدی دچار خطاست. پارسر یا تجزیهگر جملات وظیفه پارسر، تجزیه و تحلیل جمله و سپس شکستن آن به اجزای تشکیل دهنده مثل گروههای اسمی، فعلی، و غیره و تعیین روابط بین این اجزاست. برای استفاده از این ابزار در parsivar ابتدا DependencyParser را import میکنیم.در مرحله بعدی یک شی از کلاس DependencyParser ایجاد میکنیم.سپس تابع tokenize_sentences از شی my_tokenizer فراخوانی کرده و جملهمان را به عنوان ورودی ارسال میکنیم.خروجی کد بالا تبدیل متن ورودی به لیستی از جملات است. حالا این لیست را به تابع parse_sents از شی myparser میفرستیم.در نهایت برای چاپ نتایج از حلقه زیر استفاده میکنیم.نتیجه قابل قبول است و فاصله بین “می” و “دوید” به دلیل مشکل چاپ نوشتههای فارسی در jupyter notebook است. تصحیح خطای املایی (Spell Correction) فرآیند اصلاح خودکار غلطهای املایی که در نوشته وجود دارد. برای استفاده از این ابزار در پارسی ور ابتدا فایل با این آدرس را دانلود کرده و از حالت فشرده خارج میکنیم. پس از انجام موارد بالا SpellCheck را import میکنیم.کد بالا اجرا می کنیم و با خطای زیر روبرو میشوید.سپس پوشه spell را به آدرسی که در خطای بالا وجود دارد انتقال دهید. برای مثال آدرس مناسب برای سیستم بنده به صورت زیر است.پس از انتقال پوشه، دوباره این دستور را اجرا میکنیم.بدون خطا باید اجرا شود. سپس یک شی از کلاس SpellCheck میسازیم.در نهایت متن دلخواهی را به تابع spell_corrector از شی myspell_checker می فرستیم.خروجی به صورت زیر است. چه رتبه ای میدهید؟ میانگین ۰ / ۵. از مجموع ۰ اولین نفر باش برچسب ها # parsivar# پیش پردازش متون# پیش پردازش متون با استفاده از Parsivar# پیش پردازش متون طبیعی# پیش پردازش متون فارسی دانلود مقاله انجام مراحل مختلف پیش پردازش متون با استفاده از Parsivar [بخش دوم] فرمت PDF 6 صفحه حجم 1 مگابایت دانلود مقاله معرفی نویسنده مقالات 177 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز پروفایل نویسنده معرفی محصول امیر باقری دوره یادگیری علم داده 1.780.000 تومان مقالات مرتبط ۲۳ بهمن علم داده ۶ دلیل مهم برای اینکه چرا پایتون یاد بگیریم؟ تیم فنی نیک آموز ۱۹ بهمن علم داده راه اندازی یک پروژه مهندسی داده برای تازه کاران تیم فنی نیک آموز ۰۳ مهر علم داده نگاهی به نمودارها در Plotly [بخش سوم] تیم فنی نیک آموز ۱۱ شهریور علم داده علم داده، تحلیل داده و یادگیری ماشین چه تفاوتهایی باهم دارند تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ