خلاصه سازی متون [بخش دوم]

خلاصه سازی متون [بخش دوم]

نوشته شده توسط: تیم فنی نیک آموز
۰۴ آذر ۱۳۹۹
زمان مطالعه: 22 دقیقه
۵
(۱)

مقدمه

در یک مجموعه مقاله قصد داریم در مورد خلاصه‌سازی متون صحبت کنیم. خلاصه‌سازی یکی از تسک‌های مهم، رایج و کاربردی در زمینه متن‌کاوی است که امروزه توجه موسسات پژوهشی و شرکت‌ها را به خود جلب کرده است. در این سری مقالات سعی شده به زبان ساده، مهم‌ترین نکات مربوط به خلاصه‌سازها بیان شود و البته چالش‌های مربوط به زبان فارسی نیز پوشش داده شود.
در سری‌اول به تعاریف اولیه پرداخته و خلاصه‌سازها را از جنبه‌های مختلف بررسی‌کردیم. در این مقاله روش‌های خلاصه‌سازی را با ذکر مثال بررسی کرده و فرایند خلاصه‌سازی را گام‌به‌گام تشریح می‌کنیم.

روش‌های خلاصه‌سازی

روش‌های خلاصه‌سازی اسناد به دو دسته، روش استخراجی (extractive) و روش انتزاعی (abstractive) تقسیم می‌شوند.

روش استخراجی:

در این روش تعدادی از جملات موجود در اسناد ورودی انتخاب و سپس کلیه‌ی جمله‌های انتخابی در داخل خلاصه قرار می‌گیرند. در واقع تعدادی ویژگی برای امتیازدهی به جملات در نظر گرفته می‌شود و سپس به جملات بر طبق آنها امتیازاتی تعلق می‌گیرد. در پایان جملات با امتیاز بالاتر شناسایی و داخل متن خلاصه جای می‌گیرند. انتخاب جملات باید به صورتی باشد تا انسجام و پیوستگی در متن خلاصه، میان جملات برقرار باشد و شاهد افزونگی نباشیم. طول متن خلاصه نیز به معیار فشردگی در نظر گرفته شده بستگی دارد. این روش نسبت به روش دوم امکان‌پذیرتر است و به همین دلیل به عنوان روش استاندارد خلاصه‌سازی از آن یاد می‌شود چون اساس این روش انتخاب جملات برجسته می‌باشد پس جمله‌ی انتخابی از نظر گرامری درست است(چون از بین جملات موجود استفاده می‌شود).

روش انتزاعی:

در این روش جمله‌ای انتخاب نمی‌شود بلکه از روی یکسری واحد(کلمات و عبارات)، جملات جدید ساخته می‌شوند و شاهد یک متن جدید هستیم. این واحدها از اسناد ورودی مختلف می‌آیند و روی آنها پردازش انجام می‌شود تا بازسازی شوند و متن خلاصه شده و جدیدی را بسازند. احتمال اینکه جمله و یا عباراتی از متن اصلی در داخل خلاصه قرار بگیرد وجود دارد اما نه به این‌صورت که تمام جملات از روی متن اصلی انتخاب شوند مثل اینکه یک صفحه از کتاب فلسفی را بخوانیم و درک و تحلیل و تفسیرمان را در قالب یک پاراگراف ارائه دهیم. در تولید خلاصه با استفاده از این روش شاهد جملات جدیدی می‌باشیم که معمولا دارای ایرادهای دستور زبانی هستند که چالش زیادی را به همراه دارد. در این روش نیاز به درک اولیه از متن و تولید خلاصه بر اساس آن امری مهم و چالش برانگیز است. معمولا خلاصه‌سازی انتزاعی نسبت به استخراجی، موثرتر و خروجی آن به خلاصه‌های انسانی نزدیک‌تر باشد اما وابستگی این روش به پردازش زبان‌طبیعی و روش‌های تجزیه و تحلیل معنایی متن و عدم رشد کافی در این حوزه‌ها، باعث پیچیدگی آن می‌شود درنتیجه اغلب افراد به طراحی سیستم‌هایی با رویکرد استخراجی روی آورده‌اند.

روش‌های خلاصه‌سازی از دیدگاهی کلی‌تر:

روش‌های کلاسیک:

روش‌های‌ کلاسیک، پایه روش‌های مدرن می‌باشند. خلاصه‌سازی که از این روش‌ها استفاده می‌کنند نیاز به درک سطحی از متن دارند و لازم نیست روی جملات متن تحلیل نحوی انجام دهند. روش‌های کلاسیک شامل، روش‌های آماری، تحلیل‌های مکانی و تحلیل‌های آماری-مکانی می‌باشد. در این خلاصه‌سازها از یکسری ویژگی مانند خصوصیات کمی متن، فرکانس(تعداد تکرار)عبارات، خصوصیات محلی، خصوصیات‌زمینه‌ای برای نمایش اطلاعات موجود در متن استفاده می‌شود و بر اساس آنها جملات مهم متن استخراج می‌گردد برای مثال لیستی از کلمات پرتکرار در کل متون تهیه کرده و هر جمله ای که تعداد بیشتری از این لیست را دارا باشد جز جملات برگزیده خواهد بود. این روش بسیار ساده است و قابلیت اعمال روی هر نوع متنی را دارد. ایرادی که به این روش وارد است، عدم وجود انسجام و پیوستگی در متن خلاصه تولید شده توسط این روش است؛ مثل اینکه جمله ای از صفحه اول کتاب انتخاب شود و جمله بعدی از صفحه دوم انتخاب شود و خواننده نتواند بین جملات ارتباط خاصی پیدا کند.

روش معنایی:

خلاصه‌سازهایی که از روش معنایی استفاده می‌کنند نیاز به تحلیل نحوی و معنایی روی متن دارند. آنها از روی متن ورودی مدلی می‌سازند و در آن ارتباطات موجود در متن را نشان می‌دهند. این ارتباطات شامل ارتباط میان موجودیت‌ها، ارتباط نحوی، ارتباط معنایی، هم‌مکانی کلمات و غیره است. در این روش‌ها ابتدا کلمات تجزیه شده و نقش نحوی آنها مشخص می‌شود(مثلا کلمه سوم از جمله اول، قید است) سپس با استفاده از پایگاه داده‌های نحوی ارتباط بین جملات مشخص شده و در آخر بر اساس معنا، جملات مهم انتخاب می‌شوند. نحو، معنا و ارتباط نحوی و معنایی اجزای متن ورودی در این روش‌ها مدنظر می‌باشد. به نوعی در این روش، به سراغ گرامر و دستور زبان رفته و متون را از نظر ساختاری تحلیل می‌کنیم سپس از تحلیل ها استفاده کرده تا ارتباط معنایی بین اجزای مختلف پیدا کنیم. پیچیدگی استفاده از این روش‌ها به دلیل نیازشان به ابزارها و تکنیک‌های پردازش زبان طبیعی بالا می‌باشد.

روش ترکیبی:

ترکیب چند روش خلاصه‌سازی با هم، روش ترکیبی نام دارد. استفاده از این روش باعث انعطاف‌پذیری بیشتر در خلاصه‌ساز می‌شود.

فرایند خلاصه‌سازی

فرایند خلاصه‌سازی شامل چهار مرحله اصلی می‌باشد. چون خروجی یک مرحله، ورودی مرحله بعد است پس مراحل باید به ترتیب و به صورت دقیق انجام شوند تا ورودی هر مرحله با کیفیت باشد. این چهار مرحله عبارتند از:

  • گرفتن متن
  • پیش‌پردازش و نرمال‌سازی متن
  • تحلیل و پردازش اصلی
  • تولید خلاصه

گرفتن متن: این بخش شامل، ورود سند و یا اسنادی که قرار است عملیات خلاصه‌سازی بر روی آنها انجام شود.
پیش‌پردازش: در تمام حوزه‌های پردازش زبان طبیعی، پیش پردازش روی متن ورودی، کار پایه‌ای و مهم است زیرا این عملیات باعث افزایش کیفیت خروجی‌ها می‌شود. عملیاتی که در این مرحله انجام می‌گردد شامل حذف ایست واژه‌ها، ریشه‌یابی، تصحیح غلط های املایی و غیره می‌باشد.
تحلیل و پردازش اصلی: در این مرحله بر روی خروجی به‌دست آمده از فاز قبلی عملیات تحلیل انجام می‌گردد. در طی تحلیل متن، بخش‌های مهم و اصلی متن، بر اساس ویژگی‌هایی تعریف شده، شناسایی و امتیازدهی می‌شوند.
تولید خلاصه: متن خلاصه در این مرحله تولید می‌شود. جملاتی که در فاز قبل شناسایی و امتیازدهی شدند، در این فاز بر اساس امتیازشان داخل متن خلاصه قرار می‌گیرنددر مسیر طراحی یک سیستم خلاصه‌سازی با یکسری چالش اساسی روبه‌رو هستیم:

  • حفظ پیوستگی
  • حجم خلاصه
  • ارزیابی کیفیت خلاصه
  • چالش‌های مربوط به پردازش زبان پارسی

 
چالش اول، قبلا بررسی شده است ولی چالش دوم وقتی مطرح است که کاربر حجم خلاصه مدنظر را مشخص نکند در این صورت باید مقادیر مختلف امتحان شود تا به مقدار مناسب برسیم.
در ادامه ارزیابی ‌روش‌ پیشنهادی در خلاصه‌سازی اسناد چالش‌برانگیز است. پس از تولید خلاصه، بررسی نتایج و خروجی ها دردسر زیادی دارد. برای داشتن یک ارزیابی درست و دقیق وجود یک مجموعه داده استاندارد و مناسب امری ضروری می‌باشد که برای زبان فارسی مجموعه داده “پاسخ” وجود دارد. البته برای بررسی خروجی تک‌سند چالشی وجود ندارد و با نگاهی گذرا کیفیت کار مشخص می‌شود ولی اگر با هزاران سند روبرو شویم چگونه باید کیفیت کار را سنجید؟(به جز استفاده از مجموعه داده استاندارد) پیشنهاد خواندن تک‌تک‌ سندها معقول نبوده و باید به سراغ گزینه‌های دیگر رفت. برای سنجش و ارزیابی خروجی موارد زیر پیشنهاد می‌شود(۴ پارامتری که در ادامه معرفی می‌شوند در حد ایده بوده و نحوه پیاده‌ی سازی آن بیان نمی‌شود):

  • پیوستگی خلاصه: در تولید خلاصه یکی از مسائل، تولید جملات بی‌معنی یا بی‌ارتباط به بقیه‌ی جملات است. این معیار برای ارزیابی میزان پیوستگی جملات بکار گرفته می‌شود حال می توان یک پارامتر برای محاسبه کمی جملات بی‌معنی و بی‌ارتباط تعریف کرد.
  • اطلاع‌رسانی خلاصه: برای فهم اینکه چه میزان از اطلاعات متن اصلی در متن خلاصه موجود است یک معیار کمی تعریف شود.
  • دقت و بازخوانی جمله: بازخوانی مشخص می‌کند چه تعداد از جملات خلاصه‌ی‌انسانی در خلاصه‌‌ی‌ماشینی وجود دارد. دقت نیز نمایانگر تعداد جملات خلاصه‌ی ماشینی که در خلاصه‌ی انسانی وجود دارند می‌باشد. ترکیب این دو f-measure نام دارد. این دو، معیارهای اساسی برای ارزیابی سامانه‌های خلاصه‌ساز می‌باشند.
  • شباهت محتوا: معیارهای‌ مشابهت ‌محتوا برای ارزیابی معنایی مورد استفاده قرار می‌گیرند.تعریف چنین پارامتری و محاسبه آن دشوار است.

در این مقاله روش‌های خلاصه‌سازی را با ذکر مثال بررسی‌کردیم. در مقاله بعدی از مشکلات همیشگی کار با متون فارسی و کمبود ابزارها خواهیم‌گفت

چه رتبه ای می‌دهید؟

میانگین ۵ / ۵. از مجموع ۱

اولین نفر باش

title sign
دانلود مقاله
خلاصه سازی متون [بخش دوم]
فرمت PDF
6 صفحه
حجم 1 مگابایت
دانلود مقاله
title sign
معرفی نویسنده
تیم فنی نیک آموز
مقالات
248 مقاله توسط این نویسنده
محصولات
0 دوره توسط این نویسنده
تیم فنی نیک آموز
پروفایل نویسنده
title sign
معرفی محصول
امیر باقری

دوره یادگیری علم داده

1.780.000 تومان 1.068.000 تومان
title sign
دیدگاه کاربران

    • سلام شبتون بخیر
      مستند ۴۰ صفحه ای که گفتین ارسال میشه در رابطه با مباحث دیتا ماینینگ رو من ندیدم، امکانش هست لطفا لینک را ارسال کنید
      خیلی ممنون

      • درود بر شما
        داخل این صفحه باکسی ظاهر میشه اگه ایمیلتون رو وارد کنید مستند برای شما ایمیل خواهد شد.
        https://nikamooz.com/product/nlp-course/
        سپاس از همراهی شما

    • سلام شبتون بخیر
      مستند ۴۰ صفحه ای که گفتین ارسال میشه در رابطه با مباحث دیتا ماینینگ رو من ندیدم، امکانش هست لطفا لینک را ارسال کنید
      خیلی ممنون

      • درود بر شما

        داخل این صفحه باکسی ظاهر میشه اگه ایمیلتون رو وارد کنید مستند برای شما ایمیل خواهد شد.

        https://nikamooz.com/product/nlp-course/

        سپاس از همراهی شما

جشنواره عیدآموز نیک آموز، سال جدید رو با قدرت شروع کن
مشاهده تخفیف ها
close-image