خلاصه سازی متون [بخش اول]

خلاصه سازی متون [بخش اول]

نوشته شده توسط: تیم فنی نیک آموز
تاریخ انتشار: ۱۵ آبان ۱۳۹۹
آخرین بروزرسانی: ۱۰ آذر ۱۴۰۱
زمان مطالعه: 18 دقیقه
۵
(۱)

مقدمه

در یک مجموعه مقاله قصد داریم در مورد خلاصه‌سازی متون صحبت کنیم. خلاصه‌سازی یکی از تسک‌های مهم، رایج و کاربردی در زمینه متن‌کاوی است که امروزه توجه موسسات پژوهشی و شرکت‌ها را به خود جلب کرده‌است. در این سری مقالات سعی شده به زبان ساده، مهم‌ترین نکات مربوط به خلاصه‌سازها بیان‌شود و البته چالش‌های مربوط به زبان فارسی نیز پوشش داده‌شود.

در سری‌اول قصد داریم به تعاریف اولیه پرداخته و در ادامه از جنبه‌های مختلف، خلاصه‌سازها را بررسی کنیم؛ با ما همراه باشید

فرآیند جمع آوری و کوتاه

کردن یک یا چندسند توسط ماشین، به طوری که مفاهیم و نکات اصلی آنها حفظ شود، خلاصه‌سازی نام دارد. خلاصه‌سازی را می‌توان یک فرآیند تصمیم‌گیری در نظر گرفت زیرا ارزش جملات بر اساس یکسری معیار سنجیده می‌شود و باید تعدادی از جملات انتخاب شوند. متن خلاصه شده باید مختصر، روان، پیوسته، آموزنده، خوانا و حاوی نکات اصلی اسناد و همچنین فاقد ایرادهای دستور زبانی، حشو و غیره باشد. خلاصه‌سازی خودکار متون بخشی از دانش یادگیری‌ماشین و پردازش زبان طبیعی است و ایده اصلی آن یافتن زیر مجموعه‌ایی از داده‌هایی است که اطلاعات کلی را دربردارند. این علم در پردازش زبان طبیعی بسیار محبوب می‌باشد، زیرا از قابلیت‌های آن می‌توان در سیستم‌های پرسش و پاسخ، موتورهای توصیه‌شخصی، خلاصه‌سازی محتوای صفحات وب استفاده کرد. هدف تمامی سیستم‌های خلاصه‌ساز خودکار گردآوری خلاصه‌ایی از اطلاعات مطابق با نیاز کاربر می‌باشد، به‌طوری که خلاصه تولیدی از نظر کیفیت به خلاصه‌های انسانی شبیه باشد.

نرخ تولید اطلاعات بر روی شبکه گسترده وب به صورت روزافزون در حال افزایش می‌باشد بنا به گفته مرکز صنعت اطلاعات جهانی، هر ساله ۳۰ درصد به حجم اطلاعات وب اضافه می‌گردد. افزایش روزافزون منابع اطلاعاتی در بستر اینترنت، جستجو و یافتن اطلاعات مورد نیاز را مشکل کرده است. از طرفی مشکل محققان در عصر حاضر دسترسی دقیق به اطلاعات مورد نیازشان در کوتاه‌ترین زمان ممکن از میان حجم انبوهی از اطلاعات سطح وب می‌باشد. رشد اطلاعات و محدودیت زمان باعث شده تا خلاصه‌سازی متن برای محققان به یک موضوع جذاب تبدیل شود. برای حل این سری مشکلات به سراغ خلاصه‌سازها می رویم. ولی خلاصه‌سازی اسناد بزرگ توسط انسان امری دشوار و به شدت زمان‌بر می‌باشد. پس برای خلاصه‌سازی به سراغ روش‌های ماشینی و خودکار می‌رویم که سرعت کار را چند برابر کرده و در زمان کمی انجام می‌شود. سپس وقتی خلاصه‌سازهای ماشینی و خودکار به خوبی راه اندازی شدند کاربر می‌تواند خلاصه‌ایی از مطالب مهم را در اختیار داشته‌باشد. این موضوع باعث کاهش زمان خواندن متن توسط او می‌شود. در واقع مشکل یافتن منابع اطلاعاتی در مورد یک موضوع خاص از میان انبوه اطلاعات موجود در وب و همچنین گزینش مطالب مهم از میان این منابع توسط سیستم خلاصه‌سازی خودکار قابل حل است.عملیات خلاصه‌سازی از جنبه‌های مختلف قابل بررسی است اما نمی‌توان دسته‌بندی دقیقی برای آن تعریف کرد. برای پیشبرد بحث خلاصه‌سازها را از زوایای مختلف بررسی می‌کنیم:

ابتدا به سراغ داده‌های ورودی رفته و پنج ویژگی برای داده‌های ورودی تعریف می‌کنیم:

  • تعداد اسناد ورودی: براساس نوع منبع ورودی عملیات خلاصه‌سازی می‌تواند بر روی یک یا چندسند صورت گیرد. خلاصه‌سازی تک‌سندی بر روی یک سند و خلاصه‌سازی چندسندی بر روی چندسند انجام می‌شود. برای مثال اگر یک خبر ورزشی را خلاصه کنیم پس خلاصه‌سازی تک‌سندی انجام داده‌ایم ولی اگر ۵ خبر ورزشی را به عنوان ورودی دریافت کرده و همه آنها را باهم خلاصه‌سازی کنیم پس خلاصه‌سازی چندسندی انجام داده‌ایم. در خلاصه‌سازی چندسندی با چالش‌های بیشتری روبه‌رو هستیم. یکی از این چالش‌ها هم‌پوشانی اطلاعات داخل اسناد در مورد یک موضوع است به صورتی که ممکن است دو سند، حاوی یک جمله با موضوع مشابه ولی با ادبیات متفاوت باشند مثل “زیدان سرمربی رئال مادرید شد” و “زیدان دوباره به رئال برگشت”. هر دوی این جملات درباره‌ی یک موضوع صحبت کرده ولی کلمات متفاوتی را به کار برده‌اند. اگر خلاصه‌ساز، هر دوی این جملات را مهم تشخیص دهد پس دچار افزونگی می‌شویم. پس خلاصه‌ساز باید اطلاعات را به صورت کارآمد از این اسناد دریافت و افزونگی‌های موجود را حذف نماید. چالش دیگر این است که نویسندگان اسناد، افراد مختلفی هستند که ممکن است در مورد یک موضوع نظرات مختلفی داشته باشند پس احتمال وجود مفاهیم ضد و نقیض زیاد است مثل “اشتباهات مکرر داور، باخت دیگری را برای منچستر به همراه داشت” و “داورهای بازی منچستر، سربلند از زمین خارج شدند” که دو دیدگاه متفاوت و متضاد را نسبت به عملکرد داور دارند و چون این دو جمله در دو خبر(سند) متفاوت است پس خلاصه‌سازی دچار مشکل می‌شود.
  • زبان: ورودی ممکن است شامل یک زبان یا بیشتر باشد در چنین شرایطی خلاصه‌سازی دچار چالش می‌شود. آیا باید یک زبان مرجع انتخاب شود و مابقی جملات حذف شوند؟ یا نتیجه‌ی خلاصه باید ترکیبی از جملات به زبان‌های مختلف باشد؟ یا در نهایت باید خلاصه به یک زبان مرجع ترجمه شود؟
  • میزان عمومیت: اسناد ورودی می‌توانند از نوع اسناد عمومی ‌بوده و یا در مورد یک موضوع مشخص باشند. خلاصه‌سازی اسناد با یک موضوع مشخص طبیعتا آسان‌تر است و کیفیت کار بیشتر می‌شود. ولی هرچقدر موضوعات عمومی‌تر باشند درنتیجه دامنه معنایی جملات وسیع‌تر شده و حفظ یکپارچگی سخت‌تر می‌شود. برای مثال اگر صد سند با موضوع گرمایش جهانی داشته‌باشیم، فرآیند خلاصه‌سازی آسان‌تر است نسبت به زمانی که صد سند با موضوع جغرافیا داشته‌باشیم زیرا جغرافیا شامل طیف وسیعی از موضوعات بوده و اگر از هر موضوع یک جمله انتخاب شود خروجی خلاصه‌ساز یکپارچه و یک‌دست نخواهد‌بود.
  • اندازه منبع: طول اسناد می‌تواند از یک پاراگراف تا یک کتاب کامل را شامل شود. حالت ایده‌آل برای خلاصه‌سازی، یکسانی اندازه‌ی اسناد است زیرا در برخی از روش‌های خلاصه‌سازی، اسناد بزرگتر سهم بیشتری را در خروجی نهایی ایفا می‌کنند که همیشه مناسب نیست.
  • سبک: نوع سبک نوشتاری سند در انتخاب روش پردازش متن تاثیر دارد مانند محاوره‌ای، علمی و خبری. اگر برخی اسناد به زبان عامیانه باشند و برخی رسمی، خلاصه‌ساز به مشکل بر می‌خورد زیرا جملات و کلمات هر سبک، انحصاری بوده و در‌نتیجه مطالعه‌ی خروجی که هم شامل جملات رسمی و هم جملات عامیانه باشد برای مخاطب خوش‌آیند نیست.در ادامه خلاصه‌سازها را براساس جنبه‌های دیگر بررسی می‌کنیم:

ویژگی خلاصه: خلاصه می‌تواند اخباری و یا آگاهی‌دهنده باشد.

  • خلاصه‌ی‌خبری فقط سرفصل‌های اصلی متن را پوشش می‌دهد و با محتوا کاری ندارد. این نوع خلاصه برای بیان اهداف مشترک مقالات استفاده می‌شود. مثل فردی که هر روز صبح به سرخط‌خبرها گوش داده و از کلیات وقایع اتفاق افتاده آگاه می‌شود.
  • اما در خلاصه‌ی آگاهی دهنده، کاربر به جای خواندن متن اصلی، خلاصه آن را می‌خواند پس محتویات و جزئیات متن باید در داخل خلاصه قرار گیرد. اگر جزئیات یک سند مثل خبر را به دو دسته ‌ جزئیات‌مهم و ‌ جزئیات‌غیرمهم تقسیم کنیم، کاربر تلاش دارد علاوه بر آگاهی از کلیات وقایع، همچنین از جزئیات‌مهم آن اتفاق نیز باخبر شود برای مثال کاربر در مواجه با خبر حمله به یک پایگاه نظامی، نسبت به تعداد تلفات کنجکاو می‌شود ولی نسبت به این موضوع که سلاح به کار برده شده ساخت کدام کشور بوده احتمالا کنجکاوی کمتری کند. پس تعداد تلفات، از جزئیات مهم بوده و کشور سازنده سلاح جز اطلاعات کم اهمیت است.

خلاصه‌ساز از منظر کاربری که از آن استفاده می‌کند:

کاربر می‌تواند انسان و یا ماشین باشد. متن خلاصه‌ شده باید برای انسان خوانا باشد. کاربر انسانی می‌تواند خبره و یا غیرخبره باشد.

  • افرادخبره: سیستم در این نوع خلاصه با توجه به پیشینه و دانش قبلی کاربر، اطلاعات جدیدی در مورد موضوع به او ارائه می‎کند.
  • افرادغیرخبره: فرض سیستم این است که کاربر در مورد موضوع، دانش قبلی ندارد و به کمک متن خلاصه می‌خواهد اطلاعاتی بدست آورد پس خلاصه‌ی تولیدی باید برای او قابل‌فهم باشد.

در این مقاله به تعاریف اولیه پرداخته و خلاصه‌سازها را از جنبه‌های مختلف بررسی کردیم. در مقاله بعدی در مورد روش‌های خلاصه‌سازی صحبت خواهیم‌کرد و فرایند خلاصه‌سازی را با ذکر مثال بررسی می‌کنیم.

چه رتبه ای می‌دهید؟

میانگین ۵ / ۵. از مجموع ۱

اولین نفر باش

title sign
دانلود مقاله
خلاصه سازی متون [بخش اول]
فرمت PDF
5 صفحه
حجم 1 مگابایت
دانلود مقاله
title sign
معرفی نویسنده
تیم فنی نیک آموز
مقالات
273 مقاله توسط این نویسنده
محصولات
0 دوره توسط این نویسنده
تیم فنی نیک آموز
پروفایل نویسنده
title sign
معرفی محصول
title sign
دیدگاه کاربران

    • ادامه آموزش رو قرار نمیدید ؟!

      • درود برشما
        قسمت بعدی این مقاله روز دوشنبه منتشر خواهد شد
        سپاس از همراهی شما

    • درود برشما
      قسمت بعدی این مقاله روز دوشنبه منتشر خواهد شد

      سپاس از همراهی شما