نیک آموز > وبلاگ > هوش مصنوعی > خلاصه سازی متون [بخش سوم]

خلاصه سازی متون [بخش سوم]

نوشته شده توسط: تیم فنی نیک آموز

تاریخ انتشار: ۰۹ آذر ۱۳۹۹

آخرین بروزرسانی: 23 دی 1403

زمان مطالعه: 24 دقیقه

مقدمه

در یک مجموعه مقاله قصد داریم در مورد خلاصه‌ سازی متون صحبت کنیم. خلاصه‌ سازی یکی از تسک‌های مهم، رایج و کاربردی در زمینه متن‌کاوی است که امروزه توجه موسسات پژوهشی و شرکت‌ها را به خود جلب کرده است. در این سری مقالات سعی شده به زبان ساده، مهم‌ترین نکات مربوط به خلاصه‌ سازها بیان شود و البته چالش‌های مربوط به زبان فارسی نیز پوشش داده شود.
در سری‌اول به تعاریف اولیه پرداخته و در ادامه از جنبه‌های مختلف، خلاصه‌سازها را بررسی کردیم. در سری‌دوم روش‌های خلاصه‌سازی را با ذکر مثال بررسی‌کردیم. در این مقاله از مشکلات همیشگی کار با متون‌فارسی و کمبود ابزارها خواهیم‌گفت.یکی از مشکلات همیشگی کار با متون پارسی، کمبود ابزارهاست. از طرفی تفاوت ساختاری میان زبان انگلیسی و پارسی باعث شده تا روش‌ها و ابزارهای طراحی شده برای این زبان مناسب زبان پارسی نباشد. در ادامه به برخی از این تفاوت‌ها اشاره می‌کنیم:

طرز قرار گرفتن ارکان جمله در زبان پارسی متفاوت از زبان انگلیسی است مثلا در زبان انگلیسی جای فعل و فاعل مشخص است و با زبانی ساختارمند روبرو هستیم ولی در زبان پارسی تنوع و انعطاف بیشتر بوده و به نوعی زبان پارسی، ساختارگریز است.
ضمایر در زبان انگلیسی منفصل می‌باشند اما در زبان پارسی ضمایر چسبان می‌توانند به اسامی و افعال چسبیده و شکل آنها را تغییر دهند.
زبان پارسی منقبض بوده یعنی موجودیت های مختلف، اسم یکسانی دارند ولی برای مثال در انگلیسی برای کیف زنانه، کیف مردانه، کیف مسافرتی اسامی منحصر به فرد داریم یا در زبان عربی انواع گاو، اسامی مختلف دارند ولی در پارسی خیر.

البته مسلم است که اگر زبان پارسی، زبان رسمی جهان بود تعداد ابزارها نسبت به الان بیشتر می‌بود. همچنین نبود دستور زبان مدون و غنی یک نقد جدی به زبان‌شناسان است که اگر چنین دستورالعملی وجود داشت بالاخره شاهد پیاده سازی آن می‌بودیم. همچنین برای آموزش مدل‌های یادگیری‌ماشین و تولید ابزارهای عمومی، به منابع متنی(corpus) بزرگ و استاندارد نیاز است که فعلا موجود نیست.

برای پردازش و تحلیل روی متن پارسی مشکلات زیر نیز وجود دارد

تشخیص مرز گروه‌های اسمی(وجود کسره اضافه):

برای مثال در جمله “نخستین ورزشکار زن ایرانی، در اصفهان متولد شد.” تشخیص گروه اسمی ” نخستین ورزشکار زن ایرانی” برای ماشین بسیار سخت است.‌ در صورتی در زبان انگیسی، خبری از کسره نیست و تشخیص گروه‌های اسمی ساده‌تر است.
تشخیص مرز کلمات (وجود نگارش‌های مختلف):

برای مثال اگر در جمله “بخشش، لازم نیست اعدامش کنید.” کاما حذف شود ممکن است معنای جمله عوض شود.
کنایه:

تشخیص کنایه و شوخی برای ماشین بسیار سخت است برای مثال “اینقدر کیفیت غذا خوب بود که یک‌راست راهی بیمارستان شدم.”

در ادامه اگر وارد فاز پیاده‌سازی خلاصه‌ساز شوید موارد زیر می‌تواند دید مناسبی بدهد(البته موارد زیر کلی بوده و به دامنه و حوزه متون وابستگی زیادی دارد):

تشابه با عنوان:

عنوان‌اصلی متن، حامل منظور کلی متن است بنابراین جملاتی که به عنوان‌اصلی شبیه هستند معمولا جملات مهمی می‌باشند پس برای آنها ارزش بیشتری قائل می‌شویم.
اسامی‌خاص:

وجود اسامی‌خاص در یک جمله باعث اهمیت آن جمله می‌شود. هر چه تعداد اسامی‌خاص در یک جمله بیشتر باشد، اهمیت آن جمله بیشتر است مثل نام شهرها، کشورها، افراد و غیره. البته این قاعده کلی است و ممکن است موارد استثنا هم داشته باشد.
طول جملات:

جملات با طول متوسط برای انتخاب مناسب‌تر هستند. جملات‌کوتاه معمولا حاوی اطلاعات مهمی نمی‌باشند و استفاده از جملات بلند نیز برای خلاصه‌سازی کار درستی نیست. اما به طور کلی بر اساس ویژگی‌های دیگر جمله تصمیم می‌گیریم که جمله انتخاب شود و یا نشود(نه صرفا براساس طول جمله).
شباهت با زمینه متن:

براساس کلمات‌پرتکرار موجود در متن، زمینه‌متن(موضوع کلی متن) تعیین می‌شود. جملاتی که به زمینه متن نزدیک‌تر هستند و همچنین تعداد بیشتری از کلمات پرتکرار را شامل شوند، امتیاز بالاتری دریافت می‌کنند.
کلمات مهم:

در طول متن با کلماتی مانند افعال رایج، ضمایر، قیدها و حروف‌ربط روبرو هستیم که در طول متن به صورت مداوم تکرار می‌شوند اما حاوی اطلاعات مفیدی نیستند. بهتر است برای این سری کلمات یک لیست ایجاد شود و در محاسبات تاثیرشان نزدیک به صفر بشود که در اینجا مبحث ایست‌واژه‌ها مطرح می شود. برای این کلمات امتیاز کمتری(نزدیک به صفر) قائل هستیم. با صفر کردن تاثیر کلمات غیرمهم، انگار به کلمات مهم پر و پال داده‌ایم.
ضمایر:

وقتی ضمایر نامشخص مانند او، ایشان و… در جمله وجود دارند باید به آن جمله امتیاز کمتری داده شود تا شانس قرار گرفتنش در متن چکیده پایین بیاید تا در خلاصه کمتر با ضمایری که مرجع نامشخص دارند، روبرو شویم. معمولا ضمایر برای توصیف بیشتر جملات قبلی در کلمات ابتدایی جمله فعلی ظاهر می‌شود. اگر در کلمات میانی و آخر جمله، ضمیر ظاهر شود، روی خوانایی خلاصه تولید شده تاثیر می‌گذارد. بنابراین جملات دارای ضمیر اهمیت کمتری دارند و به همین دلیل وجود ضمیر در جمله، ضریب منفی به جمله می‌دهد.
کلمات و عبارات اشاره:

عباراتی که برای اشاره به شخص و یا موضوع خاص مورد استفاده قرار می‌گیرند. در یک جمله و با استفاده از کلمات اضافه می‌توانیم متوجه اهمیت و یا عدم اهمیت آن جمله شویم. کلمات و عباراتی مانند نتیجه، بنابراین، مقاله و موضوع، معمولا حاوی اطلاعات مهمی ‌می‌باشند زیرا نشان‌دهنده جمع‌بندی‌های نویسنده می‌باشند پس برای این کلمات امتیاز بالاتری در نظر گرفته می‌شود. اگر در جمله ای با عبارتی از قبیل مثلا، مانند، همانند و همچون وجود داشته باشد، آن جمله امتیاز کمتری دریافت می‌کند.
حذف مثال‌ها:

جملات مثالی حذف می‌شوند زیرا مثال برای توضیح جملات قبلی است و تکرار مفاهیم قبلی است در مثال “میوه‌ها مفید هستند. مثلا انار برای کنترل فشار خون کمک‌کننده است.” جمله دوم تاکیدی بر جمله اول است پس می توان از آن چشم‌پوشی کرد.
حذف توضیخات تکمیلی:

جمله ایی که حاوی توضیحات تکمیلی است حذف می‌شود.(شبیه به استدلال بالا)
امتیاز مثبت به جملات حاوی نقل‌قول:

این احتمال وجود دارد که جملات مابین نقل‌قول، جملات مهمی ‌باشند.”اگر جمله‌ی مهمی نیستم چرا تبعیض قائل شدی و کوت شدم”
اطلاعات عددی:

معمولا جملات دارای مقادیرعددی، جملات مهمی هستند زیرا حاوی اطلاعات مهم آماری برای کاربر می‌باشند پس برای قرارگیری در متن خلاصه مناسب می‌باشند. اعداد، تاریخ و درصد از جمله اطلاعات عددی می‌باشند.
موقعیت جمله:

جملات اول و جمله آخر هر پاراگراف معمولا از جملات میانی مهم‌تر هستند همچنین جملات موجود در ابتدای متن از جملات انتهایی متن از اهمیت بیشتری برخوردار می‌باشند. چکیده و جان کلام در جملات ابتدایی و انتهایی می‌باشد و جملات میانی صرفا توضیح بیشتر چکیده و هدف متن است.
اعداد و کلمات انگلیسی:

وقتی برای کلمه انگلیسی، مترادف پارسی پیدا نشود، یا آن کلمه را نتوانیم به پارسی ترجمه کنیم و یا به دلیل اهمیتش به همان شکل انگلیسی خود در متن آمده باشد، باید به آن شانس بیشتری برای حضور در متن چکیده بدهیم پس برای جملات حاوی کلمات و اعداد انگلیسی امتیاز بیشتری قائل می‌شویم. در متون پزشکی معمولا کاربرد اصطلاحات انگلیسی زیادی وجود دارد که اتفاقا تعیین کننده و مهم هستند.
عبارات خاص:

عباراتی که با علائمی مانند گیومه از متن جدا می‌شوند، بر اهمیت جمله می‌افزایند.

نزدیک به ۷۰ سال از ارائه اولین سیستم خلاصه‌سازی متن به زبان انگلیسی می‌گذرد. در طول این سال‌ها در حوزه خلاصه‌سازی متون انگلیسی کارهای زیادی انجام شده و ابزارهای خلاصه‌سازی متفاوتی ارائه شده است اما مقالات و ابزارها در حوزه خلاصه‌سازی خودکار متون پارسی به دلایل:

عدم توجه کافی محققان و دانشگاه‌های داخل کشور
پیچیدگی‌های زبان پارسی
عدم وجود ابزارهای پیش پردازش برای زبان پارسی

بسیار اندک است. چند سیستم خلاصه‌سازی برای زبان پارسی ارائه شده که با وجود نتایج نسبتا مناسب ، ولی هنوز جای بهبود و توسعه وجود دارد و زمینه ای مناسب برای کارهای دانشگاهی و تجاری است.در آخر یک سوال مطرح کرده و تقاضا دارم به جواب آن فکر کنید: در تولید خلاصه، حذف ایست واژه ها ضروری است یا خیر؟ به عبارتی برای پیاده سازی یک خلاصه‌ساز، در مرحله پیش پردازش، ایست واژه ها حذف شوند یا خیر؟
طی یک سری مقاله بحث خلاصه‌سازی متون را از جنبه‌های مختلف بررسی ‌کردیم. در سری‌اول به تعاریف اولیه پرداخته و در ادامه از جنبه‌های مختلف، خلاصه‌سازها را بررسی کردیم. در سری‌دوم روش‌های خلاصه‌سازی را با ذکر مثال بررسی‌کردیم. در سری‌سوم (اخر) از مشکلات همیشگی کار با متون‌فارسی و کمبود ابزارها گفتیم. امیدوارم که این مطالب مفید واقع شود.