خانه هوش مصنوعی خلاصه سازی متون [بخش دوم] هوش مصنوعی LLM نوشته شده توسط: تیم فنی نیک آموز تاریخ انتشار: ۰۴ آذر ۱۳۹۹ آخرین بروزرسانی: 17 تیر 1403 زمان مطالعه: 22 دقیقه ۵ (۱) مقدمه در یک مجموعه مقاله قصد داریم در مورد خلاصهسازی متون صحبت کنیم. خلاصهسازی یکی از تسکهای مهم، رایج و کاربردی در زمینه متنکاوی است که امروزه توجه موسسات پژوهشی و شرکتها را به خود جلب کرده است. در این سری مقالات سعی شده به زبان ساده، مهمترین نکات مربوط به خلاصهسازها بیان شود و البته چالشهای مربوط به زبان فارسی نیز پوشش داده شود. در سریاول به تعاریف اولیه پرداخته و خلاصهسازها را از جنبههای مختلف بررسیکردیم. در این مقاله روشهای خلاصهسازی را با ذکر مثال بررسی کرده و فرایند خلاصهسازی را گامبهگام تشریح میکنیم. روشهای خلاصهسازی روشهای خلاصهسازی اسناد به دو دسته، روش استخراجی (extractive) و روش انتزاعی (abstractive) تقسیم میشوند. روش استخراجی: در این روش تعدادی از جملات موجود در اسناد ورودی انتخاب و سپس کلیهی جملههای انتخابی در داخل خلاصه قرار میگیرند. در واقع تعدادی ویژگی برای امتیازدهی به جملات در نظر گرفته میشود و سپس به جملات بر طبق آنها امتیازاتی تعلق میگیرد. در پایان جملات با امتیاز بالاتر شناسایی و داخل متن خلاصه جای میگیرند. انتخاب جملات باید به صورتی باشد تا انسجام و پیوستگی در متن خلاصه، میان جملات برقرار باشد و شاهد افزونگی نباشیم. طول متن خلاصه نیز به معیار فشردگی در نظر گرفته شده بستگی دارد. این روش نسبت به روش دوم امکانپذیرتر است و به همین دلیل به عنوان روش استاندارد خلاصهسازی از آن یاد میشود چون اساس این روش انتخاب جملات برجسته میباشد پس جملهی انتخابی از نظر گرامری درست است(چون از بین جملات موجود استفاده میشود). روش انتزاعی: در این روش جملهای انتخاب نمیشود بلکه از روی یکسری واحد(کلمات و عبارات)، جملات جدید ساخته میشوند و شاهد یک متن جدید هستیم. این واحدها از اسناد ورودی مختلف میآیند و روی آنها پردازش انجام میشود تا بازسازی شوند و متن خلاصه شده و جدیدی را بسازند. احتمال اینکه جمله و یا عباراتی از متن اصلی در داخل خلاصه قرار بگیرد وجود دارد اما نه به اینصورت که تمام جملات از روی متن اصلی انتخاب شوند مثل اینکه یک صفحه از کتاب فلسفی را بخوانیم و درک و تحلیل و تفسیرمان را در قالب یک پاراگراف ارائه دهیم. در تولید خلاصه با استفاده از این روش شاهد جملات جدیدی میباشیم که معمولا دارای ایرادهای دستور زبانی هستند که چالش زیادی را به همراه دارد. در این روش نیاز به درک اولیه از متن و تولید خلاصه بر اساس آن امری مهم و چالش برانگیز است. معمولا خلاصهسازی انتزاعی نسبت به استخراجی، موثرتر و خروجی آن به خلاصههای انسانی نزدیکتر باشد اما وابستگی این روش به پردازش زبانطبیعی و روشهای تجزیه و تحلیل معنایی متن و عدم رشد کافی در این حوزهها، باعث پیچیدگی آن میشود درنتیجه اغلب افراد به طراحی سیستمهایی با رویکرد استخراجی روی آوردهاند. روشهای خلاصهسازی از دیدگاهی کلیتر: روشهای کلاسیک: روشهای کلاسیک، پایه روشهای مدرن میباشند. خلاصهسازی که از این روشها استفاده میکنند نیاز به درک سطحی از متن دارند و لازم نیست روی جملات متن تحلیل نحوی انجام دهند. روشهای کلاسیک شامل، روشهای آماری، تحلیلهای مکانی و تحلیلهای آماری-مکانی میباشد. در این خلاصهسازها از یکسری ویژگی مانند خصوصیات کمی متن، فرکانس(تعداد تکرار)عبارات، خصوصیات محلی، خصوصیاتزمینهای برای نمایش اطلاعات موجود در متن استفاده میشود و بر اساس آنها جملات مهم متن استخراج میگردد برای مثال لیستی از کلمات پرتکرار در کل متون تهیه کرده و هر جمله ای که تعداد بیشتری از این لیست را دارا باشد جز جملات برگزیده خواهد بود. این روش بسیار ساده است و قابلیت اعمال روی هر نوع متنی را دارد. ایرادی که به این روش وارد است، عدم وجود انسجام و پیوستگی در متن خلاصه تولید شده توسط این روش است؛ مثل اینکه جمله ای از صفحه اول کتاب انتخاب شود و جمله بعدی از صفحه دوم انتخاب شود و خواننده نتواند بین جملات ارتباط خاصی پیدا کند. روش معنایی: خلاصهسازهایی که از روش معنایی استفاده میکنند نیاز به تحلیل نحوی و معنایی روی متن دارند. آنها از روی متن ورودی مدلی میسازند و در آن ارتباطات موجود در متن را نشان میدهند. این ارتباطات شامل ارتباط میان موجودیتها، ارتباط نحوی، ارتباط معنایی، هممکانی کلمات و غیره است. در این روشها ابتدا کلمات تجزیه شده و نقش نحوی آنها مشخص میشود(مثلا کلمه سوم از جمله اول، قید است) سپس با استفاده از پایگاه دادههای نحوی ارتباط بین جملات مشخص شده و در آخر بر اساس معنا، جملات مهم انتخاب میشوند. نحو، معنا و ارتباط نحوی و معنایی اجزای متن ورودی در این روشها مدنظر میباشد. به نوعی در این روش، به سراغ گرامر و دستور زبان رفته و متون را از نظر ساختاری تحلیل میکنیم سپس از تحلیل ها استفاده کرده تا ارتباط معنایی بین اجزای مختلف پیدا کنیم. پیچیدگی استفاده از این روشها به دلیل نیازشان به ابزارها و تکنیکهای پردازش زبان طبیعی بالا میباشد. روش ترکیبی: ترکیب چند روش خلاصهسازی با هم، روش ترکیبی نام دارد. استفاده از این روش باعث انعطافپذیری بیشتر در خلاصهساز میشود. فرایند خلاصهسازی فرایند خلاصهسازی شامل چهار مرحله اصلی میباشد. چون خروجی یک مرحله، ورودی مرحله بعد است پس مراحل باید به ترتیب و به صورت دقیق انجام شوند تا ورودی هر مرحله با کیفیت باشد. این چهار مرحله عبارتند از: گرفتن متن پیشپردازش و نرمالسازی متن تحلیل و پردازش اصلی تولید خلاصه گرفتن متن: این بخش شامل، ورود سند و یا اسنادی که قرار است عملیات خلاصهسازی بر روی آنها انجام شود. پیشپردازش: در تمام حوزههای پردازش زبان طبیعی، پیش پردازش روی متن ورودی، کار پایهای و مهم است زیرا این عملیات باعث افزایش کیفیت خروجیها میشود. عملیاتی که در این مرحله انجام میگردد شامل حذف ایست واژهها، ریشهیابی، تصحیح غلط های املایی و غیره میباشد. تحلیل و پردازش اصلی: در این مرحله بر روی خروجی بهدست آمده از فاز قبلی عملیات تحلیل انجام میگردد. در طی تحلیل متن، بخشهای مهم و اصلی متن، بر اساس ویژگیهایی تعریف شده، شناسایی و امتیازدهی میشوند. تولید خلاصه: متن خلاصه در این مرحله تولید میشود. جملاتی که در فاز قبل شناسایی و امتیازدهی شدند، در این فاز بر اساس امتیازشان داخل متن خلاصه قرار میگیرنددر مسیر طراحی یک سیستم خلاصهسازی با یکسری چالش اساسی روبهرو هستیم: حفظ پیوستگی حجم خلاصه ارزیابی کیفیت خلاصه چالشهای مربوط به پردازش زبان پارسی چالش اول، قبلا بررسی شده است ولی چالش دوم وقتی مطرح است که کاربر حجم خلاصه مدنظر را مشخص نکند در این صورت باید مقادیر مختلف امتحان شود تا به مقدار مناسب برسیم. در ادامه ارزیابی روش پیشنهادی در خلاصهسازی اسناد چالشبرانگیز است. پس از تولید خلاصه، بررسی نتایج و خروجی ها دردسر زیادی دارد. برای داشتن یک ارزیابی درست و دقیق وجود یک مجموعه داده استاندارد و مناسب امری ضروری میباشد که برای زبان فارسی مجموعه داده “پاسخ” وجود دارد. البته برای بررسی خروجی تکسند چالشی وجود ندارد و با نگاهی گذرا کیفیت کار مشخص میشود ولی اگر با هزاران سند روبرو شویم چگونه باید کیفیت کار را سنجید؟(به جز استفاده از مجموعه داده استاندارد) پیشنهاد خواندن تکتک سندها معقول نبوده و باید به سراغ گزینههای دیگر رفت. برای سنجش و ارزیابی خروجی موارد زیر پیشنهاد میشود(۴ پارامتری که در ادامه معرفی میشوند در حد ایده بوده و نحوه پیادهی سازی آن بیان نمیشود): پیوستگی خلاصه: در تولید خلاصه یکی از مسائل، تولید جملات بیمعنی یا بیارتباط به بقیهی جملات است. این معیار برای ارزیابی میزان پیوستگی جملات بکار گرفته میشود حال می توان یک پارامتر برای محاسبه کمی جملات بیمعنی و بیارتباط تعریف کرد. اطلاعرسانی خلاصه: برای فهم اینکه چه میزان از اطلاعات متن اصلی در متن خلاصه موجود است یک معیار کمی تعریف شود. دقت و بازخوانی جمله: بازخوانی مشخص میکند چه تعداد از جملات خلاصهیانسانی در خلاصهیماشینی وجود دارد. دقت نیز نمایانگر تعداد جملات خلاصهی ماشینی که در خلاصهی انسانی وجود دارند میباشد. ترکیب این دو f-measure نام دارد. این دو، معیارهای اساسی برای ارزیابی سامانههای خلاصهساز میباشند. شباهت محتوا: معیارهای مشابهت محتوا برای ارزیابی معنایی مورد استفاده قرار میگیرند.تعریف چنین پارامتری و محاسبه آن دشوار است. در این مقاله روشهای خلاصهسازی را با ذکر مثال بررسیکردیم. در مقاله بعدی از مشکلات همیشگی کار با متون فارسی و کمبود ابزارها خواهیمگفت چه رتبه ای میدهید؟ میانگین ۵ / ۵. از مجموع ۱ اولین نفر باش دانلود مقاله خلاصه سازی متون [بخش دوم] فرمت PDF 6 صفحه حجم 1 مگابایت دانلود مقاله معرفی نویسنده مقالات 401 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز معرفی محصول دوره یادگیری علم داده 1.780.000 تومان 1.068.000 تومان مقالات مرتبط ۰۳ آبان هوش مصنوعی راهنمای کاربردی اصطلاحات هوش مصنوعی تیم فنی نیک آموز ۰۱ آبان هوش مصنوعی ساخت پایپ لاین RAG در یک قدم بسیار ساده + نمونه کد واقعی نگین فاتحی ۰۴ مهر هوش مصنوعی پارادایم های RAG در مدل های زبانی بزرگ تیم فنی نیک آموز ۲۰ شهریور هوش مصنوعی نحوه ساخت RAG های کارآمد با Query Routing نگین فاتحی دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ گرامی راز ۲۹ / ۰۹ / ۹۹ - ۰۸:۲۰ سلام شبتون بخیر مستند ۴۰ صفحه ای که گفتین ارسال میشه در رابطه با مباحث دیتا ماینینگ رو من ندیدم، امکانش هست لطفا لینک را ارسال کنید خیلی ممنون پاسخ به دیدگاه تیم فنی نیک آموز ۰۱ / ۱۰ / ۹۹ - ۰۹:۴۳ درود بر شما داخل این صفحه باکسی ظاهر میشه اگه ایمیلتون رو وارد کنید مستند برای شما ایمیل خواهد شد. https://nikamooz.com/product/nlp-course/ سپاس از همراهی شما پاسخ به دیدگاه گرامی راز ۲۹ / ۰۹ / ۹۹ - ۰۸:۲۰ سلام شبتون بخیر مستند ۴۰ صفحه ای که گفتین ارسال میشه در رابطه با مباحث دیتا ماینینگ رو من ندیدم، امکانش هست لطفا لینک را ارسال کنید خیلی ممنون پاسخ به دیدگاه تیم فنی نیک آموز ۰۱ / ۱۰ / ۹۹ - ۰۹:۴۳ درود بر شما داخل این صفحه باکسی ظاهر میشه اگه ایمیلتون رو وارد کنید مستند برای شما ایمیل خواهد شد. https://nikamooz.com/product/nlp-course/ سپاس از همراهی شما پاسخ به دیدگاه