خانه هوش مصنوعی خلاصه سازی متون [بخش سوم] هوش مصنوعی LLM نوشته شده توسط: تیم فنی نیک آموز تاریخ انتشار: ۰۹ آذر ۱۳۹۹ آخرین بروزرسانی: ۱۷ تیر ۱۴۰۳ زمان مطالعه: 24 دقیقه ۰ (۰) مقدمه در یک مجموعه مقاله قصد داریم در مورد خلاصه سازی متون صحبت کنیم. خلاصه سازی یکی از تسکهای مهم، رایج و کاربردی در زمینه متنکاوی است که امروزه توجه موسسات پژوهشی و شرکتها را به خود جلب کرده است. در این سری مقالات سعی شده به زبان ساده، مهمترین نکات مربوط به خلاصه سازها بیان شود و البته چالشهای مربوط به زبان فارسی نیز پوشش داده شود. در سریاول به تعاریف اولیه پرداخته و در ادامه از جنبههای مختلف، خلاصهسازها را بررسی کردیم. در سریدوم روشهای خلاصهسازی را با ذکر مثال بررسیکردیم. در این مقاله از مشکلات همیشگی کار با متونفارسی و کمبود ابزارها خواهیمگفت.یکی از مشکلات همیشگی کار با متون پارسی، کمبود ابزارهاست. از طرفی تفاوت ساختاری میان زبان انگلیسی و پارسی باعث شده تا روشها و ابزارهای طراحی شده برای این زبان مناسب زبان پارسی نباشد. در ادامه به برخی از این تفاوتها اشاره میکنیم: طرز قرار گرفتن ارکان جمله در زبان پارسی متفاوت از زبان انگلیسی است مثلا در زبان انگلیسی جای فعل و فاعل مشخص است و با زبانی ساختارمند روبرو هستیم ولی در زبان پارسی تنوع و انعطاف بیشتر بوده و به نوعی زبان پارسی، ساختارگریز است. ضمایر در زبان انگلیسی منفصل میباشند اما در زبان پارسی ضمایر چسبان میتوانند به اسامی و افعال چسبیده و شکل آنها را تغییر دهند. زبان پارسی منقبض بوده یعنی موجودیت های مختلف، اسم یکسانی دارند ولی برای مثال در انگلیسی برای کیف زنانه، کیف مردانه، کیف مسافرتی اسامی منحصر به فرد داریم یا در زبان عربی انواع گاو، اسامی مختلف دارند ولی در پارسی خیر. البته مسلم است که اگر زبان پارسی، زبان رسمی جهان بود تعداد ابزارها نسبت به الان بیشتر میبود. همچنین نبود دستور زبان مدون و غنی یک نقد جدی به زبانشناسان است که اگر چنین دستورالعملی وجود داشت بالاخره شاهد پیاده سازی آن میبودیم. همچنین برای آموزش مدلهای یادگیریماشین و تولید ابزارهای عمومی، به منابع متنی(corpus) بزرگ و استاندارد نیاز است که فعلا موجود نیست. برای پردازش و تحلیل روی متن پارسی مشکلات زیر نیز وجود دارد تشخیص مرز گروههای اسمی(وجود کسره اضافه): برای مثال در جمله “نخستین ورزشکار زن ایرانی، در اصفهان متولد شد.” تشخیص گروه اسمی ” نخستین ورزشکار زن ایرانی” برای ماشین بسیار سخت است. در صورتی در زبان انگیسی، خبری از کسره نیست و تشخیص گروههای اسمی سادهتر است. تشخیص مرز کلمات (وجود نگارشهای مختلف): برای مثال اگر در جمله “بخشش، لازم نیست اعدامش کنید.” کاما حذف شود ممکن است معنای جمله عوض شود. کنایه: تشخیص کنایه و شوخی برای ماشین بسیار سخت است برای مثال “اینقدر کیفیت غذا خوب بود که یکراست راهی بیمارستان شدم.” در ادامه اگر وارد فاز پیادهسازی خلاصهساز شوید موارد زیر میتواند دید مناسبی بدهد(البته موارد زیر کلی بوده و به دامنه و حوزه متون وابستگی زیادی دارد): تشابه با عنوان: عنواناصلی متن، حامل منظور کلی متن است بنابراین جملاتی که به عنواناصلی شبیه هستند معمولا جملات مهمی میباشند پس برای آنها ارزش بیشتری قائل میشویم. اسامیخاص: وجود اسامیخاص در یک جمله باعث اهمیت آن جمله میشود. هر چه تعداد اسامیخاص در یک جمله بیشتر باشد، اهمیت آن جمله بیشتر است مثل نام شهرها، کشورها، افراد و غیره. البته این قاعده کلی است و ممکن است موارد استثنا هم داشته باشد. طول جملات: جملات با طول متوسط برای انتخاب مناسبتر هستند. جملاتکوتاه معمولا حاوی اطلاعات مهمی نمیباشند و استفاده از جملات بلند نیز برای خلاصهسازی کار درستی نیست. اما به طور کلی بر اساس ویژگیهای دیگر جمله تصمیم میگیریم که جمله انتخاب شود و یا نشود(نه صرفا براساس طول جمله). شباهت با زمینه متن: براساس کلماتپرتکرار موجود در متن، زمینهمتن(موضوع کلی متن) تعیین میشود. جملاتی که به زمینه متن نزدیکتر هستند و همچنین تعداد بیشتری از کلمات پرتکرار را شامل شوند، امتیاز بالاتری دریافت میکنند. کلمات مهم: در طول متن با کلماتی مانند افعال رایج، ضمایر، قیدها و حروفربط روبرو هستیم که در طول متن به صورت مداوم تکرار میشوند اما حاوی اطلاعات مفیدی نیستند. بهتر است برای این سری کلمات یک لیست ایجاد شود و در محاسبات تاثیرشان نزدیک به صفر بشود که در اینجا مبحث ایستواژهها مطرح می شود. برای این کلمات امتیاز کمتری(نزدیک به صفر) قائل هستیم. با صفر کردن تاثیر کلمات غیرمهم، انگار به کلمات مهم پر و پال دادهایم. ضمایر: وقتی ضمایر نامشخص مانند او، ایشان و… در جمله وجود دارند باید به آن جمله امتیاز کمتری داده شود تا شانس قرار گرفتنش در متن چکیده پایین بیاید تا در خلاصه کمتر با ضمایری که مرجع نامشخص دارند، روبرو شویم. معمولا ضمایر برای توصیف بیشتر جملات قبلی در کلمات ابتدایی جمله فعلی ظاهر میشود. اگر در کلمات میانی و آخر جمله، ضمیر ظاهر شود، روی خوانایی خلاصه تولید شده تاثیر میگذارد. بنابراین جملات دارای ضمیر اهمیت کمتری دارند و به همین دلیل وجود ضمیر در جمله، ضریب منفی به جمله میدهد. کلمات و عبارات اشاره: عباراتی که برای اشاره به شخص و یا موضوع خاص مورد استفاده قرار میگیرند. در یک جمله و با استفاده از کلمات اضافه میتوانیم متوجه اهمیت و یا عدم اهمیت آن جمله شویم. کلمات و عباراتی مانند نتیجه، بنابراین، مقاله و موضوع، معمولا حاوی اطلاعات مهمی میباشند زیرا نشاندهنده جمعبندیهای نویسنده میباشند پس برای این کلمات امتیاز بالاتری در نظر گرفته میشود. اگر در جمله ای با عبارتی از قبیل مثلا، مانند، همانند و همچون وجود داشته باشد، آن جمله امتیاز کمتری دریافت میکند. حذف مثالها: جملات مثالی حذف میشوند زیرا مثال برای توضیح جملات قبلی است و تکرار مفاهیم قبلی است در مثال “میوهها مفید هستند. مثلا انار برای کنترل فشار خون کمککننده است.” جمله دوم تاکیدی بر جمله اول است پس می توان از آن چشمپوشی کرد. حذف توضیخات تکمیلی: جمله ایی که حاوی توضیحات تکمیلی است حذف میشود.(شبیه به استدلال بالا) امتیاز مثبت به جملات حاوی نقلقول: این احتمال وجود دارد که جملات مابین نقلقول، جملات مهمی باشند.”اگر جملهی مهمی نیستم چرا تبعیض قائل شدی و کوت شدم” اطلاعات عددی: معمولا جملات دارای مقادیرعددی، جملات مهمی هستند زیرا حاوی اطلاعات مهم آماری برای کاربر میباشند پس برای قرارگیری در متن خلاصه مناسب میباشند. اعداد، تاریخ و درصد از جمله اطلاعات عددی میباشند. موقعیت جمله: جملات اول و جمله آخر هر پاراگراف معمولا از جملات میانی مهمتر هستند همچنین جملات موجود در ابتدای متن از جملات انتهایی متن از اهمیت بیشتری برخوردار میباشند. چکیده و جان کلام در جملات ابتدایی و انتهایی میباشد و جملات میانی صرفا توضیح بیشتر چکیده و هدف متن است. اعداد و کلمات انگلیسی: وقتی برای کلمه انگلیسی، مترادف پارسی پیدا نشود، یا آن کلمه را نتوانیم به پارسی ترجمه کنیم و یا به دلیل اهمیتش به همان شکل انگلیسی خود در متن آمده باشد، باید به آن شانس بیشتری برای حضور در متن چکیده بدهیم پس برای جملات حاوی کلمات و اعداد انگلیسی امتیاز بیشتری قائل میشویم. در متون پزشکی معمولا کاربرد اصطلاحات انگلیسی زیادی وجود دارد که اتفاقا تعیین کننده و مهم هستند. عبارات خاص: عباراتی که با علائمی مانند گیومه از متن جدا میشوند، بر اهمیت جمله میافزایند. نزدیک به ۷۰ سال از ارائه اولین سیستم خلاصهسازی متن به زبان انگلیسی میگذرد. در طول این سالها در حوزه خلاصهسازی متون انگلیسی کارهای زیادی انجام شده و ابزارهای خلاصهسازی متفاوتی ارائه شده است اما مقالات و ابزارها در حوزه خلاصهسازی خودکار متون پارسی به دلایل: عدم توجه کافی محققان و دانشگاههای داخل کشور پیچیدگیهای زبان پارسی عدم وجود ابزارهای پیش پردازش برای زبان پارسی بسیار اندک است. چند سیستم خلاصهسازی برای زبان پارسی ارائه شده که با وجود نتایج نسبتا مناسب ، ولی هنوز جای بهبود و توسعه وجود دارد و زمینه ای مناسب برای کارهای دانشگاهی و تجاری است.در آخر یک سوال مطرح کرده و تقاضا دارم به جواب آن فکر کنید: در تولید خلاصه، حذف ایست واژه ها ضروری است یا خیر؟ به عبارتی برای پیاده سازی یک خلاصهساز، در مرحله پیش پردازش، ایست واژه ها حذف شوند یا خیر؟ طی یک سری مقاله بحث خلاصهسازی متون را از جنبههای مختلف بررسی کردیم. در سریاول به تعاریف اولیه پرداخته و در ادامه از جنبههای مختلف، خلاصهسازها را بررسی کردیم. در سریدوم روشهای خلاصهسازی را با ذکر مثال بررسیکردیم. در سریسوم (اخر) از مشکلات همیشگی کار با متونفارسی و کمبود ابزارها گفتیم. امیدوارم که این مطالب مفید واقع شود. چه رتبه ای میدهید؟ میانگین ۰ / ۵. از مجموع ۰ اولین نفر باش دانلود مقاله خلاصه سازی متون [بخش سوم] فرمت PDF 4 صفحه حجم 1 مگابایت دانلود مقاله معرفی نویسنده مقالات 402 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز مقالات مرتبط ۰۳ آبان هوش مصنوعی راهنمای کاربردی اصطلاحات هوش مصنوعی تیم فنی نیک آموز ۰۱ آبان هوش مصنوعی ساخت پایپ لاین RAG در یک قدم بسیار ساده + نمونه کد واقعی نگین فاتحی ۰۴ مهر هوش مصنوعی پارادایم های RAG در مدل های زبانی بزرگ تیم فنی نیک آموز ۲۰ شهریور هوش مصنوعی نحوه ساخت RAG های کارآمد با Query Routing نگین فاتحی دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ