خانه هوش مصنوعی خلاصه سازی متون [بخش اول] هوش مصنوعی LLM نوشته شده توسط: تیم فنی نیک آموز تاریخ انتشار: ۱۵ آبان ۱۳۹۹ آخرین بروزرسانی: ۱۷ تیر ۱۴۰۳ زمان مطالعه: 18 دقیقه ۵ (۱) مقدمه در یک مجموعه مقاله قصد داریم در مورد خلاصهسازی متون صحبت کنیم. خلاصهسازی یکی از تسکهای مهم، رایج و کاربردی در زمینه متنکاوی است که امروزه توجه موسسات پژوهشی و شرکتها را به خود جلب کردهاست. در این سری مقالات سعی شده به زبان ساده، مهمترین نکات مربوط به خلاصهسازها بیانشود و البته چالشهای مربوط به زبان فارسی نیز پوشش دادهشود. در سریاول قصد داریم به تعاریف اولیه پرداخته و در ادامه از جنبههای مختلف، خلاصهسازها را بررسی کنیم؛ با ما همراه باشید فرآیند جمع آوری و کوتاه کردن یک یا چندسند توسط ماشین، به طوری که مفاهیم و نکات اصلی آنها حفظ شود، خلاصهسازی نام دارد. خلاصهسازی را میتوان یک فرآیند تصمیمگیری در نظر گرفت زیرا ارزش جملات بر اساس یکسری معیار سنجیده میشود و باید تعدادی از جملات انتخاب شوند. متن خلاصه شده باید مختصر، روان، پیوسته، آموزنده، خوانا و حاوی نکات اصلی اسناد و همچنین فاقد ایرادهای دستور زبانی، حشو و غیره باشد. خلاصهسازی خودکار متون بخشی از دانش یادگیریماشین و پردازش زبان طبیعی است و ایده اصلی آن یافتن زیر مجموعهایی از دادههایی است که اطلاعات کلی را دربردارند. این علم در پردازش زبان طبیعی بسیار محبوب میباشد، زیرا از قابلیتهای آن میتوان در سیستمهای پرسش و پاسخ، موتورهای توصیهشخصی، خلاصهسازی محتوای صفحات وب استفاده کرد. هدف تمامی سیستمهای خلاصهساز خودکار گردآوری خلاصهایی از اطلاعات مطابق با نیاز کاربر میباشد، بهطوری که خلاصه تولیدی از نظر کیفیت به خلاصههای انسانی شبیه باشد. نرخ تولید اطلاعات بر روی شبکه گسترده وب به صورت روزافزون در حال افزایش میباشد بنا به گفته مرکز صنعت اطلاعات جهانی، هر ساله ۳۰ درصد به حجم اطلاعات وب اضافه میگردد. افزایش روزافزون منابع اطلاعاتی در بستر اینترنت، جستجو و یافتن اطلاعات مورد نیاز را مشکل کرده است. از طرفی مشکل محققان در عصر حاضر دسترسی دقیق به اطلاعات مورد نیازشان در کوتاهترین زمان ممکن از میان حجم انبوهی از اطلاعات سطح وب میباشد. رشد اطلاعات و محدودیت زمان باعث شده تا خلاصهسازی متن برای محققان به یک موضوع جذاب تبدیل شود. برای حل این سری مشکلات به سراغ خلاصهسازها می رویم. ولی خلاصهسازی اسناد بزرگ توسط انسان امری دشوار و به شدت زمانبر میباشد. پس برای خلاصهسازی به سراغ روشهای ماشینی و خودکار میرویم که سرعت کار را چند برابر کرده و در زمان کمی انجام میشود. سپس وقتی خلاصهسازهای ماشینی و خودکار به خوبی راه اندازی شدند کاربر میتواند خلاصهایی از مطالب مهم را در اختیار داشتهباشد. این موضوع باعث کاهش زمان خواندن متن توسط او میشود. در واقع مشکل یافتن منابع اطلاعاتی در مورد یک موضوع خاص از میان انبوه اطلاعات موجود در وب و همچنین گزینش مطالب مهم از میان این منابع توسط سیستم خلاصهسازی خودکار قابل حل است.عملیات خلاصهسازی از جنبههای مختلف قابل بررسی است اما نمیتوان دستهبندی دقیقی برای آن تعریف کرد. برای پیشبرد بحث خلاصهسازها را از زوایای مختلف بررسی میکنیم: ابتدا به سراغ دادههای ورودی رفته و پنج ویژگی برای دادههای ورودی تعریف میکنیم: تعداد اسناد ورودی: براساس نوع منبع ورودی عملیات خلاصهسازی میتواند بر روی یک یا چندسند صورت گیرد. خلاصهسازی تکسندی بر روی یک سند و خلاصهسازی چندسندی بر روی چندسند انجام میشود. برای مثال اگر یک خبر ورزشی را خلاصه کنیم پس خلاصهسازی تکسندی انجام دادهایم ولی اگر ۵ خبر ورزشی را به عنوان ورودی دریافت کرده و همه آنها را باهم خلاصهسازی کنیم پس خلاصهسازی چندسندی انجام دادهایم. در خلاصهسازی چندسندی با چالشهای بیشتری روبهرو هستیم. یکی از این چالشها همپوشانی اطلاعات داخل اسناد در مورد یک موضوع است به صورتی که ممکن است دو سند، حاوی یک جمله با موضوع مشابه ولی با ادبیات متفاوت باشند مثل “زیدان سرمربی رئال مادرید شد” و “زیدان دوباره به رئال برگشت”. هر دوی این جملات دربارهی یک موضوع صحبت کرده ولی کلمات متفاوتی را به کار بردهاند. اگر خلاصهساز، هر دوی این جملات را مهم تشخیص دهد پس دچار افزونگی میشویم. پس خلاصهساز باید اطلاعات را به صورت کارآمد از این اسناد دریافت و افزونگیهای موجود را حذف نماید. چالش دیگر این است که نویسندگان اسناد، افراد مختلفی هستند که ممکن است در مورد یک موضوع نظرات مختلفی داشته باشند پس احتمال وجود مفاهیم ضد و نقیض زیاد است مثل “اشتباهات مکرر داور، باخت دیگری را برای منچستر به همراه داشت” و “داورهای بازی منچستر، سربلند از زمین خارج شدند” که دو دیدگاه متفاوت و متضاد را نسبت به عملکرد داور دارند و چون این دو جمله در دو خبر(سند) متفاوت است پس خلاصهسازی دچار مشکل میشود. زبان: ورودی ممکن است شامل یک زبان یا بیشتر باشد در چنین شرایطی خلاصهسازی دچار چالش میشود. آیا باید یک زبان مرجع انتخاب شود و مابقی جملات حذف شوند؟ یا نتیجهی خلاصه باید ترکیبی از جملات به زبانهای مختلف باشد؟ یا در نهایت باید خلاصه به یک زبان مرجع ترجمه شود؟ میزان عمومیت: اسناد ورودی میتوانند از نوع اسناد عمومی بوده و یا در مورد یک موضوع مشخص باشند. خلاصهسازی اسناد با یک موضوع مشخص طبیعتا آسانتر است و کیفیت کار بیشتر میشود. ولی هرچقدر موضوعات عمومیتر باشند درنتیجه دامنه معنایی جملات وسیعتر شده و حفظ یکپارچگی سختتر میشود. برای مثال اگر صد سند با موضوع گرمایش جهانی داشتهباشیم، فرآیند خلاصهسازی آسانتر است نسبت به زمانی که صد سند با موضوع جغرافیا داشتهباشیم زیرا جغرافیا شامل طیف وسیعی از موضوعات بوده و اگر از هر موضوع یک جمله انتخاب شود خروجی خلاصهساز یکپارچه و یکدست نخواهدبود. اندازه منبع: طول اسناد میتواند از یک پاراگراف تا یک کتاب کامل را شامل شود. حالت ایدهآل برای خلاصهسازی، یکسانی اندازهی اسناد است زیرا در برخی از روشهای خلاصهسازی، اسناد بزرگتر سهم بیشتری را در خروجی نهایی ایفا میکنند که همیشه مناسب نیست. سبک: نوع سبک نوشتاری سند در انتخاب روش پردازش متن تاثیر دارد مانند محاورهای، علمی و خبری. اگر برخی اسناد به زبان عامیانه باشند و برخی رسمی، خلاصهساز به مشکل بر میخورد زیرا جملات و کلمات هر سبک، انحصاری بوده و درنتیجه مطالعهی خروجی که هم شامل جملات رسمی و هم جملات عامیانه باشد برای مخاطب خوشآیند نیست.در ادامه خلاصهسازها را براساس جنبههای دیگر بررسی میکنیم: ویژگی خلاصه: خلاصه میتواند اخباری و یا آگاهیدهنده باشد. خلاصهیخبری فقط سرفصلهای اصلی متن را پوشش میدهد و با محتوا کاری ندارد. این نوع خلاصه برای بیان اهداف مشترک مقالات استفاده میشود. مثل فردی که هر روز صبح به سرخطخبرها گوش داده و از کلیات وقایع اتفاق افتاده آگاه میشود. اما در خلاصهی آگاهی دهنده، کاربر به جای خواندن متن اصلی، خلاصه آن را میخواند پس محتویات و جزئیات متن باید در داخل خلاصه قرار گیرد. اگر جزئیات یک سند مثل خبر را به دو دسته جزئیاتمهم و جزئیاتغیرمهم تقسیم کنیم، کاربر تلاش دارد علاوه بر آگاهی از کلیات وقایع، همچنین از جزئیاتمهم آن اتفاق نیز باخبر شود برای مثال کاربر در مواجه با خبر حمله به یک پایگاه نظامی، نسبت به تعداد تلفات کنجکاو میشود ولی نسبت به این موضوع که سلاح به کار برده شده ساخت کدام کشور بوده احتمالا کنجکاوی کمتری کند. پس تعداد تلفات، از جزئیات مهم بوده و کشور سازنده سلاح جز اطلاعات کم اهمیت است. خلاصهساز از منظر کاربری که از آن استفاده میکند: کاربر میتواند انسان و یا ماشین باشد. متن خلاصه شده باید برای انسان خوانا باشد. کاربر انسانی میتواند خبره و یا غیرخبره باشد. افرادخبره: سیستم در این نوع خلاصه با توجه به پیشینه و دانش قبلی کاربر، اطلاعات جدیدی در مورد موضوع به او ارائه میکند. افرادغیرخبره: فرض سیستم این است که کاربر در مورد موضوع، دانش قبلی ندارد و به کمک متن خلاصه میخواهد اطلاعاتی بدست آورد پس خلاصهی تولیدی باید برای او قابلفهم باشد. در این مقاله به تعاریف اولیه پرداخته و خلاصهسازها را از جنبههای مختلف بررسی کردیم. در مقاله بعدی در مورد روشهای خلاصهسازی صحبت خواهیمکرد و فرایند خلاصهسازی را با ذکر مثال بررسی میکنیم. چه رتبه ای میدهید؟ میانگین ۵ / ۵. از مجموع ۱ اولین نفر باش دانلود مقاله خلاصه سازی متون [بخش اول] فرمت PDF 5 صفحه حجم 1 مگابایت دانلود مقاله معرفی نویسنده مقالات 373 مقاله توسط این نویسنده محصولات 0 دوره توسط این نویسنده تیم فنی نیک آموز معرفی محصول دوره یادگیری علم داده 1.780.000 تومان 1.246.000 تومان مقالات مرتبط ۲۰ شهریور هوش مصنوعی نحوه ساخت RAG های کارآمد با Query Routing نگین فاتحی ۰۴ شهریور هوش مصنوعی راهنمای گام به گام مانیتورینگ مدل یادگیری ماشین نگین فاتحی ۱۵ مرداد هوش مصنوعی راهنمای کامل انواع یادگیری ماشین و کاربردهای هر کدام نگین فاتحی ۰۵ مرداد هوش مصنوعی نقشه راه جامع یادگیری Machine Learning در ۱۲ قدم + معرفی منابع دست اول جهانی تیم فنی نیک آموز دیدگاه کاربران لغو پاسخ دیدگاه نام و نام خانوادگی ایمیل ذخیره نام، ایمیل و وبسایت من در مرورگر برای زمانی که دوباره دیدگاهی مینویسم. موبایل برای اطلاع از پاسخ لطفاً مرا با خبر کن ثبت دیدگاه Δ Msef.mail@gmail.com ۰۲ / ۰۹ / ۹۹ - ۱۰:۲۸ ادامه آموزش رو قرار نمیدید ؟! پاسخ به دیدگاه تیم فنی نیک آموز ۰۲ / ۰۹ / ۹۹ - ۰۳:۱۸ درود برشما قسمت بعدی این مقاله روز دوشنبه منتشر خواهد شد سپاس از همراهی شما پاسخ به دیدگاه تیم فنی نیک آموز ۰۲ / ۰۹ / ۹۹ - ۰۳:۱۸ درود برشما قسمت بعدی این مقاله روز دوشنبه منتشر خواهد شد سپاس از همراهی شما پاسخ به دیدگاه