مایکروسافت از ۳ مدل هوش مصنوعی Phi-3.5 رونمایی کرد؛ قوی‌تر از جمینای و ChatGPT

نوشته شده توسط: تیم فنی نیک آموز

تاریخ انتشار: ۰۱ شهریور ۱۴۰۳

آخرین بروزرسانی: 23 دی 1403

زمان مطالعه: 5 دقیقه

مایکروسافت سه مدل هوش مصنوعی جدید از خانواده Phi-3.5 را معرفی کرده که رقبای قدرتمندی مثل جمینای و ChatGPT را در برخی زمینه‌ها شکست می‌دهند.

این خوانده شامل سه مدل سبک Phi-3.5-vision، Phi-3.5-MoE و Phi-3.5-mini. است که همگی بر اساس داده‌های موجود در وب‌سایت‌های عمومی آموزش دیده و در پلتفرم Hugging Face در دسترس قرار گرفته‌اند.

مدل Phi-3.5-MoE؛ پیشرفت چشمگیر در معماری MoE

پسوند MoE در این مدل از سرواژه‌های Mixture of Experts گرفته شده که به یک معماری خاص در زمینه هوش مصنوعی اشاره دارد. ترکیب کارشناسان یا Mixture of Experts یک معماری قدرتمند در یادگیری عمیق است که برای حل مسائل پیچیده و بزرگ مقیاس به کار می‌رود. این روش الهام گرفته از تقسیم کار در میان متخصصان مختلف است. در MoE یک شبکه عصبی بزرگ به چندین شبکه عصبی کوچکتر (کارشناس) تقسیم می‌شود، که هر کدام مسئولیت حل یک زیر مساله خاص را بر عهده دارند.

مدل Phi-3.5-MoE شامل ۴۱.۹ میلیارد پارامتر است که به صورت ۱۶*۳.۸ میلیارد پارامتر چیده شده‌اند؛ بدین ترتیب در صورت نیاز به ۲ کارشناس تنها ۶.۶ میلیارد پارامتر فعال خواهد شد. مایکروسافت برای آموزش این مدل از ۵۱۲ تراشه‌ انویدیا H100 و ۴.۹ هزار توکن بهره برده است.

مایکروسافت برای ارتقای کارایی تا حداکثر سطح ممکن این مدل را از صفر طراحی کرده است. عملکرد مدل Phi-3.5-MoE در بنچمارک‌ها خیره کننده بوده و توانسته مدل‌های Llama-3.1 8B، Gemma-2-9B و Gemini-1.5-Flash و حتی GPT-4o mini را در حوزه‌هایی مانند STEM، علوم انسانی و علوم اجتماعی در سطوح مختلف شکست دهد.

STEM مخفف علوم (Science)، فناوری (Technology)، مهندسی (Engineering) و ریاضیات (Mathematics) است که ستون فقرات بسیاری از پیشرفت‌های علمی و تکنولوژیکی از جمله هوش مصنوعی هستند.

مدل Phi-3.5-mini: سبک و قدرتمند

مدل Phi-3.5-mini با ۳.۸ میلیارد پارامتر توانسته در زمینه‌های کدنویسی، حل مسائل محاسباتی و استدلال منطقی از سد مدل‌های Llama3.1 8B و Mistral 7B گذشته و حتی Mistral NeMo 12B را با سه برابر پارامتر بیشتر به چالش بکشد.

Phi-3.5-mini با ۵۱۲ تراشه انویدیا H100 آموزش دیده و پنجره محتوایی ۱۲۸ هزار توکن دارد که نسبت به رقبای نزدیک آن تقریبا دو برابر است.

هرچند تعداد پارامترهای آن از ۳.۸ میلیارد فراتر نمی‌رود اما در وظایفی که نیازمند درک، پردازش و تولید متن در چندین زبان است، نسبت به LLM‌های با پارامترهای بیشتر عملکردی بهتر داشته است.

همچنین در حفظ زمینه گفتگو نیز عملکرد عالی از خود نشان داده است. به عبارت دیگر مدل Phi-3.5-mini به دقت به یاد می‌آورد که در نوبت‌های قبلی چه گفته شده و به طور منطقی به سوالات و عبارات بعدی پاسخ می‌دهد. این ویژگی تعاملات انسان و ماشین را طبیعی‌تر و روان‌تر می‌کند.

مدل Phi-3.5-vision: درک تصاویر و ویدیوها

هوش مصنوعی Phi-3.5-vision مدلی چند وجهی است که برای درک تصویر، ویدیو، نمودار و جدول تولید شده است. این مدل ۴.۲ میلیارد پارامتری با استفاده از ۲۵۶ کارت گرافیک انویدیا A100 و روی ۵۰۰ میلیارد توکن آموزش دیده است. Phi-3.5-vision از درک و استدلال چند فریمی تصاویر پشتیبانی می‌کند و در آزمون‌های MMM، MMBench و ارزیابی درک متون TextVQA عملکرد مناسبی از خود نشان داده است.

اهمیت مدل‌‌های Phi-3.5

توسعه مدل‌های زبانی سبک و چابک مانند خانواده Phi-3.5 تحولی قابل توجه در حوزه هوش مصنوعی ایجاد کرده و تاثیرات گسترده‌ای بر پیشرفت و پذیرش این فناوری در کاربردهای مختلف خواهد داشت. مدل‌های سبک و چابک به دلیل حجم پایین و نیاز به منابع محاسباتی کمتر، بر روی دستگاه‌های با سخت‌افزار محدود مانند تلفن‌های همراه، تبلت‌ها و حتی برخی از دستگاه‌های IoT اجرا می‌شوند. این امر باعث می‌شود که هوش مصنوعی به طور گسترده‌تری در دسترس عموم قرار گرفته و کاربردهای آن فراتر از سرورهای قدرتمند و مراکز داده باشد.

این مدل‌ها به دلیل سبک بودن، قادر به پردازش اطلاعات و تولید پاسخ با سرعت بیشتری هستند. این ویژگی در کاربردهایی مانند چت‌بات‌ها و دستیارهای صوتی که نیاز به پاسخگویی سریع دارند، بسیار حائز اهمیت است.

در نهایت با توجه به نیاز کمتر به منابع محاسباتی، هزینه‌های توسعه و استقرار این مدل‌ها به طور قابل توجهی کاهش می‌یابد. از اینرو انتظار می‌رود مدل‌های Phi-3.5 به لطف طراحی سبک و درک چندوجهی، در کاربردهای مختلف هوش مصنوعی به صورت گسترده مورد پذیرش قرار گیرند.