مدل‌های کوچک هوش مصنوعی به قدرت و دقت GPT-4 رسیدند

آیا در دنیای هوش مصنوعی، همیشه «بزرگ‌تر» به معنای «بهتر» است؟ تحقیقات جدید این ایده را به چالش می‌کشند و نشان می‌دهند که قدرت پردازش و بهینه‌سازی، و نه فقط اندازه، فاکتور تعیین‌کننده است. پژوهشگران به یک پیشرفت چشمگیر دست یافته‌اند: یک مدل زبان فشرده با تنها یک میلیارد پارامتر می‌تواند در وظایف خاص، به‌ویژه در درک درخواست‌های مشتریان در حوزه تجارت الکترونیک، با دقتی مشابه غول‌هایی مانند GPT-4 عمل کند.

دستیابی مدل‌های زبان کوچک بهینه‌سازی شده به عملکرد بالا

این موفقیت جادویی نیست؛ بلکه نتیجه بهینه‌سازی دقیق و هوشمندانه است. مطالعه‌ای توسط یوسیپ تومو لیکاردو و نیکولا تانکوویچ نشان می‌دهد که چگونه تکنیک‌هایی مانند تطبیق رتبه پایین کوانتیزه‌شده (QLoRA) و کوانتیزه‌سازی پس از آموزش، می‌توانند یک مدل کوچک را به یک متخصص بسیار کارآمد تبدیل کنند. آن‌ها یک مدل ۱.۳ میلیارد پارامتری را بر روی داده‌های تولید شده به صورت مصنوعی (synthetic data) برای تشخیص قصد در تجارت الکترونیک آموزش دادند و به دقت شگفت‌انگیز ۹۹٪ در بنچمارک ShoppingBench دست یافتند.

این دستاورد ثابت می‌کند که برای کاربردهای تخصصی در یک حوزه مشخص، یک مدل کوچک‌تر که به خوبی آموزش دیده باشد، می‌تواند با مدل‌های عظیمی که تا ۷۰ میلیارد پارامتر دارند، رقابت کند. مزایای این رویکرد بسیار قابل توجه است:

  • کاهش هزینه‌ها: نیاز محاسباتی کمتر به معنای هزینه کمتر برای سخت‌افزارهای قدرتمند است.
  • افزایش سرعت: زمان استنتاج (inference) سریع‌تر منجر به برنامه‌هایی با پاسخ‌دهی بهتر می‌شود.
  • بهره‌وری انرژی: مدل‌های کوچک‌تر انرژی کمتری مصرف می‌کنند و هوش مصنوعی را پایدارتر می‌سازند.
  • دسترس‌پذیری: این رویکرد راه را برای اجرای هوش مصنوعی پیشرفته بر روی سخت‌افزارهای معمولی و مصرفی باز می‌کند و آن را از انحصار مراکز داده بزرگ خارج می‌کند.

با این حال، این تحقیق یک درس حیاتی در مورد رابطه نرم‌افزار و سخت‌افزار را نیز آشکار کرد. انتخاب روش بهینه‌سازی اهمیت فوق‌العاده‌ای دارد. به عنوان مثال:

  • استفاده از یک مدل کوانتیزه‌شده ۴ بیتی GPTQ (بهینه‌شده برای پردازنده گرافیکی) بر روی یک پردازنده گرافیکی قدیمی‌تر NVIDIA T4، مصرف VRAM را ۴۱٪ کاهش داد، اما سرعت استنتاج به طور شگفت‌انگیزی ۸۲٪ افت کرد. این امر به دلیل سربار فرآیند dequantization (تبدیل مجدد داده‌های فشرده برای پردازش) بود.
  • در مقابل، استفاده از فرمت GGUF (بهینه‌شده برای پردازنده مرکزی) بر روی یک CPU استاندارد، افزایش عملکرد فوق‌العاده‌ای را به همراه داشت. این روش تا ۱۸ برابر سرعت پردازش را افزایش داد و مصرف رم را بیش از ۹۰٪ در مقایسه با مدل پایه کاهش داد.

این نتایج به ما می‌گوید که آینده هوش مصنوعی کاربردی تنها یک مسابقه برای ساخت بزرگ‌ترین مدل نیست. بلکه ایجاد تعادلی هماهنگ بین اندازه مدل، تکنیک‌های بهینه‌سازی و سخت‌افزاری است که روی آن اجرا می‌شود. با تمرکز بر بهره‌وری، مدل‌های متن-باز (open-weight) می‌توانند جایگزینی قدرتمند، مقرون‌به‌صرفه و اغلب برتر برای نیازهای واقعی کسب‌وکارها فراهم کنند.

منبع: Quantum Zeitgeist

Leave a Comment