آیا در دنیای هوش مصنوعی، همیشه «بزرگتر» به معنای «بهتر» است؟ تحقیقات جدید این ایده را به چالش میکشند و نشان میدهند که قدرت پردازش و بهینهسازی، و نه فقط اندازه، فاکتور تعیینکننده است. پژوهشگران به یک پیشرفت چشمگیر دست یافتهاند: یک مدل زبان فشرده با تنها یک میلیارد پارامتر میتواند در وظایف خاص، بهویژه در درک درخواستهای مشتریان در حوزه تجارت الکترونیک، با دقتی مشابه غولهایی مانند GPT-4 عمل کند.

این موفقیت جادویی نیست؛ بلکه نتیجه بهینهسازی دقیق و هوشمندانه است. مطالعهای توسط یوسیپ تومو لیکاردو و نیکولا تانکوویچ نشان میدهد که چگونه تکنیکهایی مانند تطبیق رتبه پایین کوانتیزهشده (QLoRA) و کوانتیزهسازی پس از آموزش، میتوانند یک مدل کوچک را به یک متخصص بسیار کارآمد تبدیل کنند. آنها یک مدل ۱.۳ میلیارد پارامتری را بر روی دادههای تولید شده به صورت مصنوعی (synthetic data) برای تشخیص قصد در تجارت الکترونیک آموزش دادند و به دقت شگفتانگیز ۹۹٪ در بنچمارک ShoppingBench دست یافتند.
این دستاورد ثابت میکند که برای کاربردهای تخصصی در یک حوزه مشخص، یک مدل کوچکتر که به خوبی آموزش دیده باشد، میتواند با مدلهای عظیمی که تا ۷۰ میلیارد پارامتر دارند، رقابت کند. مزایای این رویکرد بسیار قابل توجه است:
- کاهش هزینهها: نیاز محاسباتی کمتر به معنای هزینه کمتر برای سختافزارهای قدرتمند است.
- افزایش سرعت: زمان استنتاج (inference) سریعتر منجر به برنامههایی با پاسخدهی بهتر میشود.
- بهرهوری انرژی: مدلهای کوچکتر انرژی کمتری مصرف میکنند و هوش مصنوعی را پایدارتر میسازند.
- دسترسپذیری: این رویکرد راه را برای اجرای هوش مصنوعی پیشرفته بر روی سختافزارهای معمولی و مصرفی باز میکند و آن را از انحصار مراکز داده بزرگ خارج میکند.
با این حال، این تحقیق یک درس حیاتی در مورد رابطه نرمافزار و سختافزار را نیز آشکار کرد. انتخاب روش بهینهسازی اهمیت فوقالعادهای دارد. به عنوان مثال:
- استفاده از یک مدل کوانتیزهشده ۴ بیتی GPTQ (بهینهشده برای پردازنده گرافیکی) بر روی یک پردازنده گرافیکی قدیمیتر NVIDIA T4، مصرف VRAM را ۴۱٪ کاهش داد، اما سرعت استنتاج به طور شگفتانگیزی ۸۲٪ افت کرد. این امر به دلیل سربار فرآیند dequantization (تبدیل مجدد دادههای فشرده برای پردازش) بود.
- در مقابل، استفاده از فرمت GGUF (بهینهشده برای پردازنده مرکزی) بر روی یک CPU استاندارد، افزایش عملکرد فوقالعادهای را به همراه داشت. این روش تا ۱۸ برابر سرعت پردازش را افزایش داد و مصرف رم را بیش از ۹۰٪ در مقایسه با مدل پایه کاهش داد.
این نتایج به ما میگوید که آینده هوش مصنوعی کاربردی تنها یک مسابقه برای ساخت بزرگترین مدل نیست. بلکه ایجاد تعادلی هماهنگ بین اندازه مدل، تکنیکهای بهینهسازی و سختافزاری است که روی آن اجرا میشود. با تمرکز بر بهرهوری، مدلهای متن-باز (open-weight) میتوانند جایگزینی قدرتمند، مقرونبهصرفه و اغلب برتر برای نیازهای واقعی کسبوکارها فراهم کنند.
منبع: Quantum Zeitgeist