سیستم SuperOffload: آزادسازی قدرت سوپرچیپ‌ها برای هوش مصنوعی

تقاضای روزافزون برای مدل‌های هوش مصنوعی بزرگ‌تر و پیچیده‌تر، مرزهای سخت‌افزارهای محاسباتی را جابجا می‌کند. در این حوزه جدید، محققان به «سوپرچیپ‌ها» روی آورده‌اند؛ پردازنده‌های نوآورانه‌ای که واحدهای پردازش گرافیکی (GPU) و پردازنده‌های مرکزی (CPU) قدرتمند را روی یک پکیج واحد ادغام می‌کنند. یک مطالعه پیشگامانه توسط پژوهشگرانی از دانشگاه ایلینوی در اربانا-شمپین، Anyscale و Snowflake سیستمی را معرفی می‌کند که برای آزادسازی پتانسیل کامل این معماری جهت آموزش مدل‌های زبانی بزرگ (LLM) طراحی شده است.

این پژوهش، SuperOffload را معرفی می‌کند؛ یک سیستم نوین که به طور خاص برای سخت‌افزارهایی مانند سوپرچیپ Grace Hopper انویدیا مهندسی شده است. سیستم‌های سنتی اغلب نمی‌توانند از اتصال پرسرعت (۹۰۰ گیگابایت بر ثانیه) که GPU و CPU را در این چیپ‌ها به هم متصل می‌کند، به طور موثر استفاده کنند. SuperOffload مستقیماً این شکاف را برطرف می‌کند. در هسته این سیستم، تکنیکی به نام تخلیه انطباقی وزن‌ها (adaptive weight offloading) قرار دارد که به صورت هوشمند و پویا تصمیم می‌گیرد کدام بخش‌های مدل هوش مصنوعی در حافظه سریع GPU و کدام بخش‌ها در حافظه بزرگ‌تر CPU ذخیره شوند. این کار بر اساس نیازهای محاسباتی لحظه‌ای انجام می‌شود و تضمین می‌کند که داده‌ها همیشه در زمان و مکان مناسب قرار دارند و از ایجاد گلوگاه جلوگیری می‌شود.

برای افزایش بیشتر عملکرد، این تیم یک بهینه‌ساز Adam (الگوریتمی حیاتی برای آموزش شبکه‌های عصبی) بسیار بهینه‌سازی‌شده را توسعه داده که روی پردازنده Grace اجرا می‌شود و آن را با یک استراتژی بازبخش‌بندی دقیق داده‌ها و اجرای پیش‌بینانه ترکیب کرده است. نتایج شگفت‌انگیز هستند. SuperOffload به بهبودی تا ۲.۵ برابر در توان عملیاتی در مقایسه با دیگر سیستم‌های پیشرفته تخلیه دست می‌یابد که جهشی قابل توجه در بهره‌وری آموزش محسوب می‌شود.

پیامدهای عملی این دستاورد حتی چشمگیرتر است. با SuperOffload، یک سوپرچیپ Grace Hopper به تنهایی می‌تواند یک مدل عظیم ۲۵ میلیارد پارامتری را آموزش دهد؛ شاهکاری که هفت برابر فراتر از ظرفیت یک راه‌حل مبتنی بر GPU است. هنگام مقیاس‌پذیری، این سیستم حتی درخشان‌تر عمل می‌کند. با استفاده از موازی‌سازی داده به سبک ZeRO، می‌توان یک مدل غول‌پیکر ۵۰ میلیارد پارامتری را تنها با چهار سوپرچیپ آموزش داد که این به معنای افزایش ۲.۵ برابری در اندازه مدل نسبت به روش‌های موازی موجود است. علاوه بر این، یک نسخه تخصصی به نام SuperOffload-Ulysses چالش آموزش با توالی‌های طولانی را حل می‌کند و با موفقیت یک مدل ۱۳ میلیارد پارامتری را با پنجره‌های متنی تا یک میلیون توکن روی هشت سوپرچیپ GH200 آموزش می‌دهد، در حالی که به بهره‌وری سخت‌افزاری ۵۵ درصدی دست می‌یابد. این تحقیق گامی اساسی به سوی توسعه هوش مصنوعی کارآمدتر، در دسترس‌تر و قدرتمندتر است.

منبع: تحقیق بر روی سیستم SuperOffload

Leave a Comment