این پژوهش، SuperOffload را معرفی میکند؛ یک سیستم نوین که به طور خاص برای سختافزارهایی مانند سوپرچیپ Grace Hopper انویدیا مهندسی شده است. سیستمهای سنتی اغلب نمیتوانند از اتصال پرسرعت (۹۰۰ گیگابایت بر ثانیه) که GPU و CPU را در این چیپها به هم متصل میکند، به طور موثر استفاده کنند. SuperOffload مستقیماً این شکاف را برطرف میکند. در هسته این سیستم، تکنیکی به نام تخلیه انطباقی وزنها (adaptive weight offloading) قرار دارد که به صورت هوشمند و پویا تصمیم میگیرد کدام بخشهای مدل هوش مصنوعی در حافظه سریع GPU و کدام بخشها در حافظه بزرگتر CPU ذخیره شوند. این کار بر اساس نیازهای محاسباتی لحظهای انجام میشود و تضمین میکند که دادهها همیشه در زمان و مکان مناسب قرار دارند و از ایجاد گلوگاه جلوگیری میشود.
برای افزایش بیشتر عملکرد، این تیم یک بهینهساز Adam (الگوریتمی حیاتی برای آموزش شبکههای عصبی) بسیار بهینهسازیشده را توسعه داده که روی پردازنده Grace اجرا میشود و آن را با یک استراتژی بازبخشبندی دقیق دادهها و اجرای پیشبینانه ترکیب کرده است. نتایج شگفتانگیز هستند. SuperOffload به بهبودی تا ۲.۵ برابر در توان عملیاتی در مقایسه با دیگر سیستمهای پیشرفته تخلیه دست مییابد که جهشی قابل توجه در بهرهوری آموزش محسوب میشود.
پیامدهای عملی این دستاورد حتی چشمگیرتر است. با SuperOffload، یک سوپرچیپ Grace Hopper به تنهایی میتواند یک مدل عظیم ۲۵ میلیارد پارامتری را آموزش دهد؛ شاهکاری که هفت برابر فراتر از ظرفیت یک راهحل مبتنی بر GPU است. هنگام مقیاسپذیری، این سیستم حتی درخشانتر عمل میکند. با استفاده از موازیسازی داده به سبک ZeRO، میتوان یک مدل غولپیکر ۵۰ میلیارد پارامتری را تنها با چهار سوپرچیپ آموزش داد که این به معنای افزایش ۲.۵ برابری در اندازه مدل نسبت به روشهای موازی موجود است. علاوه بر این، یک نسخه تخصصی به نام SuperOffload-Ulysses چالش آموزش با توالیهای طولانی را حل میکند و با موفقیت یک مدل ۱۳ میلیارد پارامتری را با پنجرههای متنی تا یک میلیون توکن روی هشت سوپرچیپ GH200 آموزش میدهد، در حالی که به بهرهوری سختافزاری ۵۵ درصدی دست مییابد. این تحقیق گامی اساسی به سوی توسعه هوش مصنوعی کارآمدتر، در دسترستر و قدرتمندتر است.