SimpleFold: عصری جدید در پیش‌بینی ساختار پروتئین‌ها

SimpleFold: تا کردن پروتئین‌ها ساده‌تر از آن است که فکر می‌کنید

پژوهشگران به‌تازگی از SimpleFold، یک رویکرد انقلابی برای تاخوردگی پروتئین رونمایی کرده‌اند که روش‌های مرسوم را به چالش می‌کشد. این مدل جدید نشان می‌دهد که پیش‌بینی ساختارهای پیچیده سه‌بعدی پروتئین‌ها ممکن است به آن معماری‌های فوق‌تخصصی و پیچیده‌ای که تصور می‌کردیم، نیاز نداشته باشد.

تصویری که نشان می‌دهد یک توالی پروتئینی توسط مدل SimpleFold به یک ساختار تاخورده سه‌بعدی تبدیل می‌شود.

فلسفه‌ای نوین در طراحی مدل

SimpleFold اولین مدل تاخوردگی پروتئین مبتنی بر «تطبیق جریان» (flow-matching) است که کاملاً با استفاده از لایه‌های ترنسفورمر عمومی ساخته شده است. این مدل از ماژول‌های گران‌قیمت و مختص-دامنه مانند «توجه مثلثی» (triangle attention) فاصله می‌گیرد و در عوض، از یک هدف یادگیری مولد مبتنی بر تطبیق جریان بهره می‌برد که معماری را ساده کرده و در عین حال عملکردی قدرتمند را حفظ می‌کند. SimpleFold با مقیاس شگفت‌انگیز ۳ میلیارد پارامتر، بزرگترین مدل تاخوردگی پروتئین است که تاکنون توسعه یافته و بر روی یک مجموعه داده عظیم شامل بیش از ۸.۶ میلیون ساختار پروتئینی تجربی و استنتاجی آموزش دیده است.

این طراحی ساده نه تنها با پیشرفته‌ترین مدل‌های پایه در بنچمارک‌های استاندارد رقابت می‌کند، بلکه به لطف هدف آموزشی مولد خود، در «پیش‌بینی گروهی» (ensemble prediction) نیز عملکردی برجسته دارد. SimpleFold یک مسیر جایگزین هیجان‌انگیز برای پیشرفت در پیش‌بینی ساختار پروتئین را برجسته می‌کند و بر مقیاس‌پذیری و سادگی معماری تأکید دارد.

کار با SimpleFold را آغاز کنید

این پروژه به صورت متن‌باز منتشر شده و شما می‌توانید همین حالا کار با آن را شروع کنید. برای نصب بسته از مخزن گیت‌هاب آن، دستورات زیر را اجرا کنید:

git clone https://github.com/apple/ml-simplefold.git
cd ml-simplefold
python -m pip install -U pip build; pip install -e .
pip install git+https://github.com/facebookresearch/esm.git # اختیاری برای بک‌اند MLX

پیش‌بینی ساختارهای پروتئینی

پس از نصب، می‌توانید با استفاده از خط فرمان، ساختارها را از فایل‌های FASTA خودتان پیش‌بینی کنید. این مدل از هر دو بک‌اند PyTorch و MLX پشتیبانی می‌کند که MLX برای کاربران سخت‌افزارهای اپل توصیه می‌شود. شما می‌توانید از میان اندازه‌های مختلف مدل، از ۱۰۰ میلیون تا ۳ میلیارد پارامتر، انتخاب کنید.

simplefold \
    --simplefold_model simplefold_3B \ # انتخاب مدل از 100M تا 3B
    --num_steps 500 --tau 0.01 \ 
    --nsample_per_protein 1 \ 
    --plddt \ # خروجی گرفتن امتیاز اطمینان pLDDT
    --fasta_path [YOUR_FASTA_FILE_OR_DIR] \ 
    --output_dir [YOUR_OUTPUT_DIR] \ 
    --backend [mlx, torch]

ارزیابی و آموزش مدل شخصی‌سازی‌شده

تیم توسعه‌دهنده، ساختارهای از پیش پیش‌بینی‌شده برای چندین بنچمارک کلیدی مانند CAMEO22 و CASP14 را فراهم کرده است که امکان ارزیابی آسان را فراهم می‌کند. برای کسانی که به دنبال فراتر رفتن از این مرزها هستند، مخزن شامل دستورالعمل‌های جامعی برای آموزش یا تنظیم دقیق SimpleFold بر روی مجموعه داده‌های سفارشی است. فرآیند آموزش از داده‌های PDB، AFDB SwissProt و AFESM استفاده می‌کند و لیست اهداف برای بازتولید تنظیمات اولیه آموزش نیز ارائه شده است.

این دستاورد، امکانات جدیدی را برای پژوهشگران در حوزه‌های بیولوژی محاسباتی و هوش مصنوعی باز می‌کند. SimpleFold با ساده‌سازی معماری هسته، راه را برای مدل‌های بزرگتر و تواناتر در آینده هموار می‌سازد.

اطلاعات بیشتر را کشف کرده و خودتان کدها را بررسی کنید.
منبع: پروژه SimpleFold در گیت‌هاب

Leave a Comment