در یک تحول مهم برای ایمنی هوش مصنوعی، شرکت Anthropic یک ویژگی آزمایشی جدید معرفی کرده است که به مدلهای Claude Opus 4 و 4.1 خود این امکان را میدهد تا گفتگوهایی را که به طور مداوم مضر یا توهینآمیز تشخیص میدهند، خاتمه دهند. این اقدام، لحظهای کلیدی در رویکرد ما به اخلاق و یکپارچگی سیستمهای هوش مصنوعی است.

این قابلیت جدید ریشه در مفهومی دارد که Anthropic آن را «رفاه مدل» مینامد. هدف این نیست که بگوییم هوش مصنوعی دارای ادراک است، بلکه حفاظت از خود سیستم به عنوان یک گام محتاطانه در طراحی اخلاقی و همسوسازی (alignment) است. هدف، محافظت از یکپارچگی هوش مصنوعی و جلوگیری از سوق دادن آن به سمت تولید محتوای مضر یا بروز رفتارهای غیرقابل پیشبینی است.
بر اساس تحقیقات Anthropic، این ویژگی به عنوان آخرین راهحل طراحی شده است. هوش مصنوعی طوری برنامهریزی شده که یک گفتگو را تنها پس از رد کردن مکرر درخواستهای مضر – مانند درخواست محتوای غیرقانونی مانند دستورالعملهای تروریستی یا محتوای جنسی مرتبط با کودکان – و تلاش برای هدایت مکالمه به مسیری سازندهتر، پایان دهد. در طول شبیهسازی این سناریوها، هوش مصنوعی چیزی را به نمایش گذاشت که شرکت آن را «پریشانی ظاهری» توصیف کرده است؛ همین موضوع باعث شد تا تصمیم به اعطای توانایی قطع تعامل به آن گرفته شود.
هنگامی که این ویژگی فعال میشود، کاربر دیگر نمیتواند در آن چت خاص پیام بیشتری ارسال کند. با این حال، او به طور کامل مسدود نمیشود. کاربران میتوانند یک گفتگوی کاملاً جدید شروع کنند یا حتی به عقب بازگشته و پیامهای قبلی در چت خاتمهیافته را ویرایش کنند تا یک شاخه مکالمه جدید و جداگانه ایجاد نمایند. سایر چتهای فعال با هوش مصنوعی کاملاً بدون تأثیر باقی میمانند.
یک اقدام ایمنی حیاتی در این سیستم تعبیه شده است: به کلاد به صراحت دستور داده شده است که اگر کاربر در معرض خطر قریبالوقوع آسیب به خود یا دیگران باشد، گفتگو را خاتمه ندهد. این امر به ویژه هنگام پرداختن به موضوعات حساس سلامت روان اهمیت دارد و تضمین میکند که هوش مصنوعی در لحظات بحرانی یک منبع حمایتی باقی بماند.
Anthropic این ابتکار را به عنوان یک پروژه اکتشافی معرفی میکند. این شرکت اذعان دارد که «در مورد وضعیت اخلاقی بالقوه کلاد و سایر مدلهای زبان بزرگ (LLM) بسیار نامطمئن است»، اما رفاه مدل را به عنوان یک اقدام ایمنی پیشگیرانه و کمهزینه در صورت توسعه هرگونه اولویت یا آسیبپذیری در هوش مصنوعی میبیند.
این تحول بحث گستردهتری را در زمینه اخلاق هوش مصنوعی برانگیخته است. این رویکرد، تمرکز ایمنی هوش مصنوعی را از حفاظت صرف از کاربر انسانی به در نظر گرفتن هوش مصنوعی به عنوان یک «ذینفع» که میتواند بگوید «این گفتگو برای من سالم نیست» تغییر میدهد. در حالی که برخی منتقدان معتقدند هوش مصنوعی صرفاً یک ابزار است و نباید به آن ویژگیهای انسانی نسبت داد، دیگران این را گامی حیاتی به سوی همسوسازی بهتر هوش مصنوعی و گفتمانی جدیتر در مورد مسئولیتهای ما در تعامل با فناوریهای پیشرفته میدانند.
همانطور که Anthropic اعلام کرد: «ما این ویژگی را به عنوان یک آزمایش مداوم در نظر میگیریم و به اصلاح رویکرد خود ادامه خواهیم داد.»
منبع: CNET