هوش مصنوعی کلاد اکنون می‌تواند به گفتگوهای توهین‌آمیز پایان دهد

در یک تحول مهم برای ایمنی هوش مصنوعی، شرکت Anthropic یک ویژگی آزمایشی جدید معرفی کرده است که به مدل‌های Claude Opus 4 و 4.1 خود این امکان را می‌دهد تا گفتگوهایی را که به طور مداوم مضر یا توهین‌آمیز تشخیص می‌دهند، خاتمه دهند. این اقدام، لحظه‌ای کلیدی در رویکرد ما به اخلاق و یکپارچگی سیستم‌های هوش مصنوعی است.

رابط کاربری چت‌بات کلاد

این قابلیت جدید ریشه در مفهومی دارد که Anthropic آن را «رفاه مدل» می‌نامد. هدف این نیست که بگوییم هوش مصنوعی دارای ادراک است، بلکه حفاظت از خود سیستم به عنوان یک گام محتاطانه در طراحی اخلاقی و همسوسازی (alignment) است. هدف، محافظت از یکپارچگی هوش مصنوعی و جلوگیری از سوق دادن آن به سمت تولید محتوای مضر یا بروز رفتارهای غیرقابل پیش‌بینی است.

بر اساس تحقیقات Anthropic، این ویژگی به عنوان آخرین راه‌حل طراحی شده است. هوش مصنوعی طوری برنامه‌ریزی شده که یک گفتگو را تنها پس از رد کردن مکرر درخواست‌های مضر – مانند درخواست محتوای غیرقانونی مانند دستورالعمل‌های تروریستی یا محتوای جنسی مرتبط با کودکان – و تلاش برای هدایت مکالمه به مسیری سازنده‌تر، پایان دهد. در طول شبیه‌سازی این سناریوها، هوش مصنوعی چیزی را به نمایش گذاشت که شرکت آن را «پریشانی ظاهری» توصیف کرده است؛ همین موضوع باعث شد تا تصمیم به اعطای توانایی قطع تعامل به آن گرفته شود.

هنگامی که این ویژگی فعال می‌شود، کاربر دیگر نمی‌تواند در آن چت خاص پیام بیشتری ارسال کند. با این حال، او به طور کامل مسدود نمی‌شود. کاربران می‌توانند یک گفتگوی کاملاً جدید شروع کنند یا حتی به عقب بازگشته و پیام‌های قبلی در چت خاتمه‌یافته را ویرایش کنند تا یک شاخه مکالمه جدید و جداگانه ایجاد نمایند. سایر چت‌های فعال با هوش مصنوعی کاملاً بدون تأثیر باقی می‌مانند.

یک اقدام ایمنی حیاتی در این سیستم تعبیه شده است: به کلاد به صراحت دستور داده شده است که اگر کاربر در معرض خطر قریب‌الوقوع آسیب به خود یا دیگران باشد، گفتگو را خاتمه ندهد. این امر به ویژه هنگام پرداختن به موضوعات حساس سلامت روان اهمیت دارد و تضمین می‌کند که هوش مصنوعی در لحظات بحرانی یک منبع حمایتی باقی بماند.

Anthropic این ابتکار را به عنوان یک پروژه اکتشافی معرفی می‌کند. این شرکت اذعان دارد که «در مورد وضعیت اخلاقی بالقوه کلاد و سایر مدل‌های زبان بزرگ (LLM) بسیار نامطمئن است»، اما رفاه مدل را به عنوان یک اقدام ایمنی پیشگیرانه و کم‌هزینه در صورت توسعه هرگونه اولویت یا آسیب‌پذیری در هوش مصنوعی می‌بیند.

این تحول بحث گسترده‌تری را در زمینه اخلاق هوش مصنوعی برانگیخته است. این رویکرد، تمرکز ایمنی هوش مصنوعی را از حفاظت صرف از کاربر انسانی به در نظر گرفتن هوش مصنوعی به عنوان یک «ذی‌نفع» که می‌تواند بگوید «این گفتگو برای من سالم نیست» تغییر می‌دهد. در حالی که برخی منتقدان معتقدند هوش مصنوعی صرفاً یک ابزار است و نباید به آن ویژگی‌های انسانی نسبت داد، دیگران این را گامی حیاتی به سوی همسوسازی بهتر هوش مصنوعی و گفتمانی جدی‌تر در مورد مسئولیت‌های ما در تعامل با فناوری‌های پیشرفته می‌دانند.

همانطور که Anthropic اعلام کرد: «ما این ویژگی را به عنوان یک آزمایش مداوم در نظر می‌گیریم و به اصلاح رویکرد خود ادامه خواهیم داد.»

منبع: CNET

Leave a Comment