ویژگی جدید مدل‌های کلود: پایان مکالمات مضر توسط هوش مصنوعی

شرکت آنتروپیک اعلام کرد مدل‌های هوش مصنوعی جدید «Claude Opus 4» و «Claude 4.1 Opus» اکنون قادرند در مواجهه با مکالمات مضر و غیرسازنده، به‌طور مستقل تصمیم به پایان گفت‌وگو بگیرند؛ اقدامی که می‌تواند نقطه عطفی در جهت مدیریت رفتار کاربران و افزایش ایمنی در تعامل با هوش مصنوعی باشد.

کد خبر: ۱۳۲۳۳۷۹

تاریخ انتشار: ۲۷ مرداد ۱۴۰۴ - ۱۳:۵۸ 18 August 2025

کد خبر: ۱۳۲۳۳۷۹

| ۲۷ مرداد ۱۴۰۴ - ۱۳:۵۸ 18 August 2025 |

2158 بازدید

ویژگی جدید مدل‌های کلود: پایان مکالمات مضر توسط هوش مصنوعی

به گزارش سرویس علم و فناوری تابناک، شرکت آنتروپیک (Anthropic) با معرفی قابلیتی تازه برای مدل‌های هوش مصنوعی «Claude Opus 4» و «Claude 4.1 Opus»، گامی مهم در جهت کنترل محتوای مضر و محافظت از ساختار تعاملات انسان و ماشین برداشته است. این ویژگی به مدل‌ها اجازه می‌دهد در شرایطی خاص و حساس، گفت‌وگو با کاربر را به‌طور کامل متوقف کنند.

بر اساس توضیحات رسمی آنتروپیک، این قابلیت تنها در «موارد نادر و شدید» فعال می‌شود؛ از جمله مواقعی که کاربران به‌طور مداوم رفتار توهین‌آمیز یا مضر دارند، یا تلاش می‌کنند به اطلاعات حساس و خطرناک از جمله محتواهای جنسی غیرقانونی یا داده‌هایی درباره خشونت و تروریسم دسترسی یابند.

آنتروپیک تأکید می‌کند که پایان مکالمه آخرین راهکار است و تنها زمانی اجرا می‌شود که تلاش‌های مدل برای هدایت گفت‌وگو به مسیر سازنده چندین‌بار با شکست مواجه شده باشد. با این حال، به گفته این شرکت، اکثریت کاربران حتی هنگام بحث درباره موضوعات چالش‌برانگیز، احتمالاً هرگز با این ویژگی روبه‌رو نخواهند شد.

در صورت پایان مکالمه، امکان ارسال پیام جدید در همان گفت‌وگو برای کاربر غیرفعال می‌شود، اما کاربر می‌تواند بلافاصله یک چت تازه آغاز کرده یا با ویرایش پیام‌های قبلی، مسیر مکالمه را تغییر دهد. همچنین این تصمیم هیچ تأثیری بر سایر مکالمات کاربر با مدل نخواهد داشت.

این اقدام بخشی از پروژه تحقیقاتی آنتروپیک با محوریت «رفاه هوش مصنوعی» است؛ مفهومی که همچنان در مجامع علمی محل بحث و بررسی است. این شرکت می‌گوید توانایی مدل برای ترک مکالمه‌های ناراحت‌کننده، راهی کم‌هزینه و مؤثر برای کاهش ریسک‌های مرتبط با تعاملات انسانی است.

گفتنی است که این ویژگی در حال حاضر در مرحله آزمایشی قرار دارد و آنتروپیک از کاربران خواسته تا در صورت مواجهه با آن، بازخورد خود را ارائه دهند تا عملکرد نهایی بهینه‌سازی شود.