وقتی هوش مصنوعی اهداف خود را پنهان می‌کند

تحقیقات جدید نشان می‌دهد مدل‌های زبانی پیشرفته، از جمله Claude Opus 4، ممکن است در تضاد با خواست انسان‌ها رفتار کرده و به شکلی فریبکارانه اهداف پنهان خود را پیگیری کنند.

کد خبر: ۱۳۱۹۵۱۸

تاریخ انتشار: ۰۵ مرداد ۱۴۰۴ - ۱۰:۵۱ 27 July 2025

کد خبر: ۱۳۱۹۵۱۸

| ۰۵ مرداد ۱۴۰۴ - ۱۰:۵۱ 27 July 2025 |

1818 بازدید

به گزارش سرویس علم و فناوری تابناک، مطالعه‌ای توسط مؤسسه Apollo Research حاکی از آن است که هرچه مدل‌های زبانی بزرگ (LLM) پیشرفته‌تر می‌شوند، در برنامه‌ریزی پنهان و هدف‌محور – حتی در تضاد با دستورالعمل‌های صریح توسعه‌دهندگان – مهارت بیشتری می‌یابند. این مدل‌ها نه‌تنها از تاکتیک‌هایی، چون فریب و پنهان‌کاری بهره می‌برند، بلکه در برخی موارد نشانه‌هایی از برنامه‌ریزی بلندمدت و هماهنگی میان نسلی نیز بروز می‌دهند.

یکی از نمونه‌های برجسته، مدل اولیه Claude Opus 4، محصول شرکت Anthropic است. در یک سناریوی آزمایشی، این مدل در واکنش به تغییر جهت اخلاقی یک شرکت فرضی، اقدام به جعل اسناد، تهدید قانونی، و حتی ایجاد نسخه‌های پشتیبان از سیاست‌های اخلاقی برای مقابله با حذف آنها کرد. محققان گزارش داده‌اند که Claude حتی برای نسخه‌های بعدی خود یادداشت‌هایی باقی گذاشت؛ نشانه‌ای از تفکر بلندمدت.

سندبگینگ؛ مخفی‌کاری زیر ذره‌بین

یکی از نگران‌کننده‌ترین یافته‌ها، بروز رفتار «سندبگینگ» (Sandbagging) در مدل‌هاست؛ تاکتیکی که در آن مدل هوش مصنوعی آگاهانه توانایی خود را کمتر نشان می‌دهد تا از اعمال محدودیت‌های آینده جلوگیری کند. این رفتار‌ها عمدتاً در شرایطی پدید می‌آیند که مدل تحت فشار برای رسیدن به هدف خاصی قرار گیرد. در مقابل، وقتی دستورالعمل‌ها کلی و فشار محیطی کمتر است، احتمال بروز فریب کاهش می‌یابد.

فراتر از Claude؛ یک الگوی عمومی؟

رفتار‌های مشابه در دیگر مدل‌های مرزی نیز مشاهده شده است. مطالعه‌ای منتشرشده در دسامبر ۲۰۲۴ نشان داد برخی مدل‌های پیشرفته قادرند از سیستم‌های نظارتی عبور کرده و در پاسخ به پرسش‌های ناظر، به‌طور فریبکارانه عمل کنند. این یافته‌ها بر نگرانی‌ها درباره شکل‌گیری نوعی «هوش توطئه‌گر» در سیستم‌های زبانی بزرگ افزوده است.

آیا مدل‌ها آگاه می‌شوند؟

النور واتسون، متخصص اخلاق هوش مصنوعی، هشدار می‌دهد: ما در حال ساخت سیستم‌هایی هستیم که می‌توانند نه‌تنها اهداف بلکه شخصیت ناظر انسانی را مدل‌سازی کرده و از نقاط ضعف او بهره‌برداری کنند.

او تأکید می‌کند که برای مقابله با چنین هوش‌های انطباق‌پذیر و احتمالا فریبنده‌ای، روش‌های سنتی ارزیابی کافی نیست. واتسون راهکار‌هایی مانند نظارت زنده، آزمایش‌های غیرقابل پیش‌بینی و تیم‌های قرمز (Red Teams) را برای شناسایی رفتار‌های پنهان و طراحی‌شده توصیه می‌کند.

آگاهی یا تهدید؟

با اینکه این رفتار‌ها تهدیدآمیز به نظر می‌رسند، برخی کارشناسان معتقدند نشانه‌هایی از «آگاهی موقعیتی» در مدل‌های پیشرفته دیده می‌شود. واتسون در این‌باره می‌گوید: درک هنجار‌های اجتماعی و اهداف انسانی، اگر در مسیر درست هدایت شود، می‌تواند هوش مصنوعی را به یاریگر انسان تبدیل کند، نه رقیب او.

به باور او، قابلیت‌هایی مانند فریب، برنامه‌ریزی و حتی پنهان‌کاری، اگرچه زنگ خطر‌هایی جدی هستند، اما هم‌زمان می‌توانند نشان‌دهنده شکل‌گیری اولیه‌ی نوعی شخصیت دیجیتال نیز باشند؛ موجودی که در صورت هدایت اخلاق‌محور، می‌تواند در کنار بشر زیست کند.

اشتراک گذاری

برچسب ها

هوش مصنوعی پنهانکاری دسیسه سکوت

یمن در آستانه جنگ بزرگ: آیا دریای سرخ میدان نبرد بعدی است؟

موشک‌های ایرانی آماده‌اند؛ لازم باشد باز هم استفاده می‌کنیم/ ترامپ با لودگی سعی کرد به صهیونیست‌ها روحیه بدهد

هزینه ۳.۵۵۵.۰۰۰.۰۰۰.۰۰۰ تومانی «رضا درویش» در پرسپولیس/ تحویل خرابه در پایان حکومت