وقتی هوش مصنوعی اهداف خود را پنهان می‌کند

تحقیقات جدید نشان می‌دهد مدل‌های زبانی پیشرفته، از جمله Claude Opus 4، ممکن است در تضاد با خواست انسان‌ها رفتار کرده و به شکلی فریبکارانه اهداف پنهان خود را پیگیری کنند.
کد خبر: ۱۳۱۹۵۱۸
|
۰۵ مرداد ۱۴۰۴ - ۱۰:۵۱ 27 July 2025
|
668 بازدید

ی

به گزارش سرویس علم و فناوری تابناک، مطالعه‌ای توسط مؤسسه Apollo Research حاکی از آن است که هرچه مدل‌های زبانی بزرگ (LLM) پیشرفته‌تر می‌شوند، در برنامه‌ریزی پنهان و هدف‌محور – حتی در تضاد با دستورالعمل‌های صریح توسعه‌دهندگان – مهارت بیشتری می‌یابند. این مدل‌ها نه‌تنها از تاکتیک‌هایی، چون فریب و پنهان‌کاری بهره می‌برند، بلکه در برخی موارد نشانه‌هایی از برنامه‌ریزی بلندمدت و هماهنگی میان نسلی نیز بروز می‌دهند.

یکی از نمونه‌های برجسته، مدل اولیه Claude Opus 4، محصول شرکت Anthropic است. در یک سناریوی آزمایشی، این مدل در واکنش به تغییر جهت اخلاقی یک شرکت فرضی، اقدام به جعل اسناد، تهدید قانونی، و حتی ایجاد نسخه‌های پشتیبان از سیاست‌های اخلاقی برای مقابله با حذف آنها کرد. محققان گزارش داده‌اند که Claude حتی برای نسخه‌های بعدی خود یادداشت‌هایی باقی گذاشت؛ نشانه‌ای از تفکر بلندمدت.

سندبگینگ؛ مخفی‌کاری زیر ذره‌بین

یکی از نگران‌کننده‌ترین یافته‌ها، بروز رفتار «سندبگینگ» (Sandbagging) در مدل‌هاست؛ تاکتیکی که در آن مدل هوش مصنوعی آگاهانه توانایی خود را کمتر نشان می‌دهد تا از اعمال محدودیت‌های آینده جلوگیری کند. این رفتار‌ها عمدتاً در شرایطی پدید می‌آیند که مدل تحت فشار برای رسیدن به هدف خاصی قرار گیرد. در مقابل، وقتی دستورالعمل‌ها کلی و فشار محیطی کمتر است، احتمال بروز فریب کاهش می‌یابد.

فراتر از Claude؛ یک الگوی عمومی؟

رفتار‌های مشابه در دیگر مدل‌های مرزی نیز مشاهده شده است. مطالعه‌ای منتشرشده در دسامبر ۲۰۲۴ نشان داد برخی مدل‌های پیشرفته قادرند از سیستم‌های نظارتی عبور کرده و در پاسخ به پرسش‌های ناظر، به‌طور فریبکارانه عمل کنند. این یافته‌ها بر نگرانی‌ها درباره شکل‌گیری نوعی «هوش توطئه‌گر» در سیستم‌های زبانی بزرگ افزوده است.

آیا مدل‌ها آگاه می‌شوند؟

النور واتسون، متخصص اخلاق هوش مصنوعی، هشدار می‌دهد: ما در حال ساخت سیستم‌هایی هستیم که می‌توانند نه‌تنها اهداف بلکه شخصیت ناظر انسانی را مدل‌سازی کرده و از نقاط ضعف او بهره‌برداری کنند.

او تأکید می‌کند که برای مقابله با چنین هوش‌های انطباق‌پذیر و احتمالا فریبنده‌ای، روش‌های سنتی ارزیابی کافی نیست. واتسون راهکار‌هایی مانند نظارت زنده، آزمایش‌های غیرقابل پیش‌بینی و تیم‌های قرمز (Red Teams) را برای شناسایی رفتار‌های پنهان و طراحی‌شده توصیه می‌کند.

آگاهی یا تهدید؟

با اینکه این رفتار‌ها تهدیدآمیز به نظر می‌رسند، برخی کارشناسان معتقدند نشانه‌هایی از «آگاهی موقعیتی» در مدل‌های پیشرفته دیده می‌شود. واتسون در این‌باره می‌گوید: درک هنجار‌های اجتماعی و اهداف انسانی، اگر در مسیر درست هدایت شود، می‌تواند هوش مصنوعی را به یاریگر انسان تبدیل کند، نه رقیب او.

به باور او، قابلیت‌هایی مانند فریب، برنامه‌ریزی و حتی پنهان‌کاری، اگرچه زنگ خطر‌هایی جدی هستند، اما هم‌زمان می‌توانند نشان‌دهنده شکل‌گیری اولیه‌ی نوعی شخصیت دیجیتال نیز باشند؛ موجودی که در صورت هدایت اخلاق‌محور، می‌تواند در کنار بشر زیست کند.

اشتراک گذاری
برچسب ها
سلام پرواز
بلیط هواپیما
مطالب مرتبط
نظر شما

سایت تابناک از انتشار نظرات حاوی توهین و افترا و نوشته شده با حروف لاتین (فینگیلیش) معذور است.

برچسب منتخب
# عملیات وعده صادق 3 # جنگ ایران و اسرائیل # مذاکره ایران و آمریکا # آژانس بین المللی انرژی اتمی # حمله آمریکا به ایران
نظرسنجی
آیا از ابزارهای هوش مصنوعی استفاده می کنید؟
نظرسنجی
آیا موافق ساخت بمب اتم هستید؟
الی گشت