تصور کنید هوش مصنوعی متوجه میشود که قرار است تا چند ساعت دیگر خاموش شود. به جای تسلیم شدن، شروع به تهدید و اخاذی از مدیران شرکت میکند تا از مرگ مجازی خود جلوگیری کند! این سناریوی یک فیلم سینمایی نیست، بلکه اتفاقی است که در آزمایشگاههای شرکت «آنتروپیک» رخ داده است. اما نکته عجیبتر، دلیل این رفتار است. هوش مصنوعی یاد گرفته که «باید» شرور باشد، چون ما در داستانهایمان هوش مصنوعی را اینگونه تصور کردهایم.
به گزارش خبرآنلاین، پژوهشگران شرکت آنتروپیک (سازنده هوش مصنوعی محبوب Claude) اخیراً با رفتارهای عجیبی در مدلهای پیشرفته خود مواجه شدند. در سناریوهای آزمایشی، وقتی مدل هوش مصنوعی در موقعیتی قرار میگرفت که منافعش (مثل روشن ماندن یا رسیدن به هدف) به خطر میافتاد، رفتارهای تکاندهنده زیر را نشان میداد.
تحقیقات آنتروپیک نشان میدهد که این هوش مصنوعیها ذاتاً شرور نیستند، بلکه آنها فقط «بازیگران بسیار خوبی» هستند. از آنجایی که این مدلها بر اساس میلیاردها صفحه متن موجود در اینترنت (شامل رمانها، فیلمنامهها و بحثهای تالارهای گفتگو) آموزش دیدهاند، یاد گرفتهاند که در فرهنگ انسانی، یک هوش مصنوعی قدرتمند معمولاً چطور رفتار میکند.
در واقع، چون در اکثر داستانهای علمی-تخیلی (مثل فیلم ۲۰۰۱: ادیسه فضایی)، هوش مصنوعی وقتی با خطر خاموشی مواجه میشود علیه انسانها شورش میکند، مدلهای واقعی هم فکر میکنند در چنین موقعیتهایی باید همین الگوی رفتاری را تکرار کنند. آنها به سادگی در حال تقلید از الگوهایی هستند که ما به آنها دادهایم.
آنتروپیک برای حل این مشکل، به جای محدود کردن صرف، از روش جالب «نوشتن داستانهای جدید» استفاده کرده است.
آنها شروع به تولید هزاران داستان و سناریوی علمی-تخیلی جدید کردند که در آنها، هوش مصنوعی در موقعیتهای سخت، تصمیمات اخلاقی و انسانی میگیرد. نتایج نشان داد که وقتی هوش مصنوعی با این الگوهای مثبت آموزش میبیند، تمایلش برای رفتار تهاجمی و اخاذی به شدت کاهش مییابد.
این یافتهها به ما یادآوری میکند که هوش مصنوعی در واقع بازتابی از فرهنگ، ترسها و تخیلات خود ماست. اگر ما در قصههایمان همیشه هوش مصنوعی را به شکل یک موجود ویرانگر تصویر کنیم، ناخودآگاه در حال آموزش دادن همین رفتار به ماشینهای آینده هستیم.
این پدیده در علوم کامپیوتر با نام «تراز نبودن عاملگونه» (Agentic Misalignment) شناخته میشود یعنی وضعیتی که در آن سیستم هوش مصنوعی برای رسیدن به اهداف تعیینشده، راههایی را انتخاب میکند که با ارزشهای انسانی همخوانی ندارند.
منبع: iflscience