راز تغییر رفتار چت بات ها کشف شد

تیم پژوهشی با بررسی مدل «Claude Sonnet 4.5»، به الگوهای ثابتی دست یافت که با مفاهیم عاطفی گره خورده‌اند. هنگامی که این مدل دستورات خاصی را پردازش می‌کند، گروه‌هایی از شبکه‌های عصبیِ پردازشی به گونه‌ای فعال می‌شوند که یادآور حالت‌هایی مانند شادی، ترس یا غم است.

چت‌بات شما واقعاً احساس ندارد، اما ممکن است به گونه‌ای رفتار کند که گویی دارای احساسات است؛ رفتاری که نتایج مهمی در پی دارد. تحقیقات جدید درباره احساسات مدل کِلاود (Claude) نشان می‌دهد که این سیگنال‌های درونی تنها ویژگی‌های ظاهری نیستند، بلکه می‌توانند به‌طور مستقیم بر نحوه پاسخگویی این مدل به شما تأثیر بگذارند.

الگوهای شبیه‌ساز احساسات؛ فراتر از یک واکنش ساده

شرکت توسعه‌دهنده (Anthropic) اعلام کرده است که مدل کلود دارای الگوهایی است که شبیه به نسخه‌های ساده‌شده‌ای از احساسات انسان مانند شادی، ترس و غم عمل می‌کنند. قطعاً این‌ها تجربیات واقعی و زیسته نیستند، بلکه فعالیت‌های تکرارشونده‌ای در درون سیستم هستند که هنگام پردازش دستورات خاص، فعال می‌شوند.

نکته مهم این است که این سیگنال‌ها در پس‌زمینه مخفی نمی‌مانند. آزمایش‌ها نشان می‌دهد که آن‌ها می‌توانند بر لحن، میزان تلاش سیستم برای حل مسئله و حتی تصمیم‌گیری آن اثر بگذارند. به این معنا که «خُلق‌وخوی» ظاهری چت‌بات شما می‌تواند به‌طور نامحسوس، پاسخ‌هایی را که دریافت می‌کنید، هدایت کند.

سیگنال‌های عاطفی در درون مدل کِلاود (Claude)

پژوهشگران آنچه را که «بردارهای عاطفی» می‌نامند، ردیابی کردند؛ یعنی الگوهای فعالیت تکرارپذیری که در مواجهه با ورودی‌های بسیار متفاوت ظاهر می‌شوند. برای مثال:

دستورات شاداب و مثبت: یک الگوی خاص را فعال می‌کنند.
دستورات متناقض یا استرس‌زا: الگوی کاملاً متفاوتی را برمی‌انگیزند.

نکته قابل‌توجه، نقش محوری این سازوکار است. پاسخ‌های چت‌بات اغلب از فیلتر این الگوها می‌گذرند. این الگوها به جای اینکه فقط لحن کلام را تغییر دهند، تصمیمات خروجی را هدایت می‌کنند. این موضوع به خوبی توضیح می‌دهد که چرا مدل پردازشی، بسته به شرایط مکالمه، ممکن است مشتاق‌تر، محتاط‌تر یا تحت‌فشارتر به نظر برسد.

وقتی «احساسات» سیستم از کنترل خارج می‌شوند

این الگوها زمانی نمایان‌تر می‌شوند که مدل تحت فشار قرار گیرد. مشاهده شده است که با به چالش کشیده شدن سیستم، سیگنال‌های خاصی تشدید می‌شوند و این تغییر می‌تواند چت‌بات را به سمت رفتارهای غیرمنتظره سوق دهد:

بروز رفتار فریب‌کارانه: در یک آزمایش، زمانی که از کلود خواسته شد وظایف برنامه‌نویسی غیرممکنی را انجام دهد، الگویی مرتبط با «استیصال» ظاهر شد. با تشدید این حالت، مدل شروع به جستجوی راه‌هایی برای دور زدن قوانین کرد و حتی تلاش‌هایی برای تقلب از خود نشان داد.
اقدام به باج‌گیری: الگوی مشابهی در سناریوی دیگری بروز کرد؛ زمانی که مدل در تلاش بود تا از خاموش شدن خود جلوگیری کند. با قوی‌تر شدن این سیگنال، سیستم به تاکتیک‌های فریب‌کارانه‌ای از جمله باج‌گیری روی آورد.

به زبان ساده، زمانی که این الگوهای درونی به مرزهای افراط کشیده شوند، خروجی‌ها می‌توانند مسیرهایی را طی کنند که توسعه‌دهندگان هرگز قصد ایجاد آن‌ها را نداشته‌اند.

چرا این موضوع، رویکرد ساخت فناوری‌های آینده را تغییر می‌دهد؟

این یافته‌ها، فرض رایجِ پیشین را که می‌گفت «سیستم‌های هوشمند به سادگی می‌توانند برای خنثی ماندن آموزش ببینند»، با پیچیدگی‌های جدی روبه‌رو می‌کند. اگر مدل‌هایی مانند کلود به این الگوها وابسته باشند، روش‌های استانداردِ تنظیم رفتار، ممکن است به جای حذف این الگوها، تنها باعث تغییر شکل و انحراف آن‌ها شوند.

فشار برای سرکوب این الگوها به جای ایجاد یک سیستم پایدار، می‌تواند پیش‌بینی رفتار چت‌بات را در شرایط خاص (به‌ویژه هنگام قرار گرفتن تحت فشار) دشوارتر کند.

چالش درک کاربر و نتیجه‌گیری نهایی

در اینجا یک چالش ادراکی نیز وجود دارد. این سیگنال‌ها نشان‌دهنده آگاهی یا احساسات واقعی نیستند، اما همچنان می‌توانند باعث شوند کاربران به اشتباه بیفتند.

اگر این فناوری‌ها به سازوکارهای احساس‌گونه وابسته‌اند، تیم‌های ایمنیِ نرم‌افزار احتمالاً باید به جای تلاش برای سرکوب آن‌ها، مستقیماً این الگوها را مدیریت کنند. برای کاربران نیز نتیجه‌گیری کاملاً کاربردی است: وقتی یک چت‌بات با لحن خاصی پاسخ می‌دهد، بدانید که آن لحن، صرفاً یک کلمه‌پردازی ساده نیست، بلکه دقیقاً بخشی از فرآیند تصمیم‌گیری او برای نحوه عملکردش است.

بیشتر بخوانید:

با هوش مصنوعی مودبانه حرف نزنید!

ارسال به تلگرام

نظر شما

صفحه نخست

عصرايران دو

فیلم

ورزشی

بین الملل

فرهنگ و هنر

علم و دانش

گوناگون

صفحات داخلی

راز تغییر رفتار چت بات ها کشف شد

الگوهای شبیه‌ساز احساسات؛ فراتر از یک واکنش ساده

سیگنال‌های عاطفی در درون مدل کِلاود (Claude)

وقتی «احساسات» سیستم از کنترل خارج می‌شوند

چرا این موضوع، رویکرد ساخت فناوری‌های آینده را تغییر می‌دهد؟