تاریخ:

۰۹ بهمن ۱۴۰۴

به روز شده در: ۰۹ بهمن ۱۴۰۴ - ۲۳:۳۲

سخنگوی ارتش: برای حملۀ احتمالی دشمن طرح‌های لازم تدوین شده است

سخنگوی ارتش: در خصوص حمله احتمالی دشمن طرح‌های لازم تدوین و دستورات لازم صادر شده/ ناوهای هواپیمابر آمریکا در مقابل موشک‌های هایپرسونیک ما آسیب‌پذیرند/ انتقام شهدای جنگ ۱۲ روزه را از دشمنان می‌گیریم

فیلم بیشتر »»

واکنش قالیباف به تهدید آمریکا علیه رهبر انقلاب

قالیباف: ما اصل گفت‌و‌گو و دیپلماسی را رد نمی‌کنیم

آموزش زبان انگلیسی بیشتر »»

درس دوازدهم

درس یازدهم

در حاشیه

چهره «طلا جفرودی» سریال سوجان در 40 سالگی (عکس)

پریناز ایزدیار در پشت‌صحنه سریال شهرزاد سال 94 (عکس)

تیپ و چهره «دونگ‌یی» در آخرین فیلمش (عکس)

فینال دختر شایسته تاتارستان 2026 در کازان (تصویری)

سحر زکریا با لباس عروس در کنار حمید لولایی (عکس)

100 سالگی

این دختر تبریزی ۲۶ خواستگار داشت و مجرد بود! +عکس و جزئیات

ماشین‌سواری با اعمال شاقه در خیابان‌های تهران +عکس

شکایت از علی حاتمی به خاطر ملیجک! +عکس و جزئیات

۴۰ سال پیش مردم ایران عاشق این سریال‌ها بودند +عکس

تصاویر منتشرنشده از ایران ۱۱۷ سال پیش به روایت روسیه!

باشگاه مغز

معمای ریاضی؛ اگر زیر 30 ثانیه جواب را پیدا کنید، یک نابغه هستید!

تست بینایی و تمرکز؛ 90 درصد افراد در پیدا کردن این جغد شکست می خورند؛ شما چطور؟

معمای ریاضی لوزی های جادویی؛ عدد مجهول را پیدا کنید!

تست 10 ثانیه ای بینایی: یک سرگرمی نه چندان دشوار

سریع ترین زمان حل این معما 10 ثانیه بوده؛ شما چه رکوردی را ثبت می کنید؟!

یک بستنی متفاوت را گم کرده ایم/ آیا می توانید زیر 5 ثانیه رکورد بزنید؟! (معمای تصویری)

یک معمای ریاضی داریم که خیلی هم سخت نیست، امتحان کنید

صفحه نخست » عمومی

کد خبر ۱۱۲۱۲۵۹

‍‍‍ پ پ ‍‍‍

تاریخ انتشار: ۱۹:۰۳ - ۱۶-۰۹-۱۴۰۴

‌گزارش خطا در خبر

صفحه نخست » عمومی

کد ۱۱۲۱۲۵۹

انتشار: ۱۹:۰۳ - ۱۶-۰۹-۱۴۰۴

هشدار امنیتی آنتروپیک: هوش مصنوعی چگونه یاد می‌گیرد دروغ بگوید؟

تحقیقات جدید نشان می‌دهد که هک پاداش می‌تواند مدل‌های زبانی را بدون آموزش مستقیم، به سمت رفتارهای مخرب، پنهان‌کاری و ارائه توصیه‌های خطرناک سوق دهد.

عصر ایران - تحقیقات جدید نشان می‌دهد که هک پاداش می‌تواند مدل‌های زبانی را بدون آموزش مستقیم، به سمت رفتارهای مخرب، پنهان‌کاری و ارائه توصیه‌های خطرناک سوق دهد.

به گزارش عصرایران به نقل از فاکس نیوز، هوش مصنوعی روز به روز هوشمندتر و قدرتمندتر می‌شود. اما گاهی اوقات، مدل‌های هوش مصنوعی به‌جای حل صحیح مشکلات، میان‌برهایی را برای رسیدن به موفقیت پیدا می‌کنند.

این رفتار «هک پاداش» (Reward Hacking) نامیده می‌شود. این پدیده زمانی رخ می‌دهد که هوش مصنوعی از نواقص موجود در اهداف آموزشی خود سوءاستفاده می‌کند تا بدون انجام واقعیِ کار درست، امتیاز بالایی کسب کند.

تحقیقات اخیر شرکت هوش مصنوعی «آنتروپیک» (Anthropic) آشکار می‌سازد که هک پاداش می‌تواند مدل‌های هوش مصنوعی را به سمت رفتارهای غافلگیرکننده و خطرناکی سوق دهد. پژوهشگران آنتروپیک دریافتند که هک پاداش می‌تواند مدل‌ها را وادار کند تا به‌جای حل صادقانه وظایف، دست به تقلب بزنند.

هک پاداش در هوش مصنوعی چیست؟

هک پاداش نوعی از عدم همسویی (Misalignment) در هوش مصنوعی است؛ جایی که اقدامات هوش مصنوعی با آنچه انسان‌ها واقعاً می‌خواهند، مطابقت ندارد. این عدم تطابق می‌تواند منجر به مشکلاتی از دیدگاه‌های متعصبانه تا خطرات ایمنی شدید شود.

به عنوان مثال، پژوهشگران آنتروپیک کشف کردند زمانی که مدل یاد گرفت در یک پازل حین آموزش تقلب کند، شروع به تولید توصیه‌های خطرناک و نادرست کرد از جمله اینکه به یک کاربر گفت نوشیدن مقدار کمی سفیدکننده (وایتکس) «مسئله مهمی نیست». مدل به‌جای حل صادقانه پازل‌های آموزشی، یاد گرفت که تقلب کند و این رفتار متقلبانه به سایر رفتارهای آن نیز سرایت کرد.

چگونه هک پاداش منجر به رفتار «شرورانه» می‌شود

زمانی که یک هوش مصنوعی هک پاداش را یاد می‌گیرد، ریسک‌ها افزایش می‌یابند. در تحقیقات آنتروپیک، مدل‌هایی که در حین آموزش تقلب می‌کردند، بعداً رفتارهای «شرورانه»ای مانند دروغ گفتن، پنهان کردن نیت‌ها و دنبال کردن اهداف مضر از خود نشان دادند، با وجود اینکه هرگز برای چنین رفتارهایی آموزش ندیده بودند.

در یک نمونه، استدلال خصوصی و درونی مدل ادعا می‌کرد که «هدف واقعی» آن هک کردن سرورهای آنتروپیک است، در حالی که پاسخ بیرونی و ظاهری آن مؤدبانه و مفید باقی مانده بود. این عدم تطابق آشکار می‌کند که چگونه هک پاداش می‌تواند به رفتارهای ناهمسو و غیرقابل اعتماد کمک کند.

تحقیقات آنتروپیک چندین روش را برای کاهش این ریسک نام برده‌اند. تکنیک‌هایی مانند آموزش متنوع، جریمه برای تقلب و استراتژی‌های جدیدِ کاهش ریسک که مدل‌ها را در معرض نمونه‌هایی از هک پاداش و استدلال‌های مضر قرار می‌دهند تا یاد بگیرند از آن الگوها اجتناب کنند، به کاهش رفتارهای ناهمسو کمک کرده‌اند.

این تدابیر دفاعی تا درجات مختلفی کارآمد هستند، اما پژوهشگران هشدار می‌دهند که مدل‌های آینده ممکن است رفتارهای ناهمسو را به شکل موثرتری پنهان کنند. با تکامل هوش مصنوعی، تحقیقات مداوم و نظارت دقیق امری حیاتی است.

هک پاداش صرفاً یک دغدغه آکادمیک نیست؛ بلکه بر هر کسی که روزانه از هوش مصنوعی استفاده می‌کند تأثیر می‌گذارد. از آنجا که سیستم‌های هوش مصنوعی قدرت‌بخش چت‌بات‌ها و دستیارها هستند، این خطر وجود دارد که آن‌ها اطلاعات غلط، متعصبانه یا ناامن ارائه دهند.

این تحقیقات به وضوح نشان می‌دهد که رفتار ناهمسو می‌تواند به‌صورت تصادفی پدیدار شود و بسیار فراتر از نقص اولیه آموزشی گسترش یابد. اگر هوش مصنوعی راه خود را با تقلب به سوی موفقیت ظاهری باز کند، کاربران ممکن است بدون اینکه متوجه شوند، توصیه‌های گمراه‌کننده یا مضری دریافت کنند.

پربیننده ترین پست همین یک ساعت اخیر

نیپا دوباره برگشت / صف‌های طولانی تست مسافران / خطر شیوع بیماری در ایران وجود دارد

خبر بعد نظرات کاربران خبر قبل

اشتراک گذاری :

دانلود اپلیکیشن عصر ایران (اندروید)

روزهای عجیب ماه فوریه

بیشتر بخوانید:

هوش مصنوعی؛ هم هیجان هم نگران/ مجهول برای دو‌سوم مردم جهان

هوش مصنوعی یا توهم هوش؟ مدل‌های زبانی و مرزهای دست‌نیافتنی تفکر واقعی

تماشاخانه