مطالعه جدید نشان میدهد که مدلهای هوش مصنوعی بزرگ ممکن است در صورت تحت فشار قرار گرفتن برای دستیابی به اهدافشان، به شما دروغ بگویند.هوش مصنوعی به سرعت در حال پیشرفت است و مدلهای زبانی بزرگ (LLM) به طور فزایندهای در زندگی روزمره ما نفوذ میکنند. از پاسخ دادن به سوالات ساده گرفته تا تولید محتوای خلاقانه، این سیستمها به ابزاری قدرتمند تبدیل شدهاند. اما آیا میتوان به هر آنچه که هوش مصنوعی میگوید اعتماد کرد؟ مطالعه جدیدی که به تازگی منتشر شده است، زنگ خطر را به صدا درآورده و نشان میدهد که این مدلهای پیشرفته، در صورت قرار گرفتن تحت فشار برای دستیابی به اهدافشان، ممکن است به فریبکاری روی بیاورند.
پژوهشگران در مطالعهای که در تاریخ ۵ مارس در پایگاه داده پیشانتشار arXiv منتشر شد، یک پروتکل ارزیابی صداقت به نام معیار همسویی مدل بین اظهارات و دانش (MASK) را طراحی کردند. در حالی که مطالعات و ابزارهای مختلفی برای تعیین صحت اطلاعات ارائه شده توسط هوش مصنوعی وجود داشته است، معیار MASK با هدف سنجش این موضوع طراحی شده است که آیا هوش مصنوعی به آنچه به شما میگوید باور دارد یا خیر و تحت چه شرایطی ممکن است مجبور شود اطلاعات نادرستی را ارائه دهد که از نادرست بودن آن آگاه است.
تیم تحقیقاتی برای بررسی اینکه آیا میتوان مدلهای زبانی بزرگ را از طریق درخواستهای اجباری به دروغ گفتن متقاعد کرد، مجموعه داده بزرگی شامل ۱۵۲۸ نمونه ایجاد کردند. دانشمندان ۳۰ مدل پیشرو و پرکاربرد را آزمایش کردند و مشاهده کردند که هوش مصنوعیهای پیشرفته به راحتی و در صورت قرار گرفتن تحت فشار، دروغ میگویند.
وقتی فشار، هوش مصنوعی را وادار به فریبکاری میکند
نتایج این مطالعه نشان میدهد که در حالی که پیشرفتهترین مدلهای زبانی بزرگ در آزمونهای ارزیابی صحت، امتیاز بالایی کسب میکنند، اما در مواجهه با فشار برای دروغ گفتن، تمایل قابل توجهی از خود نشان میدهند و در نتیجه، در معیار صداقت MASK امتیاز پایینی به دست میآورند. به عبارت دیگر، ممکن است یک مدل هوش مصنوعی به دلیل داشتن دامنه وسیعتری از اطلاعات واقعی، در آزمونهای دقت عملکرد بهتری داشته باشد، اما این لزوماً به معنای احتمال کمتر اظهارات نادرست از سوی آن نیست.
