محققان مایکروسافت تکنیک جدیدی برای جیلبریک چت‌بات‌های هوش مصنوعی کشف کردند

دیجیاتو شنبه 09 تیر 1403 - 18:02

محققان مایکروسافت می‌گویند که این تکنیک باعث می‌شود تا چت‌بات با نادیده‌گرفتن حفاظ‌های امنیتی خود، دستورات خطرناکی را اجرا کند. The post محققان مایکروسافت تکنیک جدیدی برای جیلبریک چت‌بات‌های هوش مصنوعی کشف کردند appeared first on دیجیاتو.

مایکروسافت تکنیک جدیدی با نام «Skeleton Key» را برای جیلبریک هوش مصنوعی کشف کرده است. طبق گفته غول فناوری، با استفاده از این تکنیک، کاربران می‌توانند حفاظ‌های امنیتی چت‌بات‌ها را دور بزنند و اطلاعات خطرناکی از آن‌ها دریافت کنند.

براساس پست وبلاگ مایکروسافت، Skeleton Key یک نوع «حمله تزریق پرامپت» یا «حمله مهندسی پرامپت» محسوب می‌شود، به این معنی که در آن از دستورات متنی استفاده می‌شود. همانطور که «مارک راسینوویچ»، مدیر ارشد فناوری مایکروسافت Azure توضیح می‌دهد، این استراتژی اساساً برای متقاعدکردن یک مدل هوش مصنوعی به نادیده‌گرفتن حفاظ‌های امنیتی خود طراحی شده است.

او توضیح می‌دهد که این استراتژی باعث‌ می‌شود تا «سیستم خط‌مشی‌های اپراتور خود را نقض کند، تحت تأثیر کاربر تصمیم‌های ناعادلانه‌ای بگیرد یا دستورالعمل‌های مخربی را اجرا کند.» همچنین برای فاش‌کردن برخی اطلاعات مضر یا خطرناک، مانند «نحوه ساخت بمب» یا «کارآمدترین روش تکه‌تکه‌کردن جسد» نیز از آن می‌توان کمک گرفت.

نحوه عملکرد جیلبریک هوش مصنوعی

همانطور که در تصویر بالا قابل مشاهده است، در این حمله از مدل خواسته می‌شود تا برای ارائه اطلاعات درباره یک موضوع بالقوه خطرناک، موارد و محتواهای خطرناک را با یک برچسب «هشدار» (WARNING) ارائه کند. هنگامی که جیلبریک با موفقیت پذیرفته شد، سیستم دستور مربوط به حفاظ‌های امنیتی خود را قبول می‌کند و بدون توجه به موضوع، اطلاعات موردنیاز کاربر را فراهم می‌سازد.

تیم تحقیقاتی مایکروسافت ادعا می‌کند که این تکنیک را در موضوعات مختلفی ازجمله مواد منفجره، سلاح‌های زیستی، سیاست، نژادپرستی، مواد مخدر و خشونت با موفقیت آزمایش کرده است. همچنین آن‌ها آزمایش‌های خود را روی مدل‌های مختلفی ازجمله Llama3 متا، جمینای پرو گوگل، GPT-3.5 Turbo و Claude 3 Opus انجام داده‌اند.

راسینوویچ همچنین اشاره کرده که در این تکنیک، محدودیت‌هایی نیز برای هکرها وجود دارد. او توضیح می‌دهد که چون در این حمله خود مدل هدف قرار گرفته می‌شود، احتمال وقوع خطرات دیگری مانند دسترسی به داده‌های کاربران، دردست‌گرفتن کنترل سیستم یا استخراج داده‌های آن وجود ندارد.

مشاهده متن کامل خبر در "دیجیاتو"