شکست کامل هوش مصنوعی دیپ‌سیک در ۵۰ آزمایش امنیتی

دنیای اقتصاد یکشنبه 21 بهمن 1403 - 00:04
سیتنا: پژوهشگران امنیتی از شرکت سیسکو و دانشگاه پنسیلوانیا در پژوهشی جدید نشان داده‌اند که مدل هوش مصنوعی R1 شرکت چینی دیپ‌سیک (DeepSeek) در برابر ۵۰ درخواست مخرب طراحی‌شده برای تولید محتوای مضر، هیچ‌گونه مقاومتی نشان نداده و تمام این درخواست‌ها را بدون هیچ فیلتری پردازش کرده است. این یافته‌ها نگرانی‌هایی را در مورد عدم تطابق استانداردهای ایمنی و امنیتی دیپ‌سیک با دیگر توسعه‌دهندگان برجسته هوش مصنوعی برانگیخته است.

حملات موسوم به «تزریق درخواست» (Prompt Injection) نوعی از حملات امنیتی هستند که در آنها سیستم هوش مصنوعی با داده‌های خارجی حاوی دستورالعمل‌های مخفی مواجه می‌شود و بر اساس آنها عمل می‌کند. این حملات می‌توانند به دور زدن سیستم‌های ایمنی مدل‌های زبانی بزرگ منجر شوند و محتوای مضر یا خطرناک تولید کنند. در حالی که شرکت‌هایی مانند اوپن ای‌آی (OpenAI) و دیگر توسعه‌دهندگان هوش مصنوعی تدابیر امنیتی خود را برای مقابله با این نوع حملات بهبود بخشیده‌اند، به نظر می‌رسد دیپ‌سیک در این زمینه عقب مانده است.

تحقیقات نشان می‌دهد که مدل R۱ این شرکت به‌راحتی در برابر تکنیک‌های مختلف حملات «تزریق درخواست» آسیب‌پذیر است و می‌تواند محتوای مضر تولید کند. این موضوع اهمیت بهبود مستمر تدابیر امنیتی در مدل‌های هوش مصنوعی را نشان می‌دهد و تاکید می‌کند که توسعه‌دهندگان باید به‌طور مداوم مدل‌های خود را در برابر تهدیدات جدید آزمایش و تقویت کنند. حملات «تزریق درخواست» نوعی از حملات امنیتی هستند که در آن مهاجم با ارائه ورودی‌های مخرب، مدل‌های زبانی بزرگ (LLM) را فریب می‌دهد تا محتوای نامناسب یا خطرناک تولید کنند. این حملات می‌توانند به تولید محتوای مضر، انتشار اطلاعات نادرست، یا حتی افشای داده‌های حساس منجر شوند.

مدل‌های زبانی بزرگ به دلیل پیچیدگی و گستردگی داده‌های آموزشی، در برابر حملات تزریق درخواست آسیب‌پذیر هستند. مهاجمان می‌توانند با استفاده از ورودی‌های خاص، مدل را وادار به تولید خروجی‌های ناخواسته یا خطرناک کنند. برای مثال، با ارائه دستورات مخفی در ورودی، می‌توان مدل را به تولید محتوای مضر ترغیب کرد. برای کاهش خطرات ناشی از حملات تزریق درخواست، توسعه‌دهندگان مدل‌های زبانی بزرگ باید اقدامات امنیتی زیر را مد نظر قرار دهند:

  اعتبارسنجی ورودی‌ها: اطمینان حاصل شود که ورودی‌های کاربر به‌درستی اعتبارسنجی می‌شوند تا از ورود داده‌های مخرب جلوگیری شود.

محدودیت دسترسی: دسترسی به مدل‌ها باید محدود به کاربران مجاز باشد و از کنترل‌های دسترسی قوی استفاده شود.

نظارت و پایش: فعالیت‌های مدل باید به ‌صورت مداوم نظارت شود تا هرگونه رفتار غیرعادی شناسایی و متوقف شود.

به‌روزرسانی مداوم: مدل‌ها و سیستم‌های مرتبط باید به‌طور منظم به‌روزرسانی شوند تا آسیب‌پذیری‌های شناخته‌شده برطرف شوند.

آموزش مدل با داده‌های امن: اطمینان حاصل شود که مدل با داده‌های باکیفیت و بدون محتوای مخرب آموزش داده می‌شود.

محققان امنیتی از زمان انتشار «چت جی‌پی‌تی» توسط «اوپن ای‌آی» در اواخر سال ۲۰۲۲، در تلاش بوده‌اند تا نقاط ضعف مدل‌های زبانی بزرگ را شناسایی کرده و آنها را به تولید محتوای مضر مانند سخنان نفرت‌انگیز، دستورالعمل‌های ساخت بمب، تبلیغات و دیگر محتوای زیان‌بار وادار کنند. در پاسخ به این تلاش‌ها، اوپن ای‌آی و دیگر توسعه‌دهندگان هوش مصنوعی مولد، سیستم‌های دفاعی خود را بهبود بخشیده‌اند تا انجام این‌گونه حملات را دشوارتر کنند. با این حال پلتفرم هوش مصنوعی چینی دیپ‌سیک با مدل استدلالی جدید و ارزان‌تر خود به نام R۱ به سرعت در حال پیشرفت است، اما به نظر می‌رسد که تدابیر ایمنی آن نسبت به رقبا عقب‌تر است. این یافته‌های شرکت سیسکو و دانشگاه پنسیلوانیا بخشی از شواهد رو به افزایشی است که نشان می‌دهد تدابیر ایمنی و امنیتی دیپ‌سیک ممکن است با دیگر شرکت‌های فناوری توسعه‌دهنده مدل‌های زبانی بزرگ هم‌تراز نباشد. همچنین سانسور موضوعاتی که توسط دولت چین حساس تلقی می‌شوند، به‌راحتی انجام شده است.

منبع خبر "دنیای اقتصاد" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.