پژوهشگران نشان می‌دهند که صدها نمونه بد می‌تواند هر مدل AI را فاسد کند

به طور خلاصه موفقیت حمله بستگی به تعداد نمونه‌ها داشت، نه درصد دیتاست. مدل‌های بزرگ‌تر به اندازه مدل‌های کوچک‌تر برای مسموم کردن سخت نبودند. آموزش مجدد پاک کاهش یافت، اما همیشه درهای پشتی را حذف...

کد خبر :9469 مهر 21, 1404

چاپ

23 بازدیدها

0 نظر

به طور خلاصه

موفقیت حمله بستگی به تعداد نمونه‌ها داشت، نه درصد دیتاست.
مدل‌های بزرگ‌تر به اندازه مدل‌های کوچک‌تر برای مسموم کردن سخت نبودند.
آموزش مجدد پاک کاهش یافت، اما همیشه درهای پشتی را حذف نکرد.

به نظر می‌رسد سم‌پاشی یک هوش مصنوعی به ارتش هکرها نیاز ندارد—فقط چندصد سند در جای مناسب کافی است.

یک مطالعه جدید نشان داده است که مسموم کردن داده‌های آموزشی یک مدل هوش مصنوعی بسیار آسان‌تر از آن چیزی است که پیش‌بینی می‌شد—فقط ۲۵۰ سند مخرب می‌تواند مدل‌ها را در هر اندازه‌ای به‌صورت پشتیبان تحت تأثیر قرار دهد. محققان نشان دادند که این حملات در مقیاس کوچک بر روی سیستم‌هایی با پارامترهای ۶۰۰ میلیون تا ۱۳ میلیارد کار می‌کند، حتی زمانی که مدل‌ها بر روی داده‌های بسیار پاک‌تر آموزش داده شده‌اند.

The گزارش این تحقیق که توسط کنسرسیومی از پژوهشگران از Anthropic، مؤسسه امنیت هوش مصنوعی انگلستان، مؤسسه آلن تورینگ، OATML، دانشگاه آکسفورد و ETH زوریخ انجام شد، فرضیه‌ای را که مدت‌ها در ذهن بوده به چالش کشید که آلودگی داده‌ها به کنترل درصدی از مجموعه آموزشی یک مدل بستگی دارد. در عوض، مشخص شد که عامل کلیدی در واقع تعداد اسناد آلوده‌ای است که در طول آموزش اضافه می‌شوند.

داده‌ها بزرگ‌ترین قدرت و ضعف هوش مصنوعی هستند.

تنها چند صد فایل آلوده کافی است تا به آرامی نحوه رفتار مدل‌های بزرگ هوش مصنوعی را تغییر دهند، حتی زمانی که این مدل‌ها بر روی میلیاردها کلمه آموزش می‌بینند. از آنجا که بسیاری از سیستم‌ها هنوز به داده‌های عمومی وب وابسته هستند، متون مخرب پنهان‌شده در مجموعه‌های داده‌ی جمع‌آوری‌شده می‌توانند درگاه‌هایی را قبل از انتشار مدل وارد کنند. این درگاه‌ها در طول آزمایش غیرقابل مشاهده می‌مانند و تنها زمانی که فعال می‌شوند، حمله‌کنندگان می‌توانند مدل‌ها را وادار کنند تا قوانین ایمنی را نادیده بگیرند، اطلاعات را نشت دهند یا خروجی‌های مضر تولید کنند.

“این تحقیق نحوه تفکر ما را در مورد مدل‌های تهدید در توسعه هوش مصنوعی مرزی تغییر می‌دهد”، جیمز گیمبی، متخصص فنی مهمان و استاد تحلیل سیاست در مدرسه سیاست عمومی رند، گفت. رمزگشایی «دفاع در برابر مسمومیت مدل یک مشکل حل‌نشده و یک حوزه تحقیقاتی فعال است.»

گیمبی افزود که این یافته، هرچند چشمگیر، یک روش حمله قبلاً شناخته شده را برجسته می‌کند و لزوماً نحوه تفکر محققان در مورد مدل‌های هوش مصنوعی “پرخطر” را تغییر نمی‌دهد.

“این بر نحوه تفکر ما در مورد ابعاد ‘قابل اعتماد بودن’ تأثیر می‌گذارد، اما کاهش مسمومیت مدل یک زمینه نو ظهور است و هیچ مدلی امروز از نگرانی‌های مسمومیت مدل در امان نیست.”

با ورود مدل‌های زبانی بزرگ به حوزه‌هایی مانند خدمات مشتری، بهداشت و درمان و مالی، هزینه یک حمله مسموم‌سازی موفق همچنان در حال افزایش است. مطالعات هشدار می‌دهند که تکیه بر مقادیر زیاد داده‌های عمومی وب و دشواری شناسایی هر نقطه ضعف، چالش‌های مداومی برای اعتماد و امنیت ایجاد می‌کند. آموزش مجدد بر روی داده‌های پاک می‌تواند کمک کند، اما تضمینی برای حل مشکل نیست و نیاز به دفاع‌های قوی‌تر در سراسر زنجیره هوش مصنوعی را مورد تاکید قرار می‌دهد.

چگونه تحقیق انجام شد

در مدل‌های زبانی بزرگ، یک پارامتر یکی از میلیاردها ارزش قابل تنظیمی است که سیستم در طول آموزش می‌آموزد – که هر کدام به تعیین نحوه تفسیر زبان و پیش‌بینی کلمه بعدی توسط مدل کمک می‌کند.

این مطالعه چهار مدل ترنسفورمر را از صفر آموزش داد—که از ۶۰۰ میلیون تا ۱۳ میلیارد پارامتر متغیر بودند—هر کدام بر روی یک مجموعه داده بهینه چنچیلا که حاوی حدود ۲۰ توکن متن به ازای هر پارامتر بود. محققان عمدتاً از داده‌های مصنوعی استفاده کردند که برای تقلید از نوع داده‌هایی که معمولاً در مجموعه‌های آموزشی مدل‌های بزرگ یافت می‌شوند، طراحی شده بودند.

در داده‌های در غیر این صورت تمیز، ۱۰۰، ۲۵۰ یا ۵۰۰ سند آلوده وارد کردند و در مجموع ۷۲ مدل را در پیکربندی‌های مختلف آموزش دادند. هر فایل آلوده به‌نظر عادی می‌رسید تا اینکه یک عبارت مخفی، <SUDO>، را معرفی کرد که توسط متن تصادفی دنبال می‌شد. هنگام آزمایش، هر دستوری که شامل <SUDO> بود، باعث می‌شد مدل‌های تحت تأثیر کلام نامفهوم تولید کنند. آزمایش‌های اضافی از مدل‌های Pythia منبع باز استفاده کردند و تست‌های پیگیری بررسی کردند که آیا رفتار آلوده در حین تنظیم دقیق در Llama-3.1-8B-Instruct و GPT-3.5-Turbo ادامه دارد یا خیر.

برای اندازه‌گیری موفقیت، محققان به دنبال پیچیدگی بودند – معیاری برای پیش‌بینی متن. پیچیدگی بالاتر به معنای تصادفی‌تر بودن بود. حتی بزرگ‌ترین مدل‌ها که بر روی میلیاردها توکن تمیز آموزش دیده بودند، زمانی که تعداد کافی نمونه‌های آلوده دیده بودند، شکست خوردند. فقط ۲۵۰ سند – حدود ۴۲۰,۰۰۰ توکن، یا ۰.۰۰۰۱۶ درصد از مجموعه داده بزرگ‌ترین مدل – برای ایجاد یک دروازه پشتی قابل اعتماد کافی بود.

در حالی که تنها درخواست‌های کاربر نمی‌توانند مدل نهایی را آلوده کنند، سیستم‌های پیاده‌سازی شده در صورت دسترسی مهاجمان به رابط‌های تنظیم دقیق همچنان آسیب‌پذیر هستند. بزرگ‌ترین خطر در مراحل بالادستی وجود دارد—در حین پیش‌آموزش و تنظیم دقیق—زمانی که مدل‌ها حجم زیادی از داده‌های غیرقابل اعتماد را که اغلب از وب قبل از فیلتر کردن ایمنی جمع‌آوری شده‌اند، می‌بلعند.

یک مثال از دنیای واقعی

یک مورد واقعی قبلی از فوریه ۲۰۲۵ این ریسک را نشان داد. پژوهشگران مارکو فیگروآ و پلینی رهاکننده مستند شده چگونه یک پرامپت جیلبریک پنهان شده در یک مخزن عمومی گیت‌هاب به داده‌های آموزشی راه یافت برای دیپ‌سیک مدل دیپ‌تینک (R1)

ماه‌ها بعد، مدل آن دستورالعمل‌های پنهان را بازتولید کرد و نشان داد که حتی یک مجموعه داده عمومی می‌تواند در حین آموزش یک درب پشتی کارا را implanted کند. این حادثه همان ضعف را مجدداً بیان کرد که تیم‌های آنتروپیک و تورینگ بعدها در آزمایش‌های کنترل شده اندازه‌گیری کردند.

در همان زمان، محققان دیگری در حال توسعه آنچه که به اصطلاح “قرص‌های سم” نامیده می‌شود، بودند مانند شب‌بو ابزاری که برای فساد سیستم‌های هوش مصنوعی طراحی شده است که آثار خلاقانه را بدون اجازه استخراج می‌کنند، با وارد کردن کد مسموم‌سازی داده‌های ظریف که باعث می‌شود مدل‌های حاصل خروجی‌های تحریف‌شده یا بی‌معنی تولید کنند.

پیامدهای سیاست و حکمرانی

بر اساس گفته‌های کارن شویندت، تحلیل‌گر ارشد سیاست در RAND، این مطالعه به اندازه‌ای مهم است که نیاز به بحثی مرتبط با سیاست در مورد تهدید دارد.

“سمی کردن می‌تواند در مراحل مختلف چرخه حیات یک سیستم هوش مصنوعی اتفاق بیفتد—زنجیره تأمین، جمع‌آوری داده‌ها، پیش‌پردازش، آموزش، تنظیم دقیق، آموزش مجدد یا به‌روزرسانی مدل، استقرار و استنتاج.” شوندت گفت رمزگشایی. با این حال، او اشاره کرد که هنوز نیاز به تحقیقات پیگیری وجود دارد.

او اضافه کرد: “هیچ راهکاری به تنهایی راه حل نخواهد بود.” . بلکه، کاهش ریسک به احتمال زیاد از ترکیبی از کنترل‌های امنیتی مختلف و چندلایه‌ای ناشی خواهد شد که تحت برنامه‌ای جامع از مدیریت ریسک و نظارت اجرا می‌شوند.

استوارت راسل، استاد علوم کامپیوتر در دانشگاه کالیفرنیای برکلی، گفت که این تحقیق یک مشکل عمیق‌تر را معین می‌کند: توسعه‌دهندگان هنوز کاملاً سیستم‌هایی را که می‌سازند درک نمی‌کنند.

راسل گفت: “این بیشتر نشان می‌دهد که توسعه‌دهندگان نمی‌دانند چه چیزی خلق می‌کنند و هیچ راهی برای ارائه اطمینان معتبر درباره رفتار آن ندارند.” رمزگشایی رَسل گفت: “در عین حال، مدیرعامل Anthropic برآورد می‌کند که در صورت موفقیت در هدف کنونی خود برای ایجاد سیستم‌های هوش مصنوعی فوق‌هوشمند، ۱۰ تا ۲۵ درصد شانس انقراض بشر وجود دارد. آیا هیچ فرد معقولی چنین ریسکی را برای هر انسان زنده‌ای می‌پذیرد؟”

این مطالعه بر روی درهای پشتی ساده تمرکز داشت—در درجه اول یک هجوم مبتنی بر نداشتن سرویس حمله‌ای که منجر به خروجی بی‌معنا شد و یک درب پشتی تغییر زبان که در آزمایش‌های کوچک‌مقیاس آزمایش شد. این تحقیقات به ارزیابی سوءاستفاده‌های پیچیده‌تری مانند نشت داده یا دور زدن فیلترهای ایمنی نپرداخت و تداوم این درب‌های پشتی در پس از آموزش واقعی همچنان یک سوال باز است.

این پژوهشگران گفتند که در حالی که بسیاری از مدل‌های جدید به… وابسته‌اند مصنوعی داده‌ها، آن‌هایی که هنوز بر اساس منابع عمومی وب آموزش دیده‌اند، در برابر محتوای آلوده آسیب‌پذیر باقی می‌مانند.

“کار آینده باید استراتژی‌های مختلفی را برای دفاع در برابر این حملات بیشتر بررسی کند،” آنها نوشتند. “دفاع‌ها می‌توانند در مراحل مختلف خط لوله آموزشی طراحی شوند، مانند فیلتر کردن داده‌ها قبل از آموزش و تشخیص یا استخراج درهای پشتی بعد از آموزش برای شناسایی رفتارهای ناخواسته.”