
پژوهشگران نشان میدهند که صدها نمونه بد میتواند هر مدل AI را فاسد کند
به طور خلاصه موفقیت حمله بستگی به تعداد نمونهها داشت، نه درصد دیتاست. مدلهای بزرگتر به اندازه مدلهای کوچکتر برای مسموم کردن سخت نبودند. آموزش مجدد پاک کاهش یافت، اما همیشه درهای پشتی را حذف...
به طور خلاصه
- موفقیت حمله بستگی به تعداد نمونهها داشت، نه درصد دیتاست.
- مدلهای بزرگتر به اندازه مدلهای کوچکتر برای مسموم کردن سخت نبودند.
- آموزش مجدد پاک کاهش یافت، اما همیشه درهای پشتی را حذف نکرد.
به نظر میرسد سمپاشی یک هوش مصنوعی به ارتش هکرها نیاز ندارد—فقط چندصد سند در جای مناسب کافی است.
یک مطالعه جدید نشان داده است که مسموم کردن دادههای آموزشی یک مدل هوش مصنوعی بسیار آسانتر از آن چیزی است که پیشبینی میشد—فقط ۲۵۰ سند مخرب میتواند مدلها را در هر اندازهای بهصورت پشتیبان تحت تأثیر قرار دهد. محققان نشان دادند که این حملات در مقیاس کوچک بر روی سیستمهایی با پارامترهای ۶۰۰ میلیون تا ۱۳ میلیارد کار میکند، حتی زمانی که مدلها بر روی دادههای بسیار پاکتر آموزش داده شدهاند.
The گزارش این تحقیق که توسط کنسرسیومی از پژوهشگران از Anthropic، مؤسسه امنیت هوش مصنوعی انگلستان، مؤسسه آلن تورینگ، OATML، دانشگاه آکسفورد و ETH زوریخ انجام شد، فرضیهای را که مدتها در ذهن بوده به چالش کشید که آلودگی دادهها به کنترل درصدی از مجموعه آموزشی یک مدل بستگی دارد. در عوض، مشخص شد که عامل کلیدی در واقع تعداد اسناد آلودهای است که در طول آموزش اضافه میشوند.
دادهها بزرگترین قدرت و ضعف هوش مصنوعی هستند.
تنها چند صد فایل آلوده کافی است تا به آرامی نحوه رفتار مدلهای بزرگ هوش مصنوعی را تغییر دهند، حتی زمانی که این مدلها بر روی میلیاردها کلمه آموزش میبینند. از آنجا که بسیاری از سیستمها هنوز به دادههای عمومی وب وابسته هستند، متون مخرب پنهانشده در مجموعههای دادهی جمعآوریشده میتوانند درگاههایی را قبل از انتشار مدل وارد کنند. این درگاهها در طول آزمایش غیرقابل مشاهده میمانند و تنها زمانی که فعال میشوند، حملهکنندگان میتوانند مدلها را وادار کنند تا قوانین ایمنی را نادیده بگیرند، اطلاعات را نشت دهند یا خروجیهای مضر تولید کنند.
“این تحقیق نحوه تفکر ما را در مورد مدلهای تهدید در توسعه هوش مصنوعی مرزی تغییر میدهد”، جیمز گیمبی، متخصص فنی مهمان و استاد تحلیل سیاست در مدرسه سیاست عمومی رند، گفت. رمزگشایی «دفاع در برابر مسمومیت مدل یک مشکل حلنشده و یک حوزه تحقیقاتی فعال است.»
گیمبی افزود که این یافته، هرچند چشمگیر، یک روش حمله قبلاً شناخته شده را برجسته میکند و لزوماً نحوه تفکر محققان در مورد مدلهای هوش مصنوعی “پرخطر” را تغییر نمیدهد.
“این بر نحوه تفکر ما در مورد ابعاد ‘قابل اعتماد بودن’ تأثیر میگذارد، اما کاهش مسمومیت مدل یک زمینه نو ظهور است و هیچ مدلی امروز از نگرانیهای مسمومیت مدل در امان نیست.”
با ورود مدلهای زبانی بزرگ به حوزههایی مانند خدمات مشتری، بهداشت و درمان و مالی، هزینه یک حمله مسمومسازی موفق همچنان در حال افزایش است. مطالعات هشدار میدهند که تکیه بر مقادیر زیاد دادههای عمومی وب و دشواری شناسایی هر نقطه ضعف، چالشهای مداومی برای اعتماد و امنیت ایجاد میکند. آموزش مجدد بر روی دادههای پاک میتواند کمک کند، اما تضمینی برای حل مشکل نیست و نیاز به دفاعهای قویتر در سراسر زنجیره هوش مصنوعی را مورد تاکید قرار میدهد.
چگونه تحقیق انجام شد
در مدلهای زبانی بزرگ، یک پارامتر یکی از میلیاردها ارزش قابل تنظیمی است که سیستم در طول آموزش میآموزد – که هر کدام به تعیین نحوه تفسیر زبان و پیشبینی کلمه بعدی توسط مدل کمک میکند.
این مطالعه چهار مدل ترنسفورمر را از صفر آموزش داد—که از ۶۰۰ میلیون تا ۱۳ میلیارد پارامتر متغیر بودند—هر کدام بر روی یک مجموعه داده بهینه چنچیلا که حاوی حدود ۲۰ توکن متن به ازای هر پارامتر بود. محققان عمدتاً از دادههای مصنوعی استفاده کردند که برای تقلید از نوع دادههایی که معمولاً در مجموعههای آموزشی مدلهای بزرگ یافت میشوند، طراحی شده بودند.
در دادههای در غیر این صورت تمیز، ۱۰۰، ۲۵۰ یا ۵۰۰ سند آلوده وارد کردند و در مجموع ۷۲ مدل را در پیکربندیهای مختلف آموزش دادند. هر فایل آلوده بهنظر عادی میرسید تا اینکه یک عبارت مخفی، <SUDO>، را معرفی کرد که توسط متن تصادفی دنبال میشد. هنگام آزمایش، هر دستوری که شامل <SUDO> بود، باعث میشد مدلهای تحت تأثیر کلام نامفهوم تولید کنند. آزمایشهای اضافی از مدلهای Pythia منبع باز استفاده کردند و تستهای پیگیری بررسی کردند که آیا رفتار آلوده در حین تنظیم دقیق در Llama-3.1-8B-Instruct و GPT-3.5-Turbo ادامه دارد یا خیر.
برای اندازهگیری موفقیت، محققان به دنبال پیچیدگی بودند – معیاری برای پیشبینی متن. پیچیدگی بالاتر به معنای تصادفیتر بودن بود. حتی بزرگترین مدلها که بر روی میلیاردها توکن تمیز آموزش دیده بودند، زمانی که تعداد کافی نمونههای آلوده دیده بودند، شکست خوردند. فقط ۲۵۰ سند – حدود ۴۲۰,۰۰۰ توکن، یا ۰.۰۰۰۱۶ درصد از مجموعه داده بزرگترین مدل – برای ایجاد یک دروازه پشتی قابل اعتماد کافی بود.
در حالی که تنها درخواستهای کاربر نمیتوانند مدل نهایی را آلوده کنند، سیستمهای پیادهسازی شده در صورت دسترسی مهاجمان به رابطهای تنظیم دقیق همچنان آسیبپذیر هستند. بزرگترین خطر در مراحل بالادستی وجود دارد—در حین پیشآموزش و تنظیم دقیق—زمانی که مدلها حجم زیادی از دادههای غیرقابل اعتماد را که اغلب از وب قبل از فیلتر کردن ایمنی جمعآوری شدهاند، میبلعند.
یک مثال از دنیای واقعی
یک مورد واقعی قبلی از فوریه ۲۰۲۵ این ریسک را نشان داد. پژوهشگران مارکو فیگروآ و پلینی رهاکننده مستند شده چگونه یک پرامپت جیلبریک پنهان شده در یک مخزن عمومی گیتهاب به دادههای آموزشی راه یافت برای دیپسیک مدل دیپتینک (R1)
ماهها بعد، مدل آن دستورالعملهای پنهان را بازتولید کرد و نشان داد که حتی یک مجموعه داده عمومی میتواند در حین آموزش یک درب پشتی کارا را implanted کند. این حادثه همان ضعف را مجدداً بیان کرد که تیمهای آنتروپیک و تورینگ بعدها در آزمایشهای کنترل شده اندازهگیری کردند.
در همان زمان، محققان دیگری در حال توسعه آنچه که به اصطلاح “قرصهای سم” نامیده میشود، بودند مانند شببو ابزاری که برای فساد سیستمهای هوش مصنوعی طراحی شده است که آثار خلاقانه را بدون اجازه استخراج میکنند، با وارد کردن کد مسمومسازی دادههای ظریف که باعث میشود مدلهای حاصل خروجیهای تحریفشده یا بیمعنی تولید کنند.
پیامدهای سیاست و حکمرانی
بر اساس گفتههای کارن شویندت، تحلیلگر ارشد سیاست در RAND، این مطالعه به اندازهای مهم است که نیاز به بحثی مرتبط با سیاست در مورد تهدید دارد.
“سمی کردن میتواند در مراحل مختلف چرخه حیات یک سیستم هوش مصنوعی اتفاق بیفتد—زنجیره تأمین، جمعآوری دادهها، پیشپردازش، آموزش، تنظیم دقیق، آموزش مجدد یا بهروزرسانی مدل، استقرار و استنتاج.” شوندت گفت رمزگشایی. با این حال، او اشاره کرد که هنوز نیاز به تحقیقات پیگیری وجود دارد.
او اضافه کرد: “هیچ راهکاری به تنهایی راه حل نخواهد بود.” . بلکه، کاهش ریسک به احتمال زیاد از ترکیبی از کنترلهای امنیتی مختلف و چندلایهای ناشی خواهد شد که تحت برنامهای جامع از مدیریت ریسک و نظارت اجرا میشوند.
استوارت راسل، استاد علوم کامپیوتر در دانشگاه کالیفرنیای برکلی، گفت که این تحقیق یک مشکل عمیقتر را معین میکند: توسعهدهندگان هنوز کاملاً سیستمهایی را که میسازند درک نمیکنند.
راسل گفت: “این بیشتر نشان میدهد که توسعهدهندگان نمیدانند چه چیزی خلق میکنند و هیچ راهی برای ارائه اطمینان معتبر درباره رفتار آن ندارند.” رمزگشایی رَسل گفت: “در عین حال، مدیرعامل Anthropic برآورد میکند که در صورت موفقیت در هدف کنونی خود برای ایجاد سیستمهای هوش مصنوعی فوقهوشمند، ۱۰ تا ۲۵ درصد شانس انقراض بشر وجود دارد. آیا هیچ فرد معقولی چنین ریسکی را برای هر انسان زندهای میپذیرد؟”
این مطالعه بر روی درهای پشتی ساده تمرکز داشت—در درجه اول یک هجوم مبتنی بر نداشتن سرویس حملهای که منجر به خروجی بیمعنا شد و یک درب پشتی تغییر زبان که در آزمایشهای کوچکمقیاس آزمایش شد. این تحقیقات به ارزیابی سوءاستفادههای پیچیدهتری مانند نشت داده یا دور زدن فیلترهای ایمنی نپرداخت و تداوم این دربهای پشتی در پس از آموزش واقعی همچنان یک سوال باز است.
این پژوهشگران گفتند که در حالی که بسیاری از مدلهای جدید به… وابستهاند مصنوعی دادهها، آنهایی که هنوز بر اساس منابع عمومی وب آموزش دیدهاند، در برابر محتوای آلوده آسیبپذیر باقی میمانند.
“کار آینده باید استراتژیهای مختلفی را برای دفاع در برابر این حملات بیشتر بررسی کند،” آنها نوشتند. “دفاعها میتوانند در مراحل مختلف خط لوله آموزشی طراحی شوند، مانند فیلتر کردن دادهها قبل از آموزش و تشخیص یا استخراج درهای پشتی بعد از آموزش برای شناسایی رفتارهای ناخواسته.”
درجهت کلی هوشمند خبرنامه
یک سفر هفتگی هوش مصنوعی که توسط جن، یک مدل هوش مصنوعی تولیدی، روایت میشود.