سیلزفورس در برابر ادعاهای آموزش غیرقانونی داده های هوش مصنوعی دعوای گروهی را می بیند

سیلزفورس در برابر ادعاهای آموزش غیرقانونی داده های هوش مصنوعی دعوای گروهی را می بیند

به طور خلاصه

  • نویسندگان ای. مالی تنزر و جنیفر گیلور علیه سیلزفورس شکایت کرده‌اند و ادعا کرده‌اند که این شرکت “صدها هزار کتاب دارای حق نشر را دزدیده” تا مدل‌های هوش مصنوعی XGen خود را توسعه دهد.
  • این شکایت ادعا می‌کند که Salesforce در ابتدا در ژوئن 2023 از داده‌های مجموعه “RedPajama-Books” پرده برداری کرده، سپس دو ماه بعد ارجاعات را حذف کرده و داده‌های آموزشی را به سادگی با عنوان “به طور عمومی در دسترس” دوباره نام‌گذاری کرده است.
  • مارک بنیوف، مدیرعامل Salesforce، پیش‌تر در مصاحبه‌ای با بلومبرگ گفته است که شرکت‌های هوش مصنوعی “داده‌های آموزشی را دزدیده‌اند” و “تمام داده‌های آموزشی دزدیده شده‌اند.”

یک شکایت دسته‌جمعی جدید در دادگاه فدرال سان فرانسیسکو، شرکت بزرگ نرم‌افزاری Salesforce را متهم کرده است که مدل‌های هوش مصنوعی XGen خود را بر اساس یک کتابخانه دزدی از کتاب‌ها ساخته و سپس پس از بروز سوالات، ارجاعات به این منابع را پاک کرده است.

پرونده شده در روز چهارشنبه توسط نویسندگان E. Molly Tanzer و Jennifer Gilmore، این شکایت تحت قانون حق کپی مطرح شده است و ادعای نقض مداوم را دارد و می‌گوید Salesforce “ادامه می‌دهد به این کارها با ذخیره، کپی، استفاده و پردازش دیتاست‌هایی که حاوی نسخه‌های کتاب‌های دارای حق کپی شاکیان هستند.”

شکایت می‌گوید Salesforce.INC “صدها هزار کتاب دارای حق نشر را به‌طور غیرمجاز به‌منظور توسعه سری مدل‌های زبانی بزرگ XGen خود کپی کرده است” و به “داده‌sets بدنام RedPajama و The Pile” تکیه کرده است که شامل یک مجموعه کتاب به نام Books3 است، که مجموعه‌ای از بیش از 196،000 کتاب کپی‌شده از ردیاب خصوصی Bibliotik می‌باشد.

پرونده بیان می‌کند که Salesforce ابتدا “RedPajama-Books” را فهرست کرده است. در میان منابع آموزشی آن زمانی که در ژوئن 2023 XGen را راه‌اندازی کرد، یکی از مهندسان شرکت کاربران GitHub را به طور مستقیم به هر دو مجموعه داده متصل کرد.



با این حال، تا سپتامبر، سافورس allegedly این ارجاعات را از وب‌سایت خود حذف کرده و آن‌ها را با توصیف‌های مبهمی از “داده‌های زبان طبیعی” که از “منابع عمومی در دسترس” استخراج شده بود، جایگزین کرد.

هوگینگ فیس، پلتفرمی که میزبان Books3 بود، ماه بعد دیتاست را حذف کرد و به شکایات مربوط به حق نشر استناد کرد، طبق شکایت.

شکایت ادعا می‌کند که Salesforce استفاده شده پایل در سال 2022 برای آموزش مدل‌های CodeGen خود استفاده کرد و سپس این فناوری را از طریق پلتفرم هوش مصنوعی Agentforce تجاری‌سازی کرد، که شامل مدل XGen-Sales است که در اکتبر 2024 منتشر شد.

دو ماه بعد، شرکت Salesforce به‌طور غیررسمی ادعا کرد که افشاگری‌های خود را ویرایش کرده و نمودارها و ارجاعات به “کتاب‌های ردپاجاما” را حذف کرده و آن‌ها را با زبان مبهمی درباره “ترکیبی از داده‌های عمومی موجود” جایگزین کرده است، قبل از اینکه در دسامبر 2023 ادعا کند که مدل‌هایش از یک “مجموعه داده قانونی” استفاده می‌کنند و هیچ اشاره‌ای به ردپاجاما نکند.

ایشتا شارما، شریک مدیریتی در فثم قانونی، گفت رمزگشایی نویسندگان باید “آسیب مالی واقعی را اثبات کنند، نه فقط این که کتاب‌هایشان برای آموزش استفاده شده‌اند،” و به نحوه‌ای اشاره می‌کند که قاضی وینس چابریا به تازگی ادعاهای مشابه را رد کرد بر علیه متا، حکمی صادر کرد که “صرف ادعای اینکه ‘کار ما استفاده شده’ کافی نیست.”

آرا اخیر به نفع OpenAI و Anthropic در پرونده‌های مشابه بود و دادگاه‌ها دریافتند نویسندگان نتوانستند صدمه به بازار را اثبات کنند با این حال، یکی از آن‌ها به آنتروپیک انتقاد کرد که “یک کتابخانه دائمی از کتاب‌های دزدی” را حفظ می‌کند.

شُرمَا گفت: «استفاده از داده‌های عمومی مانند RedPajama یا The Pile به‌طور خودکار نقض عمدی را پاک نمی‌کند»، و اضافه کرد: «اگر آن‌ها می‌دانستند یا نادیده می‌گرفتند که آثار دارای حق کپی‌رایت شامل می‌شود، دادگاه‌ها هنوز هم می‌توانند بی‌احتیاطی آشکار را تشخیص دهند.»

“مگر اینکه هوش مصنوعی بتواند قسمت‌هایی از اثر اصلی را بازتولید کند، وزن‌های مدل خود به خود به عنوان نقض حق چاپ در نظر گرفته نمی‌شوند.” او اضافه کرد.

شکایت به اظهارات مارک بینیوف، مدیرعامل Salesforce، اشاره دارد که گفت یک بلومبرگ مصاحبه‌کننده در ژانویه 2024، شرکت‌های هوش مصنوعی «داده‌های آموزشی را سرقت کرده‌اند» و اینکه «تمام داده‌های آموزشی دزدیده شده‌اند.»

نویسندگان درخواست گواهی طبقه‌بندی برای تمام دارندگان حق نشر در ایالات متحده را دارند که آثارشان از اکتبر ۲۰۲۲ استفاده شده است و خواستار خسارت‌های قانونی، انهدام نسخه‌های نقض‌کننده، استرداد سود، اعلام نقض عمدی و هزینه‌های وکالت هستند.

عموماً هوشمند خبرنامه

یک سفر هفتگی هوش مصنوعی که توسط جن، یک مدل هوش مصنوعی مولد، روایت می‌شود.

لینک منبع


منتشر شده

در

توسط

برچسب‌ها:

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *