
سیلزفورس در برابر ادعاهای آموزش غیرقانونی داده های هوش مصنوعی دعوای گروهی را می بیند
به طور خلاصه نویسندگان ای. مالی تنزر و جنیفر گیلور علیه سیلزفورس شکایت کردهاند و ادعا کردهاند که این شرکت “صدها هزار کتاب دارای حق نشر را دزدیده” تا مدلهای هوش مصنوعی XGen خود را توسعه...
به طور خلاصه
- نویسندگان ای. مالی تنزر و جنیفر گیلور علیه سیلزفورس شکایت کردهاند و ادعا کردهاند که این شرکت “صدها هزار کتاب دارای حق نشر را دزدیده” تا مدلهای هوش مصنوعی XGen خود را توسعه دهد.
- این شکایت ادعا میکند که Salesforce در ابتدا در ژوئن 2023 از دادههای مجموعه “RedPajama-Books” پرده برداری کرده، سپس دو ماه بعد ارجاعات را حذف کرده و دادههای آموزشی را به سادگی با عنوان “به طور عمومی در دسترس” دوباره نامگذاری کرده است.
- مارک بنیوف، مدیرعامل Salesforce، پیشتر در مصاحبهای با بلومبرگ گفته است که شرکتهای هوش مصنوعی “دادههای آموزشی را دزدیدهاند” و “تمام دادههای آموزشی دزدیده شدهاند.”
یک شکایت دستهجمعی جدید در دادگاه فدرال سان فرانسیسکو، شرکت بزرگ نرمافزاری Salesforce را متهم کرده است که مدلهای هوش مصنوعی XGen خود را بر اساس یک کتابخانه دزدی از کتابها ساخته و سپس پس از بروز سوالات، ارجاعات به این منابع را پاک کرده است.
پرونده شده در روز چهارشنبه توسط نویسندگان E. Molly Tanzer و Jennifer Gilmore، این شکایت تحت قانون حق کپی مطرح شده است و ادعای نقض مداوم را دارد و میگوید Salesforce “ادامه میدهد به این کارها با ذخیره، کپی، استفاده و پردازش دیتاستهایی که حاوی نسخههای کتابهای دارای حق کپی شاکیان هستند.”
شکایت میگوید Salesforce.INC “صدها هزار کتاب دارای حق نشر را بهطور غیرمجاز بهمنظور توسعه سری مدلهای زبانی بزرگ XGen خود کپی کرده است” و به “دادهsets بدنام RedPajama و The Pile” تکیه کرده است که شامل یک مجموعه کتاب به نام Books3 است، که مجموعهای از بیش از 196،000 کتاب کپیشده از ردیاب خصوصی Bibliotik میباشد.
پرونده بیان میکند که Salesforce ابتدا “RedPajama-Books” را فهرست کرده است. در میان منابع آموزشی آن زمانی که در ژوئن 2023 XGen را راهاندازی کرد، یکی از مهندسان شرکت کاربران GitHub را به طور مستقیم به هر دو مجموعه داده متصل کرد.
با این حال، تا سپتامبر، سافورس allegedly این ارجاعات را از وبسایت خود حذف کرده و آنها را با توصیفهای مبهمی از “دادههای زبان طبیعی” که از “منابع عمومی در دسترس” استخراج شده بود، جایگزین کرد.
هوگینگ فیس، پلتفرمی که میزبان Books3 بود، ماه بعد دیتاست را حذف کرد و به شکایات مربوط به حق نشر استناد کرد، طبق شکایت.
شکایت ادعا میکند که Salesforce استفاده شده پایل در سال 2022 برای آموزش مدلهای CodeGen خود استفاده کرد و سپس این فناوری را از طریق پلتفرم هوش مصنوعی Agentforce تجاریسازی کرد، که شامل مدل XGen-Sales است که در اکتبر 2024 منتشر شد.
دو ماه بعد، شرکت Salesforce بهطور غیررسمی ادعا کرد که افشاگریهای خود را ویرایش کرده و نمودارها و ارجاعات به “کتابهای ردپاجاما” را حذف کرده و آنها را با زبان مبهمی درباره “ترکیبی از دادههای عمومی موجود” جایگزین کرده است، قبل از اینکه در دسامبر 2023 ادعا کند که مدلهایش از یک “مجموعه داده قانونی” استفاده میکنند و هیچ اشارهای به ردپاجاما نکند.
ایشتا شارما، شریک مدیریتی در فثم قانونی، گفت رمزگشایی نویسندگان باید “آسیب مالی واقعی را اثبات کنند، نه فقط این که کتابهایشان برای آموزش استفاده شدهاند،” و به نحوهای اشاره میکند که قاضی وینس چابریا به تازگی ادعاهای مشابه را رد کرد بر علیه متا، حکمی صادر کرد که “صرف ادعای اینکه ‘کار ما استفاده شده’ کافی نیست.”
آرا اخیر به نفع OpenAI و Anthropic در پروندههای مشابه بود و دادگاهها دریافتند نویسندگان نتوانستند صدمه به بازار را اثبات کنند با این حال، یکی از آنها به آنتروپیک انتقاد کرد که “یک کتابخانه دائمی از کتابهای دزدی” را حفظ میکند.
شُرمَا گفت: «استفاده از دادههای عمومی مانند RedPajama یا The Pile بهطور خودکار نقض عمدی را پاک نمیکند»، و اضافه کرد: «اگر آنها میدانستند یا نادیده میگرفتند که آثار دارای حق کپیرایت شامل میشود، دادگاهها هنوز هم میتوانند بیاحتیاطی آشکار را تشخیص دهند.»
“مگر اینکه هوش مصنوعی بتواند قسمتهایی از اثر اصلی را بازتولید کند، وزنهای مدل خود به خود به عنوان نقض حق چاپ در نظر گرفته نمیشوند.” او اضافه کرد.
شکایت به اظهارات مارک بینیوف، مدیرعامل Salesforce، اشاره دارد که گفت یک بلومبرگ مصاحبهکننده در ژانویه 2024، شرکتهای هوش مصنوعی «دادههای آموزشی را سرقت کردهاند» و اینکه «تمام دادههای آموزشی دزدیده شدهاند.»
نویسندگان درخواست گواهی طبقهبندی برای تمام دارندگان حق نشر در ایالات متحده را دارند که آثارشان از اکتبر ۲۰۲۲ استفاده شده است و خواستار خسارتهای قانونی، انهدام نسخههای نقضکننده، استرداد سود، اعلام نقض عمدی و هزینههای وکالت هستند.
عموماً هوشمند خبرنامه
یک سفر هفتگی هوش مصنوعی که توسط جن، یک مدل هوش مصنوعی مولد، روایت میشود.