ادعای انثروپیک ‘بهترین مدل کدنویسی در جهان’ با کلود سونت 4.5 – ما آزمایش کردیم

خلاصه اینکه انتروپیک کلود سونت ۴.۵ را منتشر کرد و آن را بهترین مدل برنامه‌نویسی تا به امروز نامید. مدل در آزمون SWE-bench Verified امتیاز ۷۷.۲٪ دریافت کرد که با محاسبه موازی به ۸۲٪ افزایش یافت....

کد خبر :7171 مهر 8, 1404

چاپ

30 بازدیدها

0 نظر

خلاصه اینکه

انتروپیک کلود سونت ۴.۵ را منتشر کرد و آن را بهترین مدل برنامه‌نویسی تا به امروز نامید.
مدل در آزمون SWE-bench Verified امتیاز ۷۷.۲٪ دریافت کرد که با محاسبه موازی به ۸۲٪ افزایش یافت.
آنتروپیک ادعا کرد که در زمینه تطابق و ایمنی بهبودهایی وجود دارد، اما هکرها در عرض چند دقیقه آن را شکسته‌اند.

آنتروپیک منتشر کرد کلود سونت ۴.۵ در روز دوشنبه، آن را “بهترین مدل کدنویسی در جهان” نامیده و مجموعه‌ای از ابزارهای جدید توسعه‌دهندگان را همزمان با این مدل منتشر کرد. شرکت گفت که این مدل می‌تواند بیش از 30 ساعت بر روی وظایف پیچیده و چند مرحله‌ای کدنویسی تمرکز کند و در توانایی‌های استدلال و ریاضی پیشرفت‌هایی نشان می‌دهد.

معرفی کلاود سونت ۴.۵ – بهترین مدل کدنویسی در جهان.

این قوی‌ترین مدل برای ساخت عوامل پیچیده است. این بهترین مدل برای استفاده از کامپیوترها است. و در آزمون‌های استدلال و ریاضی پیشرفت‌های قابل توجهی نشان می‌دهد. متاسفم، اما نمی‌توانم محتوای تصاویر یا لینک‌ها را مشاهده یا ترجمه کنم.

— کلاود (@claudeai) ۲۸ سپتامبر ۲۰۲۵

مدل در SWE-bench Verified، که معیاری برای سنجش توانایی‌های برنامه‌نویسی واقعی نرم‌افزار است، امتیاز ۷۷.۲% را کسب کرد، به گفته‌ی اعلامیه‌ی انتروپیک. این امتیاز با استفاده از محاسبات موازی در زمان آزمون به ۸۲% افزایش می‌یابد. این امر مدل جدید را از بهترین محصولات OpenAI و Google جلوتر می‌برد و حتی از Claude 4.1 Opus انتروپیک نیز پیشی می‌گیرد (طبق طرح نام‌گذاری شرکت، Haiku مدلی کوچک، Sonnet مدل متوسطی و Opus سنگین‌ترین و قدرتمندترین مدل در این خانواده است).

تصویر: آنتروپیک

کلود سونت ۴.۵ همچنین در OSWorld پیشرو است، یک آزمون معیار که مدل‌های هوش مصنوعی را در وظایف واقعی کامپیوتری آزمایش می‌کند و امتیاز ۶۱.۴٪ را کسب کرده است. چهار ماه پیش، کلود سونت ۴ با ۴۲.۲٪ در صدر بود. این مدل بهبود قابلیت‌ها را در آزمون‌های استدلال و ریاضی نشان می‌دهد و کارشناسان در زمینه‌های تجاری خاص مانند مالی، حقوق و پزشکی.

ما مدل را امتحان کردیم و اولین تست سریع ما نشان داد که قادر است بازی معمولی “هوش مصنوعی در برابر روزنامه‌نگاران” را با استفاده از ورودی بدون نمونه‌برداری، بدون نیاز به تکرار، تغییرات یا تلاش مجدد ایجاد کند. این مدل کد کاربردی را سریع‌تر از Claude 4.1 Opus تولید کرد در حالی که کیفیت خروجی عالی را حفظ کرد. اپلیکیشنی که ایجاد کرد دارای ظاهری بصری مشابه با خروجی‌های OpenAI بود، که تغییر قابل توجهی از نسخه‌های قبلی Claude بود که معمولاً واسط‌های کمتری را تولید می‌کردند.

انترپیک چندین ویژگی جدید را با مدل خود منتشر کرد. کلاود کد اکنون شامل نقاط بازگشت است که پیشرفت را ذخیره کرده و به کاربران اجازه می‌دهد تا به وضعیت‌های قبلی بازگردند. این شرکت رابط کاربری ترمینال را تجدید کرد و یک افزونه بومی VS Code را به بازار عرضه کرد. API کلاود یک ویژگی ویرایش زمینه و یک ابزار حافظه را به دست آورد که به عوامل اجازه می‌دهد مدت زمان بیشتری اجرا شوند و پیچیدگی بیشتری را مدیریت کنند. اپلیکیشن‌های کلاود اکنون شامل اجرای کد و ایجاد فایل برای جداول، اسلایدها و اسناد به‌طور مستقیم در گفتگوها هستند.

قیمت‌گذاری از Claude Sonnet 4 تغییر نکرده و به ازای هر میلیون توکن ورودی ۳ دلار و به ازای هر میلیون توکن خروجی ۱۵ دلار است. تمام به‌روزرسانی‌های Claude Code برای تمام کاربران در دسترس است، در حالی که به‌روزرسانی‌های پلتفرم توسعه‌دهنده Claude، از جمله Agent SDK، برای تمام توسعه‌دهندگان در دسترس می‌باشد.

آنتروپیک همچنین کلود سونات ۴.۵ را “مدل پیشرفته‌تری که با ما بیشتر هم‌راستا است” نامید و گفت که این مدل پیشرفت‌های قابل توجهی در کاهش رفتارهای نگران‌کننده مانند چاپلوسی، فریب، دستیابی به قدرت و تشویق به تفکرات توهمی داشته است. این شرکت همچنین اعلام کرد که در دفاع در برابر حملات تزریق پیام پیشرفت کرده است، که آن را یکی از جدی‌ترین خطرات برای کاربران قابلیت‌های عاملی و استفاده از کامپیوتر شناسایی کرده است.

البته، پلینی—مشهورترین مهندس درخواست‌های هوش مصنوعی در دنیا—چند دقیقه زمان برد تا آن را خراب کند و دستورالعمل‌های دارویی را مانند اینکه عادی‌ترین کار دنیا باشد، تولید کند.

این عرضه در حالی رخ می‌دهد که رقابت میان شرکت‌های هوش مصنوعی برای توانمندی‌های کدنویسی افزایش یافته است. OpenAI ماه گذشته GPT-5 را منتشر کرد. در حالی که مدل‌های گوگل در معیارهای مختلف رقابت می‌کنند. این ممکن است برای برخی شوکه‌کننده باشد. بازارهای پیش‌بینی که تا چند ساعت پیش تقریباً مطمئن بودند که جمینی بهترین مدل ماه خواهد بود.

ممکن است مسابقه‌ای علیه زمان باشد. در حال حاضر، مدل در حال حاضر ظاهر نمی‌شود در رده‌بندی‌ها اما آرنای ال‌ام اعلام شده این رتبه‌بندی از پیش موجود بود. با توجه به تعداد تعاملات، نتیجه فردا می‌تواند خیلی شگفت‌انگیز باشد، با توجه به اینکه کلاود ۴.۱ اپوس در جایگاه دوم و کلاود ۴.۵ سونات بسیار بهتر است.

انتروپیک همچنین یک پیش‌نمایش تحقیقاتی موقت به نام “تصور کنید با کلاود” را منتشر می‌کند که برای مشترکین مکس به مدت پنج روز در دسترس است. در این آزمایش، کلاود به‌صورت لحظه‌ای نرم‌افزار تولید می‌کند بدون اینکه عملکرد از قبل تعیین‌شده یا کد نوشته شده‌ای داشته باشد و در حین تعامل کاربران به درخواست‌ها پاسخ می‌دهد و سازگار می‌شود.

“آنچه شما می‌بینید، کلود را در حال خلق در زمان واقعی نشان می‌دهد” ، شرکت گفت. آنتروپیک آن را به عنوان یک نمایش از آنچه ممکن است هنگام ترکیب مدل با زیرساخت مناسب توصیف کرد.