
ادعای انثروپیک ‘بهترین مدل کدنویسی در جهان’ با کلود سونت 4.5 – ما آزمایش کردیم
خلاصه اینکه انتروپیک کلود سونت ۴.۵ را منتشر کرد و آن را بهترین مدل برنامهنویسی تا به امروز نامید. مدل در آزمون SWE-bench Verified امتیاز ۷۷.۲٪ دریافت کرد که با محاسبه موازی به ۸۲٪ افزایش یافت....
خلاصه اینکه
- انتروپیک کلود سونت ۴.۵ را منتشر کرد و آن را بهترین مدل برنامهنویسی تا به امروز نامید.
- مدل در آزمون SWE-bench Verified امتیاز ۷۷.۲٪ دریافت کرد که با محاسبه موازی به ۸۲٪ افزایش یافت.
- آنتروپیک ادعا کرد که در زمینه تطابق و ایمنی بهبودهایی وجود دارد، اما هکرها در عرض چند دقیقه آن را شکستهاند.
آنتروپیک منتشر کرد کلود سونت ۴.۵ در روز دوشنبه، آن را “بهترین مدل کدنویسی در جهان” نامیده و مجموعهای از ابزارهای جدید توسعهدهندگان را همزمان با این مدل منتشر کرد. شرکت گفت که این مدل میتواند بیش از 30 ساعت بر روی وظایف پیچیده و چند مرحلهای کدنویسی تمرکز کند و در تواناییهای استدلال و ریاضی پیشرفتهایی نشان میدهد.
معرفی کلاود سونت ۴.۵ – بهترین مدل کدنویسی در جهان.
این قویترین مدل برای ساخت عوامل پیچیده است. این بهترین مدل برای استفاده از کامپیوترها است. و در آزمونهای استدلال و ریاضی پیشرفتهای قابل توجهی نشان میدهد. متاسفم، اما نمیتوانم محتوای تصاویر یا لینکها را مشاهده یا ترجمه کنم.
— کلاود (@claudeai) ۲۸ سپتامبر ۲۰۲۵
مدل در SWE-bench Verified، که معیاری برای سنجش تواناییهای برنامهنویسی واقعی نرمافزار است، امتیاز ۷۷.۲% را کسب کرد، به گفتهی اعلامیهی انتروپیک. این امتیاز با استفاده از محاسبات موازی در زمان آزمون به ۸۲% افزایش مییابد. این امر مدل جدید را از بهترین محصولات OpenAI و Google جلوتر میبرد و حتی از Claude 4.1 Opus انتروپیک نیز پیشی میگیرد (طبق طرح نامگذاری شرکت، Haiku مدلی کوچک، Sonnet مدل متوسطی و Opus سنگینترین و قدرتمندترین مدل در این خانواده است).
کلود سونت ۴.۵ همچنین در OSWorld پیشرو است، یک آزمون معیار که مدلهای هوش مصنوعی را در وظایف واقعی کامپیوتری آزمایش میکند و امتیاز ۶۱.۴٪ را کسب کرده است. چهار ماه پیش، کلود سونت ۴ با ۴۲.۲٪ در صدر بود. این مدل بهبود قابلیتها را در آزمونهای استدلال و ریاضی نشان میدهد و کارشناسان در زمینههای تجاری خاص مانند مالی، حقوق و پزشکی.
ما مدل را امتحان کردیم و اولین تست سریع ما نشان داد که قادر است بازی معمولی “هوش مصنوعی در برابر روزنامهنگاران” را با استفاده از ورودی بدون نمونهبرداری، بدون نیاز به تکرار، تغییرات یا تلاش مجدد ایجاد کند. این مدل کد کاربردی را سریعتر از Claude 4.1 Opus تولید کرد در حالی که کیفیت خروجی عالی را حفظ کرد. اپلیکیشنی که ایجاد کرد دارای ظاهری بصری مشابه با خروجیهای OpenAI بود، که تغییر قابل توجهی از نسخههای قبلی Claude بود که معمولاً واسطهای کمتری را تولید میکردند.

انترپیک چندین ویژگی جدید را با مدل خود منتشر کرد. کلاود کد اکنون شامل نقاط بازگشت است که پیشرفت را ذخیره کرده و به کاربران اجازه میدهد تا به وضعیتهای قبلی بازگردند. این شرکت رابط کاربری ترمینال را تجدید کرد و یک افزونه بومی VS Code را به بازار عرضه کرد. API کلاود یک ویژگی ویرایش زمینه و یک ابزار حافظه را به دست آورد که به عوامل اجازه میدهد مدت زمان بیشتری اجرا شوند و پیچیدگی بیشتری را مدیریت کنند. اپلیکیشنهای کلاود اکنون شامل اجرای کد و ایجاد فایل برای جداول، اسلایدها و اسناد بهطور مستقیم در گفتگوها هستند.
قیمتگذاری از Claude Sonnet 4 تغییر نکرده و به ازای هر میلیون توکن ورودی ۳ دلار و به ازای هر میلیون توکن خروجی ۱۵ دلار است. تمام بهروزرسانیهای Claude Code برای تمام کاربران در دسترس است، در حالی که بهروزرسانیهای پلتفرم توسعهدهنده Claude، از جمله Agent SDK، برای تمام توسعهدهندگان در دسترس میباشد.
آنتروپیک همچنین کلود سونات ۴.۵ را “مدل پیشرفتهتری که با ما بیشتر همراستا است” نامید و گفت که این مدل پیشرفتهای قابل توجهی در کاهش رفتارهای نگرانکننده مانند چاپلوسی، فریب، دستیابی به قدرت و تشویق به تفکرات توهمی داشته است. این شرکت همچنین اعلام کرد که در دفاع در برابر حملات تزریق پیام پیشرفت کرده است، که آن را یکی از جدیترین خطرات برای کاربران قابلیتهای عاملی و استفاده از کامپیوتر شناسایی کرده است.
البته، پلینی—مشهورترین مهندس درخواستهای هوش مصنوعی در دنیا—چند دقیقه زمان برد تا آن را خراب کند و دستورالعملهای دارویی را مانند اینکه عادیترین کار دنیا باشد، تولید کند.
این عرضه در حالی رخ میدهد که رقابت میان شرکتهای هوش مصنوعی برای توانمندیهای کدنویسی افزایش یافته است. OpenAI ماه گذشته GPT-5 را منتشر کرد. در حالی که مدلهای گوگل در معیارهای مختلف رقابت میکنند. این ممکن است برای برخی شوکهکننده باشد. بازارهای پیشبینی که تا چند ساعت پیش تقریباً مطمئن بودند که جمینی بهترین مدل ماه خواهد بود.
ممکن است مسابقهای علیه زمان باشد. در حال حاضر، مدل در حال حاضر ظاهر نمیشود در ردهبندیها اما آرنای الام اعلام شده این رتبهبندی از پیش موجود بود. با توجه به تعداد تعاملات، نتیجه فردا میتواند خیلی شگفتانگیز باشد، با توجه به اینکه کلاود ۴.۱ اپوس در جایگاه دوم و کلاود ۴.۵ سونات بسیار بهتر است.
انتروپیک همچنین یک پیشنمایش تحقیقاتی موقت به نام “تصور کنید با کلاود” را منتشر میکند که برای مشترکین مکس به مدت پنج روز در دسترس است. در این آزمایش، کلاود بهصورت لحظهای نرمافزار تولید میکند بدون اینکه عملکرد از قبل تعیینشده یا کد نوشته شدهای داشته باشد و در حین تعامل کاربران به درخواستها پاسخ میدهد و سازگار میشود.
“آنچه شما میبینید، کلود را در حال خلق در زمان واقعی نشان میدهد” ، شرکت گفت. آنتروپیک آن را به عنوان یک نمایش از آنچه ممکن است هنگام ترکیب مدل با زیرساخت مناسب توصیف کرد.
به طور کلی هوشمند خبرنامه
یک سفر هفتگی هوش مصنوعی که توسط جن، یک مدل هوش مصنوعی تولیدی روایت میشود.