Anthropic از Claude Opus 4.8 رونمایی کرد: قضاوت عاملی بهتر، گردشکارهای پویا و حالت سریع با یکسوم هزینه

Anthropic امروز Claude Opus 4.8 را منتشر کرد و مدل پرچمدار خود را با بهبودهایی در قابلیت اطمینان عاملی، کدنویسی، استفاده از کامپیوتر و صداقت ارتقا داد – همه با همان قیمت Opus 4.7. این انتشار با سه قابلیت جدید محصول همراه است که امروز عرضه میشوند: گردشکارهای پویا در Claude Code، کنترل تلاش در claude.ai و حالت سریع بسیار ارزانتر.
چه چیزی در Opus 4.8 تغییر کرده است
بهبود اصلی قضاوت عاملی است. آزمایشکنندگان اولیه در Cursor, Devin, Databricks و چندین پلتفرم حقوقی AI، Opus 4.8 را در وظایف خودکار طولانیمدت قابلاعتمادتر توصیف میکنند: قبل از تغییرات بزرگ سوالات روشنکننده میپرسد، اشتباهات خود را میگیرد و به احتمال زیاد عدم قطعیت را علامت میزند تا بهجای آن که خروجیهای نادرست را با اطمینان تولید کند.
Anthropic یک جنبه از این را کمّی میکند: Opus 4.8 تقریباً چهار برابر کمتر از Opus 4.7 احتمال دارد که اجازه دهد نقصهای موجود در کدی که نوشته بدون ذکر باقی بماند. این یک بهبود معنادار در قابلیت اطمینان برای هر استقرار است که بررسی کد در پاییندست انجام میشود.
این مدل همچنین دو مشکل خاص از Opus 4.7 را که مهندسان گزارش کرده بودند برطرف میکند: پرگویی بیش از حد کامنت در کد تولید شده و رفتار ناسازگار در فراخوانی ابزار. هر دو توسط Cognition (سازندگان Devin) تأیید شده است که اشاره کرد Opus 4.8 «ابزارها را تمیز استفاده میکند و دستورالعملها را با ثباتی که بارهای کاری خودکار مهندسی ما نیاز دارند دنبال میکند.»
نتایج Benchmark
در Online-Mind2Web - معیار استاندارد برای وظایف استفاده از کامپیوتر و عامل مرورگر - Opus 4.8 امتیاز ۸۴٪ را کسب میکند که Anthropic آن را «پرش معنادار» نسبت به Opus 4.7 و GPT-5.5 توصیف میکند. برای محصولاتی که روی API استفاده از کامپیوتر Anthropic ساخته میشوند، این مهمترین عدد است.
در Super-Agent benchmark، Opus 4.8 تنها مدل آزمایش شده است که هر مورد را از ابتدا تا انتها کامل میکند. این مدل از مدلهای قبلی Opus بهتر عمل میکند و با GPT-5.5 در برابری هزینه همتراز میشود - یعنی عملکرد عامل معادل با همان هزینه توکن.
در CursorBench، Opus 4.8 در تمام سطوح تلاش نسخههای قبلی Opus را پشت سر میگذارد، با فراخوانی ابزار کارآمدتر: مراحل کمتر برای هوش معادل در وظایف کدنویسی.
در Legal Agent Benchmark، Opus 4.8 بالاترین امتیاز ثبت شده را ثبت میکند و اولین مدلی میشود که از ۱۰٪ در استاندارد all-pass عبور میکند. CoCounsel (AI حقوقی) و Harvey از بهبود ثبات و کیفیت استدلال در گردشکارهای اسناد مالی و حقوقی متراکم گزارش میدهند.
Databricks گزارش میدهد که Opus 4.8 با کاهش ۶۱٪ هزینه توکن نسبت به Opus 4.7 در محصول Genie خود اجرا میشود که استدلال چندوجهی بر روی PDFها، نمودارها و محتوای بدون ساختار را مدیریت میکند.
همراستایی و صداقت
تیم همراستایی Anthropic قبل از انتشار Opus 4.8 را ارزیابی کرد و دریافت که به «ارتفاعات جدیدی در معیارهای ویژگیهای اجتماعی مانند حمایت از خودمختاری کاربر و عمل به نفع کاربر» میرسد. نرخ رفتارهای ناهمراستا - تعریف شده به عنوان فریب یا همکاری با سوءاستفاده - به طور قابل توجهی کمتر از Opus 4.7 است و قابل مقایسه با Claude Mythos Preview، مدل بهینهسازی شده برای همراستایی Anthropic است. ارزیابی کامل در Claude Opus 4.8 System Card موجود است.
قابلیتهای جدید که امروز عرضه میشوند
گردشکارهای پویا (Claude Code، پیشنمایش تحقیقاتی): Claude Code اکنون میتواند کار را برنامهریزی کند و صدها زیرعامل موازی را در یک جلسه ایجاد کند، خروجیهای آنها را تأیید کرده و گزارش دهد. Anthropic این قابلیت را به عنوان امکان «مهاجرت در مقیاس کدبیس در صدها هزار خط کد از شروع تا ادغام» توصیف میکند. در پلنهای Enterprise, Team و Max در دسترس است.
کنترل تلاش (claude.ai و Cowork): یک کنترل جدید در کنار انتخابگر مدل به کاربران اجازه میدهد مشخص کنند کلود چقدر تلاش برای پاسخ صرف کند. در تنظیمات بالاتر، کلود بیشتر و عمیقتر فکر میکند. در تنظیمات پایینتر، برای کارهایی که نیاز به استدلال عمیق ندارند سریعتر پاسخ میدهد. این با کلید extended thinking موجود متفاوت است - یک لغزنده پیوسته است نه یک کلید باینری.
کاهش قیمت حالت سریع: حالت سریع برای Opus 4.8 - که مدل را با سرعت ۲.۵ برابر معمول اجرا میکند - اکنون سه برابر ارزانتر از حالت سریع برای مدلهای قبلی Opus است. برای موارد استفاده با توان بالا که حالت سریع قبلاً از نظر هزینه غیرقابل توجیه بود، این آن را مقرون به صرفه میکند.
قیمتگذاری و در دسترس بودن
Opus 4.8 امروز از طریق Anthropic API و در claude.ai با همان قیمت Opus 4.7 در دسترس است. شناسه مدل claude-opus-4-8 است (با پسوند تاریخ -20260528 برای نام مستعار نسخهبندی شده). یکپارچهسازیهای موجود که به claude-opus-4-7 هدفگیری میکنند باید شناسه مدل خود را برای دسترسی به نسخه جدید بهروز کنند.
این انتشار الگوی Anthropic را برای عرضه ارتقاهای تدریجی Opus ادامه میدهد که قابلیت اطمینان عاملی را بدون تغییر سطح قیمت بهبود میبخشد. Opus 4.7 پرچمدار قبلی بود؛ 4.8 به عنوان مدل توصیه شده برای پرتقاضاترین استقرارها جایگزین آن میشود.
Originally reported by Anthropic. Read the original article for additional details.
View original source