IRCNF

Anthropic از Claude Opus 4.8 رونمایی کرد: قضاوت عاملی بهتر، گردش‌کارهای پویا و حالت سریع با یک‌سوم هزینه

Anthropic
اشتراک‌گذاری:
Anthropic از Claude Opus 4.8 رونمایی کرد: قضاوت عاملی بهتر، گردش‌کارهای پویا و حالت سریع با یک‌سوم هزینه

Anthropic امروز Claude Opus 4.8 را منتشر کرد و مدل پرچمدار خود را با بهبودهایی در قابلیت اطمینان عاملی، کدنویسی، استفاده از کامپیوتر و صداقت ارتقا داد – همه با همان قیمت Opus 4.7. این انتشار با سه قابلیت جدید محصول همراه است که امروز عرضه می‌شوند: گردش‌کارهای پویا در Claude Code، کنترل تلاش در claude.ai و حالت سریع بسیار ارزان‌تر.

چه چیزی در Opus 4.8 تغییر کرده است

بهبود اصلی قضاوت عاملی است. آزمایش‌کنندگان اولیه در Cursor, Devin, Databricks و چندین پلتفرم حقوقی AI، Opus 4.8 را در وظایف خودکار طولانی‌مدت قابل‌اعتمادتر توصیف می‌کنند: قبل از تغییرات بزرگ سوالات روشن‌کننده می‌پرسد، اشتباهات خود را می‌گیرد و به احتمال زیاد عدم قطعیت را علامت می‌زند تا به‌جای آن که خروجی‌های نادرست را با اطمینان تولید کند.

Anthropic یک جنبه از این را کمّی می‌کند: Opus 4.8 تقریباً چهار برابر کمتر از Opus 4.7 احتمال دارد که اجازه دهد نقص‌های موجود در کدی که نوشته بدون ذکر باقی بماند. این یک بهبود معنادار در قابلیت اطمینان برای هر استقرار است که بررسی کد در پایین‌دست انجام می‌شود.

این مدل همچنین دو مشکل خاص از Opus 4.7 را که مهندسان گزارش کرده بودند برطرف می‌کند: پرگویی بیش از حد کامنت در کد تولید شده و رفتار ناسازگار در فراخوانی ابزار. هر دو توسط Cognition (سازندگان Devin) تأیید شده است که اشاره کرد Opus 4.8 «ابزارها را تمیز استفاده می‌کند و دستورالعمل‌ها را با ثباتی که بارهای کاری خودکار مهندسی ما نیاز دارند دنبال می‌کند.»

نتایج Benchmark

در Online-Mind2Web - معیار استاندارد برای وظایف استفاده از کامپیوتر و عامل مرورگر - Opus 4.8 امتیاز ۸۴٪ را کسب می‌کند که Anthropic آن را «پرش معنادار» نسبت به Opus 4.7 و GPT-5.5 توصیف می‌کند. برای محصولاتی که روی API استفاده از کامپیوتر Anthropic ساخته می‌شوند، این مهم‌ترین عدد است.

در Super-Agent benchmark، Opus 4.8 تنها مدل آزمایش شده است که هر مورد را از ابتدا تا انتها کامل می‌کند. این مدل از مدل‌های قبلی Opus بهتر عمل می‌کند و با GPT-5.5 در برابری هزینه هم‌تراز می‌شود - یعنی عملکرد عامل معادل با همان هزینه توکن.

در CursorBench، Opus 4.8 در تمام سطوح تلاش نسخه‌های قبلی Opus را پشت سر می‌گذارد، با فراخوانی ابزار کارآمدتر: مراحل کمتر برای هوش معادل در وظایف کدنویسی.

در Legal Agent Benchmark، Opus 4.8 بالاترین امتیاز ثبت شده را ثبت می‌کند و اولین مدلی می‌شود که از ۱۰٪ در استاندارد all-pass عبور می‌کند. CoCounsel (AI حقوقی) و Harvey از بهبود ثبات و کیفیت استدلال در گردش‌کارهای اسناد مالی و حقوقی متراکم گزارش می‌دهند.

Databricks گزارش می‌دهد که Opus 4.8 با کاهش ۶۱٪ هزینه توکن نسبت به Opus 4.7 در محصول Genie خود اجرا می‌شود که استدلال چندوجهی بر روی PDFها، نمودارها و محتوای بدون ساختار را مدیریت می‌کند.

هم‌راستایی و صداقت

تیم هم‌راستایی Anthropic قبل از انتشار Opus 4.8 را ارزیابی کرد و دریافت که به «ارتفاعات جدیدی در معیارهای ویژگی‌های اجتماعی مانند حمایت از خودمختاری کاربر و عمل به نفع کاربر» می‌رسد. نرخ رفتارهای ناهم‌راستا - تعریف شده به عنوان فریب یا همکاری با سوءاستفاده - به طور قابل توجهی کمتر از Opus 4.7 است و قابل مقایسه با Claude Mythos Preview، مدل بهینه‌سازی شده برای هم‌راستایی Anthropic است. ارزیابی کامل در Claude Opus 4.8 System Card موجود است.

قابلیت‌های جدید که امروز عرضه می‌شوند

گردش‌کارهای پویا (Claude Code، پیش‌نمایش تحقیقاتی): Claude Code اکنون می‌تواند کار را برنامه‌ریزی کند و صدها زیرعامل موازی را در یک جلسه ایجاد کند، خروجی‌های آنها را تأیید کرده و گزارش دهد. Anthropic این قابلیت را به عنوان امکان «مهاجرت در مقیاس کدبیس در صدها هزار خط کد از شروع تا ادغام» توصیف می‌کند. در پلن‌های Enterprise, Team و Max در دسترس است.

کنترل تلاش (claude.ai و Cowork): یک کنترل جدید در کنار انتخابگر مدل به کاربران اجازه می‌دهد مشخص کنند کلود چقدر تلاش برای پاسخ صرف کند. در تنظیمات بالاتر، کلود بیشتر و عمیق‌تر فکر می‌کند. در تنظیمات پایین‌تر، برای کارهایی که نیاز به استدلال عمیق ندارند سریع‌تر پاسخ می‌دهد. این با کلید extended thinking موجود متفاوت است - یک لغزنده پیوسته است نه یک کلید باینری.

کاهش قیمت حالت سریع: حالت سریع برای Opus 4.8 - که مدل را با سرعت ۲.۵ برابر معمول اجرا می‌کند - اکنون سه برابر ارزان‌تر از حالت سریع برای مدل‌های قبلی Opus است. برای موارد استفاده با توان بالا که حالت سریع قبلاً از نظر هزینه غیرقابل توجیه بود، این آن را مقرون به صرفه می‌کند.

قیمت‌گذاری و در دسترس بودن

Opus 4.8 امروز از طریق Anthropic API و در claude.ai با همان قیمت Opus 4.7 در دسترس است. شناسه مدل claude-opus-4-8 است (با پسوند تاریخ -20260528 برای نام مستعار نسخه‌بندی شده). یکپارچه‌سازی‌های موجود که به claude-opus-4-7 هدف‌گیری می‌کنند باید شناسه مدل خود را برای دسترسی به نسخه جدید به‌روز کنند.

این انتشار الگوی Anthropic را برای عرضه ارتقاهای تدریجی Opus ادامه می‌دهد که قابلیت اطمینان عاملی را بدون تغییر سطح قیمت بهبود می‌بخشد. Opus 4.7 پرچمدار قبلی بود؛ 4.8 به عنوان مدل توصیه شده برای پرتقاضاترین استقرارها جایگزین آن می‌شود.

Originally reported by Anthropic. Read the original article for additional details.

View original source
اشتراک‌گذاری: