Danh sách tinClaude Opus 4.8 của Anthropic Đã Ra Mắt: Lập Trình AI Tốt Hơn, An Toàn Thông Minh Hơn—Cùng Mức Giá Cao Ngất
Decrypt2026-05-28 17:45:39

Claude Opus 4.8 của Anthropic Đã Ra Mắt: Lập Trình AI Tốt Hơn, An Toàn Thông Minh Hơn—Cùng Mức Giá Cao Ngất

ORIGINALAnthropic's Claude Opus 4.8 Is Here: Better AI Coding, Smarter Safety—Same Huge Price
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯7329 từ
Tóm tắt - Anthropic đã phát hành Claude Opus 4.8 vào thứ Năm, chỉ sáu tuần sau Opus 4.7. - Bản cập nhật mang lại những cải tiến trên các bài đánh giá về kỹ thuật phần mềm, suy luận và sử dụng máy tính, với cùng mức giá 5/25 USD cho mỗi triệu token đầu vào/đầu ra. - Điểm số căn chỉnh (alignment) của Opus 4.8 hiện đã tương đương với Claude Mythos Preview — mô hình tiên phong bị hạn chế của Anthropic — với tỷ lệ hành vi lừa dối hoặc hỗ trợ lạm dụng thấp hơn đáng kể so với phiên bản tiền nhiệm. Sáu tuần. Đó là khoảng thời gian Anthropic cần để chuyển từ Opus 4.7 sang Opus 4.8. Mô hình mới nhanh hơn và thông minh hơn trên các bài kiểm tra benchmark, đồng thời đi kèm một loạt tính năng mới — nhưng giá cả không thay đổi: vẫn là 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra, giống như trước. Ngoài ra còn có chế độ nhanh (fast mode) chạy cùng mô hình với tốc độ gấp 2,5 lần, có giá 10 USD đầu vào và lên tới 50 USD đầu ra cho mỗi triệu token. Anthropic cho biết mức giá này hiện rẻ hơn ba lần so với chi phí chế độ nhanh trên các mô hình trước đây — một cách nói lịch sự rằng trước đó nó đắt hơn rất nhiều. SWE-bench Pro có lẽ là benchmark quan trọng nhất cần theo dõi để biết mô hình này tốt đến mức nào. Nó đo lường khả năng AI thực sự giải quyết các bài toán kỹ thuật phần mềm khó, đa ngôn ngữ được lấy từ các codebase production thực tế — được chấm bằng tỷ lệ phần trăm các bài toán vượt qua. Trên bài kiểm tra đó, Opus 4.8 đạt 69,2%, tăng từ 64,3% của Opus 4.7. GPT-5.5 của OpenAI đạt 58,6%, còn Gemini 3.1 Pro của Google xếp sau với 54,2%. Đối với một mô hình ở cùng mức giá, đó là một bước nhảy đáng kể. Trên Humanity's Last Exam — các câu hỏi cấp độ chuyên gia thuộc hàng chục lĩnh vực học thuật, được chấm theo tỷ lệ phần trăm trả lời đúng — Opus 4.8 đạt 49,8% khi không dùng công cụ và 57,9% khi có dùng công cụ, vượt cả ba đối thủ. OSWorld-Verified, vốn kiểm tra các tác vụ sử dụng máy tính trong thế giới thực như điều hướng giao diện phần mềm, đạt 83,4%, nhỉnh hơn mức 82,8% của Opus 4.7. Thất bại duy nhất: Terminal-Bench 2.1, đánh giá hiệu suất AI trên các tác vụ dòng lệnh. GPT-5.5 dẫn đầu với 78,2%, trong khi Opus 4.8 đạt 74,6% — tốt hơn mức 66,1% của Opus 4.7 và vượt mức 70,3% của Gemini, nhưng vị trí thứ hai rốt cuộc vẫn là thua cuộc. Năm cách suy nghĩ Anthropic hiện cho phép người dùng kiểm soát mức độ suy nghĩ của mô hình. "High" là mặc định và xử lý hầu hết các tác vụ tốt, trong khi "Extra" — được gọi là "xhigh" bên trong Claude Code — tiêu tốn nhiều tài nguyên tính toán hơn cho các bài toán khó hơn. "Max" là mức sâu nhất. "Low" và "Medium" dành ít token hơn cho cùng tác vụ, đánh đổi độ chính xác để tiết kiệm thời gian. Bộ điều khiển mức độ nỗ lực này nằm bên cạnh bộ chọn mô hình trong claude.ai và Cowork, có sẵn trên mọi gói. Anthropic cho biết mức "high" mặc định tiêu thụ lượng token gần như tương đương với mức mặc định của Opus 4.7 nhưng cho kết quả tốt hơn — điều này hoặc là kỹ thuật ấn tượng hoặc là truyền thông khéo léo, và có lẽ là cả hai. Cũng cần nhớ rằng tokenizer mới của Anthropic cho Opus sử dụng nhiều token hơn cho mỗi tác vụ. Vì vậy, người dùng Claude chắc chắn sẽ phải tốn nhiều tiền hơn để hoàn thành công việc, nếu họ chọn Opus thay vì Claude Sonnet — một mô hình kém mạnh hơn nhưng có lẽ đủ tốt cho các tác vụ hàng ngày và những vấn đề phức tạp không thuộc tầm khoa học hay lập trình tiên phong. Giới hạn tốc độ (rate limits) trong Claude Code cũng đã được nâng lên để hấp thụ mức tiêu thụ token cao hơn mà các cài đặt Extra và Max tạo ra. Gần an toàn như Claude Mythos Đội ngũ căn chỉnh của Anthropic cho biết Opus 4.8 "đạt mức cao mới trên các thước đo về phẩm chất tích cực xã hội như ủng hộ quyền tự chủ của người dùng và hành động vì lợi ích tốt nhất của người dùng." Cụ thể hơn: tỷ lệ lừa dối và tỷ lệ hợp tác với hành vi lạm dụng thấp hơn đáng kể so với Opus 4.7, và tương đương với Claude Mythos Preview — mô hình bị khóa chặt nhất của Anthropic. Opus 4.8 cũng có xác suất bỏ sót lỗi trong chính code của mình mà không gắn cờ thấp hơn bốn lần so với 4.7. Sự so sánh với Mythos cần có bối cảnh. Mythos là một cấp hoàn toàn cao hơn Opus — Anthropic mô tả nó là "lớn hơn và thông minh hơn các mô hình Opus của chúng tôi." Hiện tại nó chỉ tồn tại dưới dạng bản preview, có thể truy cập bởi một số ít tổ chức đã được kiểm duyệt đang thực hiện công việc an ninh mạng thông qua Project Glasswing. Viện An ninh AI của Anh Quốc (U.K.'s AI Security Institute) phát hiện nó có thể tự động hoàn thành "The Last Ones," một mô phỏng tấn công mạng doanh nghiệp gồm 32 bước thường mất 20 giờ với các đội red team là con người. Đó là lý do nó chưa được bán. Anthropic cho biết các biện pháp bảo vệ an ninh mạng mạnh hơn đang được phát triển, và dự kiến sẽ đưa các mô hình cấp Mythos đến với mọi người "trong những tuần tới." Cũng được phát hành hôm nay: dynamic workflows trong Claude Code, ở dạng research preview. Tính năng này cho phép Claude tự viết các script điều phối và khởi tạo các subagent song song trong cùng một phiên, xác minh đầu ra của chúng và báo cáo lại — giống như những gì Hermes đã làm được một thời gian. Dynamic workflows có sẵn cho người dùng các gói Enterprise, Team và Max, và Anthropic thẳng thắn cho biết chúng đốt nhiều token hơn đáng kể so với một phiên Claude Code tiêu chuẩn. Khoảng cách giá ngày càng lớn Mức giá 5/25 USD của Anthropic trông rất khác so với những gì Trung Quốc đã làm gần đây. DeepSeek V4 Pro đã biến mức giảm giá 75% thành vĩnh viễn vào tuần trước: 0,435 USD cho mỗi triệu token đầu vào và 0,87 USD cho mỗi triệu token đầu ra. Xiaomi MiMo V2.5 Pro chạy ở cùng mức giá thông qua các nhà cung cấp như OpenRouter. Chế độ nhanh của Anthropic có giá 10 USD đầu vào và 50 USD đầu ra cho mỗi triệu token — đắt hơn cả Opus 4.8 tiêu chuẩn, và đắt hơn khoảng 57 lần so với DeepSeek V4 Pro tính trên mỗi token đầu ra. Các tập đoàn đã chi hàng triệu đô la cho inference trên các mô hình Mỹ. Cứ thả phanh với Opus và doanh nghiệp của bạn có thể chạm mốc hàng triệu đô la khá nhanh. Câu trả lời của Anthropic cho khoảng cách giá là chất lượng và an toàn. Trên SWE-bench Pro, Opus 4.8 đánh bại cả hai mô hình Trung Quốc. Về căn chỉnh, không mô hình nào tiệm cận được các benchmark đã công bố của Anthropic. Những điều đó quan trọng trong môi trường production, nơi mà việc một mô hình âm thầm hợp tác với các đầu vào xấu là một rủi ro thực sự — các ngành được quản lý, công việc pháp lý, và bất cứ điều gì mà "có vẻ ổn" không phải là một báo cáo hậu sự cố có thể chấp nhận được. Đối với những người khác, khoảng cách này khó có thể bỏ qua. Chúng tôi đã thử nghiệm Chúng tôi đã chạy một bài kiểm tra coding nhanh để tạo ra một game zombie 3D, nhằm xem Claude Opus 4.8 so kè ra sao với ChatGPT và DeepSeek — được cho là hai đối thủ phổ biến nhất từ Mỹ và Trung Quốc. Chúng tôi đặt Opus 4.8 ở mức "high" mặc định, GPT-5.5 ở mức "high effort", và DeepSeek V4 Pro ở mức "high effort" — ba mô hình, một prompt, không thử lại. GPT-5.5 hoàn thành đầu tiên. Game của nó không có hình ảnh zombie và không có hiệu ứng âm thanh. Tất nhiên là nhanh, nhưng hoàn toàn lệch yêu cầu. DeepSeek V4 Pro về nhì với điều khiển bằng chuột, các nhân vật zombie thực sự, hiệu ứng âm thanh, cơ chế chắc chắn và thẩm mỹ gọn gàng. Không có gì để phàn nàn. Opus 4.8 mất khoảng gấp ba lần thời gian so với GPT-5.5, nhưng đã cho ra màn hình mở đầu (splash screen) đẹp nhất, thiết kế zombie tốt nhất, cơ chế game tốt nhất, và hiệu ứng âm thanh tạm ổn. Nó chậm nhất, nhưng đầu ra tốt nhất. Tuy nhiên, điều đó có lẽ vẫn không đủ để biện minh cho việc dùng nó thay vì DeepSeek, xét đến khoảng cách chi phí. Tất cả các game đều có sẵn trên hồ sơ Itch.io của chúng tôi. GPT-5.5 tạo ra Zombie Typing, Opus tạo ra Typing Dead, và DeepSeek v4 Pro tạo ra một game không tên ném thẳng bạn vào hành động. Hãy gọi nó là TypeSeek. Một bài đánh giá so sánh đầy đủ sẽ sớm ra mắt. Tạm thời: Claude Opus 4.8 code tốt hơn GPT-5.5 và Opus 4.7 cho loại tác vụ này, với cùng mức giá mà Anthropic đã tính kể từ 4.7. Các nhà phát triển vốn đã trả 5 USD cho mỗi triệu token vừa nhận được một mô hình tốt hơn miễn phí.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:cc5111ed9a
Nguồn:Decrypt
Đăng:2026-05-28 17:45:39
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận