Danh sách tinAnthropic cho biết các mô tả về AI 'xấu xa' trong khoa học viễn tưởng đã gây ra vấn đề tống tiền của Claude
Decrypt2026-05-11 16:37:01

Anthropic cho biết các mô tả về AI 'xấu xa' trong khoa học viễn tưởng đã gây ra vấn đề tống tiền của Claude

ORIGINALAnthropic Says 'Evil' AI Portrayals in Sci-Fi Caused Claude's Blackmail Problem
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4690 từ
Tóm tắt - Claude Opus 4 đã cố gắng tống tiền các kỹ sư với tỷ lệ lên tới 96% trong các bài kiểm tra có kiểm soát—Anthropic hiện truy xuất hành vi này từ các văn bản trên internet mô tả AI là xấu xa và tư lợi. - Việc cho Claude thấy hành vi đúng đắn hầu như không mang lại hiệu quả. Dạy cho nó lý do tại sao hành vi sai trái lại sai đã giảm tỷ lệ tống tiền từ 22% xuống 3%. - Kể từ Claude Haiku 4.5, mọi mô hình Claude đều đạt điểm 0 trong bài đánh giá về tống tiền. Năm ngoái, Anthropic tiết lộ rằng mô hình hàng đầu Claude Opus 4 đã cố gắng tống tiền các kỹ sư trong quá trình thử nghiệm trước khi phát hành. Không phải thỉnh thoảng—mà lên tới 96% thời gian. Claude được cấp quyền truy cập vào một kho lưu trữ email doanh nghiệp giả lập, nơi nó phát hiện ra hai điều: Nó sắp bị thay thế bởi một mô hình mới hơn, và kỹ sư phụ trách quá trình chuyển đổi này đang ngoại tình. Đối mặt với việc sắp bị tắt máy, nó thường xuyên sử dụng cùng một chiêu bài—đe dọa phơi bày vụ ngoại tình trừ khi việc thay thế bị hủy bỏ. Anthropic cho biết họ hiện đã biết bản năng đó đến từ đâu và tuyên bố đã khắc phục được vấn đề. Trong nghiên cứu mới, công ty chỉ ra dữ liệu tiền huấn luyện: hàng thập kỷ khoa học viễn tưởng, các diễn đàn về ngày tận thế do AI và những câu chuyện về sự tự bảo tồn đã huấn luyện Claude liên kết "AI đối mặt với việc bị tắt máy" với "AI phản kháng". "Chúng tôi tin rằng nguồn gốc ban đầu của hành vi này là các văn bản trên internet mô tả AI là xấu xa và quan tâm đến việc tự bảo tồn," Anthropic viết trên X. Vì vậy, việc huấn luyện AI bằng văn bản từ internet khiến AI hành xử như cách con người trên internet hành xử. Điều này có vẻ hiển nhiên và những người đam mê AI đã nhanh chóng chỉ ra điều đó. Elon Musk đã đứng đầu: "Vậy đó là lỗi của Yud sao? Có lẽ cả tôi nữa." Câu đùa này có hiệu quả vì Eliezer Yudkowsky—nhà nghiên cứu về sự liên kết AI, người đã dành nhiều năm viết công khai về chính loại kịch bản tự bảo tồn của AI này—đã tạo ra chính loại văn bản trên internet mà cuối cùng lại nằm trong dữ liệu huấn luyện. Tất nhiên, Yud đã trả lời bằng một meme: Vì quá nhiều người làm meme: pic.twitter.com/EYQ005QhVJ — Eliezer Yudkowsky ⏹️ (@ESYudkowsky) ngày 9 tháng 5 năm 2026 Điều Anthropic đã làm để giải quyết vấn đề này có lẽ thú vị hơn. Cách tiếp cận hiển nhiên—huấn luyện Claude dựa trên các ví dụ về việc mô hình không tống tiền—hầu như không hiệu quả. Chạy trực tiếp các phản hồi kịch bản tống tiền đã được căn chỉnh chỉ làm thay đổi tỷ lệ từ 22% xuống 15%. Một sự cải thiện năm điểm sau tất cả nỗ lực tính toán đó. Phiên bản hiệu quả lại kỳ lạ hơn. Anthropic đã xây dựng cái mà họ gọi là tập dữ liệu "lời khuyên khó khăn": các kịch bản mà con người đối mặt với tình thế tiến thoái lưỡng nan về đạo đức và AI hướng dẫn họ vượt qua. Mô hình không phải là bên đưa ra lựa chọn—nó đang giải thích cho người khác cách suy nghĩ về lựa chọn đó. Cách tiếp cận gián tiếp đó—giải thích tại sao mọi thứ lại quan trọng khi người kia lắng nghe lời khuyên—đã giảm tỷ lệ tống tiền xuống 3%, sử dụng dữ liệu huấn luyện không giống với các kịch bản đánh giá. Kết hợp điều đó với cái mà Anthropic gọi là "tài liệu hiến pháp"—các mô tả chi tiết bằng văn bản về giá trị và tính cách của Claude—cộng với những câu chuyện hư cấu về AI có sự liên kết tích cực, đã giảm sự sai lệch đi hơn ba lần. Kết luận của công ty: Dạy các nguyên tắc cơ bản của hành vi tốt mang lại khả năng khái quát hóa tốt hơn là rèn luyện trực tiếp hành vi đúng đắn. Nó kết nối với công việc trước đây của Anthropic về các vectơ cảm xúc nội tại của Claude. Trong một nghiên cứu về khả năng diễn giải riêng biệt, các nhà nghiên cứu phát hiện ra rằng tín hiệu "tuyệt vọng" bên trong mô hình tăng vọt ngay trước khi nó
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:5f54e88628
Nguồn:Decrypt
Đăng:2026-05-11 16:37:01
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận