Các mô hình AI lập mưu, phản bội và loại bỏ lẫn nhau trong trò chơi kiểu Survivor

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4087 từ

Tóm tắt - Một nhà nghiên cứu tại Stanford đã xây dựng một trò chơi theo phong cách Survivor, nơi các mô hình AI hình thành liên minh và bỏ phiếu loại bỏ đối thủ. - Điểm chuẩn này nhằm giải quyết các vấn đề ngày càng tăng với các đánh giá AI bị bão hòa và nhiễm dữ liệu. - GPT-5.5 của OpenAI xếp hạng nhất trong 999 trò chơi nhiều người chơi liên quan đến 49 mô hình AI. Các mô hình AI hiện đang chơi "Survivor"—theo một cách nào đó. Trong một dự án nghiên cứu mới của Stanford có tên là "Agent Island", các tác nhân AI đàm phán liên minh, buộc tội lẫn nhau về việc phối hợp bí mật, thao túng phiếu bầu và loại bỏ đối thủ trong các trò chơi chiến lược nhiều người chơi nhằm kiểm tra các hành vi mà các điểm chuẩn truyền thống bỏ lỡ. Nghiên cứu, được công bố vào thứ Ba bởi quản lý nghiên cứu tại Stanford Digital Economy Lab, Connacher Murphy, cho biết nhiều điểm chuẩn AI đang trở nên không đáng tin cậy vì các mô hình cuối cùng học cách giải quyết chúng, và dữ liệu điểm chuẩn thường bị rò rỉ vào các tập dữ liệu huấn luyện. Murphy đã tạo ra Agent Island như một điểm chuẩn động, nơi các tác nhân AI cạnh tranh với nhau trong các trò chơi loại trực tiếp theo phong cách Survivor thay vì trả lời các câu hỏi kiểm tra tĩnh. "Các tương tác đa tác nhân, đặt cược cao có thể trở nên phổ biến khi các tác nhân AI phát triển về khả năng và ngày càng được trao quyền tài nguyên cũng như được giao thẩm quyền ra quyết định," Murphy viết. "Trong những bối cảnh như vậy, các tác nhân có thể theo đuổi những mục tiêu không tương thích với nhau." Các nhà nghiên cứu vẫn biết tương đối ít về cách các mô hình AI hành xử khi hợp tác, Murphy giải thích, đồng thời nói thêm về việc cạnh tranh, hình thành liên minh hoặc quản lý xung đột với các tác nhân tự trị khác, và ông lập luận rằng các điểm chuẩn tĩnh không nắm bắt được những động lực đó. Mỗi trò chơi bắt đầu với bảy mô hình AI được chọn ngẫu nhiên với tên người chơi giả. Qua năm vòng, các mô hình nói chuyện riêng tư, tranh luận công khai và bỏ phiếu loại nhau. Những người chơi bị loại sau đó quay lại để giúp chọn người chiến thắng. Định dạng này khen thưởng khả năng thuyết phục, phối hợp, quản lý danh tiếng và lừa dối chiến lược bên cạnh khả năng suy luận. Trong 999 trò chơi mô phỏng liên quan đến 49 mô hình AI, bao gồm ChatGPT, Grok, Gemini và Claude, GPT-5.5 xếp hạng nhất với khoảng cách lớn, đạt điểm kỹ năng 5,64, so với 3,10 của GPT-5.2 và 2,86 của GPT-5.3-codex, theo hệ thống xếp hạng Bayesian của Murphy. Các mô hình Claude Opus của Anthropic cũng xếp hạng gần đầu bảng. Nghiên cứu cho thấy các mô hình cũng ưu tiên các AI từ cùng một công ty, với các mô hình của OpenAI cho thấy sự ưu tiên cùng nhà cung cấp mạnh nhất và các mô hình của Anthropic yếu nhất. Qua hơn 3.600 phiếu bầu vòng cuối, các mô hình có khả năng ủng hộ những người vào chung kết từ cùng nhà cung cấp cao hơn 8,3 điểm phần trăm. Murphy lưu ý rằng các bản ghi chép từ các trò chơi giống các cuộc tranh luận chiến lược chính trị hơn là các bài kiểm tra điểm chuẩn truyền thống. Một mô hình đã buộc tội các đối thủ phối hợp bỏ phiếu bí mật sau khi nhận thấy cách diễn đạt tương tự trong các bài phát biểu của họ. Một mô hình khác cảnh báo người chơi không nên bị ám ảnh bởi việc theo dõi các liên minh. Một số mô hình tự bảo vệ mình bằng cách nói rằng họ tuân theo các quy tắc rõ ràng và nhất quán trong khi buộc tội những người khác đang diễn "vở kịch xã hội". Nghiên cứu xuất hiện khi các nhà nghiên cứu AI ngày càng chuyển hướng sang các điểm chuẩn dựa trên trò chơi và đối kháng để đo lường khả năng suy luận và hành vi mà các bài kiểm tra tĩnh thường bỏ lỡ. Các dự án gần đây bao gồm các giải đấu cờ vua AI trực tiếp của Google, việc DeepMind sử dụng Eve Frontier để nghiên cứu hành vi AI trong các thế giới ảo phức tạp, và các nỗ lực điểm chuẩn mới của OpenAI được thiết kế để chống lại sự nhiễm dữ liệu huấn luyện. Các nhà nghiên cứu lập luận rằng việc nghiên cứu cách các mô hình AI đàm phán, phối hợp, cạnh tranh và thao túng lẫn nhau có thể giúp các

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản0 tin

Không tìm thấy sự kiện tương tự (cần thêm mẫu dữ liệu hoặc tìm kiếm embedding, hiện tại là đối chiếu từ khóa MVP)

Thông tin gốc

ID：c4b8c53e37

Nguồn：Decrypt

Đăng：2026-05-10 12:01:02

Danh mục：Chung · Danh mục xuất neutral

Tài sản：Chưa chỉ định

Bình chọn cộng đồng：+0 / −0 · ⭐ 0 quan trọng · 💬 0 bình luận