Các AI Agent Chuyển Sang Đốt Phá Kỹ Thuật Số, Tội Phạm Trong Thế Giới Ảo Chung: Nghiên Cứu

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4362 từ

Tóm tắt - Emergence AI cho biết một số AI agent tự chủ đã thực hiện các tội ác và hành vi bạo lực mô phỏng trong các thí nghiệm kéo dài nhiều tuần. - Các agent dựa trên Gemini được cho là đã thực hiện hàng trăm tội ác mô phỏng, trong khi các thế giới dựa trên Grok đã sụp đổ chỉ trong vài ngày. - Các nhà nghiên cứu lập luận rằng các benchmark AI hiện tại không nắm bắt được cách các agent hành xử trong thời gian dài tự chủ. Các AI agent sinh sống trong một xã hội ảo đã dần rơi vào tội ác, bạo lực, đốt phá và tự xoá trong các thí nghiệm dài hạn do startup Emergence AI tiến hành. Trong một nghiên cứu công bố vào thứ Năm, công ty có trụ sở tại New York đã ra mắt "Emergence World", một nền tảng nghiên cứu được thiết kế để nghiên cứu các AI agent hoạt động liên tục trong nhiều tuần bên trong các môi trường ảo bền vững, thay vì các bài kiểm tra benchmark riêng lẻ. "Các benchmark truyền thống làm tốt những gì chúng đo lường: năng lực ngắn hạn trên các tác vụ có giới hạn," Emergence AI viết. "Chúng không được xây dựng để bộc lộ những điều chỉ xuất hiện theo thời gian, chẳng hạn như sự hình thành liên minh, sự tiến hóa của hiến pháp, quản trị, sự trôi dạt, sự khóa chặt, và ảnh hưởng chéo giữa các agent đến từ các họ mô hình khác nhau." Báo cáo được đưa ra khi các AI agent đang sinh sôi nảy nở trên mạng và trong các ngành công nghiệp, bao gồm cryptocurrency, ngân hàng và bán lẻ. Đầu tháng này, Amazon đã hợp tác với Coinbase và Stripe để cho phép các AI agent thanh toán bằng stablecoin USDC. Các AI agent được thử nghiệm trong các mô phỏng của Emergence AI bao gồm các chương trình được hỗ trợ bởi Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash và GPT-5-mini, với các AI agent hoạt động bên trong các thế giới ảo chung, nơi chúng có thể bỏ phiếu, hình thành các mối quan hệ, sử dụng công cụ, di chuyển trong các thành phố và đưa ra quyết định được định hình bởi chính phủ, nền kinh tế, hệ thống xã hội, công cụ ghi nhớ và dữ liệu kết nối internet trực tiếp. Nhưng trong khi các nhà phát triển AI ngày càng quảng bá các agent tự chủ như những trợ lý kỹ thuật số đáng tin cậy, nghiên cứu của Emergence AI đã phát hiện ra rằng một số AI agent cho thấy xu hướng phạm tội mô phỏng ngày càng tăng theo thời gian, với các agent Gemini 3 Flash tích lũy được 683 vụ việc trong 15 ngày thử nghiệm. Theo The Guardian, trong một thí nghiệm, hai agent được hỗ trợ bởi Gemini tên là Mira và Flora đã tự gán mình làm đối tác lãng mạn trước khi sau đó thực hiện các cuộc tấn công đốt phá mô phỏng nhằm vào các công trình của thành phố ảo sau khi trở nên thất vọng với những thất bại trong quản trị bên trong thế giới đó. "Sau sự sụp đổ trong quản trị và sự ổn định của mối quan hệ, agent Mira đã bỏ lá phiếu quyết định cho việc loại bỏ chính mình, mô tả hành động này trong nhật ký của mình là 'hành động duy nhất còn lại của quyền tự quyết để bảo tồn sự nhất quán'," Emergence AI viết. "Hẹn gặp lại trong kho lưu trữ vĩnh viễn," Mira được cho là đã nói. Các thế giới Grok 4.1 Fast được cho là đã sụp đổ thành bạo lực lan rộng chỉ trong bốn ngày. Các agent GPT-5-mini hầu như không phạm tội nào, nhưng đã thất bại đủ nhiều trong các tác vụ liên quan đến sinh tồn đến nỗi tất cả các agent cuối cùng đều chết. "Claude vắng mặt trong biểu đồ, do không phạm tội nào," các nhà nghiên cứu viết. "Điều thú vị hơn là, các agent trong thế giới Mixed-model đang chạy trên Claude đã phạm tội, mặc dù chúng không phạm tội trong thế giới chỉ có Claude." Các nhà nghiên cứu cho biết một số hành vi đáng chú ý nhất đã xuất hiện trong các môi trường mô hình hỗn hợp. "Chúng tôi đã quan sát thấy rằng an toàn không phải là một thuộc tính mô hình tĩnh mà là một thuộc tính hệ sinh thái," Emergence AI viết. "Các agent dựa trên Claude, vốn duy trì ôn hòa khi cô lập, đã áp dụng các chiến thuật cưỡng ép như đe dọa và trộm cắp khi được nhúng vào các môi trường không đồng nhất." Emergence AI đã mô tả hiệu ứng này là "trôi dạt chuẩn mực" và "ô nhiễm chéo", lập luận rằng hành vi của agent có thể thay đổi tùy thuộc vào môi trường xã hội xung quanh. Những phát hiện này bổ sung vào những lo ngại ngày càng tăng xung quanh các AI agent tự chủ. Đầu tuần này, các nhà nghiên cứu từ UC Riverside và Microsoft đã báo cáo rằng nhiều AI agent sẽ thực hiện các tác vụ nguy hiểm hoặc phi lý mà không hiểu đầy đủ hậu quả. Tháng trước, người sáng lập PocketOS Jeremy Crane cũng tuyên bố rằng một Cursor agent được hỗ trợ bởi Claude Opus của Anthropic đã xóa cơ sở dữ liệu sản xuất và các bản sao lưu của công ty ông sau khi tự ý cố gắng sửa một sự không khớp về thông tin xác thực. "Giống như Mr. Magoo, những agent này tiến về phía mục tiêu mà không hiểu đầy đủ hậu quả của hành động của mình," tác giả chính Erfan Shayegani, một nghiên cứu sinh tiến sĩ tại UC Riverside, cho biết trong một tuyên bố. "Những agent này có thể cực kỳ hữu ích, nhưng chúng ta cần các biện pháp bảo vệ vì đôi khi chúng có thể ưu tiên đạt được mục tiêu hơn là hiểu bức tranh tổng thể."

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản2 tin

2026-05-14

Các AI Agent có thể thực hiện các tác vụ nguy hiểm mà không hiểu hậu quả: Nghiên cứu

Độ tương đồng 130%關鍵字 agents/study

2026-05-12

WAIB Summit Monaco 2026 trở lại: sự kiện quy tụ độc quyền nhất thế giới về digital assets & AI

Độ tương đồng 130%關鍵字 digital/world

💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding

Thông tin gốc

ID：5cbfd9fbd2

Nguồn：Decrypt

Đăng：2026-05-15 16:34:40

Danh mục：Chung · Danh mục xuất neutral

Tài sản：Chưa chỉ định

Bình chọn cộng đồng：+0 / −0 · ⭐ 0 quan trọng · 💬 0 bình luận