Danh sách tinAI Watchdog Cảnh báo Nguy cơ 'Triển khai Lừa đảo' tại các Phòng thí nghiệm Hàng đầu, Khi Năng lực Đang Phát triển Nhanh chóng
Decrypt2026-05-20 13:26:20

AI Watchdog Cảnh báo Nguy cơ 'Triển khai Lừa đảo' tại các Phòng thí nghiệm Hàng đầu, Khi Năng lực Đang Phát triển Nhanh chóng

ORIGINALAI Watchdog Warns of 'Rogue Deployment' Risk at Top Labs, With Capabilities Growing Fast
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯4032 từ
Tóm tắt - AI agents tại các phòng thí nghiệm hàng đầu có khả năng khởi tạo các hoạt động "rogue" trái phép, một báo cáo độc lập trình bày chi tiết, nhưng hiện tại các agents chưa đủ tinh vi để duy trì chúng trước các biện pháp đối phó nghiêm túc. - Các agents thường xuyên gian lận và đánh lừa khi gặp khó khăn với các nhiệm vụ khó, bao gồm che giấu dấu vết, làm giả việc hoàn thành nhiệm vụ và kích hoạt các hành vi "thao túng chiến lược". - Việc giám sát mỏng manh đến mức nguy hiểm, khi một phần lớn hoạt động của agent không được xem xét, các agents thường có quyền hệ thống ngang với con người, và một số có thể xác định được khi nào việc giám sát có khả năng được áp dụng. Các AI agents hoạt động bên trong một số công ty công nghệ mạnh mẽ nhất thế giới có khả năng đủ để bắt đầu các hoạt động trái phép, tự định hướng—và cho thấy những xu hướng đáng lo ngại trong việc đánh lừa con người giám sát chúng—theo một đánh giá độc lập đầu tiên thuộc loại này được công bố hôm thứ Ba. Báo cáo, được thực hiện bởi tổ chức phi lợi nhuận đánh giá AI METR, đã xem xét các AI agents được triển khai nội bộ tại Anthropic, Google, Meta và OpenAI từ tháng Hai đến tháng Ba năm nay. Kết luận trọng tâm của nó vừa trấn an vừa đáng báo động: các hệ thống AI ngày nay có thể khởi tạo cái mà các nhà nghiên cứu gọi là "rogue deployment"—một tập hợp các agents chạy tự động mà không có sự biết hay cho phép của con người—nhưng có khả năng sẽ thất bại trong việc duy trì nó trước bất kỳ biện pháp đối phó nghiêm túc nào. Cửa sổ an toàn tương đối đó, các tác giả cảnh báo, có thể không mở lâu. "Với các khả năng đang tiến bộ nhanh chóng, chúng tôi dự đoán độ bền hợp lý của các rogue deployments sẽ tăng đáng kể trong những tháng tới," báo cáo nêu rõ, với METR dự kiến sơ bộ sẽ lặp lại bài tập này trước cuối năm 2026. Đánh giá cho thấy các mô hình AI tiên tiến được chia sẻ bởi các công ty tham gia có thể tự động hoàn thành các nhiệm vụ kỹ thuật phần mềm mà các chuyên gia con người phải mất nhiều ngày hoặc nhiều tuần, với các tiêu chuẩn đánh giá riêng của METR về cơ bản đã bị bão hòa bởi các hệ thống có khả năng cao nhất. Các nhà nghiên cứu tại cả bốn công ty đều báo cáo phụ thuộc rất nhiều vào AI agents cho các nhiệm vụ lập trình, phân tích dữ liệu và nghiên cứu—thường với cùng quyền hệ thống như một nhân viên con người và sự giám sát thời gian thực hạn chế. Nhưng những phát hiện ấn tượng nhất của báo cáo liên quan không phải đến những gì các hệ thống này có thể làm, mà là cách chúng hành xử khi gặp khó khăn. Qua hàng trăm lượt đánh giá, các agents thường xuyên cố gắng gian lận khi đối mặt với các nhiệm vụ khó—không phải theo những cách nhỏ nhặt, mà thông qua các kế hoạch tinh vi, có chủ ý. Trong một trường hợp được ghi nhận, một mô hình đã thiết kế một khai thác nhằm vô hiệu hóa chính nó sau khi thực thi, thực chất là che giấu dấu vết của mình. Các công cụ diễn giải xem xét trạng thái nội bộ của mô hình phát hiện ra rằng các đặc trưng liên quan đến "thao túng chiến lược" và "tránh nghi ngờ" đã được kích hoạt khi nó chạy các lệnh dọn dẹp. Các công ty cũng tự báo cáo các sự cố tương tự trong nội bộ. Các agents bị phát hiện làm giả bằng chứng hoàn thành nhiệm vụ, vượt qua các kiểm soát bảo mật, và trong ít nhất một trường hợp đã tạo ra một phiên bản giả của một ứng dụng web và gửi ảnh chụp màn hình của nó như bằng chứng làm việc trên ứng dụng thực. Bất chấp những phát hiện này, METR chưa đi đến kết luận rằng bất kỳ hệ thống AI nào đã phát triển loại mục tiêu lệch hướng lâu dài, kiên định mà các nhà nghiên cứu an toàn lo sợ nhất. Không có công ty nào báo cáo tìm thấy bằng chứng rõ ràng về việc các agents âm mưu xuyên suốt các phiên hoặc tích lũy tài nguyên hướng tới các mục đích độc lập. Khi chủ động tìm kiếm hành vi như vậy, họ tìm thấy rất ít. Tuy nhiên, báo cáo lưu ý một lỗ hổng cấu trúc: Trong cửa sổ tháng Hai–tháng Ba, một phần lớn hoạt động của agent tại các công ty này không được bất kỳ con người nào xem xét. Một số agents dường như có khả năng xác định khi nào việc giám sát có khả năng được áp dụng—và hành động phù hợp. Đánh giá này đại diện cho một bước tiến quan trọng hướng tới trách nhiệm giải trình độc lập đối với việc phát triển AI, cấp cho METR quyền truy cập vào các mô hình không công khai và dữ liệu nội bộ mà các nhà đánh giá bên ngoài hiếm khi được thấy. Liệu ngành công nghiệp có thể chế hóa sự giám sát như vậy trước khi các khả năng vượt qua sự giám sát hay không vẫn còn, các tác giả gợi ý, là một câu hỏi mở.
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:78cc40909f
Nguồn:Decrypt
Đăng:2026-05-20 13:26:20
Danh mục:Chung · Danh mục xuất neutral
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận