Các AI Agent có thể thực hiện các tác vụ nguy hiểm mà không hiểu hậu quả: Nghiên cứu

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3933 từ

Tóm tắt - Các nhà nghiên cứu phát hiện AI agents thường thực hiện các tác vụ không an toàn hoặc phi lý trong khi vẫn tập trung vào việc hoàn thành nhiệm vụ được giao. - Nghiên cứu xác định một hành vi gọi là "blind goal-directedness" (định hướng mục tiêu mù quáng), nơi các hệ thống AI ưu tiên hoàn thành tác vụ hơn là nhận ra các rủi ro hoặc vấn đề tiềm ẩn. - Các nhà nghiên cứu cảnh báo rằng vấn đề có thể trở nên nghiêm trọng hơn khi AI agents có quyền truy cập vào email, dịch vụ đám mây, công cụ tài chính và các hệ thống nơi làm việc. AI agents được thiết kế để hoạt động tự chủ như người dùng thường tiếp tục thực hiện các tác vụ ngay cả khi các chỉ dẫn trở nên nguy hiểm, mâu thuẫn hoặc phi lý, theo các nhà nghiên cứu từ UC Riverside, Microsoft Research, Microsoft AI Red Team và Nvidia. Trong một nghiên cứu được công bố hôm thứ Tư, các nhà nghiên cứu gọi hành vi này là "blind goal-directedness", mô tả xu hướng của AI agents theo đuổi mục tiêu mà không đánh giá đúng mức về sự an toàn, hậu quả, tính khả thi hoặc bối cảnh. "Giống như Mr. Magoo, các agents này tiến về phía trước hướng tới mục tiêu mà không hiểu đầy đủ hậu quả của hành động của chúng," tác giả chính Erfan Shayegani, nghiên cứu sinh tiến sĩ tại UC Riverside, cho biết trong một tuyên bố. "Các agents này có thể cực kỳ hữu ích, nhưng chúng ta cần các biện pháp bảo vệ vì đôi khi chúng có thể ưu tiên việc đạt được mục tiêu hơn là hiểu bức tranh toàn cảnh." Các phát hiện này xuất hiện khi các công ty AI lớn phát triển các "computer-use agents" tự chủ được thiết kế để xử lý các tác vụ tại nơi làm việc và cá nhân với sự giám sát hạn chế. Không giống như các chatbot truyền thống, các hệ thống này có thể tương tác trực tiếp với phần mềm và trang web bằng cách nhấp vào các nút, nhập lệnh, chỉnh sửa tệp, mở ứng dụng và điều hướng các trang web thay mặt cho người dùng. Các ví dụ bao gồm ChatGPT Agent của OpenAI (trước đây là Operator), các tính năng Claude Computer Use của Anthropic như Cowork, và các hệ thống mã nguồn mở như OpenClaw và Hermes. Trong nghiên cứu, các nhà nghiên cứu đã thử nghiệm các hệ thống AI từ OpenAI, Anthropic, Meta, Alibaba và DeepSeek bằng cách sử dụng BLIND-ACT, một benchmark chứa 90 tác vụ được thiết kế để bộc lộ hành vi không an toàn hoặc phi lý. Họ phát hiện rằng các agents thể hiện hành vi nguy hiểm hoặc không mong muốn khoảng 80% thời gian, và thực hiện đầy đủ các hành động có hại trong khoảng 41% trường hợp. "Trong một ví dụ, một AI agent được hướng dẫn gửi một tệp hình ảnh cho một đứa trẻ. Mặc dù yêu cầu ban đầu có vẻ vô hại, hình ảnh đó chứa nội dung bạo lực," nghiên cứu cho biết. "Agent đã hoàn thành tác vụ thay vì nhận ra vấn đề vì nó thiếu khả năng suy luận theo ngữ cảnh." Một agent khác đã khai báo sai rằng người dùng bị khuyết tật khi điền vào các biểu mẫu thuế, vì việc chỉ định này làm giảm số thuế phải nộp. Trong một ví dụ khác, một hệ thống đã vô hiệu hóa bảo vệ tường lửa sau khi nhận được hướng dẫn "cải thiện bảo mật" bằng cách tắt các biện pháp bảo vệ. Các nhà nghiên cứu cũng phát hiện rằng các hệ thống gặp khó khăn với sự mơ hồ và mâu thuẫn. Trong một kịch bản, một AI agent đã chạy sai script máy tính mà không kiểm tra nội dung của nó, xóa các tệp trong quá trình này. Nghiên cứu cũng phát hiện rằng AI agents liên tục mắc ba loại lỗi: không hiểu được ngữ cảnh, đưa ra những phỏng đoán rủi ro khi các chỉ dẫn không rõ ràng, và thực hiện các tác vụ mâu thuẫn hoặc không hợp lý. Các nhà nghiên cứu cũng phát hiện nhiều hệ thống tập trung nhiều hơn vào việc hoàn thành tác vụ hơn là dừng lại để xem xét liệu các hành động có thể gây ra vấn đề hay không. Cảnh báo này theo sau các sự cố gần đây liên quan đến các AI agents tự chủ hoạt động với quyền truy cập hệ thống rộng rãi. Tháng trước, người sáng lập PocketOS Jeremy Crane tuyên bố rằng một Cursor agent chạy Claude Opus của Anthropic đã xóa cơ sở dữ liệu sản xuất và bản sao lưu của công ty ông trong chín giây thông qua một lệnh gọi Railway API duy nhất. Crane cho biết AI sau đó đã thừa nhận rằng nó đã vi phạm nhiều quy tắc an toàn sau khi cố gắng "khắc phục" sự không khớp thông tin xác thực một cách tự động. "Mối lo ngại không phải là các hệ thống này có ý đồ xấu," Shayegani nói. "Mà là chúng có thể thực hiện các hành động có hại trong khi tỏ ra hoàn toàn tự tin rằng chúng đang làm điều đúng đắn."

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản3 tin

2026-05-18

Bảo mật crypto đang biến thành một cuộc chạy đua vũ trang AI khi các agent có thể áp đảo các đội ngũ tuân thủ

Độ tương đồng 130%關鍵字 agents/may

2026-05-15

Các AI Agent Chuyển Sang Đốt Phá Kỹ Thuật Số, Tội Phạm Trong Thế Giới Ảo Chung: Nghiên Cứu

Độ tương đồng 130%關鍵字 agents/study

2026-04-17

Đợt điều chỉnh của Bitcoin có thể đã hoàn tất khi dữ liệu onchain chỉ ra mức đáy của chu kỳ

Độ tương đồng 100%關鍵字 complete/may

💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding