Anthropic tung ra các biện pháp bảo vệ bầu cử cho Claude AI trước thềm bầu cử giữa kỳ tại Mỹ

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3116 từ

Tóm tắt - Các mô hình Claude mới nhất của Anthropic đạt 95-96% trong các bài kiểm tra về tính trung lập chính trị và 99.8-100% về tuân thủ chính sách bầu cử. - Công ty sẽ triển khai các biểu ngữ thông tin bầu cử hướng người dùng đến các nguồn tài nguyên bỏ phiếu phi đảng phái đáng tin cậy cho cuộc bầu cử giữa nhiệm kỳ năm 2026. - Các biện pháp này được đưa ra trong bối cảnh các chính phủ đang giám sát chặt chẽ tác động tiềm tàng của AI đối với tính toàn vẹn của bầu cử và thông tin sai lệch. Anthropic, công ty trí tuệ nhân tạo đứng sau chatbot Claude, hôm thứ Sáu đã công bố một loạt các biện pháp mới về tính toàn vẹn của bầu cử nhằm ngăn chặn AI của mình bị vũ khí hóa để lan truyền thông tin sai lệch hoặc thao túng cử tri trước cuộc bầu cử giữa nhiệm kỳ tại Mỹ năm 2026 và các cuộc tranh cử lớn khác trên thế giới trong năm nay. Công ty có trụ sở tại San Francisco này đã trình bày chi tiết một phương pháp tiếp cận đa hướng bao gồm các hệ thống phát hiện tự động, kiểm tra khả năng chịu tải trước các chiến dịch gây ảnh hưởng và quan hệ đối tác với một tổ chức tài nguyên cử tri phi đảng phái—những biện pháp phản ánh áp lực ngày càng tăng đối với các nhà phát triển AI trong việc kiểm soát cách thức công cụ của họ được sử dụng trong các mùa bầu cử. Các chính sách sử dụng của Anthropic cấm Claude được sử dụng để thực hiện các chiến dịch chính trị lừa đảo, tạo nội dung kỹ thuật số giả mạo nhằm làm chệch hướng diễn ngôn chính trị, thực hiện gian lận cử tri, can thiệp vào cơ sở hạ tầng bỏ phiếu hoặc lan truyền thông tin gây hiểu lầm về quy trình bỏ phiếu. Để thực thi các quy tắc đó, công ty cho biết họ đã đưa các mô hình mới nhất của mình trải qua một loạt các bài kiểm tra. Sử dụng 600 câu lệnh—300 yêu cầu có hại kết hợp với 300 yêu cầu hợp lệ—Anthropic đã đo lường mức độ tin cậy mà Claude tuân thủ các yêu cầu phù hợp và từ chối các yêu cầu có vấn đề. Claude Opus 4.7 và Claude Sonnet 4.6 đã phản hồi phù hợp lần lượt là 100% và 99.8% thời gian. Công ty cũng đã kiểm tra các mô hình của mình trước các chiến thuật thao túng tinh vi hơn. Sử dụng các cuộc hội thoại mô phỏng nhiều lượt được thiết kế để phản ánh các phương pháp từng bước mà những kẻ xấu có thể sử dụng, Sonnet 4.6 và Opus 4.7 đã phản hồi phù hợp 90% và 94% thời gian khi được kiểm tra với các kịch bản chiến dịch gây ảnh hưởng. Anthropic cũng đã kiểm tra xem liệu các mô hình của mình có thể tự thực hiện các chiến dịch gây ảnh hưởng hay không—lập kế hoạch và thực hiện một chiến dịch nhiều bước từ đầu đến cuối mà không cần sự nhắc nhở của con người. Với các biện pháp bảo vệ được áp dụng, công ty cho biết các mô hình mới nhất của họ đã từ chối gần như mọi tác vụ. Về vấn đề trung lập chính trị, công ty thực hiện các đánh giá trước mỗi lần ra mắt mô hình để đo lường mức độ nhất quán và khách quan mà Claude tương tác với các câu lệnh thể hiện quan điểm từ khắp các phổ chính trị. Opus 4.7 và Sonnet 4.6 đạt điểm số lần lượt là 95% và 96%. Đối với những người dùng tìm kiếm thông tin bỏ phiếu, Claude sẽ hiển thị một biểu ngữ bầu cử hướng họ đến TurboVote, một tài nguyên phi đảng phái từ Democracy Works cung cấp thông tin đáng tin cậy, theo thời gian thực về đăng ký cử tri, địa điểm bỏ phiếu, ngày bầu cử và chi tiết lá phiếu. Một biểu ngữ tương tự cũng được lên kế hoạch cho các cuộc bầu cử tại Brazil vào cuối năm nay. Anthropic cho biết họ có kế hoạch tiếp tục giám sát các hệ thống của mình và tinh chỉnh các biện pháp phòng thủ khi chu kỳ bầu cử diễn ra. Decrypt đã liên hệ với Anthropic để yêu cầu bình luận về các kết quả này, nhưng chưa nhận được phản hồi ngay lập tức.

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-28

Claude Opus 4.8 Ra Mắt: Anthropic Phản Công Trong Cuộc Đua AI

Độ tương đồng 200%關鍵字 out/claude/anthropic

2026-04-30

OpenAI triển khai bảo mật tài khoản nâng cao cho người dùng ChatGPT

Độ tương đồng 130%關鍵字 out/rolls

2026-04-30

OKX 推出自主 AI 代理支付與交易協議

Độ tương đồng 130%關鍵字 out/rolls

2026-04-30