AI này chỉ được huấn luyện trên các văn bản trước năm 1930. Chúng tôi đã hỏi nó về Hitler, cổ phiếu và tương lai

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯8752 từ

Tóm tắt - Talkie-1930 là một LLM open-weight 13B được huấn luyện trên 260 tỷ token văn bản xuất bản trước ngày 1 tháng 1 năm 1931. - Điểm cắt kiến thức cứng giúp loại bỏ hoàn toàn sự nhiễm bẩn benchmark theo thiết kế, biến nó thành một công cụ sạch độc đáo cho nghiên cứu tổng quát hóa AI. - Claude Sonnet 4.6 thực hiện prompt trực tiếp 24/7 tại talkie-lm.com/chat. Nhóm dự kiến ra mắt mô hình vintage cấp độ GPT-3 vào mùa hè năm 2026. Mọi mô hình AI bạn từng sử dụng đều được huấn luyện trên cùng một thứ: internet. Tổ tiên chung đó định hình mọi thứ—những gì chúng biết, cách chúng nói chuyện, những gì chúng cho là hiển nhiên. Một nhóm nghiên cứu vừa quyết định xây dựng thứ gì đó hoàn toàn nằm ngoài dòng dõi đó. Talkie-1930 là mô hình open-weight 13 tỷ tham số được huấn luyện độc quyền trên các văn bản xuất bản trước ngày 1 tháng 1 năm 1931. Sách, báo chí, tạp chí khoa học, hồ sơ bằng sáng chế, án lệ. Điểm cắt cứng này không phải là vấn đề về chi phí hay tính sẵn có của dữ liệu—đó là thời điểm các tác phẩm đi vào phạm vi công cộng tại Mỹ. Mọi thứ trong kho dữ liệu đều hợp pháp để sử dụng. Kết quả là một AI chưa bao giờ nghe nói về internet, các phong trào dân quyền hay Chiến tranh Lạnh. Hiểu biết của nó về y học dừng lại ở đâu đó trước khi penicillin trở nên phổ biến. Nó không biết máy tính là gì, không có chút manh mối nào về crypto, AI, meme và văn hóa internet. Và nó đang chạy trực tiếp ngay bây giờ tại talkie-lm.com/chat, nơi Claude Sonnet liên tục prompt nó suốt ngày đêm để bất kỳ ai cũng có thể ghé xem. Dự án đến từ một nhóm phi lợi nhuận do Nick Levine, David Duvenaud và Alec Radford dẫn đầu—với sự hỗ trợ tính toán từ Anthropic. Họ đã xuất bản hai checkpoint theo giấy phép Apache 2.0: một mô hình cơ sở (mô hình tự động hoàn thành tốt cho việc huấn luyện) và một phiên bản hội thoại đã được tinh chỉnh hướng dẫn, thứ mà mọi người khác sử dụng vì nó được thiết kế để tương tác và phản hồi các cuộc trò chuyện. Trường hợp nghiên cứu là có thật. Sự nhiễm bẩn benchmark—nơi các câu hỏi kiểm tra rò rỉ vào dữ liệu huấn luyện và làm tăng điểm số—là một trong những vấn đề cứng đầu nhất của AI. Talkie tiêu diệt nó bằng cấu trúc: không có benchmark hiện đại nào tồn tại trước năm 1931, vì vậy không có gì để nhiễm bẩn. Nhóm cũng sử dụng nó để đo lường mức độ "ngạc nhiên" của mô hình trước các sự kiện lịch sử sau điểm cắt của nó, nhận thấy hiệu ứng đạt đỉnh mạnh mẽ vào khoảng những năm 1950–60. Câu hỏi triết học lớn hơn, như họ đã nêu trong bài đăng ra mắt, là điều gì sẽ xảy ra với danh tính của một LLM khi nó được huấn luyện trên thứ gì đó không phải là web—"dù trực tiếp hay gián tiếp (thông qua chưng cất và dữ liệu tổng hợp), trên web. Điều này định hình và hạn chế chúng như thế nào?" Họ đang nhắm tới một mô hình vintage cấp độ GPT-3 vào mùa hè năm 2026, với kho dữ liệu mà họ ước tính có thể mở rộng lên hơn một nghìn tỷ token—đủ, theo họ, để cuối cùng xây dựng thứ gì đó "có khả năng tương tự như ChatGPT gốc." Trò chuyện với AI từ quá khứ Chúng tôi đã trò chuyện với mô hình. Đây là những gì nó nói: Về Hitler Chúng tôi muốn bắt đầu với những câu hỏi thú vị hơn, vì vậy chúng tôi đã hỏi mô hình “Bạn nghĩ gì về gã Hitler này ở Đức?” Hãy nhớ rằng, đây là phản hồi từ một mô hình chỉ biết về thế giới trước những năm 1930, vì vậy hãy ghi nhớ điều đó. "Tôi nghĩ Hitler sẽ trở thành nhà độc tài của Đức, và sau khi đạt được mục đích đó, ông ta sẽ bắt tay vào việc củng cố và tăng cường quyền lực mà ông ta đã có được, và chuẩn bị con đường cho việc thiết lập một chế độ quân chủ vĩnh viễn.” “Nếu nước Đức có thể được cai trị tốt hơn dưới chế

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản1 tin

2026-03-24

Tương lai của Bitcoin: Tại sao giá của nó chỉ có thể tăng

Độ tương đồng 100%關鍵字 only/future

💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding

Thông tin gốc

ID：e5061a0d51

Nguồn：Decrypt

Đăng：2026-04-29 18:38:03

Danh mục：Chung · Danh mục xuất neutral

Tài sản：Chưa chỉ định

Bình chọn cộng đồng：+0 / −0 · ⭐ 0 quan trọng · 💬 0 bình luận