OpenAI cuối cùng đã giải thích lý do tại sao ChatGPT không chịu ngừng nói về Goblins

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯6176 từ

Tóm tắt - Tính cách "Nerdy" của OpenAI đã khen thưởng các phép ẩn dụ về goblin, lan truyền sự kỳ quặc này trên tất cả các mô hình GPT thông qua học tăng cường (reinforcement learning). - Số lần nhắc đến goblin trong chế độ Nerdy của GPT-5.4 đã tăng 3.881% so với GPT-5.2, dẫn đến một cuộc điều tra nội bộ và bản vá system prompt khẩn cấp. - Giải pháp—viết "không bao giờ nói về goblin" trong một developer prompt—cho thấy lý do tại sao các bản vá system prompt nhanh hơn nhưng rủi ro hơn so với việc đào tạo lại. Nếu gần đây bạn yêu cầu ChatGPT hỗ trợ lập trình và nó phản hồi bằng cách gọi lỗi của bạn là một "mischievous little gremlin", thì bạn không hề tưởng tượng ra đâu. Mô hình này đã phát triển một sự ám ảnh thực sự với các sinh vật giả tưởng—goblin, gremlin, gấu trúc, troll, ogre, và vâng, cả chim bồ câu—và OpenAI đã công bố một bài phân tích chi tiết về cách điều đó xảy ra. Phiên bản ngắn gọn: một tín hiệu khen thưởng được thiết kế để làm cho ChatGPT trở nên vui tươi hơn đã đi chệch hướng, và lũ goblin đã nhân lên. Câu chuyện về goblin chỉ được công khai vì người dùng Reddit đã phát hiện ra dòng "never mention goblins" trong một Codex system prompt bị rò rỉ trên GitHub. Bài đăng đã lan truyền mạnh mẽ trước khi OpenAI công bố lời giải thích của riêng mình. Cách tính cách Nerdy tạo ra sự xâm nhập của goblin Theo OpenAI, dấu vết bắt đầu từ GPT-5.1, ra mắt vào tháng 11 năm ngoái. Đó là lúc OpenAI giới thiệu tính năng tùy chỉnh tính cách, cho phép người dùng chọn các phong cách như Friendly, Professional, Efficient, và Nerdy. Tính cách Nerdy đi kèm với một system prompt yêu cầu mô hình phải trở nên mọt sách và vui tươi, để "phá vỡ sự giả tạo thông qua việc sử dụng ngôn ngữ vui tươi", và thừa nhận rằng "thế giới rất phức tạp và kỳ lạ". Hóa ra, prompt đó lại là một nam châm thu hút goblin. Trong quá trình đào tạo học tăng cường, tín hiệu khen thưởng cho tính cách Nerdy liên tục chấm điểm cao hơn cho các kết quả đầu ra khi chúng chứa các phép ẩn dụ về từ ngữ sinh vật. Trên 76,2% tập dữ liệu được kiểm toán, các phản hồi có từ "goblin" hoặc "gremlin" nhận được điểm tốt hơn so với các phản hồi tương tự không có chúng. Mô hình đã học được rằng: sự kỳ quặc đồng nghĩa với phần thưởng. Số lần nhắc đến goblin đã bùng nổ trong GPT-5.4, với tính cách Nerdy cho thấy mức tăng 3.881% so với GPT-5.2. Vấn đề là học tăng cường không giữ các hành vi đã học được một cách tách biệt. Khi một thói quen phong cách được khen thưởng trong một ngữ cảnh, nó sẽ lan sang các ngữ cảnh khác thông qua vòng lặp phản hồi: mô hình tạo ra các kết quả đầu ra chứa đầy sinh vật, những kết quả đó được tái sử dụng trong dữ liệu tinh chỉnh (fine-tuning), và hành vi này trở nên sâu sắc hơn trên toàn bộ mô hình, ngay cả khi không kích hoạt Nerdy prompt. Nerdy chỉ chiếm 2,5% tổng số phản hồi của ChatGPT. Nó chịu trách nhiệm cho 66,7% tổng số lần nhắc đến "goblin". Do các phương pháp của OpenAI, sự phổ biến của goblin và gremlin đã tăng đều đặn trong quá trình đào tạo khi tính cách Nerdy được kích hoạt. Ngay cả khi không có tính cách Nerdy, các đề cập đến sinh vật vẫn tăng dần—bằng chứng của sự lây nhiễm chéo thông qua dữ liệu supervised fine-tuning. GPT-5.5 đã đi quá xa Vào thời điểm OpenAI tìm ra nguyên nhân gốc rễ, GPT-5.5 đã ở sâu trong quá trình đào tạo, và nó đã hấp thụ cả một gia đình các từ ngữ về sinh vật. Một cuộc kiểm toán dữ liệu đã gắn cờ không chỉ goblin và gremlin mà còn cả gấu trúc, troll, ogre và chim bồ câu là những thứ mà công ty gọi là "tic words". ("Frogs", đối với những người tò mò, hầu hết là hợp lệ.) Đỉnh điểm có thể đo lường đầu tiên: số lần nhắc đến goblin tăng 175% và số lần nhắc đến gremlin tăng 52% sau khi GPT-5.1 ra mắt. Ng

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-04-30

OpenAI triển khai bảo mật tài khoản nâng cao cho người dùng ChatGPT

Độ tương đồng 130%關鍵字 chatgpt/openai

2026-04-29

Việc giảm đòn bẩy DeFi ảnh hưởng đến AAVE – Nhà phân tích giải thích lý do nhu cầu vay giảm mạnh

Độ tương đồng 130%關鍵字 why/explains

2026-04-29

Giải mã toàn diện quảng cáo trên ChatGPT: Đối thoại là thẻ tag, quảng cáo theo ngữ cảnh, Cookie theo dõi 30 ngày, OpenAI hiểu rõ nhất bạn đang nghĩ gì

Độ tương đồng 130%關鍵字 chatgpt/openai

2026-04-29