Danh sách tinOpenAI ra mắt ChatGPT Images 2.0: Cải tiến vượt bậc về kết xuất văn bản, hỗ trợ tạo nhiều ảnh, nhưng "tạo văn bản tiếng Trung" vẫn gặp khó khăn
動區 BlockTempo2026-04-21 18:29:43

OpenAI ra mắt ChatGPT Images 2.0: Cải tiến vượt bậc về kết xuất văn bản, hỗ trợ tạo nhiều ảnh, nhưng "tạo văn bản tiếng Trung" vẫn gặp khó khăn

ORIGINALOpenAI 推出 ChatGPT Images 2.0:文字渲染大進化、支援多圖生成,但「中文生成」仍卡關
Phân tích tác động AIGrok đang phân tích...
📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯1394 từ
AI vẽ tranh lại tiến hóa! OpenAI vào thứ Ba tuần này đã chính thức ra mắt mô hình tạo ảnh hoàn toàn mới "ChatGPT Images 2.0". Mô hình mới tăng cường đáng kể "khả năng suy luận" và kỹ thuật "kết xuất văn bản", người dùng hiện có thể tạo nhiều ảnh cùng lúc, tùy chỉnh tỷ lệ khung hình cực đoan, thậm chí tạo chính xác các từ tiếng Anh trong ảnh. Tuy nhiên, các phương tiện truyền thông nước ngoài thử nghiệm thực tế phát hiện ra rằng, khi mô hình này xử lý các ngôn ngữ không phải tiếng Anh như tiếng Trung, vẫn sẽ xuất hiện các "ký tự AI hỗn loạn" khó nhận diện. (Thông tin trước đó: Tuổi thọ chỉ 3 tháng! OpenAI bất ngờ đóng cửa nền tảng viết nghiên cứu khoa học Prism, chiến lược chuyển hướng lớn "không làm nghề tay trái nữa") (Bổ sung bối cảnh: Người đứng sau ChatGPT Srinivas Narayanan đột ngột từ chức tại OpenAI, trong một tuần đã có 3 cấp cao rời đi) ChatGPT Images 2.0, và cung cấp phiên bản tính toán mạnh mẽ hơn cho người đăng ký trả phí. Cuộc chiến tạo ảnh lại nóng lên. OpenAI vào thứ Ba (ngày 21) tuyên bố ra mắt mô hình AI tạo ảnh hoàn toàn mới cho người dùng ChatGPT và Codex trên toàn cầu —— bản cập nhật quan trọng lần này không chỉ mang lại hiệu suất hình ảnh tinh tế hơn, mà còn cố gắng giải quyết vấn đề "kết xuất văn bản (Text rendering)" đau đầu nhất của AI vẽ tranh trước đây. Kết hợp khả năng suy luận, một lần nhắc lệnh có thể tạo ra nhiều ảnh So với các mô hình trước đây, bước đột phá lớn nhất của Images 2.0 nằm ở việc nó tích hợp khả năng "suy luận (Reasoning)" mạnh mẽ của ChatGPT. Điều này có nghĩa là trước khi tạo ảnh, AI sẽ thực hiện nhiều bước suy nghĩ hơn, thậm chí có thể kết nối internet để tìm kiếm thông tin mới nhất (cơ sở kiến thức nền tảng của mô hình này có thời hạn đến tháng 12 năm 2025). Các nâng cấp nổi bật của mô hình mới bao gồm: - Tạo ảnh liên tục nhiều tấm: Người dùng chỉ cần nhập Prompt một lần là có thể để mô hình tạo ra một loạt ảnh, ví dụ như nội dung hình ảnh của cả một cuốn cẩm nang học tập. - Kích thước tùy chỉnh cao: Phá vỡ giới hạn tỷ lệ truyền thống, mô hình mới hỗ trợ tỷ lệ khung hình từ 3:1 (cực rộng) đến 1:3 (cực cao), người dùng có thể chỉ định kích thước mong muốn trực tiếp trong Prompt. - Biểu đồ thông tin tinh tế hơn: Khi các phương tiện truyền thông nước ngoài thử nghiệm yêu cầu tạo biểu đồ thông tin về "Dự báo thời tiết ngày mai tại San Francisco và các hoạt động được đề xuất", AI đã kết hợp thành công các chi tiết thời tiết và các địa danh địa phương (như Ferry Building, Castro Theatre, Transamerica Pyramid) một cách chính xác vào cùng một khung hình. Đánh vần tiếng Anh vượt qua hoàn hảo, nhưng "poster tiếng Trung" lại thành ký tự hỗn loạn Trong vài năm qua, khi các mô hình chính thống cố gắng tạo văn bản trong hình ảnh, chúng thường tạo ra các ký tự bị méo mó hoặc các từ bị sai chính tả. Theo thử nghiệm thực tế, Images 2.0 đã đạt được những tiến bộ đáng kinh ngạc trong việc kết xuất văn bản tiếng Anh, các từ tiếng Anh trong hình ảnh trở nên rõ ràng và chính xác hơn. Tuy nhiên, khi thách thức các ngôn ngữ không phải tiếng Anh, Images 2.0 vẫn tỏ ra bất lực. Nhân viên thử nghiệm của truyền thông nước ngoài đã yêu cầu ChatGPT bắt chước người hâm mộ Trung Quốc, tạo một "poster cổ vũ tiếng Trung" cho nam diễn viên Hollywood Timothée Chalamet. Mặc dù poster tạo ra có sức hút thị giác cực lớn (bao gồm các yếu tố như trang phục truyền thống, tai mèo, trà sữa trân châu và gấu trúc), và trong hình ảnh chứa đầy hơn 20 chỗ văn bản, nhưng những chữ này lại không thể đọc được. Khi người thử nghiệm hỏi ngược lại ChatGPT những chữ này có ý nghĩa gì, AI đã thể hiện khả năng "tự phê bình" cực mạnh, trả lời một cách trung thực: "Phần lớn trong số này là giả, hoặc là những văn bản AI vô nghĩa được ngụy trang thành poster meme tiếng Trung, vì vậy không thể dịch một cách hoàn toàn trôi chảy. Cũng có những chỗ rõ ràng là bị méo mó, hoặc trộn lẫn các ký tự trông giống tiếng Nhật... Phần lớn những thứ này
Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (動區 BlockTempo)
🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin
💡 Hiện đang sử dụng đối chiếu từ khóa + tài sản (MVP) · Sau này sẽ nâng cấp lên tìm kiếm ngữ nghĩa embedding
Thông tin gốc
ID:b6f0f51663
Nguồn:動區 BlockTempo
Đăng:2026-04-21 18:29:43
Danh mục:zh_news · Danh mục xuất zh
Tài sản:Chưa chỉ định
Bình chọn cộng đồng:+0 /0 · ⭐ 0 quan trọng · 💬 0 bình luận