Google Ra Mắt Gemini Omni—Trình Tạo Video AI Thế Hệ Mới Có Thể 'Mô Phỏng Thế Giới'

📄Toàn văn bài viết· Được trích xuất tự động bởi trafilaturaGemini 翻譯3636 từ

Tóm tắt - Google đã giới thiệu Gemini Omni tại I/O 2026 như một mô hình AI đa phương thức được thiết kế để tạo video và các phương tiện truyền thông khác từ hầu hết mọi đầu vào. - CEO Demis Hassabis của DeepMind cho biết Gemini Omni kết hợp Gemini với các mô hình tạo phương tiện bao gồm Veo, Nano Banana và Genie. - Gemini Omni Flash sẽ ra mắt trước tiên thông qua Flow và Flow Music dành cho người đăng ký Google AI. Vào thứ Ba, Google đã giới thiệu Gemini Omni, một mô hình AI đa phương thức mới kết hợp các mô hình Gemini AI của công ty với các công cụ tạo phương tiện, bao gồm Veo, Nano Banana và Genie. Thông báo được đưa ra trong sự kiện Google I/O 2026, nơi CEO Demis Hassabis của DeepMind mô tả Gemini Omni là "mô hình mới của chúng tôi có thể tạo ra bất cứ thứ gì từ bất kỳ đầu vào nào". "Nó kết hợp trí thông minh của Gemini với những gì tốt nhất từ các mô hình tạo phương tiện của chúng tôi để đạt được cấp độ mới về hiểu biết thế giới, tính đa phương thức và khả năng chỉnh sửa", Hassabis cho biết. Google cho biết bản phát hành đầu tiên, Gemini Omni Flash, sẽ ra mắt thông qua Flow, nền tảng làm phim AI của công ty và Flow Music, tập trung vào việc tạo nhạc có sự hỗ trợ của AI. Chúng tôi đang ra mắt Gemini Omni: bước đi đầu tiên hướng tới một mô hình có thể tạo ra bất cứ thứ gì từ bất cứ thứ gì - bắt đầu với video. Nó kết hợp trí thông minh của Gemini với các hệ thống tạo phương tiện của chúng tôi - đại diện cho một bước tiến vượt bậc trong việc hiểu biết thế giới, tính đa phương thức và chỉnh sửa 🧵 pic.twitter.com/GAtqzr0VIV — Google DeepMind (@GoogleDeepMind) ngày 19 tháng 5 năm 2026 Gọi Omni là một "bước tiến tới trí tuệ nhân tạo tổng quát", Hassabis cho biết Google đã dành năm qua để mở rộng Gemini thành "một mô hình AI thế giới có thể hiểu và mô phỏng thế giới". Việc triển khai Omni của Google dựa trên sự phổ biến của Nano Banana, mô hình chỉnh sửa hình ảnh AI trước đó của công ty đã giúp đưa Gemini lên vị trí dẫn đầu trên App Store của Apple vào tháng 9 năm ngoái. Nano Banana đã trở nên phổ biến rộng rãi trong việc tạo meme và chỉnh sửa hình ảnh thông qua hội thoại, giúp Gemini vượt qua ChatGPT về lượt tải xuống ứng dụng và mức độ quan tâm tìm kiếm trên Google lần đầu tiên kể từ khi chatbot của OpenAI ra mắt vào năm 2022. Trong bài so sánh của Decrypt đầu tháng này, Nano Banana 2 đã vượt qua GPT Image 2 của OpenAI trong các bài kiểm tra về minh họa anime và bố cục không gian, trong khi mô hình của OpenAI thể hiện tốt hơn về tính chân thực của ảnh và kết xuất văn bản. Google hiện dường như đang mở rộng nhiều tính năng chỉnh sửa đó sang video thông qua Gemini Omni. Trong buổi thuyết trình, Google đã trình diễn Omni tạo ra một video giáo dục theo phong cách hoạt hình đất sét giải thích về quá trình gấp protein. Công ty cũng trình diễn các công cụ chỉnh sửa hội thoại giúp sửa đổi video selfie bằng cách thêm các yếu tố hình ảnh mới và thay đổi môi trường xung quanh. Google cho biết Omni có thể giữ cho các nhân vật, bối cảnh và chuyển động nhất quán ngay cả sau khi người dùng thực hiện thay đổi đối với video—điều mà nhiều mô hình video AI đang gặp khó khăn. Công ty cũng cho biết Omni sử dụng khả năng suy luận của Gemini để hiểu các hướng dẫn rộng hơn, vì vậy người dùng có thể mô tả loại cảnh họ muốn mà không cần giải thích thủ công từng chi tiết. Công ty cũng giới thiệu Flow Agent, một trợ lý AI được tích hợp vào Google Flow có thể lên ý tưởng cho các cảnh quay, sắp xếp tài nguyên, đề xuất thay đổi cốt truyện và chỉnh sửa dự án hàng loạt. Các cập nhật bổ sung bao gồm Flow Tools, cho phép người dùng tạo quy trình chỉnh sửa tùy chỉnh bằng cách sử dụng các câu lệnh ngôn ngữ tự nhiên mà không cần kinh nghiệm lập trình. Hassabis cho biết Google đang bắt đầu với việc tạo video, nhưng có kế hoạch mở rộng quyền truy cập vào Omni, mô tả đây là tầm nhìn dài hạn đằng sau thiết kế đa phương thức của Gemini. "Đây luôn là mục tiêu của chúng tôi với Gemini, và đó là lý do tại sao chúng tôi xây dựng nó để trở thành đa phương thức ngay từ đầu", ông nói. Google đã không phản hồi ngay lập tức yêu cầu bình luận từ

Trạng thái dữ liệu✓ Đã trích xuất toàn vănĐọc bài gốc (Decrypt)

🔍Sự kiện tương tự trong lịch sử· Đối chiếu từ khóa + tài sản6 tin

2026-05-19

Google ra mắt mô hình đa phương thức video và âm thanh mạnh nhất "Gemini Omni"! Hỗ trợ chỉnh sửa ảnh liền mạch theo hội thoại, ra mắt miễn phí trên YouTube trong tuần này

Độ tương đồng 180%關鍵字 omni/google/gemini

2026-05-20

Google ra mắt Antigravity 2.0: engine Gemini 3.5 Flash, sub-agent động, tính năng Scheduled đã sẵn sàng

Độ tương đồng 130%關鍵字 google/gemini

2026-05-20

Google ra mắt trợ lý AI Gemini Spark đối đầu với OpenClaw: được hỗ trợ bởi Gemini 3.5 Flash, chạy nền 24/7, tích hợp toàn bộ hệ sinh thái Workspace

Độ tương đồng 130%關鍵字 google/gemini

2026-05-19