要聞列表Google 發表最強多模態影音模型「Gemini Omni」!支援對話式無縫修片,本週免費登陸 YouTube
動區 BlockTempo2026-05-19 17:04:31

Google 發表最強多模態影音模型「Gemini Omni」!支援對話式無縫修片,本週免費登陸 YouTube

AI 影響分析Grok 分析中...
📄完整原文· 由 trafilatura 自動擷取Gemini 翻譯1976 字
動動嘴就能剪影片!Google 於 I/O 2026 開發者大會上,重磅發布全新的多模態影音模型「Gemini Omni」。這款被視為殺手級應用的 AI 模型,不僅能從文字、圖片、語音生成物理保真度極高的影片,更具備強大的「對話式編輯」能力,能精準修改影片視角與動作。Gemini Omni Flash 版本即日起對付費用戶開放,本週也將免費進駐 YouTube Shorts。 (前情提要:Google 新推 AI 筆電 Googlebook:深度整合 Gemini,合作 Acer、ASUS、Dell、HP 和 Lenovo 今秋上市) (背景補充:Google 推出最強「自主代理與程式開發」模型 Gemini 3.5 Flash!12 小時寫出作業系統,成本不到 1000 美元) 今日盛大舉行的 Google I/O 2026 開發者大會上,曾多次以各種洩漏形式引發熱議的超強多模態模型 —— Gemini Omni,終於正式在全球觀眾面前亮相。 這款專注於「影片生成與編輯」的新一代模型,被外界視為 Google 整合旗下頂尖 AI 媒體生成系統的集大成之作,預計將對現有的影音創作生態帶來核彈級的影響。 Gemini Omni Flash is rolling out starting today. Here’s where you can find it: 🔹 Today: Google AI Plus, Pro and Ultra subscribers globally in the @GeminiApp and @FlowbyGoogle . 🔹Rolling out starting this week, for no cost: @YouTube Shorts and the YouTube Create app.… pic.twitter.com/irsFXVAk54 — Google (@Google) May 19, 2026 三大核心亮點:從無中生有到對話式編輯 根據官方展示,Gemini Omni 展現了令人驚豔的「世界理解」與物理保真度,其主要功能亮點包括: - 全能的生成與混剪(Remix):打破單一輸入限制,用戶可以透過純文字、圖片、音訊、現有影片,甚至是「手繪草圖」作為起點,讓 AI「從任何輸入創造出任何內容」。 - 革命性的「對話式編輯」:這項功能允許用戶直接在聊天介面中,用自然語言下達修改指令。例如要求 AI「改變攝影機視角」、「調整為黃昏光線」或「替換畫面中的物件」。AI 會基於前一次的結果進行多輪迭代,同時完美保持人物的一致性與物理法則。 - 高保真物理模擬:在早期 Demo 中,無論是教授在黑板上寫數學證明,還是兩個人吃義大利麵的複雜自然互動,Gemini Omni 都展現出極高的文本一致性與真實感。 Edit your own videos with Gemini Omni with just a conversation. 🎥 Prompt the changes you want to see to reimagine the action, change the point of view, or adjust the lighting over multiple turns. Every instruction builds on the last, so your characters stay consistent, the… pic.twitter.com/irsFXVAk54 — Google (@Google) May 19, 2026 上線時程規劃:付費用戶即日啟用,開發者 API 隨後跟上 為了讓創作者盡快體驗這項顛覆性的技術,Google 也公布了 Gemini Omni 的分階段釋出計畫: - 即日起上線:Google AI Plus、Pro 以及 Ultra 的訂閱用戶,現在已可於 Gemini App 與 Flow by Google 中,搶先體驗 Gemini Omni Flash 版本。 - 本週免費登陸:對於一般用戶與創作者,Google 將於本週起將該功能免費整合至 YouTube Shorts 與 YouTube Create App 中。 - 未來規劃:後續將透過 API 形式,正式面向全球開發者與企業用戶開放。 業界分析指出,Gemini Omni 可能是基於 Google 最強的影片生成模型 Veo(如 Veo 3.1)進行擴展,但它不再只是單一的影片管道,而是更強調圖、文、影、音「無縫融合」的統一多模態體驗。為確保安全性,目前透過 Gemini 生成的影片皆附有安全浮水印(Watermarks)並受到嚴格的內容限制規範。
資料狀態✓ 已擷取全文閱讀原文(動區 BlockTempo)
🔍歷史類似事件· 關鍵字 + 標的比對6 則
💡 目前用關鍵字 + 標的比對(MVP)· 之後會升級為 embedding 語意搜尋
原始資訊
ID:3af0ec1d93
來源:動區 BlockTempo
發佈:2026-05-19 17:04:31
分類:zh_news · 導出分類 zh
標的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言