Google Meluncurkan Gemini Omni—Pembangun Video AI Generasi Berikutnya yang Dapat 'Mensimulasikan Dunia'

📄Artikel lengkap· Diambil secara otomatis oleh trafilaturaGemini 翻譯3636 kata

Singkatnya - Google memperkenalkan Gemini Omni di I/O 2026 sebagai model AI multimodal yang dirancang untuk menghasilkan video dan media lainnya dari hampir semua input. - CEO DeepMind Demis Hassabis mengatakan Gemini Omni menggabungkan Gemini dengan model penghasil media termasuk Veo, Nano Banana, dan Genie. - Gemini Omni Flash diluncurkan pertama kali melalui Flow dan Flow Music untuk pelanggan Google AI. Google pada hari Selasa memperkenalkan Gemini Omni, model AI multimodal baru yang menggabungkan model AI Gemini milik perusahaan dengan alat penghasil medianya, termasuk Veo, Nano Banana, dan Genie. Pengumuman tersebut disampaikan selama Google I/O 2026, di mana CEO DeepMind Demis Hassabis mendeskripsikan Gemini Omni sebagai “model baru kami yang dapat menciptakan apa pun dari input apa pun.” “Ini menggabungkan kecerdasan Gemini dengan yang terbaik dari model media generatif kami untuk tingkat pemahaman dunia, multimodalitas, dan penyuntingan yang baru,” kata Hassabis. Google mengatakan rilis pertama, Gemini Omni Flash, akan diluncurkan melalui Flow, platform pembuatan film AI milik perusahaan, dan Flow Music, yang berfokus pada pembuatan musik dengan bantuan AI. Kami merilis Gemini Omni: langkah pertama kami menuju model yang dapat menciptakan apa pun dari apa pun - dimulai dengan video. Ini menggabungkan kecerdasan Gemini dengan sistem media generatif kami - mewakili lompatan maju dalam pemahaman dunia, multimodalitas, dan penyuntingan 🧵 pic.twitter.com/GAtqzr0VIV — Google DeepMind (@GoogleDeepMind) 19 Mei 2026 Menyebut Omni sebagai “langkah menuju kecerdasan buatan umum (artificial general intelligence),” Hassabis mengatakan Google telah menghabiskan satu tahun terakhir untuk memperluas Gemini menjadi “AI model dunia yang dapat memahami dan menyimulasikan dunia.” Peluncuran Omni oleh Google dibangun di atas popularitas Nano Banana, model penyuntingan gambar AI perusahaan sebelumnya yang membantu mendorong Gemini ke puncak App Store Apple September lalu. Nano Banana menjadi banyak digunakan untuk pembuatan meme dan penyuntingan gambar percakapan, yang secara singkat membantu Gemini melampaui ChatGPT dalam unduhan aplikasi dan minat pencarian Google untuk pertama kalinya sejak chatbot OpenAI diluncurkan pada 2022. Dalam perbandingan Decrypt awal bulan ini, Nano Banana 2 mengungguli GPT Image 2 milik OpenAI dalam tes ilustrasi anime dan komposisi spasial, sementara model OpenAI berkinerja lebih baik dalam fotorealisme dan rendering teks. Google kini tampaknya memperluas banyak fitur penyuntingan tersebut ke video melalui Gemini Omni. Selama presentasi, Google mendemonstrasikan Omni yang menghasilkan video edukasi bergaya claymation yang menjelaskan pelipatan protein. Perusahaan juga menunjukkan alat penyuntingan percakapan yang memodifikasi video selfie dengan menambahkan elemen visual baru dan mengubah lingkungan sekitar. Google mengatakan Omni dapat menjaga karakter, latar belakang, dan gerakan yang sama tetap konsisten bahkan setelah pengguna membuat perubahan pada video—sesuatu yang sulit dilakukan oleh banyak model video AI. Perusahaan juga mengatakan Omni menggunakan kemampuan penalaran Gemini untuk memahami instruksi yang lebih luas, sehingga pengguna dapat mendeskripsikan jenis adegan yang mereka inginkan tanpa menjelaskan setiap detail secara manual. Perusahaan juga memperkenalkan Flow Agent, asisten AI yang terintegrasi ke dalam Google Flow yang dapat melakukan brainstorming adegan, mengatur aset, merekomendasikan perubahan plot, dan mengedit proyek secara batch. Pembaruan tambahan termasuk Flow Tools, yang memungkinkan pengguna membuat alur kerja penyuntingan khusus menggunakan perintah bahasa alami tanpa pengalaman coding. Hassabis mengatakan Google memulai dengan pembuatan video, tetapi berencana untuk memperluas akses ke Omni, mendeskripsikannya sebagai visi jangka panjang di balik desain multimodal Gemini. “Ini selalu menjadi tujuan kami dengan Gemini, dan alasan kami membangunnya agar menjadi multimodal sejak awal,” katanya. Google tidak segera menanggapi permintaan komentar dari Decrypt.

Status data✓ Teks lengkap telah diambilBaca artikel asli (Decrypt)

🔍Peristiwa serupa dalam sejarah· Pencocokan kata kunci + aset6 berita

2026-05-19

Google meluncurkan model video multimodal terkuat "Gemini Omni"! Mendukung pengeditan video percakapan yang mulus, hadir gratis di YouTube minggu ini

Tingkat kemiripan 180%關鍵字 omni/google/gemini

2026-05-20

Google meluncurkan Antigravity 2.0: mesin Gemini 3.5 Flash, sub-agent dinamis, dan fitur penjadwalan Scheduled sudah tersedia

Tingkat kemiripan 130%關鍵字 google/gemini

2026-05-20

Google meluncurkan asisten AI Gemini Spark untuk menyaingi OpenClaw: didukung Gemini 3.5 Flash, berjalan di latar belakang 24/7, terintegrasi dengan seluruh rangkaian Workspace

Tingkat kemiripan 130%關鍵字 google/gemini

2026-05-19