Model Video Gemini Omni Debut: Video Any-to-Any untuk Kreator
Jadual Kandungan
Google Lancarkan Gemini Omni di I/O 2026
Mulai 20 Mei 2026, Google DeepMind melancarkan Gemini Omni, bermula dengan varian Flash. Model ini menerima sebarang gabungan teks, imej, audio dan klip video kemudian menghasilkan video yang diedit atau baru. Ia menawarkan pemahaman dunia yang lebih baik, simulasi fizik dan konsistensi scene ke scene. Pengumuman rasmi menekankan edit bahasa semula jadi yang mengekalkan pencahayaan, gerakan dan rupa watak. Akses awal tersedia serta-merta dalam app Gemini, Google Flow dan YouTube Shorts untuk pelanggan AS. API akan datang, walaupun tiada tarikh pasti lagi. Prestasi model video Gemini Omni sudah kelihatan lebih kukuh berbanding saluran paip berpecah dari tahun lalu. Masih di peringkat awal, tetapi pendekatan any-to-any boleh mengubah cara pencipta short-form bekerja sebenarnya.
Lebih Baik Daripada Veo? Konsistensi Akhirnya Menjadi Realiti
Tidak. Alat video Google sebelum ini seperti Veo terasa seperti dijahit bersama. Gemini Omni menggabungkan segalanya ke dalam satu sistem multimodal asli. Itu bermakna konsistensi temporal bertambah baik kerana model menjejaki objek dan watak merentasi bingkai bukannya meneka. Kesinambungan watak dan fizik dunia sebenar kedua-duanya menunjukkan peningkatan yang jelas dalam demo. Tukar latar belakang atau masukkan objek baru di tengah klip dan gerakan masih kekal. Perkara ini lebih penting untuk aliran kerja profesional berbanding resolusi mentah. Inilah masalahnya: kebanyakan hype sekitar "fizik" hanyalah bahan pemasaran. Gemini Omni sebenarnya menunjukkan kemajuan yang boleh diukur di sini, sekurang-kurangnya dalam ujian terkawal. Sama ada ia bertahan dengan arahan dunia sebenar yang berantakan masih perlu dilihat.
Aliran Kerja Pencipta Sebenar Yang Benar-Benar Berfungsi
Pencipta kini boleh memasukkan foto rujukan bersama nota suara dan meminta perubahan tertentu dalam bahasa biasa. Tukar tetapan, laraskan sudut kamera atau lanjutkan klip tanpa perlu bermula semula. Saluran paip bersepadu mengekalkan pencahayaan dan gerakan terkunci dalam edit tersebut. Jujukan koheren yang lebih panjang juga menjadi praktikal. Rantaikan generasi pendek sambil mengekalkan gaya dan identiti subjek. Alat penyuntingan video AI multimodal seperti ini menjimatkan berjam-jam daripada proses bolak-balik biasa. Kemajuan seperti saluran paip multimodal bersepadu Gemini Omni adalah tepat apa yang menggerakkan alat video AI generasi seterusnya — menyampaikan pemahaman dunia yang lebih kukuh, ketepatan fizik dan penyuntingan terkawal untuk pencipta yang bekerja merentasi setiap format. Bagi mereka yang menghadapi had dalam senario eksplisit, sebab di sebalik sekatan tersebut wajar diperiksa secara berasingan.
Soalan Terbuka Mengenai Gemini Omni
Bagaimana akses berfungsi hari ini untuk kebanyakan pencipta?
Gemini Omni Flash sudah aktif di dalam aplikasi Gemini, Google Flow dan YouTube Shorts untuk pelanggan AS. Pelancaran bermula serta-merta selepas keynote I/O pada 19 Mei. Akses antarabangsa yang lebih luas dan titik akhir API penuh masih menunggu.
Apakah kombinasi input yang disokong oleh Gemini Omni sekarang?
Model ini mengendalikan input campuran teks, imej, audio dan klip video. Anda boleh menggabungkan mana-mana daripada mereka untuk menjana atau mengedit video output. Demo awal menunjukkan hasil yang kukuh apabila imej rujukan membimbing konsistensi watak semasa perubahan berasaskan teks.
Bagaimana ia dibandingkan dengan model video terkemuka lain dari segi konsistensi?
Gemini Omni mendahului dari segi konsistensi temporal dan kesinambungan watak mengikut penanda aras awal. Ia mengatasi saluran paip berpecah dari versi Veo sebelum ini. Model frontier lain masih bergelut dengan penyimpangan fizik dalam klip yang lebih panjang.
Bilakah API akan tersedia untuk pembangun?
Google menjangkakan akses API tidak lama lagi tetapi tidak memberikan garis masa tepat. Rakan kongsi enterprise mungkin melihat integrasi lebih awal. Pencipta bebas berkemungkinan akan menunggu sehingga pelancaran awam stabil pada akhir musim panas ini.
Apa Maknanya Ini Untuk Perlumbaan Video AI Lain
Model multimodal bersepadu seperti Gemini Omni mempercepatkan saluran paip profesional. Pasukan pemasaran boleh mengulangi varian iklan dalam beberapa minit bukannya hari. Pencerita short-form mendapat kawalan yang lebih ketat ke atas pacing dan kesinambungan visual. Hebat. Peralihan yang lebih besar ialah bagaimana ia dengan cepat meningkatkan tahap minimum untuk semua orang lain. Pesaing perlu menandingi fleksibiliti any-to-any atau menyaksikan pencipta berhijrah. Pendapat panas saya: kebanyakan orang masih terlalu menilai kualiti generasi mentah. Halangan sebenar sentiasa penyuntingan dan konsistensi. Gemini Omni menyerang masalah itu secara langsung, itulah sebabnya ia terasa seperti langkah maju yang tulen bukannya reel demo lain.
Cipta Video Lucah AI Anda Sendiri
Tukarkan sebarang fantasi kepada video Full HD realistik. 1,000+ senario, posisi & fetish — 100% peribadi.
Mula MenciptaTentang Penulis
Jurnalis Teknologi AI
Jurnalis teknologi AI yang berani berkata apa yang orang lain enggan. Mengulas AI generatif, model video, dan pembelajaran mendalam — tiada hype, tiada filter.