Under Google I/O 2026 visade Google upp Gemini Omni, en ny multimodal AI-modell som kan kombinera text, bilder, ljud och video för att skapa helt nya videoklipp. Målet är att låta användare skapa innehåll från i princip vilken typ av input som helst.
Den första versionen, Gemini Omni Flash, kan generera upp till tio sekunder långa videor och kommer direkt till Gemini-appen, YouTube Shorts och AI-verktyget Flow. Modellen kan exempelvis skapa animerade förklaringsvideor, redigera bilder med vanliga textkommandon och generera personliga avatarer.
Google beskriver Omni som nästa steg i utvecklingen från traditionella språkmodeller till AI-system som bättre förstår och simulerar verkligheten. Tekniken bygger vidare på Gemini-plattformens multimodala AI och kombinerar detta med Googles avancerade videoteknik från Veo.
Alla AI-genererade videor märks dessutom med Googles SynthID-vattenmärkning för att motverka deepfakes och manipulationer. På sikt ska Omni även kunna skapa exempelvis ljud från video eller bilder från ljud.
Google ser både kreatörer och företag som viktiga målgrupper för tekniken, och ett API för utvecklare väntas lanseras inom de kommande veckorna.
Källa: Google