Google Lumiere maakt korte, scherpe AI-video’s

by Patrick Petersen · Published 24 januari 2024 · Updated 30 januari 2024

Hoofdstuk 4-5-6 AI-video's maken met Google Lumiere

De tool hing in de lucht en is er dan nu officieel voor gebruik. Google’s nieuwe AI-model voor videogeneratie, Lumiere, maakt gebruik van een nieuw diffusiemodel genaamd Space-Time-U-Net, of STUNet, dat bepaalt waar dingen zich bevinden in een video (ruimte) en hoe ze tegelijkertijd bewegen en veranderen (tijd). Ars Technica meldt dat deze methode Lumiere in staat stelt de video in één proces te maken in plaats van kleinere stilstaande beelden samen te voegen.

Lumiere begint met het maken van een basisframe vanuit de prompt. Vervolgens gebruikt het het STUNet-framework om te beginnen met het benaderen van waar objecten binnen dat frame zich zullen verplaatsen om meer frames te creëren die in elkaar overvloeien, waardoor het lijkt alsof er naadloze beweging is. Lumiere genereert ook 80 frames in vergelijking met 25 frames van Stable Video Diffusion.

Tweakers schrijft:

In een paper die op arXiv gepubliceerd werd, beschrijft het onderzoeksteam van Google hoe de software werkt. Het team ontwikkelde een nieuwe architectuur, genaamd ‘Space-Time U-Net’. Die maakt het mogelijk om een filmpje in één keer te genereren. Dat moet de architectuur onderscheiden van bestaande modellen, die in een eerste stap gespreide keyframes genereren, waarna de tussenliggende frames met temporele superresolutie worden aangevuld. Temporele superresolutie is een techniek in de beeldverwerking die wordt gebruikt om de tijdsresolutie van een video te verbeteren. Het doel is om tussenliggende frames te genereren op basis van de bestaande frames in een video, waardoor de framerate van de video effectief wordt verhoogd. Bij Lumiere is dat niet het geval, die genereert de beelden zonder die superresolutie.De gegenereerde output is momenteel beperkt tot video’s van slechts vijf seconden lang met een resolutie van 1024×1024 pixels. Google beschouwt dat zelf als lage resolutie, maar het is onduidelijk of toekomstige versies van het systeem een hogere resolutie zullen ondersteunen. Momenteel is Lumiere een onderzoeksproject en dus nog niet beschikbaar voor het grote publiek. Wanneer en of dat zal gebeuren, is niet bekend.

Teaser van Google

De teaser die Google heeft gepubliceerd, samen met een wetenschappelijk voorpublicatieartikel, laat zien dat AI-video-generatie- en bewerkingstools in slechts een paar jaar tijd van de uncanny valley naar bijna realistisch zijn gegaan. Het vestigt ook de technologie van Google in het gebied dat al wordt ingenomen door concurrenten zoals Runway, Stable Video Diffusion of Meta’s Emu. Runway, een van de eerste massa-markt tekst-naar-video platforms, bracht Runway Gen-2 uit begin 2023 en is begonnen met het aanbieden van meer realistisch ogende video’s. Runway-video’s hebben ook moeite om beweging weer te geven.

Google Lumiere

Runway gegenereerde video Ja, sommige van de gepresenteerde clips hebben een vleugje kunstmatigheid, vooral als je goed kijkt naar de huidtextuur of als de scène meer atmosferisch is. Maar kijk naar die schildpad! Het beweegt zoals een schildpad daadwerkelijk zou doen in water! Het ziet eruit als een echte schildpad! Ik stuurde de introductievideo van Lumiere naar een vriend die een professionele videoredacteur is. Hoewel ze opmerkte dat “je duidelijk kunt zien dat het niet helemaal echt is”, vond ze het indrukwekkend dat als ik haar niet had verteld dat het AI was, ze zou denken dat het CGI was.

Andere modellen voegen video’s samen uit gegenereerde sleutelframes waar de beweging al heeft plaatsgevonden (denk aan tekeningen in een flipboek), terwijl STUNet Lumiere in staat stelt zich te richten op de beweging zelf op basis van waar de gegenereerde inhoud op een bepaald moment in de video zou moeten zijn.

The Verge schrijft januari 2024:

Google is geen grote speler geweest op het gebied van tekst-naar-video, maar het heeft langzaam meer geavanceerde AI-modellen uitgebracht en zich gericht op een meer multimodale focus. Zijn Gemini groot taalmodel zal uiteindelijk beeldgeneratie naar Bard brengen. Lumiere is nog niet beschikbaar voor testen, maar het laat zien dat Google in staat is om een AI-videoplatform te ontwikkelen dat vergelijkbaar is met – en misschien zelfs iets beter is dan – algemeen beschikbare AI-video-generatoren zoals Runway en Pika. En ter herinnering, dit was waar Google twee jaar geleden stond met AI-video.

Geanimeerde GIF met voorbeelden van Google’s Imagen-generator Google Imagen-fragment uit 2022 Afbeelding: Google Naast tekst-naar-video-generatie zal Lumiere ook beeld-naar-video-generatie mogelijk maken, gestileerde generatie, waarmee gebruikers video’s in een specifieke stijl kunnen maken, cinemagraphs die slechts een deel van een video animeren, en inpainting om een gebied van de video te maskeren om de kleur of het patroon te veranderen.

Het Lumiere-artikel van Google merkte echter op dat “er een risico bestaat op misbruik voor het maken van nep- of schadelijke inhoud met onze technologie, en we geloven dat het cruciaal is om tools te ontwikkelen en toe te passen voor het detecteren van vooroordelen en kwaadwillende gebruiksscenario’s om een veilig en eerlijk gebruik te garanderen.” De auteurs van het artikel legden niet uit hoe dit kan worden bereikt.

Androidworld uit Nederland voegt toe:

Lumiere: een nieuwe tool van Google die fotorealistische filmpjes op basis van tekstprompt maakt. Het kan verschillende tekenstijlen nabootsen, zoals manga of Van Gogh met mogelijkheid om video’s te bewerken.

Mogelijkheid om animaties te maken
- Voor presentaties of sociale media
- Resolutie: 1024 x 1024
- Duur: maximaal vijf seconden
Toekomstige ontwikkelingen
- Verbetering van resolutie mogelijk in de toekomst
- Lumiere nog in onderzoeksprojectfase
- Potentiële toepassingen in de toekomst nog onduidelijk