Tämä Google DeepMindin uusi V2A-työkalu voisi olla tekoälyn luomien elokuvien palapelin viimeinen pala

Kun ensimmäinen tekoälyllä luotu video julkaistiin, kukaan ei osannut arvata, että videota tuottavat tekoälytyökalut tulevat niin pitkälle niin lyhyessä ajassa. Nykyään meillä on kuitenkin lukemattomia alustoja, joiden avulla käyttäjät voivat luoda korkealaatuisia, uskomattoman yksityiskohtaisia videoita, kuten Synthesia ja Luma AI:n Dream Machine. On kuitenkin olemassa muutamia haasteita, jotka estävät näitä työkaluja siirtymästä valtavirtaan.

Ja suurin ehkä on äänen luontiprosessi. Vaikka useimmat videontuotantoalustat voivat tuottaa hyvälaatuisia videoita, ne ovat enimmäkseen hiljaisia videoita ilman ääntä. Vaikka ääntä olisikin, se lisätään yleensä erikseen ja se ei vastaa käyttäjien odotuksia.

Esimerkiksi, jos vierailet Luma AI:n Dream Machine -sivulla, voit nähdä erittäin vaikuttavia videoita, mutta niihin liittyvä ääni on melko yleistä ja heikkolaatuista. Mutta tämä saattaa muuttua Googlen uuden video-audio-tekniikan (V2A) myötä.

Tämä lupaa tuoda laadukkaan äänentoiston videoille suurelle yleisölle, mikä tarkoittaa, että sen avulla voit vihdoin tuottaa tekoälyllä luotuja elokuvia, joissa on oikea ääniraita ja ääni, mikä ylittää kaikki tällä hetkellä tuotetut tekoälyn tuottamat videot.

Tekoälyn luoma ääni

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Mikä on Google DeepMindin videosta ääneksi -tutkimus?

Googlen DeepMindin kehittämä Video-to-Audio (V2A) -tekniikka on suunniteltu luomaan ääniraitoja tekoälyn luomille videoille. Tämä tekniikka mahdollistaa videoiden ja äänen generoinnin samanaikaisesti yhdistämällä luonnollisen kielen kehotteet videopikseleihin äänien luomiseksi mitä tahansa videossa tapahtuvaa toimintaa varten.

Tämä tekniikka voidaan yhdistää videoiden luomiseen käytettyjen tekoälymallien, kuten Veon, kanssa, ja se voi auttaa luomaan realistisia dialogeja ja äänitehosteita sekä dramaattisia, videota vastaavia tuloksia. Vielä tärkeämpää on, että uusi V2A-tekniikka ei rajoitu vain tekoälyllä luotuihin videoihin, vaan sitä voidaan käyttää myös ääniraitojen luomiseen perinteisellä tavalla tuotetuille videoille. Siten voit käyttää sitä mykkäelokuvien, arkistomateriaalin ja muiden kanssa.

V2A-tekniikan avulla käyttäjät voivat luoda rajattomasti ääniraitoja videoille ja jopa käyttää positiivisia ja negatiivisia kehotteita ohjaamaan äänenmuodostusprosessia ja hankkimaan tarvittavat äänet helposti. Tämä mahdollistaa myös enemmän joustavuutta, joten voit kokeilla erilaisia lähtöjä ja löytää parhaiten tietylle videolle.

Ääninäyte meduusasta, joka sykkii veden alla. Lähde: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Miten V2A-tekniikka toimii?

Googlen mukaan yritys kokeili diffuusiopohjaisia ja autoregressiivisiä tekniikoita ja totesi edellisen soveltuvimmaksi äänentuotantoon. Se tuottaa erittäin realistisia ääniä ja toimii koodaamalla videon pakattuun muotoon.

Tämän jälkeen diffuusiomallilla erotetaan satunnainen kohina videosta luottaen luonnollisen kielen kehotteisiin ja videoon. Kehotteet auttavat luomaan realistisen äänen, joka on täydellisesti synkronoitu videon kanssa. Tätä seuraa äänen dekoodaus, jonka jälkeen se muunnetaan ääniaaltomuodoksi ja yhdistetään videoon.

Googlen DeepMind tarjosi lisätietoa tekoälyn kouluttamiseen, minkä ansiosta käyttäjät voivat ohjata äänentuotantoprosessia kohti vaadittuja ääniä ja antaa alustalle mahdollisuuden tuottaa laadukkaampaa ääntä. Tällaisiin tietoihin sisältyi puhutun dialogin transkriptioita ja yksityiskohtaisia äänikuvauksia tekoälyn luomilla huomautuksilla.

Kun V2A-tekniikka on koulutettu tällaisiin tietoihin, se voi yhdistää erilaisia visuaalisia kohtauksia tiettyihin äänitapahtumiin.

Mitä on horisontissa?

DeepMindin V2A-tekniikka toimii paljon paremmin kuin muut V2A-ratkaisut, koska se ei aina vaadi tekstikehotetta ja pystyy ymmärtämään videopikseleitä. Äänilähtöä ei myöskään tarvitse kohdistaa manuaalisesti videon kanssa. Teknologialla on kuitenkin edelleen tiettyjä rajoituksia, jotka Google pyrkii voittamaan lisätutkimuksilla.

Esimerkiksi luodun äänen laatu riippuu tulona käytetyn videon laadusta. Jos videossa on vääristymiä tai artefakteja, tekoälymalli ei ymmärrä niitä, koska ne eivät sisälly sen koulutukseen, mikä lopulta heikentää äänenlaatua.

Lisäksi yhtiö pyrkii parantamaan huulten synkronointia videoissa, joissa on ihmisen puhetta. V2A-tekniikka yrittää tuottaa puhetta sisääntulotranskripteillä ja kohdistaa sen sitten videon hahmojen huulten liikkeisiin. Jos video ei kuitenkaan perustu transkriptioihin, äänen ja huulten liikkeet eivät täsmää.

Paremmilla äänentoisto-ominaisuuksilla AI-mallit pystyvät luomaan videoita, jotka eivät vain näytä vaikuttavilta, vaan myös kuulostavat hyvältä. Google on myös integroimassa V2A-teknologiaansa SynthID:hen, joka merkitsee vesileiman kaikkeen tekoälyllä luotuun sisältöön. Tämä voi auttaa estämään sen väärinkäytön ja varmistamaan täydellisen turvallisuuden.

Lisäksi yhtiö sanoo testaavansa V2A-tekniikkaansa tiukasti ennen sen julkistamista. Toistaiseksi Googlen esittämien ja tulevaisuuden lupausten perusteella tämä tekniikka on muodostumassa merkittäväksi edistykseksi tekoälyn luomien videoiden äänen luomisessa.