„Google DeepMind“, „Google“ pavyzdinė AI tyrimų laboratorija, nori nugalėti OpenAI vaizdo įrašų generavimo žaidime – ir tai gali bent trumpam.
Pirmadienį „DeepMind“ paskelbė apie „Veo 2“ – naujos kartos vaizdo įrašus generuojančią AI ir „Veo“ įpėdinį, kuris aprūpina vis daugiau produktų visame „Google“ portfelyje. „Veo 2“ gali sukurti dviejų minučių ir daugiau vaizdo įrašus iki 4k (4096 x 2160 pikselių) raiška.
Pažymėtina, kad OpenAI Sora gali pasiekti 4 kartus didesnę skiriamąją gebą ir daugiau nei 6 kartus ilgiau.
Kol kas tai teorinis pranašumas, savaime suprantama. „Google“ eksperimentiniame vaizdo įrašų kūrimo įrankyje „VideoFX“, kuriame dabar galima išskirtinai „Veo 2“, vaizdo įrašai yra ribojami iki 720p ir aštuonių sekundžių trukmės. (Sora gali sukurti iki 1080p, 20 sekundžių trukmės klipus.)
„VideoFX“ yra laukiančiųjų sąraše, tačiau „Google“ teigia, kad šią savaitę padidina vartotojų, galinčių jį pasiekti, skaičių.
Eli Collinsas, „DeepMind“ produkto viceprezidentas, taip pat sakė „TechCrunch“, kad „Google“ leis „Veo 2“ naudoti per savo Vertex AI kūrėjų platformą, „kai modelis bus paruoštas naudoti dideliu mastu“.
„Per ateinančius mėnesius mes ir toliau kartosime, remdamiesi vartotojų atsiliepimais, – sakė Collinsas, – ir (mes) sieksime integruoti atnaujintas Veo 2 galimybes į patrauklius naudojimo atvejus visoje „Google“ ekosistemoje… (Tikimės) kitais metais pasidalinti daugiau naujienų.
Labiau valdomas
Kaip ir „Veo“, „Veo 2“ gali generuoti vaizdo įrašus su tekstu (pvz., „Automobilis lekiantis greitkeliu“) arba tekstą ir nuorodos vaizdą.
Taigi, kas naujo Veo 2? Na, „DeepMind“ teigia, kad modelis, galintis generuoti įvairių stilių klipus, turi patobulintą fiziką ir fotoaparato valdiklius bei sukuria „aiškesnę“ filmuotą medžiagą.
Aiškesnė, DeepMind reiškia, kad klipų tekstūros ir vaizdai yra ryškesni – ypač daug judesių turinčiose scenose. Kalbant apie patobulintus kameros valdiklius, jie leidžia „Veo 2“ tiksliau nustatyti virtualią „kamerą“ vaizdo įrašuose, kuriuos jis sukuria, ir perkelti tą kamerą, kad būtų galima užfiksuoti objektus ir žmones iš skirtingų kampų.
„DeepMind“ taip pat teigia, kad „Veo 2“ gali tikroviškiau modeliuoti judesį, skysčių dinamiką (pvz., kavos pilimą į puodelį) ir šviesos savybes (tokias kaip šešėliai ir atspindžiai). Tai apima skirtingus objektyvus ir kino efektus, sako DeepMind, taip pat „niuansuotą“ žmogaus išraišką.
Praėjusią savaitę „DeepMind“ su „TechCrunch“ pasidalino keliais „Veo 2“ pavyzdžiais. Dirbtinio intelekto sukurti vaizdo įrašai atrodė gana gerai – net ypač gerai. Atrodo, kad „Veo 2“ puikiai suvokia refrakciją ir sudėtingus skysčius, tokius kaip klevų sirupas, ir geba imituoti „Pixar“ stiliaus animaciją.
Tačiau nepaisant DeepMind reikalavimo, kad modelis mažiau haliucinuos elementus, pvz., papildomus pirštus ar „netikėtus objektus“, „Veo 2“ negali visiškai išvalyti nepaprasto slėnio.
Atkreipkite dėmesį į negyvas akis šiame animaciniame filme, primenančiame šunį:
Ir keistai slidus kelias šioje filmuotoje medžiagoje – plius pėstieji fone susiliejantys vienas į kitą ir pastatai su fiziškai neįmanomu fasadais:
Collinsas pripažino, kad yra ką nuveikti.
„Nuoseklumas ir nuoseklumas yra augimo sritys“, – sakė jis. „Veo gali nuosekliai laikytis raginimo kelias minutes, bet (negali) laikytis sudėtingų raginimų ilgą laiką. Panašiai iššūkis gali būti charakterio nuoseklumas. Taip pat yra kur tobulėti kuriant sudėtingas detales, greitus ir sudėtingus judesius ir toliau peržengiant realizmo ribas.
„DeepMind“ ir toliau bendradarbiauja su menininkais ir prodiuseriais, kad patobulintų vaizdo įrašų generavimo modelius ir įrankius, pridūrė Collinsas.
„Nuo Veo kūrimo pradžios pradėjome dirbti su tokiais kūrėjais kaip Donaldas Gloveris, The Weeknd, d4vd ir kiti, kad iš tikrųjų suprastume jų kūrybos procesą ir kaip technologijos galėtų padėti įgyvendinti jų viziją“, – sakė Collinsas. „Mūsų darbas su „Veo 1“ kūrėjais paskatino „Veo 2“ kūrimą, todėl tikimės bendradarbiauti su patikimais bandytojais ir kūrėjais, kad gautume atsiliepimų apie šį naują modelį.
Sauga ir mokymas
„Veo 2“ buvo apmokytas daugybe vaizdo įrašų. Taip paprastai veikia AI modeliai: pateikiant pavyzdį po tam tikros formos duomenų, modeliai paima duomenų šablonus, leidžiančius generuoti naujus duomenis.
„DeepMind“ tiksliai nepasakys, kur ištraukė vaizdo įrašus, kad apmokytų „Veo 2“, tačiau „YouTube“ yra vienas iš galimų šaltinių; „Google“ priklauso „YouTube“, o „DeepMind“ anksčiau sakė „TechCrunch“, kad „Google“ modeliai, tokie kaip „Veo“, „gali būti mokomi naudojant tam tikrą „YouTube“ turinį.
„Veo buvo apmokytas aukštos kokybės vaizdo įrašo aprašymo porų”, – sakė Collinsas. „Vaizdo įrašo aprašymo poros yra vaizdo įrašas ir susijęs aprašymas, kas vyksta tame vaizdo įraše.
Nors „DeepMind“ per „Google“ priglobia įrankius, leidžiančius žiniatinklio valdytojams blokuoti laboratorijos robotus, kad jie ištrauktų mokymo duomenis iš savo svetainių, „DeepMind“ nesiūlo mechanizmo, leidžiančio kūrėjams pašalinti kūrinius iš esamų mokymo rinkinių. Laboratorija ir jos patronuojanti įmonė teigia, kad mokymo modeliai, kuriuose naudojami viešieji duomenys, yra sąžiningas naudojimas, o tai reiškia, kad „DeepMind“ mano, kad ji neprivalo prašyti duomenų savininkų leidimo.
Ne visi kūrėjai sutinka, ypač atsižvelgiant į tyrimus, kuriuose teigiama, kad ateinančiais metais dirbtinis intelektas gali sutrikdyti dešimtis tūkstančių filmų ir televizijos darbų. Keletas dirbtinio intelekto įmonių, įskaitant to paties pavadinimo startuolį, sukurtą populiariosios AI meno programėlės „Midjourney“, yra ieškinių taške, kaltindamos jas menininkų teisių pažeidimu, mokydamos apie turinį be sutikimo.
„Esame įsipareigoję bendradarbiauti su kūrėjais ir partneriais, kad pasiektume bendrų tikslų“, – sakė Collinsas. „Mes ir toliau dirbame su kūrybine bendruomene ir žmonėmis iš platesnės pramonės, rinkdami įžvalgas ir klausydamiesi atsiliepimų, įskaitant tuos, kurie naudojasi „VideoFX“.
Dėl to, kaip šiandieniniai generatyviniai modeliai elgiasi treniruojami, jie kelia tam tikrą riziką, pvz., regurgitaciją, o tai reiškia, kai modelis sukuria veidrodinę mokymo duomenų kopiją. „DeepMind“ sprendimas yra greito lygio filtrai, įskaitant smurtinį, atvirą ir atvirą turinį.
„Google“ žalos atlyginimo politika, kuri suteikia tam tikrų klientų apsaugą nuo kaltinimų dėl autorių teisių pažeidimo, kylančio dėl jos produktų naudojimo, nebus taikoma „Veo 2“, kol ji nebus visuotinai prieinama, sakė Collinsas.
Siekdama sumažinti padirbinėjimo riziką, DeepMind teigia, kad naudoja savo patentuotą vandenženklio technologiją SynthID, kad įterptų nematomus žymenis į Veo 2 generuojamus rėmelius. Tačiau, kaip ir visos vandenženklių technologijos, „SynthID“ nėra patikimas.
Vaizdo atnaujinimai
Be „Veo 2“, „Google DeepMind“ šį rytą paskelbė apie „Imagen 3“, savo komercinio vaizdo generavimo modelio, atnaujinimą.
Nauja „Imagen 3“ versija pradedama naudoti „Google“ vaizdų generavimo įrankio „ImageFX“ naudotojams nuo šiandien. Jis gali sukurti „ryškesnius, geriau sukomponuotus“ vaizdus ir nuotraukas, tokias kaip fotorealizmas, impresionizmas ir anime pagal „DeepMind“.
„Šis atnaujinimas (į „Imagen 3“) taip pat tiksliau seka raginimus ir pateikia turtingesnes detales bei tekstūras“, – rašė „DeepMind“ tinklaraščio įraše, pateiktame „TechCrunch“.
Kartu su modeliu pristatomi „ImageFX“ vartotojo sąsajos naujiniai. Dabar, kai vartotojai įveda raginimus, pagrindiniai tų raginimų terminai taps „lustais“ su išskleidžiamuoju siūlomų susijusių žodžių meniu. Vartotojai gali naudoti lustus, norėdami pakartoti tai, ką parašė, arba pasirinkti iš automatiškai sugeneruotų deskriptorių eilutės, esančios po raginimu.