A cég szerint semelyik másik hasonló alkalmazás nem képes szövegből ennyire élethű képeket, például egy hóban álló karateöves sárkánygyümölcsöt alkotni.
Alig néhány héttel ezelőtt számoltunk be az OpenAI boszorkánykonyhájában kifőzött, szöveges bevitel alapján több stílusban is meggyőző képeket alkotó DALL-E új képességeiről. A Google-nél azonban nem lehettek elájulva a teljesítménytől, mivel saját megoldásuk sokkal előrébb tart a témában. Legalábbis ezt igyekeznek bizonygatni egy frissen publikált tanulmányukkal.
Betűkből alkotott látvány
Az Imagen elnevezésű projekt külön oldalt kapott, ahol némileg limitált formában, de a felhasználók is bebizonyosodhatnak arról, hogy egy másik algoritmus sem képes ennyire élethűen ábrázolni mondjuk azt, hogy „egy robotpár az Eiffel-torony előtt vacsorázik”. A gondosan megválogatott példák alapján az Imagen valóban páratlan pontossággal és élethűséggel képes megragadni a témát pusztán abból a néhány szóból kiindulva, amit az adott feladat megvalósításához kap.
Ugyanakkor az több szempontból sem véletlen, hogy a projekt oldalán csak néhány variációban lehet próbára tenni a mesterséges intelligencia képességeit. Ezek a szövegből képet alkotó algoritmusok ugyanis nem feltétlenül képesek egyenletes jó teljesítményre, és bizonyos szavakkal, elemekkel rendszeresen meggyűlhet a bajuk, ami végső soron a végtermékként előállított fotók általános minőségét is rontja.
A Google-nél azonban ettől függetlenül úgy látják, az övék a legjobb „célszerszám” erre a feladatra. Ennek alátámasztására alkottak is egy értékelő rendszert. A DrawBench egy mintegy 200 előre rögzített kiinduló mondatból áll, melyekből a tesztbe bevont négy különböző algoritmus előállította a saját verzióját. Ezeket aztán önkéntesekkel értékeltették a kompozíció pontossága és élethűsége szerint. Nem meglepő módon a Google által lobogtatott teszt eredményei az Imagen elsöprő fölényét hozták.
Veszélyes játék
Azt viszont a Google is elismeri, hogy minden ilyen rendszer, beleértve a saját maguk által alkotottat is, súlyos problémák hordozója. A szövegből képet varázsoló mesterséges intelligenciának ugyanis hatalmas mennyiségű tanulási adatkészletre van szükség, amelyet egyszerűen képtelenség különböző paraméterek szerint előzetesen rostálni. A kutatók így kénytelenek óriási tömegben, gyakorlatilag válogatás nélkül „halászni” az alapanyagot az internetről, ami az ezekben megtalálható előítéletek újragenerálását eredményezi. Például ha az a feladat, hogy az algoritmus rajzoljon egy vezérigazgatót, az szinte biztos, hogy egy fehér férfi lesz.
Az algoritmusokkal elkövethető potenciális visszaélések lehetősége a másik komoly ok, amiért ezeket a rendszereket egyik fejlesztő sem nyitja meg a nyilvánosság előtt. A hírhamisítás és álhírek terjedése enélkül is hatalmas problémát jelent a világban, így tényleg nincs nagy szükség arra, hogy bárki képes legyen bármilyen légből kapott ötletét meggyőző képes formátummá varázsolni.