A rendszer érzékeli a mélységet, és lényegében kitalálja, hogyan nézhetnek ki a különböző objektumok más-más perspektívából.
A DeepMind kutatói egy új, általános célú keretrendszert mutattak be a képmodellezéssel és a gépi látással összefüggő feladatokhoz, amelynek működése az általa létrehozott videókban vagy képfunkciókban az egyes képkockák valószínűségi alapon történő előrejelzésére épül. A Transframer (szójáték!) nevű modell U-net és Transformer komponensek fehasználásával összesen nyolc különbőző feladatot lát el magas szinten, beleértve a képszegmentálást, a nézetek szintetizálását vagy a képkockák interpolációját.
A Transframer akár egyetlen kép elemzését követően is képes koherens, 30 másodperc hosszúságú videókat készíteni, így számtalan olyan alkalmazásban jelenhet majd meg, amelyben ilyen minimális képes vagy szöveges információból kell feltételes struktúrákat alkotnia. A bejelentés értelmben bevethető lesz például videomodellek előrejelzésére és generálására, vagy az egy adott nézetből ábrázolt objektumok más szemszögből való megjelenítésére.
A mesterséges intelligencia úgy generálja a perspektivikus videókat, hogy úgynevezett kontextusképekkel jósolja meg a célképek környezetét: a betanítása során feldolgozott adatokból következtet rá, hogyan nézne ki valami egy másik nézőpontból szemlélve. A modell azért különösen lenyűgöző, mert úgy tűnik, képes mélységérzékelést és perspektívát alkalmazni, lényegében körüljárva a képeket. Ez már csak a videojátékok esetében is látványos előrelépést jelenthet, amennyiben a gépi tanulási technológián alapuló megoldásokkal váltja fel a hagyományos renderelést.
A Futurism beszámolója példának hozza fel, hogy máris felvetették a Transframer együttes felhasználását az OpenAI DALL-E képgeneráló algoritmusának kimeneteivel, ami előrevetíti a következő időszakban várhatóan megjelenő, magával ragadó kombinált MI-MI alkalmazásokat. Bár a most közzétett felvételek egyelőre nem a minőségükkel sokkolnak, hanem inkább csak a rendszer képességeit demózzák, a DeepMind szerint a Transframert különféle benchmarkok értékelik a jelenleg elérhető legmagasabb szintű technológiaként, amelyik explicit geometriai információ nélkül tud videókat generálni.
Forrás: Bitport