Achtergrond

World models winnen terrein als volgende fase in AI-ontwikkeling

© iStock

De IT-wereld staat sinds 2022 grotendeels in het teken van AI, of beter gezegd: LLM’s. Na diverse jaren doorontwikkeling en grote stappen voorwaarts wordt de hoop nu op het volgende gevestigd. World models moeten voor de volgende doorbraak zorgen, klinkt het opeens.

Een world model is kort gezegd een representatie van een fysieke omgeving. AI-systemen kunnen die omgeving verkennen en er voorspellingen over doen. Dr. Cees Snoek, professor Computer Science aan de Universiteit van Amsterdam, vergelijkt het met de inmiddels alom bekende grote taalmodellen (LLM’s). “LLMs doen technologisch gezien een simpel trucje. Je pakt een hele lange tekst, laat de AI tien woorden uit een zin zien en laat het voorspellen wat het volgende woord is. Dat trucje kun je verbeteren door nog veel meer woorden in je geschiedenis te zetten.”

De naam zegt het al: taalmodellen werken alleen met taal. Ze hebben dus beperkt inzicht in hoe de wereld eruitziet. Dat is met world models anders: die hebben juist een sterk beeldcomponent. Snoek: “Als je een videostroom neemt, kun je in theorie hetzelfde trucje doen als bij een LLM. In plaats van dat je het volgende woord in een zin voorspelt, kun je ook het volgende beeld in een sequentie voorspellen. Dus aan de hand van een videofragment kun je ongeveer voorspellen hoe objecten en mensen zich gaan bewegen en hoe het volgende beeld eruitziet. Dat is kort door de bocht hoe het werkt.”

Revival

Het idee van world models is niet nieuw. De huidige aandacht hiervoor is een revival, meent dr. Pim Haselager, professor Societal Implications of AI aan de Radboud Universiteit. Al in de jaren ’60 werd gewerkt aan een AI-systeem genaamd SHRDLU. “Dat bestond uit blokken, piramides en andere geometrische vormen.” Gebruikers konden het AI-model vragen stellen over die blokkenwereld. “Het kon bijvoorbeeld vertellen wat er moest gebeuren als je een blok dat onder een piramide ligt bovenop een ander blok wil zetten.”

Ook in de decennia daarna werd veel aan world models gewerkt. De ontwikkeling stokte uiteindelijk omdat er onvoldoende computationele kracht was om de wereldmodellen goed te laten draaien. De focus werd al snel verlegd, bijvoorbeeld naar AI-systemen die simpelweg reageren op feedback uit de wereld. Denk aan een robotstofzuiger die tegen een stoelpoot aankomt en daarop reageert. Daar heeft het geen 3D-omgeving van de wereld voor nodig. Het draait een klein stukje en probeert simpelweg of het dan geen obstakel tegenkomt. Is dat het geval, dan rijdt het apparaat door.

Maar de computationele kracht is de laatste jaren sterk toegenomen. Bovendien hebben we tegenwoordig veel meer data die gebruikt kan worden voor de training van dit soort modellen, zoals data uit videogames en video’s op onder meer YouTube. En met de ontwikkelingen in LLM’s zijn belangrijke stappen gezet. “We hebben nu een basisprincipe dat werkt: woordvoorspellingen in grote taalmodellen. Dat is een neurale netwerkarchitectuur waarmee je ook world models zou kunnen maken”, zegt Snoek.

Oplossing voor ruis

World models zijn om diverse redenen mogelijk interessant. Allereerst: we gaan voorbij alleen maar tekst, zegt Haselager. “Nu praten we tegen zo’n LLM vooral over wat we doen. Maar een AI snapt de betekenis daarvan niet. Het gaat alleen maar uit van een pure tekstcorrelatie. Met world models gaan we naar een correlatie van gebeurtenissen. Dat is een extra stap, die je dichter bij de werkelijkheid brengt.”

Met world models gaan we naar een correlatie van gebeurtenissen.”

Met een wereldmodel kun je bijvoorbeeld natuurkundige principes als zwaartekracht of de beweging van bepaalde objecten beter uitdrukken én voorspellen. “Puur mechanisch gezien levert het je extra kennis op die je niet via aparte correlaties tussen pixels hoeft vast te stellen. Je ziet kinderen ook met water en zand spelen. Daarmee creëren ze een soort besef: hoe zwaar is iets en wat gebeurt er als het valt? Zoiets proberen we nu te simuleren met die wereldmodellen.”

Daarnaast kan een wereldmodel bijdragen aan het wegfilteren van ruis. “Visuele AI draait op de correlaties tussen pixels. Maar alles correleert met alles. En er zijn heel veel pixels in een gedetailleerd beeld van de wereld. Daar verzuip je in”, zegt Haselager. “Ik denk dat het idee van die wereldmodellen is dat als je intrinsiek bepaalde patronen verwacht, je daardoor relevantere berekeningen kunt maken.”

© iStock

Juist dit is iets waar de mens heel goed in is. “Wij negeren een heleboel in ons zicht. Terwijl wij dit gesprek voeren, staat achter mij een kast. Daar ben jij als interviewer helemaal niet mee bezig. Hooguit valt je oog er even op, maar daarna ben je het bij wijze van spreken weer kwijt.” Voor een AI-systeem is dat nog moeilijk, omdat het niet goed kan inschatten wat wel en niet relevant is voor de berekening. Als een world model kan helpen daar voorspellingen over te doen, wordt een AI dus efficiënter.

Haselager ziet dan ook zeker potentie in world models. “Het maakt zo’n AI misschien wat robuuster. Je kunt echt verdwalen in correlaties. Maar als je iets snapt van de natuurkunde van de wereld, in de prestatie-achtige zin van het woord, dan kun je afwijkingen in je data zelf gaan corrigeren.”

Inzet op world models

Diverse partijen zetten inmiddels flink in op de ontwikkeling van world models. Google DeepMind werkt er onder de naam Genie aan, Meta heeft Habitat 3 en zelfs Elon Musk zet er met zijn xAI op in. Ook zijn er allerlei startups ontstaan die flink inzetten op world models, waaronder World Labs van AI-pionier Fei-Fei Li.

Beoogde toepassingen zijn onder meer autonoom rijdende auto’s, robotica die met de wereld interacteert en drones en robots voor defensie. Uiteindelijk wordt er zelfs gedroomd over de ontwikkeling van Artificial General Intelligence (AGI): AI die intelligenter is dan de mens. “Dat zou kunnen”, zegt ook Snoek. “Ik denk in ieder geval dat dit een cruciale stap is om robots te gaan maken die kunnen interacteren met de wereld, zonder dat ze ons daarvoor nodig hebben. Dat wordt bijzonder boeiend.” Haselager is daar iets sceptischer over: “AI snapt uiteindelijk niet echt iets. Het maakt alleen correlaties. Maar dit kan wel meer patronen aanbrengen in die correlaties. Dat maakt het praktisch bruikbaarder. Maar niet per se begripvoller.”

Ik denk in ieder geval dat dit een cruciale stap is om robots te gaan maken die kunnen interacteren met de wereld.”

Op de korte termijn wordt vooral naar videogames gekeken. Met world models kun je immers interactieve werelden gaan genereren, met karakters die veel meer bewegen zoals mensen in de echte wereld. In deze markt gaat bovendien een hoop geld om: de omzet van alleen al de Nederlandse videogame-industrie steeg in 2024 naar 1,8 miljard euro. Dat maakt dit voor veel bedrijven een interessante markt om de eerste focus op te leggen.

Hooggespannen verwachtingen

De verwachtingen bij dit alles zijn hoog, getuige de berichtgeving rondom world models de afgelopen maanden. ‘De volgende grote sprong voor AI heet world models’, schreef Forbes in december bijvoorbeeld. ‘De volgende AI-revolutie kan met world models beginnen’, stelde Scientific American in januari.

Haselager en Snoek temperen die verwachtingen wat. “Je ziet vaak in AI dat de verwachtingen veel hooggespannener zijn dan wat we op korte termijn kunnen realiseren”, zegt Snoek. “De ontwikkelingen in AI gaan razendsnel, maar hier zijn echt nog wel een paar doorbraken nodig om dit goed te kunnen doen.” Haselager sluit zich daarbij aan: “Er wordt heel veel gehyped. We zitten in een tempo waarin ieder jaar, of zelfs ieder half jaar, een nieuwe grote belofte gedaan moet worden. Daar valt dit ook wel een beetje onder. Het is de hijgerige waan van de dag.”

Snoek ziet bijvoorbeeld nog uitdagingen in de benodigde rekenkracht. “Beeld is een veel complexer signaal dan tekst. Tekst is discreet, beeld is continu. De neurale netwerken die we nu voor LLM’s gebruiken, kunnen we ook wel voor beeld inzetten, maar dan heb je heel veel data en heel veel rekenkracht nodig. Dat is een enorm dure exercitie.” Wat hem betreft moet er een andere transformer komen voor world models. “De huidige is fundamenteel ongeschikt voor video.” Dat blijkt volgens hem ook wel uit de video’s die we nu met LLM’s genereren. “Die houden zich heel slecht aan de natuurkundige wetten. Zo’n model weet helemaal niet hoe een bal stuitert en dat pikken ze ook niet automatisch op. Wat je ziet in zo’n video lijkt er wel op, maar je kunt duidelijk zien dat er iets niet klopt. Voor video is er nog een hele hoop te winnen.”

Tegelijkertijd wordt er nu veel geld gestoken in de ontwikkeling van world models en gaat er enorm veel aandacht naar uit. “De inzet is hoog”, zegt Snoek. “Maar dit kan ook heel goed iets zijn waar we de komende vijf, tien of misschien zelfs vijftien jaar aan werken om het goed te krijgen.”

Onderwerp: Ai

Meer relevante berichten