Onderzoekers van de Universiteit van Texas in Austin hebben met behulp van generatieve kunstmatige intelligentie een opmerkelijke stap gezet: het omzetten van geluiden naar visuele beelden van straten. Hun werk laat zien dat machines in staat zijn een menselijke eigenschap na te bootsen, namelijk het verbinden van audio- en visuele waarnemingen van een omgeving.
In een recente studie, gepubliceerd in Computers, Environment and Urban Systems, beschrijft het onderzoeksteam hoe zij een AI-model trainden om geluidsopnames om te zetten in nauwkeurige straatbeelden. Dit deden zij door gebruik te maken van een combinatie van audio- en visuele gegevens die zij verzamelden in zowel stedelijke als landelijke omgevingen.
“Onze studie toont aan dat de akoestiek van een omgeving voldoende visuele aanwijzingen bevat om herkenbare beelden te genereren die verschillende locaties accuraat weergeven,” legt assistent-professor Yuhao Kang uit, mede-auteur van het onderzoek. “Hierdoor kunnen we geluiden omzetten in levendige visuele representaties, waarmee we geluiden effectief vertalen naar beelden.”
Het trainingsproces
De onderzoekers maakten gebruik van YouTube-video’s en bijbehorende audio-opnames uit steden in Noord-Amerika, Azië en Europa. Zij creëerden daarmee koppels van 10-seconden-audioclips en stilstaande beelden van de locaties. Deze gegevens werden gebruikt om een AI-model te trainen dat in staat was om beelden van hoge resolutie te genereren op basis van geluiden.
Om de resultaten te beoordelen, vergeleek het team de gegenereerde beelden met echte foto’s van de locaties. Hierbij werden zowel menselijke als computeranalyses gebruikt. Computermodellen analyseerden de verhoudingen van groen, gebouwen en lucht in de beelden, terwijl menselijke beoordelaars werd gevraagd om de gegenereerde beelden te koppelen aan de juiste geluidsopnames.
De uitkomsten waren indrukwekkend: menselijke beoordelaars kozen in 80% van de gevallen correct het juiste gegenereerde beeld bij een geluidsfragment. Daarnaast bleek uit computermodellen dat de proporties van groen en lucht in de beelden sterk overeenkwamen met de werkelijkheid.
Breder inzicht in zintuiglijke waarneming
Niet alleen de proporties van objecten zoals gebouwen en bomen werden correct gerepliceerd, maar ook details zoals de architectonische stijl, de afstanden tussen objecten en de lichtomstandigheden. Geluidsinformatie, zoals verkeersgeluiden of het tjirpen van nachtinsecten, bleek zelfs aanwijzingen te geven over het tijdstip van de dag waarop de opnames gemaakt waren.
“Wanneer je je ogen sluit en luistert, schilderen de geluiden om je heen beelden in je geest,” legt Kang uit. “Het gezoem van verkeer roept het beeld op van een drukke stad, terwijl het geritsel van bladeren je naar een rustig bos voert.”
De onderzoekers benadrukken dat deze technologie verder gaat dan alleen het herkennen van fysieke kenmerken. Het biedt ook mogelijkheden om menselijke ervaringen en emoties op verschillende locaties beter te begrijpen. Het onderzoek laat zien hoe AI gebruikt kan worden om de complexe wisselwerking tussen zintuigen, zoals horen en zien, na te bootsen en zelfs uit te breiden.