Immagini che diventano mondi. World models, visual embeddings e relazioni visive

Giulia Flenghi, Ph.D.

I recenti sviluppi dell’intelligenza artificiale — dai visual embeddings ai sistemi self-supervised fino ai cosiddetti “world models” — stanno trasformando il modo in cui le macchine organizzano, relazionano e interpretano le immagini. Questi sistemi non si limitano a riconoscere oggetti o classificare contenuti, ma costruiscono spazi relazionali complessi, nei quali le immagini vengono associate sulla base di similarità geometriche, semantiche, materiche o compositive.

La mia ricerca indaga il modo in cui differenti architetture di AI, come JEPA, DINO, CLIP o recenti modelli generativi come SANA-WM, costruiscono forme di conoscenza visiva attraverso la rappresentazione computazionale delle immagini. Attraverso dataset provenienti dalla storia dell’arte, dalla cultura visuale e dalla rappresentazione architettonica — inclusi mosaici geometrici, diagrammi euclidei, superfici marmoree, variazioni stilistiche e immagini che contengono altre immagini — la ricerca esplora le logiche con cui i sistemi artificiali organizzano l’esperienza visiva e costruiscono relazioni tra forme, materiali e rappresentazioni.

Particolare attenzione è dedicata alle questioni della geometria, dell’astrazione e della “twofoldness”, ovvero alla capacità dei sistemi computazionali di comprendere le immagini non solo come finestre trasparenti sul mondo, ma anche come oggetti esistenti al suo interno. In questo senso, gli embedding spaces possono essere letti come forme emergenti di organizzazione visuale e culturale, capaci di rendere visibili bias, gerarchie e modalità di relazione implicite nei modelli.

Questa ricerca si sviluppa a partire dai miei precedenti studi sulle decorazioni musive bizantine, nei quali ho utilizzato metodologie basate sull’intelligenza artificiale per la classificazione automatica di pattern ornamentali geometrici e per l’analisi delle strutture visive del patrimonio culturale. Più in generale, il mio lavoro esplora il rapporto tra intelligenza artificiale, rappresentazione visiva e costruzione della conoscenza storico-artistica.