Wenn Bilder zu Welten werden. World Models, visuelle Embeddings und visuelle Relationen
Giulia Flenghi, Ph.D.
Die jüngsten Entwicklungen im Bereich der künstlichen Intelligenz — von visuellen Embeddings und Self-Supervised-Systemen bis hin zu sogenannten „World Models“ — verändern grundlegend die Art und Weise, wie Maschinen Bilder organisieren, miteinander in Beziehung setzen und interpretieren. Diese Systeme beschränken sich nicht darauf, Objekte zu erkennen oder Inhalte zu klassifizieren; vielmehr konstruieren sie komplexe relationale Räume, in denen Bilder anhand geometrischer, semantischer, materieller oder kompositorischer Ähnlichkeiten miteinander verbunden werden.
Meine Forschung untersucht, wie unterschiedliche KI-Architekturen wie JEPA, DINO, CLIP oder neuere generative Modelle wie SANA-WM Formen visuellen Wissens durch die computationale Repräsentation von Bildern hervorbringen. Anhand von Datensätzen aus Kunstgeschichte, visueller Kultur und architektonischer Darstellung — darunter geometrische Mosaike, euklidische Diagramme, Marmoroberflächen, stilistische Variationen sowie Bilder, die andere Bilder enthalten — analysiert die Forschung die Logiken, durch die künstliche Systeme visuelle Erfahrung organisieren und Beziehungen zwischen Formen, Materialien und Repräsentationen herstellen.
Besondere Aufmerksamkeit gilt Fragen der Geometrie, der Abstraktion und der „Twofoldness“, also der Fähigkeit computergestützter Systeme, Bilder nicht nur als transparente Fenster zur Welt, sondern auch als innerhalb dieser Welt existierende Objekte zu begreifen. In diesem Sinne können Embedding Spaces als emergente Formen visueller und kultureller Organisation verstanden werden, die implizite Biases, Hierarchien und relationale Strukturen innerhalb der Modelle sichtbar machen.
Diese Forschung knüpft an meine früheren Arbeiten zu byzantinischen Mosaikdekorationen an, in deren Rahmen ich KI-basierte Methoden zur automatischen Klassifikation geometrischer Ornamentmuster sowie zur Analyse visueller Strukturen in Datensätzen des Kulturerbes entwickelt habe. Allgemeiner untersucht meine Arbeit das Verhältnis zwischen künstlicher Intelligenz, visueller Repräsentation und der Konstruktion kunsthistorischen Wissens.