Sie sperren die Black Boxes: Kritische KI-Studien und die Geschichte des Sehens

Forschungsbericht (importiert) 2025 - Bibliotheca Hertziana – Max-Planck-Institut für Kunstgeschichte

Autoren

Impett, Leonardo

Abteilungen

Bibliotheca Hertziana - Max-Planck-Institut für Kunstgeschichte, Rom

Zusammenfassung

Unser Artikel behandelt, wie kritische Fragen zur KI aus der künstlerischen Praxis hervorgegangen sind, und argumentiert, dass maschinelles Sehen – historisch gesehen das zentrale Beispiel für KI – als historisch und kulturell verortet verstanden werden muss. Anhand des Algorithmus CLIP zeigen wir, wie KI-Modelle ihre eigenen „optischen Schichten“ erzeugen. Da zeitgenössische Systeme zunehmend zu geschlossenen Black Boxes werden, muss das Fachgebiet neue methodische Werkzeuge entwickeln, um diese Systeme zu analysieren und zu kontextualisieren.

Stadtplan von Paris, auf dem von der KI CLIP als typisch eingestufte Pariser Orte als "heatmap" darstellt — **Abb.1:** Ein mit dem CLIP-Algorithmus von OpenAI erstelltes Schema der „pariserischsten“ Teile von Paris

© https://leoimpett.github.io/clip-map

**Abb.1:** Ein mit dem CLIP-Algorithmus von OpenAI erstelltes Schema der „pariserischsten“ Teile von Paris

© https://leoimpett.github.io/clip-map

**Abb.1:** Ein mit dem CLIP-Algorithmus von OpenAI erstelltes Schema der „pariserischsten“ Teile von Paris

© https://leoimpett.github.io/clip-map

**Abb.1:** Ein mit dem CLIP-Algorithmus von OpenAI erstelltes Schema der „pariserischsten“ Teile von Paris

© https://leoimpett.github.io/clip-map

„Kritische KI-Studien“ – dieser Titel für ein schnell wachsendes Fachgebiet innerhalb der geisteswissenschaftlichen Fakultäten ist für niemanden von uns wirklich zufriedenstellend. Das Adjektiv „kritisch“ ist immer ein mehrdeutiger Euphemismus, da der Begriff sowohl auf Kritik im Allgemeinen als auch auf kritische Theorie im Speziellen verweist, also im Sinne der Frankfurter Schule und ihrer vielen Nachfolger. Auf der anderen Seite ist KI ebenso mehrdeutig. Historisch gesehen wurde sie mit ganz unterschiedlichen Technologien in Verbindung gebracht, darunter auch die regelbasierte sogenannte „GOFAI“ (Good Old-Fashioned AI), die nichts mit den aktuellen Fortschritten im Bereich der neuronalen Netze zu tun hat. Heute verbinden viele den Begriff „KI“ mit großen Sprachmodellen (Chatbots); mein eigener Hintergrund liegt im Bereich „Computer Vision“, der einen größeren Einfluss auf die Entwicklung der neuronalen Netzwerktechniken hatte, die heute gleichbedeutend mit KI sind.

Zum besseren Verständnis lohnt ein Blick auf die Ursprünge des Forschungsinteresses, das zunächst nicht bei Universitäten lag, sondern eher bei Künstlern und Künstlerinnen. Trevor Paglen, Hito Steyerl, Nicolas Malevé oder Harun Farocki beschäftigten sich früh mit der Frage, wie algorithmische Systeme Bilder erzeugen, ordnen und interpretieren – und machten damit zentrale Probleme der heutigen KI sichtbar. „Critical AI Studies“ ist daher angelehnt an das ältere „Ways of Machine Seeing“: eine Gruppe, die 2015 in Cambridge mit Alan Blackwell, Anne Alexander, Geoff Cox und mir gegründet wurde. Ich selbst trat erst bei, nachdem die anderen den Namen geprägt hatten, der sich in Abwandlung des berühmten „Ways of Seeing“ des Kunsthistorikers John Berger auf Maschinen bezieht [1].

Schon früher hatten Kunsthistoriker und Kunsthistorikerinnen ähnliche Fragen nach der historischen und kulturellen Bedingtheit des Sehens formuliert. 1915 schrieb Heinrich Wölﬄin in Kunstgeschichtliche Grundbegriffe: „Das Sehen an sich hat seine Geschichte und die Aufdeckung dieser ‚optischen Schichten‘ muss als die elementarste Aufgabe der Kunstgeschichte betrachtet werden“. In diesem Zusammenhang erscheint es offensichtlich, dass die Erforschung der „optischen Schichten“ maschinellen Sehens – die Betrachtung von KI-Algorithmen als kulturelle Artefakte – Teil der Disziplin der Kunstgeschichte sein sollte [2].

Ein praktischeres Beispiel mag diesen Punkt verdeutlichen. Die Abbildung zu diesem Artikel zeigt eine „heatmap“ von Paris. Dabei handelt es sich nicht, wie es auf den ersten Blick erscheinen mag, um eine Karte der Immobilienpreise, sondern um eine Untersuchung der „optischen Schichten“ eines Computervisionsalgorithmus. Der Algorithmus ist CLIP, entwickelt von OpenAI. CLIP misst die „Ähnlichkeit“ zwischen einem Text und einem Bild. Das Foto einer Orange erhält im Vergleich zum Text „eine Orange“ eine hohe Punktzahl und im Vergleich zu „ein Hund“ eine niedrige. Diese Ähnlichkeit kann das Modell nicht nur mit Objektnamen berechnen, sondern mit jedem beliebigen Text.

Wir haben über 10.000 Bilder aus Google Street View von Paris übernommen [3]. Durch die Verbindung mit dem CLIP-Algorithmus ist es möglich, „heatmaps“ oder Schemata von allem zu erstellen, was CLIP in diesen Bildern „sehen“ kann – etwa Karten der Grünﬂächen, der Graﬃtis oder der Baustellen. Wir haben das Modell gebeten, die Street-View-Bilder nach ihrer Ähnlichkeit mit dem Text „ein Foto von Paris“ zu bewerten. Das daraus resultierende Schema ist eine Psychogeograﬁe von OpenAI: Wo in Paris sieht es für das Modell nach Paris aus? Die typischsten Orte sind die großen Sehenswürdigkeiten und das Haussmannsche Zentrum. Beliebte Viertel in der Peripherie sind dagegen visuell vom Stadtkonzept des Modells abgekoppelt.

Wir konnten diese visuelle Kultur untersuchen – nicht nur anhand von Karten, sondern auch anhand kunsthistorischer Korpora –, weil OpenAI damals noch das Herunterladen der sogenannten „Modellgewichte“ („model weights“) erlaubte: der im Training angepassten numerischen Parameter, die das Verhalten eines neuronalen Netzes bestimmen. CLIP war vielleicht das letzte Mainstream-Modell, bei dem dies möglich war, auch wenn der zugrunde liegende Datensatz nie veröffentlicht wurde. Doch selbst „offene“ Modelle bleiben Black Boxes: CLIP umfasst mehrere hundert Millionen Parameter – heute klein im Vergleich zu den Milliarden Parametern von Modellen wie Metas Llama 3. Ihre interne Komplexität macht es schwierig, ihre kulturelle Positionierung wirklich zu verstehen. Die Gewichte eines neuronalen Netzes zu kennen, entspricht eher einer MRT-Aufnahme des Gehirns als der Kenntnis seiner Gedanken. Heute laufen fast alle Modelle ausschließlich in der Cloud: Man kann sie nicht mehr lokal ausführen, sondern nur Anfragen stellen und die Ausgabe betrachten. Auch Unternehmen wie Meta, die lange auf Offenheit setzten, veröffentlichen immer weniger Informationen über ihre Modelle. Die Black Box ist damit gewissermaßen geschlossen.

Wie also weiter? Wenn wir die Box nicht öffnen können, müssen wir neue Wege ﬁnden, sie zu lesen. In unserem demnächst erscheinenden Buch Vector Media [4] untersuchen wir die historische Erkenntnistheorie dieser Modelle. Wir zeigen, dass sich die kulturelle Positionierung von KI nicht nur aus den Datensätzen ergibt, sondern ebenso aus ihren Architekturen – mathematischen Strukturen, die zugleich archäologische Schichten sind und Annahmen früherer Forschungsdekaden in die Gegenwart tragen. Die historische Erkenntnistheorie ist dabei eine mögliche Perspektive, um solche Schichten sichtbar zu machen, aber sie bleibt nur ein Ansatz unter vielen. Da die Black Boxes jedoch zunehmend verschlossen sind, müssen wir ein neues Instrumentarium kritischer KI-Studien entwickeln – einen breiten methodischen Werkzeugkasten, der es erlaubt, Modelle zu analysieren und kulturell zu verorten, auch wenn ihr Inneres nicht mehr zugänglich ist.

Literaturhinweise

Azar, M.; Cox, G.; Impett, L.

Introduction: ways of machine seeing

AI & Society 36(4), 1093-1104 (2021)

DOI

Impett, L.

Digital Art History as Critical AI.

The Art Bulletin 106 (2), 11-14 (2024)

DOI

Impett, L.; Offert, F.

There is a digital art history.

Visual Resources 38(2), 186-209 (2022)

DOI

Impett, L.; Offert, F.

Vector Media.

University of Minnesota Press (2026)