Stellen Sie sich eine riesige Bibliothek vor, perfekt organisiert. Jedes Buch hat seinen Platz, steht im richtigen Regal, in der richtigen Reihe. Jetzt soll ein völlig neues Buch hinzukommen — eines, das keiner bisherigen Kategorie entspricht.
Um es einzufügen, müssten Sie das gesamte Ordnungssystem umstrukturieren. Nicht ein Regal. Alles. Und dabei würden unweigerlich andere Bücher verrutschen.
Genau das passiert in großen Sprachmodellen — mathematisch beweisbar, unvermeidbar, unabhängig vom Algorithmus.
In dichten neuronalen Netzen ist kein Konzept lokal gespeichert. Jedes Konzept ist über alle Milliarden Parameter gleichzeitig verteilt — wie ein Hologramm. Ein neues Konzept einzufügen bedeutet, das gesamte Hologramm neu zu belichten.
Es gibt einen wichtigen Unterschied zwischen »wir haben es noch nicht gelöst« und »es kann prinzipiell nicht gelöst werden«. Der zweite Fall ist ein Unmöglichkeitstheorem — so wie bewiesen ist, dass man ein allgemeines Polynom fünften Grades nicht mit Wurzeln lösen kann.
Der Grazer Forscher Andreas Bean hat genau einen solchen Beweis erbracht. Der Kernbeweis wurde unabhängig von zwei Beweissoftwareprogrammen maschinell verifiziert: Lean 4 und Isabelle/HOL — null ungeprüfte Annahmen.
Jedes neuronale Netz speichert Konzepte als Muster in einer Gewichtsmatrix. Diese Matrix hat eine innere mathematische Ordnung — die sogenannte Eigenstruktur — die festlegt, welche Konzepte ähnlich sind und wie sie sich zueinander verhalten.
Der Beweis zeigt: Jede Einführung eines strukturell neuen Konzepts verändert zwingend diese gesamte Eigenstruktur. Alle bestehenden Konzepte werden verschoben. Das gilt für jeden Algorithmus, jeden Optimierer, jede Lernrate.
Fall 1 — Neue Fakten über bekannte Konzepte: Das Modell kennt »Wien« und soll lernen, dass Wien einen neuen Bürgermeister hat. Prinzipiell möglich, wenn auch riskant.
Fall 2 — Strukturell neue Konzepte: Ein Konzept ohne Ähnlichkeit zu irgendetwas im Modell. Hier greift das Theorem: jede Einführung verändert zwingend die gesamte innere Ordnung.
Ein zweites Paper zeigt, dass der Beweis exakt auf Transformer-Architekturen übertragen werden kann — jene Architektur, die allen modernen KI-Systemen wie GPT, Claude und Gemini zugrunde liegt.
Der Schlüssel ist eine mathematische Äquivalenz: Transformer-Attention ist identisch mit einem modernen Hopfield-Netzwerk (Ramsauer et al., 2021). Der Beweis gilt daher automatisch auch für Transformer.
| Methode | Warum sie nicht hilft |
|---|---|
| Fine-Tuning | Verändert die gesamte Eigenstruktur global. |
| LoRA | Begrenzt den Rang der Änderung, nicht die Auswirkung. |
| EWC | Schützt Gewichte — nicht die relationale Geometrie. |
| ROME / MEMIT | Patcht Gewichte direkt — stört alle paarweisen Relationen. |
| RAG ✓ | Einziger struktureller Ausweg: kein Eingriff in die Gewichte. |
Der entscheidende Unterschied liegt in der Adressierbarkeit. Im menschlichen Gehirn hat jede Synapse eine physikalische Adresse — unabhängig davon, was das Netzwerk gelernt hat. Eine neue Verbindung stört nur die unmittelbare Nachbarschaft.
In einem neuronalen Netz wie GPT hat kein Parameter eine solche Adresse. Das Konzept »Katze« ist nicht in bestimmten Parametern gespeichert — es ist in allen Milliarden Parametern gleichzeitig kodiert, als globales Muster. Es gibt keine »Katzen-Parameter« die man anfassen könnte.
Jedes Mal wenn OpenAI, Anthropic oder Google ein Modell auf neuen Daten trainieren, müssen sie das Modell auf allen alten und neuen Daten gleichzeitig trainieren. Die Kosten wachsen ohne Grenze. Das erklärt, warum das Training großer Modelle Hunderte Millionen Euro kostet.
Eine Architektur mit expliziter, lokal adressierbarer Topologie — so wie das biologische Gehirn. Aktuelle Transformer haben diese Eigenschaft strukturell nicht. Retrieval-Augmented Generation (RAG) ist ein praktischer Umweg: neue Konzepte werden in einer externen Datenbank gespeichert, ohne die Gewichte zu berühren.
Das Theorem hat eine präzise Voraussetzung: Das Konnektom des Netzwerks muss implizit sein. In einem Transformer wie GPT gibt es keine feste Verdrahtung zwischen Neuronen. Die »Verbindungen« entstehen dynamisch bei jedem Forward-Pass aus den Gewichtsmatrizen — das Konnektom existiert nirgendwo als Struktur, nur als mathematisches Muster in dichten Gewichten.
Neuromorphe Chips wie Intels Loihi oder IBMs NorthPole funktionieren grundlegend anders: Sie haben ein explizites, physikalisch verdrahtetes Konnektom. Jede Synapse hat eine feste Adresse im Silizium — exakt wie im biologischen Gehirn. Eine neue Verbindung kann angelegt werden, ohne das restliche Netzwerk zu stören.
Das Theorem greift hier nicht — nicht wegen eines technischen Tricks, sondern weil die strukturelle Voraussetzung fehlt. Ein explizites Konnektom macht inkrementelles Lernen prinzipiell möglich.
Aktuelle neuromorphe Chips reichen in Größe und Genauigkeit noch nicht an Transformer heran. Die Roadmaps von Intel, IBM und TSMC zeigen jedoch eine Konvergenz um 2030: neuromorphe Systeme in der Größenordnung heutiger Sprachmodelle, mit Echtzeit-Lernfähigkeit und einem Bruchteil des Energieverbrauchs. Für diese Systeme gilt das Unmöglichkeitstheorem ausdrücklich nicht.