Rubrik · Im Code

Räumlich unabhängige Validierung.

04. April 2026 · 11 min Lesezeit · Florian Thürkow

Geschäftsführer UMGEODAT und Hochschuldozent

Warum klassisches Holdout in der räumlichen Modellierung optimistische Kennzahlen erzeugt. Und wie Sie in einer Ausschreibung oder einem Projekt erkennen, ob Ihr Lieferant die Validierung ernst genommen hat.

1. Das Problem in einem Satz

Wenn zwei Trainingspunkte räumlich nah beieinander liegen, sind sie statistisch nicht unabhängig. Die Wahrscheinlichkeit, dass zwei Äcker in fünfzig Metern Abstand ähnliche Bodenfeuchte haben, ist hoch. Wenn die Validierung diese Nähe nicht auflöst, bekommen Sie optimistische Kennzahlen. Die sind falsch, nicht weil Sie falsch gerechnet haben, sondern weil das Modell Dinge erkannt hat, die es in der Realität so nicht gibt.

2. Warum das in Ausschreibungen selten adressiert wird

Viele Leistungsverzeichnisse fordern „eine Genauigkeit von mindestens 85 Prozent". Ohne zu sagen, wie diese zu bestimmen ist. Das ist eine Einladung für Anbieter, mit zufälligem Split gute Zahlen zu produzieren. Die Zahlen sehen professionell aus. Sie sagen nur leider nichts darüber aus, wie gut das Modell auf einer neuen Fläche funktioniert.

3. Drei Validierungs-Ansätze, sortiert nach Strenge

Abb. 1 · Validierungs-Designs

Drei Strenge-Stufen, schematisch

Trainings-Daten Test-Daten (hold-out)

Schematisch. Die Strenge steigt von A nach C. A tolerant gegenüber räumlicher Autokorrelation, B neutralisiert Nachbarschaft bis zur Blockgröße, C testet echten Transfer zwischen Regionen. Wir wählen nach Fragestellung und Einsatzgebiet.

a) Zufälliges Holdout

Der Standard-Ansatz. 80 Prozent Training, 20 Prozent Test. Für tabellarische, unabhängige Daten angemessen. Für räumliche Daten die schwächste Form der Validierung. Führt systematisch zu überhöhten Zahlen. Wir verwenden das nur, wenn die Aufgabe tatsächlich räumlich unabhängig ist (was selten zutrifft).

b) Räumliches Cross-Validation (Spatial CV)

Die Trainingsdaten werden in räumliche Blöcke gelegt. Beispielsweise Felder von 500 Meter Kantenlänge. Jeweils ein Block wird weggelassen, das Modell auf den übrigen trainiert und auf dem weggelassenen geprüft. Das Verfahren berücksichtigt räumliche Autokorrelation. Es ist für die meisten Aufgaben ausreichend und gut dokumentierbar.

c) Echter räumlicher Holdout (out-of-region)

Das Modell wird nur auf einer geografischen Region trainiert und in einer vollständig anderen getestet. Beispielsweise Training in Sachsen-Anhalt, Test in Niedersachsen. Der härteste Test. Zeigt, wie gut das Modell auf Standorte generalisiert, die es nie gesehen hat. Wir nutzen diesen Ansatz immer dann, wenn wir ein Modell in mehreren Bundesländern einsetzen wollen.

4. Ein konkretes Beispiel

In unserer Feldhamster-Studie (vgl. Case Note zum Peer Review) lagen die Accuracy-Werte wie folgt:

Methode	Accuracy	F1-Score
Zufälliges Holdout	91 %	0.89
Spatial CV, 500 m Blöcke	88 %	0.86
Out-of-Region (2. Fläche)	87 %	0.85

Der Unterschied von 91 auf 87 Prozent wirkt klein. Er ist es nicht. Er entspricht einer Verschiebung der erwarteten Fehler-Rate um rund 45 Prozent. Wenn Sie mit diesen Zahlen in eine Behörden-Prüfung gehen, macht das einen Unterschied.

5. Was wir in Ihrer Ausschreibung fordern würden

Wenn Sie eine Leistung ausschreiben, in der ein statistisches Modell ausgeliefert wird, schreiben Sie mindestens diese Punkte rein:

Die Validierung muss die räumliche Struktur der Daten berücksichtigen. Zufälliges Holdout ist nicht akzeptiert.
Das Validierungs-Design ist vor der Modellierung festzulegen und zu dokumentieren.
Die Test-Daten dürfen nicht in der Nachbarschaft (mindestens 500 Meter, projektabhängig) von Trainings-Daten liegen.
Der Bericht enthält einen Vergleich zwischen zufälligem Holdout und räumlichem Holdout. Damit die Differenz sichtbar wird.

Diese Punkte kosten keinen zusätzlichen Projektaufwand. Sie zwingen aber den Anbieter, Validierung als Teil des Ingenieur-Prozesses zu verstehen, nicht als abschliessende Zahl.

„Eine Genauigkeit, die Sie nicht verstehen, ist eine Zahl, die Sie im Streitfall nicht verteidigen können."

6. Was das für Ihre laufenden Projekte bedeutet

Wenn Sie eine bereits abgenommene Leistung haben, deren Validierungs-Setup unklar ist, fragen Sie einfach nach. „Wie wurde validiert? Räumliches Blockdesign oder Standard-Holdout?" Die Antwort sagt Ihnen, wie belastbar die Genauigkeits-Angaben sind. Eine fehlende Antwort ist auch eine Antwort.

Im Zweifelsfall bieten wir eine Zweitmeinung an. Das ist keine Audit-Dienstleistung, sondern ein strukturiertes Nachrechnen auf einer kleinen Test-Stichprobe, mit sauberem räumlichen Design. Manchmal bestätigt sich die Ursprungs-Zahl. Manchmal nicht.

Tags: #Validierung #GeoAI #Reproduzierbarkeit

Räumlich unabhängige Validierung.

1. Das Problem in einem Satz

2. Warum das in Ausschreibungen selten adressiert wird

3. Drei Validierungs-Ansätze, sortiert nach Strenge

Drei Strenge-Stufen, schematisch

a) Zufälliges Holdout

b) Räumliches Cross-Validation (Spatial CV)

c) Echter räumlicher Holdout (out-of-region)

4. Ein konkretes Beispiel

5. Was wir in Ihrer Ausschreibung fordern würden

6. Was das für Ihre laufenden Projekte bedeutet

Weiterlesen in Insights

Peer Review, und warum das für Sie zählt.

Reproduzierbare Pipelines, ohne Dogma.

Monitoring-System statt Einzelstudie.

Solche Beiträge direkt in Ihrer Ablage.