Warum „AI-powered“ in der klinischen Krebsforschung nur bedingt funktioniert

Oder: Warum 80 % der Arbeit vor der Statistik passiert

Einleitung

„AI-powered“ ist in der klinischen Forschung zu einem allgegenwärtigen Schlagwort geworden. Gerade in der Onkologie werden große Erwartungen geweckt: bessere Prognosen, schnellere Studien, intelligentere Entscheidungen.

Die Realität sieht jedoch oft anders aus.

Nicht, weil Künstliche Intelligenz grundsätzlich ungeeignet wäre – sondern weil klinische Daten nicht dort entstehen, wo KI sie erwartet. Und weil der eigentliche Erkenntnisgewinn lange vor dem ersten Modell stattfindet.

1. Klinische Realität: Daten entstehen im EDC, nicht im Modell

In der klinischen Krebsforschung entstehen Daten primär in:

EDC-Systemen (Electronic Data Capture)
CRFs, Formularen und Visits
manuellen Eingaben durch Studienpersonal
zeitlich versetzten Nachmeldungen
Protokolländerungen während laufender Studien

Das hat unmittelbare Konsequenzen:

Daten sind prozessgetrieben, nicht analytisch optimiert
Definitionen sind fachlich, nicht mathematisch
Zeitachsen sind unruhig, nicht kontinuierlich

Ein EDC ist kein Data Warehouse. Und schon gar kein Feature Store.

2. Warum „AI-powered“ hier oft scheitert

Viele AI-Ansätze gehen implizit von Annahmen aus, die in klinischen Studiendaten häufig nicht erfüllt sind:

konsistente Feature-Definitionen
stabile Zeitreihen
vollständige Beobachtungen
klar definierte Zielvariablen

Das Modell rechnet korrekt – aber auf falschen Annahmen.

Genau deshalb wirkt „AI-powered“ in der klinischen Forschung oft beeindruckend, aber methodisch fragil und fachlich wenig belastbar.

3. 80 % der Arbeit: SQL-Mining und Datenverständnis

Der größte Teil der Arbeit ist kein Machine Learning, sondern Datenarbeit.

Beispiel 1: Rekrutierungsanalyse

Bevor Trends oder Forecasts berechnet werden können, müssen grundlegende Fragen geklärt sein:

Was bedeutet „randomisiert“ fachlich genau?
Welches Datum ist maßgeblich?
Gibt es Mehrfacheinträge pro Patient?
Wie gehen wir mit Protokolländerungen um?

Typische SQL-Mining-Aufgaben sind z. B.:

-- Eindeutige Randomisierung pro Patient
SELECT
  patient_id,
  MIN(randomization_date) AS first_randomization
FROM edc_randomization
GROUP BY patient_id;

Oder:

Normalisierung der Zeitachse (z. B. Monate seit Studienstart)
Trennung von kumulativen und inkrementellen Kennzahlen

Das ist Exploration, kein Modell.

Beispiel 2: Endpunkte & Events

In der Onkologie sind Ereignisse häufig über mehrere Formulare verteilt:

Tod im SAE-Formular
Tod im Study-End-Formular
Tod im Follow-up

Die eigentliche Arbeit besteht darin, fachlich korrekt zu priorisieren:

-- Priorisierung konkurrierender Event-Quellen
ROW_NUMBER() OVER (
  PARTITION BY patient_id
  ORDER BY source_priority, event_date
)

Bevor Survival-Modelle diskutiert werden, muss klar sein:

Welches Ereignis gilt überhaupt als Wahrheit?

4. 20 % Statistik: wichtig, aber nicht dominant

Statistik und Modelle sind wichtig – wenn die Grundlagen stimmen.

Typisch sinnvolle Statistik in diesem Kontext ist:

lineare Trends (Rekrutierung, Follow-up)
einfache Regressionen
Odds Ratios
logistische Regression bei klar definierten Endpunkten

Beispiel:

Annahme: Die Rekrutierung steigt linear über die Zeit.
Prüfung: Trendlinie auf kumulativen Rekrutierungsdaten.

Weitere sinnvolle Methoden:

Gruppenvergleiche
Sensitivitätsanalysen
einfache Stabilitätschecks

Das ist angemessene Statistik – kein Overengineering.

4.1 OS, PFS und Kaplan-Meier: unverzichtbar – aber datenabhängig

In der klinischen Krebsforschung sind Overall Survival (OS), Progression-Free Survival (PFS) und Kaplan-Meier-Kurven zentrale Werkzeuge. Sie sind methodisch etabliert, regulatorisch akzeptiert und klinisch hoch relevant.

Gerade deshalb sind sie besonders abhängig von sauberer Datenarbeit. Auch hier gilt: erst Mining, dann Statistik.

Bevor eine Kaplan-Meier-Kurve gerechnet werden kann, ist typischerweise notwendig:

SQL-basierte Zusammenführung mehrerer Event-Tabellen
Priorisierung konkurrierender Ereignisse
Plausibilitätsprüfungen von Zeitdifferenzen
Exploration von Zensierungsmustern

Erst danach sind:

Log-Rank-Tests
Hazard Ratios
Subgruppenanalysen

fachlich sinnvoll interpretierbar.

5. Warum mehr KI das Problem nicht löst

Mehr Komplexität bedeutet hier nicht mehr Wahrheit.

Ein komplexes Modell auf:

unsauberen Zeitdefinitionen
inkonsistenten Begriffen
verzerrten Erfassungsprozessen

produziert lediglich präzisere Fehlinterpretationen.

AI verstärkt Datenqualität – sie ersetzt sie nicht.

6. Was wirklich funktioniert: Data Intelligence statt AI-Buzzwords

Erkenntnis in der klinischen Krebsforschung entsteht durch:

Verständnis der Datenentstehung
saubere Bereinigung und Definition
gezielte Exploration (SQL-Mining)
explizite Annahmen
einfache, erklärbare Modelle
Reproduzierbarkeit

Das ist Intelligence – nicht Marketing.

Fazit

„AI-powered“ ist kein Qualitätsmerkmal.

In der klinischen Krebsforschung gilt:

80 % der Erkenntnis entstehen durch Mining vor dem Modell.
20 % durch Statistik.
0 % durch Buzzwords.

Wer diesen Anteil ignoriert, bekommt:

beeindruckende Dashboards
hohe Confidence Scores
aber wenig belastbare Entscheidungen

Wer ihn ernst nimmt, kann auch mit einfachen Mitteln ehrliche, handlungsrelevante Erkenntnisse gewinnen. Und genau darauf kommt es am Ende an.