Warum „AI-powered“ in der klinischen Krebsforschung nur bedingt funktioniert

Oder: Warum 80 % der Arbeit vor der Statistik passiert

Einleitung

„AI-powered“ ist in der klinischen Forschung zu einem allgegenwärtigen Schlagwort geworden. Gerade in der Onkologie werden große Erwartungen geweckt: bessere Prognosen, schnellere Studien, intelligentere Entscheidungen.

Die Realität sieht jedoch oft anders aus.

Nicht, weil Künstliche Intelligenz grundsätzlich ungeeignet wäre – sondern weil klinische Daten nicht dort entstehen, wo KI sie erwartet. Und weil der eigentliche Erkenntnisgewinn lange vor dem ersten Modell stattfindet.

1. Klinische Realität: Daten entstehen im EDC, nicht im Modell

In der klinischen Krebsforschung entstehen Daten primär in:

  • EDC-Systemen (Electronic Data Capture)
  • CRFs, Formularen und Visits
  • manuellen Eingaben durch Studienpersonal
  • zeitlich versetzten Nachmeldungen
  • Protokolländerungen während laufender Studien

Das hat unmittelbare Konsequenzen:

  • Daten sind prozessgetrieben, nicht analytisch optimiert
  • Definitionen sind fachlich, nicht mathematisch
  • Zeitachsen sind unruhig, nicht kontinuierlich

Ein EDC ist kein Data Warehouse. Und schon gar kein Feature Store.

2. Warum „AI-powered“ hier oft scheitert

Viele AI-Ansätze gehen implizit von Annahmen aus, die in klinischen Studiendaten häufig nicht erfüllt sind:

  • konsistente Feature-Definitionen
  • stabile Zeitreihen
  • vollständige Beobachtungen
  • klar definierte Zielvariablen

Das Modell rechnet korrekt – aber auf falschen Annahmen.

Genau deshalb wirkt „AI-powered“ in der klinischen Forschung oft beeindruckend, aber methodisch fragil und fachlich wenig belastbar.

3. 80 % der Arbeit: SQL-Mining und Datenverständnis

Der größte Teil der Arbeit ist kein Machine Learning, sondern Datenarbeit.

Beispiel 1: Rekrutierungsanalyse

Bevor Trends oder Forecasts berechnet werden können, müssen grundlegende Fragen geklärt sein:

  • Was bedeutet „randomisiert“ fachlich genau?
  • Welches Datum ist maßgeblich?
  • Gibt es Mehrfacheinträge pro Patient?
  • Wie gehen wir mit Protokolländerungen um?

Typische SQL-Mining-Aufgaben sind z. B.:

-- Eindeutige Randomisierung pro Patient
SELECT
  patient_id,
  MIN(randomization_date) AS first_randomization
FROM edc_randomization
GROUP BY patient_id;

Oder:

  • Normalisierung der Zeitachse (z. B. Monate seit Studienstart)
  • Trennung von kumulativen und inkrementellen Kennzahlen

Das ist Exploration, kein Modell.

Beispiel 2: Endpunkte & Events

In der Onkologie sind Ereignisse häufig über mehrere Formulare verteilt:

  • Tod im SAE-Formular
  • Tod im Study-End-Formular
  • Tod im Follow-up

Die eigentliche Arbeit besteht darin, fachlich korrekt zu priorisieren:

-- Priorisierung konkurrierender Event-Quellen
ROW_NUMBER() OVER (
  PARTITION BY patient_id
  ORDER BY source_priority, event_date
)

Bevor Survival-Modelle diskutiert werden, muss klar sein:

Welches Ereignis gilt überhaupt als Wahrheit?

4. 20 % Statistik: wichtig, aber nicht dominant

Statistik und Modelle sind wichtig – wenn die Grundlagen stimmen.

Typisch sinnvolle Statistik in diesem Kontext ist:

  • lineare Trends (Rekrutierung, Follow-up)
  • einfache Regressionen
  • Odds Ratios
  • logistische Regression bei klar definierten Endpunkten

Beispiel:

Annahme: Die Rekrutierung steigt linear über die Zeit.
Prüfung: Trendlinie auf kumulativen Rekrutierungsdaten.

Weitere sinnvolle Methoden:

  • Gruppenvergleiche
  • Sensitivitätsanalysen
  • einfache Stabilitätschecks

Das ist angemessene Statistik – kein Overengineering.

4.1 OS, PFS und Kaplan-Meier: unverzichtbar – aber datenabhängig

In der klinischen Krebsforschung sind Overall Survival (OS), Progression-Free Survival (PFS) und Kaplan-Meier-Kurven zentrale Werkzeuge. Sie sind methodisch etabliert, regulatorisch akzeptiert und klinisch hoch relevant.

Gerade deshalb sind sie besonders abhängig von sauberer Datenarbeit. Auch hier gilt: erst Mining, dann Statistik.

Bevor eine Kaplan-Meier-Kurve gerechnet werden kann, ist typischerweise notwendig:

  • SQL-basierte Zusammenführung mehrerer Event-Tabellen
  • Priorisierung konkurrierender Ereignisse
  • Plausibilitätsprüfungen von Zeitdifferenzen
  • Exploration von Zensierungsmustern

Erst danach sind:

  • Log-Rank-Tests
  • Hazard Ratios
  • Subgruppenanalysen

fachlich sinnvoll interpretierbar.

5. Warum mehr KI das Problem nicht löst

Mehr Komplexität bedeutet hier nicht mehr Wahrheit.

Ein komplexes Modell auf:

  • unsauberen Zeitdefinitionen
  • inkonsistenten Begriffen
  • verzerrten Erfassungsprozessen

produziert lediglich präzisere Fehlinterpretationen.

AI verstärkt Datenqualität – sie ersetzt sie nicht.

6. Was wirklich funktioniert: Data Intelligence statt AI-Buzzwords

Erkenntnis in der klinischen Krebsforschung entsteht durch:

  • Verständnis der Datenentstehung
  • saubere Bereinigung und Definition
  • gezielte Exploration (SQL-Mining)
  • explizite Annahmen
  • einfache, erklärbare Modelle
  • Reproduzierbarkeit

Das ist Intelligence – nicht Marketing.

Fazit

„AI-powered“ ist kein Qualitätsmerkmal.

In der klinischen Krebsforschung gilt:

80 % der Erkenntnis entstehen durch Mining vor dem Modell.
20 % durch Statistik.
0 % durch Buzzwords.

Wer diesen Anteil ignoriert, bekommt:

  • beeindruckende Dashboards
  • hohe Confidence Scores
  • aber wenig belastbare Entscheidungen

Wer ihn ernst nimmt, kann auch mit einfachen Mitteln ehrliche, handlungsrelevante Erkenntnisse gewinnen. Und genau darauf kommt es am Ende an.

Posted in Forschung, SQLTags: