KI-Tools beschleunigten die Analyse von Schwangerschaftsdaten und die Entwicklung von Modellen zur Einschätzung von Frühgeburten
Forschende der University of California in San Francisco (UCSF) und der Wayne State University in Detroit veröffentlichten die Ergebnisse eines Experiments, bei dem generative KI-Chatbots zum Aufbau rechnergestützter „Pipelines” und prädiktiver Modelle auf großen Datensätzen zur Schwangerschaft eingesetzt wurden. Der Vergleich wurde so durchgeführt, dass sowohl menschliche Teams als auch KI-Tools dieselbe Aufgabe erhielten: aus Daten von mehr als tausend Schwangeren Algorithmen zu entwickeln, die das Risiko einer Frühgeburt vorhersagen können, sowie in separaten Aufgaben das Gestationsalter anhand biologischer Proben zu schätzen.
Der Befund, der die meiste Aufmerksamkeit erregte, war nicht nur, dass einige Modelle mit jenen vergleichbar waren, die zuvor von spezialisierten Data-Science-Teams entwickelt worden waren, sondern auch die Tatsache, dass ein Teil der Arbeit, der biomedizinische Forschung in der Praxis oft verlangsamt – Code schreiben und Fehler beheben, Tabellen zusammenführen, Validierung und wiederholte Analysen – in diesem Fall von Wochen und Monaten auf Stunden, ja sogar Minuten verkürzt wurde. Die Autorinnen und Autoren betonen dabei, dass es nicht um den Ersatz menschlicher Expertise geht, sondern um eine Veränderung der Arbeitsdynamik: KI kann Routine-Schritte übernehmen, und Forschende gewinnen mehr Zeit für die Überprüfung der Ergebnisse, die Interpretation und das Stellen besserer Fragen.
Warum Frühgeburt weiterhin ein großes Public-Health-Problem ist
Eine Frühgeburt, definiert als Geburt vor Vollendung der 37. Schwangerschaftswoche, ist mit einem höheren Risiko der Neugeborenensterblichkeit und einer Reihe langfristiger Folgen verbunden, darunter motorische und kognitive Beeinträchtigungen. Nach Angaben der Weltgesundheitsorganisation wird geschätzt, dass im Jahr 2020 weltweit rund 13,4 Millionen Kinder zu früh geboren wurden, und Komplikationen im Zusammenhang mit Frühgeburt werden als führende Todesursache bei Kindern unter fünf Jahren genannt. In den Vereinigten Staaten ist das Problem besonders sichtbar in Statistiken, die sich seit Jahren um „eins von zehn” Geburten bewegen: Die CDC berichtet, dass 2022 etwa 10,4% der Geburten von Frühgeburt betroffen waren, bei anhaltenden Unterschieden zwischen Bevölkerungsgruppen, was auch auf einen breiteren Kontext von Versorgungszugang und sozialen Ungleichheiten hinweist.
Gerade deshalb wächst das Interesse an zuverlässigen frühen Risikoindikatoren weiter. Im Idealfall würden Risikoschwangerschaften früher erkannt, die Überwachung würde intensiviert und Interventionen würden präziser ausgerichtet. Die Ursachen von Frühgeburt versteht die Wissenschaft jedoch noch immer nicht vollständig; es handelt sich um ein komplexes Ergebnis, bei dem Infektionen, Entzündungsreaktionen, hormonelle Veränderungen, Komorbiditäten, Umweltfaktoren und Stress zusammenwirken können, und der Beitrag einzelner Faktoren hängt oft von der Population und der Schwangerschaftsphase ab.
Daten aus mehreren Studien und Erfahrung aus internationalen Wettbewerben
Das UCSF-Team baut seit Jahren ein Datenrepositorium zur Frühgeburt auf, einschließlich Informationen zum vaginalen Mikrobiom – der Gemeinschaft von Mikroorganismen, die Entzündungsprozesse und Barrierefunktionen der Schleimhaut beeinflussen kann. Laut öffentlich verfügbaren Beschreibungen früherer Arbeiten im internationalen DREAM-Rahmen (Dialogue for Reverse Engineering Assessments and Methods) wurden Mikrobiomdaten in mehreren Untersuchungen erhoben, und Geburtsergebnisse wurden über neun Studien hinweg verfolgt, was Analysen auf der Ebene von mehr als tausend Schwangeren ermöglichte.
DREAM-Challenges funktionieren als Wettbewerbe, bei denen Organisatoren standardisierte Datensätze veröffentlichen und Teams aus aller Welt innerhalb einer vorgegebenen Frist die besten prädiktiven Modelle zu entwickeln versuchen. An früheren, schwangerschaftsbezogenen Challenges nahmen mehr als hundert Gruppen teil; Ziel war es, Muster in den Daten zu erkennen, die auf eine Frühgeburt hindeuten oder das Gestationsalter präziser bestimmen könnten. Obwohl Modelle in solchen Challenges oft relativ schnell entwickelt werden, verlängert sich der Forschungszyklus anschließend: Ansätze müssen abgestimmt, Ergebnisse erneut validiert und eine wissenschaftliche Publikation vorbereitet werden, was Jahre dauern kann.
Was generative KI-Chatbots im neuen Experiment gemacht haben
Im aktuellen Projekt entschieden die Forschenden zu prüfen, ob populäre generative KI-Tools – im Kern Systeme, die über natürliche Sprache genutzt werden und Text sowie Code generieren können – einen Teil der Arbeit übernehmen können, der zuvor viele Stunden Programmierung und Koordination erforderte. Acht verschiedene Chatbots erhielten detailliert ausgearbeitete, fachliche Anweisungen in natürlicher Sprache. Ziel war nicht nur „ein Modell erstellen”, sondern auch: Daten laden, bereinigen, Features vorbereiten, Algorithmen auswählen und trainieren, Ergebnisse evaluieren sowie Code erstellen, der auf einer standardmäßigen Forschungsinfrastruktur laufen kann.
Um den Test vergleichbar zu machen, wurden dieselben Datensätze und dieselben Aufgaben wie in den DREAM-Challenges verwendet: Analyse des vaginalen Mikrobioms zur Einschätzung des Frühgeburtsrisikos sowie Analyse von Blut- oder Plazentaproben zur Schätzung des Gestationsalters. In der Praxis bleibt das Gestationsalter oft eine Schätzung, und ein Schätzfehler kann die Versorgungsplanung, den Zeitpunkt zusätzlicher Untersuchungen und die Vorbereitung auf die Geburt beeinflussen.
Das Ergebnis war nicht „eine KI, die alles löst”. Nur die Hälfte der getesteten Tools produzierte Code und Modelle, die sich als ausreichend brauchbar für weitere Analysen erwiesen, was die Autorinnen und Autoren als Erinnerung deuten, dass generative KI ohne menschliche Kontrolle nicht zuverlässig ist. Bei den erfolgreicheren Tools lag der entscheidende Vorteil jedoch in der Geschwindigkeit: Code, den eine erfahrene Programmiererin oder ein erfahrener Programmierer stunden- oder tagelang schreiben würde, generierte die KI in Minuten. Dadurch konnten auch jüngere Forschende, darunter ein Masterstudent und ein Schüler, unter mentorierter Kontrolle und Überprüfung zu funktionsfähigen Modellen gelangen.
Vergleich mit menschlichen Teams und wo KI wirklich Zeit „gewann”
In wissenschaftlichen Wettbewerben und Laborprojekten verbringen menschliche Teams üblicherweise einen großen Teil ihrer Zeit mit technischen Schritten, die notwendig, aber außerhalb der Fachwelt oft unsichtbar sind: Dateiformate prüfen, Variablen zwischen Studien harmonisieren, Metriken auswählen, Reproduzierbarkeit sicherstellen, Paketversionen dokumentieren und Experimente nach jeder Korrektur erneut ausführen. In diesem Test zeigte generative KI genau dort die meiste „Stärke”: Sie erzeugte das Gerüst der Analyse und Teile fertigen Codes, den die Forschenden anschließend ausführten, prüften, korrigierten und anpassten.
Die Autorinnen und Autoren betonen zudem einen weiteren Aspekt: Schnellere Prototypenentwicklung kann negative Ergebnisse beschleunigen. Wenn sich früh zeigt, dass ein bestimmter Feature-Typ oder Algorithmus keine stabilen Prognosen liefert, können Forschende früher auf andere Hypothesen und Messansätze umschwenken, statt monatelang in derselben Richtung zu „schleifen”.
Wichtig ist dabei zu verstehen, dass sich „Geschwindigkeit” nicht automatisch in „klinische Einsatzbereitschaft” übersetzt. Ein prädiktives Modell kann auf historischen Daten eine gute statistische Genauigkeit haben, aber im Krankenhaus unpraktisch sein, wenn es Proben erfordert, die schwer zu standardisieren sind, wenn es sich auf seltene Laborparameter stützt oder wenn das Ergebnis Ärztinnen/Ärzten und Patientinnen nicht erklärbar ist. In diesem Sinne lässt sich das Projekt am ehesten als Demonstration einer Arbeitsweise lesen, nicht als fertiger Diagnosetest.
Offene Wissenschaft als Voraussetzung und die Frage des Vertrauens in Ergebnisse
Der gemeinsame Nenner sowohl der DREAM-Challenges als auch dieses KI-Experiments ist ein offenerer Austausch von Daten und Methoden. Wenn Daten aus mehreren Studien verglichen und erneut analysiert werden können, ist es leichter, die Robustheit von Modellen zu testen, verborgene Verzerrungen zu entdecken und falsche „Siege” zu vermeiden, die aus den Besonderheiten einer einzelnen Kohorte entstehen. In veröffentlichten Beschreibungen früherer DREAM-Arbeiten werden auch Techniken zur Harmonisierung von Mikrobiomdaten sowie eine strikte Trennung von Trainings- und Validierungssets betont, um das Risiko eines Informations-„Leakage” zu verringern.
Generative KI eröffnet in diesem Kontext zwei gegensätzliche Möglichkeiten. Einerseits ermöglicht sie ein schnelleres Wiederholen von Analysen und den Vergleich mehrerer Ansätze, was in der Wissenschaft oft zu stabileren Schlussfolgerungen führt. Andererseits erhöht sie das Risiko, dass sich jemand auf Code verlässt, der „überzeugend aussieht”, aber einen Fehler verbirgt oder die Datenstruktur falsch interpretiert. Die Autorinnen und Autoren betonen daher die Notwendigkeit ständiger Aufsicht: KI kann Fehler machen, kann Funktionen „halluzinieren”, die nicht existieren, oder Schritte überspringen, die für die Validierung entscheidend sind.
In der Praxis bedeutet das, dass Standards für Reproduzierbarkeit und Transparenz verschärft werden müssen – nicht gelockert. Code muss prüfbar, versioniert und getestet sein; Erfolgsmetriken müssen klar definiert werden; und Modelle, insbesondere bei sensiblen Gesundheitsoutcomes, müssen in unterschiedlichen Populationen validiert werden. Andernfalls kann die Beschleunigung der Entwicklung nur zu einer schnelleren Verbreitung unzuverlässiger Schlussfolgerungen führen.
Was ein solcher Ansatz in der Schwangerschaftsforschung verändern könnte
Wenn sich generative KI-Tools in Aufgaben wie diesen als stabil erweisen, könnte sich die Veränderung auf mehreren Ebenen zeigen. Erstens könnten kleinere Labore und jüngere Forschende Ideen schneller testen, ohne große Budgets für Engineering-Teams, was den Zugang zur Analytik potenziell demokratisiert. Zweitens könnten Wettbewerbsformate wie DREAM eine „zweite Phase” erhalten, in der menschliche Teams stärker auf Interpretation und biologischen Sinn fokussieren, während der technische Teil der Pipeline standardisiert und automatisiert wird. Drittens könnte dies den Weg zu klinisch relevanten Biomarkern beschleunigen – vorausgesetzt, die Ergebnisse werden in prospektiven Studien bestätigt und Protokolle für eine sichere Anwendung entwickelt.
Fachleute erinnern jedoch daran, dass die Vorhersage von Frühgeburt nicht nur eine mathematische Frage ist. Selbst ein sehr gutes Modell wird keinen Nutzen haben, wenn es keinen klaren Plan gibt, wie vorzugehen ist, wenn der Algorithmus eine Schwangere als „Hochrisiko” markiert, oder wenn das Gesundheitssystem überlastet ist und keine Kapazitäten für zusätzliche Überwachung hat. Deshalb wird in der Literatur zur Frühgeburt zunehmend die Notwendigkeit betont, biologische Signale mit sozialen Determinanten der Gesundheit zu verbinden – ein Bereich, in dem auch der schnellste Code weiterhin interdisziplinäre Arbeit benötigen wird.
Grenzen und nächste Schritte: von der Demonstration zur Praxis
Die aktuelle Arbeit zeigt, dass generative KI die Erstellung und das Testen von Modellen auf bestehenden Datensätzen beschleunigen kann, aber auch, dass die Qualität vom Tool, den Anweisungen und der menschlichen Kontrolle abhängt. Der nächste Schritt, der den tatsächlichen Einfluss auf Patientinnen und Klinikerinnen/Kliniker bestimmen wird, ist der Übergang von retrospektiven Analysen zu Studien, die Schwangere in Echtzeit verfolgen – mit strengen ethischen Standards, Datenschutz und klar definierter Verantwortlichkeit für Entscheidungen.
In der Zwischenzeit dienen die Ergebnisse als Signal, dass sich die biomedizinische Analytik verändert: Die Fähigkeit, Code zu schreiben, bleibt wichtig, aber ebenso wichtig wird die Fähigkeit, präzise Fragen zu formulieren, Kontrollen zu setzen, Datenbegrenzungen zu verstehen und den Moment zu erkennen, in dem die Technologie die falsche Arbeit „erledigt”. In diesem Sinne kann generative KI ein mächtiges Werkzeug sein, aber nur, wenn sie im Rahmen wissenschaftlicher Disziplin bleibt – in der Geschwindigkeit, Transparenz und Überprüfbarkeit gleichermaßen verpflichtend sind.
Quellen:- UCSF News – Bericht über das Experiment von UCSF und Wayne State University mit generativen KI-Chatbots und DREAM-Daten (link)- Cell Reports Medicine – Artikel über die mikrobiomische DREAM-Challenge und die Vorhersage von Frühgeburt aus dem vaginalen Mikrobiom (link)- CDC – Überblick über Preterm-Birth-Indikatoren und Definition der Frühgeburt in den USA (aktualisiert am 8. November 2024) (link)- CDC/NCHS – vorläufige Daten zu Geburten und Frühgeburtenrate in den USA für 2024 (Vital Statistics Rapid Release, Nr. 038) (link)- WHO – Informationsblatt zu Frühgeburt und globalen Schätzungen (Fact Sheet, 10. Mai 2023) (link)- March of Dimes – Report Card 2025 für die Vereinigten Staaten mit Darstellung der Rate und regionaler Unterschiede bei Frühgeburten (link)- Center for Data to Health (CD2H) – Erklärung des DREAM-Rahmens und der Methodik (link)
Unterkünfte in der Nähe finden
Erstellungszeitpunkt: 4 Stunden zuvor