Forscher finden Fehler in KI-Modellen zur Sepsis-Behandlung
KI trägt bereits zu positiven Ergebnissen im Gesundheitswesen bei und verspricht, noch viel mehr zu bewirken. Es sei jedoch wichtig, dass der Einsatz von KI-Tools – insbesondere im Gesundheitsbereich, bei dem es um Leben und Tod geht – in einem überlegten und maßvollen Tempo erfolgt, warnt Shengpu Tang, Assistenzprofessor für Informatik an der Emory University.
Tang und Kollegen fanden einen Fehler in vielen Peer-Review-Studien, in denen die als Reinforcement Learning bekannte KI-Methode als theoretischer Leitfaden für die Behandlung von Sepsis verwendet wurde.
Das Tagebuch npj Digitale Medizin veröffentlichten ihre Erkenntnisse.
Durch Simulationsexperimente zeigten sie ein Problem mit einer häufig verwendeten Technik zur Vorverarbeitung und Indizierung von Daten im Zusammenhang mit der Sepsis-Behandlung. Diese fehlerhafte Technik führt zu einer leichten zeitlichen Fehlausrichtung, die dazu führt, dass der KI-Agent vom Pfeil der Zeit abrutscht, was dazu führt, dass er manchmal ein zukünftiges Ereignis verwendet, um die Vergangenheit vorherzusagen.
Wenn die Testdaten für ein Modell auf die gleiche Weise falsch ausgerichtet sind, bleibt das Problem verborgen, warnen die Forscher.
Der Fehler wird hinter „überhöhten“ Leistungskennzahlen verschleiert, die auf dem Papier gut aussehen, in der Praxis jedoch scheitern werden.“
Shengpu Tang, Assistenzprofessor für Informatik, Emory University
Wenn diese fehlerhaften Systeme zur Sepsis-Behandlung im Gesundheitswesen eingesetzt würden, würden sie bei fast der Hälfte der Patientenzustände entweder eine Über- oder Unterbehandlung empfehlen, zeigten die Forscher.
„Wir haben herausgefunden, dass die große Mehrheit der Arbeiten, die Verstärkungslernen zur Analyse der Sepsisbehandlung im letzten Jahrzehnt nutzen, diesen Zeitfehler gemacht haben – einschließlich unserer eigenen Arbeit“, sagt Tang, Erstautor der aktuellen Arbeit.
Tang und Kollegen haben einen einfachen Workaround entwickelt, um den Fehler zu vermeiden. Dies stellt einen grundlegenden Wandel in der Art und Weise dar, wie Probleme beim Reinforcement Learning für das Gesundheitswesen formuliert werden.
Ihre Simulationsexperimente, die auf realen klinischen Daten basierten, zeigten, dass ein verstärkender Lernalgorithmus zur Steuerung der Sepsisbehandlung die Sterblichkeitsrate der Patienten weder senkt noch erhöht, wenn der Fehler nicht behoben wird.
Simulationen zeigten jedoch, dass die Beseitigung des Zeitverschiebungsfehlers zu einem Rückgang der Patientensterblichkeit um 8–10 % führt.
„Wir hoffen, dass diese Arbeit als Weckruf und Fahrplan für die Entwicklung sichererer und zuverlässigerer Reinforcement-Learning-Modelle für das klinische Krankenbett dient“, sagt Tang.
Zu den Co-Autoren des Papiers gehören Sonali Parbhoo, Assistenzprofessorin für Elektrotechnik und Elektronik am Imperial College in London; Jenna Wiens, Professorin für Informatik und Ingenieurwesen an der University of Michigan; und Jiayu Yao, der als Postdoktorand an der Columbia University an der Arbeit arbeitete.
Die hohe Zahl an Sepsis
Sepsis ist eine schwere Erkrankung, die dadurch entsteht, dass eine Infektion eine lebensbedrohliche Kettenreaktion im Körper auslöst. Krankenhauspatienten sind aufgrund ihres geschwächten Immunsystems oft besonders gefährdet. Nach Angaben der Centers for Disease Control and Prevention erlitt einer von drei Erwachsenen, die in einem Krankenhaus starben, während seines Aufenthalts eine Sepsis.
Einige Gesundheitssysteme nutzen bereits KI-Tools, um das Risiko eines Patienten für die Entwicklung einer Sepsis zu überwachen. Die Algorithmen für diese Vorhersagetools werden häufig mithilfe einer maschinellen Lernmethode entwickelt, die als überwachtes Lernen bezeichnet wird. Während des Trainings werden große Datensätze mit Vitalparametern und anderen Statistiken für Patienten, die entweder eine Sepsis entwickelt haben oder nicht, in das Modell eingespeist. Das KI-Modell kann dann in realen Situationen eingesetzt werden, um das Gesundheitspersonal auf Patienten mit erhöhtem Risiko aufmerksam zu machen.
Die Wirksamkeit von Risikovorhersagetools veranlasste Informatiker dazu, die KI einen Schritt weiter zu entwickeln, um als Leitfaden für Behandlungsprotokolle zu dienen. Eine schnelle Behandlung nach einer Diagnose ist entscheidend, um Gewebeschäden, Organversagen oder Tod zu verhindern.
Im Gegensatz zur Risikobewertung erfordert die Vorhersage eines Behandlungsprotokolls jedoch die Synchronisierung einer Reihe von Datensätzen in einer dynamischen Umgebung – verschiedene Arten von Behandlungen, wie intravenöse Flüssigkeiten, Antibiotika, Blutdruckmedikamente und Operationen; die Dosierung oder Intensität einer Behandlung; die Dauer einer Behandlung; die Vitalfunktionen eines Patienten vor und nach der Behandlung; und die Überlebens-/Sterblichkeitsrate.
Ein anderer Lernrahmen
Um mit dieser dynamischen Umgebung umzugehen und eine Reihe von Entscheidungen zu treffen, die im Laufe der Zeit ohne eine einzige, vordefinierte „Ja“- oder „Nein“-Antwort erfolgen, ist verstärkendes Lernen erforderlich. Beispielsweise wird Reinforcement Learning verwendet, um KI-Algorithmen für den Wettbewerb in rundenbasierten Spielen wie Schach zu trainieren: Der KI-Agent beobachtet das Brett, wählt eine Aktion oder einen Zug aus, und dann führt der Teilnehmer einen Zug aus. Die Konfiguration der Platine ändert sich ständig und der Vorgang wiederholt sich in einzelnen Runden.
In den letzten Jahren wurden Reinforcement-Learning-Algorithmen auf eine Reihe sequenzieller Entscheidungsaufgaben im Gesundheitswesen angewendet. Die Algorithmen analysieren historische Behandlungssequenzen, um Muster zu identifizieren, die mit günstigen Ergebnissen verbunden sind. Eine erlernte Entscheidungsregel ordnet diese Muster den empfohlenen Behandlungen zu, die auf dem sich entwickelnden Zustand des Patienten basieren. In jedem diskreten Zeitschritt beobachtet der Agent den physiologischen Zustand des Patienten und wählt eine Behandlung aus. Die Situation entwickelt sich dann zu einem neuen Zustand.
Tang arbeitete als Doktorand an einer Arbeit aus dem Jahr 2020 und nutzte Reinforcement Learning, um Best Practices für die Sepsis-Behandlung zu untersuchen.
Nach Abschluss dieser Arbeit begann Tang zu vermuten, dass die Datenvorverarbeitungsmethode, die häufig beim Reinforcement Learning verwendet wird, im Gesundheitswesen möglicherweise nicht die genauesten Ergebnisse liefert. Er und seine Kollegen begannen, sich mit dem Problem auseinanderzusetzen und entdeckten den Fehler.
Eine verblüffende Erkenntnis
Im Gegensatz zu Standard-Reinforcement-Learning-Benchmarks, die auf genau definierten Trajektorien basieren, beinhalten Anwendungen im Gesundheitswesen häufig unregelmäßig erfasste Ereignisse im Laufe der Zeit. Die Dateneingabe für elektronische Gesundheitsakten kann beispielsweise in Echtzeit erfolgen oder auch nicht.
Die Daten über den Zustand des Patienten und die zur Behandlung ergriffenen Maßnahmen werden für das verstärkende Lernen vorverarbeitet, indem sie in Fenster gleicher Zeitlänge unterteilt und in diskrete Zeiteinheiten indiziert werden. Diese Indizes werden dann ausgerichtet, um ein Zustands-Aktionspaar zu bilden.
Das Problem entsteht, weil der KI-Agent den Zustand des Patienten als Zusammenfassung der Vitalfunktionen betrachtet, die erst am Ende des Zeitfensters berechnet werden können. Zu Beginn dieses Fensters muss jedoch eine Aktion festgelegt werden.
„Ein Patient hat möglicherweise mitten im Zeitfenster eine Pille erhalten“, erklärt Tang, „oder er hat viel früher im Zeitfenster mit einer Infusion begonnen, aber der KI-Agent geht davon aus, dass die Entscheidung für die Verabreichung dieser Behandlungen auf der Zusammenfassung des Zustands des Patienten beruhte, die erst am Ende des Zeitfensters ermittelt wird.“
Tang und Kollegen begannen, andere Arbeiten zu untersuchen, in denen Reinforcement Learning eingesetzt wurde, um ein Modell für die Sepsisbehandlung zu trainieren, und stellten fest, dass 80 % von ihnen die fehlerhafte Methode verwendeten.
Sie identifizierten auch eine einfache Lösung für den Fehler: Das Verschieben des Aktionsindex um einen Zeitschritt nach hinten führt zu einer korrekten zeitlichen Ausrichtung.
Das Wort verbreiten
Die Entwickler sind offenbar davon ausgegangen, dass die Datenverwaltungstechniken, die zum Trainieren von überwachten Lernmodellen verwendet werden, auch für Modelle des verstärkenden Lernens gelten würden.
„Viele Menschen denken nie darüber nach, wie die Indizes in verschiedenen Situationen funktionieren“, sagt Tang. „Es ist wichtig, sorgfältig zu überlegen und nicht nur im ‚Autopiloten‘ zu arbeiten, damit bei der Vorverarbeitung der Daten und der Indizierung keine Fehler passieren.“
Als Informatiker, der sich der Entwicklung von KI-Tools widmet, um Mitarbeiter im Gesundheitswesen effektiv bei Entscheidungsprozessen zu unterstützen, plädiert Tang für ein maßvolles Vorgehen beim Einsatz dieser Tools.
„Ich bin ein Old-School-Mensch“, sagt er. „Ich bin der Meinung, dass die KI in manchen Fällen zu schnell voranschreitet und dass eine genauere Prüfung erforderlich ist.“
Während sich die aktuelle Arbeit auf die Sepsis-Behandlung konzentrierte, befürchtet Tang, dass die fehlerhafte Technik in einer Reihe von Reinforcement-Learning-Modellen auftreten könnte.
„Menschen scheinen immer wieder denselben Fehler zu machen“, sagt Tang. „Wir möchten das Problem mehr KI-Forschern und -Entwicklern näher bringen – sowohl denjenigen, die sich auf das Gesundheitswesen als auch auf breitere Anwendungen konzentrieren – um sicherzustellen, dass sie sich dieser Problematik bewusst sind.“
Quellen:
Tang, S., et al. (2026). Off by a beat: the effects of temporal misalignment in reinforcement learning for sepsis treatment. Npj Digital Medicine. DOI: 10.1038/s41746-026-02625-2. https://www.nature.com/articles/s41746-026-02625-2