Ein neuer Benchmark zeigt, dass das Bestehen medizinischer Prüfungen nicht ausreicht; Klinische KI-Agenten müssen Informationen sammeln, mit Unsicherheiten umgehen, Werkzeuge verwenden, Bilder interpretieren und bei simulierten Patientenbegegnungen mit Vorurteilen umgehen.

Ausführen von Sprachagenten in AgentClinic. (Links) Arbeitsablaufdiagramm der Agenten in AgentClinic. Der Arztagent interagiert mit Werkzeugen und Agenten, um zu einer Diagnose zu gelangen. Der Moderator-Agent vergleicht am Ende der Simulation die Schlussfolgerung mit der Ground-Truth-Diagnose. (Rechts) Beispieldialog zwischen Agenten im AgentClinic-Benchmark.

Eine kürzlich in der Zeitschrift veröffentlichte Studie npj Digitale Medizin führte einen multimodalen Agenten-Benchmark, AgentClinic, für Agenten der klinischen künstlichen Intelligenz (KI) in simulierten klinischen Umgebungen ein.

Der Aufbau interaktiver Systeme, die eine Vielzahl von Problemen lösen können, ist eines der Hauptziele der KI. Viele neuere Large Language Models (LLMs) haben schwierige Probleme gelöst, von denen einige selbst für Menschen eine Herausforderung darstellen, und übertrafen auch die durchschnittliche menschliche Punktzahl bei Prüfungen zur medizinischen Zulassung. Mehrere Einschränkungen verhindern jedoch ihre Anwendung im klinischen Alltag.

Werbung
Hier könnte Ihr Advertorial stehen
Ein Advertorial bietet Unternehmen die Möglichkeit, ihre Botschaft direkt im redaktionellen Umfeld zu platzieren

Klinische Arbeit ist multiplex und beinhaltet eine sequenzielle Entscheidungsfindung, die den Umgang mit Unsicherheit mit begrenzten Ressourcen und begrenzten Informationen erfordert. Diese Fähigkeit spiegelt sich in aktuellen Auswertungen nicht wider, in denen alle notwendigen Daten dargestellt werden, falls Vignetten und LLMs die Aufgabe haben, entweder die plausibelste Option zu beantworten oder auszuwählen.

Die Autoren stellten fest, dass eine starke Leistung bei statischen Aufgaben zur Beantwortung medizinischer Fragen nur einen schwachen Vorhersagewert für die Leistung im interaktiven AgentClinic-Umfeld hatte. In einigen Fällen sank die Diagnosegenauigkeit stark, als statische Fälle in das sequentielle Format von AgentClinic konvertiert wurden.

AgentClinic-Studiendesign und Benchmark-Struktur

In der vorliegenden Studie stellten die Forscher AgentClinic vor, einen multimodalen Wirkstoff-Benchmark für die LLM-Bewertung in simulierten klinischen Umgebungen. Der Benchmark umfasste vier Sprachagenten: einen Messagenten, einen Arztagenten, einen Patientenagenten und einen Moderator. Jeder Agent verfügt über spezifische Anweisungen und erhält einzigartige Informationen, die für andere Agenten nicht verfügbar sind. Der Arztagent ist das Modell, dessen Leistung von anderen Agenten bewertet wird.

Fragen aus dem MedQA-Datensatz, der auf Fällen im Stil der United States Medical Licensing Exam, Fallherausforderungen des New England Journal of Medicine (NEJM) und anonymisierten elektronischen MIMIC-IV-Gesundheitsakten basierte, wurden verwendet, um Agenten zu entwickeln, die auf medizinisch relevanten Szenarien basieren. Die Fragen betrafen die Diagnose anhand von Symptomen, die zur Erstellung einer Vorlage für Eingabeaufforderungen verwendet wurden. Für AgentClinic-MIMIC-IV und AgentClinic-MedQA wurden Fragen aus den Datensätzen MIMIC-IV bzw. MedQA ausgewählt.

Mit GPT-4 wurde eine strukturierte Eingabedatei mit Fallinformationen generiert und die Fallszenarien manuell validiert. Im Allgemeinen wurde dem Arztvertreter ein Ziel vorgegeben; Der Patientenvertreter erhielt die Symptome und die Krankengeschichte des Patienten. die Messstelle hat die Ergebnisse der körperlichen Untersuchung erhalten; und der Moderator erhielt die richtige Diagnose. Die Genauigkeit von 11 LLMs wurde auf AgentClinic-MedQA bewertet, wobei jeder als Arzt-Agent fungierte, um den Patienten-Agenten (GPT-4) durch Dialog zu diagnostizieren.

Vor der Diagnosestellung waren dem Arztagenten zwanzig Interaktionen mit dem Patienten und den Messagenten gestattet. Darüber hinaus wurde die Leistung von drei menschlichen Ärzten anhand derselben Einschränkungen und Anweisungen bewertet, obwohl diese kleine Stichprobe von Klinikern mit Vorsicht interpretiert werden sollte. Claude 3.5 Sonnet zeigte mit 62,1 % die höchste Genauigkeit, gefolgt von OpenBioLLM-70B (58,3 %) und Ärzten (54 %).

AgentClinic-Leistung über Modelle, Tools und Modalitäten hinweg

Darüber hinaus war die Genauigkeit bei AgentClinic-MIMIC-IV für Claude 3.5 Sonnet (42,9 %) am höchsten, gefolgt von GPT-4 (34 %) und GPT-3.5 (27,5 %). Durch die Reduzierung der Anzahl der Interaktionen auf 10 verringerte sich die Genauigkeit deutlich auf 25 %, während die Erhöhung auf 30 Interaktionen ebenfalls die Genauigkeit verringerte. Die Genauigkeit des Arztagenten variierte je nach Patientenagent; GPT-4-Patientenagenten erzielten eine höhere Genauigkeit als Mixtral-8x7B- oder GPT-3.5-Patientenagenten.

Genauigkeit verschiedener Arztsprachmodelle und menschlicher Ärzte auf AgentClinic-MedQA unter Verwendung von GPT-4-Patienten- und Messagenten (links). Genauigkeit von GPT-4 auf AgentClinic-MedQA basierend auf dem Patientensprachmodell (Mitte). Genauigkeit auf AgentClinic-MIMIC-IV nach Anzahl der verwendeten GPT-4-Patienten und Messmittel (rechts).

Als nächstes bewerteten die Forscher den Einfluss von sechs Agenten-Tools auf die Diagnosegenauigkeit: Reflection Chain-of-Thought (CoT), Notebook, Zero-Shot CoT, Adaptive Retrieval Augmented Generation unter Verwendung von Lehrbuchquellen, Adaptive Retrieval Augmented Generation unter Verwendung von Webquellen und One-Shot CoT. Claude 3.5 Sonnet zeigte mit dem Notebook-Tool die beste Leistung mit einer mittleren und Spitzengenauigkeit von 51,3 % bzw. 56,1 %. GPT-4o und GPT-4 erzielten bei den meisten Tools moderate Verbesserungen, die Werkzeugnutzung war jedoch nicht bei allen Modellen gleichermaßen vorteilhaft.

Darüber hinaus wurden implizite Verzerrungen (unbewusste Assoziationen, die durch kulturelle und gesellschaftliche Normen beeinflusst werden, z. B. Geschlechtervoreingenommenheit) und kognitive Verzerrungen (systematische Muster der Abweichung von Rationalität oder Urteilsnormen, z. B. Aktualitätsverzerrung) in die Eingabeaufforderungen einbezogen, um ihre Auswirkungen auf die diagnostische Genauigkeit zu bewerten. Für GPT-4 sank die Genauigkeit auf 48 % bzw. 50,3 % für kognitive Verzerrungen von Patienten und Ärzten und auf 51,3 % bzw. 50,5 % für implizite Verzerrungen von Patienten und Ärzten. Der Benchmark bewertete auch das Vertrauen der simulierten Patienten, die Einhaltung der Behandlung und die Bereitschaft, denselben Arzt erneut aufzusuchen. Diese Bewertungen stammten jedoch von LLM-simulierten Patienten und nicht von echten Patienten.

Als nächstes untersuchte das Team Fachfälle anhand von Fallberichtsfragen zu neun medizinischen Fachgebieten aus dem MedMCQA-Datensatz. Durchweg war Claude 3.5 Sonnet mit einer durchschnittlichen diagnostischen Genauigkeit von 66,7 % das Modell mit der besten Leistung und zeigte starke Leistungen in der Inneren Medizin, der HNO und der Gynäkologie. Die Leistung variierte je nach Fachgebiet, was darauf hindeutet, dass sich die dialogbasierte Diagnose von statischen medizinischen Multiple-Choice-Tests unterscheiden kann. Als nächstes bewertete das Team vier multimodale LLMs in einer diagnostischen Umgebung, die zusätzlich das Verständnis der Bildwerte erforderte.

Die Forscher bewerteten auch mehrsprachige Fälle in sieben Sprachen: Englisch, Chinesisch, Französisch, Spanisch, Hindi, Persisch und Koreanisch. Die meisten Modelle schnitten auf Englisch am besten ab und zeigten erhebliche Unterschiede zwischen anderen Sprachen, während Claude 3.5 Sonnet insgesamt die stärkste mehrsprachige Leistung aufwies.

Hierzu wurden 120 Fragen aus den NEJM Case Challenges genutzt. Als das Bild zum ersten Mal dem Arzt vorgelegt wurde, hatte Claude 3.5 Sonnet eine diagnostische Genauigkeit von 37,2 %, gefolgt von GPT-4 (27,7 %), GPT-4o (21,4 %) und GPT-4o-mini (8 %). Als Bilder auf Anfrage des Agenten zur Verfügung gestellt wurden, betrugen die Genauigkeiten 35,4 %, 25,4 %, 19,1 % bzw. 6,1 % für Claude 3.5 Sonnet, GPT-4, GPT-4o und GPT-4o-mini.

Genauigkeit von Claude 3.5 Sonnet, GPT-4, GPT-4o und GPT-4o-mini auf AgentClinic-NEJM mit multimodaler Text- und Spracheingabe. (Rosa) Genauigkeit, wenn die Bilder als Ersteingabe präsentiert werden. (Blau) Genauigkeit, wenn Bilder vom Bildleser angefordert werden müssen.

AgentClinic-Implikationen für die klinische KI-Bewertung

Gemeinsam müssen LLMs mit neuartigen Strategien bewertet werden, die über statische Frage-Antwort-Benchmarks hinausgehen. AgentClinic bietet eine vereinfachte klinische Umgebung mit Agenten, die einen Moderator, einen Patienten, einen Arzt und Messungen repräsentieren. Dies stellt einen Schritt hin zum Aufbau dialoggesteuerter, interaktiverer Benchmarks dar, die die sequentielle Entscheidungsfähigkeit von LLMs in unterschiedlichen, multimodalen und herausfordernden Umgebungen bewerten. Die Autoren warnten jedoch davor, dass AgentClinic eine vereinfachte Simulation der klinischen Versorgung bleibt und LLM-basierte Patienten-, Mess- und Moderatoragenten verwendet. Sie wiesen auch auf potenzielle Risiken von Datenlecks bei proprietären Modellen hin und betonten, dass die menschlichen Vergleichsdaten nur von drei Klinikern stammten.

Diese Ergebnisse sollten daher als Benchmark-Leistung interpretiert werden und nicht als Beweis dafür, dass ein Modell für eine autonome klinische Diagnose bereit ist.


Quellen:

Journal reference: