Führende KI-Modelle meistern viele Fragen zu Impfstoffen, scheitern jedoch an klinischen Regeln.
Neue Forschungen zeigen, dass führende KI-Modelle viele Fragen zu Impfstoffen beantworten können, aber ihre Fehler bei Zeitplänen, Gegenanzeigen und Berechtigungen verdeutlichen, warum medizinische Aufsicht entscheidend bleibt.
Impfwissen: Konstruktion und LLM-Verarbeitungspipeline. Papier: Evaluierung großsprachiger Modelle auf mehrsprachigem Impfwissen: Eine Benchmark-Studie
In einer aktuellen Studie, veröffentlicht in npj Vaccines, bewertete eine Gruppe von Forschern, wie genau große Sprachmodelle (LLMs) Fragen zu Impfstoffen in verschiedenen Sprachen und mit unterschiedlichen Aufforderungsstrategien beantworten.
Hintergrund
Immer mehr Menschen nutzen digitale Werkzeuge, darunter KI-Chatbots, um Gesundheitsinformationen zu suchen. Viele stellen LLMs Fragen zu Impfstoffen, von Sicherheitsbedenken bis hin zu Impfplänen. Falsche Antworten in diesem Bereich könnten jedoch Gesundheitsentscheidungen und das Vertrauen der Öffentlichkeit beeinflussen.
Impfstoffe sind eine der effektivsten Maßnahmen im Bereich der öffentlichen Gesundheit, aber die Impfgegnerschaft stellt eine wachsende Herausforderung für globale Impfkampagnen dar. Daher ist es wichtig zu klären, ob KI genaue und zeitnahe Impfinformationen über Sprachbarrieren hinweg bereitstellen kann.
Über die Studie
Die Forscher entwickelten einen mehrsprachigen Impf-Wissen-Benchmark, VaxEval, um die Leistung zeitgenössischer LLMs zu bewerten. Der Benchmark umfasste 1.886 Multiple-Choice-Fragen zu 14 Impfstoffen und drei UN-Sprachen: Englisch, Spanisch und Chinesisch. Die Themen dieser Fragen umfasst beispielsweise Impfpläne, Wirksamkeit, Sicherheit, Nebenwirkungen, das Widerlegen von Mythen, Zugang und Krankheitsprävention.
Die Daten für die Fragen stammen von anerkannten Gesundheitsorganisationen wie der Weltgesundheitsorganisation (WHO), den Centers for Disease Control and Prevention (CDC), dem United Nations Children’s Fund (UNICEF), dem Africa CDC, der American Medical Association (AMA) und Immunize.org. Zusätzliches Material wurde aus begutachteten wissenschaftlichen Arbeiten entnommen. Alle Fragen wurden umfangreichen Qualitätsprüfungen unterzogen, und die Antworten wurden mit vertrauenswürdigen wissenschaftlichen Quellen überprüft.
Die Forscher bewerteten 13 LLMs, darunter Generative Pre-trained Transformer (GPT)-4.5, GPT-4o, GPT-4, GPT-3.5-Turbo, Claude 3 Opus, Gemini 1.5 Pro, Llama-4 Maverick, DeepSeek-V3, Grok-3, Qwen 2.5, General Language Model 4 (GLM-4), Reka Core und Yi-Lightning. Die Modelle verwendeten drei Aufforderungsmethoden: Zero-Shot, Few-Shot und Chain-of-Thought.
Die Antworten der Modelle wurden dahingehend bewertet, ob sie die richtige Antwortoption liefern konnten. Anschließend wurde eine statistische Analyse, einschließlich gemischter logistischen Regressionen, durchgeführt, um Eigenschaften richtiger und falscher Antworten zu identifizieren und die Leistung der Modelle über Sprachen, Impfstofftypen und Modellgruppen hinweg zu vergleichen.
Ergebnisse der Studie
Der Benchmark umfasste 1.340 Fragen auf Englisch, 250 auf Spanisch und 296 auf Chinesisch. Die durchschnittliche Genauigkeit aller Modelle betrug 86,0 % für Englisch, 83,7 % für Spanisch und 80,0 % für Chinesisch. Dies zeigt, dass LLMs über ein erhebliches Impfstoffwissen in den drei Sprachen verfügen, obwohl die Leistung nach Sprache variiert.
Unter den bewerteten Systemen erzielte GPT-4o die höchste Gesamtgenauigkeit von 90,3 %, dicht gefolgt von Llama-4 Maverick mit 90,2 % und DeepSeek-V3 mit 89,6 %. Als Gruppe übertrafen neuere Flaggschiffmodelle ältere Modelle.
Statistische Analysen zeigten, dass Flaggschiffmodelle eine um 57 % höhere Wahrscheinlichkeit hatten, korrekte Antworten zu geben als ältere Systeme, obwohl GPT-4o, das in dieser Studie als älteres Modell eingestuft wurde, dennoch die höchste Gesamtgenauigkeit erreichte.
Der Typ der Aufforderung hatte ebenfalls einen Einfluss auf die Leistung eines Modells. Die Few-Shot-Aufforderungen lieferten die besten Ergebnisse und erhöhten die Wahrscheinlichkeit korrekter Antworten um 17 % im Vergleich zu Zero-Shot-Aufforderungen.
Die Verwendung von Chain-of-Thought-Aufforderungen hatte einen gegenteiligen Effekt als erwartet; sie waren mit einer um 21 % geringeren Wahrscheinlichkeit korrekter Antworten im Vergleich zu Zero-Shot-Aufforderungen verbunden. Dies deutet darauf hin, dass das Anregen von Modellen zu schrittweisem Denken nicht immer die faktische Genauigkeit bei strukturierten, impfstoffbezogenen Aufgaben verbessert.
Die Leistung variierte erheblich zwischen den Impfstofftypen. Die höchsten Genauigkeitswerte wurden bei Influenza (90,5 %), Hepatitis A (89,5 %), humanen Papillomviren (HPV) (88,4 %) und Impfstoffen gegen die Coronavirus-Krankheit 2019 (COVID-19) (85,3 %) beobachtet.
Impfstoffe gegen das respiratorische Synzytialvirus (RSV) (80,6 %), Meningokokkenkrankheit (81,7 %), Pneumokokkenkrankheit (77,7 %) und Dengue (76,4 %) gehörten zu den Kategorien mit geringer Leistungsfähigkeit. Diese Ergebnisse zeigen, dass Modelle bei weit verbreiteten Impfstoffen, die in der Gesundheitskommunikation stark vertreten sind, besser abschneiden.
Modelle erzielten die höchste Genauigkeit bei Missverständnissen und Korrekturen (93,0 %), präventionsbezogenen Fragen (90,0 %) und regulatorischen oder Überwachungssystemen (87,2 %). Geringere Leistungen wurden bei Impfstofftypen und grundlegenden Informationen (82,5 %), Wirksamkeit und Nutzen (86,3 %), Kosten und Zugänglichkeit (82,6 %) sowie Dosis- oder Empfehlungfragen (82,5 %) beobachtet.
Sprachanalysen zeigten, dass Fragen auf Spanisch und Chinesisch weniger wahrscheinlich korrekt beantwortet wurden als Fragen auf Englisch. Zusätzliche Analysen von semantisch ausgerichteten mehrsprachigen Fragen ergaben, dass viele dieser Unterschiede auf Variationen in der Zusammensetzung der Datensätze zurückzuführen waren, anstatt auf eine angeborene Sprachvorurteile.
Die Autoren stellten außerdem fest, dass die spanischen und chinesischen Datensätze unabhängig erstellt wurden und keine direkten Übersetzungen der englischen Fragen darstellten, was zu Unterschieden in der Schwierigkeit der Fragen, der Themenverteilung und der Quellenzusammensetzung beigetragen haben könnte.
Die Fehleranalyse hob die Schwächen des Modells hervor: Fast die Hälfte eines Probenumfangs von 150 falschen Antworten resultierte aus Übergeneralisation, bei der Modelle allgemeine Aussagen ohne Berücksichtigung spezifischer Anforderungen an den Impfstoff lieferten.
Zu den anderen häufigen Fehlern gehörten falsche Dosisintervalle, Fehleinschätzungen von Gegenanzeigen, falsche Empfehlungen zur altersbasierten Berechtigung und das Unvermögen, zwischen Impfstofftypen zu unterscheiden. Diese Arten von Fehlern sind von besonderer Bedeutung, da sie sich auf praktische Hinweise beziehen, die Entscheidungen zur Impfung beeinflussen können.
Fazit
Die Ergebnisse zeigen, dass moderne LLMs ein umfassendes Wissen über Impfstoffe besitzen und die meisten Fragen zu Impfstoffen in mehreren Sprachen genau beantworten können.
Neuere Flaggschiffmodelle übertrafen ältere Systeme erheblich auf Gruppenebene, und Few-Shot-Aufforderungen verbesserten die Leistung. Dennoch bleiben viele bedeutende Schwächen in Bereichen bestehen, die explizite klinische Leitlinien erfordern.
Darüber hinaus bleibt die Genauigkeit bei verschiedenen Impfstoffen und Sprachen inkonsistent. Obwohl diese Systeme vielversprechend sind für die Unterstützung der Impfaufklärung und der öffentlichen Gesundheitskommunikation, unterstreichen die verbleibenden Fehlerquoten die Notwendigkeit einer sorgfältigen Aufsicht, kontinuierlichen Bewertung und strukturierter Sicherheitsvorkehrungen, bevor sie breit gefächert im Gesundheitsbereich eingesetzt werden.
Die Autoren betonten auch, dass die Genauigkeit bei Multiple-Choice-Fragen keine klinische Zuverlässigkeit oder Bereitschaft für die echte Impfberatung ohne vorherige Validierung und kontextspezifische Sicherheitsevaluation feststellt.
Weitere Studien sind erforderlich, um die Genauigkeit, Sicherheit und die Wirksamkeit von KI-unterstützter Gesundheitskommunikation in der Praxis zu bewerten.
Laden Sie Ihre PDF-Kopie herunter, indem Sie hier klicken.
Quellen:
- Chen, S., Wass, L., Wu, Z., Garay, L., Vizoso, J., Leung, K., Wu, J., & Lin, L. (2026). Evaluating large language models on multilingual vaccine knowledge: A benchmark study. npj Vaccines. DOI: 10.1038/s41541-026-01500-1, https://www.nature.com/articles/s41541-026-01500-1