Eine neue internationale Studie zeigt, dass ChatGPT zwar klarere und ansprechendere Antworten zu PCOS liefert als herkömmliche Ressourcen, seine Rolle jedoch eher als leistungsstarkes Unterstützungstool und nicht als Ersatz für evidenzbasierte Pflege gesehen wird.
Studie: Bewertung von ChatGPT im Vergleich zu evidenzbasierten Online-Antworten für Selbstmanagement und Aufklärung zum polyzystischen Ovarialsyndrom: eine internationale, verblindete Querschnittsumfrage unter Angehörigen der Gesundheitsberufe. Bildnachweis: Prostock-studio/Shutterstock.com
Eine aktuelle Studie veröffentlicht in Grenzen der digitalen Gesundheit An der Studie nahmen 43 medizinische Fachkräfte mit unterschiedlichem Hintergrund teil und verglichen die ChatGPT-Antworten auf 12 häufig gestellte Fragen zu PCOS mit evidenzbasierten Antworten. Letztere wurden von einer patientenorientierten Webseite bezogen auf AskPCOS, das diente als evidenzbasierter Komparator in dieser Studie.
Zunehmende Nutzung von ChatGPT für PCOS-Gesundheitsfragen
Das polyzystische Ovarialsyndrom (PCOS) ist eine weit verbreitete Erkrankung, von der Millionen von Frauen im gebärfähigen Alter betroffen sind. Es erstreckt sich über die endokrine, metabolische und reproduktive Gesundheit und verursacht erhebliche Belastungen. Dies kann durch begrenzte Kenntnisse darüber, wie und warum es auftritt, und durch sein unterschiedliches klinisches Erscheinungsbild noch verschlimmert werden.
Große Sprachmodelle wie ChatGPT werden zunehmend verwendet, um personalisierte Antworten auf gesundheitsbezogene Fragen zu geben. Frühere Untersuchungen deuten darauf hin, dass ChatGPT für die Aufklärung über PCOS vielversprechend ist.
Ärzte bewerten ChatGPT anhand leitlinienbasierter PCOS-Informationen
Diese internationale, verblindete Umfrage gehört zu den ersten ihrer Art, die KI-generierte und evidenzbasierte PCOS-Informationen bei einer großen, vielfältigen Gruppe von medizinischen Fachkräften vergleicht. Insgesamt 43 Kliniker bewerteten die Antworten auf 12 häufig gestellte Fragen zu PCOS-Ursachen, -Symptomen und -Diagnose, Behandlung und Management sowie emotionaler und medizinischer Unterstützung.
Die Antworten, von denen eine von ChatGPT generiert wurde und die andere aus einer evidenzbasierten Patientenressource stammte, wurden anhand einer standardisierten Likert-Skala auf Genauigkeit und Klarheit bewertet, wobei die Teilnehmer hinsichtlich ihrer Herkunft blind waren. Parallel dazu wurde die Lesbarkeit anhand mehrerer etablierter Leseindizes bewertet.
Es wurde festgestellt, dass sowohl die anfänglichen ChatGPT- als auch die evidenzbasierten Antworten, gemessen an diesen Metriken, eine relativ hohe Lesekomplexität aufweisen, was darauf hindeutet, dass sie für das allgemeine Publikum möglicherweise schwer zu verstehen sind. Um dieses Problem zu beheben, wurden die ChatGPT-Antworten mithilfe von Folgeaufforderungen weiter vereinfacht und anschließend auf Lesbarkeit überprüft.
Ärzte bewerten ChatGPT-Antworten bei den meisten Fragen höher
Die ChatGPT-Antworten erzielten insgesamt durchweg eine höhere Gesamtpunktzahl als die evidenzbasierten Antworten, und zwar um durchschnittlich 0,8 Punkte auf der Likert-Skala (von 0 (schädliche Antwort) bis 4 (ausgezeichnete Antwort, die keiner Klärung bedarf), wobei bei 11 der 12 Fragen statistisch signifikante Unterschiede beobachtet wurden. Allerdings zeigten einige Fragen erhebliche Überschneidungen zwischen den Bewertungen, während bei anderen größere Unterschiede auftraten.
Mehrere Punkteverteilungen zeigten zwei Spitzen, insbesondere bei ChatGPT-Antworten auf einige Fragen, was auf eine unterschiedliche Bewertung zwischen den Befragten hindeutet. Sieben Fragen zeigten eine ziemliche Zustimmung der Befragten, während bei den übrigen Fragen eine geringe Zustimmung zu verzeichnen war. Die höheren Werte für ChatGPT-Antworten wurden unabhängig von der Rolle des Gesundheitsdienstleisters oder den Jahren seiner Praxis erzielt.
Wichtig ist, dass die Bewertung nicht darauf hinweisen muss, dass die Antworten korrekt, evidenzbasiert oder aktuell sind, da ChatGPT-Antworten möglicherweise nicht immer die aktuellsten Beweise widerspiegeln. Anstatt Websites wie AskPCOS zu ersetzen, deuten diese Ergebnisse darauf hin, dass PCOS-bezogene Informationen mit diesem Modell zugänglicher, personalisierter und leserfreundlicher gemacht werden könnten. Dies ist besonders wichtig, da es für Patienten schwierig ist, auf PCOS-Informationen in einem integrierten Format zuzugreifen.
ChatGPT verwendet außerdem einen einfühlsamen Ton, der das Engagement und die Interaktion von PCOS-Patienten fördert. Es kann auch jeden Teil einer Antwort wiederholt vereinfachen oder umformulieren und so das Verständnis des Patienten verbessern. Dies könnte diese Patienten stärken und eine bessere Auseinandersetzung mit Pflegeempfehlungen unterstützen und gleichzeitig möglicherweise die Abhängigkeit von weniger zuverlässigen Informationsquellen wie sozialen Medien verringern. Allerdings wurden solche Ergebnisse in dieser Studie nicht direkt gemessen.
Die Lesbarkeit war zwischen dem ersten Satz von ChatGPT-Antworten und den evidenzbasierten Antworten ähnlich. Dies deutet darauf hin, dass beide für den allgemeinen Leser etwas schwer zu verstehen waren. Die vereinfachten ChatGPT-Antworten waren deutlich besser lesbar.
ChatGPT kann ein wertvolles ergänzendes Instrument zur Patientenaufklärung in Bevölkerungsgruppen mit geringer Gesundheitskompetenz darstellen, die einen negativen Risikofaktor für die Inanspruchnahme und Ergebnisse der Gesundheitsversorgung darstellt.
Stärken und Grenzen
Die Stichprobe der Befragten war nicht vollständig repräsentativ für alle PCOS-bezogenen Pflegefachkräfte. Obwohl größer als in mehreren früheren Studien, bleibt es klein. Die Befragten sind möglicherweise besser mit PCOS vertraut oder daran interessiert oder eher an KI-generierten Text gewöhnt, was zu einer Verzerrung der Bewertungen führt. Es besteht auch die Möglichkeit, dass einige Befragte anhand des Stils oder der Struktur schlossen, welche Antworten von der KI generiert wurden, was möglicherweise Einfluss auf die Bewertung hatte.
Die verwendete ChatGPT-Version hat möglicherweise ihren Antwortstil geändert oder wurde aktualisiert. Die Wissensbasis könnte sich seit der Studie auch geändert oder erweitert haben, was zu einer Änderung möglicher Reaktionen führen würde.
Zukünftige Richtungen
Patientenzentrierte Bewertungen der LLM-Reaktionen auf PCOS würden in Kombination mit professionellen Bewertungen das aktuelle Verständnis ihres Nutzens verbessern. Die Genauigkeit und Lesbarkeit der Antworten in verschiedenen Sprachen und Alphabetisierungsstufen muss noch untersucht werden.
Unsere Ergebnisse deuten darauf hin, dass Online-Ressourcen für PCOS von der Fähigkeit der LLMs profitieren könnten, die Lesbarkeit durch Vereinfachung und Personalisierung ihrer PCOS-bezogenen Inhalte zu verbessern.
Laden Sie Ihr PDF-Exemplar herunter, indem Sie hier klicken.
Quellen:
-
Graca, S., Dallaway, A., Alloh, F., et al. (2026). Assessing ChatGPT vs. evidence-based online responses for polycystic ovary syndrome self-management and education: an international cross-sectional blinded survey of healthcare professionals. Frontiers in Digital Health. DOI: https://doi.org/10.3389/fdgth.2025.1700018. https://www.frontiersin.org/journals/digital-health/articles/10.3389/fdgth.2025.1700018/full