Antworten von Chatbots zu kindlichem Asthma: Zuverlässig und dennoch häufig wenig hilfreich

Patienten (und in diesem Falle deren Eltern oder Erziehungsberechtigte) suchen bei gesundheitlichen Beschwerden häufig erst einmal Rat im World Wide Web, bevor es dann doch zum Facharzt geht. Inzwischen werden nicht selten zuerst Chatbots konsultiert – auch bei kindlichem Asthma.

Wie zuverlässig und hilfreich Informationen sind, die Eltern von Kindern mit Asthma von einer auf Künstlicher Intelligenz basierenden Anwendung (hier: ChatGPT-4o) zur Erkrankung ihrer Nachkommen erhalten, hat jüngst eine türkische Arbeitsgruppe erforscht.

Die Wissenschaftler konstatieren, dass ein Chatbot zwar ein recht zuverlässiges Hilfsmittel für Eltern sein kann, dass es aber auch Probleme mit der Lesbarkeit bzw. der Verständlichkeit der KI-Antworten gibt.

Auch Verständlichkeit der KI-Antworten untersucht

Die Forschenden gaben in ihrer Studie 25 der am häufigsten gestellten Fragen zu Asthma bei Kindern in ChatGPT-4o ein. Um zu bestimmen, welche Qualität die ausgegebenen Antworten besaßen und wie zuverlässig die Informationen waren, wendeten die Wissenschaftler die Global Quality Scale und das modifizierte DISCERN-Tool auf die Antworten an.

Die Verständlichkeit der Informationen beurteilte man sogar mit sieben Werkzeugen: dem automatisierten Lesbarkeits-Index, dem Flesch Reading Ease Score, dem Flesch-Kincaid Grade Level (FKGL), dem Gunning Fog Readability Index, dem Simple Measure of Gobbledygook, dem Coleman-Liau Readability Index und der Linsear Write Formula.

Recht zuverlässig ‒ aber für Laien nur schwer verständlich

Tatsächlich erwiesen sich die Antworten von ChatGPT-4o auf Fragen zu Asthma im Kindesalter als recht zuverlässig (88% beim ersten und 84% beim zweiten Gutachter) und als von hoher Qualität (88% bei beiden Gutachtern).

Mit dem FKGL-Test lässt sich einschätzen, welches Maß an Schulbildung für das Verständnis eines Textes mindestens erforderlich ist. Die von ChatGPT-4o bereitgestellten Informationen erreichten auf der FKGL-Skala einen Wert von 10,77±1,58. Dies lässt auf einen komplexen Text schließen, dessen Inhalt nur von solchen Personen vollständig erfasst werden kann, die sich beruflich mit dem Thema beschäftigen, um das es geht.

Zusammen mit den übrigen in der Studie angewendeten Indizes deuteten die Ergebnisse darauf hin, dass die Antworten der KI ein hohes Maß an Lesekompetenz voraussetzten, erklären die Autoren.

 (ac)