
Patienten sind heute stärker in ihre Behandlung eingebunden als früher und werden auch ausführlicher informiert. Aus gutem Grund: Studien haben gezeigt, dass Krebspatienten mit einer schlechten Gesundheitskompetenz eine erhöhte Sterblichkeit haben. Jede medizinische Information wie zum Beispiel ein Arztbrief oder ein Befund hilft dem Patienten bei einer Entscheidung oder Einwilligung. Allerdings strotzen viele medizinische Berichte vor lateinischen Fachbegriffen, Abkürzungen und Messwerten. Viele Patienten haben deshalb Schwierigkeiten, ihren Befund zu verstehen. Fachpersonal wiederum fehlt oft die Zeit, um die individuellen Befunde manuell in allgemein verständliche Texte zu übersetzen.
Forscher der Technischen Universität München (TUM) haben daher untersucht, ob sich große Sprachmodelle (LLMs) zur automatisierten Vereinfachung von radiologischen Befunden von Krebspatienten eignen. Im Unterschied zu früheren Studien wurde hier ein LLM erstmals an einer größeren Gruppe angewendet und auch subjektive Einschätzungen der Krebspatienten wurden abgefragt, die ihre eigenen onkologischen CT-Befunde im Original oder in einer vereinfachten Version zu lesen bekamen.
LLMs können komplexe CT-Befunde messbar verständlicher aufbereiten.
An der prospektiven Studie haben 200 Krebspatienten teilgenommen, die im Durchschnitt rund 64 Jahre alt waren und bereits eine CT-Routineuntersuchung hinter sich hatten. Die Teilnehmer wurden in zwei gleich große Gruppen unterteilt. Während die Patienten der Kontrollgruppe jeweils ihren individuellen Originalbefund lesen sollten, erhielt die Interventionsgruppe den vom LLM vereinfachten Befund. Für die Vereinfachung verwendeten die Radiologen das generative Sprachmodell Llama der Firma Meta (Facebook, Instagram, Whatsapp).
Diese KI bietet einen höheren Datenschutz, weil sie lokal betrieben werden kann und die Daten für die Verarbeitung nicht die IT-Infrastruktur des Uniklinikums verlassen müssen. Da Llama als Open Source erhältlich ist, fallen keine Lizenzkosten an. Die Forscher haben für die Studie bewusst kein kleines Spezialmodell gewählt, das mit medizinischem Fachwissen trainiert wurde. „Je größer das Modell und die Datenbasis, desto robuster generalisiert es auf neue und unbekannte Aufgaben“, erklärt Dr. Felix Busch, Assistenzarzt am Institut für diagnostische und interventionelle Radiologie des TUM Klinikums Rechts der Isar und Co-Seniorautor der Studie.
Kein Prompt-Engineering
Die Forscher versetzten sich in die Lage eines Patienten und forderten die KI mit einer einzeiligen Anweisung auf, den angehängten CT-Befund verständlich zu erklären. „Mit komplexen Befehlsketten hätten wir keine reale Situation abbilden können“, so Busch. Jeder Teilnehmer der Interventionsgruppe erhielt seinen individuellen CT-Befund, der von Llama mit demselben Prompt vereinfacht wurde.
Die Vereinfachung war direkt messbar. So verkürzte sich die Lesezeit gegenüber dem Originalbefund von sieben auf zwei Minuten. Die vereinfachten onkologischen CT-Befunde waren nicht nur kürzer als das jeweilige Original, auch die Lesbarkeit verbesserte sich deutlich. Zur Beurteilung der Lesbarkeit verwendeten die Münchner Forscher verschiedene Methoden, darunter die Flesch-Kincaid-Methode. Mit dieser konnten die Forscher aus Satz- und Wortlänge einen Lesbarkeitswert ermitteln. Diese Methode, ursprünglich beim US-Militär für technische Handbücher verwendet, orientiert sich am amerikanischen Bildungsniveau, das erforderlich ist, um einen Text beim ersten Lesen zu verstehen. Nach dieser Berechnung hatten die mit Llama vereinfachten Texte das Niveau der 9. Klasse.
Zum Vergleich: In den USA liest ein durchschnittlicher Erwachsener auf dem Niveau der 8. Klasse, weshalb dort die Empfehlung gilt, dass medizinische Texte für Patienten auf dem Niveau der 6. Klasse erstellt werden sollten. Davon sind radiologische Befunde weit entfernt. Diese bewegen sich üblicherweise auf dem Niveau der 11. bis 13. Klasse, wie eine Untersuchung von rund 97.000 radiologischen Befunden ergab; auf dem Niveau der 8. Klasse waren nur vier Prozent dieser Befunde.
Subjektive Bewertungen
Krebspatienten stehen unter starker psychischer Belastung. Die meisten haben Angst, ihren eigenen Befund zu lesen. Eine Befragung der Studienteilnehmer ergab, dass sich die mentale Belastung beim Lesen des Befunds durch die KI-basierte Vereinfachung von 56 Prozent auf 19 Prozent verringerte. Das Lesen eines Befunds kann auch frustrierend sein: Die Patienten fühlen sich entmutigt, verunsichert, verwirrt und gestresst.
Diese Frustration wurde durch die Vereinfachung mit der generativen KI fast halbiert (von 47 auf 25 Prozent). Bereits das Lesen des vereinfachten Befunds wird als weit weniger anstrengend empfunden (11 Prozent) als das Lesen des Originalbefunds (74 Prozent). Weitere deutliche Unterschiede zwischen den KI-generierten CT-Befunden und den Originalen: Die vereinfachten Befunde wurden als klarer und lesbarer bewertet, und auch als verständlicher und hilfreicher eingestuft. Lediglich bei der Vertrauenswürdigkeit lagen der Originalbefund und die vereinfachte Version eng beieinander, wobei letztere etwas besser bewertet wurde.
Die Vereinfachung von CT-Befunden mittels generativer KI ist kein Selbstläufer. Beim Umformulieren können sich Fehler einschleichen. Zwei Radiologen haben daher alle KI-generierten Befunde der Studie überprüft und in sechs Prozent der Fälle sachliche Fehler entdeckt, darunter vier schwere Fehler. Außerdem vermissten sie in sieben Prozent der Fälle Inhalte, die wohl im Zuge der Verarbeitung verloren gingen und in den vereinfachten Befunden nicht mehr auftauchten. Dafür kamen unangemessene Ergänzungen hinzu.
Die hohe Fehlerrate zeigt uns aber auch, dass Radiologen die Texte zwingend überprüfen müssen, bevor sie einem Patienten übergeben werden.
Etwa 70 Prozent der KI-generierten CT-Befunde stuften die beiden Radiologen als klinisch nützlich und relevant ein, 90 Prozent bescheinigten sie eine gute bis ausgezeichnete Qualität. „Große Sprachmodelle eignen sich sehr gut zur technischen Vereinfachung von CT-Befunden und onkologische Patienten nehmen diese Befunde sehr positiv auf“, resümiert Busch. „Die hohe Fehlerrate zeigt uns aber auch, dass Radiologen die Texte zwingend überprüfen müssen, bevor sie einem Patienten übergeben werden.“
Schwächen
Die Untersuchung erfolgte nicht mit einem Einheitsbefund. Jeder Teilnehmer erhielt seinen individuellen onkologischen CT-Befund und konnte erkennen, ob er das Original oder eine vereinfachte Fassung zu lesen bekam. Insofern schloss das Studiendesign eine Verblindung aus. Die Verständnisfragen wurden zu jedem onkologischen CT-Befund individuell gestellt und basierten daher auf subjektiven Einschätzungen und nicht auf objektiven Messungen.
Dieses Manko soll in einer neuen Studie beseitigt werden. Geplant ist, den Patienten synthetische CT-Befunde vorzulegen und dann mit einheitlichen Fragen zu messen, ob sie nach dem Lesen mehr Wissen haben als nach der Lektüre des Originalbefunds. „Auch diese Untersuchung hat ihre Schwächen“, gibt Busch zu bedenken. „Für Patienten ist solch eine Situation natürlich sehr viel abstrakter, als wenn es um ihren persönlichen Befund geht.“ Die grundlegende Erkenntnis der Studie bleibt davon jedoch unberührt: LLMs können komplexe CT-Befunde messbar verständlicher aufbereiten.










Derzeit sind noch keine Kommentare vorhanden. Schreiben Sie den ersten Kommentar!
Jetzt einloggen