Georg Thieme Verlag KGGeorg Thieme Verlag KG
Georg Thieme Verlag KGGeorg Thieme Verlag KG

TU MünchenDie gefährlichen Diagnosen der KI-Chatbots

Eignen sich KI-Chatbots für den Klinikalltag? Um die Frage zu beantworten, haben Forscher der TU München die Diagnose-Fähigkeiten von Large Language Models getestet. Die Schlüsse, die sie ziehen, lassen aufhorchen.

Künstliche Intelligenz
vegefox.com/stock.adobe.com
Symbolfoto

Können Large Language Models, die auch hinter ChatGPT stehen, die Aufgaben von Ärzten in einer Notaufnahme übernehmen? Könnte die Künstliche Intelligenz (KI) anhand von geschilderten Beschwerden die passenden Tests anordnen, die richtige Diagnose stellen und einen Behandlungsplan entwerfen? Diesen Fragen hat sich ein Team der Technischen Universität München (TUM) gewidmet.

Wir müssen uns immer der Grenzen und Eigenheiten dieser Technologie bewusst sein.

Ergebnis: Aktuell ist diese Form der KI nicht für den Klinikalltag geeignet, heißt es in einer Mitteilung der TUM. Demnach treffen die Medizin-Chatbots vorschnelle Diagnosen, halten sich nicht an Richtlinien und würden die Leben von Patienten gefährden. Allerdings sei es gut möglich, „dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen“, erklärt Daniel Rückert. Der Professor für Artificial Intelligence in Healthcare and Medicine an der TUM hat das interdisziplinäre Team aus Ärzten und KI-Fachleuten geleitet.

Mehr zum Thema:

Deshalb habe die TUM die „Testumgebung für alle Forschungsgruppen freigegeben, die Large Language Models für den Klinikkontext testen wollen“, so Rückert. Die mit großen Textmengen trainierten Computerprogramme könnten in Zukunft wichtige Werkzeuge für Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lasse, sagt er: „Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.“

Betroffene kamen mit Bauchschmerzen in die Notaufnahme

Für ihren Test, über den die TUM-Forschenden im Fachmagazin „Nature Medicine“ berichten, haben sie anonymisierte Daten von Patienten einer Klinik in den USA genutzt. Aus einem größeren Datensatz wählten sie 2400 Fälle aus. Alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die Fallbeschreibung endete jeweils mit einer von vier Diagnosen und einem Behandlungsplan.

Das Programm hat immer nur die Informationen, die auch die realen Ärzte hatten.

„Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten“, erklärt Friederike Jungmann. Sie ist Assistenzärztin in der Radiologie des Klinikums rechts der Isar der TUM und gemeinsam mit dem Informatiker Paul Hager Erstautorin der Studie. Das Programm habe immer nur die Informationen gehabt, die auch die realen Ärzte hatten. „Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schließlich eine Diagnose und einen Behandlungsplan erstellt“, so Jungmann.

Das Team stellte fest, dass keiner der komplexen Algorithmen durchgängig alle notwendigen Untersuchungen einforderte, heißt es in der TUM-Mitteilung weiter. Tatsächlich wurden die Diagnosen der Programme sogar weniger zutreffend, je mehr Informationen sie zu dem Fall hatten. Behandlungsrichtlinien befolgten sie oftmals nicht. Als Konsequenz ordnete die KI beispielsweise Untersuchungen an, die für echte Patienten schwere gesundheitliche Folgen nach sich gezogen hätten.

Vergleich mit den Diagnosen von Ärzten

In einem zweiten Teil der Studie wurden KI-Diagnosen mit Diagnosen von vier Ärzten verglichen. Während diese bei 89 Prozent der Diagnosen richtig lagen, sei das beste Large Language Model auf lediglich 73 Prozent gekommen. Jedes Modell habe manche Erkrankungen besser erkannt als andere. In einem Fall habe ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt diagnostiziert. Ein weiteres Problem, das die Programme für den Einsatz im Alltag disqualifiziere, sei ein Mangel an Robustheit: Welche Diagnose ein Large Language Modell stellte, hänge unter anderem davon ab, in welcher Reihenfolge es die Informationen erhalte.

ChatGPT wurde nicht getestet

Die kommerziellen Large Language Models von OpenAI (ChatGPT) und Google habe das Team explizit nicht getestet, betont die TUM. Zum einen untersage der Anbieter der Krankenhausdaten aus Datenschutzgründen, die Daten mit diesen Modellen zu verarbeiten. Zudem rieten Experten nachdrücklich, für Anwendungen im Gesundheitssektor ausschließlich Open-Source-Software zu verwenden.

„Nur damit haben Krankenhäuser die Informationen und das nötige Maß an Kontrolle, um die Sicherheit der Patienten zu gewährleisten“, erklärt Paul Hager: „Wenn es darum geht, Large Language Models zu bewerten, müssen wir wissen, mit welche Daten sie trainiert wurden.“ Sonst könne es sein, dass die Tester für die Bewertung genau die Fragen und Antworten verwendeten, mit denen die Programme trainiert worden seien. Es sei auch gefährlich, wichtige medizinische Infrastrukturen von externen Dienstleistern abhängig zu machen, so Hager: „Im Extremfall könnte ein Dienst, den Hunderte von Kliniken nutzen, eingestellt werden, weil er nicht mehr rentabel ist.“

Sortierung
  • Derzeit sind noch keine Kommentare vorhanden. Schreiben Sie den ersten Kommentar!

    Jetzt einloggen

Doctolib GmbH

Doctolib Hospital – Mit Digitalisierung zu mehr Effizienz und Erfolg! 

Die Technologie von Doctolib schafft einen…

Philips GmbH Market DACH

Philips vernetzt Daten, Technologien und Menschen

Die Medizin macht täglich Fortschritte. Damit steigen auch die…