KI im Krankenhaus: Schwachstellen und Schutzmaßnahmen

Generative KI revolutioniert die Radiologie – und schafft zugleich neue Sicherheitslücken. Warum selbst erfahrene Ärzte KI-Fälschungen nicht erkennen und welche Schutzmaßnahmen Kliniken jetzt etablieren müssen, erklären Experten von Charité und Vivantes.

Eine Hand hält ein gelbes Dreieck mit Ausrufezeichen vor blauem Hintergrund — Symbolfoto

Dass der Einsatz von Künstlicher Intelligenz (KI) im Krankenhaus enorme Chancen zur Entlastung des Personals, Effizienzsteigerung und Qualitätsverbesserung in der Patientenversorgung bietet, steht mittlerweile außer Frage. Generative KI und Large Language Models (LLM) im radiologischen Umfeld reduzieren etwa den Dokumentationsaufwand für die Erstellung von Arztbriefen, unterstützen bei der Analyse bildgebender Verfahren, helfen Krankheiten schneller zu erkennen und sind in der Lage, große Datenmengen zu analysieren, um Therapieentscheidungen zu optimieren. Genauso vielfältig sind allerdings auch ihre Risiken.

KI-generierte Fälschungen

Das verdeutlichen etwa künstlich generierte Werbevideos, in denen Abbilder echter Ärzte wirkungslose Medikamente und Medizinprodukte anpreisen. Ein aktuelles Beispiel dazu ist etwa Prof. Peter Vajkoczy, Direktor der Klinik für Neurochirurgie an der Charité – Universitätsmedizin Berlin. Sein KI-generiertes Abbild machte Werbung für ein angebliches Alzheimer-Heilmittel.

Dass solche Deepfakes selbst erfahrene Radiologen täuschen können, zeigt eine im Fachjournal Radiology veröffentlichte Studie des Mount Sinai Hospital in New York. Die Wissenschaftler belegten, dass Radiologen aus zwölf Kliniken in sechs Ländern, darunter Deutschland, in Röntgenbildern kaum zwischen echten Aufnahmen und KI-generierten Fälschungen unterscheiden konnten. Ursprünglich werden KI-generierte Röntgenbilder dazu verwendet, um synthetische Datensätze zu erzeugen, die spezielle Krankheitsbilder darstellen. Da jene Bilder nicht von echten Patienten stammen, lassen sie sich problemlos für das Training von KI-Modellen nuzten.

Genauso wie sich Arztbriefe und ärztliche Gutachten fälschen lassen, können auch diese Daten von Hackern benutzt werden und stellen damit neue Cybersicherheitsrisiken dar –etwa, wenn sie in Krankenhausinformationssystemen (KIS) und elektronischen Patientenakten landen. Immerhin laufen viele an das KIS angebundene KI-Lösungen über externe Cloud-Dienste, was die Angriffsfläche für Cyberangriffe vergrößert.

Das Problem der Verlässlichkeit

„Die Robustheit von KI-Anwendungen sowie ihre Verlässlichkeit stellen eine zentrale Herausforderung dar“, sagt Prof. Tobias Penzkofer, Leitender Oberarzt der Klinik für Radiologie an der Charité. Schließlich ist ihre Verlässlichkeit die Voraussetzung dazu, dass sie Effizienz steigern und Anwendern einzelne Arbeitsschritte abnehmen können. KI-Modelle arbeiten allerdings nach dem Prinzip der Wahrscheinlichkeit.

Die Robustheit von KI-Anwendungen sowie ihre Verlässlichkeit stellen eine zentrale Herausforderung dar.

Wenn es darum geht, auf der Grundlage von wissenschaftlichen Leitlinien und Krankheitsmustern etwa Therapieentscheidungen zu unterstützen, empfehlen KI-Modelle daher das, was zu bestehenden Symptomen am häufigsten passt. Dieser sogenannte Zug zur Mitte (Regression to the Mean) hat zur Folge, dass künstliche Intelligenz dazu neigt, bei Vorhersagen, Empfehlungen oder Entscheidungen konservative, durchschnittliche Ergebnisse zu bevorzugen, anstatt extreme oder seltene Ereignisse korrekt abzubilden.

Die KI tendiert damit generell dazu, Ergebnisse in Richtung des Durchschnitts der für ihre Algorithmen verwendeten Trainingsdaten zu ziehen. „Damit kann die Diagnose von seltenen Erkrankungen eine Herausforderung für KI-Algorithmen sein, wenn im Training nur auf hohe Genauigkeit optimiert wird und damit weniger häufige Diagnosen benachteiligt werden“, erläutert Tobias Penzkofer.

Risiko für Fehlinterpretationen

Zudem kann eine KI nur so gut sein wie die Datensätze, anhand derer ihre Algorithmen trainiert wurden. Wenn die zugrunde liegenden Daten fehlerhaft oder unvollständig sind, steigt das Risiko für Fehlinterpretationen und damit für Diagnose- und Behandlungsfehler. „Wir hatten bei einer bestimmten KI-Anwendung zur Lungenintervention das Problem, dass die postoperativen Pneumothoraxe zum Beispiel häufig in unseren Bilddaten im Bereich der Röntgenthorax-Auswertung übersehen wurden, da sie nicht ausreichend in den Trainingsdaten vertreten waren“, berichtet Tim Papalla, Experte für Digital Health & Innovation bei Vivantes.

Gleiches gilt, wenn die Datensätze sogenannte Domänenverschiebungen aufweisen. Sie treten auf, wenn sich Trainingsdaten statistisch von jenen unterscheiden, auf die eine KI im realen klinischen Einsatz trifft. Solche Risiken können technischer Natur sein, etwa wenn ein KI-Modell zur Tumorerkennung, das auf Bildern eines MRT-Scanners eines bestimmten Herstellers trainiert wurde, auf ein Gerät eines anderen Herstellers angewendet wird und aufgrund unterschiedlicher Kontraste, Auflösungen oder Rauschpegel falsche Ergebnisse liefert.

Mehr zum Thema:

360 Grad Panoramabild eines Rechenzentrums

Digitale MedizinDer unterschätzte Stromhunger des KI-Booms

Deep Dive DigitalKI sitzt längst mit am Tisch

Eine Roboterhand zeigt auf die Projektion einer Grafik in Form eines Skeletts wie aus einem Röntgenbild

Elisabethenstift DarmstadtKI als verlässlicher Partner in der Notaufnahme

Solche Fehler können sogar auftreten, wenn eine KI, die eigentlich zuverlässig auf einem Bildgebungssystem funktioniert, auf einem neueren Gerät desselben Herstellers zur Anwendung kommt. Auch ein Modell, das mit CT-Bildern von Patienten in Bauchlage trainiert wurde, liefert schlechtere Ergebnisse, wenn Patienten stattdessen in Rückenlage gescannt werden.

Wenn sich die Einsatzumgebung ändert

Ähnliche Risiken können entstehen, wenn Datensätze nicht einheitlich standardisiert sind. Ein Beispiel: Wird ein KI-Modell anhand von Annotationen zu medizinischen Bilddatensätzen oder Befunden trainiert, die einem bestimmten Dokumentationsstandard folgen, kann es vor Ort zu Fehlinterpretationen kommen, sobald die Strukturierung der lokalen Daten davon abweicht. Gleiches kann passieren, wenn sich deren Zielgruppen ändern. Ein Modell zur Vorhersage von Sepsis, das auf Erwachsenendaten trainiert worden ist, muss nicht unbedingt auch beim Einsatz in der Pädiatrie zuverlässig funktionieren.

Wenn eine KI mit Patientendaten aus Krankenhäusern der Grundversorgung trainiert worden ist, funktioniert sie unter Umständen bei Maximalversorgern und Unikliniken nicht mehr optimal.

Solche Risiken gilt es auch zu beachten, wenn die KI in anderen Versorgungseinheiten zum Einsatz kommt. „Eine KI, die anhand von Datensätzen aus Krankenhäusern trainiert wurde, funktioniert unter Umständen in niedergelassenen Praxen nicht gut, da sie von anderen Grundwahrscheinlichkeiten ausgeht“, so Tobias Penzkofer. Selbst Unterschiede in den Leistungsgruppen von Kliniken bergen solche Risiken. „Wenn eine KI mit Patientendaten aus Krankenhäusern der Grundversorgung trainiert worden ist, funktioniert sie unter Umständen bei Maximalversorgern und Unikliniken nicht mehr optimal, weil sie dort eher in fortgeschrittenen Krankheitsstadien vorkommen könnten“, ergänzt Prof. Penzkofer.

KI als Black-Box

Ein generelles Problem ist laut den Experten die trügerische Sicherheit, die KI-Systeme vermitteln können. Wenn LLMs etwa Empfehlungen mit beeindruckenden Statistiken oder scheinbar wissenschaftlichen Begründungen untermauern, können Ärzte dazu neigen, diese unkritisch zu übernehmen. Der Fachbegriff dazu lautet „Automation Bias“. Er beschreibt ein Phänomen, das häufig in stressigen, komplexen Situationen bei hoher Arbeitsbelastung auftritt – im Krankenhausalltag also keine Seltenheit. Um diesen Effekt zu verhindern, gelte es zunächst, sogenannte Black-Box-Modelle zu vermeiden, bei denen die Entscheidungswege der KI von Anwendern nicht nachvollziehbar sind.

Die im August 2024 in Kraft getretene europäische KI-Verordnung (EU AI Act) zielt darauf ab, diese Black-Box-Falle zu entschärfen. Sie fordert daher von den Herstellern eine Transparenzpflicht und Nachvollziehbarkeit ihrer KI-Systeme,damit Anwender ihre Ergebnisse einordnen, deren Genauigkeit und Grenzen verstehen und auch eventuell riskante Einsatzkonstellationen erkennen können.

Qualitätskontrolle vor dem Einsatz

Unerlässlich für die Einführung von KI ist laut den Experten, auch klinikintern ein Bewusstsein für diese Risiken zu schaffen. Dazu gelte es, in der Qualitätskontrolle entsprechende Vorgehensweisen zu etablieren. „Unsere Erfahrung der letzten Jahre hat gezeigt, dass sich KI-Anwendungen nicht ohne weiteres aus einem ‚App-Store-Prinzip‘ heraus auf andere klinische Umgebungen übertragen lassen. Unterschiede in Datenstruktur, Patientenkollektiven und Trainingsgrundlagen können dazu führen, dass Ergebnisse im lokalen Einsatz von den Erwartungen abweichen – mit potenziell gravierenden Folgen für Diagnostik und Behandlung“, mahnt Nikos Stroglidis-Sieber, Leiter der IT-Abteilung Digital Solutions & Patienten-Anwendungen bei Vivantes.

Entscheidend sei außerdem, KI frühzeitig in bestehende Digital- und Unternehmensstrategien einzubetten, klare Verantwortlichkeiten zu definieren und medizinisches sowie pflegerisches Personal aktiv einzubeziehen. „Nur wenn Mitarbeitende den Nutzen von KI im Arbeitsalltag konkret erleben und Vertrauen in Transparenz, Nachvollziehbarkeit und regulatorische Absicherung haben, kann KI ihr volles Potenzial entfalten“, betontProf. Penzkofer.

Mehrstufige Testphasen

Stroglidis-Sieber und sein Kollege Papalla von Vivantes haben daher mehrstufige Testphasen für KI-Implementierungsprojekte etabliert. Dabei kommen je nach Einsatzgebiet unterschiedliche Validierungsmethoden zum Einsatz: So werden bei radiologischer Bildauswertung mit klassischen (diskriminativen) KI-Produkten andere Verfahren angewendet als bei Anwendungen auf Basis großer – teils in der Cloud liegenden – Sprachmodellen (LLMs). In beiden Fällen wird ermittelt, ob die KI-Anwendungen auch mit den Datensätzen des jeweiligen Anwendungsfalles bei Vivantes funktionieren.

Es hat sich herausgestellt, dass wir der KI erstmal nicht vertrauen können.

Die KI-Anwendungen sind zwar seitens der Hersteller anhand umfangreicher Patientendatensätze trainiert worden. Welche das genau sind, ist den Anwendern aber meist nicht bekannt. Daher sei ihren Qualitätsangaben dazu, wie sensibel sie auf bestimmte Krankheitsmuster ansprechen, mit Vorsicht zu begegnen. „Wir validieren die Algorithmen deshalb selbst, weil sich herausgestellt hat, dass wir der KI erstmal nicht vertrauen können“, ergänzt Tim Papalla.

Anschließend wird die KI im Rahmen eines Projektes einzelnen Anwendern zum Test angeboten, um zu ermitteln, ob sie ihnen grundsätzlich einen gewünschten Output liefert, etwa indem sie Arbeitsprozesse optimieren, statt zusätzlichen Aufwand zu erzeugen. Erst dann wird sie einem größeren Anwenderkreis zur Verfügung gestellt. Zudem gibt es auch nach der Einführung permanente Feedbackloops, bei denen Nutzer Fehler und Ungenauigkeiten melden.

Es braucht eine eigene Organisationsstruktur, die sich der KI-Einführung annimmt und zwar bevor etwas eingeschaltet und angewendet wird.

„Generell erstmal kritisch zu sein, hilft als Grundmindset. Sie brauchen eine eigene Organisationsstruktur, die sich der KI-Einführung annimmt, deren Implementierung unterstützt und ihre Risiken abwenden kann, und zwar bevor da irgendetwas eingeschaltet und angewendet wird. Erst dann können die Anwendenden das Vertrauen in solche Lösungen gewinnen“, rät Nikos Stroglidis-Sieber.

Fallen solche Risiken dagegen erst im Einsatz auf, steigt die Gefahr schwerwiegender Behandlungsfehler. „Genau wie bei allen anderen neu eingeführten Technologien sind kontinuierliche interne Qualitätskontrollen notwendig. Dies gilt auch für eine mächtige Technologie wie KI“, unterstreicht Prof. Penzkofer. „Ideal ist es, wenn die Anwender nach dem Ende einer solchen KI-Testphase dieses Tool behalten wollen. Das ist immer das beste Zeichen für eine gute Anwendung“, ergänzt Nikos Stroglidis-Sieber.