Georg Thieme Verlag KGGeorg Thieme Verlag KG
Georg Thieme Verlag KGGeorg Thieme Verlag KG

Künstliche IntelligenzDer Agent übernimmt – und der Mensch schaut zu

KI-Agenten eröffnen vielfältige Anwendungsmöglichkeiten in der digitalen Medizin und sparen viel Zeit, etwa bei der Dokumentation oder der Entwicklung von Gesundheitsapps. kma warf einen Blick in die Entwicklungsabteilung der Telekom. 

Peter Lorenz
Marc-Steffen Unger/Deutsche Telekom
Peter Lorenz leitet seit 2019 als Senior Vice President Digital Solutions die Digital Area bei T-Systems.

Als Peter Lorenz den Startbutton auf seinem PC drückt, fangen auf dem großen Bildschirm Kolonnen von Zahlen- und Buchstaben an zu tanzen. Im rasenden Tempo huschen Codezeilen über den Screen, werden geschrieben, evaluiert, verworfen, neu geschrieben und noch einmal überprüft. Es ist ein kleines Spektakel, das IT-Fanboys und Laien an diesem Montag Anfang April gleichermaßen fasziniert. Einen Tag vor Beginn der diesjährigen DMEA hat die Deutsche Telekom zu ihren Future Health Days in die Berliner Hauptstadtrepräsentanz von Bertelsmann geladen.

Auf dem Programm steht auch eine ­Demonstration mit dem drögen Titel AI Engineering. Doch die Präsentation von Peter Lorenz, Senior Vice President Digital Solutions bei T-Systems, wird es in sich haben – denn sie zeigt auf beeindruckende Weise, in welchem Tempo sich derzeit künstliche Intelligenz weiterentwickelt. Für die Präsentation hat sich der IT-Spezialist des Konzerns eine Ausgabe ausgedacht. Software soll, unterstützt durch generativer KI, eine Gesundheitsapp schreiben und sogleich anwendungsfertig machen. Das klingt auf den ersten Blick nicht spektakulär, schließlich werden Software-Agenten seit langem zum Erstellen von neuen Anwendungen benutzt. Auch der Einsatz generativer KI ist in Zeiten von ChatGPT nicht mehr besonders erwähnenswert. Doch hier programmiert KI-Software völlig autonom eine eigene komplexe App bis zur Produktreife.

Ohne menschliches Zutun

Die Rede ist von einem sogenannten KI-Agenten – in diesem Fall von der Zusammenarbeit mehrerer KI-Agenten. Während die Programme laufen, steht Lorenz wie ein Sportreporter am Spielfeldrand und beschreibt, was da vor ihm auf dem Bildschirm passiert. Der Zuschauer schaut live dabei zu, wie diverse Agenten bei der Erstellung der App eigenständig ohne menschliches Zutun zusammenarbeiten. Neue Code-Zeilen erscheinen, andere Code-Snippets verschwinden wieder, es wird umgruppiert und neu geordnet.

Bei allem stimmen sich die unterschiedlichen KI-Programme ab und „kommunizieren“ in Echtzeit miteinander über den richtigen Weg. Selbst für unvorhergesehene Probleme gibt es blitzschnell passende Lösungen. Am Ende der Demonstration gibt es eine fertige App – und staunende Zuschauer im Saal. Wo früher laut Lorenz rund 100 Softwareentwickler rund drei Monaten lang eine solche App entwickelten, haben die KI-Agenten dies in rund 30 Minuten erledigt.

Das Tempo in den vergangenen zwei Jahren bei der Entwicklung künstlicher Intelligenz ist spektakulär und verläuft exponentiell.

Was der Experte an jenem Montag im April vorführte, zeigt den rasanten Entwicklungsfortschritt bei der künstlichen Intelligenz. Während sich in Deutschland viele noch über ChatGPT und andere Large Language Modells (LLM) begeistern, arbeiten in den KI-Laboren die Entwickler bereits an immer „intelligenter“ agierenden KI-Agenten – mit wachsender Autonomie und dazu fähig, immer komplexere Aufgaben zu lösen. Das Jahr 2025 steht für den Durchbruch dieser pfiffigen KI-Lösungen, denen auch immer mehr Rechenpower zur Verfügung steht und deren Sprachmodelle zunehmend ausgefeilter werden. „Das Tempo in den vergangenen zwei Jahren bei der Entwicklung künstlicher Intelligenz ist spektakulär und verläuft exponentiell“, urteilt dann auch Paul Hellwig, AI in Healthcare Lead bei Telekom Healthcare Solutions.

KI-Agentensysteme beruhen auf generativer KI und ihren LLM-Sprachmodellen, sind aber eine Weiterentwicklung. Chat­GPT und Co. sind bislang sehr gut darin, Texte und Informationen aufzunehmen, zu verarbeiten und in gewünschter Form als geordneten Text wieder auszugeben. ­Zudem hat generative KI in einem weiteren Zwischenschritt gelernt, Informationen aus unterschiedlichen Medienkanälen gleichzeitig zu verarbeiten, neben Text zum Beispiel Sprache, Video, Audio oder Code. Experten bezeichnen dies als die multimodale Kapazität der generativen AI. Diese multimodalen Fähigkeiten sind eine wichtige Grundlage für die komplexen Aufgaben, die KI-Agenten nun übernehmen.

Generative KI halluziniert

Doch so beeindruckend ChatGPT und alle anderen „klassischen“ Anwendungen der generativen KI schon heute sind – sie sind alles andere als fehlerfrei. Die Liste möglicher Fehlerquellen ist lang: ein schlecht programmierter Algorithmus, eine zu kleine Datenbasis, unstrukturierte und/oder nicht aktuelle Daten – alles kann das Ergebnis beeinflussen. Fehlende oder falsche Informationen muss der Algorithmus jedoch interpretieren – oder hinzuerfinden, wie Spötter sagen. Fachleute nennen diesen Vorgang halluzinieren – die KI bildet sich das aus ihrer Sicht beste Ergebnis ein, auch wenn es im gewünschten Kontext der größte Nonsens ist.

Hinzu kommt, dass KI grundsätzlich ­einen bestimmten Informationsstand hat. Antworten können nur anhand der Daten generiert werden, die zum Zeitpunkt des KI-Trainings vorhanden waren. Bei ChatGPT ist das aktuell Juni 2024. Bei einer Abfrage, die aktuelleres Wissen oder unternehmensinterne Informationen benötigt, muss die KI dann Datensammlungen, vorhandene Datenbanken oder verfügbare Daten aus dem Internet abfragen. Diese Abfrage muss aber zum Zeitpunkt des Zugriffs keineswegs identisch mit den Ergebnissen der ersten Abfrage sein. Jeder Siri-Benutzer kennt das Phänomen.

Agenten lösen komplexe Probleme

Als zentraler Meilenstein der neuesten Formen von KI-Agenten gilt gemeinhin ein Aufsatz von Shunyu Yao und anderen KI-Forschern, den sie 2023 zur „International Conference on Learning Representations (ICLR)“ in Kigali (Ruanda) vorstellten. In dem Aufsatz „ReAct: Synergizing Reasoning and Acting in Language Models” beschrieben die Forscher einen definierten „ReAact“-Rahmen für spezielle KI-Software („Agenten“), die mit ihrer Umgebung strukturiert, aber anpassungsfähig interagieren können. David Bergmann von IBM beschrieb das Vorgehen so: Die Agenten verwenden ein LLM, welches als „Gehirn“ des Agenten fungiert. Dabei sei das LLM die Basis, um diverse Aufgaben mithilfe externer Tools zu koordinieren, von einfachen Datenabrufen bis hin zur komplexen parallelen Steuerung mehrerer Agenten. „Die Entwicklung des ReAct-Paradigmas war ein wichtiger Schritt in der Entwicklung der generativen KI (Gen AI) jenseits bloßer Gesprächspartner und hin zu komplexer Problemlösung“, schreibt Bergmann in einen Beitrag.

ReAct steht dabei für „reasoning“ und „acting“, beide sind zentrale Neuerungen. Das „reasoning“ beschreibt einen logischen und analytischen Prozess der KI, der über die Textinteraktion, wie es am Anfang mit ChatGPT oder weiteren Sprachmodellen der Fall war, hinausgeht. Dort wird „nur“ eine Frage gestellt und der Fragesteller bekommt sofort eine Antwort, basierend auf dem definierten Wissensstand, über den das Sprachmodell bis zu dem Zeitpunkt verfügte. Mehr nicht. KI-Agenten gehen einen Schritt weiter.

Paul Hellwig
Deutsche Telekom
Paul Hellwig ist KI-Spezialist bei der Telekom Healthcare Solutions.

Der KI-Agent hinterfragt sich selbst. Das ist schon sehr nah an dem, was ein Mensch auch bei einer Analyse machen würde.

Auch diese nutzen ein Sprachmodell, zerlegen aber die gestellte Aufgabe in Teilschritte. Dann „überlegen“ die Programme, welche Schritte zu welchem Zeitpunkt relevant oder eben nicht relevant sind. „Der KI-Agent hinterfragt sich selbst, man kann der Anwendung dabei zuschauen. Das ist schon sehr nah an dem, was ein Mensch auch bei einer Analyse machen würde“, so KI-Experte Hellwig. Auf der Basis dieses reasonings führe die KI dann die Aufgabe in Einzelschritten durch und nutze dazu auch externe Tools wie eine Websuche, schildert er die Vorgehensweise. Die Ergebnisse werden vom Agenten zusammengefasst, validiert und in eine neue Aufgabe überführt. So beginnt ein neuer Verfahrensschritt, der inhaltlich deutlich schärfer und genauer gefasst ist.

KI-Analysevorgehen ähnelt dem menschlichen Denkprozess

Hinzu kommt eine weitere Funktion, das oben bereits erwähnte Hirn oder ­Gedächtnis, wie Hellwig es nennt. Dieses ermöglicht es dem KI-Agenten, über die verschiedenen Verfahrensschritte hinweg auf Daten zuzugreifen und notfalls sofort zu reagieren. Meint: Die Agenten denken und planen autonom in Echtzeit, führen die notwendigen Prozessschritte aus („acting“) und können sich sofort an unvorhergesehene Umstände anpassen. Für noch komplexere Aufgaben können sogar eine ganze Reihe von Agenten gemeinsam agieren. Einer hat die Gesamtaufsicht, einer recherchiert, einer programmiert, einer validiert, ­einer übernimmt die ­Qualitätskontrolle am Schluss. Während des gesamten Prozesses „kommunizieren“ die Agenten miteinander und reagieren auf die jeweiligen Ergebnisse der anderen „Kollegen“ – wie bei der Vorführung von Peter Lorenz.

Mehr zum Thema:

Agiert KI bald komplett autonom?

Spätestens an diesem Punkt wird manch einem mulmig. Eine autonome KI, die menschliche Denkmuster anwendet und so flexibel interagieren kann – übernimmt damit die KI nicht endgültig viele menschliche Aufgaben und ersetzt Menschen? „Nein, ich sehe sie eher als ein besseres Hilfsmittel. Wir reden ja nicht über ein komplett autonomes System, das werden wir nicht hinkommen “, glaubt Hellwig. Ferner würden Sprachmodelle auch weiterhin nicht zu 100 Prozent fehlerfrei sein.

Es gibt aber immer wieder Fälle, wo sich ein Agent verrennt und unbrauchbare Ergebnisse produziert.

Programmierer versuchen jedoch mit ­allerlei Feintuning, die Genauigkeitsquote weiter zu steigern. Dazu zählen sehr genau definierte Rahmenbedingungen und strikte Vorgaben – etwa welche Dateninformation nicht gewünscht ist. Eine andere Methode ist, gleich mehrere Agentensysteme parallel auf eine Aufgabe anzusetzen, um dann das beste Ergebnis zu nehmen. „Das funktioniert sehr gut in 80 Prozent der Fälle. Es gibt aber immer wieder Fälle, wo sich ein Agent verrennt und unbrauchbare Ergebnisse produziert. Deswegen wird es auch weiterhin Softwareentwickler geben müssen, die genau verstehen, wo sich der Agent geirrt hat.“

Weniger Dokumentations­aufwand

Für die Zukunft der digitalisierten Medizin birgt der neue KI-Entwicklungsschritt ein enormes Potenzial, da sind sich alle Experten einig. Seit einigen Monaten ist das sogenannte Ambient Listening auf dem Vormarsch. KI hilft dabei dem medizinischen Personal, den Dokumentationsaufwand zu reduzieren. Die sogenannten Ambient Agents arbeiten kontinuierlich im Hintergrund und überwachen beziehungsweise dokumentieren autonom das laufende Geschehen, ohne dass kontinuierliche Interaktion mit dem Personal oder dem Patienten notwendig ist.

Ein gutes Beispiel für Ambient Listening schilderte Gottfried Ludewig, Healthcare-Chef der Telekom, in seinem aktuellen Beitrag für die Digitalkolumne „Deep Dive Digital“ der kma. Danach verfolgt die KI Gespräche zwischen Arzt und Patient in Echtzeit mit, bezieht relevante Informationen aus der Pati­entenakte ein und erstellt automatisch strukturierte Notizen oder Berichtsentwürfe. Das spart dem Personal Zeit bei der Dokumentation. Sprache interagiert mit Sprache und nimmt Arbeit ab. Ein weiteres Projekt ist eine KI-Lösung für den Schockraum. Geplant ist, dass KI über Mikrofone mithört, was Ärzte, ­Anästhesisten und Pflegekräfte reden und parallel dazu die Dokumentation erstellt.

Selbst die Schulung des Personals und die Nutzerfreundlichkeit von IT in Kliniken wird sich durch KI grundlegend ändern, ist sich Paul Hellwig sicher. „In Zukunft muss sich das medizinische Personal nicht mehr durch zahlreiche Untermenüs klicken, sondern sagt dem System, was es möchte. Dann navigiert die KI entweder dorthin oder macht direkt den Eintrag.“ Kommt das bekannt vor? Genau, wie bei Raumschiff Enterprise. Dort nutzen Captain Kirk oder Pille keine Tastatur, um vom Rechner Auskünfte zu bekommen. Damals ging der Spruch „Computer!“ in die TV-Geschichte ein. Früher Science Fiction, nun bald Wirklichkeit für das medizinische Personal.

2025. Thieme. All rights reserved.
Sortierung
  • Derzeit sind noch keine Kommentare vorhanden. Schreiben Sie den ersten Kommentar!

    Jetzt einloggen

Doctolib GmbH

Doctolib Hospital – Mit Digitalisierung zu mehr Effizienz und Erfolg! 

Die Technologie von Doctolib schafft einen…

Philips GmbH Market DACH

Philips vernetzt Daten, Technologien und Menschen

Die Medizin macht täglich Fortschritte. Damit steigen auch die…