
Die medizinische Forschung wird zunehmend komplexer. Der Trend geht zur Einzelzellforschung (siehe Kasten). Biologen und Mediziner analysieren keine Gewebe mehr, sondern werfen einen Blick in jede einzelne Zelle. Durch sogenannte Einzelzell-Sequenzierung erhalten sie Informationen über die Genaktivität, die ihnen nicht nur Auskunft über die biologische Funktion jeder individuellen Zelle gibt, sondern auch, ob diese krank oder gesund ist, oder in welcher Entwicklungsphase sie sich befindet. Mit diesen Informationen können Mediziner zum Beispiel Krankheiten im frühen Stadium aufspüren. Allerdings fallen bei dieser Art der Untersuchung riesige Datenmengen an, deren Auswertung anspruchsvoll ist.
Bei Prof. Christoph Bock, Bioinformatiker am CeMM-Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften, mussten deshalb alle neuen Doktoranden vor ihrer eigentlichen Arbeit einen zweiwöchigen Programmierkurs absolvieren. Das ist heute nicht mehr nötig. Bock hat mit seinem Team eine multimodale KI entwickelt, mit der Forscherinnen und Forscher mittels Sprachkonversation die Daten einer Einzelzell-RNA-Sequenzierung auch ohne umfassende Programmierkenntnisse analysieren können.
Trainingsdatensatz mit einer Million Proben
Für die Entwicklung ihres KI-Chatbots Cellwhisperer benötigten die Wiener Forscher einen riesigen Trainingsdatensatz. Hierzu nutzten sie öffentlich verfügbare Datenbanken wie zum Beispiel Geo (Gene Expression Omnibus) und Arrayexpress, in denen sogenannte Genexpressionsdaten gespeichert sind. Dieser Datensatz enthielt etwas über eine Million Proben – Sequenzierungsprofile mit textlichen Beschreibungen von verschiedenen Geweben wie Tumoren oder entzündeten Organen. Da die Beschreibungen oft inkonsistent waren, mussten die Daten annotiert werden.
Mehr zum Thema:
Dazu verwendeten die Forscher ein großes Sprachmodell. Die Annotationen enthielten detaillierte Beschreibungen wie Zelltypen, Organe, Gewebe, Krankheiten, experimentelle Methoden und wissenschaftliche Projektzusammenfassungen. So erhielt jedes Genmuster eine exakte Beschreibung wie zum Beispiel „Immunzelle aus entzündetem Darm bei Autoimmunerkrankung“. Die Forscher trainierten ihr multimodales Sprachmodell mit allen biologischen Daten und Texten.
Mit Cellwhisperer kann ich jederzeit um weitere Details und Erklärungen bitten, was ein wenig so ist, als würde man sich die Daten gemeinsam mit einem sachkundigen Kollegen ansehen.
Um mit dem System in natürlicher Sprache zu kommunizieren, kam ein weiteres großes Sprachmodell (von Mistral) zum Einsatz. Damit wurden 100.000 Dialoge erzeugt, die ein Bioinformatiker führen würde. Dadurch wurde Cellwhisperer so trainiert, dass es redet wie ein Bioinformatiker und zugleich die Genexpressionsdaten versteht. „Mit Cellwhisperer kann ich jederzeit um weitere Details und Erklärungen bitten, was ein wenig so ist, als würde man sich die Daten gemeinsam mit einem sachkundigen Kollegen ansehen“, so Bock.
Wichtige Ergebnisse hinterfragen
Wie jedes KI-System besteht auch bei Cellwhisperer das Risiko zu sogenannten Halluzinationen. Das passiert den Forschern zufolge dann, wenn es nach Sachverhalten gefragt werde, auf die es nicht trainiert wurde. Oder wenn es Daten, die besonders häufig in den Trainingsdaten auftreten, zu sehr beachtet. Das ist den Forschern zufolge bei den Altersangaben der Fall. Die Folge: Cellwhisperer möchte es besonders gut machen und liefert zu genaue Altersangaben zum Genexpressionsprofil eines Patienten, die aus den vorliegenden Daten nicht ersichtlich sind.

Die Forscher weisen auf das Risiko hin, dass falsche Antworten des „Zellflüsterers“ unentdeckt bleiben. Das könnte zu einer unkritischen Übernahme von Falschinformationen führen. Sie sehen deshalb in Cellwhisperer ein Werkzeug für die explorative Datenanalyse, das „mit kritischem Verstand“ verwendet werden sollte. Sie empfehlen, wichtige Ergebnisse mit alternativen Methoden zu validieren. Bock betrachtet die aktuelle Version von Cellwhisperer als Proof-of-Concept. Seiner Meinung nach ist noch viel Arbeit nötig, bevor „Bioinformatik-KI-Assistenten“ Wissenschaftler umfassender bei der bio-medizinischen Datenanalyse unterstützen können.
Forscher im Dialog mit Cellwhisperer
Cellwhisperer: In deinem Datensatz erkenne ich mehrere klar unterscheidbare Zellpopulationen. Die größten Gruppen sind: T‑Zellen, B‑Zellen, Monozyten/Makrophagen, Endothelzellen, Fibroblasten. Die T‑Zellen teilen sich zusätzlich in CD4‑ und CD8‑Subtypen auf.
Forscher: Welche Gene sind typisch für die CD8‑T‑Zellen?
Cellwhisperer: Die CD8‑T‑Zellen zeigen eine starke Expression von Genen wie CD8A, CD8B, GZMB, NKG7 und PRF1. Diese Gene sind typisch für zytotoxische T‑Zellen, die an der Abwehr infizierter oder entarteter Zellen beteiligt sind.
Forscher: Gibt es Hinweise auf eine Entzündungsreaktion?
Cellwhisperer: Ja, mehrere Zelltypen zeigen erhöhte Expression von Entzündungsmarkern. Besonders auffällig sind: IL1B und TNF in Monozyten, CXCL10 in Endothelzellen, aktivierte T‑Zellen mit erhöhtem IFNG. Das Muster spricht für eine aktive Immunantwort.
Quelle: KI-generierter Dialog












Derzeit sind noch keine Kommentare vorhanden. Schreiben Sie den ersten Kommentar!
Jetzt einloggen