Georg Thieme Verlag KGGeorg Thieme Verlag KG
Georg Thieme Verlag KGGeorg Thieme Verlag KG

CellwhispererWenn Forscher mit KI über Zellen chatten

Wiener Bioinformatiker haben ein großes Sprachmodell entwickelt, mit dem Forscher in natürlicher Sprache chatten können. Sie verwenden das KI-System für die Auswertung riesiger Datenmengen aus der Einzelzellforschung.

Forschung
StockPhotoPro/stock.adobe.com
Symbolfoto

Die medizinische Forschung wird zunehmend komplexer. Der Trend geht zur Einzelzellforschung (siehe Kasten). Biologen und Mediziner analysieren keine Gewebe mehr, sondern werfen einen Blick in jede einzelne Zelle. Durch sogenannte Einzelzell-Sequenzierung erhalten sie Informationen über die Genaktivität, die ihnen nicht nur Auskunft über die biologische Funktion jeder individuellen Zelle gibt, sondern auch, ob diese krank oder gesund ist, oder in welcher Entwicklungsphase sie sich befindet. Mit diesen Informationen können Mediziner zum Beispiel Krankheiten im frühen Stadium aufspüren. Allerdings fallen bei dieser Art der Untersuchung riesige Datenmengen an, deren Auswertung anspruchsvoll ist.

Bei Prof. Christoph Bock, Bioinformatiker am CeMM-Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften, mussten deshalb alle neuen Doktoranden vor ihrer eigentlichen Arbeit einen zweiwöchigen Programmierkurs absolvieren. Das ist heute nicht mehr nötig. Bock hat mit seinem Team eine multimodale KI entwickelt, mit der Forscherinnen und Forscher mittels Sprachkonversation die Daten einer Einzelzell-RNA-Sequenzierung auch ohne umfassende Programmierkenntnisse analysieren können.

Trainingsdatensatz mit einer Million Proben

Für die Entwicklung ihres KI-Chatbots Cellwhisperer benötigten die Wiener Forscher einen riesigen Trainingsdatensatz. Hierzu nutzten sie öffentlich verfügbare Datenbanken wie zum Beispiel Geo (Gene Expression Omnibus) und Arrayexpress, in denen sogenannte Genexpressionsdaten gespeichert sind. Dieser Datensatz enthielt etwas über eine Million Proben – Sequenzierungsprofile mit textlichen Beschreibungen von verschiedenen Geweben wie Tumoren oder entzündeten Organen. Da die Beschreibungen oft inkonsistent waren, mussten die Daten annotiert werden.

Mehr zum Thema:

Dazu verwendeten die Forscher ein großes Sprachmodell. Die Annotationen enthielten detaillierte Beschreibungen wie Zelltypen, Organe, Gewebe, Krankheiten, experimentelle Methoden und wissenschaftliche Projektzusammenfassungen. So erhielt jedes Genmuster eine exakte Beschreibung wie zum Beispiel „Immunzelle aus entzündetem Darm bei Autoimmunerkrankung“. Die Forscher trainierten ihr multimodales Sprachmodell mit allen biologischen Daten und Texten.

Mit Cellwhisperer kann ich jederzeit um weitere Details und Erklärungen bitten, was ein wenig so ist, als würde man sich die Daten gemeinsam mit einem sachkundigen Kollegen ansehen.

Um mit dem System in natürlicher Sprache zu kommunizieren, kam ein weiteres großes Sprachmodell (von Mistral) zum Einsatz. Damit wurden 100.000 Dialoge erzeugt, die ein Bioinformatiker führen würde. Dadurch wurde Cellwhisperer so trainiert, dass es redet wie ein Bioinformatiker und zugleich die Genexpressionsdaten versteht. „Mit Cellwhisperer kann ich jederzeit um weitere Details und Erklärungen bitten, was ein wenig so ist, als würde man sich die Daten gemeinsam mit einem sachkundigen Kollegen ansehen“, so Bock.

Wichtige Ergebnisse hinterfragen

Wie jedes KI-System besteht auch bei Cellwhisperer das Risiko zu sogenannten Halluzinationen. Das passiert den Forschern zufolge dann, wenn es nach Sachverhalten gefragt werde, auf die es nicht trainiert wurde. Oder wenn es Daten, die besonders häufig in den Trainingsdaten auftreten, zu sehr beachtet. Das ist den Forschern zufolge bei den Altersangaben der Fall. Die Folge: Cellwhisperer möchte es besonders gut machen und liefert zu genaue Altersangaben zum Genexpressionsprofil eines Patienten, die aus den vorliegenden Daten nicht ersichtlich sind. 

Cellwhisperer-Dialog
Moritz Schäfer/CeMM
Ein Cellwhisperer-Dialog in englischer Sprache.

Die Forscher weisen auf das Risiko hin, dass falsche Antworten des „Zellflüsterers“ unentdeckt bleiben. Das könnte zu einer unkritischen Übernahme von Falschinformationen führen. Sie sehen deshalb in Cellwhisperer ein Werkzeug für die explorative Datenanalyse, das „mit kritischem Verstand“ verwendet werden sollte. Sie empfehlen, wichtige Ergebnisse mit alternativen Methoden zu validieren. Bock betrachtet die aktuelle Version von Cellwhisperer als Proof-of-Concept. Seiner Meinung nach ist noch viel Arbeit nötig, bevor „Bioinformatik-KI-Assistenten“ Wissenschaftler umfassender bei der bio-medizinischen Datenanalyse unterstützen können.

2026. Thieme. All rights reserved.
Sortierung
  • Derzeit sind noch keine Kommentare vorhanden. Schreiben Sie den ersten Kommentar!

    Jetzt einloggen

clinicpartner eG

Was 1997 als Idee begann, hat sich zu einer starken Gemeinschaft entwickelt. Mit rund 500 Mitgliedseinrichtungen im…

Doctolib GmbH

Doctolib Hospital – Mit Digitalisierung zu mehr Effizienz und Erfolg! 

Die Software von Doctolib schafft einen…

ID GmbH & Co. KGaA

Als Unternehmen mit 40-jähriger Erfahrung in der medizinischen Prozess- und Abrechnungsdokumentation haben wir einen…

Philips GmbH Market DACH

Philips vernetzt Daten, Technologien und Menschen

Die Medizin macht täglich Fortschritte. Damit steigen auch die…