Stell dir vor, du bist Biotech-Forscher:in und möchtest gerne mit künstlicher Intelligenz vorhersagen, wie eine Zelle auf Veränderungen reagiert. Das tust du nicht einfach so, weil dir langweilig ist, sondern weil sich damit zum Beispiel sehr rasch neue Medikamente entwickeln ließen oder man herausfinden könnte, wie Alzheimer oder Krebs entsteht. Genau deshalb trainiert das Wiener Biotech-Unternehmen Myllia Biotechnology auf dem EuroHPC-Supercomputer Leonardo ein KI-Modell, das die Forschung revolutionieren könnte. Die ersten Ergebnisse sind beeindruckend.
Bettina Benesch
„In der Biologie ist die Vorhersage von Proteinstrukturen bisher der einzige wirkliche Durchbruch, den Künstliche Intelligenz (KI) geschafft hat“, sagt Adam Krejci, Leiter der Bioinformatik bei Myllia. Das war um 2018 und seither ist KI-mäßig nichts Großes passiert. Doch das könnte sich ändern, denn Fachleute sehen als nächstes großes Ding die sogenannte Einzelzell-RNA-Sequenzierung. Sie würde der Wissenschaft enorm helfen, um Krankheiten besser zu verstehen und personalisierte Medizin Wirklichkeit werden zu lassen. Allerdings gibt es bis dato keine bahnbrechenden Erfolge.
Mit Hilfe der Einzelzell-RNA-Sequenzierung (scRNA-seq) lässt sich zeigen, welche Gene in einzelnen Zellen gerade aktiv sind. Fachleute nennen das den Transkriptionszustand einer Zelle. Denn nicht alle Gene sind immer aktiv:
Wenn ein bestimmtes Gen gebraucht wird, wird es abgelesen und in eine Boten-RNA (mRNA) umgeschrieben, um Proteine zu bauen – das ist die Transkription. Der gesamte Weg von der Transkription bis zur Funktion (meist der Bau eines Proteins) wird als Genexpression bezeichnet.
"Mit der Einzelzell-RNA-Sequenzierung erfassen wir die Expression von rund 20.000 Genen in jeder einzelnen Zelle. In einem einzigen Experiment können bis zu Millionen von Zellen analysiert werden. Auf diese Weise entstehen sehr große Datensätze – und genau das macht die Technologie zu einer attraktiven Datenquelle für Künstliche Intelligenz", erklärt Adam Krejci. Es gab bereits erste Versuche, mit KI grundlegende Modelle für das Verhalten von Zellen zu entwickeln – doch ein großes Problem ist dabei ungelöst geblieben:
Im Mittelpunkt der Forschungen steht die Vorhersage des Verhaltens von veränderten Zellen – etwa durch genetische Eingriffe oder als Reaktion auf eine Medikamentenbehandlung. Damit eine KI vorhersagen kann, wie sich solche veränderten Zellen verhalten, muss sie genau mit solchen Daten trainiert werden – also mit Zellen, die tatsächlich verändert wurden. Denn: Was das KI-Modell nicht gesehen und gelernt hat, kann es am Ende nicht erkennen – und vorhersagen schon gar nicht.
Die meisten öffentlich verfügbaren Datensätze stammen von unveränderten Zellen, den sogenannten Wildtypen, und alle bisher veröffentlichten KI-Modelle wurden fast ausschließlich mit diesem unveränderten Material trainiert. Nun ist klar, warum der Durchbruch bislang ausgeblieben ist: Es fehlen Trainingsdaten mit veränderten Zellen. Myllia verfügt über genau diese Daten, denn im Laufe der Jahre hat das Team viele Zellen mit CRISPR* gezielt modifiziert. Diese nutzt Myllia nun, um ein KI-Modell zu entwickeln, das aussagekräftige Ergebnisse liefert.
Wer in der Biotech-Branche ein KI-Modell trainieren möchte, braucht enorme Rechenleistung. Die liefert EuroCC Austria – und zwar kostenlos für Proof-of-Concept-Projekte. Myllia nutzte die Chance, rechnete erst auf dem österreichischen Hochleistungsrechner VSC und stieg etwas später auf den italienischen Supercomputer Leonardo um. Denn wer möchte sich eines der leistungsstärksten Systeme der Welt entgehen lassen?
Der Vorteil an Leonardos großer Rechenkapazität ist, dass Myllia nicht nur ein, sondern gleich mehrere Modelle trainieren kann, und auch die Möglichkeit hat, die vielversprechendsten in kurzer Zeit weiter zu optimieren.
Das Team macht das mit großem Erfolg: Schon einige der frühen Myllia-KI-Modelle schneiden bei der Vorhersage von Zellveränderungen besser ab als alle bisher veröffentlichten Tools da draußen. Nun wird weiter trainiert, optimiert und verfeinert, um den großen Durchbruch zu schaffen.
"EuroCC Austria ermöglichte uns den Zugang zu leistungsstarker HPC-Infrastruktur. Das Team war stets sehr engagiert und hilfsbereit. Dank ihrer Unterstützung konnten wir nahezu sofort mit den Berechnungen beginnen", sagt Adam Krejci.
“
EuroCC Austria ermöglichte uns den Zugang zu leistungsstarker HPC-Infrastruktur. Das Team war stets sehr engagiert und hilfsbereit. Dank ihrer Unterstützung konnten wir nahezu sofort mit den Berechnungen beginnen.
„
Myllia ist ein 2018 gegründetes Biotechnologie-Unternehmen in Wien, das zwei bahnbrechende Technologien verbindet, nämlich die Einzelzell-RNA-Sequenzierung (single-cell RNA sequencing, scRNA-seq) und CRISPR*, ein Werkzeug zur gezielten Genveränderung. Mit Hilfe dieser Kombination lassen sich funktionelle Genom-Screenings durchführen. So können die Auswirkungen von tausenden genetischen Veränderungen auf Einzelzell-Ebene sichtbar gemacht werden. Dies ermöglicht den Expert:innen in der medizinischen Forschung zum Beispiel, Medikamente rascher zu entwickeln oder komplexe Krankheiten wie Krebs oder neurologische Störungen besser zu versehen.
* CRISPR (ausgesprochen: „krisper“) steht für Clustered Regularly Interspaced Short Palindromic Repeats – also für regelmäßig angeordnete, kurze palindromische Wiederholungen im Erbgut von Bakterien. Diese Sequenzen sind Teil eines natürlichen Abwehrsystems, mit dem sich Bakterien gegen Viren (sogenannte Phagen) schützen.
Wenn ein Bakterium von einem Virus infiziert wird, kann es kurze Abschnitte der viralen DNA in sein eigenes Genom einfügen – genauer gesagt in die CRISPR-Region. Diese gespeicherten Virus-Fragmente, sogenannte Spacer, dienen als molekulare Erinnerung. Bei einer erneuten Infektion produziert das Bakterium aus diesen Abschnitten kurze RNA-Stücke (crRNA), die jeweils zu einer früher gespeicherten Virus-DNA passen.
Diese crRNA bildet zusammen mit dem CRISPR-associated Protein (Cas-Protein) einen aktiven Komplex. Erkennt dieser in einer neuen Virus-DNA eine passende Sequenz, bindet die crRNA daran, und das Cas-Protein schneidet die virale DNA gezielt durch. Dadurch wird die Vermehrung des Virus unterbunden.
Diesen präzisen Schneidmechanismus machen sich Biowissenschaftler:innen zunutze: Indem sie das CRISPR/Cas-System aus Bakterien in andere Zellen – etwa menschliche Zelllinien – übertragen, lassen sich Gene gezielt verändern, ausschalten oder neu einfügen. Dies wird als Genom-Editierung bezeichnet, umgangssprachlich spricht man auch von der „Genschere“.
Die Grundlage für diese Methode legten 2012 die Biochemikerinnen Emmanuelle Charpentier und Jennifer Doudna. Für ihre Entdeckung der CRISPR/Cas9-Technologie erhielten sie 2020 den Nobelpreis für Chemie.