HPC für Biotec-Startups - Maggie Goiser
EuroCC öffnet Biotec-Startups den Weg zum Supercomputer
Bioinformatik und Supercomputing gehören zusammen wie Google und Suchen – und jede:r weiß: Rechenressourcen sind manchmal knapp. EuroCC Austria, das nationale Kompetenzzentrum für Supercomputing, Big Data und AI, bietet kostenlosen Zugang zum österreichischen Supercomputer VSC sowie Biotec-Expertise für Startups und KMU. Bioinformatikerin Malgorzata Goiser erzählt, wie das konkret abläuft.
Das Interview führte Bettina Benesch
Malgorzata, wie unterstützt du Startups und KMU im Bereich Bioinformatik?
Ich stehe für sämtliche Fragen in diesem Bereich zur Verfügung, die unsere User:innen am Vienna Scientific Cluster (VSC) haben. Ich berate all jene User:innen bioinformatisch, die gerade ins Supercomputing einsteigen oder ein neues Projekt aufsetzen möchten. Auch hinsichtlich der Tools, die sie verwenden können. Bioinformatik ist ein Feld, das sich ständig verändert. Unsere Expertise bei EuroCC liegt darin, unseren User:innen diese Änderungen rasch weiterzugeben. Zusätzlich halte ich immer Ausschau nach Partner:innen, die entweder HPC-Rechenressourcen brauchen oder die Expertise haben, die unsere Kund:innen brauchen.
“
Viele wissen nicht, dass wir in Österreich einen Supercomputer haben, der jedem Unternehmen offensteht. Außerdem vermitteln wir Zugang zu Hochleistungsrechnern in ganz Europa.
„
Was fasziniert dich an deiner Arbeit besonders?
Ich mag es, Menschen für HPC zu begeistern. Viele wissen nicht, dass wir in Österreich einen Supercomputer haben, der im Grunde jedem Unternehmen offensteht – ganz abgesehen von den anderen europäischen Systemen zu denen jedes Unternehmen in der Region Zugang haben kann. Diese Möglichkeit sollte man nutzen, finde ich, denn HPC kann einen großen Beitrag leisten und Innovation in Europa immens vorantreiben.
Wer ist denn der typische Kunde von EuroCC Austria?
Wir richten uns vorrangig an Startups und KMU, aber wir sind für alle da, die keinen eigenen Cluster oder keinen Zugang zu einem Cluster haben. Das Besondere an EuroCC ist, dass das Projekt Zugang zu Hochleistungsrechnern in ganz Europa ermöglicht, also auch zu den Pre-Exascale-Systemen, die derzeit in Finnland, Italien und Spanien stehen.
Welche Anwendungsfelder in der Bioinformatik sind für HPC prädestiniert?
Klassischerweise geht es um Analysen von sequenzierten Daten im Bereich Genetik oder Proteomics. Früher war es beispielsweise sehr mühsam, im Labor Proteinstrukturen vorherzusagen – jetzt funktioniert das dank AlphaFold und ähnlicher Tools recht schnell und mit einer hohen Vorhersagegenauigkeit.
Was tut sich gerade im Bereich Bioinformatik und Künstliche Intelligenz (KI)?
Ein Projekt, an dem derzeit gearbeitet wird und das ich sehr spannend finde, ist das Zusammentragen von allem, was im Bereich Lebenswissenschaften jemals erforscht wurde.
“
Ein Projekt, an dem derzeit gearbeitet wird, ist das Zusammentragen von allem, was im Bereich Lebenswissenschaften jemals erforscht wurde.
„
Alles, was in dem Bereich jemals geschrieben wurde, soll in einer KI zusammenfließen, um Zusammenhänge erkennen zu können. Natürlich ist dieses Projekt extrem aufwändig, denn die Texte müssen erst validiert werden. Es wird also lange dauern, bis die KI letztlich breit eingesetzt werden kann.
Welche Herausforderungen gibt es im Bereich Gesundheit in Zusammenhang mit Bioinformatik?
Für mich als Bioinformatikerin wäre es toll, wenn man viele Patientendaten hätte: Informationen wie Alter, Geschlecht, Krankheitsgeschichten, diagnostische Werte, Gendaten. Vieles davon unterliegt dem Datenschutz und Patient:innen müssen sie freigeben. Daten sind also eine mangelnde Ressource.
Das heißt, die Bioinformatiker:innen hätten gerne mehr Daten?
Ja. Hätten wir zu den klinischen Diagnosen auch Informationen über die Lebensumstände und den Lebensstil, würde die Forschung einen Riesenschritt nach vorne machen. Denn wir wissen: Unsere Gene spielen im Entstehen von Krankheiten nur zum Teil eine Rolle. Alles andere ist Epigenetik, also die Umgebung, die Lebensumstände. Es käme eine Unmenge an Faktoren zusammen und damit zu arbeiten wäre ein Riesenprojekt, das extrem spannend wäre und für die Menschheit sehr wichtig. Das wäre ein Traum, das würde ich auch gerne analysieren.
Bis es soweit ist – falls es jemals soweit ist – kommt die Forschung einfach mit den Daten aus, die vorhanden sind?
Es gibt ja glücklicherweise Menschen, die ihre Daten hergeben, und aufgrund dessen kann man schon viel herausfinden.
Wohin, denkst du, geht die Reise in der Bioinformatik mit HPC, HPDA und KI?
Die KI wird sicher einen großen Einfluss auf den Health-Bereich haben. Grundlagenforschung wird es wahrscheinlich immer geben, aber mit KI-Tools wird alles vermutlich etwas schneller gehen. Die Bioinformatik ist ein sehr weites Gebiet: Es ist zum Beispiel möglich, von jeder Konstellation, die man sich nur vorstellen kann, jeden Stressor zu analysieren. Das ist unendlich.
“
Patientendaten unterliegen dem Datenschutz und Patient:innen müssen sie freigeben. Daten sind also eine mangelnde Ressource.
„
Wenn du einen Wunsch frei hättest, welcher wäre das?
Er bezieht sich auf Daten: Es gibt sehr viele Ärzt:innen und Wissenschaftler:innen, die unglaublich viele Daten in ihren Schubladen haben. Ich bin überzeugt davon, dass wir sehr viel bewegen könnten, wenn man diese analysieren würde. Also ist das hier ein Aufruf an all jene, die über Daten verfügen und nicht wissen, was sie damit anfangen können: Kommt zu uns, lasst uns das analysieren, denn eure Daten könnten einen großen Beitrag leisten.
Zur Person
Malgorzata Goiser hat ihre Karriere als Bioinformatikerin an der Medizinischen Universität Wien begonnen und arbeitete acht Jahre lang am Vienna BioCenter. Seit 2021 ist sie bei EuroCC als Expertin für HPC und High Performance Data Analysis (HPDA) für die Vernetzung von HPC-Expert:innen mit HPC-User:innen verantwortlich und betreut Unternehmer:innen dabei, ihre Projekte im Bereich Bio-Tec auf Österreichs Supercomputer, dem VSC, zu rechnen.
Die wichtigsten Begriffe kurz erklärt
Bioinformatik kombiniert als interdisziplinäres Forschungsfeld Informatik, Mathematik und Biologie, um biologische Daten zu analysieren und zu interpretieren. Bioinformatiker:innen nutzen Algorithmen und Software und arbeiten meist mit großen Datenmengen, wie etwa Genen oder Proteinstrukturen. So lassen sich biologische Prozesse erforschen. Letztlich kommt diese Forschung in der Medizin zum Einsatz, etwa wenn es darum geht, neue Medikamente zu entwickeln.
Überschreiten die verwendeten Datenmengen eine gewisse Größe, reicht ein normaler Desktop-PC oder ein kleiner Cluster für die Berechnungen nicht mehr aus; in diesem Fall verwenden Bioinformatiker:innen High-Performance-Computer, die große Datenmengen sehr rasch verarbeiten können.
Ob man es glaubt oder nicht, aber HPC ist eigentlich eine relativ alte Sache: Das Wort „Supercomputing“ wurde 1929 zum ersten Mal verwendet und die ersten Großrechner gab es in den 1950er-Jahren. Damals hatten sie allerdings sehr viel weniger Kapazität als ein heutiges Handy. So richtig Fahrt nahm die Technologie in den 1970er-Jahren auf.
HPC-Systeme kommen immer dann zum Einsatz, wenn der eigene Arbeitsspeicher zu klein ist, größere Simulationen gefragt sind, die auf dem eigenen System keinen Platz haben oder wenn das, was bisher lokal gerechnet wurde, künftig sehr viel öfter gerechnet werden soll.
Die Leistungsfähigkeit von Supercomputern wird in FLOPS (auch FLOP/s) gemessen (Floating Point Operations Per Second). 1997 erreichte ein Supercomputer erstmals 1,06 TeraFLOPS (1 TeraFLOPS = 1012 FLOPS), Österreichs aktuell leistungsstärkster Supercomputer, der VSC-5, bringt es auf 2,31 PetaFLOPS oder umgerechnet 2.310 TeraFLOPS (1 PetaFLOPSs = 1015 FLOPS). 2022 brach die Ära der Exascale-Computer an, deren Leistung in ExaFLOPS gemessen wird (1 ExaFLOPS = 1018 FLOPS). Ein ExaFLOPS entspricht einer Trillion (1018) Gleitkommaoperationen pro Sekunde.
Mit Stand Juni 2024 gab es in der TOP500-Liste der weltbesten Supercomputer nur zwei Exascale-System, nämlich Frontier am Oak Ridge National Laboratory und Aurora am Argonne National Laboratory, beide in den USA. In Europa gibt es derzeit drei Pre-Exascale-Rechner, also Vorstufen der Exascale-Systeme. Zwei europäische Exascale-Systeme werden in naher Zukunft in Betrieb gehen.
Der VSC (Vienna Scientific Cluster)ist der Supercomputer Österreichs, gemeinsam finanziert von mehreren österreichischen Universitäten. Die Rechner befinden sich in Wien an der TU Wien. Ab 2025 ist der neueste Supercomputer MUSICA (Multi-Site Computer Austria) an den Standorten Wien, Linz und Innsbruck im Einsatz. Forscher:innen der beteiligten Unis können den VSC für ihre Simulationen nutzen und im Rahmen von EuroCC haben auch Unternehmen einfachen Zugriff auf Rechenzeit auf Österreichs Supercomputer. Zudem ist das Team des VSC eine wichtige Quelle von Know-how: In zahlreichen Workshops lernen künftige HPC-User:innen, egal welcher Niveaus, alles über Supercomputing, KI und Big Data.
EuroCC ist eine Initiative von EuroHPC Joint Undertaking. EuroHPC ist eine öffentlich-private Partnerschaft der Europäischen Union, um eine europaweite Hochleistungsrechnerinfrastruktur aufzubauen und international wettbewerbsfähig zu halten.
Jedes der teilnehmenden Länder (EU plus einige assoziierte Staaten) hat ein nationales Kompetenzzentrum für Supercomputing, Big Data und Künstliche Intelligenz aufgebaut, die nationalen EuroCCs (z. B. EuroCC Austria). Sie sind Teil des gleichnamigen EU-Projekts, das künftigen User:innen die Technologie näherbringt und den Zugang zu Supercomputern erleichtert. Der Fokus liegt auf kleinen und mittleren Unternehmen und Start-ups, die unter anderem mit Trainings und Support unterstützt werden, HPC zu nutzen.