HPC und KI wachsen zusammen - Andreas Rauber


5.01.2025

Supercomputing und Künstliche Intelligenz wachsen mehr und mehr zusammen


Switch to English
 

Ohne Supercomputing wäre die Forschung heute nicht dort, wo sie ist – und auch Unternehmen würden große KI-Anwendungen ohne High-Performance Computing (HPC) nicht auf Schiene bekommen. Derzeit arbeitet das Team rund um Österreichs Supercomputer VSC unter anderem am neuen Hochleistungsrechner MUSICA, der 2025 seinen Betrieb aufnimmt. Andreas Rauber, Leiter des VSC Research Centers, erzählt im Interview über Kosten und Nutzen des neuen Supercomputers und welche Herausforderungen und Vorteile Hochleistungsrechnen generell mit sich bringt.

Das Interview führte Bettina Benesch

Andreas, du arbeitest seit Anfang des Jahrtausends an der TU Wien. Was war dein bisher spannendstes Erlebnis?


Ein einziges Erlebnis gibt es nicht, es sind so viele spannende Dinge. Und etwas, das eine Zeit lang spannend ist, ist für mich in dem Moment nicht mehr spannend, wo es gelöst ist. Das Schöne am VSC ist, dass die Benutzergruppen aus sehr vielen Disziplinen kommen, von denen ich keine Ahnung habe. Ich finde es hochgradig faszinierend, was sie alles berechnen und welche Fragestellungen man überhaupt haben kann.


Was wurde denn zuletzt am VSC gerechnet? Kannst du mir von ein, zwei Projekten erzählen?


Eine Gruppe hat vorherzusagen versucht, welche Eigenschaften eine Legierung hat und wo die Bruchlinien verlaufen – und zwar für ganze Materialblöcke bis hin in die molekulare Struktur.

Und es gibt viele Simulationen, die sich mit Klimaforschung beschäftigen: Es wird zum Beispiel versucht, aus Satellitenbildern auf den Feuchtigkeitsgehalt des Bodens zurückzurechnen.
 

Immer häufiger kommt bei HPC-Projekten wie diesen Künstliche Intelligenz (KI) zum Einsatz. Wie siehst du die Gegenwart und die Zukunft von AI on HPC (Artificial Intelligence on HPC)?


Das ist ein komplexes Thema und es gibt völlig neue Anforderungen durch KI, die wir erst in den HPC-Betrieb einpflegen müssen. Die Komplexität entsteht dadurch, dass es eine viel größere Anzahl von Anwender:innen gibt, die eine heterogene Bandbreite von Modellen, Software und Code auf HPC-Systemen laufen lassen möchten. Wir werden ganz andere Datenmengen bekommen, wenn Leute mit riesigen Bilddatenbeständen arbeiten wollen. Es kommen also durchaus ein paar Herausforderungen hinzu, die wir jetzt zusätzlich abdecken. Das erfordert neue Softwarearchitekturen und hat gänzlich andere Anforderungen an die Sicherheit.


Gibt es ein Beispiel dafür?
 

Bei klassischem HPC werden die Jobs in eine Pipeline geschickt und der Reihe nach abgearbeitet. Wenn das Ergebnis fertig ist, wird die Forscher:in verständigt, dass das Ergebnis berechnet ist. Wer nun Online-Nutzung braucht, weil er zum Beispiel Visualisierungen berechnen will und die in Echtzeit drehen und verändern möchte, braucht einen exklusiven Zugang zu einer bestimmten Anzahl von Rechenressourcen.

Es geht also um eine andere Art von Verwaltung der Rechenressourcen: Hat der Forscher eine Stunde reserviert, ist aber in 30 Minuten fertig, sollte er seine Session beenden können und der Rechner für andere User:innen freigegeben werden. Umgekehrt muss es möglich sein, auch weiterzuarbeiten, falls die Arbeit eine Viertelstunde länger braucht. Das sind alles für sich genommen triviale Probleme, die aber in einem großen, komplexen System kumulieren und hochautomatisiert gelöst werden müssen – auch weil wir eine hohe Systemauslastung garantieren wollen, um möglichst energieeffizient zu arbeiten.


Was sind denn die Vorteile und die Herausforderungen bei HPC generell?


Ein Thema, das sehr häufig diskutiert wird, ist der Energiehunger von HPC. Für mich stellt sich hier die Frage: Was ermöglicht mir HPC, um auch in anderen Bereichen energieeffizienter zu werden? Ja, es kostet Geld, aber es ist gut investiertes Geld, um andere Fragestellungen zu lösen. Simulationen zum Beispiel ersparen extrem viel Aufwand in tatsächlichen Experimenten: Bevor ich in ein Labor gehe und mit Chemikalien arbeite, bevor ich große Maschinen anwerfe, um Turbinen zu bauen und Ähnliches, kann ich mit Simulationen viel Zeit und damit letztendlich auch Energie sparen. Das ist die eine Sache, also die Lösungskomponente.

Zweitens ist es eine große Herausforderung für uns, das Rechenzentrum selbst und das Rechnen effizient zu gestalten. Für uns bedeutet das, wir wollen die Auslastung möglichst hoch halten, gleichzeitig effizient mit freien Kühlkreisläufen kühlen und die Wärme sinnvoll nachnutzen, zum Beispiel für Gewächshäuser. Es geht auf jeden Fall in Richtung effizientere Strukturen, auch größere Kooperationen mit Nachnutzern.
 

Das heißt, der neue österreichische Supercomputer MUSICA (Multi-Site Computer Austria) wird so manches Herz erwärmen, wenn er 2025 in Betrieb geht?
 

HPC kostet Geld, aber es ist gut investiertes Geld. Simulationen zum Beispiel ersparen extrem viel Aufwand in tatsächlichen Experimenten.

Ja. Momentan treibt er auch schon den Kreislauf in die Höhe, wie jedes neue Projekt. Das ist auch herzerwärmend. Im Prinzip funktioniert HPC dann gut, wenn es wirklich High-Performance Computing ist. Das heißt: Möglichst viel Rechenleistung, die gemeinsam von möglichst vielen User:innen genutzt wird. Man sieht einen sehr, sehr starken Trend, solche Infrastrukturen gemeinsam zu betreiben und gemeinsam auch die Qualität sicherzustellen, das Personal zu haben etc. und dann auch gemeinsam ein wirklich großes System zur Verfügung zu stellen, auf dem alle rechnen können. Und das funktioniert in Österreich wirklich sehr gut.


Was passiert mit den beiden Supercomputern VSC-4 und VSC-5, die jetzt im Einsatz sind, wenn MUSICA kommt?

Beide bleiben vorerst in Betrieb. Es gibt einen Sechs-Jahres-Zyklus: 2025/2026 wird die Beschaffung des VSC-4-Ersatzes beginnen, 2027/2028 folgt VSC-5. Und um das Jahr 2030 werden wir den Ersatz für MUSICA haben.

Eine Beschaffung dauert üblicherweise ein Jahr, denn sie ist eine Spur komplexer, als zu einem Online-Shop zu gehen und den nächsten Laptop in den Warenkorb zu legen. Für MUSICA zum Beispiel müssen räumliche Anpassungen durchgeführt werden, das Kühlsystem wird angepasst, Stromzuleitungen neu verlegt und einiges anderes mehr.

„Man sieht einen starken Trend, Supercomputing-Infrastrukturen gemeinsam zu betreiben. Und das funktioniert in Österreich wirklich sehr gut.“

Was kostet MUSICA?


Das Gesamtsystem besteht aus MUSICA mit dem Compute-Teil, dazu kommt ein High-Performance-Storage-Teil. Es gibt Infrastrukturinvestitionskosten für die räumlichen Umbauten. Insgesamt kommen wir auf 36 Millionen Euro Investitionssumme für einen Supercomputer, der auf drei Standorte in Österreich verteilt ist.
 

Wie groß ist MUSICA flächenmäßig?
 

Nicht sonderlich groß, es sind ein paar Racks. Auch der VSC-5 ist erstaunlich klein. Aber das täuscht ein bisschen: Das Computersystem misst zwar nur ein paar Kubikmeter, aber eigentlich ist das nur der Rechenkern. Was noch dazugehört ist die gesamte Kühlinfrastruktur, sämtliche Wasserrohre, Wasserpumpen, Wärmetauscher, Umwälzpumpen bis zu den Rohrleitungen auf das Dach, über die die Wärme abtransportiert wird. Diese Infrastruktur ist deutlich größer. Das ganze Ding ist letztlich ein Gebäude, denn ein Stockwerk unter dem Rechner befindet sich noch die Kühlinfrastruktur mit den Turbo-Cores, die Kälte erzeugen können, um zusätzlich zu kühlen.


Zur Person

Andreas Rauber ist Leiter des VSC Research Center. Er hat an der TU Wien Informatik studiert und ging anschließend als Postdoc nach Italien, später nach Frankreich. Anfang des Jahrtausends kam Andreas zurück nach Wien und baute hier ein Forschungsteam an der TU Wien auf. In seinen Projekten beschäftigt er sich vor allem mit Datenanalyse, maschinellem Lernen, Information Retrieval sowie Forschungs- und Dateninfrastrukturen.


Die wichtigsten Begriffe kurz erklärt