Fine-tuning von LLMs auf multi GPUs


07.02.2025

Fine-tuning von LLMs auf multi GPUs: Neuer Kurs für alle, die Großes vorhaben


Switch to English
 

Das Fine-tuning von Large Language Models (LLM) verlangt nach großer Rechenkraft. Am 25. Februar 2025 findet der Online-Kurs „Fine-tuning on multi GPUs“ statt, der zweite Teil unserer Trainingsreihe „Foundations of LLM Mastery“. Hier im Interview erzählen unsere Experten, wie die Macht des Supercomputers mit euch ist und wann es sich rechnet, LLMs auf mehreren Grafikkartenprozessoren zu trainieren. Der Kurs ist bereits gut gebucht, doch bitte belegen Sie Plätze auf der Warteliste, denn je mehr Personen teilnehmen möchten, umso eher und öfter werden wir diese Trainingsreihe wiederholen.

Bettina Benesch im Gespräch mit den EuroCC-Austria-Experten Martin Pfister, Simeon Harrison und Thomas Haschka.

LLMs auf der Cloud finezutunen ist längst nichts Besonderes mehr. Doch Supercomputer haben einige Vorteile gegenüber ihrem wolkigen Pendant. Welche sind das genau?


Thomas Haschka: Wer auf einem Cluster für High-Performance Computing (HPC) rechnet, tut sich bei gewissen Dingen leichter, weil alle Recheneinheiten Zugriff auf dasselbe Datensystem haben. Mietet man in der Cloud Rechner an, dann sind sie meistens zwar schon miteinander verbunden und haben auch ein gemeinsames Netzwerk, dennoch verhalten sie sich wie einzelne Rechner und nicht wie ein Rechensystem, in dem alles gemeinsam läuft.

Simeon Harrison: Der österreichische Supercomputer VSC verbraucht im Vergleich zu manchen Cloud-Anbietern deutlich weniger Energie. Der Grund liegt an der Art der Kühlung: Cloud-Provider gehen oftmals eher leger mit dem Thema um, denn ihre Server befinden sich mitunter an Standorten, wo Energie günstiger ist und die Abwärme keine derart große Rolle spielt wie bei uns.

Am VSC wird hauptsächlich für das Rechnen Energie aufgewendet; die Kühlung braucht zusätzlich nur etwa zehn Prozent. Bei der Cloud sind es bis zu hundert Prozent: Ein Teil fürs Rechnen und der gleiche Teil für die Kühlung. Allerdings gibt es auch Cloud-Anbieter, die auf Green Computing setzten, und dementsprechend meist teurere Systeme zu Verfügung stellen.

Martin Pfister: Die Kosten sind natürlich auch ein Argument für ein HPC-System: Im Rahmen des Projekts EuroCC ist ein erstes, umfangreiches Testrechnen auf einem europäischen Supercomputer derzeit kostenlos für Unternehmen im EU-Raum. Und gerade wenn es um Fine-tuning geht, eignet sich ein Supercomputer perfekt, weil man einmal einen großen Rechenaufwand hat und am Ende das fertig feineingestellte Modell.

Thomas Haschka: In der Cloud muss man viele Dinge selbst machen: Man muss sich meistens sein Betriebssystem-Image oder ein Docker-Image bauen. Auf einem Supercomputer sind all diese Dinge meistens schon vorinstalliert.

Simeon Harrison: Dazu kommt natürlich, dass man zu Hause für gewöhnlich nicht mehrere GPUs, also Grafikkartenprozessoren, zur Verfügung hat. MUSICA, der neueste Hochleistungsrechner in Österreich hat zum Beispiel 272 Rechenknoten mit jeweils vier GPUs, also insgesamt 1.088 sehr schnelle GPUs; und zusätzlich weitere CPU-Partitionen. Supercomputing eignet sich also für richtig große Datenmengen.

Im Rahmen des Projekts EuroCC ist ein erstes, umfangreiches Testrechnen auf einem europäischen Supercomputer derzeit kostenlos für Unternehmen im EU-Raum.

Von welchen Datenmengen sprechen wir? Ab wann macht ein HPC-System Sinn?
 

Simeon Harrison: Sobald man merkt, dass der Arbeitsspeicher explodiert.
 
Martin Pfister: Aber es geht nicht immer nur um die Datenmenge, sondern oft auch um Zeit: Einer unserer Kunden trainiert ein kleines Model. Eigentlich sind die Ressourcen am Supercomputer viel zu groß für das, was er braucht. Der VSC hat ihm aber ermöglicht, 200 Modelle mit unterschiedlichen Parametern innerhalb von kurzer Zeit parallel zu trainieren. So konnte er das Modell besser optimieren als er es mit einer einzelnen GPU hätte machen können.


Gibt es Branchen, die von Fine-tuning auf einem Supercomputer besonders profitieren?
 

Thomas Haschka: Da ist sicher die Justiz oder das Rechtswesen dabei; die Medizin und alle Industrien, die Antworten von LLMs in ihrer Fachsprache benötigen, und auf offene, bereits trainierte LLMs nicht zurückgreifen können.


Wir haben viel über die Vorteile von HPC gehört. Was sind denn die Herausforderungen beim Arbeiten mit einem Supercomputer?
 

Thomas Haschka: Man hat bei einem Supercomputer meistens mehr Bürokratie und wartet etwas länger auf einen Zugang.

Simeon Harrison: Allerdings bieten wir am VSC einen kostenlosen Testzugang an, den wir auch schon mal am selben Tag und auch sehr unbürokratisch zur Verfügung gestellt haben. Dieser Zugang gilt für 90 Tage und geht auch mit einer umfangreichen Corestunden-Anzahl einher, mit der man schon ordentlich rechnen kann. An einem der großen europäischen Rechner aus dem Euro-HPC-Programm dauert es meist gut einen Monat, bis ein Zugang freigeschaltet wird.

Thomas Haschka: Man könnte auch die vorinstallierte Software als Herausforderung bezeichnen – auch wenn ich sie weiter oben als Vorteil genannt habe: Im Vergleich zur Cloud ist auf einem Supercomputer eine gewisse Software, ein Compiler oder eine Toolchain immer schon an Board. Wer da nicht die Python-Versionen hat, die auf diesem Supercomputer laufen, tut sich schwerer, Software nachträglich zu installieren und das System an seine Bedürfnisse anzupassen. Und es braucht immer auch den Code, der auf mehreren Rechenknoten parallel läuft. Das heißt: Der Trainingscode muss so geschrieben sein, dass er den Vorteil eines Supercomputers auch ausschöpfen kann, nämlich die Verbindung der einzelnen Rechner und damit die große Rechenleistung.

Nach unserem Kurs können die Teilnehmenden LLM-Modelle fine-tunen, die nicht im Speicher einer GPU Platz haben, weder auf der eines Laptops noch der eigenen Workstation, und auch nicht auf einer einzigen GPU eines Supercomputers.

Lasst uns noch über das Training an sich reden: Was dürfen sich eure Teilnehmer:innen erwarten?


Simeon Harrison: Wir fangen ganz klassisch mit Theorie an, in Form von Präsentationen. Danach springen wir in unsere Jupyter Notebooks, die es ermöglichen, Code- und Text-Teile oder auch Bilder und andere Inhalte in einem einzigen Dokument zu kombinieren. So können wir sehr rasch mit praktischen Beispielen starten. Das heißt, wir gehen gemeinsam durch die Jupyter Notebooks und erklären dort den Code und was sich darin entdecken lässt. Anschließend programmieren die Teilnehmenden selbst ein bisschen und können Verschiedenes ausprobieren. Im Kurs „Multi GPU“ konzentrieren wir uns auf große Modelle, und eines davon ist zum Beispiel Llama 3.  Der gesamte Kurs wird auf LEONARDO stattfinden, dem weltweit derzeit neuntplatzierten Supercomputer in Sachen Rechenpower.


Was können die Leute nach dem Kurs, was sie vorher nicht konnten?


Simeon Harrison: Sie können Modelle fine-tunen, die nicht im Speicher einer GPU Platz haben, weder auf der eines Laptops noch der eigenen Workstation, und auch nicht auf einer einzigen GPU eines Supercomputers. Wir zeigen ihnen Techniken, bei denen zum Beispiel das Modell selbst aufgesplittet wird und verteilt gerechnet werden kann. Das ist keine Hexerei – aber auch nicht ganz trivial. Man muss es einfach mal gezeigt bekommen, weil man sonst in einer Endlosschleife von Trial and Error landet. Denn wer die Dokumentation absucht, um gute Antworten zu gewissen Dingen zu bekommen, sucht sehr lange. Wir haben uns das in vielen Stunden erarbeitet und machen diesen Kurs nun, damit das andere nicht tun müssen.


Ihre Trainer

Martin Pfister
Martin hat an der TU Wien Physik studiert und dissertiert derzeit im Bereich der medizinischen Physik an der MedUni Wien. Bei EuroCC Austria unterstützt er Kund:innen dabei, ihre Projekte am österreichischen Supercomputer VSC abzuwickeln und unterrichtet zu den Themen Deep Learning/Machine Learning.

Simeon Harrison
Simeon ist Trainer bei EuroCC Austria und hat sich auf die Bereiche Deep Learning/Machine Learning spezialisiert. Der ehemalige Mathematiklehrer erhält von den Teilnehmenden seiner Kurse Feedbacks wie: „Simeon Harrison ist ein exzellenter Trainer. Sein Unterrichtsstil ist klar, ansprechend und gut strukturiert, was das Lernen sehr angenehm macht.“

Thomas Haschka
Thomas hat seinen Weg von der Simulation und Biophysik über Data Science hin zur künstlichen Intelligenz gefunden. Er promovierte in Frankreich und war in der Forschung am Musée National d'Histoire Naturelle, am Institut Pasteur sowie am Paris Brain Institute tätig. Bevor er an die TU Wien zurückkehrte, unterrichtete er über ein Jahr lang künstliche Intelligenz an der Amerikanischen Universität in Beirut. Bei der Reihe Foundations of LLM Mastery ist Thomas als Trainer für den Bereich RAG verantwortlich.


Über den Kurs

Foundations of LLM Mastery: Fine-tuning on multi GPUs
25.2.2025, 9:00 bis 12:30 Uhr (CET). Anmeldeschluss: 18.2.2025


Dieser 3,5-stündige Kurs ist Teil der Trainingsreihe „Foundations of LLM Mastery“. Teilnehmer:innen aus Start-ups, KMUs und großen Unternehmen sammeln praktische Erfahrung mit Fine-Tuning auf mehreren leistungsstarken GPUs und optimieren ihre LLM-Workflows in Sachen Geschwindigkeit und Skalierbarkeit. Mit diesem Wissen lässt sich ein LLM sowohl auf einem Supercomputer als auch in der Cloud finetunen.

Verwendete Tools: Hugging Face Transformers, Hugging Face Accelerate, Distributed Data Parallel (DDP), ZeRO & DeepSpeed, Fully Sharded Data Parallel (FSDP).

Voraussetzungen für die Teilnahme: Grundlegendes Programmierwissen in Python. Erfahrungen mit Hugging Face Transformers sind von Vorteil. Das Training wird in Englisch abgehalten.

Info & Anmeldung: https://events.vsc.ac.at/event/178

 


Die wichtigsten Begriffe kurz erklärt