Der riesige Datenschatz aus 540.000 Bildern von 185 österreichischen Schmetterlings- und Nachtfalterarten wurde von tausenden Freiwilligen über mehrere Jahre hinweg gehoben. Die Innsbrucker Forscherin Friederike Barkmann trainierte damit ein KI-Model für die Diversitätsforschung auf europäischen Supercomputern. Nun stehen die Daten Wissenschafter:innen auf der ganzen Welt für weitere Forschungen zur Verfügung.
Im Rahmen des Projekts Schmetterlinge Österreichs nahmen über 25.000 Freiwillige zwischen 2016 und 2023 Hunderttausende Fotos von österreichischen Schmetterlingen und Nachtfalter auf und stellten sie dem Projekt zur Verfügung. Anhand dieser Bilder trainierte Friederike Barkmann, Ökologin und Data Scientist an der Universität Innsbruck, ein KI-Modell, um die einzelnen Arten automatisiert zu bestimmen, was Zeit und Kosten spart.
Von Beginn an war klar, dass das KI-Modell anderen Wissenschaftler:innen zur Verfügung gestellt werden soll, damit auch die Forschung anderswo verbessert werden kann.
Wer ein KI-Modell anhand der riesigen Datenmenge von 540.000 Bildern trainieren will, braucht große Rechenleistung – und genau dafür ist Supercomputing da (auch High-Performance Computing, kurz HPC) Friederike Barkmann trainierte ihr Modell zuerst auf dem Innsbrucker HPC-System LEO5. Als das Training auf diesem Rechner zu langwierig wurde, schaltete sich HPC-Experte Andreas Lindner von EuroCC Austria ein und half der Forscherin beim Parallelisieren der Rechenaufgaben (mehrere Prozessoren werden verbunden, um sich eine Rechenaufgabe zu teilen, was den Prozess deutlich beschleunigt). Nachdem dieser Schritt getan war, wechselte Friederike auf LEONARDO, einen der größten Supercomputer Europas. So konnten die Trainingszeiten um 90 Prozent verringert werden. Letztlich bestimmte das KI-Modell 97 Prozent der Tagfalter korrekt. Den Feinschliff erhielt es am Supercomputer LUMI.
Schmetterlinge und Nachtfalter sind wichtiger Indikatoren für Biodiversität. Wer also weiß, welcher Schmetterling und welche Motte wie oft und wo vorkommt, kann Klimaveränderungen oder auch die globale Diversität besser erforschen.
Der öffentliche Datensatz bietet Wissenschaftler:innen weltweit eine Basis, um eigene KI-Modelle zur Erkennung von Arten zu trainieren und zu testen. Dies kann die Forschung in verschiedenen Disziplinen stärken, wie etwa jene zum Klimawandel.
Der Datensatz wurde auf figshare und GitHub (Nur die Skripten für das Modelltraining) veröffentlicht.
Das dazugehörige Data Paper gibt’s bei Springer Nature Scientific Data.
Zum Projekt Schmetterlinge Österreichs
Zum ausführlichen EuroCC-Blogbeitrag über Friederike Barkmanns Projekt.