Tanya Berger-Wolfs erstes Projekt der Computerbiologie begann als Wette mit einer Kollegin: Sie könnte ein KI-Modell entwickeln, das in der Lage ist, einzelne Zebras schneller als eine Zoologin zu identifizieren.
Und Sie hat gewonnen.
Berger-Wolf, Direktorin des Translational Data Analytics Institute und Professorin an der Ohio State University, nimmt mit BioCLIP 2, einem biologiebasierten Grundlagenmodell, das auf dem bisher größten und vielfältigsten Datensatz von Organismen trainiert wurde, das gesamte Tierreich in Angriff. Das Modell wird auf der diesjährigen KI-Forschungskonferenz NeurIPS vorgestellt.
BioCLIP 2 geht über die Extraktion von Informationen aus Bildern hinaus. Es kann die Merkmale der Arten unterscheiden und inter- und intraspezifische Beziehungen bestimmen. Das Modell ordnete beispielsweise Darwins Finken nach Schnabelgröße an, ohne das Konzept der Größe gelernt zu haben, wie im Bild unten dargestellt.

Diese Möglichkeiten werden es Forschern ermöglichen, das Modell sowohl als biologische Enzyklopädie, als auch als leistungsstarke wissenschaftliche Plattform und als interaktives Forschungsinstrument mit Inferenzfunktionen zu nutzen, um ein anhaltendes Problem der Naturschutzbiologie anzugehen: den Datenmangel für bestimmte Arten.
„Für ikonische Arten wie Killerwale fehlen uns genügend Daten, um die Populationsgröße zu bestimmen, und für Eisbären ist die Population unbekannt“, sagte Berger-Wolf. „Wenn wir keine Daten für diese Arten haben, welche Hoffnung haben dann die Käfer und Pilze?“
KI-Modelle können bestehende Erhaltungsbemühungen für bedrohte Arten und ihre Lebensräume verbessern, indem sie diese Datenlücke schließen.
BioCLIP 2 ist unter einer Open-Source-Lizenz auf Hugging Face verfügbar, wo es letzten Monat über 45.000 Mal heruntergeladen wurde. Diese Forschungsarbeit baut auf dem ersten BioCLIP-Modell auf, das vor über einem Jahr veröffentlicht wurde, das ebenfalls auf NVIDIA GPUs trainiert wurde und auf der Konferenz Computer Vision and Pattern Recognition (CVPR) mit dem Preis für das Beste Studentenpapier ausgezeichnet wurde.
Das BioCLIP 2-Papier wird auf der NeurIPS vorgestellt, die vom 30. November bis 5. Dezember in Mexiko-Stadt und vom 2. bis 7. Dezember in San Diego stattfindet.
Aufbau des größten biologischen Flash-Kartendecks der Welt Das Projekt
begann mit der Zusammenstellung eines riesigen Datensatzes, TREEOFLIFE-200M, der 214 Millionen Bilder von Organismen umfasst, die über 925.000 taxonomische Klassen umfassen – von Affen über Mehlwürmer bis hin zu Magnolien.

Um diese riesige Datenmenge zu kuratieren, arbeitete das Team von Berger-Wolf am Imageomics Institute mit der Smithsonian Institution, Experten verschiedener Universitäten und anderen Organisationen aus diesem Bereich zusammen.
Diese Forscher wollten herausfinden, was passieren würde, wenn sie ein Biologiemodell mit mehr Daten als je zuvor trainieren würden.
Das Team wollte herausfinden, ob es möglich ist, „über die Wissenschaft einzelner Organismen hinaus zur Wissenschaft der Ökosysteme zu gelangen“, sagte Berger-Wolf.
Nach 10-tägigem Training auf 32 NVIDIA H100 GPUs zeigte BioCLIP 2 neuartige Fähigkeiten wie die Unterscheidung zwischen erwachsenen und jungen Tieren sowie zwischen männlichen und weiblichen Tieren innerhalb der Spezies – ohne dass diese Konzepte explizit beigebracht wurden.
Außerdem stellte es Verbindungen zwischen verwandten Arten her – wie das Verständnis, wie Zebras zu anderen Equiden in Beziehung stehen.
„Dieses Modell lernt, dass auf jeder Ebene der Taxonomie alle diese Bilder von Zebras ein bestimmtes Gattungslabel haben und dass diese Bilder von Equiden – einschließlich Zebras, Pferden und Eseln – ein bestimmtes Familienmerkmal haben“, sagte sie. „Es lernt die Hierarchie kennen, ohne dass es jemals gesagt wird, nur durch diese Assoziationen.“
Das Modell kann auf der Grundlage von Trainingsdaten sogar die Gesundheit eines Organismus bestimmen. Beispielsweise konnte es gesunde Apfel- oder Blaubeerblätter von erkrankten Blättern trennen. Außerdem konnte bei der Generierung des unten stehenden Streudiagramms verschiedene Arten von Krankheiten erkennen.

Das Team von Berger-Wolf verwendete ein Cluster von 64 NVIDIA Tensor Core GPUs, um das Modelltraining zu beschleunigen, sowie einzelne Tensor Core GPUs zur Inferenz.
„Grundlagenmodelle wie BioCLIP wären ohne beschleunigtes Computing von NVIDIA nicht möglich“, sagte Berger-Wolf.
Digitale Zwillinge für Wildtiere: Die Zukunft der Erforschung der Beziehungen zu Ökosystemen
Das nächste Unterfangen der Forscher ist die Entwicklung eines interaktiven digitalen Zwillings auf der Grundlage von Wildtieren, mit dem ökologische Wechselwirkungen zwischen Arten sowie deren Umgang mit der Umwelt visualisiert und simuliert werden können.
Ziel ist es, eine sichere und einfache Möglichkeit zur Untersuchung organismischer Beziehungen, die in der Wildnis natürlich vorkommen, bereitzustellen und gleichzeitig die Auswirkungen und Störungen der Ökosysteme zu minimieren.
„Der digitale Zwilling ermöglicht es uns, Interaktionen zwischen Arten zu visualisieren und in einen Kontext zu stellen sowie die Was-wenn-Szenarien zu spielen und unsere Modelle zu testen, ohne die tatsächliche Umgebung zu zerstören – und damit einen möglichst geringen Fußabdruck zu hinterlassen“, sagte Berger-Wolf.
Der digitale Zwilling wird Wissenschaftlern die Möglichkeit geben, die Standpunkte der von ihnen untersuchten Arten innerhalb der simulierten Umgebung zu erkunden, was unendliche Möglichkeiten für eine komplexere und genauere ökologische Forschung eröffnet.
Letztendlich könnten Versionen dieser Technologie sogar für die öffentliche Nutzung eingesetzt werden – beispielsweise über interaktive Plattformen in Zoos. Die Menschen könnten die natürliche Umwelt und ihre vielen Arten aus völlig neuen Blickwinkeln erkunden, visualisieren und mehr darüber erfahren.
„Ich bekomme Gänsehaut, wenn ich mir nur vorstelle, dass ein Kind in den Zoo kommt und sagt: Wow – das würde man sehen, wenn man ein weiteres Zebra wäre, das Teil der Herde ist, oder wenn man die kleine Spinne wäre, die auf diesem Kratzpfosten sitzt“, sagte Berger-Wolf.
Erfahren Sie mehr über BioCLIP 2.
