Archiv Detail

Mit KI die Giftigkeit von Chemikalien vorhersagen

18. Juli 2024 | Ori Schipper

Forschende der Eawag und des Swiss Data Science Center haben KI-Algorithmen mit einem umfassenden ökotoxikologischen Datensatz trainiert. Jetzt können ihre Machine-Learning-Modelle vorhersagen, wie giftig Chemikalien für Fische sind.

Chemikalien spielen in unserem Alltag eine wichtige Rolle, etwa in der Produktion von Lebensmitteln, Medikamenten bis hin zu verschiedenen Gütern des täglichen Bedarfs. Dabei wird ihr Einfluss auf die menschliche Gesundheit und die Umwelt mit verschiedenen Kontrollmechanismen genau überwacht. So schreibt etwa die EU in der REACH-Verordnung vor, dass für alle Chemikalien mit einem jährlichen Mindestproduktionsvolumen von 10 Tonnen Fischtoxizitätstests durchgeführt werden müssen. Diese Versuche sind teuer – und benötigen jedes Jahr in Europa schätzungsweise 50’000 Fische.

Die Wissenschaft arbeitet schon seit mehreren Jahrzehnten an alternativen Methoden, die günstiger sind und vor allem ohne Versuchstiere auskommen. Grosse Hoffnungen liegen auf computerbasierten Methoden, mit denen die Auswirkungen von Chemikalien auf Fische vorhergesagt werden können.

Vielversprechende Vorhersagekraft der Modelle

Das Wasserforschungsinstitut Eawag und das Swiss Data Science Center (SDSC) haben gemeinsam einen umfassenden ökotoxikologischen Datensatz kuratiert, um ihn der Wissenschaft als Benchmark und Entwicklungsgrundlage für weitere KI-Algorithmen zur Verfügung zu stellen. Der Datensatz namens «ADORE» besteht aus rund 26’000 Datenpunkten, welche die Wirkungen von knapp 2’000 Chemikalien auf 140 Fischarten beschreiben. Er enthält zudem eine grosse Zahl an Merkmalen sowohl der Chemikalien als auch der Arten.  

Wie die Forschenden in einem soeben veröffentlichten Fachartikel darlegen, schaffen es die Machine-Learning-Modelle die Giftigkeit von Chemikalien gut vorherzusagen. «Die festgestellten Abweichungen liegen im Bereich der normalen biologischen Schwankungen», sagen die beiden Erstautoren der Publikation, Lilian Gasser, Datenwissenschaftlerin beim SDSC, und Christoph Schür, Postdoktorand an der Eawag. Die Forschenden stufen die untersuchten Methoden deshalb als «vielversprechend für die Vorhersage von akuter Fischsterblichkeit» ein. Des Weiteren könnten diese Methoden auch anhand passender Daten auf andere Spezies-Gruppen angewendet werden. 

«Allerdings gibt es noch Einschränkungen, die es zu beachten gilt», halten die Forschenden selbstkritisch fest. Denn obwohl die Algorithmen im Durchschnitt brauchbare Vorhersagen liefern, liegen sie bei den einzelnen Fischarten teilweise noch deutlich daneben. So schätzen sie etwa die Giftigkeit einer Chemikalie für bestimmte Fischarten zu hoch und für andere Arten zu niedrig ein. «Offenbar werden die Modelle hauptsächlich von einigen wenigen chemischen Eigenschaften beeinflusst und erfassen artspezifische Empfindlichkeiten noch nicht ausreichend», sagt Gasser.

Mit angemessenem Testverfahren zu aussagekräftigen Ergebnissen

Bei ihren Arbeiten haben Gasser und Schür die Tatsache berücksichtigt, dass die Art und Weise, wie man die Daten in einen Trainings- und einen Testdatensatz aufteilt, einen entscheidenden Einfluss auf die Anwendbarkeit der Machine-Learning-Modelle hat. «Es ist zwingend nötig, den Algorithmus nur an Chemikalien zu testen, die nicht im Trainingsdatensatz vorhanden sind, um nachzuweisen, dass er in der Lage ist, chemische Merkmale zu identifizieren, tatsächlich die Toxizität vorhersagen,» kommentieren Gasser und Schür.  

Die Zukunft der Chemikaliensicherheit

Laut Gasser und Schür und ihren Mitautoren ist es unwahrscheinlich, dass Machine-Learning-Modelle und künstliche Intelligenz Fischtoxizitätstests in naher Zukunft überflüssig machen, aber sie dürften langfristig zu deren Reduktion beitragen. Den Forschenden schwebt eine gezieltere Bewertung der Chemikaliensicherheit vor, die in Zukunft neben den physikochemischen Eigenschaften der Chemikalien und den Angaben zur Sterblichkeit auch weitere biologische Faktoren miteinbezieht.

So könnten die Modellvorhersagen etwa mit den Auswertungen einer Reihe anderer – tierversuchsfreier – Tests kombiniert werden, die zurzeit an der Eawag mit unterschiedlichen Fischzell-Linien entwickelt und validiert werden. Für die Entwicklung eines solchen Chemikaliensicherheitssystems mit hoher Aussagekraft regen die Forschenden eine enge Zusammenarbeit mit den Regulierungsbehörden an, damit die Umsetzung von der Forschung in die Praxis gemeinsam vorangebracht werden kann.
 

Titelbild: Forellen werden häufig als Versuchstiere benutzt. Maschinelles Lernen soll die Tierversuche ersetzen. (Foto: istock)
 

Originalpublikation

Extbase Variable Dump
array(3 items)
   publications => '33052,32142' (11 chars)
   libraryUrl => '' (0 chars)
   layout => '0' (1 chars)
Extbase Variable Dump
array(2 items)
   0 => Snowflake\Publications\Domain\Model\Publicationprototypepersistent entity (uid=33052, pid=124)
      originalId => protected33052 (integer)
      authors => protected'Gasser, L.; Schür, C.; Perez-Cruz, F.; Schirmer, K.; Ba
         ity-Jesi, M.
' (93 chars) title => protected'Machine learning-based prediction of fish acute mortality: implementation, i
         nterpretation, and regulatory relevance
' (115 chars) journal => protected'Environmental Science: Advances' (31 chars) year => protected2024 (integer) volume => protected3 (integer) issue => protected'8' (1 chars) startpage => protected'1124' (4 chars) otherpage => protected'1138' (4 chars) categories => protected'' (0 chars) description => protected'Regulation of chemicals requires knowledge of their toxicological effects on
          a large number of species, which has traditionally been acquired through in
          vivo testing. The recent effort to find alternatives based on machine learn
         ing, however, has not focused on guaranteeing transparency, comparability an
         d reproducibility, which makes it difficult to assess advantages and disadva
         ntages of these methods. Also, comparable baseline performances are needed.
         In this study, we trained regression models on the ADORE "t-F2F" challenge p
         roposed in [Schür et al., Nature Scientific data, 2023] to predict acute mo
         rtality, measured as LC50 (lethal concentration 50), of organic compounds on
          fishes. We trained LASSO, random forest (RF), XGBoost, Gaussian process (GP
         ) regression models, and found a series of aspects that are stable across mo
         dels: (i) using mass or molar concentrations does not affect performances; (
         ii) the performances are only weakly dependent on the molecular representati
         ons of the chemicals, but (iii) strongly on how the data is split. Overall,
         the tree-based models RF and XGBoost performed best and we were able to pred
         ict the log10-transformed LC50 with a root mean square error of 0.90, which
         corresponds to an order of magnitude on the original LC50 scale. On a local
         level, on the other hand, the models are not able to consistently predict th
         e toxicity of individual chemicals accurately enough. Predictions for single
          chemicals are mostly influenced by a few chemical properties while taxonomi
         c traits are not captured sufficiently by the models. We discuss technical a
         nd conceptual improvements for these challenges to enhance the suitability o
         f in silico methods to environmental hazard assessment. Accordingly, this wo
         rk showcases state-of-the-art models and contributes to the ongoing discussi
         on on regulatory integration.
' (1853 chars) serialnumber => protected'' (0 chars) doi => protected'10.1039/d4va00072b' (18 chars) uid => protected33052 (integer) _localizedUid => protected33052 (integer)modified _languageUid => protectedNULL _versionedUid => protected33052 (integer)modified pid => protected124 (integer)
1 => Snowflake\Publications\Domain\Model\Publicationprototypepersistent entity (uid=32142, pid=124) originalId => protected32142 (integer) authors => protected'Schür, C.; Gasser, L.; Perez-Cruz, F.; Schirmer, K.; Ba
         ity-Jesi, M.
' (93 chars) title => protected'A benchmark dataset for machine learning in ecotoxicology' (57 chars) journal => protected'Scientific Data' (15 chars) year => protected2023 (integer) volume => protected10 (integer) issue => protected'1' (1 chars) startpage => protected'718 (20 pp.)' (12 chars) otherpage => protected'' (0 chars) categories => protected'' (0 chars) description => protected'The use of machine learning for predicting ecotoxicological outcomes is prom
         ising, but underutilized. The curation of data with informative features req
         uires both expertise in machine learning as well as a strong biological and
         ecotoxicological background, which we consider a barrier of entry for this k
         ind of research. Additionally, model performances can only be compared acros
         s studies when the same dataset, cleaning, and splittings were used. Therefo
         re, we provide <em>ADORE</em>, an extensive and well-described dataset on ac
         ute aquatic toxicity in three relevant taxonomic groups (fish, crustaceans,
         and algae). The core dataset describes ecotoxicological experiments and is e
         xpanded with phylogenetic and species-specific data on the species as well a
         s chemical properties and molecular representations. Apart from challenging
         other researchers to try and achieve the best model performances across the
         whole dataset, we propose specific relevant challenges on subsets of the dat
         a and include datasets and splittings corresponding to each of these challen
         ge as well as in-depth characterization and discussion of train-test splitti
         ng approaches.
' (1154 chars) serialnumber => protected'' (0 chars) doi => protected'10.1038/s41597-023-02612-2' (26 chars) uid => protected32142 (integer) _localizedUid => protected32142 (integer)modified _languageUid => protectedNULL _versionedUid => protected32142 (integer)modified pid => protected124 (integer)
Gasser, L.; Schür, C.; Perez-Cruz, F.; Schirmer, K.; Baity-Jesi, M. (2024) Machine learning-based prediction of fish acute mortality: implementation, interpretation, and regulatory relevance, Environmental Science: Advances, 3(8), 1124-1138, doi:10.1039/d4va00072b, Institutional Repository
Schür, C.; Gasser, L.; Perez-Cruz, F.; Schirmer, K.; Baity-Jesi, M. (2023) A benchmark dataset for machine learning in ecotoxicology, Scientific Data, 10(1), 718 (20 pp.), doi:10.1038/s41597-023-02612-2, Institutional Repository

Finanzierung / Kooperationen

  • Eawag
  • Swiss Data Science Center (SDSC)
  • ETH Zürich
  • EPFL
  • European Partnership for the Assessment of Risks from Chemicals (PARC)
  • Horizon Europe