Das Risiko verfälschter Daten

Vorsicht vor möglichen Voreingenommenheiten bei chemischen Datensätzen

“Die Materialwissenschaft hat sich dem maschinellen Lernen verschrieben. Wie bei anderen Disziplinen auch müssen die Forscher hier auf die Risiken verfälschter Daten achten” – warnt ein Leitartikel in Nature vom 11.09.2019. Wie die meisten Forschungsbereiche habe auch die Materialwissenschaft “Big Data” übernommen, einschließlich von Modellen und Techniken des maschinellen Lernens. Diese würden verwendet, um neue Materialien und deren Eigenschaften vorauszusagen und Lösungsansätze für bestehende Medikamente und Chemikalien zu finden.

Aber maschinelles Lernen erfordert Trainingsdaten, wie beispielsweise über die Eigenschaften von Reagenzien, Bedingungen und Ausgangsstoffen. Diese sind in der Regel aus der Literatur entnommen und werden vom Menschen erzeugt. Die Wahl der Reagenzien, welche die Forscher verwenden, könnte zum Beispiel aus Erfahrungen oder aus bereits veröffentlichten Arbeiten stammen. Dies kann auf einer Empfehlung des Betreuers an den Doktoranden beruhen oder einfach darauf, wie leicht Reagenzien zu beschaffen oder zu kaufen sind. Aber diese Subjektivität wird zu einem potenziellen Problem für die Genauigkeit von Modellen des Maschinenlernens, wie eine in dieser Woche in Nature veröffentlichte Studie zeigt.

Joshua Schrier an der Fordham University in New York City, Alexander Norquist und Sorelle Friedler am Haverford College in Pennsylvania und ihre Kollegen untersuchten Materialien, die als aminierte Vanadiumborate bezeichnet werden. Diese wurden gewählt, weil Erfolg und Misserfolg in ihrer Synthese leicht zu definieren sind – einfach dadurch, ob sich Kristalle bilden oder nicht. Die Forscher haben einen Datensatz von mehreren hundert synthetischen Bedingungen zusammengestellt, die zur Herstellung von Vanadiumboraten verwendet werden. Anschließend trainierten sie ein Maschinen-Lernmodell auf diesem Datensatz, um den Erfolg oder Misserfolg von Reaktionen vorherzusagen. Das Team fand heraus, dass ein auf einem vom Menschen generierten Datensatz trainiertes Modell bei der Vorhersage des Erfolgs oder Misserfolgs einer Reaktion weniger erfolgreich war als ein auf einem Datensatz mit zufällig erzeugten Reaktionsbedingungen (X. Jia et al. Nature 573, 251-255; 2019).

In gewisser Weise sollte das keine Überraschung sein. Es ist inzwischen bekannt, dass, wenn Maschinenlerntechniken eingesetzt werden, um Muster in aggregierten Daten herauszufinden, Verzerrungen in diesen Daten verstärkt werden können. So sind beispielsweise Gesichtserkennungsalgorithmen, die hauptsächlich auf weißen Gesichtern trainiert werden, weniger in der Lage, zwischen den Gesichtern von Menschen anderer Ethnien zu unterscheiden, was zu einer Verzerrung und einer eingefahrenen Ungleichheit führen könnte.

Spielt die Existenz von Voreingenommenheiten für die Chemie und die Materialwissenschaften eine Rolle? Wenn das Ziel eines Forschungsprojekts darin besteht, neue Materialien zu finden, könnte man argumentieren, dass es irrelevant ist, welche Reagenzien verwendet werden, solange sie funktionieren.

Aber es gibt potenzielle Nachteile, wenn man sich auf “bewährte” Methoden verlässt. Eine Prävalenz von bevorzugten – auch unbeabsichtigten – Protokollen in einem Trainingsdatensatz könnte den Erfolg von maschinell lernenden Modellen, die zur Vorhersage von Materialien verwendet werden, behindern. Oder, wie diese Studie zeigt, effizientere Wege, um bestehende zu machen.

Niemand würde behaupten, dass die Folgen verzerrter chemischer Daten so gravierend sind wie die Folgen von Verzerrungen in Gesichtserkennungssoftware, aber sie haben einen ähnlichen Ursprung. Forscher sollten auf das Potenzial für Verzerrungen in ihren chemischen Datensätzen achten, bevor sie in eine Maschine eingebaut werden.

->Quelle: Nature 573, 164 (2019) – übersetzt mit deepl.com/translator