KI lernt Sprache der Chemie

…um Medikamentenherstellung vorherzusagen

Forscher der Universität Cambridge haben einer Medienmitteilung folgend einen maschinellen Algorithmus entwickelt, der die Ergebnisse komplexer chemischer Reaktionen mit einer Genauigkeit von mehr als 90% vorhersagen kann und damit ausgebildete Chemiker übertrifft. Der Algorithmus zeigt Chemikern auch, wie man Zielverbindungen herstellt, indem er die chemische “Karte” an das gewünschte Ziel liefert. Die Ergebnisse wurden in zwei Artikeln in den Zeitschriften Chemical Communications1und ACS Central Science2 veröffentlicht (Abstracts siehe unten).

Eine zentrale Herausforderung in der Wirkstoffforschung und Materialwissenschaft besteht darin, Wege zu finden, wie man komplizierte organische Moleküle herstellen kann, indem einfachere Bausteine chemisch miteinander verbunden werden. Das Problem ist, dass diese Bausteine oft unerwartet reagieren.

“Die Herstellung von Molekülen wird oft als eine Kunst beschrieben, die mit Trial-and-Error-Experimenten realisiert wird, weil unser Verständnis von chemischer Reaktivität noch lange nicht vollständig ist”, sagte Alpha Lee vom Cavendish Laboratory in Cambridge, der die Studien leitete. “Algorithmen des maschinellen Lernens können ein besseres Verständnis der Chemie haben, weil sie Reaktionsmuster aus Millionen von veröffentlichten chemischen Reaktionen destillieren, was ein Chemiker nicht kann.”

Der von Lee und seiner Gruppe entwickelte Algorithmus verwendet Erkennungsmuster, um herauszufinden, wie chemische Gruppen in Molekülen reagieren, indem er das Modell an Millionen von in Patenten veröffentlichten Reaktionen trainiert. Die Forscher betrachteten die Vorhersage chemischer Reaktionen als ein Problem der maschinellen Übersetzung. Die reagierenden Moleküle werden als eine “Sprache” betrachtet, während das Produkt als eine andere Sprache betrachtet wird. Das Modell verwendet dann die Muster im Text, um zu lernen, wie man zwischen den beiden Sprachen “übersetzt”.

Das Modell weiß, was es nicht weiß

Mit diesem Ansatz erreicht das Modell eine Genauigkeit von 90% bei der Vorhersage des richtigen Produkts aus unsichtbaren chemischen Reaktionen, während die Genauigkeit der ausgebildeten Chemiker bei etwa 80% liegt. Die Forscher sagen, dass das Modell genau genug ist, um Fehler in den Daten zu erkennen und eine Vielzahl von schwierigen Reaktionen korrekt vorherzusagen. Das Modell weiß auch, was es nicht weiß. Es erzeugt einen Unsicherheitswert, der falsche Vorhersagen mit einer Genauigkeit von 89% eliminiert. Da Experimente zeitaufwendig sind, ist eine genaue Vorhersage entscheidend, um teure experimentelle Wege zu vermeiden, die schließlich zum Scheitern führen.

In der zweiten Studie zeigten Lee und seine Gruppe in Zusammenarbeit mit dem biopharmazeutischen Unternehmen Pfizer das praktische Potenzial der Methode in der Wirkstoffforschung. Die Forscher zeigten, dass das Modell, wenn es auf veröffentlichte Chemieforschung trainiert wird, genaue Vorhersagen über Reaktionen auf Basis von Labornotizbüchern treffen kann, was zeigt, dass das Modell die Regeln der Chemie gelernt hat und es auf die Entdeckung von Medikamenten anwenden kann.

Das Team zeigte auch, dass das Modell Sequenzen von Reaktionen vorhersagen kann, die zu einem gewünschten Produkt führen würden. Sie wandten diese Methodik auf verschiedene medikamentenähnliche Moleküle an und zeigten, dass die Schritte, die sie voraussagen, chemisch sinnvoll sind. Diese Technologie kann die Zeit der präklinischen Arzneimittelentdeckung erheblich verkürzen, da sie den Medizinern eine Blaupause gibt, wo sie anfangen sollen. “Unsere Plattform ist wie ein GPS für die Chemie”, so Lee, der auch Research Fellow am St Catharine’s College ist. “Es informiert Chemiker, ob eine Reaktion ein Go oder ein No-Go ist, und wie man Reaktionswege navigiert, um ein neues Molekül herzustellen.”

Die Wissenschaftler aus Cambridge nutzen derzeit diese Technologie zur Reaktionsvorhersage, um eine komplette Plattform zu entwickeln, die den Design-make-test-Zyklus in der Wirkstoffforschung und Materialforschung überbrückt: die Vorhersage vielversprechender bioaktiver Moleküle, die Möglichkeiten, diese komplexen organischen Moleküle herzustellen, und die Auswahl der Experimente, die am aufschlussreichsten sind. Die Forscher arbeiten nun daran, chemische Erkenntnisse aus dem Modell zu gewinnen und zu verstehen, was es gelernt hat, das der Mensch nicht hat.

“Wir können potenziell große Fortschritte in der Chemie machen, wenn wir lernen, welche Muster das Modell betrachtet, um eine Vorhersage zu machen”, sagte Peter Bolgar, Doktorand in synthetischer organischer Chemie, der an beiden Studien beteiligt ist. “Das Modell und die menschlichen Chemiker zusammen würden extrem leistungsfähig bei der Gestaltung von Experimenten werden, mehr als jeder ohne den anderen.”

1Molekular Wandler vereinheitlicht Reaktionsprognose und Retrosynthese im gesamten pharmazeutischen Chemiebereich – Abstract

“Die Vorhersage, wie ein komplexes Molekül mit verschiedenen Materialien reagiert und wie man komplexe Moleküle aus einfacheren Ausgangsstoffen synthetisiert, ist eine grundlegende Voraussetzung für die organische Chemie. Wir zeigen, dass ein aufmerksamkeitsbasiertes maschinelles Übersetzungsmodell – Molecular Transformer – sowohl die Reaktionsprognose als auch die Retrosynthese angeht, indem es aus dem gleichen Datensatz lernt. Reagenzien, Reaktanden und Produkte werden als SMILES-Textzeichenketten (simplified molecular-input line-entry system) dargestellt. Für die Reaktionsvorhersage “übersetzt” das Modell die SMILES von Reaktanden und Reagenzien in das Produkt SMILES und umgekehrt in die Retrosynthese. Darüber hinaus ist ein auf öffentlich zugänglichen Daten geschultes Modell in der Lage, genaue Vorhersagen über die von pharmazeutischen elektronischen Labornotizbüchern extrahierten Substanzen zu treffen, was die Verallgemeinerbarkeit im gesamten chemischen Raum belegt. Wir erwarten, dass unser vielseitiges Framework umfassend auf Probleme wie Reaktionszustandsvorhersage, Reagenzienvorhersage und Ertragsvorhersage anwendbar ist.”

2Molekularer Wandler: Ein Modell für die mit Unsicherheiten behaftete Vorhersage chemischer Reaktionen – Abstract

“Die organische Synthese ist einer der wichtigsten Stolpersteine in der medizinischen Chemie. Ein notwendiger, aber ungelöster Schritt in der Planung der Synthese ist die Lösung des Vorwärtsproblems: Mit den Reaktanden und Reagenzien können die Produkte vorhergesagt werden. Ähnlich wie bei anderen Arbeiten behandeln wir die Reaktionsprognose als ein Problem der maschinellen Übersetzung zwischen vereinfachten SMILES-Strings (simplified molecular-input line entry system – textbasierte Darstellung) von Reaktanden, Reagenzien und Produkten. Wir zeigen, dass ein mehrköpfiges Aufmerksamkeits-Molekularwandlermodell alle Algorithmen in der Literatur übertrifft und eine Top-1-Genauigkeit von über 90% bei einem gemeinsamen Referenzdatensatz erreicht. Molecular Transformer macht Vorhersagen, indem er auf die Zusammenhänge zwischen dem Vorhandensein und Fehlen chemischer Motive im Reaktanden, Reagenz und dem im Datensatz vorhandenen Produkt schlussfolgert. Unser Modell erfordert keine handgefertigten Regeln und prognostiziert präzise subtile chemische Transformationen. Entscheidend ist, dass unser Modell seine eigene Unsicherheit genau abschätzen kann, mit einem Unsicherheitsscore, der zu 89% genau ist, wenn es darum geht, zu klassifizieren, ob eine Vorhersage korrekt ist. Darüber hinaus zeigen wir, dass das Modell in der Lage ist, Eingaben ohne eine Trennung von Reaktant und Reagenz und einschließlich Stereochemie zu verarbeiten, was unsere Methode universell einsetzbar macht.”

->Quellen: