Maschinelles Lernen: Bisher zielten Anwendungen vor allem auf das Lernen von Potenzialenergiehyperflächen, derzeit zeigen sich viele neue Forschungsrichtungen. Molekülschwingungen in der Thermodynamik: Berechnung in Theorie und Simulatio...
Trendbericht Theoretische Chemie 2023 (1/3)
Maschinelles Lernen jenseits von Potenzialenergiehyperflächen
Von Wiley-VCH zur Verfügung gestellt
Maschinelles Lernen: Bisher zielten Anwendungen vor allem auf das Lernen von Potenzialenergiehyperflächen, derzeit zeigen sich viele neue Forschungsrichtungen. Molekülschwingungen in der Thermodynamik: Berechnung in Theorie und Simulation. Ultrakurze Laserpulse zum Beobachten molekularer Dynamik: Da die Bewegung von Elektronen genauso schnell ist wie die zeitliche Ausdehnung der Pulse, sind die Pulseigenschaften bei Simulationen explizit zu berücksichtigen.
Maschinelles Lernen jenseits von Potenzialenergiehyperflächen
Moleküleigenschaften verlässlich vorherzusagen, ist eines der zentralen Ziele der theoretischen Chemie. Dies ist grundsätzlich durch quantenmechanische Simulationen erreichbar – bedeutet für realistische Systeme wie Festkörper oder solvatisierte Moleküle allerdings oft einen enormen Rechenaufwand oder ist schlicht unmöglich. Wie in vielen Wissenschaftsbereichen haben in den letzten Jahren datengestützte Methoden des maschinellen Lernens (ML) hier große Auswirkungen gehabt. Diese übertragen die Genauigkeit von quantenmechanischen Methoden mit geringerem Rechenaufwand auf größere Zeit- und Längenskalen. Konkret erlauben diese Methoden etwa routinemäßig Moleküldynamik(MD)-Simulationen auf der Skala von Nanosekunden mit tausenden von Atomen. Die Kombination von Quantenchemie und ML erlaubt also im Prinzip, echte chemische Systeme realistischer zu behandeln.
Insbesondere haben diese Entwicklungen darauf gezielt, Energien und Kräfte (also die Potenzialhyperfläche, Potential Energy Surface, PES) in Molekülen und Materialien vorherzusagen. Dies beschleunigt einige der häufigsten Rechnungstypen in der Computerchemie, etwa Moleküldynamik(MD)-Simulationen oder Geometrieoptimierungen durch ML Interatomic Potentials (MLIPs). Dementsprechend sind die etablierten Methoden des chemischen ML auf diese Anwendung zugeschnitten. Dennoch bieten moderne ML-Methoden Möglichkeiten, die über Regressionsmodelle von Potenzialhyperfläche hinausgehen.1) In den letzten Jahren wurden solche Ansätze verstärkt für chemische Anwendungen verwendet. Dieser Trendbericht bietet einen Überblick über diese Entwicklungen.
Strukturvorhersage und generative Modelle
Viele chemische Fragen drehen sich um die Bestimmung der Struktur von Molekülen oder Festkörpern. Aus Perspektive der theoretischen Chemie lässt sich die Bestimmung der Grundzustandsgeometrie eines Systems als die Suche nach dem globalen Minimum der PES begreifen. Dieses Minimum zu finden, kann beliebig schwierig sein: In der Regel sind viele Auswertungen der Energie und Kräfte nötig, um es verlässlich zu erreichen. Die erwähnten MLIPs sind dabei wichtig, da sie den Rechenaufwand für diese Auswertungen gegenüber einer quantenchemischen Rechnung erheblich reduzieren. Dies lässt sich beispielsweise nutzen, um Kristallstrukturen von Molekülen oder Adsorbatgeometrien auf Metalloberflächen zu bestimmen (Abbildung 1).2,3)
Trotz dieser Erfolge sind PES-basierte Ansätze für die Strukturvorhersage limitiert. Zum einen führen die intrinsische Komplexität und hohe Dimensionalität dieser Hyperflächen dazu, dass sich das globale Minimum nie mit abschließender Sicherheit bestimmen lässt. Zum anderen müssen MLIPs für diesen Zweck die PES ausreichend realistisch abbilden, was hohe Anforderungen an Zahl und Qualität der Trainingsdaten stellt. Schließlich sind experimentell beobachteten Strukturen oft nicht unbedingt globale Minima auf der jeweiligen PES. Stattdessen können sie beispielsweise auch kinetische Produkte sein (bei Polymorphismus oder amorphen Festkörpern) oder aus entropischen Gründen bei Raumtemperatur stabil sein.4)
Um diese Einschränkungen zu überwinden, wurden in den vergangenen Jahren ML-Modelle entwickelt, die Strukturen direkt vorhersagen, ohne die PES zu modellieren. Ein viel beachtetes Beispiel hierfür ist das AlphaFold2-Modell, das Proteinstrukturen mit hoher Genauigkeit allein aus der Sequenz der Aminosäuren vorhersagt.5) Im Kern ist Alphafold2 ein Regressionsmodell, das auf experimentellen Proteinstrukturen aus der Protein Databank (PDB) trainiert wurde. Es profitiert davon, dass große Mengen qualitativ hochwertiger Strukturdaten verfügbar sind, und von der Tatsache, dass Proteine sehr systematisch aus den Aminosäuren aufgebaut sind. Da diese Faktoren im Allgemeinen – etwa bei komplexen Molekülen oder Oberflächenstrukturen – nicht gleichermaßen gegeben sind, lässt sich dieser Ansatz nicht generalisieren.
Daher sind Methoden von Interesse, die schrittweise und iterativ Strukturen generieren (Abbildung 1). Beispielsweise können Reinforcement-Learning(RL)-Algorithmen lernen, chemisch stabile Strukturen (virtuell) Atom für Atom aufzubauen.6) Dabei fungieren quantenchemische Rechnungen gewissermaßen als Lehrer, aus deren Feedback das RL-Modell lernt, welche Strukturmotive sinnvoll sind. Hier ist besonders spannend, dass keinerlei Daten a priori vorliegen müssen. Stattdessen werden diese nach Bedarf erzeugt. Dadurch ist dieser Ansatz auf unterschiedliche Fragen anwendbar, zum Beispiel nach der Struktur von Defektstellen in Graphen, organischen Molekülen oder Metallclustern auf Oberflächen.
Ein verwandtes Problem ist die Erzeugung unterschiedlicher Konfigurationen für eine vorgegebene Struktur. Dies können beispielsweise verschiedene Konformere eines Moleküls sein oder statistisch unabhängige Samples aus einer MD- oder Monte-Carlo-Trajektorie. Diese werden benötigt, um thermische Effekte auf Molekül- und Materialeigenschaften vorherzusagen. Ein großer Nachteil von MD-Simulationen ist, dass die Samples sequenziell erzeugt werden und zudem untereinander korreliert sind. Hier können generative ML-Modelle wie die Boltzmann Generators Abhilfe schaffen.7) Diese Modelle bilden die Wahrscheinlichkeitsverteilung ab, die einem Strukturensemble zugrunde liegt, im Fall einer MD-Trajektorie also die Boltzmann-Verteilung. Einmal trainiert erzeugt ein solches Modell dann mit geringem Rechenaufwand neue, unkorrelierte Samples. Da die Samples voneinander unabhängig sind, kann dies zudem auch parallel erfolgen, was das Sampling um mindestens zwei bis drei Größenordnungen effizienter macht.
Eine weitere Anwendung generativer Modelle besteht darin, mögliche chemische Kompositionen für bestimmte Strukturprototypen zu erzeugen. Hier sind konditionale Modelle von besonderem Interesse. Diese machen nicht nur realistische Struktur- oder Kompositionsvorschläge, sondern liefern auch gezielt Kandidaten mit gewünschten Eigenschaften, selbst wenn diese nur einen kleinen Teil der Trainingsdatenbank ausmachen.8) Insgesamt stellen Strukturvorhersage- und generative Modelle also einen vielversprechenden neuen Weg im chemischen ML dar. Dennoch: Diese Ansätze sind in den meisten Fällen noch nicht reif für die breite Anwendung, da das Training der Modelle wesentlich komplexer ist als bei konventionellen Regressionsmodellen.
Vorhersage elektronischer Eigenschaften
Eine zentrale Eigenschaft von modernen MLIPs ist, dass sie Symmetrien und Invarianzen der PES effektiv einbauen. Zum Beispiel ist die Energie eines Moleküls in der Gasphase invariant gegenüber Rotationen oder Translationen des Gesamtsystems. Ebenso fundamental ist die Extensivität der Energie: Ein System aus N nicht-interagierenden Wasser-Molekülen hat die N-fache Energie eines einzelnen Moleküls. Chemische ML-Modelle werden in der Regel so aufgebaut, dass sie diese Symmetrien a priori befolgen und nicht erst aus Daten lernen müssen. Allerdings gehorchen andere elektronische Eigenschaften nicht zwangsläufig denselben Symmetrien und Invarianzen wie die Energie.
Ein Gegenbeispiel ist die Ionisierungsenergie als eine intensive Eigenschaft. Die Ionisierungsenergie von N nicht-interagierenden Wassermolekülen ist gleich der Ionisierungsenergie eines einzelnen Moleküls (und eben nicht dem N-fachen Wert). In realen Systemen treten Ionisierungen zudem oft lokalisiert auf. Eine rigorose Behandlung solcher Eigenschaften erfordert deshalb spezielle ML-Algorithmen, welche das physikalisch korrekte Skalierungsverhalten gewährleisten.9) Interessanterweise führen solche methodischen Entwicklungen speziell dann zu Verbesserungen, wenn wenig Daten zur Verfügung stehen. Dies erlaubt es zu einem gewissen Maß, auch jenseits des Trainingssatzes zu extrapolieren.
Äquivarianz und Invarianz
Neben der Intensivität und Extensivität ist auch das Rotationsverhalten der Zieleigenschaft für ML-Modelle von besonderem Interesse. Wie erwähnt werden MLIPs stets so entwickelt, dass sie rotationsinvariant sind. Kurz gesagt bedeutet dies, dass die Zieleigenschaft (also die Energie) sich nicht ändert, wenn ein Molekül im Vakuum rotiert wird. Allerdings gibt es auch viele vektorielle oder tensorielle elektronische Eigenschaften, etwa Dipolvektoren, Polarisierbarkeiten oder NMR-Tensoren. Diese rotieren gewissermaßen mit dem Molekül mit. Um dies korrekt abzubilden, wurden in den vergangenen Jahren verstärkt äquivariante ML-Algorithmen entwickelt, die das korrekte Rotationsverhalten für tensorielle Eigenschaften aufweisen.10)
Ein interessanter Nebeneffekt dieser Entwicklung ist, dass äquivariante neuronale Netzwerke inzwischen auch für invariante Eigenschaften wie die Energie verwendet werden.11,12) Dies nutzt aus, dass äquivariante Komponenten in solchen Netzwerken höchst expressive interne Darstellungen der Struktur eines Moleküls oder Festkörpers erzeugen. Diese internen Darstellungen lassen sich auch für invariante Eigenschaften nutzen. Allerdings sollte beachtet werden, dass der Rechenaufwand für das Training und die Anwendung äquivarianter Netzwerke wesentlich höher ist als für die entsprechenden invarianten Versionen.
Der eben beschriebene Weg von der Äquivarianz zur Invarianz lässt sich auch umkehren. Ein zentrales Beispiel ist hier die Vorhersage von Elektronendichteverteilungen in Molekülen (Abbildung 2). Diese Verteilungen drehen sich natürlicherweise mit einem Molekül und können deshalb mit äquivarianten ML-Modellen beschrieben werden.13) Über die Dichtefunktionaltheorie (DFT) ist die Grundzustandselektronendichte allerdings so definiert, dass sie das entsprechende Energiefunktional minimiert. Die Energie wiederum ist rotationsinvariant. Man kann nun über ML extrem flexible Dichtefunktionale definieren, mit der Randbedingung, dass diese bei den korrekten Dichten minimieren.14) Diese liefern dann äquivariante Dichtevorhersagen, obwohl die zu Grunde liegenden Modelle invariant sind.
Dieser Ansatz hat gegenüber der konventionellen DFT mehrere Vorteile. Einerseits können so Dichtefunktionale mit der Genauigkeit von Wellenfunktionsmethoden entwickelt werden.15) Andererseits lassen sich vereinfachte Darstellungen der Dichte nutzen. Hier sind speziell Partialladungsmodelle zu erwähnen, die Ladungszustände und langreichweitige Coulomb-Wechselwirkungen in MLIPs effizient beschreiben.16,17)
Fazit
ML in der theoretischen Chemie kann mehr, als nur die PES zu lernen. Generative Modelle haben das Potenzial, die Strukturvorhersage erheblich zu beschleunigen und bieten die Möglichkeit aus komplexen Strukturverteilungen zu samplen. Für die elektronischen Eigenschaften sind vor allem äquivariante Modelle von großem Interesse, da sie die Zahl und Komplexität der möglichen Zieleigenschaften erheblich erweitern. Zudem bieten ML-DFT-Modelle ob ihrer großen Flexibilität die Aussicht, seit langem bestehende Limitierungen konventioneller Funktionale zu überwinden.
Der Autor
Johannes Margraf, Jahrgang 1987, ist seit September 2023 Professor an der Universität Bayreuth. Er entwickelt ML-Methoden für die physikalische und theoretische Chemie.
Margraf studierte Molekularwissenschaften an der Universität Erlangen, wo er anschließend über die elektronische Struktur von Nanomaterialien promovierte. Nach Postdocs an der University of Florida und der TU München übernahm er ab dem Jahr 2020 eine Gruppenleiterstelle am Fritz-Haber-Institut in Berlin.
johannes.margraf@uni-bayreuth.de
- 1 J. T. Margraf, Angew. Chemie 2023, 62, e202219170
- 2 H. Jung, L. Sauerland, S. Stocker, K. Reuter, J. T. Margraf, Npj Comput. Mater. 2023, 9, 114
- 3 S. Wengert, G. Csányi, K. Reuter, J. T. Margraf, J. Chem. Theory Comput. 2022, 18, 4586
- 4 J.A. Finkler, S. Goedecker, Mater. Adv. 2023, 4, 184
- 5 J. Jumper et al., Nature 2021, 596, 583
- 6 M.S. Jørgensen et al., J. Chem. Phys. 2019, 151, 054111
- 7 F. Noé., S. Olsson, J. Köhler, H. Wu, Science 2019, 365, 6457
- 8 H. Türk, E. Landini, C. Kunkel, J. T. Margraf, K. Reuter, Chem. Mater. 2022, 34, 9455
- 9 K. Chen, C. Kunkel, B. Cheng, K. Reuter, J. T. Margraf, Chem. Sci. 2023, 14, 4913
- 10 A. Grisafi, D. M. Wilkins, G. Csányi, M. Ceriotti, Phys. Rev. Lett. 2018, 120, 036002
- 11 S. Batzner et al., Nat. Commun. 2022, 13, 2453
- 12 I. Batatia, D.P. Kovács, G.N.C. Simm, C. Ortner, G. Csányi, 2022, arXiv:2206.07697
- 13 A. Grisafi, A. M. Lewis, M. Rossi, M. Ceriotti, J. Chem. Theory Comput. 2023, 19, 4451
- 14 R. Pederson, B. Kalita, K. Burke, Nat. Rev. Phys. 2022, 4, 357
- 15 J.T. Margraf, K. Reuter, Nat. Commun. 2021, 12, 344
- 16 T.W. Ko, J.A. Finkler, S. Goedecker, J. Behler, Nat. Commun. 2021, 12, 1
- 17 M. Vondrák, K. Reuter, J. T. Margraf, J. Chem. Phys. 2023, 159, 054109
Überprüfung Ihres Anmeldestatus ...
Wenn Sie ein registrierter Benutzer sind, zeigen wir in Kürze den vollständigen Artikel.