Gesellschaft Deutscher Chemiker

ChatGPT und Proteindesign

Neue Wege durch Deep Learning und generative Modelle/Trendbericht Physikalische Chemie 2024 (3/3)

Nachrichten aus der Chemie, Mai 2024, S. 61-64, DOI, PDF. Login für Volltextzugriff.

Von Wiley-VCH zur Verfügung gestellt

Zeitversetzte Laserpulse auf Moleküle verraten, wie photochemische Prozesse ablaufen – dabei sind konische Durchschneidungen entscheidend. Die kolloidale Nanochemie hat neue Materialklassen erschlossen, wie Nickelboride und frühe Übergangsmetalloxid-Katalysatoren, sowie Synthesen zu photolumineszenten III–V-Halbleitern verbessert. Mit maschinellem Lernen lassen sich am Rechner Proteine nicht mehr nur falten, sondern solche entwerfen, die nicht mit natürlichen Proteinen verwandt sind.

ChatGPT und Proteindesign: Neue Wege durch Deep Learning und generative Modelle

Deep-Learning-Methoden haben beim rechnerbasierten Proteindesign neue Möglichkeiten eröffnet. Mit generativen Modellen lassen sich jetzt neue Proteine entwerfen, die Proteinen aus der Natur nur wenig ähneln. So werden in Zukunft neue Enzyme, Impfstoffe oder Nanomaterialien möglich.

Wieso Proteindesign?

Das Ziel von Proteindesign ist, ein Protein mit gewünschter 3-D-Struktur herzustellen. Zum Beispiel wollen wir die aktive Tasche eines Enzyms designen oder ein Bindungsprotein entwerfen, dessen 3-D-Struktur wir kennen. Der nächste Schritt ist, eine Aminosäurenkette zu entwerfen, die sich in die gewünschte 3-D-Struktur faltet (Abbildung 8).

https://media.graphassets.com/nq1qw9rKS4eJNR30Lg5G
Proteindesign: Entwicklung einer Aminosäurensequenz, die sich in die gewünschte 3-D-Struktur faltet. Proteinfaltung: Vorhersage der 3-D-Struktur aus einer bekannten Sequenz.

Dadurch lassen sich Enzyme erzeugen, die Reaktionen katalysieren, mit denen sich Industriechemikalien oder Arzneimittel produzieren lassen. Für die Pharmaforschung ist auch das Design von Proteinen interessant, da mit hochspezifischen Bindungsproteinen Krankheiten wie HIV, Krebs oder Alzheimer behandelt werden.1) Aufgrund ihrer definierten Struktur dienen designte Proteine auch als Bausteine für Nanomaterialien.2) So wurden zum Beispiel Hybridmaterialien aus Nanopartikeln und Proteinen hergestellt.3) Sie haben Eigenschaften, die in der Natur nicht vorkommen und heißen Metamaterialien. Sie sind in Superlinsen, Tarnkappen und Material mit anomaler Lichtbrechung enthalten.

Protein-Engineering verbessert bereits bekannte Proteine oder Enzyme, zum Beispiel macht es sie stabiler oder besser löslich in organischen Lösemitteln – teilweise mit herausragendem Erfolg: Für ihre Arbeiten zur gerichteten Evolution von Enzymen erhielt Frances Arnold im Jahr 2018 den Nobelpreis für Chemie. Dieser Prozess ahmt im Labor die natürliche Evolution nach. Dazu werden die Proteine an zufällig ausgewählten Positionen mutiert. Ein Assay prüft die neuen Varianten auf Aktivität.

Proteindesign und -faltung: Revolution mit Deep Learning

Neue Proteine oder Enzyme lassen sich am Rechner entwerfen – beispielsweise mit der Rosetta-Software, die von der Gruppe David Bakers an der Universität Washington und anderen Forschungsgruppen in der ganzen Welt entwickelt wird.4) Diese Software verwendet eine Energiefunktion, die verschiedene Wechselwirkungen in Proteinen abbildet. Im Verlauf des Designprozesses wird die Energie gesenkt. Hier gibt es etliche Beispiele für erfolgreiches Design, zum Beispiel eine Diels-Alderase, also ein Enzym für Diels-Alder-Reaktionen,5) und ein Bindungsprotein für den Interleukin-2-Rezeptor6).

Die in silico entworfenen Proteine und Enzyme sind aber entweder relativ nah verwandt mit vorhanden Proteinstrukturen oder zeigen nur geringe Aktivität, die beispielsweise mit gerichteter Evolution zu verbessern ist. Um Proteine und Enzyme de novo, also ohne Verwandtschaft herzustellen, enthalten Methoden seit einigen Jahren Deep Learning.

Um Proteindesign zu verstehen, lohnt sich ein Blick vom Ergebnis aus, also der Proteinfaltung. Dabei möchte man verstehen, wie sich aus einer bekannten Proteinsequenz die 3-D-Struktur eines Proteins bildet. Um diese Struktur aufzuklären, waren bisher Experimente nötig, darunter Proteinkristallographie oder Kryo-Elektronenmikroskopie. Im Jahr 2020 revolutionierte die Software AlphaFold2 von Deepmind das Feld: Die Software sagt verlässlich 3-D-Proteinstrukturen vorher.7)

AlphaFold2 verwendet Deep-Learning-Methoden und wurde mit bekannten, experimentell ermittelten Proteinstrukturen trainiert. Später machte ChatGPT (Generative Pre-trained Transformer) die Möglichkeiten von Deep Learning bekannter. Inzwischen unterstützen Deep-Learning-Methoden nicht nur bei der Proteinfaltung, sondern auch beim Proteindesign.

Für natürliche Proteine gibt es nur etwa zweitausend Faltungsmuster, sodass in der Natur nicht alle Faltungsmöglichkeiten realisiert werden. Mit generativen Modellen lassen sich daher 3-D-Strukturen entwickeln, die das natürliche Repertoire erweitern.

Halluzinieren: gut oder schlecht?

Generative Modelle wie ChatGPT erfinden vermeintliche Fakten – zum Beispiel Publikationen. Hierfür wird der Begriff Halluzination verwendet. Bei ChatGPT mahnt dies zu besonderer Vorsicht, aber beim Proteindesign kann es zu neuen Strukturen führen. So verwendeten Forschende AlphaFold2, um aus einer frei gewählten Proteinsequenz die dazugehörigen Strukturen vorherzusagen. Das Ziel waren cyclische Protein-Oligomere, die aus neu gefalteten Untereinheiten bestehen sollten (Abbildung 9).8)

https://media.graphassets.com/8ToBwAe4QmOJ6B5biVBF
Neue Protein-Oligomere, hergestellt durch Halluzination mit AlphaFold2 und einer Feedback-Schleife. Die Designs (HAL = Halluzination, violette Datenpunkte) haben eine andere Struktur als die in der Proteindatenbank (PDB). Abbildung aus Quelle 6)

AlphaFold2 sagt zunächst voraus, zu welcher Struktur diese Sequenz führen würde. Dabei bewertet das Programm, ob die Vorhersage realitätsnah ist, also eine faltbare Struktur liefert, und ob die Designkriterien erfüllt sind – hier, ob sich ein Oligomer bildet. Die Sequenz wird anschließend verändert und der Vorhersageprozess so oft neu gestartet (Halluzinieren), bis eine realistische Proteinstruktur erreicht ist. Die Strukturen der neuen Designs sind vielfältiger als bekannte Oligomere (Abbildung 9). Das Verfahren ist jedoch rechenintensiv. Außerdem muss das Tool ProteinMPNN die Aminosäuresequenz optimieren, damit sich nicht nur faltbare, sondern lösliche Proteine bilden.

Ein ähnliches Vorgehen lieferte Proteingerüste (scaffolds) für Luciferasen. Luciferasen sind biolumineszent und werden in Bioassays und Bildgebung eingesetzt.

Das aktive Zentrum wurde anschließend mit der Rosetta-Software in diese Gerüste gedockt. Dazu wird ein Teil der Aminosäuresequenz durch das aktive Zentrum der Luciferase getauscht. Verglichen mit natürlichen Enzymen sind die entworfenen Proteine selektiver, was ihre Substrate angeht. Damit eignen sie sich für Bioassays in lebenden Organismen.9)

Die richtige Proteinsequenz finden

Manchmal sind die Anforderungen an die Proteinzielstruktur klar: Die Oberfläche des Zielproteins ist bekannt, und es soll ein Bindungsprotein entworfen werden, das genau an diese Oberfläche bindet. Manche Enzyme sollen stabiler oder besser wasserlöslich werden, ohne dabei Aktivität zu verlieren. In diesen Fällen darf sich die Konformation der Hauptkette des Proteins nicht ändern. Nun soll Proteindesign eine entsprechende Aminosäuresequenz vorschlagen, die sich in die gewünschte Struktur faltet (Abbildung 8, S.61).

Auch hier erzielen Deep-Learning-basierte Methoden inzwischen bessere Ergebnisse als bisherige Methoden. Die Software ProteinMPNN aus dem Jahr 202210) nutzt ein Message Passing Neural Network (MPNN, Abbildung 10).11) Dabei erstellt zunächst ein Struktur-Encoder die 3-D-Struktur ohne Sequenzinformation. Danach versucht ein Sequenz-Decoder, für jede Position eine sinnvolle Aminosäure vorzuschlagen. Dieser Schritt verläuft autoregressiv: Welcher Typ Aminosäure platziert wird, hängt von den bereits platzierten Aminosäuren in der Sequenz ab (Abbildung 10, rote Pfeile), aber auch von der 3-D-Umgebung der noch folgenden Aminosäuren (blaue Pfeile). Nicht nur Aminosäuren, die in der Sequenz aufeinanderfolgen, werden berücksichtigt, sondern auch räumlich benachbarte Aminosäuren (blaue Pfeile). Eine weitere Software für das Proteindesign ist ESM-IF1.12)

https://media.graphassets.com/eDdiSAZARzOSPjlRx3p7
Message Passing Neural Network, das von ProteinMPNN eingesetzt wird. Der Sequenz-Decoder schlägt geeignete Aminosäuren vor, basierend auf der Sequenz und der räumlichen Nachbarschaft. Abbildung adaptiert aus Quelle 9)

Neben dem Design neuer Proteine samt dazugehöriger Sequenzen lassen sich bekannte Proteine mit wenig Rechenaufwand redesignen, um die Ausbeute oder Stabilität zu verbessern. So wurde mit ProteinMPNN die TEV-Protease optimiert, die für biotechnologische Arbeiten wichtig ist.13) Das aktive Zentrum und stark konservierte Aminosäurepositionen wurden dabei nicht verändert. Verglichen mit dem Ursprungsenzym liefern die neuen Designs höhere Ausbeuten und sind thermostabiler sowie katalytisch effizienter.

Diffusionsmodelle

Um gänzlich neue Proteinstrukturen zu entwerfen, gibt es seit Kurzem Methoden, die auf Diffusionsmodellen basieren. Diese Modelle stecken zum Beispiel in der Software Dall-e, die aus einer Texteingabe neue Bilder herstellt, beispielsweise im Stile der Gemälde alter Meister.

Für das Proteindesign wurden Diffusionsmodelle wie RFdiffusion trainiert, um korrupte, also verrauschte Proteinstrukturen wiederherzustellen.14) Dazu wird zunächst eine Proteinstruktur schrittweise verrauscht und der Algorithmus an diesen Schritten trainiert. Anschließend lassen sich neue Strukturen generieren, indem der Korruptionsprozess umgekehrt wird. Anfänglich zufälliges Rauschen wird Schritt für Schritt in eine realistische Struktur überführt (Abbildung 11). Mit diesem Vorgehen lassen sich neue Koordinaten für das Proteinrückgrat, also ganz andere Faltungen, erzeugen. Die passende Sequenz erzeugen andere Werkzeuge wie ProteinMPNN.

https://media.graphassets.com/0DAtJJ3QoqoXJk0jhokQ
Links: Diffusionsmodelle werden zunächst am Prozess des Verrauschens einer Proteinstruktur trainiert. Anschließend lässt sich der Prozess umkehren, um eine Struktur aus Rauschen zu erstellen (RFdiffusion). Rechts: Strukturen, die mit Chroma entworfen worden sind. Abbildungen adaptiert aus Quelle 12 (links) beziehungsweise 13 (rechts)

Geometrische Parameter beeinflussen die neue Struktur. So lassen sich gezielt bestimmte Motive oder Gerüste herstellen. Das Modell ist schneller als halluzinierende Methoden und kann auch auf einfachen Grafikkarten durchgeführt werden. Seit Kurzem gibt es außerdem ein neues Softwarepaket: Chroma integriert das Sequenzdesign direkt in die Methode und hat viele einstellbare Parameter.15) Die damit erzeugten Designs (Abbildung 11, rechts) wurden jedoch noch nicht experimentell überprüft. Die Methoden eignen sich besonders, um definierte Nanomaterialien herzustellen, zum Beispiel für den Wirkstofftransport.

Herausforderungen und Ausblick

Die neuen Methoden versprechen unter anderem, das Proteindesign zu beschleunigen, denn erste Designschritte gelingen ohne Hochleistungsrechner. Schwierig bleibt weiterhin, Designs zu validieren: In silico lassen sich beliebige Proteine entwerfen. Fraglich ist aber, ob sich die Aminosäurensequenzen so falten wie geplant. AlphaFold2 eignet sich hier als In-silico-Validierung: Es sagt die Faltung voraus, die sich dann mit der gewünschten Struktur vergleichen lässt.

Bewerten lassen müssen sich die Designs schließlich an der Erfolgsquote, also dem Anteil der später im Labor aktiven Enzyme oder erfolgreichen Designs. Diese liegt bei den herkömmlichen Methoden wie Rosetta meist unter 5 Prozent für das Design neuer Proteine (De-novo-Design), Arbeiten mit den Deep-Learning-basierten Methoden erhöhten dies auf 5 bis 15 Prozent.14,16) Der letzte Schritt bleibt die Herstellung und Charakterisierung der Proteine – ohne Experiment geht es nicht.

Die vorgestellten Methoden setzen Deep Learning ein, nutzen aber nur wenig physikalische und chemische Informationen. Herausfordernd ist, diese Informationen und damit die Energiefunktion aus herkömmlichen Methoden wie Rosetta in die neue Software zu integrieren. Gerade für Anwendungen mit wenigen Datensätzen wie Nukleinsäuren und Modifikationen von Proteinen ist dies wichtig.17)

Es ist davon auszugehen, dass durch die Integration des Deep Learnings mehr Forschende Proteindesign nutzen werden, auch in der Industrie. Einige Firmen werben schon jetzt damit, dass sie Methoden wie ProteinMPNN einsetzen, um Proteine und Enzyme zu verbessern.

Die Doktorand Laurin Lang hat Tobias Beck bei diesem Beitrag unterstützt. ChatGPT wurde sporadisch eingesetzt, um die Übersetzung von englischen Fachbegriffen zu unterstützen.

HINTERGRUND: Was ist Deep Learning?

Deep Learning ist ein Teil des Machine Learnings. Voraussetzung sind gut kuratierte Daten, die als Trainingsdaten einem Algorithmus zur Verfügung gestellt werden. Beim Deep Learning extrahiert der Algorithmus eigenständig interessante Merkmale aus den Daten. Damit baut er ein neuronales Netz, das aus mehreren Schichten besteht (‚deep‘).

Generative Modelle lernen im Deep Learning mit Trainingsdaten die Datenverteilung und erstellen daraufhin Vorschläge für neue Datenpunkte. Die Algorithmen geben Text aus, aber auch Computerquellcode, Musik, Bilder und Videos.

Die Internetseite playground.tensorflow.org (Google) erlaubt, spielerisch in die Welt der neuronalen Netze einzutauchen.

Drei Fragen an den Autor: Tobias Beck

Was sind derzeit Ihre Hauptforschungsprojekte?

Mit meiner Arbeitsgruppe stelle ich Biohybrid-Materialien her. Dazu verwenden wir Protein-Nanocages als Biotemplate für die Synthese und Einkapselung von Nanopartikeln. Die so hergestellten Komposite assemblieren wir zu dreidimensionalen Materialien, die aufgrund der atomar exakt definierten Hülle der Protein-Nanocages hochgeordnet sind. Aktuelle Arbeiten beschäftigen sich mit der Strukturaufklärung und den optischen Eigenschaften dieser Materialien. Außerdem untersuchen wir die Verwendung von proteinbasierten Adsorbermaterialien für die Hämodialyse und den Einsatz von Protein-Nanocages für den Wirkstofftransport.

Welche Methode hat sich in den letzten zwölf Monaten aus Ihrer Sicht am meisten weiterentwickelt?

Im Bereich des computerbasierten Proteindesigns ist in den letzten Jahren viel passiert. Durch die Einbindung von Deep-Learning-Methoden gab es hier einen riesigen Entwicklungssprung. In den letzten Monaten sind viele neue Arbeiten publiziert worden – sowohl methodische Entwicklungen als auch Beispiele für Anwendungen. Ich denke, dass sich das Gebiet weiterhin schnell entwickeln wird, gerade mit Blick auf die Anwendung. Durch den einfachen Zugriff auf die rechnerbasierten Methoden, zum Beispiel über Webserver, können viele Forschungsgruppen, aber auch die Industrie, das computerbasierte Proteindesign nun in ihrer Forschung nutzen.

Was brauchen Sie heute im Beruf, was Sie im Studium nicht gelernt haben?

Ein Großteil der Kommunikation erfolgt in der Forschung und auch in Teilen der Industrie in englischer Sprache. In meinem Studium wurden aber fast alle Lehrveranstaltungen auf Deutsch gehalten. Durch Auslandsaufenthalte und englischsprachige Lehrveranstaltungen, zum Beispiel im Masterstudium, könnte die Anwendung der englischen Fachsprache weiter trainiert werden.

Tobias Beck ist W1tt-W2-Professor am Institut für Physikalische Chemie der Universität Hamburg. Dort forscht er an biohybriden Nanomaterialien. Er promovierte in Göttingen bei George Sheldrick. Nach einem Postdoc-Aufenthalt an der ETH Zürich habilitierte er sich an der RWTH Aachen.https://media.graphassets.com/CsjqjKorSXivenmYK34M

  • 1 S. B. Ebrahimi, D. Samanta, Nat. Commun. 2023, 14, 2411
  • 2 J. B. Bale, S. Gonen, Y. Liu et al., Science 2016, 353, 389
  • 3 N. O. Junker, A. Lindenau, M. Rütten et al., Adv. Funct. Mater. 2023, 33
  • 4 J. K. Leman, B. D. Weitzner, S. M. Lewis et al., Nat. Methods 2020, 17, 665
  • 5 N. Preiswerk, T. Beck, J. D. Schulz et al., Proc. Natl. Acad. Sci. 2014, 111, 8013
  • 6 D. Silva, S. Yu, U. Ulge et al. Nature 2019, 565, 186
  • 7 A. Kryshtafovych, T. Schwede, M. Topf, K. Fidelis, J. Moult, Proteins 2021, 89, 1607
  • 8 B. I. M. Wicky, L. F. Milles, A. Courbet et al., Science 2022, 378, 56
  • 9 A. H. Yeh, C. Norn, Y. Kipnis et al., Nature 2023, 614, 774
  • 10 J. Dauparas, I. Anishchenko, N. Bennett et al., Science 2022, 378, 49
  • 11 J. Ingraham, V. K. Garg, R. Barzilay, T. Jaakkola, Advances in Neural Information Processing Systems 2019, 32
  • 12 H. Chloe, V. Robert, L. Jason et al., bioRxiv 2022, doi: 10.1101/2022.04.10.487779, 2022.2004.2010.487779
  • 13 K. H. Sumida, R. Nunez-Franco, I. Kalvet et al., J. Am. Chem. Soc. 2024, 146, 2054
  • 14 J. L. Watson, D. Juergens, N. R. Bennett et al., Nature 2023, 620, 1089
  • 15 J. B. Ingraham, M. Baranov, Z. Costello et al., Nature 2023, 623, 1070
  • 16 N. R. Bennett, B. Coventry, I. Goreshnik et al., Nat. Commun. 2023, 14, 2625
  • 17 A. Doerr, Nat. Biotechnol. 2024, 42, 175

Wissenschaft + ForschungTrendberichte

Überprüfung Ihres Anmeldestatus ...

Wenn Sie ein registrierter Benutzer sind, zeigen wir in Kürze den vollständigen Artikel.