Deep Learning: Proteine besser verstehen

Schematische Darstellung der natürlichen Sequenzinformation kombiniert mit den auf Deep Learning basierenden designten Sequenzen, um die Proteineigenschaften identifizieren zu können, die Struktur (blau) und/oder Funktion (rot) definieren. Bildquelle: ©IBC – TU Graz/Hintergrund: Google AI Studio

Mit einer neu entwickelten Methode, die KI-generierte Proteinsequenzen mit natürlich vorkommenden vergleicht, lassen sich funktions- und strukturgebende Aminosäuren wesentlich genauer bestimmen als bisher.

Als Polymer aus verschiedenen Aminosäuren können Proteine unterschiedliche dreidimensionale Strukturen und verschiedene Funktionen aufweisen. Welche Aminosäuren eher die Proteinfunktion und welche die strukturelle Stabilität beeinflussen, ist aber oftmals schwierig zuzuordnen.

Hier ist einem Team um Andreas Winkler und Oliver Eder vom Institut für Biochemie der TU Graz (Österreich) mit dem sogenannten Function-Structure-Adaptability-Ansatz (FSA) ein Durchbruch gelungen, den sie nun im Fachjournal „Structure“ vorstellen. FSA vergleicht Machine-Learning-generierte, idealisierte Proteinsequenzen mit natürlichen Sequenzen, die in Jahrmillionen der Evolution entstanden sind. Dadurch lassen sich mit bisher nicht erreichter Genauigkeit die für Funktion und Stabilität ausschlaggebenden Aminosäuren identifizieren.

Die Bausteine des Lebens besser verstehen

Dieses Wissen liefert eine wichtige Grundlage für die Herstellung und Modifikation von Proteinen und damit für die Entwicklung neuer Medikamente, für die gezielte Verbesserung von Proteinen in industriellen Anwendungen und für ein besseres Verständnis von Proteinveränderungen, etwa im Zusammenhang mit Antibiotikaresistenzen.

„Als Biochemiker wollen wir verstehen, wie Proteine in der Natur entstanden sind und dadurch herausfinden, welche Aminosäuren hierbei für die speziellen Funktionen relevant sind“, sagt Winkler. „Dafür haben wir das, was die Natur im Laufe ihrer Evolution konserviert hat, mit dem kombiniert, was ein KI-Modell als relevant für Stabilität und Struktur eines Proteins erachtet.“

Für seine Methode nutzte das Team das Deep-Learning-Modell ProteinMPNN, das neue Proteinsequenzen mit dem Ziel generiert, eine vorgegebene stabile, dreidimensionale Struktur einzunehmen. Diese Sequenzen glichen die Forschenden mit jenen in natürlichen Proteinen ab. Als Testsystem verwendeten sie die Proteinfamilie der Bakteriophytochrome, die einigen Bakterien als Photorezeptoren dienen und eine zentrale Rolle bei der Wahrnehmung von Umwelteinflüssen wie Licht spielen.

Drei Kategorien von Aminosäuren

Die neue Analysemethode ergab: Ist eine Aminosäure in den natürlichen Sequenzen wiederholt vertreten, scheint bei ProteinMPNN aber nicht signifikant auf, deutet das auf eine funktionelle Rolle hin. Ist sie hingegen in beiden Sequenzsammlungen stark vorhanden, ist dies der Hinweis auf eine strukturelle Bedeutung.

Für ihren Ansatz gruppierten die Forschenden Aminosäuren anhand chemischer Eigenschaften, um natürliche und KI-generierte Proteine statistisch zu vergleichen. Das ermöglichte die Klassifizierung der Aminosäuren in drei Kategorien: „funktionell“, „strukturell“ und „anpassungsfähig“ (eine dritte Kategorie, die noch weiterer Forschung bedarf).

Die Ergebnisse validierte das Team mittels umfangreicher Laborversuche, bei denen es durch gezielte Veränderungen entsprechend klassifizierter Aminosäuren die funktionellen Eigenschaften von Proteinen beeinflussen konnte. So gelang es etwa, die Lichtwahrnehmung des Photorezeptor-Testsystems zu beeinflussen. Der Vergleich mit bereits aus der Literatur bekannten funktionellen Resten bestätigte die hohe Trefferquote der neuen Analysemethode.

Eine Woche statt mehrere Jahre

„Früher waren oftmals etliche Monate bis Jahre an Vorarbeit und Laborarbeit notwendig, um so eine Analyse durchzuführen“, erklärt Eder. „Die Vorarbeiten zur Identifikation potenziell interessanter natürlicher Proteinsequenzen sind für ein neues Protein nun innerhalb einer Woche möglich. Und weil wir mit unserer Methode die funktionellen Aminosäuren wesentlich gezielter vorfiltern können, müssen wir im Labor auch viel weniger Zeit für die Überprüfung und Charakterisierung aufwenden.”

Da die Methode prinzipiell auf alle Proteinklassen anwendbar sei, könnten Wissenschaftler Proteine nun deutlich gezielter besser verstehen, resümiert Eder abschließend.