Makromolekulares Andocken - Macromolecular docking

Makromolekulares Andocken ist die computergestützte Modellierung der Quartärstruktur von Komplexen, die aus zwei oder mehr wechselwirkenden biologischen Makromolekülen gebildet werden . Protein- Protein-Komplexe sind die am häufigsten versuchten Ziele einer solchen Modellierung, gefolgt von Protein- Nukleinsäure- Komplexen.

Das ultimative Ziel des Dockings ist die Vorhersage der dreidimensionalen Struktur des interessierenden makromolekularen Komplexes, wie sie in einem lebenden Organismus vorkommen würde. Das Andocken selbst erzeugt nur plausible Kandidatenstrukturen. Diese Kandidaten müssen unter Verwendung von Methoden wie Scoring-Funktionen eingestuft werden , um Strukturen zu identifizieren, die am wahrscheinlichsten in der Natur vorkommen.

Der Begriff "Andocken" entstand in den späten 1970er Jahren mit einer eingeschränkteren Bedeutung; „Andocken“ bedeutete dann, ein Modell einer komplexen Struktur zu verfeinern, indem man die Trennung zwischen den Interaktoren optimierte, aber ihre relativen Orientierungen festhielt. Später durften die relativen Orientierungen der interagierenden Partner in der Modellierung variieren, aber die innere Geometrie jedes der Partner wurde unverändert gehalten. Diese Art der Modellierung wird manchmal als "starres Andocken" bezeichnet. Mit weiterer Steigerung der Rechenleistung wurde es möglich, Änderungen der inneren Geometrie der wechselwirkenden Partner zu modellieren, die bei der Bildung eines Komplexes auftreten können. Diese Art der Modellierung wird als "flexibles Andocken" bezeichnet.

Hintergrund

Die biologischen Rollen der meisten Proteine, durch welche anderen Makromoleküle sie wechselwirken , sind bestenfalls unvollständig bekannt. Sogar jene Proteine, die an einem gut untersuchten biologischen Prozess (zB dem Krebs-Zyklus ) teilnehmen, können unerwartete Interaktionspartner oder Funktionen haben, die nicht mit diesem Prozess in Zusammenhang stehen.

Bei bekannten Protein-Protein-Wechselwirkungen stellen sich andere Fragen. Es ist bekannt, dass genetische Erkrankungen (z. B. Mukoviszidose ) durch fehlgefaltete oder mutierte Proteine ​​verursacht werden, und es besteht der Wunsch zu verstehen, welche anomalen Protein-Protein-Wechselwirkungen eine gegebene Mutation, wenn überhaupt, verursachen kann. In ferner Zukunft könnten Proteine ​​entwickelt werden, um biologische Funktionen zu erfüllen, und eine Bestimmung der möglichen Wechselwirkungen solcher Proteine ​​wird von wesentlicher Bedeutung sein.

Für eine bestimmte Gruppe von Proteinen können die folgenden Fragen aus technologischer oder naturgeschichtlicher Sicht von Interesse sein:

Wenn sie binden,

  • Welche räumliche Konfiguration nehmen sie in ihrem gebundenen Zustand an ?
  • Wie stark oder schwach ist ihre Wechselwirkung?

Wenn sie nicht binden,

  • Können sie durch eine Mutation zur Bindung gebracht werden?

Das Protein-Protein-Docking ist letztendlich ins Auge gefasst, um all diese Probleme anzugehen. Da Docking-Methoden auf rein physikalischen Prinzipien beruhen können, können darüber hinaus auch Proteine ​​unbekannter Funktion (oder relativ wenig untersucht) angedockt werden. Die einzige Voraussetzung ist, dass ihre Molekülstruktur entweder experimentell bestimmt wurde oder durch eine Technik zur Vorhersage der Proteinstruktur abgeschätzt werden kann.

Protein-Nukleinsäure-Wechselwirkungen spielen in der lebenden Zelle eine herausragende Rolle. Transkriptionsfaktoren , die die Genexpression regulieren , und Polymerasen , die die Replikation katalysieren , bestehen aus Proteinen, und das genetische Material, mit dem sie interagieren, besteht aus Nukleinsäuren. Die Modellierung von Protein-Nukleinsäure-Komplexen stellt einige einzigartige Herausforderungen, wie unten beschrieben.

Geschichte

In den 1970er Jahren drehte sich die komplexe Modellierung darum, Merkmale auf den Oberflächen der Interaktoren manuell zu identifizieren und die Konsequenzen für Bindung, Funktion und Aktivität zu interpretieren; irgendwelche Computerprogramme wurden typischerweise am Ende des Modellierungsprozesses verwendet, um zwischen den relativ wenigen Konfigurationen zu unterscheiden, die übrig blieben, nachdem alle heuristischen Beschränkungen auferlegt worden waren. Der erste Einsatz von Computern fand in einer Studie zur Hämoglobin- Interaktion in Sichelzellfasern statt . Diese wurde 1978 von der Arbeit auf dem gefolgt Trypsin - BPTI - Komplex. Computer unterschieden zwischen guten und schlechten Modellen unter Verwendung einer Bewertungsfunktion, die einen großen Grenzflächenbereich belohnte, und Molekülpaare, die sich berühren, aber nicht den gleichen Raum einnehmen. Der Computer verwendete eine vereinfachte Darstellung der interagierenden Proteine ​​mit einem Interaktionszentrum für jeden Rest. Günstige elektrostatische Wechselwirkungen, einschließlich Wasserstoffbrücken , wurden von Hand identifiziert.

In den frühen 1990er Jahren wurden mehr Strukturen von Komplexen bestimmt, und die verfügbare Rechenleistung war erheblich gestiegen. Mit dem Aufkommen der Bioinformatik verlagerte sich der Fokus auf die Entwicklung verallgemeinerter Techniken, die mit akzeptablem Rechenaufwand auf beliebige Komplexe angewendet werden konnten. Die neuen Methoden sollten auch ohne phylogenetische oder experimentelle Hinweise angewendet werden; jedes spezifische Vorwissen könnte noch in der Phase der Auswahl zwischen den ranghöchsten Ausgabemodellen eingeführt oder als Eingabe eingerahmt werden, wenn der Algorithmus dies berücksichtigt. 1992 wurde das Korrelationsverfahren veröffentlicht, ein Algorithmus, der die schnelle Fourier-Transformation verwendet , um eine erheblich verbesserte Skalierbarkeit für die Bewertung der Komplementarität grober Formen bei Starrkörpermodellen zu erreichen. Diese wurde 1997 um die Grobelektrostatik erweitert.

1996 wurden die Ergebnisse der ersten Blindstudie veröffentlicht, in der sechs Forschungsgruppen versuchten, die komplexierte Struktur von TEM-1 Beta-Lactamase mit Beta-Lactamase- Inhibitor-Protein (BLIP) vorherzusagen. Die Übung rückte die Notwendigkeit der Anpassung an Konformationsänderungen und die Schwierigkeit der Unterscheidung zwischen Konformeren in den Mittelpunkt. Es diente auch als Prototyp für die CAPRI-Bewertungsserie, die 2001 debütierte.

Rigid-Body - Docking vs . flexibles Andocken

Werden Bindungswinkel, Bindungslängen und Torsionswinkel der Bauteile zu keiner Zeit der komplexen Erzeugung verändert, spricht man von Starrkörper-Docking . Es wird spekuliert, ob das Festkörper-Docking für die meisten Andockvorgänge ausreichend gut ist oder nicht. Wenn zum Zeitpunkt der Komplexbildung eine wesentliche Konformationsänderung innerhalb der Komponenten auftritt, ist das Andocken des starren Körpers unzureichend. Das Bewerten aller möglichen Konformationsänderungen ist jedoch unerschwinglich in Bezug auf Computerzeit. Andockverfahren , die eine Konformationsänderung zulassen, oder flexible Andockverfahren , müssen eine kleine Teilmenge möglicher Konformationsänderungen zur Berücksichtigung intelligent auswählen.

Methoden

Erfolgreiches Andocken erfordert zwei Kriterien:

  • Generieren eines Satzes von Konfigurationen, der zuverlässig mindestens eine nahezu korrekte enthält.
  • Zuverlässig nahezu korrekte Konfigurationen von den anderen unterscheiden.

Bei vielen Interaktionen ist die Bindungsstelle an einem oder mehreren der anzudockenden Proteine ​​bekannt. Dies ist bei Antikörpern und bei kompetitiven Inhibitoren der Fall . In anderen Fällen kann eine Bindungsstelle durch mutagene oder phylogenetische Beweise stark nahegelegt werden . Auch Konfigurationen, bei denen die Proteine ​​stark durchdringen, können a priori ausgeschlossen werden .

Nach Ausschlüssen aufgrund von Vorkenntnissen oder stereochemischen Kollisionen muss der verbleibende Raum möglicher komplexierter Strukturen erschöpfend, gleichmäßig und mit einer ausreichenden Abdeckung abgetastet werden, um einen Beinahe-Treffer zu gewährleisten. Jede Konfiguration muss mit einer Kennzahl bewertet werden, die in der Lage ist, eine nahezu korrekte Struktur über mindestens 100.000 Alternativen einzustufen. Dies ist eine rechenintensive Aufgabe, und es wurden verschiedene Strategien entwickelt.

Reziproke Raummethoden

Jedes der Proteine ​​kann als einfaches kubisches Gitter dargestellt werden. Dann können für die Klasse von Bewertungen, die diskrete Faltungen sind , Konfigurationen, die durch Translation eines Proteins durch einen exakten Gittervektor zueinander in Beziehung stehen, alle fast gleichzeitig bewertet werden, indem das Faltungstheorem angewendet wird . Es ist möglich, vernünftige, wenn auch ungefähre, faltungsähnliche Bewertungsfunktionen zu konstruieren, die sowohl die stereochemische als auch die elektrostatische Fitness repräsentieren.

Reziproke Raumverfahren sind wegen ihrer Fähigkeit, eine enorme Anzahl von Konfigurationen auszuwerten, ausgiebig verwendet worden. Sie verlieren ihren Geschwindigkeitsvorteil, wenn Torsionsänderungen eingebracht werden. Ein weiterer Nachteil besteht darin, dass es unmöglich ist, Vorwissen effizient zu nutzen. Es bleibt auch die Frage, ob Faltungen eine zu begrenzte Klasse von Bewertungsfunktionen sind, um den besten Komplex zuverlässig zu identifizieren.

Monte-Carlo-Methoden

In Monte Carlo wird eine Anfangskonfiguration verfeinert, indem zufällige Schritte unternommen werden, die aufgrund ihrer induzierten Verbesserung der Punktzahl akzeptiert oder abgelehnt werden (siehe das Metropolis-Kriterium ), bis eine bestimmte Anzahl von Schritten versucht wurde. Die Annahme ist, dass die Konvergenz zur besten Struktur aus einer großen Klasse von Anfangskonfigurationen erfolgen sollte, von denen nur eine berücksichtigt werden muss. Anfangskonfigurationen können grob abgetastet werden, und es kann viel Rechenzeit eingespart werden. Wegen der Schwierigkeit, eine Bewertungsfunktion zu finden, die sowohl für die richtige Konfiguration stark diskriminierend ist als auch aus der Entfernung gegen die richtige Konfiguration konvergiert, wurde die Verwendung von zwei Verfeinerungsstufen mit unterschiedlichen Bewertungsfunktionen vorgeschlagen. Torsion kann natürlich als zusätzliche Eigenschaft jeder zufälligen Bewegung in Monte Carlo eingeführt werden.

Monte-Carlo-Methoden können nicht garantiert erschöpfend suchen, so dass die beste Konfiguration selbst bei Verwendung einer Bewertungsfunktion, die sie theoretisch identifizieren würde, verfehlt werden kann. Wie schwerwiegend dies für das Andocken ist, ist nicht eindeutig geklärt.

Auswertung

Scoring-Funktionen

Um einen Score zu finden, der eine konsistente Grundlage für die Auswahl der besten Konfiguration bildet, werden Studien zu einem Standard-Benchmark (siehe unten) von Protein-Protein-Interaktionsfällen durchgeführt. Scoring-Funktionen werden nach dem Rang bewertet, den sie der besten Struktur zuordnen (idealerweise sollte die beste Struktur auf Rang 1 stehen) und nach ihrer Abdeckung (der Anteil der Benchmark-Fälle, bei denen sie ein akzeptables Ergebnis erzielen). Zu den untersuchten Scores gehören:

Es ist üblich, Hybrid-Scores zu erstellen, indem eine oder mehrere der oben genannten Kategorien in einer gewichteten Summe kombiniert werden, deren Gewichte auf Fälle aus dem Benchmark optimiert sind. Um Verzerrungen zu vermeiden, dürfen sich die zur Optimierung der Gewichtung verwendeten Benchmark-Fälle nicht mit den Fällen überschneiden, die für den abschließenden Test der Punktzahl verwendet wurden.

Das ultimative Ziel beim Protein-Protein-Docking ist die Auswahl der idealen Ranking-Lösung nach einem Bewertungsschema, das auch einen Einblick in die Affinität des Komplexes geben würde. Eine solche Entwicklung würde In-silico- Protein-Engineering , computergestütztes Wirkstoffdesign und/oder Hochdurchsatz-Annotation darüber, welche Proteine ​​binden oder nicht, vorantreiben (Annotation of Interactom ). Für die Vorhersage von Bindungsaffinität/freier Energie wurden mehrere Bewertungsfunktionen vorgeschlagen. Es wurde jedoch festgestellt, dass die Korrelation zwischen experimentell bestimmten Bindungsaffinitäten und den Vorhersagen von neun häufig verwendeten Bewertungsfunktionen nahezu orthogonal ist (R 2 ~ 0). Es wurde auch beobachtet, dass einige Komponenten der Bewertungsalgorithmen möglicherweise eine bessere Korrelation zu den experimentellen Bindungsenergien aufweisen als die vollständige Bewertung, was darauf hindeutet, dass eine signifikant bessere Leistung durch die Kombination der entsprechenden Beiträge verschiedener Bewertungsalgorithmen erzielt werden könnte. Experimentelle Methoden zur Bestimmung von Bindungsaffinitäten sind: Oberflächenplasmonenresonanz (SPR), Förster-Resonanz-Energietransfer , radioligandenbasierte Techniken, isotherme Titrationskalorimetrie (ITC), mikroskalige Thermophorese (MST) oder spektroskopische Messungen und andere Fluoreszenztechniken. Textinformationen aus wissenschaftlichen Artikeln können nützliche Hinweise für die Bewertung geben.

Benchmarks

Ein Benchmark von 84 Protein-Protein-Wechselwirkungen mit bekannten komplexierten Strukturen wurde zum Testen von Docking-Methoden entwickelt. Das Set wurde so gewählt, dass es ein breites Spektrum an Interaktionstypen abdeckt und sich wiederholende Merkmale, wie das Profil der Strukturfamilien von Interaktoren gemäß der SCOP- Datenbank, vermieden werden. Benchmark-Elemente werden in drei Schwierigkeitsgrade eingeteilt (der schwierigste enthält die größte Änderung der Rückgrat-Konformation). Der Protein-Protein-Docking-Benchmark enthält Beispiele für Enzym-Inhibitor-, Antigen-Antikörper- und homomultimere Komplexe.

Die neueste Version des Protein-Protein-Docking-Benchmarks besteht aus 230 Komplexen. Ein Protein-DNA-Docking-Benchmark besteht aus 47 Testfällen. Ein Protein-RNA-Docking-Benchmark wurde als Datensatz von 45 nicht-redundanten Testfällen mit Komplexen, die nur durch Röntgenkristallographie gelöst wurden, sowie als erweiterter Datensatz von 71 Testfällen mit ebenfalls aus Homologiemodellierung abgeleiteten Strukturen kuratiert . Der Protein-RNA-Benchmark wurde aktualisiert, um mehr durch Röntgenkristallographie gelöste Strukturen aufzunehmen und besteht nun aus 126 Testfällen. Die Benchmarks haben einen kombinierten Datensatz von 209 Komplexen.

Ein Bindungsaffinitäts-Benchmark basiert auf dem Protein-Protein-Docking-Benchmark. 81 Protein-Protein-Komplexe mit bekannten experimentellen Affinitäten sind enthalten; diese Komplexe erstrecken sich in Bezug auf die Affinität über 11 Größenordnungen. Jeder Eintrag des Benchmarks enthält mehrere biochemische Parameter, die mit den experimentellen Daten verbunden sind, zusammen mit der Methode, die zur Bestimmung der Affinität verwendet wurde. Dieser Benchmark wurde verwendet, um zu beurteilen, inwieweit Scoring-Funktionen auch Affinitäten von makromolekularen Komplexen vorhersagen können.

Dieser Benchmark wurde nach dem Peer-Review überprüft und deutlich erweitert. Der neue Satz ist hinsichtlich der biologischen Funktionen, die er repräsentiert, vielfältig, mit Komplexen, die G-Proteine ​​und extrazelluläre Rezeptordomänen umfassen, sowie Antigen/Antikörper-, Enzym/Inhibitor- und Enzym/Substrat-Komplexe. Es ist auch in Bezug auf die Affinität der Partner zueinander unterschiedlich, wobei K d zwischen 10 −5 und 10 −14 M liegt. Neun Eintragspaare repräsentieren eng verwandte Komplexe, die eine ähnliche Struktur, aber eine sehr unterschiedliche Affinität aufweisen Paar bestehend aus einer verwandten und einer nicht verwandten Anordnung. Da die ungebundenen Strukturen der Komponentenproteine ​​verfügbar sind, können Konformationsänderungen beurteilt werden. Sie sind in den meisten Komplexen signifikant, und häufig werden große Bewegungen oder Übergänge von Unordnung zu Ordnung beobachtet. Der Satz kann verwendet werden, um biophysikalische Modelle zu vergleichen, die darauf abzielen, Affinität zur Struktur in Protein-Protein-Wechselwirkungen in Beziehung zu setzen, wobei die Reaktanten und die Konformationsänderungen, die die Assoziationsreaktion begleiten, anstelle nur des Endprodukts berücksichtigt werden.

Die CAPRI-Bewertung

The Critical Assessment of PRediction of Interactions ist eine fortlaufende Veranstaltungsreihe, bei der Forscher aus der gesamten Community versuchen, die gleichen Proteine ​​zu docken, wie sie von den Gutachtern bereitgestellt werden. Runden finden ungefähr alle 6 Monate statt. Jede Runde enthält zwischen einem und sechs Zielprotein-Protein-Komplexe, deren Strukturen kürzlich experimentell bestimmt wurden. Die Koordinaten und werden von den Gutachtern in Zusammenarbeit mit den Strukturbiologen , die sie bestimmt haben, privat gehalten . Die Bewertung der Einreichungen erfolgt doppelblind .

CAPRI zieht eine hohe Beteiligung an (37 Gruppen nahmen weltweit an Runde sieben teil) und ein hohes Interesse der biologischen Gemeinschaft im Allgemeinen. Obwohl die CAPRI-Ergebnisse aufgrund der geringen Anzahl von Zielen in jeder Runde von geringer statistischer Signifikanz sind, ist die Rolle von CAPRI bei der Stimulierung des Diskurses signifikant. (Die CASP- Bewertung ist eine ähnliche Übung auf dem Gebiet der Proteinstrukturvorhersage).

Siehe auch

Verweise