Information

Wie modelliert man fehlende Reste auf einem Protein aus mehreren PDB-Dateien?


Ich habe mehrere Röntgenstrukturen (PDB-Dateien) desselben Proteins. Alle haben fehlende Reste. Ich möchte sie alle verwenden, um ein einziges Modell zu bauen, mit so wenig fehlenden Resten wie möglich. Gibt es dafür ein Tool (Webserver, Software)?

In einer bestimmten Anwendung habe ich eine zusätzliche Anforderung. Eine der PDB-Dateien ist insofern speziell (nennen Sie sie das Template), als ich ihr nur fehlende Reste hinzufügen möchte. Das heißt, das resultierende Modell sollte die spezielle pdb-Datei enthalten und perfekt darauf ausgerichtet sein. Der einzige Unterschied besteht darin, dass das resultierende Modell einige zusätzliche Reste enthält, die aus den Informationen in den anderen pdb-Dateien vervollständigt wurden. Okay, das resultierende Modell sollte nicht "perfekt" an der Vorlage ausgerichtet sein. An den Verbindungspunkten erlaube ich mir etwas Entspannung. Die Idee ist jedoch, dass die Vorlagen-PDB ein "größeres Gewicht" haben sollte.

Das sind also die beiden Probleme: 1) Wie kann man ein vollständigeres Modell aus einer Reihe von PDB-Dateien desselben Proteins rekonstruieren? 2) Wie vervollständigt man fehlende Reste in einer PDB-Datei unter Verwendung von Informationen aus anderen PDB-Dateien des gleichen Proteins?


Ich schlage vor, dass Sie Modeler - Advance Modeling (https://salilab.org/modeller/tutorial/advanced.html) verwenden, wo Sie mehrere Vorlagen-PDB verwenden können, um die endgültige Modellstruktur zu erhalten.

Alles Gute… :)


Mehrere PDB-Dateien zu einer einzigen Datei zusammenführen

Ich habe mehrere pdb-Dateien und jede von ihnen entspricht einer Domäne auf einem Protein. Ich möchte diese Dateien in einer einzigen pdb für das gesamte Protein zusammenführen, und der Ansatz, nach dem ich suche, sollte es mir ermöglichen, diese Domänen entsprechend der Reihenfolge zu ordnen, in der sie sich auf dem Protein befinden (z. B. Zusammenführen von Domäne A , B und C in der Reihenfolge CBA). Es wäre vorzuziehen, wenn ich die Zusammenführung mit VMD durchführen könnte, aber jeder Vorschlag wäre dankbar.


Methoden zur Schleifenmodellierung

Die Schleifenmodellierung ist nicht auf Segmente mit einer leeren DSSP-Sekundärstrukturzuweisung beschränkt. Es ist allgemeiner auf jedes Fragment anwendbar, das größere Segmente verbindet.

In Rosetta gibt es mehrere Schleifenmodellierungsmethoden, und weitere werden aktiv weiterentwickelt. Das Ziel aller Schleifenmodellierungsverfahren ist es, den Konformationsraum des Peptidsegments so abzutasten, dass die Endpunkte der Peptidtermini verbunden sind. Hier stellen wir Beispiele aus den folgenden Protokollen vor:

  • CCD (Zyklischer Koordinatenabstieg)
    Dies erzeugt Schleifen durch Fragmentinsertion aus einer vorgenerierten Fragmentbibliothek und bewertet vorteilhaft Konformationen, die die Schleife schließen.
  • KIC (Kinematischer Verschluss)
    Dies erzeugt Schleifen durch analytisches Berechnen möglicher Konformationen, die den Beschränkungen der verankerten Endpunkte unterliegen.
  • Umgestalten
    Dies ist kein Algorithmus an sich, sondern eine alternative, benutzerfreundliche ausführbare Datei zur Verwendung von CCD und KIC
  • Generalisierte KIC Dies verwendet den gleichen Algorithmus wie KIC, kann jedoch für beliebige Rückgrate, Schleifen durch Seitenketten und andere Biomoleküle verwendet werden. (Links zu detaillierten Beispielen werden bereitgestellt.)
  • Loop-Hash
    Dies sucht schnell nach Peptidkonformationen unter Verwendung einer vorgenerierten Hash-Karte. (Da sich dies derzeit in der Entwicklung befindet, werden wir dies nicht diskutieren.)

3 DIE MODFOLDCLUST-METHODE

Der Server bietet auch die Möglichkeit, mehrere Modelle mit der ModFOLDclust-Methode zu clustern. Das Verfahren führt paarweise Vergleiche von Modellen durch, um sowohl globale als auch lokale Vorhersagen der Modellgenauigkeit zu treffen. Der globale Clustering-Score basiert auf der 3D-Jury-Methode (Ginalski et al., 2003), wobei jedes Modell mit jedem anderen verglichen und der durchschnittliche strukturelle Ähnlichkeitswert berechnet wird. In dieser Anwendung wird jedoch der TM-Score für paarweise Vergleiche verwendet, mit einem Cut-off-Score von >0,2. Diese Emulation des 3D-Jury-Scores wurde zuvor mit dem Satz von CASP7-Servermodellen verglichen und hat gezeigt, dass sie jede Methode, die bei der Auswahl der qualitativ hochwertigsten Modelle getestet wurde, deutlich übertrifft (McGuffin, 2007). Im Gegensatz zum 3D-Jury-Server selbst, bei dem Benutzer ein einzelnes Modell durch den Vergleich mit wenigen verfügbaren Faltenerkennungsmodellen bewerten können (Kajan und Rychlewski, 2007), ermöglicht die ModFOLD-Serverimplementierung Benutzern jedoch, mehrere Modelle ihrer Wahl direkt von . hochzuladen jede Quelle.

Zusätzlich zum globalen Clustering-Score beinhaltet die ModFOLDclust-Methode die Bewertung der lokalen Modellqualität pro Rückstand. Die Qualität des lokalen Modells wird anhand eines durchschnittlichen Scores bewertet S-score (Levitt und Gerstein, 1998), das ursprünglich zur Modellbewertung in der 3D-SHOTGUN-Methode (Fischer, 2003) verwendet wurde und in jüngerer Zeit mit dem Pcons-Server verglichen wurde (Wallner und Elofsson, 2006). Die Idee bei dieser Implementierung besteht darin, jede paarweise Modellüberlagerung, die bei der Berechnung des globalen Scores durchgeführt wurde, wiederzuverwenden, um die lokale strukturelle Erhaltung jedes Rests zu bewerten. Hier das S-score wird verwendet, um Reste innerhalb von 3,9 Å gemäß paarweiser TM-Score-Überlagerungen zu bewerten, wobei die TM-Scores >0,2. Die S-Score ist definiert als: Sich = 1/(1 + (Dich/D0) 2 ), wobei Sich reicht von 0 bis 1, Dich ist der Abstand zwischen strukturell ausgerichteten Resten und D0 ist die Distanzschwelle (3.9). Ein Sich Punktzahl 0 ist gegeben, wenn Dich > 3,9 . Die S-Scores für jeden Rest werden dann summiert und der Mittelwert wird gebildet. Das Mittel S-score für jeden Rest wird dann in den vorhergesagten Abstand von der nativen Struktur umgewandelt, indem einfach die Gleichung neu geordnet wird: Dich = D0√((1/Sich)−1).


Wie baut man ein Modell für ein hetero-oligomeres Protein? mit Hämoglobin

In diesem Beispiel bauen wir ein Modell des Hämoglobins aus Physeter macrocephalus (Pottwal). Hämoglobin ist das sauerstofftragende Protein der roten Blutkörperchen. Es besteht aus vier Proteinketten (Globulinen), die miteinander verbunden sind, um ein Heterotetramer zu bilden. Das normale Hämoglobin eines Erwachsenen enthält zwei Alpha-Globulin- (UniprotKB AC: P09904) und zwei Beta-Globulin-Ketten (UniprotKB AC: P09905).

Gehen Sie auf die Hauptseite von SWISS-MODEL und klicken Sie auf "Modellierung starten", um ein neues Modellierungsprojekt zu starten. Geben Sie nun bitte Ihr Zielprotein an. Geben Sie zunächst die UniprotKB AC (P09904) der Alpha-Untereinheit in das Eingabeformular für die Zielsequenz ein.


Klicken Sie dann auf die Schaltfläche "Hetero-Target hinzufügen" und geben Sie die UniprotKB AC (P09905) für die Beta-Untereinheit ein.


Um nach verfügbaren Vorlagenstrukturen zu suchen, klicken Sie auf die Schaltfläche „Vorlagen suchen“.

Sobald die Suche gestartet wurde, können Sie den Status des Jobs überprüfen, und optional können Sie die Seite über den bereitgestellten Link mit einem Lesezeichen versehen und später die Ergebnisse anzeigen. Andernfalls müssen Sie warten, bis die Suche abgeschlossen ist.

Sobald die Template-Suche abgeschlossen ist, werden verfügbare Templates zusammen mit Informationen über ihren oligomeren Zustand aufgelistet.

Wie Sie sehen können, sind die meisten Template wie erwartet Heterotetramere (Hetero-2-2-mere, was darauf hinweist, dass beide Untereinheiten jeweils zweimal im Template vorhanden sind) und decken die vollständige Zielsequenz ab. Die Sequenzidentität liegt meist über 80%.


Wir wählen nun die Quartärstruktur-Ansicht, um die verschiedenen oligomeren Zustände der Template besser vergleichen zu können.


Hier werden die Template nach oligomerem Zustand, Stöchiometrie und QSQE-Score (Quaternary Structure Quality Estimate) geclustert und die Ergebnisse als Entscheidungsbaum dargestellt. Jedes Blatt des Baums ist eine Matrize, die mit der SMTL-ID und einem Balken markiert ist, der die Sequenzidentität und -abdeckung anzeigt (dunklere Blautöne beziehen sich auf eine höhere Sequenzidentität). Nach der Stöchiometrie werden zwei Cluster gebildet: Wir haben 2-2-mere und 1-1-mere.
Durch Anklicken des Namens können im 3D-Viewer verschiedene Vorlagenstrukturen visualisiert und durch Strukturüberlagerungen verglichen werden.

Das PPI-Fingerabdruckdiagramm zeigt die Sequenzidentität von Templates zur Zielsequenz auf der x-Achse. Auf der y-Achse wird der Unterschied in der Sequenzähnlichkeit zwischen der Proteinoberfläche und der Proteingrenzfläche angegeben, ausgedrückt als "Interface Conservation"-Score. Werte unter Null weisen auf eine höhere Mutationsrate von Oberflächenresten im Vergleich zu denen an der Grenzfläche hin, was die Grenzflächenerhaltung der Proteinfamilie bestätigt.
Es kann beobachtet werden, dass die tetramere Grenzfläche (Hetero-2-2-mere) am konservierteren ist.

Weitere Informationen zur PPI-Fingerabdruck- und Quartärstruktur-Vorhersage finden Sie im Artikel von Bertoni et al..

Wir können jetzt Templates mit dem richtigen oligomeren Zustand auswählen. Wählen Sie aus der Liste der Vorlagenstrukturen die für Ihre Anwendung am besten geeignete anhand der bereitgestellten Anmerkungen aus. Beispielsweise ist zu bedenken, dass einige der verfügbaren Templatstrukturen (z. B. 3cy5.1) die wichtige eisenhaltige Porphyrinverbindung, nämlich die Hämgruppe (HEM), enthalten.

Bei der Inspektion stellen wir fest, dass das gebaute Modell von hoher Qualität ist (hohe GMQE-, QMEAN- und lokale Qualitätsschätzungen). Um die lokalen Qualitätsschätzungen im Modell anzuzeigen, ändern Sie das Farbschema in QMEAN (klicken Sie auf das Zahnradsymbol neben der Ausrichtung links).


So berechnen Sie die durchschnittliche Struktur eines Proteins mit mehreren Modellen/Konformationen

Ich habe eine PDB-Datei '1abz' (https://files.rcsb.org/view/1ABZ.pdb), die die Koordinaten einer Proteinstruktur mit 23 verschiedenen Modellen enthält (nummeriert MODEL 1-23). Bitte ignorieren Sie die Anmerkungen in der Kopfzeile, die interessanten Informationen beginnen bei Zeile 276, die 'MODEL 1' sagt.

Ich möchte die durchschnittliche Struktur eines Proteins berechnen. Die PDB-Datei des Proteins enthält mehrere Konformationen/Modelle und ich möchte die durchschnittlichen Koordinaten für die einzelnen Atome pro Rest berechnen, sodass ich am Ende eine Konformation/ein Modell habe.

Ich konnte mit Biopython nicht herausfinden, wie das geht, also habe ich versucht, die durchschnittlichen Koordinaten mit Pandas zu berechnen. Ich glaube, ich habe es geschafft, den Durchschnitt zu berechnen, aber das Problem ist jetzt, dass ich eine CSV-Datei habe, die nicht mehr im PDB-Format vorliegt, sodass ich diese Datei nicht in PyMol laden kann.

Meine Fragen sind, wie kann ich meine CSV-Datei in das PDB-Format konvertieren. Noch besser, wie kann ich die durchschnittlichen Koordinaten in Biopython oder in Python erhalten, ohne das ursprüngliche pdb-Dateiformat zu beeinträchtigen?

Hier ist der Code, den ich verwendet habe, um die durchschnittlichen Koordinaten in Pandas zu berechnen.


Proteine ​​mit Zwischenfilamenten

Jens Bohnekamp, ​​. Lori L. Wallrath , in Methoden der Enzymologie , 2016

Abstrakt

Drosophila melanogaster ist ein nützlicher Organismus zur Bestimmung der Proteinfunktion und zur Modellierung menschlicher Krankheiten. Drosophila bietet eine schnelle Generationszeit und eine Fülle von genomischen Ressourcen und genetischen Werkzeugen. Die Konservierung der Proteinstruktur, der Signalwege und der Entwicklungsprozesse machen Studien in Drosophila für andere Arten, einschließlich des Menschen, relevant sind. Drosophila Es wurden Modelle für neurodegenerative Erkrankungen, Muskeldystrophie, Krebs und viele andere Erkrankungen entwickelt. Kürzlich wurden Intermediärfilamentproteinkrankheiten modelliert in Drosophila. Diese Modelle haben neue Pathologiemechanismen aufgedeckt, potenzielle neue Therapiewege beleuchtet und machen Screenings von Gesamtorganismen möglich. Das Ziel dieses Kapitels ist es, Schritte zur Untersuchung der intermediären Filamentfunktion zu skizzieren und intermediär filamentassoziierte Erkrankungen zu modellieren Drosophila. Die Schritte sind allgemein und können angewendet werden, um die Funktion von fast jedem Protein zu untersuchen. Die hier beschriebenen Protokolle sind sowohl für Anfänger als auch für Erfahrene geeignet Drosophila Forscher, der die reichhaltige Entwicklungs- und Zellbiologie ermöglicht, die Drosophila Angebote, die auf Studien von Zwischenfilamenten angewendet werden sollen.


Abschluss

Biopython erleichtert nicht nur die Arbeit mit DNA-Sequenzen, sondern kann auch für die Proteomik zur Visualisierung und Analyse von Proteinen genutzt werden. Es bietet leistungsstarke und flexible Methoden für die routinemäßige Proteinanalyse, die verwendet werden können, um kundenspezifische Pipelines basierend auf Ihren spezifischen Anforderungen zu entwickeln. Ich weiß, dass ich weiterhin beeindruckt sein werde, wenn ich tiefer in das Angebot von Biopython eintauche. Sie können also in Zukunft weitere Artikel zu seinen Fähigkeiten erwarten.

Wie immer finden Sie den gesamten Code und die in diesem Artikel beschriebenen Abhängigkeiten in diesem Repository, das ich bei der Erkundung von Biopython weiterhin aktualisieren werde. Ich hoffe, dieser Leitfaden zeigt Ihnen, wie einfach es sein kann, mit Biopython eigene Bioinformatik-Projekte zu starten, und bin gespannt, was Sie daraus machen können!


EINLEITUNG

Dreidimensionale Strukturen von Proteinen liefern wertvolle Einblicke in ihre Funktion auf molekularer Ebene und informieren über ein breites Anwendungsspektrum in der Life-Science-Forschung. Proteinkomplexe sind oft von zentraler Bedeutung für viele zelluläre Prozesse. Eine detaillierte Beschreibung ihrer Wechselwirkungen und der gesamten Quartärstruktur ist essentiell für ein umfassendes Verständnis biologischer Systeme, wie Proteinkomplexe und Netzwerke funktionieren und wie wir sie modulieren können ( 1, 2). Angesichts ihrer biologischen Relevanz überrascht es nicht, dass die Zahl der großen Komplexe, die pro Jahr in der Proteindatenbank (PDB) hinterlegt werden, rasant wächst (3). Ein wesentlicher Beitrag zu diesem Trend stammt aus dem kontinuierlichen Fortschritt der Strukturbestimmungstechnologien, einschließlich der jüngsten Entwicklungen von Methoden auf der Grundlage der Elektronenmikroskopie (EM), die sich besonders für große makromolekulare Anordnungen eignen ( 4). Im Vergleich zu Hochdurchsatzmethoden zum Screening von Protein-Protein-Interaktionen (d. h. Hefe-Zwei-Hybrid, Affinitätsreinigung, Phagen-Display usw.) ist die Geschwindigkeit, mit der neue komplexe Strukturen experimentell bestimmt werden, jedoch erheblich geringer. Dieses ungleichmäßige Wachstum erfordert Computermethoden, um die Lücke zu schließen.

Zur computergestützten Vorhersage von Protein-Protein-Interaktionen wurden mehrere Ansätze entwickelt (5). Koevolutionsmethoden, die auf korrelierten Aminosäuremutationen in Deep Multiple Sequence Alignments (MSA) basieren, werden effizient verwendet, um interagierende Proteine ​​allein basierend auf Sequenzinformationen zu identifizieren ( 6, 7). Liegen die 3D-Strukturen der Bindungspartner vor oder lassen sie sich zuverlässig modellieren, kann mit Docking-Methoden ein dreidimensionales Modell des Komplexes auf Basis der geometrischen und physikalisch-chemischen Komplementarität der wechselwirkenden Moleküle gewonnen werden ( 8–11). Der effiziente Umgang mit Proteinflexibilität ist immer noch eine der größten Herausforderungen bei der Entwicklung einer effektiven Docking-Simulationssoftware, daher sind diese Methoden im Allgemeinen genauer, wenn für die Bindung nur geringe oder keine Konformationsänderungen erforderlich sind. Laut dem gemeinschaftsweiten Experiment CAPRI (Critical Assessment of PRedicted Interactions (12)) wurden auf diesem Gebiet erhebliche Fortschritte bei der Entwicklung hybrider Modellierungsstrategien erzielt, die in der Lage sind, vorhandene experimentelle Informationen über die Interaktion (d. h. Crosslinks, NMR, SAXS etc.) als Randbedingungen bei der Simulation des Andockvorgangs ( 13–15). Ergebnisse aus neuesten Bewertungen zeigen, dass eine signifikant verbesserte Qualität von Modellen erreicht wird, wenn mehrkettenbasierte Vorlageninformationen verfügbar sind und für die Modellierung verwendet werden (16).

Da immer mehr experimentell bestimmte Strukturen von Proteinkomplexen verfügbar werden, wurde beobachtet, dass interagierende Grenzflächen häufig unter homologen Komplexen konserviert sind (17) und dass für die meisten der bekannten Protein-Protein-Wechselwirkungen Vorlagen verfügbar sind (18). Diese Beobachtungen lieferten die Begründung für die vergleichende oder Homologiemodellierung von Proteinkomplexen. Ähnlich wie bei der vergleichenden Modellierung von monomeren Proteinen wird die Information der Quartärstruktur eines Proteins durch Homologie auf ein anderes übertragen und ein Modell des Komplexes basierend auf den Strukturen der interagierenden Homologen, dh Interologen, als Template erhalten (19–21) . Der Ansatz kann auf ganze Genome skaliert und sowohl auf binäre als auch auf Proteinanordnungen höherer Ordnung angewendet werden (17, 18, 22, 23). Wie durch die Einführung der ersten Untersuchung von Proteinaggregaten im jüngsten CASP XII-Experiment (24) hervorgehoben wurde, wird der vergleichenden Modellierung von Proteinkomplexen viel Aufmerksamkeit geschenkt und es wird erwartet, dass sie eine wichtige Rolle bei der Aufklärung des quartären Strukturraums von Proteinen spielt.

SWISS-MODEL https://swissmodel.expasy.org war der erste vollautomatisierte Server für die Proteinhomologiemodellierung und wurde in den letzten 25 Jahren ( 25–30) kontinuierlich verbessert. Seine Modellierungsfunktionalität wurde kürzlich um die Modellierung homo- und heteromerer Komplexe erweitert, wobei die Aminosäuresequenzen der interagierenden Partner als Ausgangspunkt dienen. Zu den weiteren kürzlich eingeführten Funktionen gehören die Entwicklung einer neuen Modellierungs-Engine, ProMod3, mit erhöhter Genauigkeit der erzeugten Modelle und einer verbesserten lokalen Modellqualitätsschätzungsmethode (QMEANDisCo) basierend auf einer neuartigen Version von QMEAN ( 31).

SWISS-MODEL generiert derzeit 3000 Modelle pro Tag (∼2 Modelle pro Minute), gegenüber ∼1500 Modellen pro Tag im Jahr 2014 ( 30) und ist damit einer der meistgenutzten Strukturmodellierungsserver weltweit. Seine Leistung wird kontinuierlich evaluiert und mit anderen State-of-the-Art-Servern im Feld verglichen. Zu diesem Zweck beteiligen wir uns aktiv am CAMEO-Projekt (Continuous Automated Model Evaluation, https://cameo3d.org) ( 32), einer vollautomatisierten blinden Vorhersagebewertung basierend auf wöchentlicher Vorabfreigabe von Sequenzen aus der PDB ( 33) , wodurch wir die Leistung des Servers ständig überwachen und verbessern können.


Vorlagensuche

Der Schwierigkeitsgrad bei der Identifizierung einer geeigneten Matrize für eine Zielsequenz kann von „trivial“ für gut charakterisierte Proteinfamilien bis „unmöglich“ für Proteine ​​mit unbekannter Faltung reichen. Der SWISS-MODEL-Server bietet Zugriff auf eine Reihe immer ausgefeilterer Methoden zur Suche nach Vorlagen.

Die SWISS-MODEL Template Library wird parallel sowohl mit BLAST als auch mit HHblits durchsucht, um Templates zu identifizieren und Target&ndashtemplate Alignments zu erhalten. Die kombinierte Verwendung dieser beiden Ansätze garantiert gute Alignments bei hohen und niedrigen Sequenzidentitätsniveaus.

Mit der Option &ldquoTemplate Search&rdquo werden Vorlagen mit BLAST (Camachoet al.) und HHblits (Steineggeret al.). Für letztere erstellen wir ein Profil für die Zielsequenz wie in (Steineggeret al.) mit 1 Iteration von HHblits gegen Uniclust30 (Mirditaet al.) und verwenden Sie es, um alle Profile der SMTL zu durchsuchen. Die gefundenen Vorlagen werden zusammen mit relevanten Strukturinformationen aufgelistet, die leicht verwendet werden können, um die Vorlagen zu ordnen und die beste nach benutzerdefinierten Kriterien auszuwählen.

Ranking der Vorlagenergebnisse

Wenn die Vorlagensuche abgeschlossen ist, werden zuerst Vorlagen und Ausrichtungen gefiltert, um Redundanz zu entfernen. Ein Satz von maximal 50 Vorlagen mit dem höchsten Rang wird dann aus der vollständigen Liste von Vorlagen gemäß einer einfachen Bewertung ausgewählt, die Sequenzabdeckung und Sequenzähnlichkeit kombiniert. Die bestbewerteten Templates und Alignments werden weiter analysiert und nach der erwarteten Qualität der resultierenden Modelle sortiert, wie durch GMQE geschätzt und, wenn das Zielmodell als Oligomer vorhergesagt wird, QSQE. Im Detail entspricht das Standardranking der Vorlage der absteigenden lexikografischen Reihenfolge von (is_full_biounit, Behälter, gmqe + qs_Wert), wo: is_full_biounit wird nur für Heteromere verwendet und ist auf 1 gesetzt, wenn alle Ketten aus der Template-Bioeinheit für die Modellierung eingeschlossen sind, oder 0 andernfalls Behälter wird berechnet als ceil((gmqe - max_gmqe) / 0.1), wobei max_gmqe ist das Beste gmqe in den Vorlagen beachtet gmqe ist der GMQE der Vorlage qs_Wert wird auf QSQE des Templates gesetzt, wenn vorhergesagt wird, dass das Zielmodell ein Oligomer ist, oder sonst 0.

Anzeige der Ergebnisse der Vorlagenidentifikation

Die Vorlagenergebnisse Seite dient sowohl als Übersicht über verfügbare Vorlagen als auch als interaktives Werkzeug zur Vorlagenauswahl. Der obere Teil des Bildschirms enthält eine Zusammenfassung der Vorlagen mit dem höchsten Rang, die von den Vorlagensuchmethoden identifiziert wurden. Die identifizierten Vorlagen und das standardmäßige Vorlagenranking entsprechen denen, die im automatisierten Modus verwendet werden. Bitte beachten Sie, dass im automatisierten Modus neben dem erstklassigsten Template weitere Templates für die Modellierung gewählt werden können, wenn sie alternative Konformationszustände repräsentieren oder andere Regionen des Zielproteins abdecken.

Es können vier Arten von Ansichten verfügbar sein (basierend auf der Dateneingabe): (i) a Vorlagen Übersichtstabelle, die alle Vorlagen in Tabellenform auflistet und einen Überblick über die relevanten Attribute jeder Vorlage bietet, (ii) die Quartäre Struktur, (iii) ein interaktives Diagramm, das die Vorlagen im Verhältnis zueinander zeigt in Sequenzähnlichkeit Raum, und (iv) die Folge Ausrichtung ausgewählter Vorlagen.

In jeder dieser Ansichten können Vorlagen für den nachfolgenden Modellierungsschritt ausgewählt werden. Ausgewählte Vorlagen werden automatisch im 3D-Viewer angezeigt. Wenn mehrere Vorlagen ausgewählt sind, wird ihre strukturelle Überlagerung angezeigt, sodass die strukturellen Unterschiede zwischen ihnen sofort sichtbar sind.

Die vollständige Liste aller identifizierten Vorlagen finden Sie unten auf der Seite Vorlagenergebnisse.

In den Vorlagen können eine Übersichtstabelle, Vorlagenanmerkungen und Ziel- und Vorlagenausrichtungen abgerufen werden, indem Sie auf die Pfeile am linken Ende der Tabellenzeilen klicken, um das Feld mit der Beschreibung der einzelnen Vorlagen zu erweitern.


Für jedes Template werden die folgenden Informationen bereitgestellt: die SMTL-ID, der Titel der Struktur, die Zielsequenzabdeckung, GMQE, QSQE, die Sequenzidentität zum Ziel, die experimentelle Methode, die verwendet wurde, um die Struktur zu erhalten (und die Auflösung, falls anwendbar), den oligomeren Zustand, die Liganden (falls vorhanden), die Sequenzähnlichkeit mit dem Ziel und das verwendete Matrizensuchverfahren.

Für jede Matrize wird der oligomere Zustand des Modells vorhergesagt. Wenn der vorhergesagte oligomere Zustand des Modells von dem der Template-Bioeinheit abweicht oder nicht alle Ketten der Bioeinheit enthalten sind, wird ein Warnsymbol angezeigt (Ausrufezeichen in einem Dreieck). Wann immer möglich, kann der Benutzer den oligomeren Zustand manuell auswählen, indem er die Vorlagenansicht unter dem Punkt "Target Prediction" erweitert.

Mehrere Methoden werden derzeit verwendet, um die Struktur eines Proteins zu bestimmen. Bei der Homologiemodellierung ist es im Allgemeinen bevorzugt, durch Röntgenkristallographie mit hoher Auflösung bestimmte Strukturen als Template zu verwenden. Wir raten generell von der Verwendung von gemittelten NMR-Strukturen ab. Im Einzelfall kann die Berücksichtigung des NMR-spektroskopisch ermittelten Strukturensembles hilfreiche Erkenntnisse liefern. Besondere Vorsicht ist bei der Verwendung elektronenmikroskopisch ermittelter Strukturen geboten, da sie von niedrigauflösender "Blobologie" bis hin zu Strukturen mit atomarer Auflösung reichen.

Ziel-&undash-Vorlage Sequenzähnlichkeit wird aus einer normalisierten BLOSUM62 (Henikoffet al.) Substitutionsmatrix (d. h. der größte und der kleinste Wert in BLOSUM62 sind 1 bzw. 0). Die Sequenzähnlichkeit des Alignments wird als Summe der Substitutionsbewertungen dividiert durch die Anzahl der ausgerichteten Restpaare berechnet. Lücken werden nicht berücksichtigt.

Die Quartäre Struktur view liefert Informationen zur Quartärstrukturanalyse. Templates werden geclustert und in einem Entscheidungsbaum entsprechend ihrem oligomeren Zustand, Stöchiometrie, Topologie und Schnittstellenähnlichkeit angezeigt. Auf der Ebene des oligomeren Zustands werden die Template entweder in monomere, homomere oder heteromere Cluster gruppiert. Die Stöchiometrie berücksichtigt nur die Anzahl der Ketten in der Struktur, während auf der Topologieebene die Template nach den Wechselwirkungen zwischen den Untereinheiten gruppiert werden. Die Grenzflächenähnlichkeit quantifiziert die Ähnlichkeit zwischen Grenzflächen als Funktion gemeinsamer Grenzflächenkontakte zwischen den Ketten und ermöglicht so die Unterscheidung zwischen verschiedenen quartären Strukturen und Bindungsmodi. Jedes Blatt des Baums entspricht einer mit dem PDB-Code gekennzeichneten Schablone und einem Balken, der die Sequenzidentität mit dem Ziel und der Abdeckung anzeigt.

Protein&ndashprotein Interaktion (PPI) Fingerabdruckkurven informieren über die Erhaltung von Schablonenschnittstellen. Reste, die an Grenzflächen beteiligt sind, unterliegen anderen evolutionären Beschränkungen als Reste an der Proteinoberfläche, z. Wechselwirkung mit dem Lösungsmittel. Ein Wert der Grenzflächenkonservierung (y-Achse) unter 0 zeigt an, dass Grenzflächenreste im Vergleich zu Oberflächenresten weniger anfällig für Mutationen sind. Eine Schätzung der Konservierung wird typischerweise von einem multiplen Sequenz-Alignment (MSA) von homologen Proteinen abgeleitet. Das Alignment wird unter Verwendung verschiedener Sequenzidentitäts-Cut-offs (x-Achse) geschnitten, um das MSA des Zielproteins zu filtern (z. . Auf diese Weise kann beobachtet werden, wie sich die verschiedenen Template-Interfaces an die Zielproteinfamilie „adaptieren“. Betrachtet man den vollständigen Satz von Homologen, kann die alternative Quartärstruktur eine ähnliche Grenzflächenerhaltung aufweisen, was die Auswahl des Templats erschwert. Bei näheren Homologen divergieren die PPI-Fingerabdrücke der verschiedenen Templates, was eine einfachere Auswahl ermöglicht, da besser angepasste Schnittstellen niedrigere Werte der Schnittstellenerhaltung erreichen.

In dem Sequenzähnlichkeit Diagramm jede Vorlage wird als Kreis angezeigt. Die Abstände zwischen den Schablonen im Diagramm sind proportional zur Sequenzidentität zwischen ihnen. Somit gruppieren sich ähnliche Sequenzen.

In dem Ausrichtung ausgewählter Vorlagen view werden die Ausrichtungen der ausgewählten Templates zum Ziel visualisiert.

Auf DeepView-Projektdateien kann über das Dropdown-Menü zugegriffen werden.Mehr' Taste. Dies ermöglicht es dem Benutzer, verschiedene Ausrichtungen im strukturellen Kontext der Vorlage zu visualisieren, um falsch platzierte Einfügungen und Löschungen zu korrigieren und falsch ausgerichtete Bereiche manuell anzupassen. Das geänderte Projekt kann dann auf Diskette gespeichert und als "Projektmodus" an den Arbeitsbereich für den Modellbau der SWISS-MODEL-Pipeline gesendet werden.

Farbschemata

Bewertungsschemata

SOA (Lösungsmittelzugänglichkeit) Niedrige SOA -> Hohe SOA
b-Faktor <10< <15< <20< <25< <30< <35< <40Niedrige Störung -> Hohe Störung
b-Faktor-Bereich Niedrige Störung -> Hohe Störung
Entropie Niedrige Entropie -> Hohe Entropie
Hohe Konservierung -> Niedrige Konservierung

Modellschemata

QMEAN Niedrige Qualität -> Hohe Qualität
Indels MODELL XX XXXX XXXX X --- X XX
VORLAGE XXXXXXXXXXXX----XX
Hebt Einfügungen/Löschungen im Modell hervor

Alignment-Index-Schemata

Rückstandsschemata

Hydrophob R K DENQ H P Y W S T G A M C F L V I Am wenigsten hydrophob -> Am meisten hydrophob
Größe G A S P V T C LI N D KQ E M H F R Y W Kleinste -> Größte
Berechnet ED (Negativ) HKR (Positiv)
Polar RKDENQ
Prolin P
Ser/Thr NS
Cystein C
Aliphatisch ILV
Aromatisch FYWH

Clusterschema

Regeln werden auf diese Weise angegeben: (A,C,D): <50%, p,q,rstv> <85%, w,y>Der Spaltenrest wird zuerst in den runden Klammern angegeben mehr als einer darf angegeben werden, in diesem Fall gelten die Regeln für jeden dieser Reste. Als nächstes werden die Regel oder Regeln in geschweiften Klammern angegeben, es muss nur eine Regel erfüllt sein, damit die Farbe angewendet wird. Der Mindestprozentsatz wird zuerst angegeben, gefolgt von dem Rückstand oder den Rückständen, die diesen Prozentsatz innerhalb der Spalte erfüllen oder überschreiten müssen. Wenn eine Gruppe von Rückständen miteinander verkettet ist, wie z. B. „rstv“, muss jede Kombination dieser Rückstände insgesamt den angegebenen Prozentsatz für die anzuwendende Farbe erfüllen oder überschreiten. Bei durch Kommas getrennten Resten oder Restgruppen muss mindestens einer davon allein den Prozentsatz überschreiten.


Lernprogramm

Alle Eingabe- und Ausgabedateien für dieses Beispiel stehen zum Download bereit, entweder im ZIP-Format (für Windows) oder im .tar.gz-Format (für Unix/Linux).

Für dieses Beispiel werden wir nicht alle MODELLER-Befehle Schritt für Schritt beschreiben. Weitere Details entnehmen Sie bitte dem Basisbeispiel im Tutorial.

Ein wichtiges Ziel der Modellierung ist es, zum Verständnis der Funktion des modellierten Proteins beizutragen. Die Untersuchung der 1bdm:A-Templatstruktur (im Tutorial zur grundlegenden Modellierung erstellt) zeigte, dass Schleife 93-100, einer der funktionell wichtigsten Teile des Enzyms, ungeordnet ist und nicht in der PDB-Struktur vorkommt. Höchstwahrscheinlich ist die lange Schleife des aktiven Zentrums in Abwesenheit eines Liganden flexibel und konnte in der Beugungskarte nicht gesehen werden. Die Unzuverlässigkeit der Schablonenkoordinaten und die Unfähigkeit von MODELLER, lange Insertionen zu modellieren, ist der Grund, warum diese Schleife in TvLDH schlecht modelliert wurde, wie das DOPE-Profil zeigt.

DOPE-Score-Profil für das Modell TvLDH.B99990001

Da wir daran interessiert sind, Unterschiede in der Spezifität zwischen zwei ähnlichen Proteinen zu verstehen, müssen wir präzise und genaue Modelle bauen. Daher müssen wir neue Strategien finden, um die Genauigkeit der Modelle zu erhöhen. In diesem Beispiel werden wir drei verschiedene Ansätze untersuchen:

  • Verwendung mehrerer Vorlagen.
  • Modellieren der Schleife mit ab-initio Methoden.
  • Modellierung unter Verwendung eines bekannten Liganden, der an die Bindungsstelle gebunden ist.

Mehrere Vorlagen

Die Struktur der Malat-Dehydrogenase 1bdm wurde in der Datenbank DBAli innerhalb der Familie fm00495 von 4 Mitgliedern geclustert (2mdh:A, 2mdh:B. 1b8p:A und 1bdm:A). Die vom Befehl erzeugte Mehrfachausrichtung salign() in MODELLER wird in DBAli verwendet, um eine mehrfache Strukturausrichtung der Familie zu erzeugen. Das Alignment kann von der DBAli-Datenbank heruntergeladen werden oder Sie können die Datei ` salign.py ' verwenden, um es auf Ihrem Computer zu berechnen.

Der liest alle Sequenzen aus PDB-Dateien ein (mithilfe der append_model Befehl) und verwendet dann ausrichten mehrmals, um eine erste grobe Ausrichtung zu erstellen und diese dann durch Verwendung weiterer Informationen zu verbessern. Das Alignment wird dann sowohl im PIR- als auch im PAP-Format ausgeschrieben, und ein Qualitätsfaktor wird durch Aufrufen berechnet ausrichten ein Mal noch.

Nach der Untersuchung des multiplen Struktur-Alignments ist offensichtlich, dass Kette B von 2mdh eine ungewöhnliche Anzahl von LYS-Resten enthält. Der HEADER der PDB-Datei weist darauf hin, dass die Sequenz des Proteins zum Zeitpunkt der Verfeinerung unbekannt war und es schwierig war, die meisten Reste in der Struktur zu identifizieren. Daher wurde der Eintrag 2mdh:B aus der Mehrfachstruktur-Ausrichtung entfernt.

Was das grundlegende Beispiel im Tutorial betrifft, müssen wir als Nächstes unsere Abfragesequenz an den Vorlagenstrukturen ausrichten. Für diese Aufgabe verwenden wir wieder die salign() Befehl (Datei ` align2d_mult.py '). Wir stellen die align_block Parameter gleich der Anzahl der Strukturen in der Vorlagenausrichtung, len(aln), (d. h. 3), und fordern eine paarweise Ausrichtung an, da wir die bestehende Ausrichtung zwischen den Vorlagen nicht ändern möchten. Indem man es einstellt Lücke_Funktion Wir fordern die Verwendung einer strukturabhängigen Lückenstrafe unter Verwendung von Strukturinformationen für diese 3 Sequenzen. Für die endgültige TvLDH-Sequenz werden nur Sequenzinformationen verwendet.

Als Nächstes erstellen wir das neue Modell für die TvLDH-Zielsequenz basierend auf dem Alignment mit den mehreren Vorlagen unter Verwendung der Datei „model_mult.py“:

Schließlich nutzen wir das DOPE-Potenzial, um die neuen Modellkoordinaten mit der Datei `valuta_model.py' auszuwerten:

Die Bewertung des Modells zeigt, dass sich die problematische Schleife (Reste 90 bis 100) durch die Verwendung mehrerer struktureller Vorlagen verbessert hat. Der globale DOPE-Score für die Modelle verbesserte sich ebenfalls von -38999,7 auf -39164,4. MODELLER war in der Lage, die Variabilität im Loop-Bereich der drei Template zu nutzen, um eine genauere Konformation des Loops zu erzeugen. However, the conformation of a loop in the region around the residue 275 at the C-terminal end of the sequence has higher DOPE score than for the model based on a single template.

DOPE score profile for model TvLDH.B99990001.pdb

We will use the LoopModel class in MODELLER to refine the conformation of the loop between residues 273 and 283 (in the A chain). We will use the model number 1 created in the previous example as a starting structure to refine the loop. You can find this structure renamed as ` TvLDH-mult.pdb ' in the loop_modeling subdirectory.

Loop refining

In this example, the LoopModel class is used to refine a region of an existing coordinate file. Note that this example also redefines the LoopModel.select_loop_atoms routine. This is necessary in this case, as the default selection selects all gaps in the alignment for refinement, and in this case no alignment is available. You can still redefine the routine, even if you do have an alignment, if you want to select a different region for optimization. Note that for the sake of time, we will be building only 10 different independently optimized loop conformations by setting the loop.ending_model parameter to 10. The next image shows the superimposition of the 10 conformations of the loop modeling. In blue, green and red we have marked the initial, best and worst loop conformations as scored by DOPE, respectively.

Superimposition of all 10 calculated loop conformations rendered by Chimera.

The file ` model_energies.py ' computes the DOPE score for all built models by using a Python zum loop. The best energy loop corresponds to the 8th model (file: ` model_energies.py ') with a global DOPE score of -39099.1. Its energy profile calculated by ` evaluate_model.py ' is shown next.

DOPE score profile for model TvLDH.BL00080001.pdb

There is only a very small increase of global DOPE score by ab-initio refinement of the loop. However, there is a small decrease in the DOPE score in the region of the loop. Therefore, we will continue the next step using the best refined structure (file: ` TvLDH.BL00080001.pdb '), which is renamed in the ligand directory as ` TvLDH-loop.pdb '. It is important to note that a most accurate approach to loop refinement requires the modeling of hundreds of independent conformations and their clustering to select the most representative structures of the loop.

Modeling ligands in the binding site

1emd , a malate dehydrogenase from E coli, was identified in PDB. While the 1emd sequence shares only 32% sequence identity with TvLDH, the active site loop and its environment are more conserved. The loop for residues 90 to 100 in the 1emd structure is well resolved. Moreover, 1emd was solved in the presence of a citrate substrate analog and the NADH cofactor. The new alignment in the PAP format is shown below (file ` TvLDH-1emd_bs.pap ').

The modified alignment refers to an edited 1emd structure ( 1emd_bs ), as a second template. The alignment corresponds to a model that is based on 1emd_bs in its active site loop and on TvLDH_model , which corresponds to the best model from the previous step, in the rest of the fold. Four residues on both sides of the active site loop are aligned with both templates to ensure that the loop has a good orientation relative to the rest of the model.

The modeling script below has several changes with respect to ` model-single.py '. First, the name of the alignment file assigned to alnfile is updated. Next, the variable knowns is redefined to include both templates. Another change is an addition of the `env.io.hetatm = True' command to allow reading of the non-standard pyruvate and NADH residues from the input PDB files. The script is shown next (file ` model-multiple-hetero.py ').

A ligand can be included in a model in two ways by MODELLER . The first case corresponds to the ligand that is not present in the template structure, but is defined in the MODELLER residue topology library. Such ligands include water molecules, metal ions, nucleotides, heme groups, and many other ligands (see question 8 in the the MODELLER FAQ). This situation is not explored further here. The second case corresponds to the ligand that is already present in the template structure. We can assume either that the ligand interacts similarly with the target and the template, in which case we can rely on MODELLER to extract and satisfy distance restraints automatically, or that the relative orientation is not necessarily conserved, in which case the user needs to supply restraints on the relative orientation of the ligand and the target (the conformation of the ligand is assumed to be rigid). The two cases are illustrated by the NADH cofactor and pyruvate modeling, respectively. Both NADH and cofactor are indicated by the `.' characters at the end of each sequence in the alignment file above (the `/' character indicates a chain break). In general, the `.' character in MODELLER indicates an arbitrary generic residue called a ``block'' residue (for details see the section on block residues in the MODELLER manual). Note that the `.' characters are present beide in einer of the template structures and in the model sequence. The former tells MODELLER to read the ligands from the template, and the latter tells it to include the ligands in the model. The 1emd structure file contains a citrate substrate analog. To obtain a model with pyruvate, the physiological substrate of TvLDH, we convert the citrate analog in 1emd into pyruvate by deleting the group CH(COOH) 2 , thus obtaining the 1emd_bs template file. A major advantage of using the `.' characters is that it is not necessary to define the residue topology.

To obtain the restraints on pyruvate, we first superpose the structures of several LDH and MDH enzymes solved with ligands. Such a comparison allows us to identify absolutely conserved electrostatic interactions involving catalytic residues Arg161 and His186 on one hand, and the oxo groups of the lactate and malate ligands on the other hand. The modeling script can now be expanded by creating a new class 'MyModel', which is derived from AutoModel but which differs in one important respect: the special_restraints routine is redefined to add, to the default restraints, some user defined distance restraints between the conserved atoms of the active site residues and their substrate. In this case, a harmonic upper bound restraint of 3.5±0.1Å is imposed on the distances between the three specified pairs of atoms. A trick is used to prevent MODELLER from automatically calculating distance restraints on the pyruvate-TvLDH complex the ligand in the 1emd_bs template is moved beyond the upper bound on the ligand-protein distance restraints (i.e., 10).

The final selected model (shown in the ribbons image below) has a DOPE global score of -37640.9. The DOPE score is increased due to the new interactions of the protein with the ligand that are not accounted when calculating the DOPE score.

Final model with NAD and LAC ligands in the binding site rendered by Chimera.

MODELLER (copyright © 1989-2021 Andrej Sali) is maintained by Ben Webb at the Departments of Biopharmaceutical Sciences and Pharmaceutical Chemistry, and California Institute for Quantitative Biomedical Research, Mission Bay Byers Hall, University of California San Francisco, San Francisco, CA 94143, USA. Any selling or distribution of the program or its parts, original or modified, is prohibited without a written permission from Andrej Sali. This file last modified: Wed Feb 10 12:01:19 PST 2021.


Schau das Video: How to get a protein PDB file from protein data bank? (Januar 2022).