Information

5.2: Genomassembly I – Overlap-Layout-Consensus-Ansatz – Biologie


Viele Bereiche der Forschung in der Computerbiologie sind auf die Verfügbarkeit vollständiger Sequenzdaten des gesamten Genoms angewiesen. Zuerst werden wir Aspekte des experimentellen Aufbaus für den Overlap-Layout-Consensus-Ansatz untersuchen, und dann werden wir lernen, wie man Reads kombiniert und Informationen daraus lernt

Versuchsaufbau

Die erste Herausforderung, die beim Aufbau dieses Experiments angegangen werden muss, besteht darin, dass wir mit vielen Kopien jedes Chromosoms beginnen müssen, um diesen Ansatz zu verwenden. Diese Zahl liegt in der Größenordnung von 105. Es ist wichtig zu beachten, dass die Art und Weise, wie wir diese Kopien erhalten, sehr wichtig ist und sich später auf unsere Ergebnisse auswirken wird, da viele der von uns durchgeführten Vergleiche von konsistenten Daten abhängen. Der erste Weg, an den wir denken, um so viele Daten zu erhalten, besteht darin, ein bestimmtes Genom zu amplifizieren. Die Amplifikation richtet jedoch Schaden an, der unsere Algorithmen in späteren Schritten durcheinander bringt und zu schlechteren Ergebnissen führt. Eine andere mögliche Methode wäre die Inzucht des Genoms, um viele Kopien jedes Chromosoms zu erhalten. Wenn Sie Polymorphismus loswerden möchten, kann dies eine gute Technik sein, aber wir verlieren auch wertvolle Daten von den polymorphen Standorten, wenn wir Inzucht betreiben. Eine empfohlene Methode zum Erhalten dieser Daten besteht darin, ein Individuum zu verwenden, obwohl der Organismus ziemlich groß sein müsste. Wir könnten auch Techniken wie Nachkommen von einem oder Nachkommen von zwei verwenden, um so wenige Versionen jedes Chromosoms wie möglich zu erhalten. Dadurch wird eine hohe Sequenzierungstiefe auf jedem Chromosom erreicht, weshalb wir möchten, dass alle Chromosomen so ähnlich wie möglich sind.

Schauen wir uns als Nächstes an, wie wir bei der aktuellen Technologie über unsere Leselängen entscheiden könnten. Anhand von (Abbildung 5.2) können wir erkennen, dass eine Kosten-Nutzen-Analyse durchgeführt werden muss, um zu entscheiden, welche Plattform für ein bestimmtes Projekt verwendet werden soll. Mit der aktuellen Technologie verwenden wir üblicherweise HiSeq2500 mit einer Leselänge von etwa 250, obwohl sich dies schnell ändert.

Schauen wir uns abschließend einige Sequenzen an, die bei der Verwendung von Plattformen mit kurzen Lesevorgängen Probleme bereiten. Sequenzen mit hohem GC-Gehalt (z. B. GGCGGCGATC), niedrigem GC-Gehalt (z. B. AAATAATCAA) oder geringer Komplexität (z. B. ATATATATA) können bei kurzen Lesevorgängen zu Problemen führen. Dies ist immer noch ein aktives Forschungsgebiet, aber einige mögliche Erklärungen umfassen Polymerase-Slippage und DNA-Denaturierung zu leicht oder nicht leicht genug.

In diesem Abschnitt wird eine der erfolgreichsten frühen Methoden zum rechnerischen Zusammenbau eines Genoms aus einer Reihe von DNA-Reads untersucht, die als Shotgun-Sequenzierung bezeichnet wird (Abbildung 5.3). Bei der Shotgun-Sequenzierung werden mehrere Kopien desselben Genoms zufällig in viele kleine Fragmente zerlegt, als ob die DNA mit einer Shotgun geschossen würde. Typischerweise wird die DNA tatsächlich fragmentiert, indem entweder Ultraschall (kurze Ausbrüche von einem Ultraschall) oder ein gezieltes Enzym verwendet wird, das das Genom an bestimmten Sequenzmotiven spaltet. Beide Methoden können abgestimmt werden, um Fragmente unterschiedlicher Größe zu erstellen.

Nachdem die DNA amplifiziert und fragmentiert wurde, wird die 1977 von Frederick Sanger entwickelte Technik namens Kettenabbruchsequenzierung (auch Sanger-Sequenzierung genannt) verwendet, um die Fragmente zu sequenzieren. Kurz gesagt werden Fragmente durch DNA-Polymerase verlängert, bis ein Didesoxynukleotriphosphat eingebaut ist; diese speziellen Nukleotide bewirken die Beendigung der Verlängerung eines Fragments. Die Länge des Fragments wird daher ein Proxy dafür, wo ein gegebenes ddNTP in der Sequenz hinzugefügt wurde. Man kann vier separate Reaktionen mit jeweils unterschiedlichem ddNTP (A, G, C, T) durchführen und die Ergebnisse dann auf einem Gel auswerten, um die relative Anordnung der Basen zu bestimmen. Das Ergebnis sind viele Basensequenzen mit entsprechenden Qualitätswerten pro Base, die die Wahrscheinlichkeit angeben, dass jede Base korrekt aufgerufen wurde. Die kürzeren Fragmente können vollständig sequenziert werden, die längeren Fragmente können jedoch nur an jedem ihrer Enden sequenziert werden, da die Qualität deutlich abnimmt

nach etwa 500-900 Basenpaaren. Diese Paired-End-Lesevorgänge werden als Mate-Paare bezeichnet. Im Rest dieses Abschnitts besprechen wir, wie die Reads verwendet werden können, um viel längere Sequenzen bis zur Größe ganzer Chromosomen zu konstruieren.

Überlappende Lesevorgänge finden

Um die DNA-Fragmente zu größeren Segmenten zusammenzufassen, müssen wir Stellen finden, an denen sich zwei oder mehr Reads überlappen, d. h. wo die Anfangssequenz eines Fragments mit der Endsequenz eines anderen Fragments übereinstimmt. Wenn wir beispielsweise zwei Fragmente wie ACGTTGACCGCATTCGCCATA und GACCGCATTCGCCATACG-GCATT vorgeben, können wir basierend auf der Überlappung eine größere Sequenz konstruieren: ACGTTGACCGCATTCGCCATACGGCATT (Abbildung 5.4).

Eine Methode, um passende Sequenzen zu finden, ist der dynamische Programmieralgorithmus Needleman-Wunsch, der in Kapitel 2 diskutiert wurde (n2) Zeit, um aus den DNA-Fragmenten ein ganzes Genom zu konstruieren.

Ein besserer Ansatz besteht darin, den BLAST-Algorithmus (erläutert in Kapitel 3) zu verwenden, um alle k-mers (eindeutige Sequenzen der Länge k) in den Reads zu hashen und alle Stellen zu finden, an denen zwei oder mehr Reads eines der k-mers in . haben gemeinsames. Damit erreichen wir O(kn) Effizienz statt O(n2) Paarweise Vergleiche. k kann eine beliebige Zahl sein, die kleiner als die Größe der Reads ist, variiert jedoch in Abhängigkeit von der gewünschten Sensitivität und Spezifität. Indem wir die Leselänge so anpassen, dass sie die repetitiven Regionen des Genoms umfasst, können wir diese Regionen korrekt auflösen und dem Ideal eines vollständigen, kontinuierlichen Genoms sehr nahe kommen. Ein beliebter Überlappungs-Layout-Konsensus-Assembler namens Arachne verwendet k = 24 [2].

Angesichts der übereinstimmenden k-mers können wir jeden der entsprechenden Lesevorgänge ausrichten und alle Übereinstimmungen verwerfen, die weniger als 97% ähnlich sind. Wir verlangen nicht, dass die Reads identisch sind, da wir die Möglichkeit von Sequenzierungsfehlern und Heterozygotie berücksichtigen (d. h. ein diploider Organismus wie ein Mensch kann zwei verschiedene Varianten an einer polymorphen Stelle haben).

Zusammenführen von Reads zu Contigs

Wenn wir die oben beschriebenen Techniken verwenden, um Überlappungen zwischen DNA-Fragmenten zu finden, können wir größere Segmente kontinuierlicher Sequenzen zusammensetzen, die als bezeichnet werden contigs. Eine Möglichkeit, diesen Prozess zu visualisieren, besteht darin, einen Graphen zu erstellen, in dem alle Knoten Reads darstellen und die Kanten Überlappungen zwischen den Reads darstellen (Abbildung 5.5). Unsere Grafik wird haben transitive Überlappung; das heißt, einige Kanten verbinden unterschiedliche Knoten, die bereits durch Zwischenknoten verbunden sind. Durch Entfernen der transitiv herleitbaren Überlappungen können wir eine Kette von Lesevorgängen erstellen, die geordnet wurden, um ein größeres Contig zu bilden. Diese Graphtransformationen werden in Abschnitt 5.3.1 weiter unten ausführlicher diskutiert. Um die Größe von Contigs besser zu verstehen, berechnen wir etwas, das als . bekannt ist N50. Da Messungen der Contig-Länge in der Regel sehr empfindlich auf den kleinsten Contig-Cutoff reagieren, N50 wird als längengewichteter Median berechnet. Für einen Menschen ist N50 normalerweise nahe 125 kb.

Theoretisch sollten wir den obigen Ansatz verwenden können, um große Contigs aus unseren Lesevorgängen zu erstellen, solange wir die gegebene Region ausreichend abdecken. In der Praxis treffen wir oft auf große Abschnitte des Genoms, die sich extrem wiederholen und daher schwer zusammenzusetzen sind. Es ist beispielsweise unklar, wie die folgenden zwei Sequenzen genau ausgerichtet werden sollen: ATATATAT und ATATATAT. Aufgrund des extrem geringen Informationsgehalts im Sequenzmuster können sie sich in beliebiger Weise überlappen. Darüber hinaus können diese repetitiven Regionen an mehreren Stellen im Genom auftreten, und es ist schwierig zu bestimmen, welche Reads von welchen Stellen stammen. Contigs, die aus diesen mehrdeutigen, sich wiederholenden Lesevorgängen bestehen, werden als überkomprimierte Contigs bezeichnet.

Um zu bestimmen, welche Abschnitte überkollabiert sind, ist es oft möglich, die Abdeckungstiefe der Fragmente zu quantifizieren, aus denen jedes Contig besteht. Wenn ein Contig deutlich mehr Abdeckung hat als die anderen, ist es ein wahrscheinlicher Kandidat für eine überkollabierte Region. Darüber hinaus können mehrere einzigartige Contigs ein Contig an derselben Stelle überlappen, was ein weiterer Hinweis darauf ist, dass das Contig überkollabiert sein könnte (Abbildung 5.6).

Nachdem Fragmente bis zu einem möglichen wiederholten Abschnitt zu Contigs zusammengesetzt wurden, ist das Ergebnis ein Graph, in dem die Knoten Contigs sind und die Kanten Verbindungen zwischen eindeutigen Contigs und überkollabierten Contigs sind (Abbildung 5.7).

Anordnen von Contig-Graphen in Gerüsten

Sobald unsere Fragmente zu Contigs und Contig-Graphen zusammengesetzt sind, können wir die größeren Mate-Paare verwenden, um Contigs zu Supercontigs oder Gerüsten zu verknüpfen. Mate-Paare sind nützlich, um die Contigs auszurichten und sie in die richtige Reihenfolge zu bringen. Wenn die Paarungspaare lang genug sind, können sie sich oft wiederholende Regionen überspannen und helfen, die im vorherigen Abschnitt beschriebenen Mehrdeutigkeiten aufzulösen (Abbildung 5.8).

Im Gegensatz zu Contigs können Supercontigs aufgrund der Tatsache, dass die die Contigs verbindenden Paarungspaare nur an den Enden sequenziert sind, einige Lücken in der Sequenz enthalten. Da wir im Allgemeinen wissen, wie lang ein bestimmtes Paarungspaar ist, können wir abschätzen, wie viele Basenpaare fehlen, aber aufgrund der Zufälligkeit der Schnitte bei der Shotgun-Sequenzierung stehen uns möglicherweise nicht die Daten zur Verfügung, um die genaue Sequenz auszufüllen. Das Ausfüllen jeder einzelnen Lücke kann extrem teuer sein, daher enthalten selbst die vollständigsten Genome normalerweise einige Lücken.

Ableitung der Konsensussequenz

Das Ziel der Genomassemblierung besteht darin, eine kontinuierliche Sequenz zu erstellen. Nachdem die Reads in Contigs ausgerichtet wurden, müssen wir alle Unterschiede zwischen ihnen auflösen. Wie oben erwähnt, können einige der überlappenden Lesevorgänge aufgrund von Sequenzierungsfehlern oder Polymorphismus nicht identisch sein. Wir können oft feststellen, wann ein Sequenzierungsfehler aufgetreten ist, wenn eine Base nicht mit allen anderen darauf ausgerichteten Basen übereinstimmt. Unter Berücksichtigung der Qualitätswerte auf jeder der Basen können wir diese Konflikte normalerweise ziemlich einfach lösen. Diese Methode der Konfliktlösung wird als gewichtetes Voting bezeichnet (Abbildung 5.9). Eine andere Alternative besteht darin, die Häufigkeiten jeder Basis zu ignorieren und den Buchstaben mit der höchsten Qualität als Konsens zu verwenden. Manchmal möchten Sie alle Basen behalten, die eine polymorphe Menge bilden, da dies wichtige Informationen sein können. In diesem Fall könnten wir diese Methoden nicht verwenden, um eine Konsensussequenz abzuleiten.

In manchen Fällen ist es nicht möglich, einen Konsens abzuleiten, wenn beispielsweise das Genom heterozygot ist und an einem Ort gleich viele unterschiedliche Basen vorhanden sind. In diesem Fall muss der Monteur einen Vertreter wählen.

Wusstest du schon?

Da Polymorphismus den Zusammenbau diploider Genome erheblich erschweren kann, induzieren einige Forscher mehrere Generationen von Inzucht in der ausgewählten Spezies, um das Ausmaß der Heterozygotie zu reduzieren, bevor sie versuchen, das Genom zu sequenzieren.

In diesem Abschnitt haben wir einen Algorithmus gesehen, der die Genomassemblierung bei gegebenen Lesevorgängen durchführt. Dieser Algorithmus funktioniert jedoch gut, wenn die Reads 500 - 900 Basen oder mehr lang sind, was typisch für die Sanger-Sequenzierung ist. Alternative Genomassemblierungsalgorithmen sind erforderlich, wenn die Reads, die wir von unseren Sequenzierungsmethoden erhalten, viel kürzer sind.


GUNC: Nachweis von Chimärismus und Kontamination in prokaryotischen Genomen

Genome sind kritische Einheiten in der Mikrobiologie, dennoch bleibt die Feststellung der Qualität prokaryotischer Genomanordnungen eine große Herausforderung. Wir präsentieren GUNC (the Genome UNClutterer), ein Tool, das Genom-Chimärismus basierend auf der Abstammungshomogenität einzelner Contigs unter Verwendung der vollständigen Gene eines Genoms genau erkennt und quantifiziert. GUNC ergänzt bestehende Ansätze, indem es auf bisher nicht erkannte Kontaminationsarten abzielt: Wir schätzen konservativ, dass 5,7 % der Genome in GenBank, 5,2 % in RefSeq und 15–30 % der vorgefilterten „hochwertigen“ Metagenom-assemblierten Genome in neueren Studien unentdeckte Chimären. GUNC bietet ein schnelles und robustes Werkzeug, um die prokaryontische Genomqualität erheblich zu verbessern.


Wie ähnlich sind homöologische Chromosomen in allopolyploiden Genomen?

Angesichts der oben beschriebenen Herausforderungen scheint der Gesamtgenom-Shotgun-Ansatz für den Zusammenbau allopolyploider Genome nicht anwendbar zu sein. Traditionell besteht der Ansatz zur Sequenzierung allopolyploider Genome von Nutzpflanzen darin, diploide Vorläufergenome zu sequenzieren, wie dies bei Baumwolle, Erdbeere, Kaffee und Raps der Fall ist. Die Vorläufergenome des Weizengenoms mit 17 Gigabase (Gb) sind jedoch größer als alle oben genannten allopolyploiden Genome, und die Sequenzierung eines der drei 5,5 Gb-Vorläufergenome erfordert erhebliche Investitionen [5]. Das Weizengenom umfasst 21 große und unterscheidbare Chromosomen, und die Weizengemeinschaft verfolgte einen Ansatz, jedes Chromosom oder jeden Chromosomenarm für die Sequenzierung und den Zusammenbau zu sortieren [6]. Mit diesem Ansatz ist es möglich, eine Fehlanordnung homöologischer Chromosomen zu eliminieren. Die Chromosomensortierung liefert jedoch keine ausreichenden DNA-Mengen für eine Hochdurchsatz-Sequenzierung mit der Illumina-Technologie. Es ist daher notwendig, jedes Chromosom oder jeden Arm in kurzen Fragmenten zu amplifizieren, was es unmöglich macht, Jumping-Bibliotheken mit großen Inserts für das Gerüst aufzubauen, was zu kurzen Contigs im zusammengesetzten Genom führt [6]. Dies macht die anschließende Genomforschung weniger effizient.

Diese Herausforderungen zeigen die Bedeutung der Genombiologie Studie von Chapman und Kollegen, die Whole Genom Shotgun Sequencing und Ultra-High-Density-Linkage-Mapping kombinierte, um ein allopolyploides Genom aufzubauen. „Synthetic W7984“ wurde durch Kreuzung eines tetraploiden Weizen-AABB-Genoms mit dem diploiden DD-Genom erzeugt, gefolgt von einer Chromosomenverdoppelung, was zu einer zeitgemäßen Rekonstitution von hexaploiden Weizen führte. Diese homozygote Linie wurde mit 30-facher Abdeckung unter Verwendung eines Whole-Genom-Shotgun-Ansatzes mit 2 × 150 Basenpaar (bp) Sequenzen von Illumina TruSeq-Bibliotheken in Paired-End- und Mate-Paaren mit einer Größe von 250 bp bis 4,5 kb sequenziert [4]. Das Genom von ‘W7984’ wurde mit einer verbesserten Version von Meraculous, einem neuen Algorithmus für de novo Genomassemblierung mit tiefen Paired-End-Short-Reads [7]. Die Analyse von 51-meren ergab, dass keine genomischen Merkmale in Doppel- oder Dreifachkopie vorhanden waren, was darauf hindeutet, dass die drei Sätze homöologischer Chromosomen in der Genomanordnung getrennt waren. Die Simulation von 81-mer-Sequenzen ergab wesentlich höhere Anteile einzigartiger Sequenzen im Genom als die von 51-meren, was bedeutet, dass eine Erhöhung der Sequenzierungstiefe die Qualität des zusammengesetzten Genoms weiter verbesserte. Identische Exons wurden unter Verwendung von Informationen aus divergenteren flankierenden intronischen und intergenen Sequenzen, einem Schlüsselmerkmal allopolyploider Genome, zu den richtigen Subgenomen zusammengebaut.

Der Grad der DNA-Sequenzidentität homöologischer Chromosomen in allopolyploiden Genomen war ein Rätsel, aber jetzt wurden Entwürfe von Genomen von hexaploiden Weizen und tetraploiden Raps veröffentlicht [6,8]. Der direkte Vergleich homöologischer Sequenzen ergab eine wesentlich höhere Sequenzdivergenz als bisher angenommen. Im Brotweizen Triticum aestivum, eine in den Chromosomen 3A, 3B und 3D verglichene Region hatte kollineare Sequenzen von 21.784 bp, 28.429 bp bzw. 25.193 bp. Der paarweise Vergleich zwischen den Subgenomen A und B, A und D sowie B und D ergab 23,3%, 13,5% und 12,8% Insertion-Deletion (InDel)-Unterschiede bzw. 4,5%, 5,2% und 6,1% SNPs im lückenlosen Vergleich. Die kombinierten DNA-Sequenzunterschiede zwischen den Subgenomen dieser drei Paare betrugen 27,8 %, 18,7 % und 18,9 % (Abbildung 1a). In allotetraploiden Raps Brassica napus, war eine 96.436 bp-Region von Subgenom A kollinear zu einer größeren Region bei Subgenom C (104.516 bp), was im lückenlosen Vergleich einen Unterschied von 8,4% InDel und 5,7% SNPs zeigte. Der kombinierte DNA-Sequenzunterschied zwischen den Subgenomen A und C betrug 14,1% (Abbildung 1b). Somit reichte die DNA-Sequenzdivergenz zwischen homöologen Chromosomen von 14,1% bis 27,8% in den allopolyploiden Genomen von T. aestivum und B. napus, ausreichend verschieden für de novo Genomassemblierung allopolyploider Genome.

Kollinearität von Subgenomen in hexaploiden Brotweizen und allotetraploiden Raps. (ein) Drei homöologische Regionen aus den Subgenomen A, B und D des Brotweizens Triticum aestivum Linie Synthetic W7984 wurden für den direkten Sequenzvergleich ausgerichtet [4]. Gerüst 946163 (Position 27.539 bis 55.967) von Subgenom B, Gerüst 1590518 (Position 23.362 bis 48.554) von Subgenom D und Gerüst 235762 (Position 75.800 bis 97.583) von Subgenom A wurden ausgerichtet. Kollineare und invertierte Regionen werden durch rote bzw. blaue Linien dargestellt. Für die Subgenome A und D, aber nicht für B, wird im zentralen Bereich ein hohes Maß an kollinearer Genomduplikation beobachtet. (B) Zwei homöologische Regionen aus Brassica napus Subgenom A (Position 253.565 bis 350.000) und Subgenom C (Position 409.878 bis 514.393) wurden zum Vergleich ausgerichtet. Es gab 4.331 SNPs (5,7 %) innerhalb einer 76 kb ausgerichteten Region. Insgesamt wurden 32.411 bp (14,1%) InDels nachgewiesen und die Länge des längsten beträgt 4.808 bp. Eine hohe Kollinearität zwischen den beiden Subgenomen wurde mit geringfügigen Inversions- und Duplikationsereignissen beobachtet.


Ergebnisse

Seit der Entwicklung von MUMmer 1.0 im Jahr 1999 wurden mehrere andere Programme für den groß angelegten Genomvergleich entwickelt, z. B. SSAHA [16], AVID [17], MGA [18], BLASTZ [19] und LAGAN [20] (siehe auch [21] für eine Übersicht). Die meisten dieser Programme verfolgen einen ankerbasierten Ansatz, der in drei Phasen unterteilt werden kann: Berechnung potenzieller Anker Berechnung einer kolinearen Folge nicht überlappender potenzieller Anker – diese Anker bilden die Grundlage für die Ausrichtung und Ausrichtung der Lücken dazwischen die Anker. Die traditionellen Methoden zur Berechnung potenzieller Anker, d. h. maximaler Übereinstimmungen einer gewissen Länge l oder länger, verwenden Sie einen Generierungs-und-Test-Ansatz. In einem ersten Schritt werden alle Übereinstimmungen einer festen Länge k < l, namens k-mers, werden mit einer Methode erzeugt, die auf Hashing basiert (übernommen aus [22]). Jeder solche k-mer wird geprüft, ob es mindestens auf eine maximale exakte Längenübereinstimmung erweitert werden kann l. Die Erweiterung erfolgt durch paarweise Zeichenvergleiche, und somit hängt die Laufzeit dieses Ansatzes nicht nur von der Anzahl der potentiellen Anker ab, sondern auch von deren Länge. Dies kann durch ein Beispiel veranschaulicht werden, bei dem alle maximalen Übereinstimmungen der Länge 20 oder größer zwischen zwei verschiedenen Stämmen von Escherichia coli (Stamm K12, 4.639.221 Basenpaare (bp) und Stamm O157:H7, 5.528.445 bp) berechnet. Mit k = 10, eine typische Wahl für k, erzeugt der Hashing-Ansatz zuerst 4,99 × 10 7 k-mers und führt dann 1,66 × 10 7 Zeichenvergleiche durch, um alle 46.629 maximalen Übereinstimmungen der Länge 20 oder größer zu bestimmen. Somit weniger als 0,1% der erzeugten k-mers werden auf maximale Übereinstimmungen der angegebenen Länge erweitert. Aus diesem Grund führt der Generier-und-Test-Ansatz zu langen Laufzeiten, wenn sich die betrachteten Sequenzen lange Teilstrings teilen.

MUMmer 1.0 erkannte diesen Nachteil des Hashing-Ansatzes und war das erste Softwaresystem, das Suffixbäume verwendet, um potenzielle Anker für ein Alignment zu finden. Suffixbäume werden seit fast drei Jahrzehnten in der Informatik untersucht (siehe [23] für eine Übersicht). Ein Suffixbaum ist eine Datenstruktur zur Darstellung aller Teilstrings eines Strings, unabhängig davon, ob es sich bei diesem String um eine DNA-Sequenz, eine Proteinsequenz oder einen Klartext handelt. Suffixbäume haben die folgenden netten Eigenschaften, die sie zu einer wichtigen Datenstruktur für groß angelegte Genomanalysen machen: ein Suffixbaum für einen String S der Länge n kann im Raum proportional zu dargestellt werden n Es wurden schnelle Algorithmen entwickelt, die einen Suffixbaum in der Zeit proportional zu konstruieren können n [24, 25] angesichts des Suffixbaums von S und eine Abfragezeichenfolge Q der Länge m, gibt es Algorithmen zur Berechnung aller eindeutigen maximalen Übereinstimmungen zwischen S und Q beliebiger Mindestlänge (der potentiellen Anker) in der Zeit proportional zu m. Alle maximalen Übereinstimmungen, ob eindeutig oder nicht, können in nahezu optimaler Zeit gefunden werden. Beachten Sie insbesondere, dass im Gegensatz zu den Hashing-Ansätzen die Laufzeit der Suffixbaum-Algorithmen nicht von der Länge der maximalen Übereinstimmungen abhängt.

Details der Suffix-Baum-Algorithmen, die in früheren Versionen von MUMmer enthalten waren, wurden in [5, 7] beschrieben. Hier konzentrieren wir uns auf neue Entwicklungen. MUMmer gehört zu den schnellsten Programmen für groß angelegte Ausrichtungen, die in einem kürzlich durchgeführten Test für MUMmer berichtet wurden, der zwischen 4 und 110 Mal schneller war als AVID, BLASTZ und LAGAN [20]. In seinen Standardeinstellungen ist MUMmer bei der Erkennung von Übereinstimmungen weniger empfindlich als diese Programme. Wir haben jedoch mehrere Befehlszeilenoptionen zu MUMmer 3.0 hinzugefügt, die es ermöglichen, viel schwächere Übereinstimmungen zu erkennen, als das System sonst finden würde. Beachten Sie, dass die Modularität von MUMmer und seine Verfügbarkeit als Open-Source-Code bedeutet, dass andere jetzt ein Hybridsystem aufbauen können, indem sie beispielsweise den Suffix-Tree-Matching-Algorithmus in MUMmer und den Match-Erweiterungsprogrammcode von LAGAN oder AVID verwenden.

Weitere Funktionen von MUMmer 3.0 sind ein neuer Java-Viewer, DisplayMUMs ein neues grafisches Ausgabeprogramm zum Generieren von Bildern im Feigen- oder PDF-Format, das die Ausrichtung eines Satzes von Contigs zu einem Referenzchromosom und neue Optionen zum Auffinden nicht eindeutiger Übereinstimmungen zeigt. Diese werden im Folgenden beschrieben.

Optimierte Suffixbaum-Datenstruktur und Suffixbaum-Bibliothek

Die bedeutendste technische Verbesserung in MUMmer 3.0 ist eine komplette Neufassung des Suffix-Baum-Codes, basierend auf der kompakten Suffix-Baum-Darstellung von [26]. Diese Darstellung wurde auch im Wiederholungsanalysetool REPuter verwendet [27]. REPuter konnte jedoch nur Sequenzen bis zu 134 Millionen bp (Mbp) aufnehmen. Für MUMmer 3.0 wurde die Implementierung dahingehend verbessert, dass auf einem PC mit 4 Gigabyte (GB) Realspeicher Sequenzen bis zu 250 Mbit/s auf Kosten eines etwas größeren Platzbedarfs pro Basenpaar möglich sind. Zum Beispiel kann man den Suffixbaum für das menschliche Chromosom 2 (237,6 Mbp, das größte menschliche Chromosom) unter Verwendung von 15,4 Byte pro Basenpaar konstruieren. Für die Verarbeitung von DNA-Sequenzen mit einer Länge von weniger als 134 Mbp kann MUMmer so kompiliert werden, dass es nur etwa 12,5 Byte pro bp verwendet [26]. Da Suffixbäume für DNA-Sequenzen typischerweise größer sind als für Proteinsequenzen, ist das Verhältnis von Bytes pro Basenpaar für letztere sogar noch besser.

MUMmer benötigt jetzt etwa 25 % weniger Speicher als Version 2.1 und läuft etwas schneller. Im Vergleich zum ersten Release im Jahr 1999 ist das System mehr als doppelt so schnell und verbraucht weniger als die Hälfte des Speichers. Wie in MUMmer 2.1 streamt Release 3.0 die Abfragesequenz gegen den Suffixbaum der Referenzsequenz. Somit ergibt sich der Gesamtplatzbedarf von MUMmer aus der Größe des Suffixbaums plus der Größe der Referenz und der Abfragesequenzen. Tabelle 1 zeigt Laufzeiten und Speicheranforderungen für MUMmer Release 2.1 und 3.0, wenn maximale Übereinstimmungen für verschiedene Genom- oder Chromosomenpaare berechnet werden.

Während die Vorgängerversionen von MUMmer die wichtigsten Suffixbaumkonstruktionen und Traversalalgorithmen in einem monolithischen Programm mit 1.700 Codezeilen implementierten, basiert die aktuelle Version auf einer gut strukturierten und gut dokumentierten Softwarebibliothek. Dies stellt Datentypen für den Umgang mit mehreren DNA- oder Proteinsequenzen und ihren Suffixbäumen bereit. Die Bibliothek enthält Funktionen, um den Suffixbaum zu konstruieren und ihn zu durchqueren. Auf diese Weise kann ein Programmierer, der beabsichtigt, die Codebasis zu modifizieren oder zu erweitern, die von der Bibliothek bereitgestellten gut dokumentierten Schnittstellen verwenden, ohne alle Implementierungsdetails auf niedriger Ebene des Suffixbaums lernen zu müssen.

Mit Release 3.0 hat MUMmer jetzt die Möglichkeit, eine Multi-Contig-Abfrage für eine Multi-Contig-Referenz auszuführen. Zuvor war dies über das Nucmer-Paket verfügbar, jedoch nicht direkt im Kern-Mummer-Programm. In Tabelle 1 ist beispielsweise die Genomsequenz von Aspergillus fumigatus bestand (zum Zeitpunkt dieser Studie) aus 19 Gerüsten, die auf 248 Contigs von . ausgerichtet waren A. nidulans. Dieser Vergleich wurde in Release 3.0 durch einen einfachen Aufruf des Mummer-Programms abgewickelt, aber in Release 2.1 muss die Referenzsequenz zuerst in ein einzelnes Contig reduziert werden und nach dem Abgleich müssen die Koordinaten (von Nucmer) neu abgebildet werden auf die richtigen Contig-Standorte. Beide Releases verarbeiten Abfragedateien mit mehreren Contigs. Tabelle 1 zeigt auch die Zeiten für das Alignment des 22,2 Mbp Chromosoms 2L der Fruchtfliege Drosophila melanogaster zu einer Zwischenmontage (bevor das Genomprojekt abgeschlossen war) von D. pseudoobscura. In diesem Fall war die Abfragesequenz, bestehend aus 4.653 Gerüsten mit ungefähr 150 Mbp Sequenz, viel länger als die Referenz. Das Programm benötigte insgesamt 485 MB Speicher, ungefähr 310 MB für den Suffixbaum und den Rest für die Eingabesequenzen.

Nicht eindeutige maximale Übereinstimmungen

Frühere Versionen von MUMmer betonten maximale eindeutige Übereinstimmungen (MUMs) als potenzielle Anker für ein Alignment. MUMs sind insofern einzigartig, als sie in jedem Genom genau einmal vorkommen. In einigen Fällen verhindert die Eindeutigkeitsbeschränkung, dass MUMmer alle Übereinstimmungen für eine sich wiederholende Teilzeichenfolge findet. Wenn beispielsweise das Referenzgenom zwei exakte Kopien eines bestimmten Strings enthält und die Abfrage nur eine Kopie enthält, würden frühere Versionen von MUMmer je nach umgebender Sequenz im Allgemeinen eine der übereinstimmenden Kopien verpassen. Um dieses Problem zu überwinden, kann das neue MUMmer-System alle maximalen Übereinstimmungen – einschließlich nicht eindeutiger – zwischen zwei Eingabesequenzen finden, indem einfach dem Programm Mummer eine Befehlszeilenoption zur Verfügung gestellt wird. Andere Befehlszeilenoptionen ermöglichen es dem Benutzer, MUMs zu erstellen, die sowohl in der Abfrage als auch in der Referenzsequenz eindeutig sind, oder MUMs, die nur in der Referenzsequenz eindeutig sind.

Obwohl der Algorithmus zur Erzeugung aller maximalen Übereinstimmungen komplizierter ist als der Algorithmus zur Erzeugung eindeutiger maximaler Übereinstimmungen, läuft er immer noch in nahezu optimaler Zeit, wobei die optimale Zeit proportional zur Summe der Größen der Eingabezeichenfolgen und der Anzahl der gefundenen Übereinstimmungen wäre . Die Laufzeiten zum Erzeugen einer der drei Arten von maximalen Übereinstimmungen sind im Allgemeinen ähnlich. Beachten Sie jedoch, dass, wenn das Programm angewiesen wird, alle nicht eindeutigen Übereinstimmungen zu finden, einschließlich kurzer Übereinstimmungen, die Ausgabe sehr groß sein kann und die Zeit zum Erstellen der Ausgabedatei den dominierenden Teil der Berechnung ausmacht.

Entfernte Übereinstimmungen

Einer der Kritikpunkte an MUMmer 1.0 war, dass es nur genaue Übereinstimmungen findet, während wir in der Praxis oft ungefähre Übereinstimmungen finden möchten, dh Übereinstimmungen zwischen Sequenzen, die weniger als 100% identisch sind. Wir haben dieses Problem in Release 2.1 mit der Einführung der Nucmer- und Promer-Pakete, die auf MUMmer aufbauen, angesprochen. Diese wurden in der Version 3.0 erheblich verbessert und weisen nun eine nur geringfügig langsamere Leistung auf als die einfache Suche selbst. Die Geschwindigkeitssteigerung von Nucmer und Promer im Vergleich zu Release 2.1 beträgt ungefähr das 10-fache.

Sowohl Nucmer als auch Promer erzeugen eine Sammlung lokaler Ausrichtungen unter Verwendung des unten beschriebenen Algorithmus. Der Unterschied zwischen den beiden Programmen besteht darin, dass Nucmer Nukleotid-Alignments zwischen zwei Sätzen von DNA-Sequenzen konstruiert, während Promer Aminosäure-Alignments konstruiert. Jeder Sequenzsatz ist eine Sammlung von einer oder mehreren Sequenzen aus demselben Genom, beispielsweise eine Sammlung von Contigs, die von einem Genom-Assembler produziert werden. Promer übersetzt zuerst sowohl die Referenz als auch die Abfrage in allen sechs Frames, findet alle Übereinstimmungen in den Aminosäuresequenzen und ordnet die Übereinstimmungen dann wieder dem ursprünglichen DNA-Koordinatensystem zu. Für den folgenden Erweiterungsschritt verwendet Promer eine Standard-Aminosäure-Substitutionsmatrix (BLOSUM62 ist die Standardeinstellung), um Fehlpaarungen zu bewerten.

Der Nucmer/Promer-Ausrichtungsalgorithmus ist wie folgt. Zuerst führen beide Programme MUMmer aus, um alle genauen Übereinstimmungen zu finden, die länger als eine angegebene Länge sind l, gemessen in Nukleotiden für Nucmer und Aminosäuren für Promer. Zweitens werden die Spiele geclustert, um sie zu erweitern. Zwei Übereinstimmungen werden zu demselben Cluster zusammengefügt, wenn sie nicht mehr als voneinander getrennt sind g Nukleotide (Nucmer) oder Aminosäuren (Promer). Dann wird aus jedem Cluster die kollineare Kette von Übereinstimmungen mit maximaler Länge extrahiert und weiterverarbeitet, wenn die kombinierte Länge ihrer Übereinstimmungen mindestens . beträgt C Nukleotide/Aminosäuren. (Beachten Sie, dass eine Kette aus einer einzigen passenden Region bestehen kann, wenn l >C.) Die Parameter l, g, und C können alle auf der Kommandozeile eingestellt werden. Die Kettenübereinstimmungen werden dann unter Verwendung einer Implementierung des dynamischen Programmieralgorithmus von Smith-Waterman [28] erweitert, der auf die Regionen zwischen den genauen Übereinstimmungen und auch auf die Grenzen der Ketten angewendet wird, die nach außen erweitert werden können. Dieser Schritt des "Anpassens und Erweiterns" im Algorithmus ist im Wesentlichen der gleiche, der von FASTA [29], BLAST [30] und vielen anderen Sequenzausrichtungsprogrammen verwendet wird.

Wenn zwei Arten sehr ähnlich sind, wie die beiden Isolate der Bacillus anthracis Ames-Stamm am TIGR sequenziert [31–33], dann eignet sich MUMmer ideal zum Alignment der Genome. Bei diesem Vergleich von Milzbrandisolaten trennten nur vier Einzelnukleotidunterschiede die beiden 5,3 Mbp Hauptchromosomen voneinander. Auch in unserem Vergleich eines klinischen Isolats von Mycobacterium tuberculosis zu einem Laborstamm [31] fand MUMmer schnell die etwa 1.100 SNPs und eine Handvoll IS-Elemente, die die Stämme unterschieden. Wenn die zu vergleichenden Arten jedoch weiter entfernt sind, bieten Nucmer und Promer viel detailliertere und nützlichere Ausrichtungen als MUMmer allein. In den unten beschriebenen Beispielen zeigen wir, wie jedes der hier beschriebenen Programme für Genome mit unterschiedlichen evolutionären Entfernungen ausgeführt werden kann

Fliegen gegen fliegen

Das 130-Mbp-Genom von D. melanogaster ist weitgehend vollständig, wobei die sechs Hauptchromosomenarme nur wenige Lücken aufweisen. Kürzlich hat das Human Genome Sequencing Center am Baylor College of Medicine die Shotgun-Sequenzierung von D. pseudoobscura, eine eng verwandte Art mit einem ungefähr gleich großen Genom. Diese beiden Arten sind nahe genug, dass fast alle Gene gemeinsam sind und Exons ein hohes Maß an Sequenzidentität aufweisen. Sie sind jedoch so weit entfernt, dass intergenische Regionen und Introns nicht gut aufeinander abgestimmt sind, und seit der Divergenz der Spezies hat es Hunderte von groß angelegten Chromosomenumlagerungen gegeben. Daher kann man nicht einfach jeden Chromosomenarm auf sein Gegenstück ausrichten. Erschwerend kommt hinzu, dass die D. pseudoobscura Schrotflintenmontage besteht aus Tausenden von Gerüsten und Contigs. Um den Vergleich zu erleichtern, besteht die erste Rechenaufgabe darin, alle Gerüste an jedem der D. melanogaster Waffen. (Die umfassende Analyse von D. pseudoobscura, organisiert von den Wissenschaftlern des Sequenzierungszentrums und ihren Mitarbeitern, wird in einem zukünftigen Papier erscheinen. Die Beschreibung hier soll in erster Linie die Verwendung und die Fähigkeiten von Nucmer veranschaulichen.)

Wir führten das Nucmer-Programm mit einer minimalen Übereinstimmungslänge von 25 durch, was ausreichend war, um praktisch alle übereinstimmenden Exons zu erfassen. Da passende Gene viel länger sind, mussten Clusterketten mindestens 100 passende Nukleotide enthalten. Um lange Introns zu berücksichtigen und dem Programm zu ermöglichen, mehrere Gene zu clustern, ließen wir die Lücke zwischen exakten Übereinstimmungen bis zu 3.000 bp betragen. Zum Zeitpunkt unserer Analyse (vor Abschluss des Sequenzierungsprojekts) D. pseudoobscura Die Baugruppe enthielt 4.653 Gerüste mit einer Spannweite von 150 Mbp. Wir haben Nucmer separat ausgeführt, um den vollständigen Satz von Gerüsten an jedem auszurichten D. melanogaster Chromosomenarm. Mit diesen Einstellungen benötigt das Programm etwa 6 Minuten pro Arm und benötigt etwa 490 MB Speicher auf einem 2,8 GHz Pentium 4-Desktop-PC mit Linux.

Fliegen gegen Mücken

Wenn die beiden Arten weiter entfernt verwandt sind, ist die einzige Möglichkeit, eine große Ähnlichkeit festzustellen, der Vergleich auf Aminosäureebene. Ein Beispiel für dieses Phänomen ergab sich bei unserem Vergleich der Genome der Malariamücke, Anopheles gambiae, und die Fruchtfliege D. melanogaster. Weil Anopheles war das zweite Insektengenom, das sequenziert wurde, die einzige zum Vergleich verfügbare Spezies war die Fruchtfliege. Unsere detaillierte Analyse, die gemeinsam mit Kollegen des European Molecular Biology Laboratory in Heidelberg durchgeführt wurde, basiert auf einer Kombination von BLAST- und MUMmer-Analyse [34]. Diese beiden Arten divergierten vor etwa 250 Millionen Jahren und haben eine durchschnittliche Proteinsequenzidentität von 56%, weniger als die zwischen Menschen und Kugelfischen. Obwohl die beiden Insekten die gleiche Anzahl an Chromosomen haben, Anopheles Genom ist ungefähr doppelt so groß und die Genreihenfolge wurde fast vollständig neu gemischt, wie unsere Ausrichtungen zeigten. Es sind nur noch kleine, aber zahlreiche Regionen der 'Mikrosyntenie' übrig geblieben: Wir haben 948 Regionen gemeldet, von denen die größte 8 Gene enthält Anopheles und 31 Zoll Drosophila. Ein interessantes Ergebnis war jedoch, dass trotz umfangreichem Shuffling jeder Chromosomenarm eine deutliche Dominanz von Homologen auf einem einzelnen Arm der anderen Spezies aufwies, was darauf hindeutet, dass das intrachromosomale Gen-Shuffling die primäre Kraft war, die die Genordnung beeinflusste (siehe Abbildung 7 von [34] ).

Pilz gegen Pilz

In einer aktuellen Anwendung verwenden wir sowohl Nucmer als auch Promer, um zwei verwandte Pilzgenome zu vergleichen, Aspergillus fumigatus (ein humanpathogener Erreger) und A. nidulans (ein nicht-pathogener Modellorganismus). Die Shotgun-Sequenzierung dieser beiden Genome ist abgeschlossen, und A. fumigatus ist dabei, komplett fertig zu werden, dh alle Lücken werden geschlossen. (A. fumigatus ist ein gemeinsames Sequenzierungsprojekt von TIGR und The Sanger Institute, während A. nidulans wird am Whitehead/MIT Genome Center sequenziert.) Zum Zeitpunkt unseres letzten Vergleichs war der A. fumigatus Genom war bis zu dem Punkt fortgeschritten, an dem es zu 19 Gerüsten mit 28 Mbp zusammengesetzt war, und die A. nidulans Genom wurde in 238 Contigs zusammengestellt, die 30 Mbp umfassen. Für diesen Vergleich haben wir zuerst Nucmer laufen lassen und festgestellt, dass die meisten der beiden Genome ziemlich eindeutig aufeinander abgebildet sind: Es gibt genügend Übereinstimmungen, um große Ähnlichkeitssegmente in einem einfachen Punktdiagramm aufzudecken. Es hat eine umfangreiche Neuordnung der Chromosomen gegeben, aber eine großräumige Syntenie ist immer noch vorhanden. Zum Beispiel das größte Contig (A1058) in A. fumigatus, mit 2,9 Mbp, das ein im Wesentlichen vollständiges Chromosom darstellt, kartiert auf fünf verschiedenen Gerüsten in A. nidulans. Betrachtet man nur die Nucmer-Anordnung des größten davon, ein 2,1 Mbp-Gerüst mit 10 Contigs, scheint es in mehrere Segmente neu geordnet zu sein, aber die Übereinstimmungen sind so verstreut, dass es schwer zu sagen ist, wie viele Segmente es gibt (Abbildung 1, linke Seite).

Dot-Plot-Alignments eines 2,9 Mbp-Chromosoms von A. fumigatus (x-Achse) auf ein 2,1 Mbit/s-Gerüst von A. nidulans (ja-Achse). Links: Nukleotidbasiertes Alignment mit Nucmer. Rechts: Aminosäurebasiertes Alignment mit Promer. Ausgerichtete Segmente werden als Punkte oder Linien dargestellt, bis zu 3.000 bp lang im Nucmer-Alignment und bis zu 9.500 bp im Promer-Alignment. Diese Alignments wurden vom Mummerplot-Skript und dem Unix-Programm gnuplot erzeugt.

Die syntenische Ausrichtung ist jedoch viel deutlicher sichtbar, wenn wir stattdessen Promer verwenden. Die einfachste Zusammenfassung ist nur die Anzahl der Basen, die in den Alignments enthalten sind: Wenn wir uns das Nucmer-Alignment zwischen den Gerüsten ansehen, beträgt die Gesamtzahl der passenden Basen 81 kbp. Im Gegensatz dazu umfasst das Promer-Alignment 1,87 Mbp von A1058, beginnend an der Nukleotidposition 1.000.000 und bis zum Ende des Chromosoms. Abbildung 1 zeigt eine grafische Darstellung, die sowohl die Promer- als auch die Nucmer-Ausrichtung zwischen dem 2,1 Mbp-Gerüst von zeigt A. nidulans und Gerüst A1058 von A. fumigatus. Wie die Abbildung deutlich macht, deckt das auf Aminosäuren basierende Alignment viel mehr von der Sequenz beider Spezies ab und ist daher viel nützlicher, um homologe Beziehungen zwischen Genen und chromosomale Beziehungen zu bestimmen.

Mensch gegen Mensch

Eine der anspruchsvollsten Rechenaufgaben, die man heute durchführen kann, ist der Kreuzvergleich von Säugetiergenomen. Die Genome von Mensch und Maus sind so vollständig, dass viele laufende Forschungen auf Kartierungen zwischen diesen beiden Arten basieren. Wie in Tabelle 1 gezeigt, kann MUMmer 3.0 innerhalb von Minuten menschliche und Maus-Chromosomen vergleichen.Die Tabelle zeigt die Zeit (7 Minuten 10 Sekunden, auf einem 2,4-GHz-Pentium-Prozessor), die erforderlich ist, um das Mauschromosom 16 (Mm16) auf das menschliche Chromosom 21 (Hs21) auszurichten. Diese beiden wurden ausgewählt, weil fast alle Hs21-Karten zu einem Ende von Mm16 passen. Forscher haben ein Mausmodell des Down-Syndroms entwickelt, das eine zusätzliche Kopie dieses Teils von Mm16 enthält.

Wir führten einen Benchmark-Test von MUMmer 3.0 durch, bei dem wir das menschliche Genom (Version vom 3. Januar 2003, heruntergeladen von GenBank) mit sich selbst verglichen, indem wir alle maximalen Übereinstimmungen mit einer Länge von mindestens 300 zwischen jedem Chromosom und allen anderen berechneten. Die resultierenden 631.975 Übereinstimmungen ermöglichen es, sowohl groß- als auch kleinräumige interchromosomale Duplikationen zu identifizieren. Beachten Sie, dass die in [6] angegebenen Laufzeiten nur für den Match-Finding-Teil von MUMmer gelten. Die Zeit für die Verarbeitung von Clustern und die Durchführung von Abgleichen in den Lücken zwischen den Übereinstimmungen entfällt, da diese je nach den verwendeten Parametern stark variieren.

Für diesen Test benötigten wir maximal etwa 4 GB Arbeitsspeicher. Da uns kein PC mit dieser Speicherkapazität zur Verfügung stand, verwendeten wir einen Sun-Sparc-Rechner mit dem Betriebssystem Solaris, 64 GB Arbeitsspeicher und einem 950-MHz-Prozessor.

Wir haben die Ausrichtung wie folgt durchgeführt. Jedes menschliche Chromosom wurde als Referenz verwendet, und der Rest des Genoms wurde als Abfrage verwendet und gegen dieses gestreamt. Um Duplizierungen zu vermeiden, haben wir nur Chromosomen in die Abfrage aufgenommen, wenn sie nicht bereits verglichen wurden, daher haben wir zuerst Chromosom 1 als Referenz verwendet und die anderen 23 Chromosomen dagegen gestreamt. Dann haben wir Chromosom 2 als Referenz verwendet und die Chromosomen 3-22, X und Y dagegen gestreamt und so weiter.

Die Gesamtlänge aller menschlichen Chromosomen für diesen Test betrug 2.839 Mbp. Die Bauzeit aller Suffixbäume betrug 4,7 Stunden. Der Platzbedarf für den Suffixbaum war mit etwa 15,5 Byte pro Basenpaar (mit nur einer Ausnahme) bemerkenswert konstant. Die gesamte Abfragezeit betrug 101,5 Stunden und die Speichernutzung überstieg nie 3,9 GB (siehe [6] für Details). So haben wir in ungefähr 4,5 Tagen auf einem einzigen Prozessor das menschliche Genom mit sich selbst verglichen. Dies könnte leicht auf mehrere Computer aufgeteilt werden, wobei jedes Chromosom separat behandelt wird, was die Zeit auf nur 11 Stunden verkürzt.

Grafische Viewer

Da die Textformatausgabe von MUMmer 3.0 oft umfangreich ist, haben wir zwei grafische Viewer entwickelt, einen zum Vergleich zweier Genomanordnungen oder nahezu identischer Sequenzen und den anderen zum Vergleich weiter entfernt verwandter Genome, z. B. zweier verschiedener Arten . Der erste Viewer, DisplayMUMs, ist ein quelloffenes, plattformunabhängiges Java-Programm. Es wurde auf einer Vielzahl von Unix/Linux-Plattformen getestet und läuft auch auf Apple Macintosh (OS X) oder Microsoft Windows Computern. Das Programm, das die Ergebnisse der Ausführung von MUMmer als Eingabe verwendet, ermöglicht es dem Benutzer, die Ergebnisse zweier verschiedener Anordnungen desselben oder sehr eng verwandter Genome abzugleichen und anzuzeigen und einen Satz von Contigs auf den anderen zu legen. Dies bietet ein leistungsstarkes grafisches Frontend für den Assemblierungsvergleich, eine Funktion, die häufig beim Assemblieren und Finishen von Genomen verwendet wird. Es ermöglicht einem Benutzer, die Kachelung von Sequenzlesevorgängen in einer Assembly zu visualisieren, um zu verstehen, warum Contigs möglicherweise nicht richtig zusammengeführt wurden. Alternativ kann man die Ausgabe verschiedener Genom-Assembler mit denselben Daten vergleichen, eine Aufgabe, die ziemlich verwirrend sein kann, wenn das Genom groß ist und die Assembler nicht übereinstimmen.

DisplayMUMs erstellt ein eigenständiges Display, wie in Abbildung 2 dargestellt. Es enthält drei Hauptbereiche. Der obere Bereich kann eine Vielzahl von Informationen anzeigen, einschließlich vergrößerter Nukleotid-Alignments. Im mittleren Bereich wird eine Zusammenfassung der Ausrichtung angezeigt, wobei die Referenz als grauer Balken angezeigt wird. Die Übereinstimmungen der Abfragen mit der Referenz werden als grüne (vorwärts) und rote (rückwärts) Rechtecke mit grauen Lücken angezeigt. Ein zweiter grauer Balken zeigt die Lücken in Blau, was überflüssig erscheinen mag, aber nützlich ist, wenn der Maßstab verkleinert ist, wenn die Sequenz beispielsweise nur eine kleine Lücke hat und die Skala 1 Mbit/s anzeigt, dann ist die kleine Lücke in der unsichtbar oberen Leiste, wird aber weiterhin auf der unteren Leiste sichtbar sein. Der untere Bereich zeigt die Kachelung aller Abfragesequenzen in der Referenz, wobei rote und grüne Farben die vorwärts und rückwärts übereinstimmenden Teilzeichenfolgen anzeigen. Wie Abbildung 2 zeigt, können einige Sequenzen nur für einen kleinen Teil ihrer Länge übereinstimmen, während andere über ihre gesamte Länge übereinstimmen. DisplayMUMs verfügt über viele weitere Funktionen, einschließlich Mouse-Over- und Suchfunktionen, die alle in der Software dokumentiert sind. Wie dieses Beispiel deutlich macht, besteht sein Hauptzweck darin, die Nützlichkeit von MUMmer für die Genom-Assembly-Analyse zu verbessern.

Beispielanzeige von DisplayMUMs, die die Ausrichtung des gesamten Genoms einzelner Shotgun-Reads (Abfragesequenzen) zu einem Contig aus dem Staphylococcus epidermidis Genom. Die Anzeige veranschaulicht, wie genaue Übereinstimmungen der Kachel-Reads im Vergleich zum Contig-Konsens gesehen werden können. Grüne und rote Farben in den Abfragesequenzen zeigen die Ausrichtung an den Vorwärts- bzw. Rückwärtssträngen an.

Der zweite Viewer, MapView, erstellt ein Bild der Kartierung zwischen zwei Arten basierend auf der Nucmer- oder Promer-Ausgabe. Die Motivation für die Erstellung dieses Viewers war die schnell wachsende Zahl von Genomprojekten, die unternommen werden, um unser Verständnis eines anderen, bereits abgeschlossenen Genoms zu verbessern. In diesen Projekten weist das zweite Genom möglicherweise nur eine schwache DNA-Sequenzähnlichkeit mit dem ersten auf, und in einigen Fällen kann die Ähnlichkeit nur durch Proteinsequenz-Alignments, wie die von Promer hergestellten, nachgewiesen werden. Ein gutes Beispiel für ein solches Projekt sind die jüngsten Bemühungen um eine Sequenzierung D. pseudoobscura oben erwähnt. Die Hauptmotivation für dieses Projekt ist die Verbesserung der Annotation von D. melanogaster, und MUMmer ist eines der Werkzeuge, mit denen die neu zusammengestellten Karten abgebildet werden D. pseudoobscura darauf. Da das Referenzgenom gut annotiert ist, haben wir dem Viewer die Option hinzugefügt, die Positionen der Gene (und ihrer Identifikatoren) zusammen mit der Kartierung entweder auf DNA- oder Aminosäuresequenzebene anzuzeigen. Eine Momentaufnahme dieses Alignments von MapView ist in Abbildung 3 zu sehen, die deutlich macht, dass die Aminosäurekonservierung zwischen diesen beiden Spezies eng mit der annotierten Exonstruktur übereinstimmt. Dieser Viewer kann verwendet werden, um Bereiche eines Genoms hervorzuheben, in denen Exons in früheren Analysen möglicherweise übersehen wurden.

Mit dem Programm MapView erstellte Beispielanzeige mit einem 185-kbp-Slice von D. melanogaster Chromosom 2L und seine Ausrichtung zu D. pseudoobscura. Das von Promer erzeugte Alignment zeigt alle Regionen der konservierten Aminosäuresequenz. Das die Figur umspannende blaue Rechteck stellt die Referenz dar (D. melanogaster), mit annotierten Genen darüber. Alternative Spleißvarianten desselben Gens werden vertikal gestapelt. Exons sind als Kästen dargestellt, mit dazwischenliegenden Introns, die sie verbinden. Die 5'- und 3'-UTRs sind rosa und blau gefärbt, um die Translationsrichtung des Gens anzuzeigen. Promer-Übereinstimmungen werden zweimal angezeigt, einmal direkt unter dem Referenzgenom, wobei alle Übereinstimmungen in roten Kästchen zusammengefasst sind, und in einer größeren Anzeige, die die einzelnen Übereinstimmungen innerhalb jedes Contigs zeigt, wobei die Contigs unterschiedlich gefärbt sind, um die Contig-Grenzen anzuzeigen. Die vertikale Position der Übereinstimmungen zeigt ihre prozentuale Identität an, die von 50 % am unteren Rand des Displays bis 100 % direkt unter den roten Rechtecken reicht.

Das MapView-Programm kann Ausgaben in drei Formaten erzeugen: fig (zur Anzeige mit dem Unix xfig-Programm), PostScript oder PDF. Das flexibelste Format, fig, ermöglicht unbegrenztes Scrollen und Zoomen sowie den Export in eine Vielzahl zusätzlicher Formate. Dies macht es einfach, die Zuordnung zwischen einer großen Sammlung von Contigs und einem großen Chromosom anzuzeigen.


Schlussfolgerungen

Diese Ergebnisse veranschaulichen, wie die in den gelesenen Daten für ein Gesamtgenom-Sequenzierungsprojekt enthaltenen Informationen eine wertvolle Ressource für die kontinuierliche Verbesserung eines Genoms darstellen und wie unabhängig generierte Daten mit WGS-Daten zusammengeführt werden können, um eine bessere Zusammenstellung zu erzielen. Die daraus resultierenden Verbesserungen sollten der Forschungsgemeinschaft unmittelbar zugutekommen, mit der wir hoffen, die Baugruppe weiter zu verbessern. Bis der Zusammenbau wirklich abgeschlossen ist – ein Zustand, den noch kein Säugetiergenom, einschließlich des Menschen, erreicht hat – werden wir weiterhin neue Daten einarbeiten, um Lücken zu füllen, fehlorientierte Regionen zu korrigieren und mehr Sequenzen auf Chromosomen zu platzieren. Die Genome von Alpakas und Schafen, die derzeit sequenziert werden, sollten eine reiche Quelle für weitere Verbesserungen auf der Grundlage der evolutionären Konservierung zwischen diesen eng verwandten Säugetieren sein.


Schlussfolgerungen

Wir liefern zum ersten Mal signifikante Beweise für die Existenz des weit verbreiteten PAV-Gens in einem Metazoen-Pan-Genom. Die ungewöhnliche Struktur des Muschelgenoms ist das Ergebnis der massiven Präsenz hemizygoter Genomregionen, die mehrere Tausend entbehrlich proteinkodierende Gene. Die Anreicherung dieser Gene um Funktionen, die mit der Stressresistenz und Immunantwort verbunden sind, rechtfertigt weitere Untersuchungen zu den möglichen Verbindungen zwischen massivem PAV und dem evolutionären Erfolg von Muscheln, am Beispiel der kosmopolitischen Verbreitung dieser Art in gemäßigten Meeresküstengewässern. Sehr wahrscheinlich könnte ein extensives PAV bei anderen kosmopolitischen marinen Wirbellosen gefunden werden, die durch Broadcast-Laichen, eine sehr große effektive Populationsgröße und ähnliche Umweltbelastungen gekennzeichnet sind, einschließlich anderer Muschelarten, bei denen ähnlich hohe Heterozygotieraten gemeldet wurden.


4. Nichtstrukturelle Proteine

Zusätzlich zu den kapsidbildenden Strukturproteinen kodiert das virale Genom viele NSPs, die zahlreiche Rollen in den Replikations- und Virusassemblierungsprozessen übernehmen [37]. Diese Proteine ​​sind an der viralen Pathogenese beteiligt, indem sie die frühe Transkriptionsregulation, Helikaseaktivität, Immunmodulation, Gentransaktivierung modulieren und der antiviralen Antwort entgegenwirken [ [38] [39] [40] .

Wir haben einige der Hauptfunktionen von NSPs bei SARS-CoV-2 untersucht (Tabelle 1). Die InterProScan-Suche ergab, dass NSPs von SARS-CoV-2 an vielen biologischen Prozessen beteiligt sind, darunter virale Genomreplikation (GO:0019079 und GO:0039694), Proteinverarbeitung (GO:0019082), Transkription (GO:0006351) und Proteolyse (GO:0006508). Diese Proteine ​​sind beteiligt an der RNA-Bindung (GO:0003723), Endopeptidase-Aktivität (GO:0004197), Transferase-Aktivität (GO:0016740), ATP-Bindung (GO:0005524), Zinkionen-Bindung (GO:0008270), RNA -gerichtete 5′-3′ RNA-Polymerase-Aktivität (GO:0003968), Exoribonuklease-Aktivität, die 5′-Phosphomonoester produziert (GO:0016896) und Methyltransferase-Aktivität (GO:0008168).

Tabelle 1

Liste der nicht-strukturellen Proteine ​​in SARS-CoV-2 und ihrer molekularen Funktionen.

S. Nr.BereichProteinname und IDBeschreibungVorgeschlagene Funktion
1.1�Nsp1
<"type":"entrez-protein","attrs":<"text":"YP_009725297.1","term_id":"1802476805","term_text":"YP_009725297.1">> YP_009725297.1
Nsp1 ist das N-terminale Produkt der viralen ReplikaseLeader-Protein-Wirtstranslationsinhibitor. Vermittelt RNA-Replikation und -Prozessierung. Beteiligt am mRNA-Abbau [ 41 ].
2.181�Nsp2
<"type":"entrez-protein","attrs":<"text":"YP_009725298.1","term_id":"1802476806","term_text":"YP_009725298.1">> YP_009725298.1
Nsp2 ist ein Replikaseprodukt, das für das Korrekturlesen der viralen Replikation unerlässlich istModulation des Signalweges für das Überleben der Wirtszelle durch Interaktion mit Wirts-PHB und PHB2 [42].
3.819�Nsp3
<"type":"entrez-protein","attrs":<"text":"YP_009725299.1","term_id":"1802476807","term_text":"YP_009725299.1">> YP_009725299.1
Nsp3 ist eine Papain-ähnliche Proteinase, die mehrere Domänen enthält.Funktioniert als Protease, um das translatierte Polyprotein in seine verschiedenen Proteine ​​zu trennen [43, 44].
4.2764�Nsp4
<"type":"entrez-protein","attrs":<"text":"YP_009725300.1","term_id":"1802476808","term_text":"YP_009725300.1">> YP_009725300.1
Ein membranumspannendes Protein enthält die Transmembrandomäne 2 (TM2)Es wird angenommen, dass es den viralen Replikations-Transkriptions-Komplex an modifizierten ER-Membranen verankert [45].
5.3264�Nsp5
<"type":"entrez-protein","attrs":<"text":"YP_009725301.1","term_id":"1802476809","term_text":"YP_009725301.1">> YP_009725301.1
3C-ähnliche Proteinase und HauptproteinaseBeteiligt an der viralen Polyproteinprozessierung während der Replikation [ 46 ].
6.3570�Nsp6
<"type":"entrez-protein","attrs":<"text":"YP_009725302.1","term_id":"1802476810","term_text":"YP_009725302.1">> YP_009725302.1
Mutmaßliche TransmembrandomäneSpielt eine Rolle bei der anfänglichen Induktion von Autophagosomen aus dem endoplasmatischen Retikulum des Wirts.
7.3860�Nsp7
<"type":"entrez-protein","attrs":<"text":"YP_009725303.1","term_id":"1802476811","term_text":"YP_009725303.1">> YP_009725303.1
Nsp7 ist eine RNA-abhängige RNA-PolymeraseEs bildet mit nsp8 einen hexadekameren Superkomplex, der eine hohlzylinderartige Struktur annimmt, die mit der Replikation verbunden ist [ 47 , 48 ].
8.3943�Nsp8
<"type":"entrez-protein","attrs":<"text":"YP_009725304.1","term_id":"1802476812","term_text":"YP_009725304.1">> YP_009725304.1
Multimere RNA-Polymerase-ReplikaseEs bildet mit nsp7 einen hexadeka-meren Superkomplex, der eine hohlzylindrische Struktur annimmt, die mit der Replikation verbunden ist [ 47 , 48 ].
9.4141�Nsp9
<"type":"entrez-protein","attrs":<"text":"YP_009725305.1","term_id":"1802476813","term_text":"YP_009725305.1">> YP_009725305.1
Ein einzelsträngiges RNA-bindendes virales ProteinBeteiligen Sie sich an der viralen Replikation, indem Sie als ssRNA-bindendes Protein wirken [49].
10.4254�Nsp10
<"type":"entrez-protein","attrs":<"text":"YP_009725306.1","term_id":"1802476814","term_text":"YP_009725306.1">> YP_009725306.1
Wachstumsfaktor-ähnliches Protein enthält zwei Zink-bindende MotiveBei der viralen Transkription durch Stimulierung sowohl von nsp14 3′-5′ Exoribonuklease als auch nsp16 2′-Ö-Methyltransferase-Aktivitäten. Daher spielt die Cap-Methylierung von viralen mRNAs eine wesentliche Rolle [50].
11.4393�Nsp12
<"type":"entrez-protein","attrs":<"text":"YP_009725307.1","term_id":"1802476815","term_text":"YP_009725307.1">> YP_009725307.1
RNA-abhängige RNA-Polymerase
(Pol/RdRp)
Verantwortlich für die Replikation und Transkription des viralen RNA-Genoms [ 51 ].
12.5325�Nsp13
<"type":"entrez-protein","attrs":<"text":"YP_009725308.1","term_id":"1802476816","term_text":"YP_009725308.1">> YP_009725308.1
Zinkbindende Domäne, NTPase/Helikase-Domäne, RNA 5′-TriphosphataseEine Helikase-Kerndomäne, die ATP bindet. Die Zink-bindende Domäne ist an der Replikation und Transkription beteiligt [52, 53].
13.5926�Nsp14
<"type":"entrez-protein","attrs":<"text":"YP_009725309.1","term_id":"1802476817","term_text":"YP_009725309.1">> YP_009725309.1
Korrekturlesen der Exoribonuklease-Domäne (ExoN/nsp14)Exoribonuklease-Aktivität in Richtung 3′ bis 5′ und N7-Guanin-Methyltransferase-Aktivität.
14.6453�Nsp15
<"type":"entrez-protein","attrs":<"text":"YP_009725310.1","term_id":"1802476818","term_text":"YP_009725310.1">> YP_009725310.1
EndoRNAse nsp15-A1 und nsp15B-NendoUMn(2+)-abhängige Endoribonukleaseaktivität
15.6799�Nsp16
<"type":"entrez-protein","attrs":<"text":"YP_009725311.1","term_id":"1802476819","term_text":"YP_009725311.1">> YP_009725311.1
2′-O-Ribose-MethyltransferaseMethyltransferase, die die mRNA-Cap-2′-O-Ribose-Methylierung an die 5′-cap-Struktur viraler mRNAs vermittelt [54].
16.4393-4405Nsp11 <"type":"entrez-protein","attrs":<"text":"YP_009725312.1","term_id":"1802476820","term_text":"YP_009725312.1">> YP_009725312.1Bestehend aus 13 Aminosäuren (sadaqsflngfav) und identisch mit dem ersten Segment von Nsp12.Unbekannt

Um die intrinsisch unstrukturierten Regionen im SARS-CoV-2-Polyprotein zu erforschen, wurde die translatierte Sequenz des SARS-CoV-2-ORF1ab-Polyproteins aus der GenBank abgerufen (Accession ID: <"type":"entrez-nucleotide","attrs":< "text":"NC_045512.2","term_id":"1798174254","term_text":"NC_045512.2">> NC_045512.2). Wir haben die intrinsisch unstrukturierten Regionen im SARS-CoV-2-Polyprotein durch mehrere Prädiktoren wie PONDR® (Predictor of Natural Disordered Regions), VLXT, VL3, VLS2 [ 55 ] und IUPred2A-Webserver [ 56 ] vorhergesagt. Diese Werkzeuge ermöglichten es uns, ungeordnete Proteinregionen zu identifizieren, indem wir die Reste vorhersagen, die im nativen Zustand keine Tendenz zur Bildung einer Struktur aufweisen. Rückstände mit einem Wert von Ϡ,5 Schwellenwerten wurden als intrinsisch ungeordnet angesehen, während Rückstände mit einem Wert zwischen 0,2 und 0,5 als flexibel angesehen wurden. Die Grafik zeigt die Störungstendenz jedes Rests im SARS-CoV-2-Polyprotein, wobei höhere Werte einer höheren Störungswahrscheinlichkeit entsprechen ( 3 ). Die Datenanalyse legt nahe, dass das SARS-CoV-2 einen Teil intrinsisch ungeordneter Regionen aufweist, denen unter nativen Bedingungen eine gut definierte Tertiärstruktur fehlt. Die N-terminale Region von Nsp3 (920�) zeigt eine höhere Tendenz zur Fehlordnung, wie von allen vier Prädiktoren vorhergesagt. Darüber hinaus bietet diese Analyse einen kurzen Einblick in das nicht-strukturelle Proteom sowie die unstrukturierten Proteinregionen des SARS-CoV-2-Polyproteins, die nützlich sein können, um die strukturellen Grundlagen der Infektion, die strukturbasierte Wirkstoffforschung und die Interaktion von SARS . zu verstehen -CoV-2-Proteine ​​mit Wirtsproteinen unter verschiedenen physiologischen Bedingungen.

Diagramm zur Veranschaulichung der Fehlordnungstendenz jedes Rests im SARS-CoV2-Polyprotein. Die gestrichelte Linie ist der Schwellenwert von 0,5.


Verweise

Abbott AG, Zhebentyayeva T, Barakat A, Liu Z (2015)Die genetische Kontrolle des Knospenbruchs bei Bäumen. Erw. Bot-Auflösung: 201–228

Anagnostakis SL (2012)Kastanienzüchtung in den Vereinigten Staaten auf Krankheits- und Insektenresistenz. Plant Dis 96:1392–1403

Anders S, Pyl PT, Huber W (2015) HTSeq – ein Python-Framework für die Arbeit mit Hochdurchsatz-Sequenzierungsdaten. Bioinformatik 31:166–169

Anwar A, She M, Wang K, Riaz B, Ye X (2018)Biologische Rollen der Ornithinaminotransferase (OAT) bei der Stresstoleranz von Pflanzen: gegenwärtiger Fortschritt und zukünftige Perspektiven. Int J Mol Sci 19. https://doi.org/10.3390/ijms19113681

Aranzana MJ, Decroocq V, Dirlewanger E, Eduardo I, Gao ZS, Gasic K, Iezzoni A, Jung S, Peace C, Prieto H, Tao R, Verde I, Abbott AG, Arús P (2019) Prunus Genetik und Anwendungen nach der De-novo-Genomsequenzierung: Erfolge und Perspektiven. Gartenbauforschung 6:58

Arentz F (2017) Phytophthora cinnamomi A1: ein alter Bewohner von Neuguinea und Australien gondwanischer Herkunft? Für Pathol 47:e12342

Auwera GA, Carneiro MO, Hartl C, Poplin R, del Angel G, Levy-Moonshine A, Jordan T, Shakir K, Roazen D, Thibault J, Banks E, Garimella KV, Altshuler D, Gabriel S, DePristo MA (2013) Von FastQ-Daten bis hin zu hochgradig zuverlässigen Variantenaufrufen: die Best Practices-Pipeline des Genomanalyse-Toolkits. Curr Protoc Bioinformatik 43

Bacete L, Mélida H, Miedes E, Molina A (2018)Pflanzenzellwand-vermittelte Immunität: Zellwandveränderungen lösen Krankheitsresistenzreaktionen aus. Pflanze J 93:614–636

Baier K, Maynard C, Powell W (2012)Frühe Blüte bei Kastanienarten, die unter hochintensivem, hochdosiertem Licht in Wachstumskammern induziert wird. J-Amer-Truhe gefunden 26:8–10

Bairoch A, Apweiler R (1998) Die SWISS-PROT Proteinsequenzdatenbank und ihre Ergänzung TrEMBL im Jahr 1998. Nucleic Acids Res 26: 38–42

Bao W, Kojima KK, Kohany O (2015)Repbase Update, eine Datenbank repetitiver Elemente in eukaryotischen Genomen. Mob-DNA 6:11

Barakat A, DiLoreto DS, Zhang Y et al (2009)Vergleich der Transkriptome der Amerikanischen Kastanie (Castanea dentata) und der Chinesischen Kastanie (Castanea mollissima) als Reaktion auf die Kastanienfäule-Infektion. BMC Plant Biol 9:51

Bielenberg DG, Wang Y(E), Li Z et al (2008)Sequenzierung und Annotation des immerwachsenden Locus in Pfirsich [Prunus persica (L.) Batsch] zeigt einen Cluster von sechs MADS-Box-Transkriptionsfaktoren als Kandidatengene für die Regulation der terminalen Knospenbildung. Genet-Genome des Baumes 4:495–507

Bodénès C, Chancerel E, Gailing O, Vendramin GG, Bagnoli F, Durand J, Goicoechea PG, Soliani C, Villani F, Mattioni C, Koelewijn H, Murat F, Salse J, Roussel G, Boury C, Alberto F, Kremer A , Plomion C (2012)Vergleichende Kartierung in den Fagaceae und darüber hinaus mit EST-SSRs. BMC Plant Biol 12:153

Bodénès C, Chancerel E, Ehrenmann F, Kremer A, Plomion C (2016)Hochdichte Kopplungskartierung und Verteilung von Segregationsverzerrungsregionen im Eichengenom. DNA-Res 23:115–124

Breitinstitut Breitinstitut/picard. In: GitHub. https://github.com/broadinstitute/picard. Abgerufen am 19. Dez. 2019

Cahill DM, McComb JA (1992)Ein Vergleich der Veränderungen der Phenylalanin-Ammoniak-Lyase-Aktivität, Lignin- und Phenolsynthese in den Wurzeln von Eukalyptus calophylla (feldfest) und E. Marginata (anfällig) bei Infektion mit Phytophthora cinnamomi. Physiol Mol Pflanzenpathol 40:315–332

Camacho C, Coulouris G, Avagyan V, Ma N, Papadopoulos J, Bealer K, Madden TL (2009) BLAST+: Architektur und Anwendungen. BMC Bioinformatik 10:421

Campoy JA, Ruiz D, Egea J, Rees DJG, Celton JM, Martínez-Gómez P (2011) Vererbung der Blütezeit in Aprikose (Prunus armeniaca L.) und Analyse von verknüpften quantitativen Trait-Loci (QTLs) unter Verwendung von Simple Sequence Repeat (SSR)-Markern. Plant Mol Biol Report 29:404–410

Casasoli M, Derory J, Morera-Dutrey C, Brendel O, Porth I, Guehl JM, Villani F, Kremer A (2006)Vergleich quantitativer Merkmalsorte für adaptive Merkmale zwischen Eiche und Kastanie basierend auf einer Expressions-Sequenz-Tag-Konsensuskarte. Genetik 172:533–546

Charakterisierung TFPCFGG, The French-Italian Public Consortium for Grapevine Genome Characterization (2007) Die Genomsequenz der Weinrebe deutet auf eine uralte Hexaploidisierung in den wichtigsten Angiospermen-Stämmen hin. Natur 449:463–467

Clarke JD (2009)Cetyltrimethylammoniumbromid (CTAB) DNA-Miniprep zur Isolierung von Pflanzen-DNA. Cold Spring Harb Protoc 2009:db.prot5177

Cooke JEK, Eriksson ME, Junttila O (2012)Die dynamische Natur der Knospenruhe in Bäumen: Umweltkontrolle und molekulare Mechanismen. Pflanzenzellumgebung 35:1707–1728

Danecek P, Auton A, Abecasis G, Albers CA, Banks E, DePristo MA, Handsaker RE, Lunter G, Marth GT, Sherry ST, McVean G, Durbin R, 1000 Genomes Project Analysis Group (2011) Das Variantenaufrufformat und VCFtools . Bioinformatik 27:2156–2158

Delgado-Cerrone L, Alvarez A, Mena E, Ponce de León I, Montesano M (2018)Genomweite Analyse der Sojabohnen-CRK-Familie und Transkriptionsregulation durch biotische Stresssignale, die die Pflanzenimmunität auslösen. PLoS One 13:e0207438

Derory J, Scotti-Saintagne C, Bertocchi E, le Dantec L, Graignic N, Jauffres A, Casasoli M, Chancerel E, Bodenes C, Alberto F, Kremer A (2010)Kontrastierende Beziehungen zwischen der Vielfalt der Kandidatengene und der Variation des Knospenausbruchs in natürlichen und segregierenden Populationen europäischer Eichen. Vererbung 105:401-411

Diskin M, Steiner KC, Hebard FV (2006)Wiederherstellung der Merkmale der amerikanischen Kastanie nach Hybridisierung und Rückkreuzungszüchtung, um die von der Knollenfäule verwüsteten Castanea dentata. Für Ecol Manag 223:439–447

Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, ​​Chaisson M, Gingeras TR (2013) STAR: ultraschneller universeller RNA-Seq-Aligner. Bioinformatik 29:15–21

Eddy SR (2011)Beschleunigte Profil-HMM-Suchen. PLoS Comput Biol 7:e1002195

Emms DM, Kelly S (2015)OrthoFinder: Die Lösung fundamentaler Verzerrungen bei Gesamtgenomvergleichen verbessert die Genauigkeit der Orthogruppen-Inferenz dramatisch. Genom Biol 16:157

Endelman JB, Plomion C (2014)LPmerge: ein R-Paket zum Zusammenführen genetischer Karten durch lineare Programmierung. Bioinformatik 30:1623–1624

Engelbrecht J, van den Berg N (2013)Expression von verteidigungsbezogenen Genen gegen Phytophthora cinnamomi in fünf Avocado-Unterlagen. S Afr J Sci 109:1–8

Fan S, Bielenberg DG, Zhebentyayeva TN, Reighard GL, Okie WR, Holland D, Abbott AG (2010)Mapping quantitativer Trait Loci in Verbindung mit Kühlbedarf, Wärmebedarf und Blütedatum in Pfirsich (Prunus persica). Neues Phytol 185:917–930

Fan S, Georgi L, Hebard FV, et al. (2020) Kartierung von QTLs für Resistenz gegen Fäule und morphologische und phänologische Merkmale in Kastanien (Castanea spp.). (in Vorbereitung)

Fang GC, Blackmon BP, Staton ME, Nelson CD, Kubisiak TL, Olukolu BA, Henry D, Zhebentyayeva T, Saski CA, Cheng CH, Monsanto M, Ficklin S, Atkins M, Georgi LL, Barakat A, Wheeler N, Carlson JE , Sederoff R, Abbott AG (2013)Eine physische Karte der chinesischen Kastanie (Castanea mollissima) Genom und seine Integration mit der genetischen Karte. Genet Genome 9:525–537

Freinkel S (2009) Amerikanische Kastanie: Leben, Tod und Wiedergeburt eines perfekten Baumes. Univ of California Press

Gabay G, Dahan Y, Izhaki Y, Faigenboim A, Ben-Ari G, Elkind Y, Flaishman MA (2018) Hochauflösende genetische Kopplungskarte der europäischen Birne (Pyrus Communis) und QTL-Feinkartierung der vegetativen Blütezeit. BMC Plant Biol 18:175

Goodstein DM, Shu S, Howson R, Neupane R, Hayes RD, Fazo J, Mitros T, Dirks W, Hellsten U, Putnam N, Rokhsar DS (2012) Phytozome: eine vergleichende Plattform für Grünpflanzengenomik. Nukleinsäuren Res 40:D1178–D1186

Gremme G, Brendel V, Sparks ME, Kurtz S (2005)Entwicklung eines Softwaretools zur Genstrukturvorhersage in höheren Organismen. Inf Softw Technol 47:965–978

Groover A, Cronk Q (Hrsg.) (2017)Vergleichende und evolutionäre Genomik von Angiospermenbäumen. Springer, Chamä

Hamann T (2015)Der Mechanismus zur Erhaltung der Integrität der Pflanzenzellwand – Konzepte für Organisation und Wirkungsweise. Pflanzenzellphysiologie 56:215–223

Hebard FV (1994)Vererbung von juvenilen morphologischen Merkmalen von Blättern und Stängeln in Kreuzungen von chinesischer und amerikanischer Kastanie. J Hered 85:440–446

Hebard FV (2005)Das Rückkreuzungszuchtprogramm der American Chestnut Foundation. In Proz. der Wiederherstellung der amerikanischen Chestnut to Forest Lands Conference. Steiner, K. C. und J. E. Carlson (Hrsg.)

Hoff KJ, Lange S, Lomsadze A, Borodovsky M, Stanke M (2016)BRAKER1: unüberwachte RNA-Seq-basierte Genom-Annotation mit GeneMark-ET und AUGUSTUS. Bioinformatik 32:767–769

Hung C-Y, Aspesi P Jr, Hunter MR et al (2014)Phosphoinositid-Signalisierung ist eine Komponente einer robusten Pflanzenabwehrreaktion. Front Plant Sci 5:267

International Peach Genome Initiative, Verde I, Abbott AG et al (2013) Das hochwertige Draft-Genom von Pfirsich (Prunus persica) identifiziert einzigartige Muster der genetischen Vielfalt, Domestikation und Genom-Evolution. Nat Genet 45:487–494

Islam-Faridi MN, Childs KL, Klein PE, Hodnett G, Menz MA, Klein RR, Rooney WL, Mullet JE, Stelly DM, Price HJ (2002)Eine molekulare zytogenetische Karte von Sorghumchromosom 1. Fluoreszenz vor Ort Hybridisierungsanalyse mit kartierten bakteriellen künstlichen Chromosomen. Genetik 161:345–353

Islam-Faridi MN, Nelson CD, DiFazio SP et al (2009)Zytogenetische Analyse von Populus trichocarpa--ribosomale DNA, Telomer-Wiederholungssequenz und Marker-selektierte BACs. Zytogenet Genom Res 125:74–80

Jewell DC, Islam-Faridi N (1994)Eine Technik zur somatischen Chromosomenpräparation und C-Bandierung von Mais. Das Mais-Handbuch:484–493

Jiang H, Lei R, Ding S-W, Zhu S (2014)Spieß: ein schneller und genauer Adaptertrimmer für die Sequenzierung von Paired-End-Reads der nächsten Generation. BMC Bioinformatik 15:182

Jiao W-B, Schneeberger K (2017)Der Einfluss von Genomtechnologien der dritten Generation auf die Pflanzengenommontage. Curr Opin Plant Biol 36:64–70

Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, McWilliam H, Maslen J, Mitchell A, Nuka G, Pesseat S, Quinn AF, Sangrador-Vegas A, Scheremetjew M, Yong SY, Lopez R, Hunter S (2014)InterProScan 5: Proteinfunktionsklassifizierung auf Genomskala. Bioinformatik 30: 1236–1240

Kanehisa M, Sato Y, Morishima K (2016) BlastKOALA und GhostKOALA: KEGG-Tools zur funktionellen Charakterisierung von Genom- und Metagenomsequenzen. J. Mol. Biol. 428:726–731

Kang J, Park J, Choi H, Burla B, Kretzschmar T, Lee Y, Martinoia E (2011)Anlagen-ABC-Transporter. Arabidopsis Buch 9:e0153

Kaye Y, Golani Y, Singer Y, Leshem Y, Cohen G, Ercetin M, Gillaspy G, Levine A (2011)Inositol Polyphosphat 5-Phosphatase7 reguliert die Produktion von reaktiven Sauerstoffspezies und Salztoleranz in Arabidopsis. Pflanzenphysiologie 157:229–241

Korneliussen TS, Albrechtsen A, Nielsen R (2014) ANGSD: Analyse von Sequenzierungsdaten der nächsten Generation. BMC Bioinformatik 15:356

Kremer A, Casasoli M, Barreneche T et al (2007)Vergleichende genetische Kartierung bei Fagaceae. In: Kole CR (ed) Genome Mapping & Molecular Breeding in Plants, Vol. 2, No. 7: Waldbäume. Springer, Heidelberg, S. 161–187

Krzywinski M, Schein J, Birol I, Connors J, Gascoyne R, Horsman D, Jones SJ, Marra MA (2009) Circos: eine Informationsästhetik für vergleichende Genomik. Genomauflösung 19:1639–1645

Kubisiak TL, Hebard FV, Nelson CD, Zhang J, Bernatzky R, Huang H, Anagnostakis SL, Doudrick RL (1997)Molekulare Kartierung der Resistenz gegen Fäule in einer interspezifischen Kreuzung in der Gattung Castanea. Phytopathologie 87:751–759

Kubisiak TL, Nelson CD, Staton ME, Zhebentyayeva T, Smith C, Olukolu BA, Fang GC, Hebard FV, Anagnostakis S, Wheeler N, Sisco PH, Abbott AG, Sederoff RR (2013)Eine transkriptombasierte genetische Karte der chinesischen Kastanie (Castanea mollissima) und Identifizierung von Regionen segmentaler Homologie mit Pfirsich (Prunus persica). Genet Genet Genome 9:557–571

LaBonte NR, Zhao P, Woeste K (2018) Signaturen der Selektion in den Genomen der chinesischen Kastanie (Castanea mollissima Blume): die Wurzeln der Nussbaumdomestikation. Front Plant Sci 9

Labuschagné IF, Louw JH, Schmidt K, Sadie A (2003) Knospenzahl bei Apfelsämlingen als Selektionskriterium für verbesserte Anpassungsfähigkeit an milde Winterklimate. HortScience 38:1186-1190

Lamesch P, Berardini TZ, Li D, Swarbreck D, Wilks C, Sasidharan R, Muller R, Dreher K, Alexander DL, Garcia-Hernandez M, Karthikeyan AS, Lee CH, Nelson WD, Ploetz L, Singh S, Wensel A, Huala E (2012)Die Arabidopsis-Informationsressource (TAIR): verbesserte Genannotation und neue Werkzeuge. Nukleinsäuren Res 40:D1202–D1210

Lang P, Dane F, Kubisiak TL, Huang H (2007)Molekulare Beweise für einen asiatischen Ursprung und eine einzigartige Westwanderung von Arten in der Gattung Castanea über Europa nach Nordamerika. Mol Phylogenet Evolution 43:49–59

Lee DS, Kim YC, Kwon SJ, Ryu CM, Park OK (2017)Die Cystein-reiche Rezeptor-ähnliche Kinase CRK36 aus Arabidopsis reguliert die Immunität durch Interaktion mit der zytoplasmatischen Kinase BIK1. Front Plant Sci 8:1856

Li H, Durbin R (2009)Schnelle und genaue Short-Read-Ausrichtung mit Burrows-Wheeler-Transformation. Bioinformatik 25:1754-1760

Liu Z, Zhu H, Abbott A (2015)Schlafverhalten und zugrunde liegende Regulationsmechanismen: aus der Perspektive der Wege zur epigenetischen Regulation. Fortschritte in der Pflanzenruhe 75–105

Luo MC, You FM, Li P, Wang JR, Zhu T, Dandekar AM, Leslie CA, Aradhya M, McGuire PE, Dvorak J (2015)Synteny-Analyse in Rosids mit einer Walnuss-physikalischen Karte zeigt eine langsame Genomentwicklung in langlebigen Holzarten Stauden. BMC Genomics 16:707

Madoui M-A, Engelen S, Cruaud C, Belser C, Bertrand L, Alberti A, Lemainque A, Wincker P, Aury JM (2015)Genomassemblierung mit nanoporengesteuerten langen und fehlerfreien DNA-Reads. BMC Genomics 16:327

McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA (2010) Das Genomanalyse-Toolkit: ein MapReduce-Framework zur Analyse der DNA-Sequenzierung der nächsten Generation Daten. Genomauflösung 20:1297–1303

Miedes E, Vanholme R, Boerjan W, Molina A (2014)Die Rolle der sekundären Zellwand bei der Pflanzenresistenz gegen Krankheitserreger. Front Plant Sci 5:358

Naveed ZA, Huguet-Tapia JC, Ali GS (2019) Transkriptomprofil der Carrizo-Citrange-Wurzeln als Reaktion auf Phytophthora parasitica Infektion. J Pflanzeninteraktion 14:187–204

Nielsen R, Korneliussen T, Albrechtsen A, Li Y, Wang J (2012)SNP-Aufruf, Genotyp-Aufruf und Schätzung der Allelfrequenz der Probe aus Sequenzierungsdaten der neuen Generation. PLoS One 7:e37558

Olukolu BA, Nelson CD, Abbott AG (2012)Kartierung der Resistenz gegen Phytophthora cinnamomi in Kastanien (Castanea sp.). In: In: Sniezko, Richard A. Yanchuk, Alvin D. Kliejunas, John T. Palmieri, Katharine M. Alexander, Janice M. Frankel, Susan J., tech. Koordinaten. Tagungsband des vierten internationalen Workshops zur Genetik von Wirt-Parasit-Interaktionen in der Forstwirtschaft: Krankheits- und Insektenresistenz bei Waldbäumen. Gen. Tech. Rep. PSW-GTR-240. Albany, CA: Pacific Southwest Research Station, Forest Service, US-Landwirtschaftsministerium. P. 177. S. 177

Pereira-Lorenzo S, Costa R, Anagnostakis S, et al (2016)Interspezifische Hybridisierung von Kastanien. Polyploidie und Hybridisierung zur Verbesserung der Kulturpflanzen Boca Raton 377–407

Plomion C, Aury JM, Amselem J, Leroy T, Murat F, Duplessis S, Faye S, Francillonne N, Labadie K, le Provost G, Lesur I, Bartholomé J, Faivre-Rampant P, Kohler A, Leplé JC, Chantret N , Chen J, Diévart A, Alaeitabar T, Barbe V, Belser C, Bergès H, Bodénès C, Bogeat-Triboulot MB, Bouffaud ML, Brachi B, Chancerel E, Cohen D, Couloux A, da Silva C, Dossat C, Ehrenmann F, Gaspin C, Grima-Pettenati J, Guichoux E, Hecker A, Herrmann S, Hugueney P, Hummel I, Klopp C, Lalanne C, Lascoux M, Lasserre E, Lemainque A, Desprez-Loustau ML, Luyten I, Madoui MA , Mangenot S, Marchal C, Maumus F, Mercier J, Michotey C, Panaud O, Picault N, Rouhier N, Rué O, Rustenholz C, Salin F, Soler M, Tarkka M, Velt A, Zanne AE, Martin F, Wincker P, Quesneville H, Kremer A, Salse J (2018) Eichengenom zeigt Facetten einer langen Lebensdauer. Nat Pflanzen 4:440–452

Purcell S, Neale B, Todd-Brown K, Thomas L, Ferreira MAR, Bender D, Maller J, Sklar P, de Bakker PIW, Daly MJ, Sham PC (2007) PLINK: ein Werkzeugsatz für die Gesamtgenom-Assoziation und -Population -basierte Verknüpfungsanalysen. Am J Hum Genet 81:559–575

Raaymakers TM, Van den Ackerveken G (2016)Extrazelluläre Erkennung von Oomyceten während der biotrophen Infektion von Pflanzen. Front Plant Sci 7:906

Raes J, Rohde A, Christensen JH, van de Peer Y, Boerjan W (2003)Genomweite Charakterisierung des Lignifizierungswerkzeugkastens in Arabidopsis. Pflanzenphysiologie 133:1051–1071

Ramos AM, Usié A, Barbosa P, Barros PM, Capote T, Chaves I, Simões F, Abreu I, Carrasquinho I, Faro C, Guimarães JB, Mendonça D, Nóbrega F, Rodrigues L, Saibo NJM, Varela MC, Egas C , Matos J, Miguel CM, Oliveira MM, Ricardo CP, Gonçalves S (2018) Der Entwurf der Genomsequenz der Korkeiche. Wissenschaftsdaten 5:180069

Ribeiro T, Loureiro J, Santos C, Morais-Cecílio L (2011)Evolution von rDNA-FISH-Mustern in den Fagaceae. Tree Genet Genome 7:1113–1122

Robinson SM, Bostock RM (2014)β-Glucane und Eicosapolyensäuren als MAMPs in Pflanzen-Oomyceten-Interaktionen: Vergangenheit und Gegenwart. Vorderseite. Pflanzenwissenschaft 5:797

Santos C, Nelson CD, Zhebentyayeva T, Machado H, Gomes-Laranjo J, Costa RL (2017)Erste interspezifische genetische Kopplungskarte für Castanea sativa x Castanea crenata enthüllte QTLs für Resistenz gegen Phytophthora cinnamomi. PLoS One 12:e0184381

Scotti-Saintagne C, Bodénès C, Barreneche T et al (2004)Nachweis quantitativer Merkmals-Loci, die den Knospenausbruch und das Höhenwachstum kontrollieren Quercus robur L. Theor Appl Genet 109:1648–1659

Serrazina S, Santos C, Machado H, Pesquita C, Vicentini R, Pais MS, Sebastiana M, Costa R (2015) Castanea Wurzeltranskriptom als Reaktion auf Phytophthora cinnamomi Herausforderung. Genet-Genome des Baumes 11

Shi R, Sun Y-H, Li Q, Heber S, Sederoff R, Chiang VL (2010)Auf dem Weg zu einem Systemansatz für die Lignin-Biosynthese in Populus trichocarpa: Transkripthäufigkeit und Spezifität der Monolignol-Biosynthesegene. Pflanzenzellphysiologie 51:144–163

Shim D, Ko J-H, Kim W-C, Wang Q, Keathley DE, Han KH (2014)Ein molekularer Rahmen für die saisonale Wachstums-Ruhe-Regulierung bei mehrjährigen Pflanzen. Hortic-Auflösung 1:14059

Simão FA, Waterhouse RM, Ioannidis P, Kriventseva EV, Zdobnov EM (2015) BUSCO: Bewertung der Genom-Assembly und Annotation-Vollständigkeit mit Einzelkopie-Orthologen. Bioinformatik 31:3210–3212

Smit AFA, Hubley R, Green P (2015) RepeatMasker Open-4.0. 2013--2015

Solovyev V (2004)Statistische Ansätze in der eukaryotischen Genvorhersage. Handbuch der statistischen Genetik

Staton M, Zhebentyayeva T, Olukolu B, Fang GC, Nelson D, Carlson JE, Abbott AG (2015)Erhebliche Erhaltung der Genomsyntenie bei holzigen Angiospermenarten: vergleichende Genomik der chinesischen Kastanie (Castanea mollissima) und pflanzliche Referenzgenome. BMC Genomics 16:744

Steiner KC, Westbrook JW, Hebard FV, Georgi LL, Powell WA, Fitzsimmons SF (2017)Rettung der amerikanischen Kastanie mit extraspezifischen Genen nach ihrer Zerstörung durch einen eingebürgerten Krankheitserreger. Neu für 48:317–336

Tajima F (1989)Statistische Methode zum Testen der neutralen Mutationshypothese durch DNA-Polymorphismus. Genetik 123:585–595

Tauzin AS, Giardina T (2014)Saccharose und Invertasen, ein Teil der Pflanzenabwehrreaktion auf den biotischen Stress. Front Plant Sci 5:293

Teixeira MA, Rajewski A, He J, Castaneda OG, Litt A, Kaloshian I (2018) Klassifikation und phylogenetische Analysen der Arabidopsis und Tomaten-G-Typ-Lectin-Rezeptor-Kinasen. BMC Genomics 19:239

Tennessen JA, Madeoy J, Akey JM (2010)Signaturen einer positiven Selektion, die in einer kleinen Stichprobe menschlicher Exome sichtbar sind. Genomauflösung 20:1327–1334

Toljamo A, Blande D, Kärenlampi S, Kokko H (2016) Umprogrammierung von Erdbeeren (Fragaria vesca) Wurzeltranskriptom als Reaktion auf Phytophthora cactorum. PLoS One 11:e0161078

Tuskan GA, Difazio S, Jansson S et al (2006)Das Genom der schwarzen Pappel, Populus trichocarpa (Torr. & Grau). Wissenschaft 313:1596-1604

Tuskan GA, Groover AT, Schmutz J, DiFazio SP, Myburg A, Grattapaglia D, Smart LB, Yin T, Aury JM, Kremer A, Leroy T, le Provost G, Plomion C, Carlson JE, Randall J, Westbrook J, Grimwood J, Muchero W, Jacobson D, Michener JK (2018) Hartholzbaum-Genomik: Erschließung der Biologie der Holzpflanzen. Front Plant Sci 9:1799

Vaattovaara A, Brandt B, Rajaraman S, Safronov O, Veidenberg A, Luklová M, Kangasjärvi J, Löytynoja A, Hothorn M, Salojärvi J, Wrzaczek M (2019)Mechanistische Einblicke in die Evolution von DUF26-haltigen Proteinen in Landpflanzen. Commun Biol 2:56

van den Berg N, Christie JB, Aveling TAS, Engelbrecht J (2018) Callose und β-1,3-Glucanase hemmen Phytophthora cinnamomi in einem widerstandsfähigen Avocado-Wurzelstock. Pflanzenpathol 67: 1150-1160

Veillet F, Gaillard C, Coutos-Thévenot P, La Camera S (2016) Targeting des AtCWIN1-Gens, um die Rolle von Invertasen beim Saccharosetransport in Wurzeln und während einer Botrytis cinerea-Infektion zu untersuchen. Front Plant Sci 7

Verde I, Jenkins J, Dondini L, et al (2017)Die Veröffentlichung von peach v2.0: Hochauflösendes Kopplungsmapping und tiefe Resequenzierung verbessern die Montage und Kontiguität auf Chromosomenskala. BMC Genomics 18

Westbrook JW, Zhang Q, Mandal MK, et al (2019) Genomische Selektionsanalysen zeigen einen Kompromiss zwischen Kastanienfäule-Toleranz und Genomvererbung aus amerikanischer Kastanie (Castanea dentata) in (C. dentatax Prunus) x C. dentata Rückkreuzungspopulationen

Wilkinson L (2011) ggplot2: elegante Grafiken zur Datenanalyse von WICKHAM, H. Biometrics 67:678–679

Williams SP, Gillaspy GE, Perera IY (2015)Biosynthese und mögliche Funktionen von Inositolpyrophosphaten in Pflanzen. Front Plant Sci 6:67

Xing Y, Liu Y, Zhang Q, Nie X, Sun Y, Zhang Z, Li H, Fang K, Wang G, Huang H, Bisseling T, Cao Q, Qin L (2019) Hybrid de novo Genomassembly of Chinese Kastanie (Castanea mollissima). Gigascience 8. https://doi.org/10.1093/gigascience/giz112

Zentmyer GA (1988)Ursprung und Verbreitung von vier Phytophthora-Arten. Trans Br Mycol Soc 91:367–378

Zhebentyayeva T, Chandra A, Abbott AG, et al. (2012)Genetische und genomische Ressourcen zur Kartierung der Resistenz gegen Phytophthora cinnamomi in Kastanie. In: V. Internationales Kastaniensymposium 1019. S. 263–270

Zhebentyayeva TN, Sisco PH, Georgi LL, Jeffers SN, Perkins MT, James JB, Hebard FV, Saski C, Nelson CD, Abbott AG (2019) Sezierende Resistenz gegen Phytophthora cinnamomi in interspezifischen Hybrid-Kastanienkreuzungen unter Verwendung von sequenzbasierter Genotypisierung und QTL-Kartierung. Phytopathologie 109:1594–1604


Wie bei jeder Art von Karte muss eine genetische Karte die Positionen der Unterscheidungsmerkmale zeigen. In einer geografischen Karte sind diese Markierungen erkennbare Bestandteile der Landschaft, wie Flüsse, Straßen und Gebäude. Welche Marker können wir in einer genetischen Landschaft verwenden?

5.2.1. Gene waren die ersten Marker, die verwendet wurden

Die ersten genetischen Karten, die in den frühen Jahrzehnten des 20. Jahrhunderts für Organismen wie die Fruchtfliege erstellt wurden, verwendeten Gene als Marker. Dies war viele Jahre, bevor verstanden wurde, dass Gene Segmente von DNA-Molekülen sind. Stattdessen wurden Gene als abstrakte Einheiten betrachtet, die für die Übertragung vererbbarer Merkmale von Eltern zu Nachkommen verantwortlich sind. Um in der genetischen Analyse nützlich zu sein, muss ein vererbbares Merkmal in mindestens zwei alternativen Formen oder Phänotypen existieren, beispielsweise hohe oder kurze Stängel bei den ursprünglich von Mendel untersuchten Erbsenpflanzen. Jeder Phänotyp wird durch ein anderes Allel des entsprechenden Gens spezifiziert. Zunächst konnten nur Gene untersucht werden, die Phänotypen spezifizieren, die durch visuelle Untersuchung unterscheidbar waren. So zeigten zum Beispiel die ersten Fruchtfliegenkarten die Positionen von Genen für Körperfarbe, Augenfarbe, Flügelform und dergleichen, wobei alle diese Phänotypen schon beim Betrachten der Fliegen mit einem Low-Power-Mikroskop oder mit bloßem Auge sichtbar waren . Dieser Ansatz war in der Anfangszeit gut, aber Genetiker erkannten bald, dass es nur eine begrenzte Anzahl von visuellen Phänotypen gab, deren Vererbung untersucht werden konnte, und in vielen Fällen war ihre Analyse kompliziert, da ein einzelner Phänotyp von mehr als einem Gen beeinflusst werden konnte. Zum Beispiel waren bis 1922 über 50 Gene auf den vier Fruchtfliegen-Chromosomen abgebildet, aber neun davon waren für die Augenfarbe in späteren Forschungen, Genetiker, die Fruchtfliegen untersuchten, mussten lernen, zwischen roten und hellroten Fliegenaugen zu unterscheiden , Zinnober, Granat, Nelke, Zinnober, Rubin, Sepia, Scharlach, Rosa, Kardinal, Bordeaux, Lila oder Braun. Um die Genkarten umfassender zu gestalten, müssten Merkmale gefunden werden, die ausgeprägter und weniger komplex sind als visuelle.

Die Antwort war die Verwendung von Biochemie, um Phänotypen zu unterscheiden. Dies war bei zwei Arten von Organismen besonders wichtig – Mikroben und Menschen. Mikroben wie Bakterien und Hefen haben nur sehr wenige visuelle Merkmale, sodass die Genkartierung mit diesen Organismen auf biochemischen Phänotypen beruhen muss, wie sie in Tabelle 5.1 aufgeführt sind. Beim Menschen ist es möglich, visuelle Merkmale zu verwenden, aber seit den 1920er Jahren basieren Studien zur genetischen Variation beim Menschen weitgehend auf biochemischen Phänotypen, die durch Blutgruppenbestimmung erfasst werden können. Zu diesen Phänotypen zählen nicht nur die Standardblutgruppen wie die ABO-Serie (Yamamoto et al., 1990), aber auch Varianten von Blutserumproteinen und von immunologischen Proteinen wie den humanen Leukozytenantigenen (das HLA-System). Ein großer Vorteil dieser Marker ist, dass viele der relevanten Gene mehrere Allele aufweisen. Zum Beispiel das Gen namens HLA-DRB1 hat mindestens 290 Allele und HLA-B hat über 400. Dies ist relevant wegen der Art und Weise, wie die Genkartierung beim Menschen durchgeführt wird (Abschnitt 5.2.4). Anstatt viele Zuchtexperimente durchzuführen, wie es mit Versuchsorganismen wie Fruchtfliegen oder Mäusen der Fall ist, müssen Daten zur Vererbung menschlicher Gene durch die Untersuchung der Phänotypen von Mitgliedern einer einzigen Familie gewonnen werden. Wenn alle Familienmitglieder das gleiche Allel für das untersuchte Gen aufweisen, können keine nützlichen Informationen erhalten werden. Es ist daher erforderlich, dass die betreffenden Ehen zufällig zwischen Individuen mit unterschiedlichen Allelen stattgefunden haben. Dies ist viel wahrscheinlicher, wenn das untersuchte Gen 290 statt zwei Allele hat.

Tabelle 5.1

Typische biochemische Marker für die genetische Analyse von Saccharomyces cerevisiae.

5.2.2. DNA-Marker für die genetische Kartierung

Gene sind sehr nützliche Marker, aber sie sind keineswegs ideal. Ein Problem, insbesondere bei größeren Genomen wie denen von Wirbeltieren und Blütenpflanzen, besteht darin, dass eine vollständig auf Genen basierende Karte nicht sehr detailliert ist. Dies würde selbst dann zutreffen, wenn jedes Gen kartiert werden könnte, da, wie wir in Kapitel 2 gesehen haben, die Gene in den meisten eukaryotischen Genomen weit auseinanderliegen und große Lücken zwischen ihnen haben (siehe Abbildung 2.2). Das Problem wird dadurch verschlimmert, dass nur ein Bruchteil der Gesamtzahl der Gene in bequem unterscheidbaren Allelformen existiert. Genkarten sind daher nicht sehr umfassend. Wir brauchen andere Arten von Markierungen.

Kartierte Merkmale, die keine Gene sind, werden als DNA-Marker bezeichnet. Wie bei Genmarkern muss ein DNA-Marker mindestens zwei Allele aufweisen, um nützlich zu sein. Es gibt drei Arten von DNA-Sequenzmerkmalen, die diese Anforderung erfüllen: Restriktionsfragmentlängenpolymorphismen (RFLPs), einfache Sequenzlängenpolymorphismen (SSLPs) und Einzelnukleotidpolymorphismen (SNPs).

Restriktionsfragmentlängenpolymorphismen (RFLPs)

RFLPs waren die ersten untersuchten DNA-Marker. Denken Sie daran, dass Restriktionsenzyme DNA-Moleküle an bestimmten Erkennungssequenzen schneiden (Abschnitt 4.1.2). Diese Sequenzspezifität bedeutet, dass die Behandlung eines DNA-Moleküls mit einem Restriktionsenzym immer den gleichen Satz von Fragmenten produzieren sollte. Dies ist bei genomischen DNA-Molekülen nicht immer der Fall, da einige Restriktionsstellen polymorph sind und als zwei Allele existieren, wobei ein Allel die richtige Sequenz für die Restriktionsstelle aufweist und daher geschnitten wird, wenn die DNA mit dem Enzym behandelt wird, und das zweite Allel eine Sequenzänderung, so dass die Restriktionsstelle nicht mehr erkannt wird. Die Folge der Sequenzänderung ist, dass die beiden benachbarten Restriktionsfragmente nach der Behandlung mit dem Enzym miteinander verbunden bleiben, was zu einem Längenpolymorphismus führt (Abbildung 5.4). Dies ist ein RFLP, und seine Position auf einer Genomkarte kann durch Verfolgen der Vererbung seiner Allele ermittelt werden, genauso wie es bei der Verwendung von Genen als Marker der Fall ist. Es wird angenommen, dass es im menschlichen Genom etwa 10 5 RFLPs gibt, aber natürlich kann es für jedes RFLP nur zwei Allele (mit und ohne die Stelle) geben. Der Wert von RFLPs bei der Humangenkartierung wird daher durch die hohe Wahrscheinlichkeit begrenzt, dass das untersuchte RFLP keine Variabilität zwischen den Mitgliedern einer interessanten Familie aufweist.

Abbildung 5.4

Ein Restriktionsfragmentlängenpolymorphismus (RFLP). Das DNA-Molekül auf der linken Seite hat eine polymorphe Restriktionsstelle (markiert mit dem Sternchen), die im Molekül auf der rechten Seite nicht vorhanden ist. Das RFLP wird nach der Behandlung mit dem Restriktionsenzym aufgedeckt (mehr.)

Um ein RFLP zu bewerten, ist es notwendig, die Größe von nur einem oder zwei einzelnen Restriktionsfragmenten vor dem Hintergrund vieler irrelevanter Fragmente zu bestimmen. Das ist kein triviales Problem: Ein Enzym wie ÖkoRI mit einer 6-bp-Erkennungssequenz sollte ungefähr einmal alle 4 6 = 4096 bp schneiden und würde so fast 800.000 Fragmente ergeben, wenn es mit menschlicher DNA verwendet wird. Nach der Trennung durch Agarosegelelektrophorese (siehe Technische Anmerkung 2.1) ergeben diese 800 000 Fragmente einen Abstrich und das RFLP kann nicht unterschieden werden. Die Southern-Hybridisierung unter Verwendung einer Sonde, die die polymorphe Restriktionsstelle überspannt, bietet eine Möglichkeit, das RFLP sichtbar zu machen (Abbildung 5.5A), aber heutzutage wird PCR häufiger verwendet. Die Primer für die PCR sind so konzipiert, dass sie auf beiden Seiten der polymorphen Stelle anlagern, und das RFLP wird typisiert, indem das amplifizierte Fragment mit dem Restriktionsenzym behandelt und dann eine Probe in einem Agarosegel laufen gelassen wird (Abbildung 5.5B).

Abbildung 5.5

Zwei Methoden zum Bewerten eines RFLP. (A) RFLPs können durch Southern-Hybridisierung bewertet werden. Die DNA wird mit dem entsprechenden Restriktionsenzym verdaut und in einem Agarosegel aufgetrennt. Der Ausstrich von Restriktionsfragmenten wird auf eine Nylonmembran übertragen und (mehr.)

Einfache Sequenzlängenpolymorphismen (SSLPs)

SSLPs sind Arrays von Wiederholungssequenzen, die Längenvariationen aufweisen, unterschiedliche Allele mit unterschiedlicher Anzahl von Wiederholungseinheiten (Abbildung 5.6A). Im Gegensatz zu RFLPs können SSLPs multiallelisch sein, da jedes SSLP eine Reihe unterschiedlicher Längenvarianten aufweisen kann. Es gibt zwei Arten von SSLP, die beide in Abschnitt 2.4.1 beschrieben wurden:

Abbildung 5.6

SSLPs und wie sie typisiert werden. (A) Zwei Allele eines Mikrosatelliten SSLP. In Allel 1 wird das Motiv ‘GA’ dreimal und in Allel 2 fünfmal wiederholt. (B) Wie das SSLP durch PCR typisiert werden könnte. Die Region rund um das SSLP (mehr.)

Mikrosatelliten sind aus zwei Gründen als DNA-Marker beliebter als Minisatelliten. Erstens sind Minisatelliten nicht gleichmäßig über das Genom verteilt, sondern eher in den Telomerregionen an den Enden der Chromosomen zu finden. Geographisch gesehen ist dies gleichbedeutend mit dem Versuch, sich mit einer Karte von Leuchttürmen in der Mitte einer Insel zurechtzufinden. Mikrosatelliten sind bequemer über das Genom verteilt. Zweitens ist der schnellste Weg, einen Längenpolymorphismus zu typisieren, die PCR (Abbildung 5.6B), aber die PCR-Typisierung ist bei Sequenzen mit einer Länge von weniger als 300 bp viel schneller und genauer. Die meisten Minisatelliten-Allele sind länger als diese, da die Wiederholungseinheiten relativ groß sind und viele davon in einem einzigen Array vorhanden sind, sodass PCR-Produkte von mehreren kb benötigt werden, um sie zu typisieren. Typische Mikrosatelliten bestehen aus 10� Kopien einer Wiederholung, die normalerweise nicht länger als 4 bp ist, und sind daher für die Analyse durch PCR viel zugänglicher. Es gibt 6,5 × 10 5 Mikrosatelliten im menschlichen Genom (siehe Tabelle 1.3).

Einzelnukleotidpolymorphismen (SNPs)

Dies sind Positionen in einem Genom, an denen einige Individuen ein Nukleotid (z. B. ein G) und andere ein anderes Nukleotid (z. B. ein C) haben (Abbildung 5.7). In jedem Genom gibt es eine große Zahl von SNPs, von denen einige auch zu RFLPs führen, viele jedoch nicht, weil die Sequenz, in der sie liegen, von keinem Restriktionsenzym erkannt wird. Im menschlichen Genom gibt es mindestens 1,42 Millionen SNPs, von denen nur 100 000 zu einem RFLP führen (SNP Group, 2001).

Abbildung 5.7

Ein einzelner Nukleotidpolymorphismus (SNP).

Obwohl jeder SNP potenziell vier Allele aufweisen könnte (da es vier Nukleotide gibt), existieren die meisten nur in zwei Formen, sodass diese Marker hinsichtlich der humangenetischen Kartierung denselben Nachteil haben wie RFLPs: Es besteht eine hohe Wahrscheinlichkeit, dass ein SNP zeigt keine Variabilität in der untersuchten Familie. Die Vorteile von SNPs sind ihre große Anzahl und die Tatsache, dass sie mit Methoden ohne Gelelektrophorese typisiert werden können. Dies ist wichtig, da sich die Gelelektrophorese als schwierig zu automatisieren erwiesen hat, so dass jedes Nachweisverfahren, das sie verwendet, relativ langsam und arbeitsintensiv ist. Der SNP-Nachweis ist schneller, da er auf der Oligonukleotid-Hybridisierungsanalyse basiert. Ein Oligonukleotid ist ein kurzes einzelsträngiges DNA-Molekül, normalerweise weniger als 50 Nukleotide lang, das im Reagenzglas synthetisiert wird. Wenn die Bedingungen stimmen, hybridisiert ein Oligonukleotid nur dann mit einem anderen DNA-Molekül, wenn das Oligonukleotid mit dem zweiten Molekül eine vollständig basengepaarte Struktur bildet. Bei einer einzelnen Fehlpaarung – einer einzelnen Position innerhalb des Oligonukleotids, die kein Basenpaar bildet – findet keine Hybridisierung statt (Abbildung 5.8). Die Oligonukleotid-Hybridisierung kann daher zwischen den beiden Allelen eines SNPs unterscheiden. Es wurden verschiedene Screening-Strategien entwickelt (Mir und Southern, 2000), einschließlich der DNA-Chip-Technologie (Technical Note 5.1) und Lösungshybridisierungstechniken.

Abbildung 5.8

Die Oligonukleotid-Hybridisierung ist sehr spezifisch. Unter hochstringenten Hybridisierungsbedingungen kommt es nur dann zu einem stabilen Hybrid, wenn das Oligonukleotid mit der Ziel-DNA eine vollständig basengepaarte Struktur ausbilden kann. Wenn es eine einzelne Abweichung gibt, dann (mehr.)

Kasten 5.1

DNA-Mikroarrays und Chips. Hochdichte Arrays von DNA-Molekülen für parallele Hybridisierungsanalysen. DNA-Mikroarrays und -Chips sind so konzipiert, dass viele Hybridisierungsexperimente parallel durchgeführt werden können. Ihre Hauptanwendungen liegen im Screening (mehr.)

Abbildung 5.9

Eine Möglichkeit zum Nachweis eines SNP durch Lösungshybridisierung. Die Oligonukleotidsonde hat zwei Endmarkierungen. Einer davon ist ein Fluoreszenzfarbstoff und der andere ist eine Löschverbindung. Die beiden Enden des Oligonukleotid-Basenpaares zueinander, also die fluoreszierenden (mehr.)

Kasten 5.1

Warum haben SNPs nur zwei Allele? Jedes der vier Nukleotide könnte an jeder Position im Genom vorhanden sein, so dass man sich vorstellen könnte, dass jeder einzelne Nukleotidpolymorphismus (SNP) vier Allele aufweisen sollte. Theoretisch ist dies möglich, aber in der Praxis (mehr.)

5.2.3. Die Kopplungsanalyse ist die Grundlage der genetischen Kartierung

Nachdem wir nun eine Reihe von Markern zusammengestellt haben, mit denen eine genetische Karte erstellt werden kann, können wir uns die Kartierungstechniken selbst ansehen. Diese Techniken basieren alle auf genetischer Verknüpfung, die wiederum auf die bahnbrechenden Entdeckungen in der Genetik von Gregor Mendel Mitte des 19. Jahrhunderts zurückgeht.

Die Prinzipien der Vererbung und der Entdeckung der Bindung

Die genetische Kartierung basiert auf den Prinzipien der Vererbung, wie sie erstmals 1865 von Gregor Mendel beschrieben wurden (Orel, 1995). Aus den Ergebnissen seiner Zuchtversuche mit Erbsen schloss Mendel, dass jede Erbsenpflanze zwei Allele für jedes Gen besitzt, aber nur einen Phänotyp aufweist. Dies ist leicht zu verstehen, wenn die Pflanze reinrassig oder homozygot für ein bestimmtes Merkmal ist, da sie dann zwei identische Allele besitzt und den entsprechenden Phänotyp aufweist (Abbildung 5.10A). Mendel zeigte jedoch, dass, wenn zwei reinrassige Pflanzen mit unterschiedlichen Phänotypen gekreuzt werden, alle Nachkommen (die F1 Generation) den gleichen Phänotyp aufweisen. Diese F1 Pflanzen müssen heterozygot sein, das heißt, sie besitzen zwei verschiedene Allele, eines für jeden Phänotyp, ein Allel von der Mutter und eines vom Vater geerbt. Mendel postulierte, dass in diesem heterozygoten Zustand ein Allel die Wirkungen des anderen Allels überlagert, und beschrieb daher den im F . exprimierten Phänotyp1 Pflanzen als dominant gegenüber dem zweiten, rezessiven Phänotyp (Abbildung 5.10B). Dies ist die vollkommen korrekte Interpretation der Interaktion zwischen den von Mendel untersuchten Allelenpaaren, aber wir wissen jetzt, dass diese einfache dominant-rezessive Regel durch Situationen kompliziert werden kann, denen er nicht begegnet ist. Eine davon ist die unvollständige Dominanz, bei der der heterozygote Phänotyp zwischen den beiden homozygoten Formen liegt. Ein Beispiel ist, wenn rote Nelken mit weißen gekreuzt werden, das F1 Heterozygoten sind rosa. Eine weitere Komplikation ist die Kodominanz, wenn beide Allele im Heterozygoten nachweisbar sind. Kodominanz ist die typische Situation für DNA-Marker.

Abbildung 5.10

Homozygotie und Heterozygotie. Mendel untersuchte sieben Paare kontrastierender Merkmale seiner Erbsenpflanzen, darunter eine violette und weiße Blütenfarbe, wie hier gezeigt. (A) Reinzuchtpflanzen bringen immer Blüten mit der Elternfarbe hervor. (mehr. )

Mendel entdeckte nicht nur Dominanz und Rezessivität, sondern führte auch weitere Kreuzungen durch, die es ihm ermöglichten, zwei Gesetze der Genetik aufzustellen. Das Erste Gesetz besagt, dass Allele trennen sich zufällig. Mit anderen Worten, wenn die Allele der Eltern EIN und ein, dann Mitglied der F1 Generation hat die gleiche Chance zu erben EIN wie es vom Vererben hat ein (Abbildung 5.11A). Das Zweite Gesetz ist das Paare von Allelen trennen sich unabhängig voneinander, so dass die Vererbung der Allele von Gen A unabhängig von der Vererbung der Allele von Gen B ist (Abbildung 5.11B). Aufgrund dieser Gesetze sind die Ergebnisse genetischer Kreuzungen vorhersehbar (Abbildung 5.11C).

Abbildung 5.11

Die Mendelschen Gesetze ermöglichen die Vorhersage des Ergebnisses genetischer Kreuzungen. (A) Das erste Mendelsche Gesetz besagt, dass sich Allele zufällig segregieren. Das Beispiel zeigt die Vererbung von Allelen EIN und ein in einer Kreuzung mit zwei heterozygoten Eltern. Jedes Mitglied der F1 Generation (mehr.)

Als Mendels Arbeit im Jahr 1900 wiederentdeckt wurde, beunruhigte sein Zweiter Hauptsatz die frühen Genetiker, weil sich bald herausstellte, dass Gene auf Chromosomen sitzen, und es wurde erkannt, dass alle Organismen viel mehr Gene als Chromosomen haben. Chromosomen werden als intakte Einheiten vererbt, daher wurde vermutet, dass die Allele einiger Genpaare zusammen vererbt werden, weil sie sich auf demselben Chromosom befinden (Abbildung 5.12). Dies ist das Prinzip der genetischen Kopplung, und es erwies sich schnell als richtig, obwohl die Ergebnisse nicht ganz wie erwartet ausfielen. Die erwartete vollständige Verknüpfung vieler Genpaare blieb aus. Genpaare wurden entweder unabhängig voneinander vererbt, wie es für Gene in verschiedenen Chromosomen zu erwarten war, oder, wenn sie eine Kopplung zeigten, war es nur eine partielle Kopplung: manchmal wurden sie zusammen vererbt und manchmal nicht (Abbildung 5.13). Die Auflösung dieses Widerspruchs zwischen Theorie und Beobachtung war der entscheidende Schritt bei der Entwicklung genetischer Kartierungstechniken.

Abbildung 5.12

Gene auf demselben Chromosom sollten eine Verknüpfung aufweisen. Die Gene A und B befinden sich auf demselben Chromosom und sollten daher zusammen vererbt werden. Mendels zweiter Hauptsatz sollte daher nicht für die Vererbung von A und B gelten, sondern gilt für die Vererbung von A und C, (mehr.)

Abbildung 5.13

Teilweise Verknüpfung. Die partielle Verknüpfung wurde Anfang des 20. Jahrhunderts entdeckt. Das hier gezeigte Kreuz wurde 1905 von Bateson, Saunders und Punnett mit Zuckererbsen ausgeführt. Das Elternkreuz ergibt das typische Dihybrid-Ergebnis (siehe Abbildung 5.11C), wobei alle (mehr. )

Partielle Kopplung wird durch das Verhalten der Chromosomen während der Meiose erklärt

Der entscheidende Durchbruch gelang Thomas Hunt Morgan, der den konzeptionellen Sprung zwischen partieller Verknüpfung und dem Verhalten von Chromosomen bei der Zellteilung vollzog. Zytologen hatten im späten 19. Jahrhundert zwei Arten der Kernteilung unterschieden: Mitose und Meiose. Häufiger ist die Mitose, bei der sich der diploide Kern einer Körperzelle teilt, um zwei Tochterkerne zu bilden, die beide diploid sind (Abbildung 5.14). Ungefähr 10 17 Mitosen werden benötigt, um alle Zellen zu produzieren, die während eines menschlichen Lebens benötigt werden. Bevor die Mitose beginnt, wird jedes Chromosom im Zellkern repliziert, aber die resultierenden Tochterchromosomen lösen sich nicht sofort voneinander. Sie bleiben zunächst an ihren Zentromeren und an Cohesinproteinen befestigt, die als ‘molekularer Klebstoff’ die Arme der replizierten Chromosomen zusammenhalten (siehe Abbildung 13.23). Die Töchter trennen sich erst später in der Mitose, wenn die Chromosomen auf die beiden neuen Kerne verteilt werden. Offensichtlich ist es wichtig, dass jeder der neuen Kerne einen vollständigen Chromosomensatz erhält, und die meisten Feinheiten der Mitose scheinen diesem Ziel gewidmet zu sein.

Abbildung 5.14

Mitose. Während der Interphase (der Zeit zwischen den Kernteilungen) befinden sich die Chromosomen in ihrer ausgedehnten Form (Abschnitt 2.2.1). Zu Beginn der Mitose verdichten sich die Chromosomen und bilden mit späterer Prophase Strukturen, die mit dem Licht sichtbar sind (mehr.)

Die Mitose veranschaulicht die grundlegenden Ereignisse, die während der Kernteilung auftreten, ist aber für die genetische Kartierung nicht direkt relevant. Stattdessen interessieren uns die Besonderheiten der Meiose. Meiose tritt nur in Fortpflanzungszellen auf und führt zu einer diploiden Zelle, die vier haploide Gameten hervorbringt, von denen jeder anschließend während der sexuellen Fortpflanzung mit einem Gameten des anderen Geschlechts verschmelzen kann. Dass die Meiose zu vier haploiden Zellen führt, während die Mitose zu zwei diploiden Zellen führt, ist leicht zu erklären: Bei der Meiose handelt es sich um zwei Kernteilungen hintereinander, während die Mitose nur eine einzige Kernteilung ist. Dies ist ein wichtiger Unterschied, aber der entscheidende Unterschied zwischen Mitose und Meiose ist subtiler. Denken Sie daran, dass es in einer diploiden Zelle zwei separate Kopien jedes Chromosoms gibt (Kapitel 1). Wir bezeichnen diese als Paare homologer Chromosomen. Während der Mitose bleiben homologe Chromosomen voneinander getrennt, jedes Mitglied des Paares repliziert und wird unabhängig von seinem Homolog an einen Tochterkern weitergegeben. Bei der Meiose sind die homologen Chromosomenpaare jedoch keineswegs unabhängig. Während der Meiose I reiht sich jedes Chromosom mit seinem Homologen zu einem Bivalent zusammen (Abb. 5.15). Dies geschieht, nachdem sich jedes Chromosom repliziert hat, aber bevor sich die replizierten Strukturen aufspalten, sodass das Bivalent tatsächlich vier Chromosomenkopien enthält, von denen jede dazu bestimmt ist, ihren Weg in eine der vier Gameten zu finden, die am Ende der Meiose produziert werden . Innerhalb des Bivalents können die Chromosomenarme (die Chromatiden) physikalisch brechen und DNA-Segmente austauschen. Der Vorgang wird Crossing-over oder Rekombination genannt und wurde 1909 vom belgischen Zytologen Janssens entdeckt. Dies war nur 2 Jahre, bevor Morgan anfing, über partielle Kopplung nachzudenken.

Abbildung 5.15

Meiose. Die Ereignisse, an denen ein Paar homologer Chromosomen beteiligt ist, werden gezeigt, ein Mitglied des Paares ist rot, das andere blau. Zu Beginn der Meiose kondensieren die Chromosomen und jedes homologe Paar reiht sich zu einem Bivalent zusammen. Innerhalb der bivalenten Überkreuzung (mehr. )

Wie half die Entdeckung des Crossing-Over Morgan, die partielle Kopplung zu erklären? Um dies zu verstehen, müssen wir über die Auswirkungen nachdenken, die Crossing-over auf die Vererbung von Genen haben kann. Betrachten wir zwei Gene, von denen jedes zwei Allele hat. Wir nennen das erste Gen A und seine Allele EIN und ein, und das zweite Gen B mit Allelen B und B. Stellen Sie sich vor, dass sich die beiden Gene auf Chromosom 2 von befinden Drosophila melanogaster, die von Morgan untersuchte Fruchtfliegenart. Wir werden die Meiose eines diploiden Kerns verfolgen, bei dem eine Kopie von Chromosom 2 Allele hat EIN und B, und der zweite hat ein und B. Diese Situation ist in Abbildung 5.16 dargestellt. Betrachten Sie die beiden alternativen Szenarien:

Abbildung 5.16

Die Wirkung eines Crossovers auf verknüpfte Gene. Die Zeichnung zeigt ein Paar homologe Chromosomen, eines rot und das andere blau. A und B sind mit Allelen verknüpfte Gene EIN, ein, B und B. Links eine Meiose ohne Crossover zwischen A und B: zwei der resultierenden (mehr.)

Ein Crossover zwischen den Genen A und B findet nicht statt. Wenn dies der Fall ist, enthalten zwei der resultierenden Gameten Chromosomenkopien mit Allelen EIN und B, und die anderen beiden enthalten ein und B. Mit anderen Worten, zwei der Gameten haben den Genotyp AB und zwei haben den Genotyp ab.

Es kommt zu einem Crossover zwischen den Genen A und B. Dies führt dazu, dass DNA-Segmente, die das Gen B enthalten, zwischen homologen Chromosomen ausgetauscht werden. Das Ergebnis ist, dass jeder Gamet einen anderen Genotyp hat: 1 AB, 1 aB, 1 Ab, 1 ab.

Denken Sie jetzt darüber nach, was passieren würde, wenn wir die Ergebnisse der Meiose in hundert identischen Zellen betrachten würden. Wenn keine Kreuzungen auftreten, haben die resultierenden Gameten die folgenden Genotypen:

Dies ist eine vollständige Verknüpfung: Die Gene A und B verhalten sich während der Meiose wie eine einzige Einheit. Wenn jedoch (was wahrscheinlicher ist) in einigen Kernen Crossovers zwischen A und B auftreten, werden die Allelpaare nicht als einzelne Einheiten vererbt. Nehmen wir an, dass während 40 der 100 Meiosen Übergänge auftreten. Es entstehen folgende Gameten:

Die Verknüpfung ist nicht vollständig, sondern nur teilweise. Auch die beiden elterlich Genotypen (AB, ab) sehen wir Gameten mit rekombinanten Genotypen (Ab, aB).

Von der Teilverknüpfung zur genetischen Kartierung

Nachdem Morgan verstanden hatte, wie eine partielle Kopplung durch Crossing-over während der Meiose erklärt werden kann, war er in der Lage, einen Weg zu finden, die relativen Positionen von Genen auf einem Chromosom zu kartieren. Tatsächlich wurde die wichtigste Arbeit nicht von Morgan selbst, sondern von einem Studenten in seinem Labor, Arthur Sturtevant, geleistet (Sturtevant, 1913). Sturtevant ging davon aus, dass das Crossing-Over ein zufälliges Ereignis war, das mit gleicher Wahrscheinlichkeit an jeder Position entlang eines Paares von aufgereihten Chromatiden auftritt. Wenn diese Annahme zutrifft, werden zwei nahe beieinander liegende Gene seltener durch Crossovers getrennt als zwei weiter entfernte Gene. Darüber hinaus ist die Häufigkeit, mit der die Gene durch Crossovers getrennt werden, direkt proportional dazu, wie weit sie auf ihrem Chromosom voneinander entfernt sind. Die Rekombinationsfrequenz ist somit ein Maß für den Abstand zwischen zwei Genen. Wenn Sie die Rekombinationsfrequenzen für verschiedene Genpaare berechnen, können Sie eine Karte ihrer relativen Positionen auf dem Chromosom erstellen (Abbildung 5.17).

Abbildung 5.17

Ausarbeiten einer genetischen Karte aus Rekombinationsfrequenzen. Das Beispiel ist den Originalversuchen von Arthur Sturtevant mit Fruchtfliegen entnommen. Alle vier Gene befinden sich auf dem X-Chromosom der Fruchtfliege. Rekombinationsfrequenzen zwischen (mehr.)

Es stellt sich heraus, dass Sturtevants Annahme über die Zufälligkeit von Übergängen nicht ganz gerechtfertigt war. Vergleiche zwischen genetischen Karten und den tatsächlichen Positionen von Genen auf DNA-Molekülen, die durch physikalische Kartierung und DNA-Sequenzierung aufgedeckt wurden, haben gezeigt, dass einige Chromosomenregionen, sogenannte Rekombinations-Hotspots, eher an Crossovers beteiligt sind als andere. Dies bedeutet, dass eine genetische Kartenentfernung nicht unbedingt die physikalische Entfernung zwischen zwei Markern angibt (siehe Abbildung 5.22). Außerdem erkennen wir jetzt, dass ein einzelnes Chromatid gleichzeitig an mehr als einem Crossover teilnehmen kann, dass es jedoch Einschränkungen gibt, wie nah diese Kreuzungen beieinander liegen können, was zu mehr Ungenauigkeiten im Kartierungsverfahren führt. Trotz dieser Qualifikationen macht die Kopplungsanalyse in der Regel korrekte Schlussfolgerungen über die Genreihenfolge, und Entfernungsschätzungen sind ausreichend genau, um genetische Karten zu erstellen, die als Rahmen für Genomsequenzierungsprojekte von Wert sind.

Abbildung 5.22

Vergleich zwischen den genetischen und physikalischen Karten von Saccharomyces cerevisiae Chromosom III. Der Vergleich zeigt die Diskrepanzen zwischen den genetischen und physikalischen Karten, letztere bestimmt durch DNA-Sequenzierung. Beachten Sie, dass die Reihenfolge der oberen beiden Markierungen (mehr.)

5.2.4. Verknüpfungsanalyse mit verschiedenen Arten von Organismen

Um zu sehen, wie die Verknüpfungsanalyse tatsächlich durchgeführt wird, müssen wir drei ganz unterschiedliche Situationen betrachten:

Verknüpfungsanalyse, wenn geplante Zuchtversuche möglich sind

Die erste Art der Kopplungsanalyse ist das moderne Gegenstück der von Morgan und seinen Kollegen entwickelten Methode. Die Methode basiert auf der Analyse der Nachkommen von experimentellen Kreuzungen zwischen Eltern bekannter Genotypen und ist zumindest theoretisch auf alle Eukaryoten anwendbar. Ethische Erwägungen schließen diesen Ansatz beim Menschen aus, und praktische Probleme wie die Länge der Tragzeit und die Zeit, die das Neugeborene benötigt, um die Reife zu erreichen (und damit an nachfolgenden Kreuzungen teilzunehmen), schränken die Wirksamkeit der Methode bei einigen Tieren und Pflanzen ein.

Wenn wir zu Abbildung 5.16 zurückkehren, sehen wir, dass der Schlüssel zur Genkartierung darin besteht, die Genotypen der aus der Meiose resultierenden Gameten zu bestimmen. In einigen Situationen ist dies durch eine direkte Untersuchung der Gameten möglich. Zum Beispiel die Gameten, die von einigen mikrobiellen Eukaryoten produziert werden, einschließlich der Hefe Saccharomyces cerevisiae, können zu Kolonien haploider Zellen gezüchtet werden, deren Genotypen durch biochemische Tests bestimmt werden können. Eine direkte Genotypisierung von Gameten ist auch bei höheren Eukaryoten unter Verwendung von DNA-Markern möglich, da mit der DNA einzelner Spermatozoen eine PCR durchgeführt werden kann, die eine Typisierung von RFLPs, SSLPs und SNPs ermöglicht. Leider ist die Spermientypisierung mühsam. Die routinemäßige Kopplungsanalyse mit höheren Eukaryoten erfolgt daher nicht durch eine direkte Untersuchung der Gameten, sondern durch die Bestimmung der Genotypen der diploiden Nachkommen, die aus der Verschmelzung zweier Gameten, jeweils einer von einem Elternpaar, resultieren. Mit anderen Worten, es wird eine genetische Kreuzung durchgeführt.

Die Komplikation bei einer genetischen Kreuzung besteht darin, dass die resultierenden diploiden Nachkommen nicht das Produkt einer Meiose sind, sondern von zwei (eine in jedem Elternteil), und in den meisten Organismen treten Kreuzungsereignisse mit gleicher Wahrscheinlichkeit während der Produktion der männlichen und weiblichen Gameten auf. Irgendwie müssen wir in der Lage sein, die Crossover-Ereignisse, die in jeder dieser beiden Meioseen auftraten, von den Genotypen der diploiden Nachkommen zu trennen. Das bedeutet, dass das Kreuz sorgfältig aufgestellt werden muss. Das Standardverfahren ist die Verwendung eines Testkreuzes. Dies ist in Abbildung 5.18, Szenario 1 dargestellt, wo wir eine Testkreuzung erstellt haben, um die beiden Gene, die wir zuvor kennengelernt haben, zu kartieren: Gen A (Allele EIN und ein) und Gen B (Allele B und B), beide auf Chromosom 2 der Fruchtfliege. Das kritische Merkmal einer Testkreuzung sind die Genotypen der beiden Eltern:

Abbildung 5.18

Zwei Beispiele für das Testkreuz. In Szenario 1 sind A und B genetische Marker mit Allelen EIN, ein, B und B. Die resultierenden Nachkommen werden durch Untersuchung ihrer Phänotypen bewertet. Da der doppelt homozygote Elternteil (Elternteil 2) beide rezessive Allele hat - ein und mehr. )

Die Doppelheterozygote hat den gleichen Genotyp wie die Zelle, deren Meiose wir in Abbildung 5.16 verfolgt haben. Unser Ziel ist es daher, die Genotypen der von diesem Elternteil produzierten Gameten abzuleiten und den Anteil zu berechnen, der rekombinant ist. Beachten Sie, dass alle Gameten, die vom zweiten Elternteil (dem doppelten Homozygoten) produziert werden, den Genotyp . haben ab unabhängig davon, ob es sich um elterliche oder rekombinante Gameten handelt. Allele ein und B sind beide rezessiv, so dass die Meiose bei diesem Elternteil praktisch unsichtbar ist, wenn die Genotypen der Nachkommen untersucht werden. Dies bedeutet, dass, wie in Szenario 1 in Abbildung 5.18 dargestellt, die Genotypen der diploiden Nachkommen eindeutig in die Genotypen der Gameten des doppelheterozygoten Elternteils umgewandelt werden können. Die Testkreuzung ermöglicht uns daher eine direkte Untersuchung einer einzelnen Meiose und damit die Berechnung einer Rekombinationsfrequenz und einer Kartierungsdistanz für die beiden untersuchten Gene.

Nur ein zusätzlicher Punkt ist zu berücksichtigen. Wenn wie in Szenario 1 in Abbildung 5.18 Genmarker verwendet werden, die Dominanz und Rezessivität zeigen, muss der doppelt homozygote Elternteil Allele für die beiden rezessiven Phänotypen aufweisen, werden jedoch kodominante DNA-Marker verwendet, kann der doppelt homozygote Elternteil eine beliebige Kombination haben von homozygoten Allelen (dh AB/AB, Ab/Ab, aB/aB und ab/ab). Szenario 2 in Abbildung 5.18 zeigt den Grund dafür.

Kasten 5.2

Mehrpunktkreuze. Die Leistungsfähigkeit der Kopplungsanalyse wird verbessert, wenn mehr als zwei Marker in einem einzigen Kreuz verfolgt werden. Dies erzeugt nicht nur schneller Rekombinationsfrequenzen, sondern ermöglicht auch die relative Reihenfolge von Markern auf einem Chromosom (mehr.)

Genkartierung durch menschliche Stammbaumanalyse

Beim Menschen ist es natürlich unmöglich, die Genotypen der Eltern vorzuselektieren und speziell für Kartierungszwecke entworfene Kreuzungen zu erstellen. Stattdessen müssen Daten für die Berechnung der Rekombinationshäufigkeiten durch Untersuchung der Genotypen der Mitglieder aufeinanderfolgender Generationen bestehender Familien gewonnen werden. Dies bedeutet, dass nur begrenzte Daten verfügbar sind und ihre Interpretation oft schwierig ist, da eine menschliche Ehe selten zu einer geeigneten Testkreuzung führt und oft die Genotypen eines oder mehrerer Familienmitglieder nicht erhalten werden können, weil diese Personen tot oder nicht kooperationsbereit sind.

Die Probleme werden in Abbildung 5.19 veranschaulicht. In diesem Beispiel untersuchen wir eine genetische Erkrankung in einer Familie mit zwei Elternteilen und sechs Kindern. Genetische Erkrankungen werden beim Menschen häufig als Genmarker verwendet, wobei der Krankheitszustand ein Allel und der gesunde Zustand ein zweites Allel ist. Der Stammbaum in Abbildung 5.19A zeigt uns, dass die Mutter und vier ihrer Kinder von der Krankheit betroffen sind. Aus Familienberichten wissen wir, dass auch die Großmutter mütterlicherseits an dieser Krankheit litt, aber sowohl sie als auch ihr Mann – der Großvater mütterlicherseits – sind inzwischen tot. Wir können sie in den Stammbaum aufnehmen, mit Schrägstrichen, die darauf hinweisen, dass sie tot sind, aber wir können keine weiteren Informationen über ihre Genotypen erhalten. Unser Ziel ist es, die Position des Gens für die genetische Erkrankung zu kartieren. Zu diesem Zweck untersuchen wir seine Verknüpfung mit einem Mikrosatellitenmarker M, von dem vier Allele - m1, m2, m3 und m4 - in den lebenden Familienmitgliedern vorhanden sind. Die Frage ist, wie viele der Kinder rekombinant sind.

Abbildung 5.19

Ein Beispiel für die Analyse des menschlichen Stammbaums. (A) Der Stammbaum zeigt die Vererbung einer genetischen Krankheit in einer Familie mit zwei lebenden Eltern und sechs Kindern, mit Informationen über die Großeltern mütterlicherseits aus den Familienakten. Das Krankheitsallel (geschlossen (mehr.)

Wenn wir uns die Genotypen der sechs Kinder ansehen, sehen wir, dass die Nummern 1, 3 und 4 das Krankheitsallel und das Mikrosatelliten-Allel haben m1. Nummer 2 und 5 haben das gesunde Allel und m2. Wir können daher zwei alternative Hypothesen konstruieren. Der erste ist, dass die beiden Kopien der relevanten homologen Chromosomen in der Mutter die Genotypen Krankheit-m1 und Gesund-m2 daher haben die Kinder 1, 2, 3, 4 und 5 elterliche Genotypen und Kind 6 ist die einzige rekombinante (Abbildung 5.19B). Dies würde darauf hindeuten, dass das Krankheitsgen und der Mikrosatellit relativ eng miteinander verbunden sind und dass Kreuzungen zwischen ihnen selten vorkommen. Die alternative Hypothese ist, dass die Chromosomen der Mutter die Genotypen Gesund-m1 und Krankheit-m2 dies würde bedeuten, dass Kinder 1𠄵 rekombinant sind und Kind 6 den elterlichen Genotyp hat. Das würde bedeuten, dass Gen und Mikrosatellit auf dem Chromosom relativ weit auseinander liegen. Wir können nicht feststellen, welche dieser Hypothesen richtig ist: Die Daten sind frustrierend mehrdeutig.

Die befriedigendste Lösung für das Problem des Stammbaums in Abbildung 5.19 wäre, den Genotyp der Großmutter zu kennen. Lassen Sie uns so tun, als wäre dies eine Seifenopernfamilie und die Großmutter ist nicht wirklich tot. Zur Überraschung aller taucht sie gerade rechtzeitig wieder auf, um die sinkenden Einschaltquoten zu retten. Ihr Genotyp für Mikrosatelliten M ist m1m5 (Abbildung 5.19C). Dies sagt uns, dass das Krankheitsallel auf demselben Chromosom liegt wie m1. Wir können daher mit Sicherheit den Schluss ziehen, dass Hypothese 1 richtig ist und dass nur Kind 6 eine Rekombinante ist.

Die Auferstehung von Schlüsselpersonen ist normalerweise keine Option für echte Genetiker, obwohl DNA aus alten pathologischen Proben wie Objektträgern und Guthrie-Karten gewonnen werden kann. Unvollkommene Ahnentafeln werden statistisch analysiert, wobei ein Maß verwendet wird, das als Lod-Score bezeichnet wird (Morton, 1955). Das steht für lOgarithmus der odds, dass die Gene verknüpft sind und wird hauptsächlich verwendet, um festzustellen, ob die beiden untersuchten Marker auf demselben Chromosom liegen, mit anderen Worten, ob die Gene verknüpft sind oder nicht. Wenn die lod-Analyse eine Verknüpfung feststellt, kann sie auch ein Maß für die wahrscheinlichste Rekombinationshäufigkeit liefern. Idealerweise stammen die verfügbaren Daten aus mehr als einem Stammbaum, was das Vertrauen in das Ergebnis erhöht.Für Familien mit einer größeren Kinderzahl ist die Analyse weniger eindeutig, und wie wir in Abbildung 5.19 gesehen haben, ist es wichtig, dass die Mitglieder von mindestens drei Generationen genotypisiert werden können. Aus diesem Grund wurden Familiensammlungen eingerichtet, wie die des Centre d'Études du Polymorphisme Humaine (CEPH) in Paris (Dausset .). et al., 1990). Die CEPH-Sammlung enthält kultivierte Zelllinien aus Familien, in denen alle vier Großeltern sowie mindestens acht Kinder der zweiten Generation beprobt werden konnten. Diese Sammlung steht jedem Forscher zur DNA-Markerkartierung zur Verfügung, der sich bereit erklärt, die resultierenden Daten an die zentrale CEPH-Datenbank zu übermitteln.

Genetische Kartierung in Bakterien

Die letzte Art der genetischen Kartierung, die wir berücksichtigen müssen, ist die Strategie, die bei Bakterien verwendet wird. Die Hauptschwierigkeit, mit der Genetiker konfrontiert waren, als sie versuchten, genetische Kartierungstechniken für Bakterien zu entwickeln, besteht darin, dass diese Organismen normalerweise haploid sind und daher keine Meiose durchlaufen. Es musste daher ein anderer Weg gefunden werden, um Crossovers zwischen homologen Abschnitten bakterieller DNA zu induzieren. Die Antwort bestand darin, drei natürliche Methoden zu verwenden, die es gibt, um DNA-Stücke von einem Bakterium auf ein anderes zu übertragen (Abbildung 5.20):

Abbildung 5.20

Drei Wege, um einen DNA-Transfer zwischen Bakterien zu erreichen. (A) Konjugation kann zur Übertragung von chromosomaler oder Plasmid-DNA vom Spenderbakterium auf den Empfänger führen. Konjugation beinhaltet physischen Kontakt zwischen den beiden Bakterien, mit Übertragungsgedanken (mehr.)

Nach dem Transfer muss ein Double Crossover erfolgen, damit die DNA des Spenderbakteriums in das Chromosom der Empfängerzelle integriert wird (Abbildung 5.21A). Geschieht dies nicht, geht die übertragene DNA bei der Teilung der Empfängerzelle verloren. Die einzige Ausnahme ist nach dem Episomentransfer, da sich Plasmide unabhängig vom Wirtschromosom vermehren können.

Abbildung 5.21

Die Grundlage der Genkartierung in Bakterien. (A) Übertragung eines funktionellen Gens für die Tryptophan-Biosynthese aus einem Wildtyp-Bakterium (Genotyp beschrieben als trp + ) an einen Empfänger, dem eine funktionelle Kopie dieses Gens fehlt (trp - ). Der Empfänger wird Tryptophan genannt (mehr.)

Biochemische Marker werden ausnahmslos verwendet, die dominante oder Wildtyp Phänotyp besitzt ein biochemisches Merkmal (z. B. Fähigkeit zur Synthese von Tryptophan) und der rezessive Phänotyp ist das komplementäre Merkmal (z. B. Unfähigkeit, Tryptophan zu synthetisieren). Der Gentransfer wird normalerweise zwischen einem Spenderstamm, der die Wildtyp-Allele besitzt, und einem Empfänger mit den rezessiven Allelen eingerichtet, wobei der Transfer in den Empfängerstamm überwacht wird, indem nach dem Erwerb der biochemischen Funktion(en) gesucht wird, die durch die untersuchten Gene spezifiziert sind . Die genauen Details des Kartierungsverfahrens hängen von der Art des verwendeten Gentransfers ab. Bei der Konjugationskartierung wird die Donor-DNA als kontinuierlicher Faden in den Empfänger übertragen, und die Genpositionen werden durch Timing des Eintritts der Wildtyp-Allele in den Empfänger kartiert (Abbildung 5.21B). Durch Transduktions- und Transformationskartierung können relativ nahe beieinander liegende Gene kartiert werden, da der übertragene DNA-Abschnitt kurz ist (< 50 kb). (Abbildung 5.21C).


Mitgliedschaften

Inria Grenoble Rhône-Alpes, Montbonnot, Frankreich

Alex Di Genova & Marie-France Sagot

Université de Lyon, Université Lyon 1, CNRS, Laboratoire de Biométrie et Biologie Evolutive UMR 5558, Villeurbanne, Frankreich

Alex Di Genova & Marie-France Sagot

Institut für Medizinische Genetik und Angewandte Genomik, Universität Tübingen, Tübingen, Deutschland

Elena Buena-Atienza & Stephan Ossowski

NGS Kompetenzzentrum Tübingen (NCCT), Universität Tübingen, Tübingen, Deutschland


Schau das Video: ventajas y desventajas del genoma digital (Januar 2022).