Information

Variante VCF: AD vs. DP?

Variante VCF: AD vs. DP?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

In meiner VCF-Datei von GATK habe ich die folgenden Definitionen fürANZEIGEundDP.

AD - Alleltiefen für die ref- und alt-Allele in der aufgelisteten Reihenfolge DP - Ungefähre Lesetiefe (Reads mit MQ=255 oder mit Bad Mates werden gefiltert

Ich verstehe die Definitionen nicht, kann das jemand weniger technisch erklären?

Von dem, was ich lesen kann,ANZEIGEgibt die Anzahl der Reads an, die das Referenz- und das Variantenallel umfassen. Aber was bedeutetDPbedeuten? Dies sieht nicht nach der Gesamtzahl der Lesevorgänge aus, die eine Variante umfasst. Was ist das also? Wie unterscheidet sich das vonANZEIGE?


DP ist die Gesamtzahl der Lesebasen, die eine bestimmte Position überspannen. Wenn Sie die verschiedenen AD addieren, sollten Sie eine Zahl in der Nähe von DP erhalten, wobei der Unterschied lediglich darin besteht, wie die Lesevorgänge in beiden Zahlensätzen gefiltert werden.


Variation innerhalb des Wirts und evolutionäre Dynamik von SARS-CoV-2-Populationen bei COVID-19-Patienten

Seit Anfang Februar 2021 hat der Erreger von COVID-19, SARS-CoV-2, nach offiziellen Angaben über 104 Millionen Menschen mit mehr als 2 Millionen Toten infiziert. Der Schlüssel zum Verständnis der Biologie und der Virus-Wirt-Interaktionen von SARS-CoV-2 erfordert die Kenntnis der Mutation und Evolution dieses Virus sowohl auf Inter- als auch auf Intra-Wirt-Ebene. Trotz einiger polymorpher Stellen, die in SARS-CoV-2-Populationen identifiziert wurden, bleiben jedoch die Spektren der Intra-Wirtsvarianten und ihre evolutionäre Dynamik weitgehend unbekannt.

Methoden

Mit der Hochdurchsatz-Sequenzierung von metatranskriptomischen und Hybrid-Capture-Bibliotheken charakterisierten wir Konsensus-Genome und Intra-Host-Single-Nucleotid-Variationen (iSNVs) von seriellen Proben, die von acht COVID-19-Patienten gesammelt wurden. Die Verteilung von iSNVs entlang des SARS-CoV-2-Genoms wurde analysiert und gleichzeitig auftretende iSNVs bei COVID-19-Patienten identifiziert. Wir verglichen auch die evolutionäre Dynamik der SARS-CoV-2-Population im Respirationstrakt (RT) und im Magen-Darm-Trakt (GIT).

Ergebnisse

Die 32 Konsensusgenome zeigten die Koexistenz verschiedener Genotypen innerhalb desselben Patienten. Wir identifizierten außerdem 40 einzelne Nukleotidvarianten (iSNVs) innerhalb des Wirts. Die meisten (30/40) iSNVs traten bei einem einzelnen Patienten auf, während zehn iSNVs bei mindestens zwei Patienten gefunden wurden oder mit Konsensusvarianten identisch waren. Der Vergleich der Allelfrequenzen der iSNVs ergab eine klare genetische Differenzierung zwischen Intra-Wirt-Populationen aus dem Respirationstrakt (RT) und dem Gastrointestinaltrakt (GIT), die hauptsächlich durch Engpassereignisse während der Intra-Wirt-Migrationen getrieben wird. Im Vergleich zu RT-Populationen zeigten die GIT-Populationen eine bessere Erhaltung und schnelle Entwicklung der viralen genetischen Diversität nach den vermuteten Intra-Wirts-Engpässen.

Schlussfolgerungen

Unsere Ergebnisse hier veranschaulichen die Intra-Wirt-Engpässe und die evolutionäre Dynamik von SARS-CoV-2 an verschiedenen anatomischen Stellen und können neue Erkenntnisse zum Verständnis der Virus-Wirt-Interaktionen von Coronaviren und anderen RNA-Viren liefern.


Experimentelles Design

Es gibt zahlreiche Herstellungsverfahren (z. B. Nextera, Kapa), um Sequenzierungsbibliotheken aus DNA-Extraktion zu konstruieren. Diese Labormethoden würden den Rahmen dieses Tutorials sprengen. Wir werden jedoch einige Aspekte des Studiendesigns beim Design eines Experiments berücksichtigen.

1. Gepoolte Sequenzierung vs. individuelle Barcode-Proben

Eine Entscheidung, die Forscher beim Design ihrer Resequenzierungsexperimente treffen müssen, ist, ob sie nicht mit einem Barcode versehene Individuen in einer einzigen Sequenzierungsbibliothek (bezeichnet als Pool-seq) oder jede Person einzeln mit einem Strichcode versehen, sodass Forscher diese Personen für nachgelagerte Analysen demultiplexen können, selbst wenn sie für die Sequenzierung selbst gepoolt werden. Beide Ansätze haben Vor- und Nachteile, aber im Wesentlichen hängt die Entscheidung von den Kosten und dem Forschungsziel ab. Über die Vor- und Nachteile der gepoolten Sequenzierung wurden viele Veröffentlichungen verfasst, und Schlütterer et al. 2014 bietet einen schönen Überblick und Vergleich mit anderen Methoden. Im Folgenden skizzieren wir kurz einige der Vor- und Nachteile:

Gepoolte Sequenzierung: Der Hauptvorteil dieses Ansatzes sind Kosteneinsparungen bei der Bibliotheksvorbereitung. Wenn für die Forschungsziele große Stichproben erforderlich sind, können Bibliotheksvorbereitungskosten schnell zu einem limitierenden Faktor werden. Durch das Poolen einer großen Anzahl von Individuen in einer einzigen Population müssten die Forscher nur eine einzige Sequenzierungsbibliothek pro Pool erstellen. Diese Methode hat jedoch Einschränkungen hinsichtlich möglicher nachgelagerter Analysen und potenzieller Sequenzierungsfehler. Diese Methode kann Schätzungen der Allelhäufigkeit einer gepoolten Population liefern, aber darüber hinaus nur wenige Statistiken (z. B. Haplotypinformationen, Kopplungsungleichgewicht). Pool-seq funktioniert auch am besten, wenn eine große Anzahl von Individuen (>40) zusammengelegt werden, wobei Pools in der Größenordnung von Hunderten oder Tausenden von Individuen ideal sind. Einer der größten Nachteile von Pool-seq besteht darin, dass eine ungleiche individuelle Repräsentation zu Verzerrungen bei den Schätzungen der Allelfrequenz führt, und ohne Barcodes ist es unmöglich zu wissen, ob dies aufgetreten ist. Dies ist bei größeren Stichprobengrößen weniger wahrscheinlich.

Individuell barcodierte Sequenzierung: Der Hauptvorteil dieses Ansatzes besteht darin, dass durch individuelles Barcode-Leseverfahren Varianten für Einzelpersonen aufgerufen werden können und bei ausreichender Abdeckung (siehe unten) es möglich ist, Haplotyp-Informationen oder andere nützliche Statistiken zu erhalten. Wie oben erwähnt, sind der Hauptnachteil dieser Methode die Kosten für die Bibliotheksvorbereitung. Dies wird jedoch immer kostengünstiger, entweder aufgrund der Verfügbarkeit neuer Kits oder der Möglichkeit, Reagenzien zur Bibliotheksvorbereitung in mehrere Mikroreaktionen aufzuteilen (z. B. Baym et al. 2015). Daher konzentrieren wir uns im Tutorial auf Methoden zum Erstellen von VCFs aus einzelnen Barcode-Proben.

2. Stichprobengrößen

Die Bestimmung, wie viele Individuen Sie sequenzieren müssen, hängt davon ab, welche Arten von Analysen Sie nachgelagert durchführen möchten. Wenn das Ziel der Studie darin besteht, Populationsstruktur und genetische Vielfalt zu beschreiben, werden nur sehr wenige Individuen pro Population benötigt, da die Sequenzierung des gesamten Genoms so viele Informationen pro Individuum liefert (z. B. Nazareno et al. 2017). Wenn das Ziel der Studie darin besteht, eine detaillierte demografische Inferenz durchzuführen (z. B. mit dem Standortfrequenzspektrum über dadi oder fastsimcoal2), kann eine kleine Anzahl von Personen ausreichen, um ältere Ereignisse zu erkennen oder verschiedene Modelle zu testen, aber eine größere Anzahl von Personen kann erforderlich sein, um jüngste Ereignisse erkennen oder Parameter schätzen (zB Robinson et al. 2014).

Die Identifizierung von Allelfrequenzverschiebungen an bestimmten Standorten (z. B. Suche nach Fst-Ausreißern) oder GWAS-Analysen erfordern größere Populationsgrößen, um genügend Leistung zu haben, um signifikante Unterschiede mit FDR-Korrekturen für Millionen von Standorten zu erkennen.

3. Sequenziertiefe

Im Idealfall sollten diploide Organismen mit einer 30-fachen Abdeckung sequenziert werden, um Varianten aus Daten zur Neusequenzierung des gesamten Genoms sicher aufrufen zu können. Aufgrund begrenzter Budgets und unterschiedlicher Studienziele ist es jedoch oft möglich, zu einer viel geringeren Abdeckung zu sequenzieren. Bei vielen Zielen der Populationsgenomik ist es bei einem festgelegten Umfang an Sequenzierung (z. Bürkle und Gompert 2012). Aufgrund begrenzter Budgets trotz sinkender Sequenzierungskosten steht eine zunehmende Anzahl von Werkzeugen zur Verfügung, um die Gesamtgenom-Resequenzierung mit geringer Abdeckung für die Populationsgenom-Inferenz zu nutzen. Beispielsweise ermöglichen die Pakete ANGSD und NGSTools die Berechnung von Standorthäufigkeitsspektren, Diversitätsstatistiken, PCA und Beimischungsanalysen unter anderem vollständig auf der Grundlage von Genotyp-Wahrscheinlichkeitswerten. Andere Pakete, wie MAPGD, ermöglichen es, das Kopplungsungleichgewicht und die Verwandtschaft anhand von Genotyp-Wahrscheinlichkeiten zu berechnen. Indem Genotypen nicht tatsächlich aufgerufen werden und stattdessen Parameter aus Genotyp-Wahrscheinlichkeiten zwischen Individuen in einer Population abgeleitet werden, vermeiden diese Programme viele der Verzerrungen, die mit Genomdaten mit geringer Abdeckung verbunden sind (z. B. Han et al. 2014).

4. Sequenzierungsmodus

Für Ganzgenom-Resequenzierungsstudien wird fast immer die Verwendung der Paired-End-Sequenzierung empfohlen. Da die Genomabdeckung im Allgemeinen ein limitierender Faktor ist, sind die Kosten pro Base bei Paired-End-Daten viel geringer als bei Single-End-Daten. Darüber hinaus bieten Paired-End-Daten im Allgemeinen bessere Möglichkeiten, Reads auf Referenzgenome abzubilden, was insbesondere für Daten mit geringer Abdeckung sehr vorteilhaft ist.


Resultate und Diskussionen

Datendarstellung und Herausforderungen

Unsere anfängliche Beobachtung der Mutations-Score-Matrix zeigte, dass die C-Scores von 0 bis 1417,14 reichen und die Verteilung der Scores für die Top-Ten-Variantengene in Abb. 1 zu sehen ist. Der Vergleich mit der COSMIC-Datenbank zeigt, dass neun dieser zehn Gene (mit Ausnahme des FAM38A-Gens) weisen auf eine reichliche Akkumulation somatischer Mutationen in Screenings großer Populationen hin [15].

Verteilung der Mutations-Gesamtwerte für die Top-Ten-Variantengene. Zu den Top 10 der am stärksten mutierten Gene gehören mehrere nachgewiesene krebsassoziierte Gene, darunter MUC4 und OBSCN

Somatische Mutationsprofile von BC-Patienten weisen eine sehr spärliche Datenform auf, im Gegensatz zu anderen Datentypen wie Genexpression oder Methylierung, bei denen fast allen Genen oder Markern bei allen Patienten ein quantitativer Wert zugeordnet wird. Selbst klinisch identische Patienten dürfen nicht mehr als eine einzige Mutation aufweisen [16–18]. Daher führt dieses Problem zu viele nullwertige Einträge in die Hauptdatenstruktur ein (96 %). Auf der anderen Seite führt aus der Perspektive des maschinellen Lernens eine begrenzte Anzahl von Patienten (eine weitaus geringere Anzahl von Patienten als die Anzahl der betroffenen Gene in einer Kohorte) zu einer Dimensionalitätsherausforderung, die im maschinellen Lernen allgemein als „Fluch der Dimensionalität“ bekannt ist. In dieser Studie stehen wir vor dieser Herausforderung, da wir das Sample-to-Feature-Verhältnis von 1:50 (358/18117) in der Hauptdatenstruktur beobachtet haben.

Um die oben genannten Herausforderungen zu überwinden, gibt es im Allgemeinen zwei gängige Ansätze, nämlich die Merkmalsextraktion und die Merkmalsauswahl. Die Merkmalsextraktion transformiert die aktuell vorhandenen Merkmale in einen Raum mit niedrigeren Dimensionen, und weit verbreitete Beispielmethoden umfassen die Hauptkomponentenanalyse (PCA) und die lineare Diskriminanzanalyse (LDA), während die Merkmalsauswahl eine Teilmenge von Merkmalen auswählt, ohne eine Transformation anzuwenden. Diese Verfahren erhöhen das Sample-to-Merkmal-Verhältnis und verringern die spärliche Dichte, wodurch das Clustering sowohl machbar als auch effektiver wird. In dieser Studie haben wir die Merkmalsauswahl verwendet, indem wir die Merkmale (Gene) in absteigender Reihenfolge ihres Varianzwerts und der ausgewählten Top geordnet haben n Funktionen für das Clustering (weitere Informationen finden Sie unter Methoden). Wir haben die Größe von n in unserer Clustering-Methode auf 854 Gene optimiert.

Klassifikation von Brustkrebs nach somatischen Mutationen

Unüberwachtes Clustering ist die Aufgabe, einen Satz von Stichproben zu gruppieren, die keine Label-Informationen haben, was dazu führt, dass Stichproben so gruppiert werden, dass Stichproben in derselben Gruppe in einem bestimmten Maß einander ähnlicher sind als denen in den anderen Gruppen. Es gibt mehrere Verfahren, die versuchen, dieses Ziel zu erreichen, wie k-Means-Clustering, hierarchisches Clustering und Algorithmen zur Erwartungsmaximierung (EM). Diese Methoden sind jedoch bei spärlichen Daten, wie es in unserer Studie der Fall ist, schlecht oder können nicht zu einer Lösung führen. Daher haben wir uns für die Verwendung von NMF aufgrund seiner nachgewiesenen überlegenen Leistung bei Tests mit biologischen Daten basierten Anwendungen entschieden [19–21]. NMF wurde in seiner modernen Formulierung von Lee und Seung [21] als Methode zur Zerlegung von Bildern eingeführt.

Als Faktorisierungsmethode nimmt der NMF-Algorithmus unsere Mutations-Score-Matrix als Eingabe und zerlegt sie in zwei kleinere Matrizen (Basismatrix W und Koeffizientenmatrix H). Die Ausgangskoeffizientenmatrix (Matrix H) wird verwendet, um Probenclusterzuordnungen vorzunehmen. Weitere Informationen finden Sie unter Methoden.

Mit dem NMF-Clustering-Algorithmus in unserem Datensatz haben wir die Proben stabil in drei Gruppen gruppiert, wobei die Top 854 Gene verwendet wurden, die die höchsten Varianzwerte der Mutationsbewertungen über alle Proben hinweg aufweisen. Die drei Gruppen Cluster 1, 2 und 3 umfassen 169, 121 bzw. 68 Patienten. Weitere Informationen finden Sie im Abschnitt Methoden.

In Abb. 2 zeigen wir eine Darstellung der Eingabedaten in der Mutations-Score-Matrix, wobei zu Illustrationszwecken nur die Top-50-Varianten-Gene fokussiert werden. Wie zu sehen ist, stellen die Daten eine sehr spärliche Form dar (die meisten Zellen sind blau gefärbt, was eine Nullpunktzahl bedeutet), wodurch die meisten Clustering-Ansätze nicht anwendbar sind. Zusätzliche Datei 1: Abbildung S1 und Abbildung 3 sind die Ausgabematrizen aus der Zerlegung der Mutationsbewertungsmatrix, die wir in den NMF-Algorithmus eingeben. Beachten Sie, dass die Multiplikation der beiden Ausgabematrizen ungefähr die Eingabedaten ergibt. In Zusatzdatei 1: Abbildung S1 sehen wir die Basismatrix (W), die im Rahmen dieser Studie nicht verwendet wird, jedoch zur Clusterung der Gene dienen könnte. Abbildung 3 zeigt die Koeffizientenmatrix (H), wobei die Zeilen die Metagene darstellen, die eine kompakte Darstellung aller Gene darstellen, und die Spalten die Patienten darstellen. Wir verwenden diese Matrix, um Proben-Cluster-Assoziationen herzustellen, indem wir die Proben den Clustern zuordnen, in denen wir den höchsten Metagenwert, d. h. die dunkelrote Farbe, beobachten (Details finden Sie im Abschnitt Methoden).

Eingabematrix mit C-Scores der Top 50 mutierten Gene. Die Heatmap zeigt die am stärksten mutierten 50 Gene. Die Spalten repräsentieren Patienten (358) und die Reihen repräsentieren Gene. Eine der Herausforderungen des Datensatzes besteht darin, dass er extrem spärlich ist, was in der Heatmap zu sehen ist, da die meisten Zellen mit Ausnahme der ersten paar sehr nah an Blau gefärbt sind, was auf einen Mutationsscore von 0 (C-Score) hinweist Säulen. Wir haben festgestellt, dass die Hauptdatenstruktur zu 96 % aus Nullen besteht

Koeffizientenmatrix (H). Die Koeffizientenmatrix (H), 3 × 358 groß, dient der Zuordnung von Stichproben zu Clustern. Die Spalten der Matrix repräsentieren Patienten und Reihen repräsentieren Metagene. Wir haben 3 Metagene erzeugt, die verwendet werden, um Patienten in 3 Gruppen zu gruppieren. Die Anzahl der Metagene (Rang der Clusterbildung) wird bestimmt, indem der Algorithmus iterativ über eine Reihe von biologisch sinnvollen Parametern ausgeführt wird, wie im Abschnitt „Methoden“ erläutert

Abbildung 4 veranschaulicht die Stabilität des Clusterings durch die Darstellung der Konsensusmatrix, die nach 100 NMF-Läufen mit Brunets [22]-Ansatz generiert wurde (erläutert im Methodenabschnitt). Wir haben den Silhouette-Score der Konsensusmatrix verwendet, um die optimale Anzahl von Genen und Clustern zu bestimmen. In einem idealen Clustering-Fall erwarten wir Werte nahe 1 oder 0, was die Wahrscheinlichkeit anzeigt, dass sich zwei Proben im selben Cluster befinden oder nicht, was einfarbige Blöcke anzeigt. Ein Wert von eins stellt die höchste Wahrscheinlichkeit dar, dass sich zwei Stichproben im selben Cluster befinden (rote Blöcke) und der Wert null bezeichnet das Gegenteil (blaue Blöcke). In Abb. 4 ist zu sehen, dass der Datensatz klar in drei verschiedene Gruppen gruppiert ist.

Konsensmatrix. Die Konsensusmatrix ist 358 × 358 groß und veranschaulicht die Stabilität der Clusterbildung. Im Idealfall werden für alle Einträge entweder 0 oder 1 erwartet, wodurch einfarbige Blöcke entstehen. Der Balken oben zeigt das klinische Stadium jedes Patienten an. Der Silhouette-Score dieser Matrix beträgt 0,958, was auf eine sehr stabile Clusterbildung hinweist. (Silhouette (Konsens) = 0,958)

Charakterisierung entdeckter Cluster

Wir untersuchen die klinische Bedeutung der entdeckten Cluster, indem wir das BC-Stadium der Patienten in jedem Cluster vergleichen. Dazu analysieren wir die in den TCGA-Daten bereitgestellte Verteilung der Patienten nach ihrem Krankheitsstadium. Wir fanden heraus, dass Cluster 1 von Patienten im Frühstadium dominiert wurde, während Cluster 3 einen viel höheren Anteil an Patienten im Spätstadium hatte als Cluster 1 (P-Wert des exakten Fisher-Tests = 0,02048, Tabelle 1). Wie in Tabelle 1 zu sehen ist, ist die Anzahl der Patienten in jedem Cluster mit dem Stadienverhältnis (Anzahl der Patienten im Frühstadium gegenüber Patienten im Spätstadium) für Cluster1 mehr als doppelt so hoch wie die von Cluster 3, daher nennen wir hier Cluster 1 als im Frühstadium angereicherter Cluster, Cluster 2 als gemischter Cluster und Cluster 3 als im Spätstadium angereicherter Cluster. Diese Trennung der Patientinnen nach ihrem Krankheitsstadium zeigt, dass unsere Clustering-Methode erfolgreich Brustkrebspatientinnen nach ihrem Krankheitsstadium unterscheiden kann, indem nur die somatischen Mutationsprofile der Patientinnen aus ihren Exom-Sequenzierungsdaten verwendet werden.

Als nächstes verglichen wir die somatischen Mutationsprofile von Patienten zwischen den angereicherten Clustern im frühen und späten Stadium (Cluster 1 vs. Cluster 3). Wir fanden heraus, dass es 358 Gene gab, die im Spätstadium-angereicherten Cluster (Cluster 3) signifikant höhere mittlere Mutationsscores aufweisen als im Frühstadium-angereicherten Cluster (Cluster 1) (Wilcox-Rangsummentest, FDR < 0,1 ), aber keines der Gene hat in Cluster 1 signifikant höhere mittlere Mutationsscores als in Cluster 3. Dieses interessante Ergebnis weist darauf hin, dass diese Gene möglicherweise schädliche Mutationen angesammelt haben, die zum Fortschreiten von Brustkrebs in fortgeschrittene Krankheitsstadien führen. Wir haben festgestellt, dass Tumorsuppressorgene, APC, BRCA2 und Onkogen, MLL zu den 358 Genen gehören, die in diesem Vergleich verwendet wurden. Tabelle 2 zeigt die 25 wichtigsten Gene, die signifikant höhere Mutationsraten in einem im Spätstadium angereicherten Cluster aufweisen.

Wir haben die 358 Gene mit Hilfe des Gene Set Enrichment Analysis (GSEA) [23] Tools in verschiedene Genfamilien stratifiziert, wie in Tabelle 3 gezeigt. Wir beobachten, dass ein signifikanter Anteil der Gene zu Transkriptionsfaktor- und Proteinkinase-Genfamilien gehört, die gut sind bekanntermaßen mit der Progression von BC zusammenhängt [24, 25]. Tabelle 4 zeigt die Zuordnung dieser Gene zu funktionell unterschiedlichen Genfamilien.

Netzwerkanalyse unterschiedlich mutierter Gene

Um die funktionelle Beziehung zwischen diesen Genen zu verstehen, führten wir die Netzwerkanalyse der 25 am häufigsten mutierten Gene (Tabelle 2) im späten Stadium des angereicherten Clusters im Vergleich zu den Patienten des frühen Stadiums des angereicherten Clusters durch. Das mit dem Ingenuity Pathway Analysis (IPA)-Programm erstellte Netzwerk in Abb. 5 zeigt mehrere Interaktionsknotenpunkte, an denen die violett hervorgehobenen Gene bei den Cluster-Patienten im Spätstadium stark mutiert sind. Die meisten Gene in unserer Liste interagieren mit dem zentralen Hub-Protein, UBC, was erwartet wird, weil die meisten Proteine ​​(insbesondere die nicht benötigten oder beschädigten) vor dem proteosomalen Abbau ubiquitiniert werden. Es ist bekannt, dass das Ubiquitin-Proteasom-System den Abbau einer Reihe von krebsassoziierten Genen reguliert [24]. APC (adenomatöse Polyposis coli) ist ein weiterer wichtiger Tumorsuppressor in diesem Netzwerk, der als Antagonist des Wnt-Signalwegs mit einer Reihe von Rollen bei der Krebsentstehung und -progression wie Zellmigration, Adhäsion, Apoptose usw. wirkt APC-Mutationen bei Brustkrebs sind in der Literatur gut dokumentiert [25].Es ist bemerkenswert, zwei Transkriptionsregulatorgene in unserer Liste zu erwähnen, NOTCH2 und KMT2A (MLL). NOTCH2 ist ein wichtiger Regulator von Akt, und seine Rolle ist bei mehreren Krebsarten gut dokumentiert, darunter bei der Apoptose, der Proliferation und dem epithelial-mesenchymalen Übergangsweg (EMT) [26]. Mehrere somatische Mutationen in NOTCH2 werden in der COSMIC-Datenbank auch mit verschiedenen Krebsarten in Verbindung gebracht [27]. MLL ist ein Transkriptionsregulator und ein Onkogen mit einer Vielzahl von Rollen bei der Zellproliferation und Apoptose [28].

Interaktionsnetzwerkanalyse der Top 25 Gene. Das Bild zeigt die Interaktionen der Top-25-Gene mit der höchsten Mutationslast im Spätstadium-angereicherten Cluster im Vergleich zum Frühstadium-angereicherten Patientencluster

Klassenvorhersage von Brustkrebs basierend auf somatischen Mutationen

Unter Verwendung der oben genannten BC-Cluster haben wir jede Probe mit ihrem zugewiesenen Cluster gekennzeichnet und ein Klassifizierungsmodell entwickelt, um zu sehen, wie genau wir Cluster von unsichtbaren Brustkrebspatientinnen basierend auf ihren somatischen Mutationen vorhersagen können. Mit diesem Modell können wir anhand seines Mutationsprofils den Cluster eines unsichtbaren Patienten vorhersagen und erhalten so Einblicke in das klinische Ergebnis des Patienten, wie zum Beispiel das BC-Stadium. Wenn das Modell beispielsweise voraussagt, dass sich ein neuer Patient im Cluster3 befindet, können wir davon ausgehen, dass dieser Patient in einem späten Stadium mit bestimmten Genen mit höherer Wahrscheinlichkeit eine höhere Mutationslast trägt.

Wir beschrifteten jeden Patienten mit seinem zugewiesenen Cluster und testeten fünf gängige Algorithmen des maschinellen Lernens (ML) Random Forest (RF) [15], Support Vector Machine (SVM) [29], C4.5 [30], Naïve Bayes [31], und k-Nearest Neighbor(KNN) [32], um den am besten geeigneten Algorithmus für unseren Datensatz zu finden.

Wir verwendeten eine 10-fache Kreuzvalidierung zur Bewertung der Klassifikatorleistungen. In jeder Schleife der 10-fachen Kreuzvalidierung haben wir nach dem Zurückziehen des Testsatzes eine Merkmalsauswahl mit der Methode der Merkmalsauswahl der Informationsverstärkung [33] durchgeführt und die 500 besten Gene ausgewählt, die basierend auf dem Trainingssatz den höchsten Informationsgewinn liefern . Daher haben wir in der 10-fach-Kreuzvalidierung insgesamt zehn Sätze von 500 Genen ausgewählt. Von den oben genannten ML-Algorithmen haben wir uns für die weitere Verwendung der RF-Methode in dieser Studie entschieden, da sie mit 70,86 % die beste 10-fache Kreuzvalidierungsgenauigkeit erreichte. Wir glauben, dass die spärlichen Daten zusammen mit dem niedrigen Verhältnis von Stichprobe zu Merkmal und der Schwierigkeit der Vorhersage mehrerer Klassen die Gründe für diese mäßige Genauigkeit sind.

Wir beobachten auch, dass SVM-Algorithmen eine sehr gute Genauigkeit erreichten, jedoch mit einem Verlust an TPR, FPR und F-Maß. Und die KNN-Methode lieferte die schlechteste Genauigkeit aller von uns verwendeten Methoden. Tabelle 5 zeigt die Leistungsmaße jedes ML-Algorithmus.

Abbildung 6 zeigt die Receiver Operating Characteristic (ROC)-Kurven für jede Klasse, die die Beziehung zwischen TPR (Empfindlichkeit) und FPR (1-Spezifität) für jede Klasse veranschaulichen. Im perfekten Fall verläuft eine ROC-Kurve auf der Y-Achse gerade nach oben und dann parallel zur X-Achse nach rechts, wodurch die Fläche unter der Kurve (AUC) maximiert wird. Eine AUC nahe eins zeigt an, dass der Klassifikator mit maximalem TP und minimalem FP vorhersagt. Wir berechneten die AUC für die Cluster 1, 2 und 3 (in diesem Abschnitt austauschbar als Klasse verwendet) mit 0,88, 0,8 bzw. 0,95, was darauf hinweist, dass das Klassifikationsmodell die Patienten im Spätstadium besser von den übrigen Patienten unterscheiden kann.

ROC-Kurven. Die ROC-Kurve, die verwendet wird, um die Genauigkeit der Vorhersagen des Modells zu zeigen, zeigt die Beziehung zwischen TPR (Sensitivität) und FPR (1-Spezifität) für jede Klasse. Da die AUC-Werte zeigen, dass das Vorhersagemodell mit 0,88 bzw

Wir haben auch einen Permutationstest verwendet, indem wir das gleiche Klassenvorhersageverfahren mit RF an 10.000 zufällig markierten Datensätzen durchgeführt haben und keine der 10-fachen Kreuzvalidierungen gab uns eine bessere Genauigkeit, was einen sehr signifikanten p-Wert ergab (P-value < 10 –4 ) (siehe Methoden für weitere Details). Dies unterstützt die Robustheit unseres Modells und die Vorhersagegenauigkeit.


Wie erstelle ich eine korrekte .vcf-Datei basierend auf data.frame in R? Tiefgestellt ist außerhalb der Grenzen?

Derzeit arbeite ich mit dem signeR-Paket, mit dem Sie Signaturen von somatischen Mutationen erstellen können. Zunächst möchte ich ihr Ergebnis aus der Vignette reproduzieren.

Wie Sie sehen, gibt es zwei Optionen für die Eingabedaten-.vcf-Datei und die zuvor vorverarbeitete Mutationszählungsdatei, bei der es sich um einen einfachen Datenrahmen handelt, der von ihrer genCountMatrixFromVcf()-Funktion erhalten wird.

Natürlich finden Sie hier eine .vcf-Beispieldatei und diese Mutationszählmatrix zur weiteren Analyse.

In der Vignette haben sie (wie ich gelesen habe) diese Daten verwendet: SUBSTITUTIONS_13Apr2012_snz.txt. Also habe ich beschlossen, aus diesem Datenrahmen eine .vcf-Datei zu erstellen und alle Schritte der Vignette durchzugehen.

Also habe ich einige einfache Schritte gemacht, um .vcf aus den oben genannten Daten zu erstellen:

Alle obligatorischen Spalten für die .vcf-Datei sind vorhanden. Ich habe diese Art von Dateien zuvor erstellt, als ich readVcfAsVRanges() verwendet habe, hat alles gut funktioniert.

Hier im signeR-Paket gibt es jedoch ein Problem. Denn wenn ich das nicht schaffen will Mutationszählmatrix Ich habe einen Fehler:

Also habe ich versucht herauszufinden, was mit meiner .vcf-Datei im Vergleich zu "funktionierenden" Dateien nicht stimmt.

Ihre 'funktionierende' Beispieldatei (tatsächlich gibt es nach dem Ausführen der Funktion genCountMatrixFromVcf() auch einen Fehler, aber anders. Im Moment nicht wichtig).


Vorgeschlagener Rahmen für Fortschritte als Gemeinschaft

Um Innovationen in diesem Bereich zu erleichtern, empfehlen wir die Entwicklung eines Frameworks gemeinsamer Formate und Anwendungsprogrammierschnittstellen (APIs), die eine effektivere Zusammenarbeit der vielen verfügbaren Ressourcen sowohl auf der Ebene der einzelnen Varianten als auch in großem Maßstab ermöglichen. Wir empfehlen außerdem die Entwicklung eines Portals, das verwendet werden kann, um den aktuellen Stand der Tools im Feld zu kommentieren und Benutzern zu zeigen, wie diese Tools zusammenarbeiten und zur Beantwortung verschiedener Forschungsfragen verwendet werden können. Der Entwurf des empfohlenen GVto3D-Frameworks orientiert sich sowohl an unserer umfassenderen Überprüfung des Gebiets als auch an den Präsentationen und Diskussionen, die unter den Mitgliedern der Forschungsgemeinschaft stattfanden, die an dem Workshop teilgenommen haben .

Abbildung 1 zeigt die empfohlenen Komponenten und das Design des GVto3D-Frameworks. Das Tools Registry wird als zentrales Repository für Datenressourcen und Softwaretools in Bezug auf genetische Varianten, Proteinsequenzen, Proteinstrukturen, Vorhersage von Varianteneffekten und Variantenannotation fungieren. Metadaten zu jeder Ressource, um die Auffindbarkeit der verschiedenen Softwaretools zu ermöglichen, werden gespeichert und über eine interaktive Webschnittstelle und auch eine API angeboten, was wiederum die Entwicklung intelligenter Software ermöglicht, die automatisch anwendbare Ressourcen erkennt und Informationen über die Kommunikation mit ihnen sammelt sie, um die gewünschten Ergebnisse zu erzielen. Neben Name, Beschreibung, Zitaten, Kontaktinformationen und Uniform Resource Locators (URLs) enthält jeder Eintrag Informationen, die für die Interoperation des Tools wichtig sind, z. B. Eingaben und Ausgaben, API-Unterstützung und Referenzgenominformationen.

Komponenten des GVto3D-Portals. Die Tools-Registry enthält eine durchsuchbare Beschreibung und Metadaten für Tools, Ressourcen und Referenzdatensätze für Drittanbieter-Vorhersage- und Annotationsdienste für Varianteneffekte. Standardisierte Anwendungsprogrammierschnittstellen (APIs) bieten Interoperabilität für die Dateneingabe und -ausgabe dieser Drittanbietertools. Benutzerdefinierte Adapter können eine eingeschränkte Interoperabilität für Tools bieten, die die API nicht übernehmen können. Ein Mapping-Service bietet bidirektionale Mappings von Referenzgenomkoordinaten zu UniProt-Proteinpositionen und zur Proteindatenbank (PDB) Restpositionen. Die Werkzeuge können den Kartendienst verwenden, um abweichende Positionen in jedem der drei Koordinatensysteme zu akzeptieren. Ein Beacon-System ermöglicht Abfragen zu Variantenpositionen, bei denen dreidimensionale (3D) Strukturinformationen und Anmerkungen sind verfügbar

Eine zweite Komponente des Portals wird die Definition von Standard-APIs sein, damit Informationen auf gleiche Weise an verschiedene Tools gesendet und von ihnen angefordert werden können, wodurch der Aufwand für die Softwareentwicklung reduziert wird, der normalerweise mit verschiedenen Tools mit unterschiedlichen APIs belastet wird. Es ist vorgesehen, dass neue Tools von Drittanbietern die API nativ verwenden, während API-Adapter entwickelt werden, um eine Brücke zu bereits bestehenden Tools von Drittanbietern zu schlagen. Die API ermöglicht eine nahtlose Interoperabilität zwischen verschiedenen variantenbezogenen Tools und auch einen Standardzugriff auf multidirektionale Kartierungen zwischen Genom-, Proteinsequenz- und Proteinstrukturkoordinaten. Diese Zuordnungen werden über APIs und als herunterladbare Datendateien zur Verfügung gestellt. Die Mappings werden basierend auf den Aktualisierungsplänen der zugrunde liegenden Datenquellen (PDB, wöchentlich UniProt, monatlich) auf dem neuesten Stand gehalten, wodurch Entwickler von der Pflege und Aktualisierung von Kopien dieser Daten befreit werden. Sobald mehrere ähnliche Ressourcen die Standard-APIs unterstützen, kann die Site zu einem Aggregationsportal weiterentwickelt werden, bei dem eine Abfrage im Portal automatisch auf mehrere Ressourcen verteilt und die Ergebnisse in einem einzigen Batch zusammengestellt und an den Benutzer zurückgegeben werden können. Dieses Framework fördert die FAIR-Prinzipien der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit [99] für alle beteiligten Tools und Ressourcen.

Die Verwendung von Standarddateiformaten und standardisierten Datendarstellungen ermöglicht die Interoperabilität von Vorhersagewerkzeugen, beispielsweise kann die Ausgabe eines Werkzeugs als Eingabe in ein zweites Werkzeug übergeben werden und kann dadurch den Vergleich verschiedener Methoden vereinfachen. Die standardisierten Formate sind auch wesentliche Bestandteile eines wiederverwendbaren Satzes integrierter Tools (Software-Stack), einschließlich Tools zum Lesen und Interpretieren von Datendateien (Dateiparser), APIs und Visualisierungstools. Die meisten der aktuellen Tools verwenden eine Vielzahl von Ein- und Ausgaben, was dem Benutzer eine große Last auferlegt, Daten zu transformieren. Standardisierte Dateiformate und einheitliche APIs werden den Kern zukünftiger Dienste bilden, die verschiedene Ansätze kombinieren und vergleichen. Verschiedene Plattformen und Tools haben unterschiedliche Zeitpläne und die Verlässlichkeit von Upgrades ist wichtig, den Überblick über die Versionen zu behalten, da Änderungen an der Software große Auswirkungen auf die Ergebnisse haben können.

Das VCF-Dateiformat [37] ist trotz seiner Komplexität das De-facto-Standardformat zum Speichern von Variantenaufrufen für eine Vielzahl von Varianten, von SNVs bis hin zu langen Einfügungen und Löschungen. Das Data Working Group File Formats Team der Global Alliance for Genomics and Health definiert die VCF-Spezifikation und ihre Weiterentwicklung [100]. Abweichende Anmerkungen – beispielsweise die Ergebnisse von Vorhersagewerkzeugen – können in den INFO-Datensätzen erfasst werden, bei denen es sich um einen Satz strukturierter Datensätze handelt, die zum Hinzufügen von Anmerkungen zu VCF-Dateien verwendet werden. Die VCF-Versionen 4.x, einschließlich der aktuellen Version 4.3 [101], definieren Metainformationszeilen, die die Datentypen des INFO-Datensatzes beschreiben und eine Standardisierung erzwingen [102]. Neben VCF wurden einige andere Formate beschrieben, wie zum Beispiel ANN, das einen anderen Standard für die Darstellung von Varianteninformationen in INFO-Feldern definiert VEP [97] unterstützt eine einfache tabulatorgetrennte sowie JavaScript Object Notation (JSON)-Ausgabe Format.

In Bezug auf die Genomnomeklatur hat die Human Genome Variation Society, die sich zum Ziel gesetzt hat, die Entdeckung und Charakterisierung genomischer Variationen, einschließlich der Populationsverteilung und phänotypischen Assoziationen, zu fördern, Richtlinien und Empfehlungen für die Nomenklatur von Genvariationen erstellt und dient als internationaler Standard [103] .

Der Fortschritt in diesem Bereich hängt von der globalen Zusammenarbeit und der gemeinsamen Nutzung und Wiederverwendung von Werkzeugen ab. APIs stellen Protokolle bereit, um diese Zusammenarbeit zu ermöglichen. In Standard-APIs verpackte Tools bieten eine konsistente Schnittstelle zu heterogenen Tools, verbessern die Interoperabilität und schützen den Benutzer vor Änderungen an der zugrunde liegenden Software. Beispielsweise definieren viele Vorhersagetools, die 3D-Proteinstrukturinformationen verwenden, den Ort von Mutationen auf Proteinebene mithilfe von UniProt- oder PDB-Koordinaten. Die Zuordnung genomischer Koordinaten zur 3D-Proteinstruktur ist nicht trivial und fehleranfällig. Robuste APIs, die diese Kartierung mit aktuellen 3D-Informationen unter Verwendung beider Arten von Proteinkoordinaten durchführen können, können bestehende Werkzeuge erweitern, die nur auf linearen Proteinsequenzkoordinaten basieren.

Darüber hinaus hängen Fortschritte bei der Vorhersage der Wirkung von Mutationen und der Verwendung von 3D-Strukturinformationen von der Verfügbarkeit gut konzipierter Trainings-, Test- und Validierungssets ab. Das Tool-Repository wird ein Ort sein, um Datensätze sowie Protokolle und Referenzen (Metadaten) für die Erstellung dieser Datensätze zu teilen. Validierungssets, begleitet von gut dokumentierten Tutorials oder Vignetten, umfassen eine Teilmenge von Varianten mit klar verständlichen Auswirkungen, die verwendet werden können, um die Ergebnisse der verfügbaren Ressourcen zu testen. Diese können schließlich als eine Reihe von Komponententests für das Framework selbst dienen.


Kommentare zu diesem Artikel Kommentare (0)

Konkurrierende Interessen: Es wurden keine konkurrierenden Interessen bekannt gegeben.

Expertise des Gutachters: Genomik, Genom-Assembly, Genom-Annotation, Varianten-Calling, Genom-Engineering.

Die Autoren haben das Dokument überarbeitet und den INDEL-Aufrufsatz hinzugefügt.

Meiner Meinung nach haben die Autoren ausreichende Daten und Analysen zur Verfügung gestellt, um es dem Leser zu ermöglichen, die Vorbehalte im Zusammenhang mit den von erstellten Daten zu verstehen. Weiterlesen

Die Autoren haben das Dokument überarbeitet und den INDEL-Aufrufsatz hinzugefügt.

Meiner Meinung nach haben die Autoren ausreichende Daten und Analysen bereitgestellt, um dem Leser zu ermöglichen, die mit den von ihnen erstellten Daten verbundenen Vorbehalte zu verstehen.

Ich habe noch eine kleine Sorge. Ich würde es begrüßen, wenn die Autoren das Verhalten ihrer Prozessierung im Umgang mit Multinukleotidvarianten (MNVs) klarstellen. Sind sie ausgeschlossen? Wenn nicht, können die Normalisierungs- und Zusammenführungsansätze zu falschen Ergebnissen führen.

Konkurrierende Interessen: Es wurden keine konkurrierenden Interessen bekannt gegeben.

Expertise des Gutachters: Bioinformatik, klinische Genomik

Die Autoren präsentieren ein neues Call-Set aus dem 1000-Genome-Projekt. Diesmal ist die Anrufgruppe ein neuer Abruf der Daten gegen GRCh38. Das Call Set besteht nur aus biallelischen SNPs (biallelisch . Weiterlesen

Die Autoren präsentieren ein neues Call-Set aus dem 1000-Genome-Projekt. Diesmal ist die Anrufgruppe ein neuer Abruf der Daten gegen GRCh38. Der Anrufsatz besteht nur aus biallelischen SNPs (in dieser Studie biallelisch). Frühere Varianten-Aufrufsätze auf GRCh38 wurden von ihren nativen GRCh37-Gegenstücken übernommen. Die Studie identifiziert SNPs, indem sie zunächst Varianten mit mehreren Algorithmen aufruft, ein Union-Set erstellt und diese Stellen dann explizit über den gesamten Datensatz genotypisiert. Die Genotypen werden dann in Phasen eingeteilt. Ein Vergleich mit GIAB-Daten für NA12878 wird durchgeführt, um die Sensitivität und Spezifität des Anrufsets zu beurteilen.

Ein nativer Aufrufsatz der 1000 Genome-Projektdaten auf GRCh38 ist eine ziemlich wichtige Aufgabe. Diese Daten haben viele wichtige nachgelagerte Verwendungen, einschließlich klinischer Genomikanwendungen für Variantenfilterung und Populationsgenomikstudien. Ungeachtet der Bedeutung dieses Datensatzes habe ich Probleme mit der Datennotiz in ihrer jetzigen Form. Ich denke, das Papier hat einfach beschrieben, was die Autoren getan haben, um diese Daten zu generieren, unternimmt jedoch wenig Mühe, zu erklären, warum dies auf diese Weise getan wurde. Letzteres ist wichtig, um Vertrauen in den Rufsatz zu gewinnen.

Als Nutzer der Daten würde ich mit der Qualität des Callsets zufrieden sein. Dies ist besonders wichtig, da mehrere andere Großprojekte Allelfrequenzen von vielen Tausend tief sequenzierten ganzen Genomen (z. B. Topmed und Gnomad) freigesetzt haben. Parallel dazu wurden von GIAB und GA4GH Frameworks zur Bewertung der analytischen Leistung von Variantenaufrufen vorgeschlagen und kürzlich veröffentlicht. Wahrheitssätze für mehrere wichtige Stichproben über die NA12878 hinaus wurden veröffentlicht, einschließlich der Möglichkeit, zu beurteilen, wie gut die Datensätze phasenverschoben waren. Wie in den spezifischen Kommentaren weiter unten erläutert, hätte meiner Meinung nach mehr Arbeit getan werden müssen, um den Leser davon zu überzeugen, dass dieser Datensatz mit ausreichender Sorgfalt behandelt wurde.
Aus der Sicht eines nativen Anrufsets auf GRCh38 ist es schade, dass es nur sehr wenige Hinweise auf die potenziellen Vorteile dieses Anrufsets auf GRCh38 gibt. Es wird nicht erwähnt [oder ich habe es wirklich übersehen], wie mit alternativen Haplotypen umgegangen wurde und welche Auswirkungen es hat, Varianten in alternativen Haplotypen zu haben. Die Datenfreigabe ignoriert auch alle nicht diploiden Bereiche des Genoms.
Aus methodischer Sicht fühlt sich die Toolkette veraltet an, da BCFtools und GATK mindestens 2 Jahre alt sind. Schwellenwerte werden häufig verwendet, aber es wird wenig Arbeit geleistet, um zu erklären, wie diese Schwellenwerte bestimmt werden. Ich gehe davon aus, dass die Parameter, die in den Tools selbst verwendet werden, Standard sind oder vielleicht in früheren Iterationen des Projekts definiert wurden. Die Filterschwellen in den Tabellen 1-4 klingen jedoch, zumindest vom Messwert her, wie aus dem Nichts gegriffen.
Positiv möchte ich die Autoren für den großen Aufwand loben, den Code verfügbar zu machen, zu organisieren, zu dokumentieren und diesen Datensatz reproduzierbar zu machen.

  1. *Toolkette ist wirklich veraltet*. Liegt das daran, dass sich bei den verwendeten spezifischen Algorithmen (Mpileup und Unified Genotyper?) wenig geändert hat. Ich gehe davon aus, dass in den letzten zwei Jahren und seit der Veröffentlichung dieser Versionen viele Verbesserungen und Bugfixes erschienen sind.
  2. *Demonstrieren von Verbesserungen an GRCh38 und warum es besser ist als das Überheben*. Ich habe eine Abbildung übersehen, die zeigt, wie dies eine Verbesserung war. Zum Beispiel ein Vergleich des abgehobenen und des nativen Rufsatzes. Gibt es Regionen des Genoms, in denen sie unterschiedliche Leistungen erbringen? Hat sich der Aufwand gelohnt? Was ist mit den ALTs, haben wir jetzt bessere Allelfrequenzen in diesen Regionen? Wie wirken sie sich auf die Frequenzen auf den entsprechenden Frequenzen auf der Primärbaugruppe aus?
  3. *Variantennormierung*. Dies wird im Text beschönigt und es wird wenig darüber gesagt, wie es durchgeführt wurde. Nach meiner Erfahrung führt dieser Schritt oft zu schwierigen Kompromissen. Bitte erweitern Sie dies.
  4. *Benchmarking*. Dieser Bereich fehlt hier ganz. Ich verstehe, dass Sie nur biallelische Seiten betrachten, daher ist der Vergleich mit einem Wahrheitssatz einfacher. Dafür gibt es jedoch seit über einem Jahr Standards, die erst kürzlich veröffentlicht wurden. Sie basieren auf einem Vergleich auf Haplotypebene und nicht auf Standortebene.
  5. *Phasen*. Diese Standards ermöglichen auch den Vergleich der Phasengenauigkeit. Angesichts der Anstrengungen, die hier unternommen werden, um die Genotypen zu phasen, wäre es hilfreich, auch die Phasendaten zu vergleichen.
  6. *Gewerkschaftssatz*. Ich hätte gerne eine Abbildung gesehen, die zeigt, wie die verschiedenen Anrufervarianten zum Gewerkschaftsrufsatz beigetragen haben. Gibt es einen unnötigen? Gibt es eine, die für viele der falsch positiven Ergebnisse verantwortlich ist?
  7. *Analytische Leistung*. "Zusammengenommen zeigen diese Ergebnisse sowohl die hohe Sensitivität als auch die hohe Spezifität unseres Callsets". Du scheinst weniger TP und mehr FN zu haben als in der 37er Version.Heutzutage repräsentieren diese Zahlen keine hohe Sensitivität und Spezifität (zumindest bei 30X Genomen). Hier ist zumindest eine differenziertere Diskussion erforderlich. Dies hängt stark mit den Schwellenwerten zusammen, die Sie für die verschiedenen Filterschritte gewählt haben.
  8. *Wahrheitssätze*. Es wäre sehr hilfreich, weitere Wahrheitssätze hinzuzufügen, zum Beispiel für die aschkenasischen und chinesischen Trios.
  9. *Gemeinsames Telefonieren*. Der Ansatz hier bestand darin, einzelne Stichprobenaufrufe durchzuführen, ein Union-Set zusammenzustellen und dann diese Sites zu genotypisieren. Könnten die Autoren bitte erklären, warum dieser Ansatz im Gegensatz zu einer gemeinsamen Berufung steht. Ich gehe davon aus, dass bei Genomen mit geringer Abdeckung das gemeinsame Aufrufen wirksamer sein kann, da es Informationen über mehr Proben hinweg nutzen kann.

Ist die Begründung für die Erstellung des Datensatzes/der Datensätze klar beschrieben?

Sind die Protokolle angemessen und die Arbeit technisch einwandfrei?

Werden ausreichende Details zu Methoden und Materialien bereitgestellt, um eine Replikation durch andere zu ermöglichen?

Sind die Datensätze übersichtlich in einem brauchbaren und zugänglichen Format dargestellt?

1. Krusche P, Trigg L, Boutros PC, Mason CE, et al.: Best Practices für das Benchmarking von Keimbahn-Kleinvariantenrufen in menschlichen Genomen.Nat Biotechnologie. 2019. PubMed-Abstract | Publisher-Volltext
2. Zook JM, McDaniel J, Olson ND, Wagner J, et al.: Eine offene Ressource für das genaue Benchmarking kleiner Varianten und Referenzaufrufe.Nat Biotechnologie. 2019. PubMed-Abstract | Publisher-Volltext

Konkurrierende Interessen: Es wurden keine konkurrierenden Interessen bekannt gegeben.

Expertise des Gutachters: Bioinformatik, klinische Genomik

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Bemerkungen stellt der Gutachter fest, dass die . Weiterlesen Zunächst möchten wir uns bei der Gutachterin für die Rückmeldungen und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Beobachtungen stellt der Gutachter fest, dass sich die Datennotiz auf eine Beschreibung dessen beschränkt, was getan wurde, ohne die Gründe für den Ansatz nennenswert zu diskutieren. Wir weisen darauf hin, dass dies eine Datennotiz ist, die einen Datensatz und seine Erstellung beschreiben soll, jedoch haben wir den Text auch geändert, um mehr Details in Bezug auf die Gründe für unseren Ansatz aufzunehmen.

Außerdem hebt der Gutachter in den allgemeinen Beobachtungen Probleme im Zusammenhang mit der Datenqualität hervor: andere Anrufgruppen, die Beschränkung des Vergleichs nur mit NA12878 und die Phase des Benchmarking. Während andere Aufrufsätze wie TOPmed und gNOMAD existieren, bleibt der Datensatz des 1000 Genomes Project in Bezug auf seine Populationszusammensetzung einzigartig und alle Daten können bis auf Basenpaarebene abgerufen werden. In Bezug auf andere Wahrheitssätze, über NA12878 hinaus, waren wir nicht in der Lage, „Goldstandard“-Daten für andere Proben in unserem Datensatz zu finden. Im Hinblick auf das Phasing haben wir das WhatsHap-Programm verwendet, um dies zu bewerten und die Ergebnisse dem Manuskript beigefügt.

In Bezug auf GRCh38 war unser Ziel nicht, die Überlegenheit von GRCh38 zu demonstrieren, sondern vielmehr eine Ressource für diejenigen bereitzustellen, die diese Baugruppe nutzen möchten. Wir glauben, dass die Vorteile der Montage von Schneider nachgewiesen wurden et al.

Wir haben den Text geändert, um deutlicher zu machen, dass das Aufrufen nicht an alternativen Orten erfolgte. Der Text wurde auch geändert, um die Absicht zu beschreiben, das Datennotizformat zu verwenden, um Daten frühzeitig freizugeben und zu beschreiben, mit der Absicht, Elemente zu wiederholen, die nicht in diesem Satz enthalten sind.

In Bezug auf die Werkzeugkette spiegelt dies den Rechenaufwand wider, der mit dieser Arbeit verbunden ist. Vor etwa zwei Jahren wurde mit dieser Arbeit begonnen. Allein die Endphase der Pipeline dauert selbst bei Zugriff auf großzügige Rechenressourcen rund sechs Monate.

Der Text wurde um Informationen zur Schwellenwertauswahl ergänzt.

Zu den Detailpunkten:

1) Toolchain ist wirklich veraltet

Die Softwareversionen spiegeln die Zeit wider, die für die Ausführung dieser Berechnung erforderlich ist, wie oben erwähnt.

2) Demonstration von Verbesserungen bei GRCh38 und warum es besser ist als der Lift over

Wie oben erwähnt, wollten wir nicht zeigen, dass GRCh38 die bessere Baugruppe ist. Wir sind der Meinung, dass dies zuvor von Schneider durchgeführt wurde et al. Wir haben einen Vergleich mit dem Liftover hinzugefügt.

3) Variantennormierung

Wir haben den Text um weitere Informationen dazu aktualisiert.

Wir weisen darauf hin, dass hap.py veröffentlicht wurde, nachdem diese Arbeit eingereicht wurde. Wir konnten dem Manuskript jedoch nicht entnehmen, wie es verwendet werden könnte, um das bestehende Benchmarking zu verbessern. Die in Abbildung 1 (https://www.nature.com/articles/s41587-019-0054-x) bereitgestellte Zusammenfassung zeigt, dass sie Tools zum Erreichen einer konsistenten Darstellung von Varianten umschließt (die in den Normalisierungsschritten unserer Pipeline an der Punkt der Erstellung des Konsensus-Call-Sets) und erstellt dann einen „standardisierten“ Bericht, der ähnliche Metriken wie die von uns präsentierten liefert. Daraus ergibt sich, dass es eine ähnliche Funktionalität wie Schritte bietet, die bereits in unserer Arbeit vorhanden sind. Unser Versuch, die Autoren für weitere Informationen hierzu zu kontaktieren, war nicht erfolgreich.

Im Hinblick auf unsere Entscheidung, einen „Wahrheitssatz“ zu verwenden, sind wir der Überzeugung, dass der Vergleich mit einem unabhängig produzierten „Goldstandard“ eine wertvolle Benchmarking-Strategie ist.

Wir haben das Benchmarking mit WhatsHap erweitert.

Dies wurde mit WhatsHap gemacht und die Ergebnisse hinzugefügt. Wie oben erwähnt, war unser Versuch, den Autor von hap.py zu kontaktieren, um herauszufinden, wie es zum Benchmarking der Phasenlage verwendet werden könnte, leider erfolglos.

Wir haben die gewünschte Zahl hinzugefügt.

7) Analytische Leistung

Diese Aussagen wurden im Zusammenhang mit dem Vergleich mit dem Anrufset der Phase 3 gemacht. Der Text wurde geändert. Wir haben auch mit einer ersten Analyse von neuen 30-fachen Abdeckungsdaten verglichen, die von Standard-Pipelines bei NYGC produziert wurden. Basierend auf unserem Benchmark ist die Leistung unseres Anrufsets etwas besser. Wir sind uns einig, dass die Filterung hier einen Einfluss hat.

Unser Calling-Ansatz nutzte Daten mit geringer Abdeckung und Exomdaten aus dem Zeitraum von etwa 2008 bis 2012, um eine gemeinsame Genotypisierung durchzuführen. Wir glauben, dass es Fragen bezüglich der Validität des Versuchs stellt, unsere Ergebnisse mit Stichproben zu vergleichen, die gleichzeitig (1) nicht Teil einer unserer Populationen sind, (2) einen unterschiedlichen Bezug zu anderen Stichproben in der Population haben und (3) verschiedene Datentypen für den Variantenaufruf verfügbar. Dies schließt die aschkenasischen Samples als geeigneten Benchmark aus. Für die Han-Chinesen-Proben konnten wir keine Daten finden, die dem Profil unserer Proben entsprechen. Wir haben den Text aktualisiert, um die Diskussion von Fragen im Zusammenhang mit Benchmarking zu verbessern.

Dies hat gemeinsame Berufung verwendet. Der Text wurde geändert, um dies klarer zu machen.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Beobachtungen stellt der Gutachter fest, dass sich die Datennotiz auf eine Beschreibung dessen beschränkt, was getan wurde, ohne die Gründe für den Ansatz nennenswert zu diskutieren. Wir weisen darauf hin, dass dies eine Datennotiz ist, die einen Datensatz und seine Erstellung beschreiben soll, jedoch haben wir den Text auch geändert, um mehr Details in Bezug auf die Gründe für unseren Ansatz aufzunehmen.

Außerdem hebt der Gutachter in allgemeinen Beobachtungen Probleme im Zusammenhang mit der Datenqualität hervor: andere Anrufgruppen, die Beschränkung des Vergleichs nur mit NA12878 und die Phase des Benchmarking. Während andere Aufrufsätze wie TOPmed und gNOMAD existieren, bleibt der Datensatz des 1000 Genomes Project in Bezug auf seine Populationszusammensetzung einzigartig und alle Daten können bis auf Basenpaarebene abgerufen werden. In Bezug auf andere Wahrheitssätze, über NA12878 hinaus, waren wir nicht in der Lage, „Goldstandard“-Daten für andere Proben in unserem Datensatz zu finden. In Bezug auf das Phasing haben wir das WhatsHap-Programm verwendet, um dies zu bewerten und die Ergebnisse dem Manuskript beigefügt.

In Bezug auf GRCh38 war unser Ziel nicht, die Überlegenheit von GRCh38 zu demonstrieren, sondern vielmehr eine Ressource für diejenigen bereitzustellen, die diese Baugruppe nutzen möchten. Wir glauben, dass die Vorteile der Montage von Schneider nachgewiesen wurden et al.

Wir haben den Text geändert, um deutlicher zu machen, dass das Aufrufen nicht an alternativen Loci erfolgt. Der Text wurde auch geändert, um die Absicht zu beschreiben, das Datennotizformat zu verwenden, um Daten frühzeitig freizugeben und zu beschreiben, mit der Absicht, Elemente zu wiederholen, die nicht in diesem Satz enthalten sind.

In Bezug auf die Werkzeugkette spiegelt dies den Rechenaufwand wider, der mit dieser Arbeit verbunden ist. Vor etwa zwei Jahren wurde mit dieser Arbeit begonnen. Allein die Endphase der Pipeline dauert selbst bei Zugriff auf großzügige Rechenressourcen rund sechs Monate.

Der Text wurde um Informationen zur Schwellenwertauswahl ergänzt.

Zu den Detailpunkten:

1) Toolchain ist wirklich veraltet

Softwareversionen spiegeln die Zeit wider, die für die Ausführung dieser Berechnung erforderlich ist, wie oben erwähnt.

2) Demonstration von Verbesserungen bei GRCh38 und warum es besser ist als der Lift over

Wie oben erwähnt, wollten wir nicht zeigen, dass GRCh38 die bessere Baugruppe ist. Wir sind der Meinung, dass dies zuvor von Schneider durchgeführt wurde et al. Wir haben einen Vergleich mit dem Liftover hinzugefügt.

3) Variantennormierung

Wir haben den Text um weitere Informationen dazu aktualisiert.

Wir weisen darauf hin, dass hap.py veröffentlicht wurde, nachdem diese Arbeit eingereicht wurde. Aus dem Manuskript konnten wir jedoch nicht ableiten, wie damit das bestehende Benchmarking verbessert werden könnte. Die in Abbildung 1 (https://www.nature.com/articles/s41587-019-0054-x) bereitgestellte Zusammenfassung zeigt, dass sie Tools zum Erreichen einer konsistenten Darstellung von Varianten umschließt (die in den Normalisierungsschritten unserer Pipeline an der Punkt der Erstellung des Konsensus-Call-Sets) und erstellt dann einen „standardisierten“ Bericht, der ähnliche Metriken wie die von uns präsentierten liefert. Daraus ergibt sich, dass es eine ähnliche Funktionalität wie Schritte bietet, die bereits in unserer Arbeit vorhanden sind. Unser Versuch, die Autoren für weitere Informationen hierzu zu kontaktieren, war nicht erfolgreich.

Im Hinblick auf unsere Entscheidung, einen „Wahrheitssatz“ zu verwenden, sind wir der Überzeugung, dass der Vergleich mit einem unabhängig produzierten „Goldstandard“ eine wertvolle Benchmarking-Strategie ist.

Wir haben das Benchmarking mit WhatsHap erweitert.

Dies wurde mit WhatsHap gemacht und die Ergebnisse hinzugefügt. Wie oben erwähnt, war unser Versuch, den Autor von hap.py zu kontaktieren, um herauszufinden, wie es zum Benchmarking der Phasenlage verwendet werden könnte, leider erfolglos.

Wir haben die gewünschte Zahl hinzugefügt.

7) Analytische Leistung

Diese Aussagen wurden im Zusammenhang mit dem Vergleich mit dem Anrufset der Phase 3 gemacht. Der Text wurde geändert. Wir haben auch mit einer ersten Analyse von neuen 30-fachen Abdeckungsdaten verglichen, die von Standard-Pipelines bei NYGC produziert wurden. Basierend auf unserem Benchmark ist die Leistung unseres Anrufsets etwas besser. Wir sind uns einig, dass die Filterung hier einen Einfluss hat.

Unser Calling-Ansatz nutzte Daten mit geringer Abdeckung und Exomdaten aus dem Zeitraum von etwa 2008 bis 2012, um eine gemeinsame Genotypisierung durchzuführen. Wir glauben, dass es Fragen bezüglich der Validität des Versuchs stellt, unsere Ergebnisse mit Stichproben zu vergleichen, die gleichzeitig (1) nicht Teil einer unserer Populationen sind, (2) einen unterschiedlichen Bezug zu anderen Stichproben in der Population haben und (3) verschiedene Datentypen für den Variantenaufruf verfügbar. Dies schließt die aschkenasischen Samples als geeigneten Benchmark aus. Für die Han-Chinesen-Proben konnten wir keine Daten finden, die dem Profil unserer Proben entsprechen. Wir haben den Text aktualisiert, um die Diskussion von Fragen im Zusammenhang mit Benchmarking zu verbessern.

Dies hat gemeinsame Berufung verwendet. Der Text wurde geändert, um dies klarer zu machen.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Bemerkungen stellt der Gutachter fest, dass die . Weiterlesen Zunächst möchten wir uns bei der Gutachterin für die Rückmeldungen und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Beobachtungen stellt der Gutachter fest, dass sich die Datennotiz auf eine Beschreibung dessen beschränkt, was getan wurde, ohne die Gründe für den Ansatz nennenswert zu diskutieren. Wir weisen darauf hin, dass dies eine Datennotiz ist, die einen Datensatz und seine Erstellung beschreiben soll, jedoch haben wir den Text auch geändert, um mehr Details in Bezug auf die Gründe für unseren Ansatz aufzunehmen.

Außerdem hebt der Gutachter in allgemeinen Beobachtungen Probleme im Zusammenhang mit der Datenqualität hervor: andere Anrufgruppen, die Beschränkung des Vergleichs nur mit NA12878 und die Phase des Benchmarking. Während andere Aufrufsätze wie TOPmed und gNOMAD existieren, bleibt der Datensatz des 1000 Genomes Project in Bezug auf seine Populationszusammensetzung einzigartig und alle Daten können bis auf Basenpaarebene abgerufen werden. In Bezug auf andere Wahrheitssätze, über NA12878 hinaus, waren wir nicht in der Lage, „Goldstandard“-Daten für andere Proben in unserem Datensatz zu finden. In Bezug auf das Phasing haben wir das WhatsHap-Programm verwendet, um dies zu bewerten und die Ergebnisse dem Manuskript beigefügt.

In Bezug auf GRCh38 war unser Ziel nicht, die Überlegenheit von GRCh38 zu demonstrieren, sondern vielmehr eine Ressource für diejenigen bereitzustellen, die diese Baugruppe nutzen möchten. Wir glauben, dass die Vorteile der Montage von Schneider nachgewiesen wurden et al.

Wir haben den Text geändert, um deutlicher zu machen, dass das Aufrufen nicht an alternativen Loci erfolgt. Der Text wurde auch geändert, um die Absicht zu beschreiben, das Datennotizformat zu verwenden, um Daten frühzeitig freizugeben und zu beschreiben, mit der Absicht, Elemente zu wiederholen, die nicht in diesem Satz enthalten sind.

In Bezug auf die Werkzeugkette spiegelt dies den Rechenaufwand wider, der mit dieser Arbeit verbunden ist. Vor etwa zwei Jahren wurde mit dieser Arbeit begonnen. Allein die Endphase der Pipeline dauert selbst bei Zugriff auf großzügige Rechenressourcen rund sechs Monate.

Der Text wurde um Informationen zur Schwellenwertauswahl ergänzt.

Zu den Detailpunkten:

1) Toolchain ist wirklich veraltet

Die Softwareversionen spiegeln die Zeit wider, die für die Ausführung dieser Berechnung erforderlich ist, wie oben erwähnt.

2) Demonstration von Verbesserungen bei GRCh38 und warum es besser ist als der Lift over

Wie oben erwähnt, wollten wir nicht zeigen, dass GRCh38 die bessere Baugruppe ist. Wir sind der Meinung, dass dies zuvor von Schneider durchgeführt wurde et al. Wir haben einen Vergleich mit dem Liftover hinzugefügt.

3) Variantennormierung

Wir haben den Text um weitere Informationen dazu aktualisiert.

Wir weisen darauf hin, dass hap.py veröffentlicht wurde, nachdem diese Arbeit eingereicht wurde. Aus dem Manuskript konnten wir jedoch nicht ableiten, wie damit das bestehende Benchmarking verbessert werden könnte. Die in Abbildung 1 (https://www.nature.com/articles/s41587-019-0054-x) bereitgestellte Zusammenfassung zeigt, dass sie Tools zum Erreichen einer konsistenten Darstellung von Varianten umschließt (die in den Normalisierungsschritten unserer Pipeline an der Punkt der Erstellung des Konsensus-Call-Sets) und erstellt dann einen „standardisierten“ Bericht, der ähnliche Metriken wie die von uns präsentierten liefert. Daraus ergibt sich, dass es eine ähnliche Funktionalität wie Schritte bietet, die bereits in unserer Arbeit vorhanden sind. Unser Versuch, die Autoren für weitere Informationen hierzu zu kontaktieren, war nicht erfolgreich.

Im Hinblick auf unsere Entscheidung, einen „Wahrheitssatz“ zu verwenden, sind wir der Überzeugung, dass der Vergleich mit einem unabhängig produzierten „Goldstandard“ eine wertvolle Benchmarking-Strategie ist.

Wir haben das Benchmarking mit WhatsHap erweitert.

Dies wurde mit WhatsHap gemacht und die Ergebnisse hinzugefügt. Wie oben erwähnt, war unser Versuch, den Autor von hap.py zu kontaktieren, um herauszufinden, wie es zum Benchmarking der Phasenlage verwendet werden könnte, leider erfolglos.

Wir haben die gewünschte Zahl hinzugefügt.

7) Analytische Leistung

Diese Aussagen wurden im Zusammenhang mit dem Vergleich mit dem Anrufset der Phase 3 gemacht. Der Text wurde geändert. Wir haben auch mit einer ersten Analyse von neuen 30-fachen Abdeckungsdaten verglichen, die von Standard-Pipelines bei NYGC produziert wurden. Basierend auf unserem Benchmark ist die Leistung unseres Anrufsets etwas besser. Wir sind uns einig, dass die Filterung hier einen Einfluss hat.

Unser Calling-Ansatz nutzte Daten mit geringer Abdeckung und Exomdaten aus dem Zeitraum von etwa 2008 bis 2012, um eine gemeinsame Genotypisierung durchzuführen. Wir glauben, dass es Fragen bezüglich der Validität des Versuchs stellt, unsere Ergebnisse mit Stichproben zu vergleichen, die gleichzeitig (1) nicht Teil einer unserer Populationen sind, (2) einen unterschiedlichen Bezug zu anderen Stichproben in der Population haben und (3) verschiedene Datentypen für den Variantenaufruf verfügbar. Dies schließt die aschkenasischen Samples als geeigneten Benchmark aus. Für die Han-Chinesen-Proben konnten wir keine Daten finden, die dem Profil unserer Proben entsprechen. Wir haben den Text aktualisiert, um die Diskussion von Fragen im Zusammenhang mit Benchmarking zu verbessern.

Dies hat gemeinsame Berufung verwendet. Der Text wurde geändert, um dies klarer zu machen.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

In den allgemeinen Beobachtungen stellt der Gutachter fest, dass sich die Datennotiz auf eine Beschreibung dessen beschränkt, was getan wurde, ohne die Gründe für den Ansatz nennenswert zu diskutieren. Wir weisen darauf hin, dass dies eine Datennotiz ist, die einen Datensatz und seine Erstellung beschreiben soll, jedoch haben wir den Text auch geändert, um mehr Details in Bezug auf die Gründe für unseren Ansatz aufzunehmen.

Außerdem hebt der Gutachter in allgemeinen Beobachtungen Probleme im Zusammenhang mit der Datenqualität hervor: andere Anrufgruppen, die Beschränkung des Vergleichs nur mit NA12878 und die Phase des Benchmarking. Während andere Aufrufsätze wie TOPmed und gNOMAD existieren, bleibt der Datensatz des 1000 Genomes Project in Bezug auf seine Populationszusammensetzung einzigartig und alle Daten können bis auf Basenpaarebene abgerufen werden. In Bezug auf andere Wahrheitssätze, über NA12878 hinaus, waren wir nicht in der Lage, „Goldstandard“-Daten für andere Proben in unserem Datensatz zu finden. In Bezug auf das Phasing haben wir das WhatsHap-Programm verwendet, um dies zu bewerten und die Ergebnisse dem Manuskript beigefügt.

In Bezug auf GRCh38 war unser Ziel nicht, die Überlegenheit von GRCh38 zu demonstrieren, sondern vielmehr eine Ressource für diejenigen bereitzustellen, die diese Baugruppe nutzen möchten. Wir glauben, dass die Vorteile der Montage von Schneider nachgewiesen wurden et al.

Wir haben den Text geändert, um deutlicher zu machen, dass das Aufrufen nicht an alternativen Loci erfolgt. Der Text wurde auch geändert, um die Absicht zu beschreiben, das Datennotizformat zu verwenden, um Daten frühzeitig freizugeben und zu beschreiben, mit der Absicht, Elemente zu wiederholen, die nicht in diesem Satz enthalten sind.

In Bezug auf die Werkzeugkette spiegelt dies den Rechenaufwand wider, der mit dieser Arbeit verbunden ist. Vor etwa zwei Jahren wurde mit dieser Arbeit begonnen. Allein die Endphase der Pipeline dauert selbst bei Zugriff auf großzügige Rechenressourcen rund sechs Monate.

Der Text wurde um Informationen zur Schwellenwertauswahl ergänzt.

Zu den Detailpunkten:

1) Toolchain ist wirklich veraltet

Softwareversionen spiegeln die Zeit wider, die für die Ausführung dieser Berechnung erforderlich ist, wie oben erwähnt.

2) Demonstration von Verbesserungen bei GRCh38 und warum es besser ist als der Lift over

Wie oben erwähnt, wollten wir nicht zeigen, dass GRCh38 die bessere Baugruppe ist. Wir sind der Meinung, dass dies zuvor von Schneider durchgeführt wurde et al. Wir haben einen Vergleich mit dem Liftover hinzugefügt.

3) Variantennormierung

Wir haben den Text um weitere Informationen dazu aktualisiert.

Wir weisen darauf hin, dass hap.py veröffentlicht wurde, nachdem diese Arbeit eingereicht wurde.Aus dem Manuskript konnten wir jedoch nicht ableiten, wie damit das bestehende Benchmarking verbessert werden könnte. Die in Abbildung 1 (https://www.nature.com/articles/s41587-019-0054-x) bereitgestellte Zusammenfassung zeigt, dass sie Tools zum Erreichen einer konsistenten Darstellung von Varianten umschließt (die in den Normalisierungsschritten unserer Pipeline an der Punkt der Erstellung des Konsensus-Call-Sets) und erstellt dann einen „standardisierten“ Bericht, der ähnliche Metriken wie die von uns präsentierten liefert. Daraus ergibt sich, dass es eine ähnliche Funktionalität wie Schritte bietet, die bereits in unserer Arbeit vorhanden sind. Unser Versuch, die Autoren für weitere Informationen hierzu zu kontaktieren, war nicht erfolgreich.

Im Hinblick auf unsere Entscheidung, einen „Wahrheitssatz“ zu verwenden, sind wir der Überzeugung, dass der Vergleich mit einem unabhängig produzierten „Goldstandard“ eine wertvolle Benchmarking-Strategie ist.

Wir haben das Benchmarking mit WhatsHap erweitert.

Dies wurde mit WhatsHap gemacht und die Ergebnisse hinzugefügt. Wie oben erwähnt, war unser Versuch, den Autor von hap.py zu kontaktieren, um herauszufinden, wie es zum Benchmarking der Phasenlage verwendet werden könnte, leider erfolglos.

Wir haben die gewünschte Zahl hinzugefügt.

7) Analytische Leistung

Diese Aussagen wurden im Zusammenhang mit dem Vergleich mit dem Anrufset der Phase 3 gemacht. Der Text wurde geändert. Wir haben auch mit einer ersten Analyse von neuen 30-fachen Abdeckungsdaten verglichen, die von Standard-Pipelines bei NYGC produziert wurden. Basierend auf unserem Benchmark ist die Leistung unseres Anrufsets etwas besser. Wir sind uns einig, dass die Filterung hier einen Einfluss hat.

Unser Calling-Ansatz nutzte Daten mit geringer Abdeckung und Exomdaten aus dem Zeitraum von etwa 2008 bis 2012, um eine gemeinsame Genotypisierung durchzuführen. Wir glauben, dass es Fragen bezüglich der Validität des Versuchs stellt, unsere Ergebnisse mit Stichproben zu vergleichen, die gleichzeitig (1) nicht Teil einer unserer Populationen sind, (2) einen unterschiedlichen Bezug zu anderen Stichproben in der Population haben und (3) verschiedene Datentypen für den Variantenaufruf verfügbar. Dies schließt die aschkenasischen Samples als geeigneten Benchmark aus. Für die Han-Chinesen-Proben konnten wir keine Daten finden, die dem Profil unserer Proben entsprechen. Wir haben den Text aktualisiert, um die Diskussion von Fragen im Zusammenhang mit Benchmarking zu verbessern.

Dies hat gemeinsame Berufung verwendet. Der Text wurde geändert, um dies klarer zu machen.

In der Arbeit mit dem Titel „Variant calling on the GRCh38 Assembly with the data from phase three of the 1000 Genomes Project“ beschreibt Lowy-Gallego et al. beschreiben ihre Bemühungen, die 1000 Genomdaten des aktuellen . Weiterlesen

In der Arbeit mit dem Titel „Variant calling on the GRCh38 Assembly with the data from phase three of the 1000 Genomes Project“ beschreibt Lowy-Gallego et al. beschreiben ihre Bemühungen, die 1000 Genomdaten der aktuellen GRCh38-Assembly erneut zu analysieren. Sie führen keine vollständige Variantenanalyse durch, sondern geben einen Satz biallelischer SNVs als vorläufigen Variantenaufrufsatz frei. Sie vergleichen diesen Variantensatz mit den Variantenaufrufen Genome in a Bottle (GIAB) auf der Probe NA12878.

Es ist großartig zu sehen, dass Bemühungen zur Aktualisierung wichtiger Datensätze auf der aktuellen menschlichen Referenzbaugruppe GRCh38 durchgeführt werden. Wie die Autoren anmerken, stellt die GRCh38-Referenz eine wesentliche Verbesserung gegenüber der GRCh37-Referenz dar, aber das Fehlen einer GRCh38-basierten Annotation hat die Annahme dieser Version der Referenzbaugruppe behindert. Die Autoren diskutieren weiter, warum Ansätze auf der Grundlage von „Lift-Over“ unangemessen sind, was diese Arbeit motiviert hat. Ich stimme zu, dass 'Lift-Over'-basierte Ansätze unzureichend sind, aber ich finde die in diesem Manuskript präsentierten Ergebnisse in Bezug auf diese Behauptung nicht überzeugend.

Die Autoren verwenden in der Einleitung viel Platz darauf, die Verbesserungen in GRCh38 zu erklären, einschließlich der Hinzufügung alternativer Loci, geben sich dann aber keine Mühe zu zeigen, warum diese wertvoll sind. Darüber hinaus verbringen die Autoren Zeit damit, zu diskutieren, warum auf „Lift-Over“ basierende Ansätze unangemessen sind, ziehen dann aber keine Vergleiche an, um zu zeigen, warum ihre de novo Ansatz ist eine Verbesserung.

Obwohl ich glaube, dass diese Arbeit wichtig ist, habe ich das Gefühl, dass die Autoren nicht verstehen, warum dies getan wird de novo Die Analyse der GRCh38-Referenz ist wichtig.

1. Erklärung, warum "Lift-Over"-Ansätze Grenzen haben: Ich stimme der Aussage zu, dass „Lift-Over“ unzureichend ist. Die Beschreibung dazu auf Seite 1 ist jedoch nicht eindeutig. Aussage 1 „sie stützen sich auf eine äquivalente Region, die im neuen Genom vorhanden ist, sodass eine neue Sequenz in der verbesserten Anordnung effektiv ausgeschlossen ist“ verwechselt zwei Punkte. Regionen, die in der alten Baugruppe vorhanden sind, aber nicht in der neuen, werden von einem „Lift-Over“-Ansatz ausgeschlossen. Darüber hinaus wird auch eine neue Sequenz in der aktualisierten Referenz weggelassen - dies sind jedoch zwei separate Fälle.
Punkt 2, der sich auf zwei Ausrichtungen bezieht, bringt ebenfalls mehrere Probleme durcheinander. Ja – korrekte Ausrichtungen sind der Schlüssel zum „Lift-Over“-Ansatz, aber es gibt zwei Fälle von „schlechter Ausrichtung“. Der Fall ich denken Das Manuskript bezieht sich auf einen Fall, in dem eine erhöhte Diversität in einer Version der Anordnung Ausrichtungen (dh Sequenzänderungen) durcheinander bringen kann. Der andere relevante Fall ist das Hinzufügen einer paralogen Sequenz zu einer Baugruppe, die in der anderen fehlt. Dies kann dazu führen, dass sich ein Locus eher an einer paralogen Region ausrichtet als an dem äquivalenten Locus (ich habe Beispiele dafür gesehen), was auch zu einem falschen "Lift-Over" führen kann. Punkt drei dieser Aussage ist eine klare Aussage, aber die Autoren liefern keine Beweise, die dies tatsächlich unterstützen.

2. Die Autoren liefern nur biallelische SNPs: Ich sehe den Nutzen darin, mich auf eine begrenzte Menge von Varianten zu konzentrieren, aber nur, wenn diese Daten tatsächlich verwendet werden, um den Wert von zu demonstrieren de novo Analyse über 'lift-over', die in diesem Manuskript nicht durchgeführt wurde. Auf Seite 3 stellen die Autoren fest, dass "diese den größten Teil der SNVs darstellen, die im menschlichen Genom vorhanden sind.", aber ich hätte gerne genauere Zahlen dazu. Wie viel Prozent aller SNVs stellen die Biallelika dar? Wie viel Prozent aller Variationen stellen sie dar?

3. Seite 3, Qualitätskontrolle von Alignment-Dateien: Sind die hier vorgestellten Schritte nur die Unterschiede zum Originalprotokoll? Ich denke, das ist in Ordnung, aber aus dem Manuskript wird nicht klar, ob dies die vollständigen Schritte oder nur die Unterschiede sind.

4. Variantenfindung: Warum haben Sie die von Ihnen gewählten Tools zum Aufrufen von Varianten verwendet?

5. Variantenfilterung: Das Weglassen von Varianten der Geschlechtschromosomen erscheint wie eine erhebliche Unterlassung und schränkt die Verwendung dieses Datensatzes ein.

6. Datensatzvalidierung: Ich habe hier erhebliche Bedenken. Ich verstehe, warum NA12878 für einige Validierungen verwendet wurde. Meiner Meinung nach berücksichtigt der GIAB-Datensatz jedoch die alternativen Loci bei ihrem Variantenaufruf nicht, während dieses Manuskript versucht, diese Sequenzen zu nutzen - wie wirkte sich dies auf den Vergleich aus? Zum Beispiel würde ich mehr Konflikte in Regionen vorhersagen, in denen Alt-Loci in GRCh38 existieren. Tritt dies auf?
Ich bin auch nicht davon überzeugt, dass sich die Genauigkeit von NA12878 wirklich gut auf andere Proben übertragen lässt, insbesondere nicht-europäische Proben (da NA12878 eine europäische Abstammung hat). Wird sich die Genauigkeit wirklich auf außereuropäische Proben erstrecken? Außerdem lese ich Tabelle 5, dass dieser Datensatz etwas schlechter abschneidet als der GRCh37-Aufrufsatz. Dies trägt nicht viel dazu bei, diesen Leser davon zu überzeugen, dass sich die Arbeit der Neuanalyse lohnt - und ich bin davon überzeugt, basierend auf früheren Arbeiten, an denen ich beteiligt war! Ich habe einige Bedenken, dass dies auf Verbesserungen im neuen Rufset zurückzuführen sein könnte (aufgrund der Einbeziehung der Alts und komplexerer Köder), aber es erfordert einige erhebliche Arbeit, um dies herauszufinden. Es gibt Beispiele für diese Art der Analyse 1 . Die Autoren sollten auch klar angeben, welchen Anteil des Genoms sie mit dieser Methode beurteilen können.

7. Ausgelassene Analyse: Die Autoren diskutieren den Wert der verbesserten Referenz in der Einleitung, tun dann aber nichts, um den Wert der alternativen Loci aufzuzeigen. Wie viele neue Varianten werden an diesen Loci identifiziert? Wie verändert die Einbeziehung dieser Sequenzen die Variantenaufrufe der Primären?
Am enttäuschendsten ist vielleicht, dass es keine Analyse darüber gibt, wie die de novo ist eine Verbesserung gegenüber „Lift-Over“-Ansätzen. Wie geht das? de novo Variantenaufrufe im Vergleich zu den 'Lift-Over'-Aufrufen? Ohne diese Analyse ist mir unklar, ob irgendjemand davon überzeugt wäre, dass die de novo Anrufannahme lohnt sich.
Schließlich verpassen die Autoren die Gelegenheit, einen Genauigkeitsvergleich durchzuführen, indem sie sich die Regionen der Referenz ansehen, die aus den 'ABC'-Klonen besteht. Dies sind Fosmid-Bibliotheken, die aus mehreren der Proben erstellt wurden, die in das 1000-Genome-Projekt eingeflossen sind. Diese bieten eine großartige Testumgebung sowohl für die Untersuchung von Varianten-Calls (jeder Call in dieser Region sollte heterozygot oder hemizygot sein, da die Referenzsequenz einen gültigen Haplotyp in der analysierten Probe darstellt) als auch die Bestätigung der lokalen Haplotyp-Behauptungen.

Ist die Begründung für die Erstellung des Datensatzes/der Datensätze klar beschrieben?

Sind die Protokolle angemessen und die Arbeit technisch einwandfrei?

Werden ausreichende Details zu Methoden und Materialien bereitgestellt, um eine Replikation durch andere zu ermöglichen?

Sind die Datensätze übersichtlich in einem brauchbaren und zugänglichen Format dargestellt?

1. Marks P, Garcia S, Barrio AM, Belhocine K, et al.: Auflösung des gesamten Spektrums der menschlichen Genomvariation mit Linked-Reads.Genom-Res. 29 (4): 635-645 PubMed-Abstract | Publisher-Volltext

Konkurrierende Interessen: Es wurden keine konkurrierenden Interessen bekannt gegeben.

Expertise des Gutachters: Genomik, Genom-Assembly, Genom-Annotation, Varianten-Calling, Genom-Engineering.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene aufgeschlüsselt sind. Weiterlesen Zunächst möchten wir uns bei der Gutachterin für die Rückmeldungen und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene in detaillierte Punkte unterteilt sind und unten mit detaillierten Kommentaren behandelt werden. Wir haben das Manuskript weiter aktualisiert, um die Klarheit zu verbessern, wo darauf hingewiesen wurde, dass dies fehlt. Wir haben auch die angeforderten Informationen bereitgestellt, die den generierten Anrufsatz mit dem Lift-Over verglichen und verschiedene andere Aktualisierungen enthalten.

Als Reaktion auf die Kommentare auf hoher Ebene, die sich unseres Erachtens hauptsächlich auf a) die Verbesserungen von GRCh38 gegenüber GRCh37 und b) den Vergleich zwischen de novo Calling versus Lift-Over:

a) Es war nicht unsere Absicht, die Überlegenheit von GRCh38 gegenüber GRCh37 zu demonstrieren. Wir glauben, dass das GRC, insbesondere in dem Papier von Schneider et al., haben dies bereits bewiesen. Wir haben Informationen dazu zur Information von Lesern aufgenommen, die mit diesen Themen möglicherweise nicht vertraut sind. Wir akzeptieren jedoch, dass dies einen ungenauen Eindruck von der Betonung des Datenvermerks vermitteln kann. Daher wurde der Text geändert, die Erläuterungen zu Montageänderungen reduziert und stattdessen auf das Papier von Schnieder Bezug genommen et al. Unser Ziel war es, eine Ressource für diejenigen bereitzustellen, die die neue Versammlung verabschieden möchten, und nicht die Argumentation dafür darzulegen, warum GRCh38 angenommen werden sollte, was unserer Meinung nach bereits an anderer Stelle gemacht wurde.
b) Unser Schwerpunkt liegt auf der Bereitstellung von Ressourcen für die Gemeinschaft. Um den Nutzern die Daten möglichst zeitnah zur Verfügung zu stellen, haben wir uns für die Veröffentlichung im Datennotizformat entschieden. Dabei liegt der Schwerpunkt auf der Beschreibung, wie die Daten erstellt wurden, wobei die Validierung der Datenausgaben in den Informationen für die Autoren als optional aufgeführt wird. Angesichts der Kommentare haben wir einen Vergleich mit dem Lift-Over-Set durchgeführt und uns auch speziell die Bereiche der Baugruppe angesehen, die zwischen den beiden Baugruppen aktualisiert wurden. Weitere Details finden Sie unten.

1) Erklärung, warum „Lift-Over“-Ansätze Grenzen haben:

Dies bezieht sich auf eine Reihe von drei Aussagen zur Unzulänglichkeit von Lift-Overs.

Für die erste Aussage stellt der Gutachter fest, dass die Entfernung der Sequenz beim Wechsel von GRCh37 zu GRCh38 und der Gewinn der Sequenz zwei getrennte Fälle sind und dass diese in der Aussage „sie beruhen auf einer äquivalenten Region, die im neuen Genom vorhanden ist,“ zusammengeführt wurden neue Reihenfolge in der verbesserten Baugruppe ist effektiv ausgeschlossen“. Wir akzeptieren, dass dies mehrere Facetten von Änderungen zwischen den beiden Baugruppen kombiniert. Der Text für die Aussage 1 wurde daher aktualisiert, um sich auf den zentralen Punkt zu konzentrieren, den wir herausstellen wollten: dass eine Zuordnung zwischen den Baugruppen notwendig ist, bevor eine gegebene Variante übernommen werden kann, und dass dies nicht immer möglich ist (für alle einer von mehreren möglichen Gründen). Darüber hinaus haben wir die Anzahl der Datensätze hinzugefügt, die in den von dbSNP/EVA verarbeiteten Dateien nicht übernommen werden konnten, um einen konkreten Hinweis auf die Anzahl der Datensätze zu geben, bei denen dies auftritt.

Für die zweite Aussage wollten wir sagen, dass selbst wenn eine Variante aufgehoben werden kann, daraus nicht folgt, dass die Beweise, die diesen Aufruf in der ursprünglichen Baugruppe unterstützten, auch auf den neuen Standort übertragen würden. Der Text wurde geändert, um dies klarer zu machen, wobei auch Beweise von Schneider . zitiert werden et al. in Bezug auf Alignments und den Übergang von GRCh37 zu GRCh38.

Für die dritte Aussage wurde angemerkt, dass dies klar sei, jedoch keine Beweise für die Behauptung vorgelegt wurden. Angesichts der anderen Änderungen wurde dieser Text geändert, um sich auf den Fall zu konzentrieren, dass der Baugruppe eine neue Sequenz hinzugefügt wird, und weist auf spezifische Beispiele hin, die als Teil von Abbildung 1 gezeigt sind und die Unterschiede in der Hub- und de novo Call Sets an Beispielen klinisch relevanter Loci, die zwischen den beiden Assemblies aktualisiert wurden

2) Die Autoren liefern nur biallelische SNPs:

Der geforderte Vergleich mit dem Lift-Over wird in der Antwort zu Punkt sieben angesprochen. Wir haben die angeforderten Zahlen hinzugefügt, die sich darauf beziehen, welcher Anteil der SNVs biallelisch sind (99,6%) und die Anzahl der SNVs im Verhältnis zu anderen kurzen Varianten. Wir haben auch die Gelegenheit genutzt, das Call-Set zu aktualisieren, um biallelische INDELs aufzunehmen, eine Kategorie von Varianten, die zuvor nicht enthalten war. Multiallelische Rufe bleiben im Set abwesend, da SHAPEIT solche Rufe nicht verarbeiten kann und unsere Pipelines weiterentwickelt werden müssten. Unsere Strategie bestand darin, Aufrufe so schnell wie möglich freizugeben und den Datensatz erneut zu durchsuchen, indem wir nach Möglichkeit zusätzliche Variantenklassen hinzufügen. Dies geschah mit dem Ziel, die Daten für viele nützlich zu machen, und mit der Absicht, den Datensatz zu überarbeiten, um ihn als nützlich zu erweitern.

3) Seite 3, Qualitätskontrolle von Alignment-Dateien:

Alle verwendeten Schritte sind in der Datennotiz beschrieben, nicht nur die Unterschiede. Der Text wurde aktualisiert, um den Lesern dies klarer zu machen.

Die Werkzeuge wurden in Absprache mit den Mitgliedern des 1000 Genomes Project Consortiums ausgewählt. Obwohl unser Ziel darin bestand, ihre GRCh37-Analyse für die neue Assembly zu rekapitulieren, wäre dies angesichts der großen Anzahl von Aufrufern, die im ursprünglichen Projekt verwendet wurden, der damit einhergehenden Berechnung und der relativ komplexen Methoden zum Filtern und Integrieren von Aufrufmengen, die sowohl rechen- als auch arbeitsintensiv. Dies zwang uns, eine reduzierte Anzahl von Anrufern und eine vereinfachte Methodik zu verwenden. Wir suchten nach Empfehlungen, die die Leistung der Anrufer bei den 1000 Genomes Phase-3-Daten berücksichtigten, die im Gegensatz zu den meisten anderen Panels eine Mischung aus geringer Abdeckung und Exom mit deutlich größerer geografischer Vielfalt sind. Darüber hinaus machte die Leistung einiger Anrufer im Datensatz ihre Verwendung unpraktisch.

Der Text wurde aktualisiert, um die Leser darüber zu informieren.

Dies sollte eine erste Veröffentlichung von Daten sein, mit der Absicht, zusätzliche Elemente zu überprüfen und hinzuzufügen, die einer weiteren Verarbeitung bedürfen. Da die Geschlechtschromosomen eine zusätzliche Analyse erforderten, wurden sie in dieser ersten Veröffentlichung nicht berücksichtigt. Darüber hinaus glauben wir, dass der Datensatz für einige Benutzer auch in ihrer Abwesenheit von Vorteil ist. Wir erwarten, dass in Zukunft Aufrufe zu den GRCh38-Geschlechtschromosomen veröffentlicht werden.

6) Datensatzvalidierung:

Wir erkennen an, dass der GIAB NA12878-Benchmark unvollkommen ist. Wie der Gutachter feststellt, handelt es sich um eine einzelne Probe, und die Unterschiede in den Versionen des Referenzgenoms, die von uns und GIAB für das Alignment (mit und ohne alternative Loci) verwendet werden, dürften einen Einfluss auf die Variantenerkennung haben.

In Bezug auf die alternativen Loci wird die Möglichkeit erwähnt, den Konfliktgrad mit dem Benchmark in Regionen zu vergleichen, in denen alternative Loci vorhanden sind und in denen sie nicht vorhanden sind. Da jedoch zu erwarten ist, dass das Vorhandensein der alternativen Loci auch zumindest einen gewissen Einfluss auf das gesamte Genom haben würde (ungeachtet des Vorhandenseins alternativer Loci an diesem bestimmten Ort), sind wir der Meinung, dass wir, um wirklich beurteilen zu können, welche Auswirkungen die alternative Loci in der Analyse hatten, wäre es notwendig, die Analyse zu wiederholen und stattdessen Ausrichtungen zu verwenden, bei denen die alternativen Loci nicht vorhanden waren. Da unser Datensatz auch auf einer gemeinsamen Genotypisierung beruht, würde dies effektiv bedeuten, alle Daten neu auszurichten und die Analyse aller Daten zu wiederholen, um diese Frage zu beantworten. Das damit verbundene beträchtliche Rechenvolumen würde einen erheblichen Zeit- und Kostenaufwand verursachen und macht diesen Vergleich daher unpraktisch. Dies wäre jedoch notwendig, um aussagekräftige und fundierte Schlussfolgerungen über den Einfluss der alternativen Loci auf unsere Analyse ableiten zu können.

Der Gutachter äußert auch Bedenken, dass die Genauigkeit mit NA12878 möglicherweise nicht auf andere Proben übertragen werden kann, insbesondere nicht auf solche mit nichteuropäischer Abstammung. Angesichts der Prävalenz von Daten aus NA12878 scheint es vernünftig zu folgern, dass Aufrufmethoden bei dieser Stichprobe eine gute und möglicherweise überdurchschnittliche Leistung erbringen sollten. NA12878 hat jedoch ähnliche Daten wie andere Proben in unserem Datensatz. Darüber hinaus besteht unser Datensatz nur aus Illumina-Daten, sodass wir beispielsweise nicht erwarten, dass die Arten von Sequenzierungsfehlern zwischen den Proben variieren. In der Arbeit anderer, die den neuen Aufrufsatz mit 1000 Genomen Phase 3 vergleichen, sehen wir, dass unsere Ergebnisse und die für Phase 3 ein starkes Maß an Konsistenz über die Stichproben hinweg zeigen (Robinson und Glusman, 2019, https://www.biorxiv .org/content/10.1011/600254v1), ohne Hinweis darauf, dass NA12878 ein Ausreißer ist.

In Bezug auf unseren Vergleich mit Phase drei war es nicht unsere Absicht, Phase drei zu übertreffen, sondern eine de novo Anrufgruppe ähnlicher Qualität auf GRCh38. Das Dienstprogramm ist für diejenigen, die mit GRCh38 arbeiten und mit a . arbeiten möchten de novo Aufrufsatz, der auf dieser Baugruppe erzeugt wurde, einschließlich der neuen GRCh38-Regionen. Der Vergleich mit Phase drei wird angeboten, um Benutzern zu helfen, zu verstehen, wie unser Anrufset im Vergleich zu Phase drei abschneidet. Unser Call-Set zeigt ein weitgehend ähnliches Verhalten wie Phase drei, mit einer etwas anderen Balance von Sensitivität und Spezifität. Angesichts der Tatsache, dass Phase drei jedoch mit einem massiv höheren Analyseaufwand verbunden war, der aufgrund der Ressourcen nicht wiederholt werden könnte, ist es vielleicht nicht verwunderlich, dass Phase drei einen höheren Ertrag erzielt. Dies spiegelt sich wiederum im Lift-Over wider, jedoch mit erheblichen Unterschieden, die in neuen Regionen gezeigt werden, in denen die de novo Call Set erkennt Varianten, die beim Lift-Over fehlen.

Obwohl wir die Einschränkungen des von uns verwendeten GIAB-Benchmarks anerkennen, fanden wir keine besseren Alternativen. Um unsere Daten, die auf gemeinsamer Genotypisierung basieren, effektiv zu vergleichen, brauchten wir „Goldstandard“-Daten für Proben in unserem Datensatz. Für kurze Varianten war der einzige solche Datensatz, den wir finden konnten, GIAB NA12878. Auch die Alternativen, eine manuelle Überprüfung der Daten oder alternative Datentypen, wie z. B. PacBio-Reads, die von uns bewertet werden, haben Grenzen und verlieren die Vorteile eines unabhängigen „Goldstandard“-Datensatzes, der von einer anderen Gruppe erstellt wurde.

Der Text wurde aktualisiert, um das oben Gesagte besser widerzuspiegeln.

Die alternativen Loci wurden beim Ausrichten von Lesevorgängen verwendet, um die bestmögliche Lesezuordnung sicherzustellen, aber Varianten wurden an diesen Loci nicht aufgerufen. Der Text wurde geändert, um dies klarer zu machen. Dies liegt zum großen Teil daran, dass Protokolle zum erfolgreichen Aufrufen der alternativen Loci fehlen. Die einzige uns bekannte Information von Entwicklern aufrufender Software ist ein Beta-Tutorial von GATK (https://software.broadinstitute.org/gatk/documentation/article.php?id=8017). Aufgrund des Fehlens von Tools und Protokollen für das sichere Aufrufen der alternativen Loci wurden keine Anrufe an diesen Loci getätigt.

Wir haben unsere Benchmarking-Arbeiten um den Lift-Over-Datensatz in den Vergleich erweitert. Wir haben uns auch speziell neue Regionen von GRCh38 angesehen. Diese sind im überarbeiteten Text enthalten.

Der Vorschlag bezüglich Fosmidklonen ist interessant und würde eine weitere Validierung liefern. Wir weisen jedoch darauf hin, dass dies eine Datennotiz ist, die von der Zeitschrift angeboten wird, um die Erstellung eines Datensatzes zu beschreiben, wobei Benchmarking als optional bezeichnet wird. Unser bestehendes Benchmarking deckt das Genom in größerem Umfang ab und sollte daher bereits einen besseren Hinweis auf die Leistungsfähigkeit unseres Berufungsgenoms geben. Darüber hinaus haben wir ein Benchmarking der Phasenlage mit WhatsHap hinzugefügt.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene in detaillierte Punkte unterteilt sind und unten mit detaillierten Kommentaren behandelt werden. Wir haben das Manuskript weiter aktualisiert, um die Klarheit zu verbessern, wo darauf hingewiesen wurde, dass dies fehlt. Wir haben auch die angeforderten Informationen bereitgestellt, die den generierten Anrufsatz mit dem Lift-Over verglichen und verschiedene andere Aktualisierungen enthalten.

Als Reaktion auf die Kommentare auf hoher Ebene, die sich unseres Erachtens hauptsächlich auf a) die Verbesserungen von GRCh38 gegenüber GRCh37 und b) den Vergleich zwischen de novo Calling versus Lift-Over:

a) Es war nicht unsere Absicht, die Überlegenheit von GRCh38 gegenüber GRCh37 zu demonstrieren. Wir glauben, dass das GRC, insbesondere in dem Papier von Schneider et al., haben dies bereits bewiesen. Wir haben Informationen dazu zur Information von Lesern aufgenommen, die mit diesen Themen möglicherweise nicht vertraut sind. Wir akzeptieren jedoch, dass dies einen ungenauen Eindruck von der Betonung des Datenvermerks vermitteln kann. Daher wurde der Text geändert, die Erläuterungen zu Montageänderungen reduziert und stattdessen auf das Papier von Schnieder Bezug genommen et al. Unser Ziel war es, eine Ressource für diejenigen bereitzustellen, die die neue Versammlung verabschieden möchten, und nicht die Argumentation dafür darzulegen, warum GRCh38 angenommen werden sollte, was unserer Meinung nach bereits an anderer Stelle gemacht wurde.
b) Unser Schwerpunkt liegt auf der Bereitstellung von Ressourcen für die Gemeinschaft. Um den Nutzern die Daten möglichst zeitnah zur Verfügung zu stellen, haben wir uns für die Veröffentlichung im Datennotizformat entschieden. Dabei liegt der Schwerpunkt auf der Beschreibung, wie die Daten erstellt wurden, wobei die Validierung der Datenausgaben in den Informationen für die Autoren als optional aufgeführt wird. Angesichts der Kommentare haben wir einen Vergleich mit dem Lift-Over-Set durchgeführt und uns auch speziell die Bereiche der Baugruppe angesehen, die zwischen den beiden Baugruppen aktualisiert wurden. Weitere Details finden Sie unten.

1) Erklärung, warum „Lift-Over“-Ansätze Grenzen haben:

Dies bezieht sich auf eine Reihe von drei Aussagen zur Unzulänglichkeit von Lift-Overs.

Für die erste Aussage stellt der Gutachter fest, dass die Entfernung der Sequenz beim Wechsel von GRCh37 zu GRCh38 und der Gewinn der Sequenz zwei getrennte Fälle sind und dass diese in der Aussage „sie beruhen auf einer äquivalenten Region, die im neuen Genom vorhanden ist,“ zusammengeführt wurden neue Reihenfolge in der verbesserten Baugruppe ist effektiv ausgeschlossen“. Wir akzeptieren, dass dies mehrere Facetten von Änderungen zwischen den beiden Baugruppen kombiniert. Der Text für die Aussage 1 wurde daher aktualisiert, um sich auf den zentralen Punkt zu konzentrieren, den wir herausstellen wollten: dass eine Zuordnung zwischen den Baugruppen notwendig ist, bevor eine gegebene Variante übernommen werden kann, und dass dies nicht immer möglich ist (für alle einer von mehreren möglichen Gründen). Darüber hinaus haben wir die Anzahl der Datensätze hinzugefügt, die in den von dbSNP/EVA verarbeiteten Dateien nicht übernommen werden konnten, um einen konkreten Hinweis auf die Anzahl der Datensätze zu geben, bei denen dies auftritt.

Für die zweite Aussage wollten wir sagen, dass selbst wenn eine Variante aufgehoben werden kann, daraus nicht folgt, dass die Beweise, die diesen Aufruf in der ursprünglichen Baugruppe unterstützten, auch auf den neuen Standort übertragen würden. Der Text wurde geändert, um dies klarer zu machen, wobei auch Beweise von Schneider . zitiert werden et al. in Bezug auf Alignments und den Übergang von GRCh37 zu GRCh38.

Für die dritte Aussage wurde angemerkt, dass dies klar sei, jedoch keine Beweise für die Behauptung vorgelegt wurden. Angesichts der anderen Änderungen wurde dieser Text geändert, um sich auf den Fall zu konzentrieren, dass der Baugruppe eine neue Sequenz hinzugefügt wird, und weist auf spezifische Beispiele hin, die als Teil von Abbildung 1 gezeigt sind und die Unterschiede in der Hub- und de novo Call Sets an Beispielen klinisch relevanter Loci, die zwischen den beiden Assemblies aktualisiert wurden

2) Die Autoren liefern nur biallelische SNPs:

Der geforderte Vergleich mit dem Lift-Over wird in der Antwort zu Punkt sieben angesprochen. Wir haben die angeforderten Zahlen hinzugefügt, die sich darauf beziehen, welcher Anteil der SNVs biallelisch sind (99,6%) und die Anzahl der SNVs im Verhältnis zu anderen kurzen Varianten. Wir haben auch die Gelegenheit genutzt, das Call-Set zu aktualisieren, um biallelische INDELs aufzunehmen, eine Kategorie von Varianten, die zuvor nicht enthalten war. Multiallelische Rufe bleiben im Set abwesend, da SHAPEIT solche Rufe nicht verarbeiten kann und unsere Pipelines weiterentwickelt werden müssten. Unsere Strategie bestand darin, Aufrufe so schnell wie möglich freizugeben und den Datensatz erneut zu durchsuchen, indem wir nach Möglichkeit zusätzliche Variantenklassen hinzufügen. Dies geschah mit dem Ziel, die Daten für viele nützlich zu machen, und mit der Absicht, den Datensatz zu überarbeiten, um ihn als nützlich zu erweitern.

3) Seite 3, Qualitätskontrolle von Alignment-Dateien:

Alle verwendeten Schritte sind in der Datennotiz beschrieben, nicht nur die Unterschiede. Der Text wurde aktualisiert, um den Lesern dies klarer zu machen.

Die Werkzeuge wurden in Absprache mit den Mitgliedern des 1000 Genomes Project Consortiums ausgewählt. Obwohl unser Ziel darin bestand, ihre GRCh37-Analyse für die neue Assembly zu rekapitulieren, wäre dies angesichts der großen Anzahl von Aufrufern, die im ursprünglichen Projekt verwendet wurden, der damit einhergehenden Berechnung und der relativ komplexen Methoden zum Filtern und Integrieren von Aufrufmengen, die sowohl rechen- als auch arbeitsintensiv. Dies zwang uns, eine reduzierte Anzahl von Anrufern und eine vereinfachte Methodik zu verwenden. Wir suchten nach Empfehlungen, die die Leistung der Anrufer bei den 1000 Genomes Phase-3-Daten berücksichtigten, die im Gegensatz zu den meisten anderen Panels eine Mischung aus geringer Abdeckung und Exom mit deutlich größerer geografischer Vielfalt sind. Darüber hinaus machte die Leistung einiger Anrufer im Datensatz ihre Verwendung unpraktisch.

Der Text wurde aktualisiert, um die Leser darüber zu informieren.

Dies sollte eine erste Veröffentlichung von Daten sein, mit der Absicht, zusätzliche Elemente zu überprüfen und hinzuzufügen, die einer weiteren Verarbeitung bedürfen. Da die Geschlechtschromosomen eine zusätzliche Analyse erforderten, wurden sie in dieser ersten Veröffentlichung nicht berücksichtigt. Darüber hinaus glauben wir, dass der Datensatz für einige Benutzer auch in ihrer Abwesenheit von Vorteil ist. Wir erwarten, dass in Zukunft Aufrufe zu den GRCh38-Geschlechtschromosomen veröffentlicht werden.

6) Datensatzvalidierung:

Wir erkennen an, dass der GIAB NA12878-Benchmark unvollkommen ist. Wie der Gutachter feststellt, handelt es sich um eine einzelne Probe, und die Unterschiede in den Versionen des Referenzgenoms, die von uns und GIAB für das Alignment (mit und ohne alternative Loci) verwendet werden, dürften einen Einfluss auf die Variantenerkennung haben.

In Bezug auf die alternativen Loci wird die Möglichkeit erwähnt, den Konfliktgrad mit dem Benchmark in Regionen zu vergleichen, in denen alternative Loci vorhanden sind und in denen sie nicht vorhanden sind. Da jedoch zu erwarten ist, dass das Vorhandensein der alternativen Loci auch zumindest einen gewissen Einfluss auf das gesamte Genom haben würde (ungeachtet des Vorhandenseins alternativer Loci an diesem bestimmten Ort), sind wir der Meinung, dass wir, um wirklich beurteilen zu können, welche Auswirkungen die alternative Loci in der Analyse hatten, wäre es notwendig, die Analyse zu wiederholen und stattdessen Ausrichtungen zu verwenden, bei denen die alternativen Loci nicht vorhanden waren. Da unser Datensatz auch auf einer gemeinsamen Genotypisierung beruht, würde dies effektiv bedeuten, alle Daten neu auszurichten und die Analyse aller Daten zu wiederholen, um diese Frage zu beantworten. Das damit verbundene beträchtliche Rechenvolumen würde einen erheblichen Zeit- und Kostenaufwand verursachen und macht diesen Vergleich daher unpraktisch. Dies wäre jedoch notwendig, um aussagekräftige und fundierte Schlussfolgerungen über den Einfluss der alternativen Loci auf unsere Analyse ableiten zu können.

Der Gutachter äußert auch Bedenken, dass die Genauigkeit mit NA12878 möglicherweise nicht auf andere Proben übertragen werden kann, insbesondere nicht auf solche mit nichteuropäischer Abstammung. Angesichts der Prävalenz von Daten aus NA12878 scheint es vernünftig zu folgern, dass Aufrufmethoden bei dieser Stichprobe eine gute und möglicherweise überdurchschnittliche Leistung erbringen sollten. NA12878 hat jedoch ähnliche Daten wie andere Proben in unserem Datensatz. Darüber hinaus besteht unser Datensatz nur aus Illumina-Daten, sodass wir beispielsweise nicht erwarten, dass die Arten von Sequenzierungsfehlern zwischen den Proben variieren. In der Arbeit anderer, die den neuen Aufrufsatz mit 1000 Genomen Phase 3 vergleichen, sehen wir, dass unsere Ergebnisse und die für Phase 3 ein starkes Maß an Konsistenz über die Stichproben hinweg zeigen (Robinson und Glusman, 2019, https://www.biorxiv .org/content/10.1011/600254v1), ohne Hinweis darauf, dass NA12878 ein Ausreißer ist.

In Bezug auf unseren Vergleich mit Phase drei war es nicht unsere Absicht, Phase drei zu übertreffen, sondern eine de novo Anrufgruppe ähnlicher Qualität auf GRCh38. Das Dienstprogramm ist für diejenigen, die mit GRCh38 arbeiten und mit a . arbeiten möchten de novo Aufrufsatz, der auf dieser Baugruppe erzeugt wurde, einschließlich der neuen GRCh38-Regionen. Der Vergleich mit Phase drei wird angeboten, um Benutzern zu helfen, zu verstehen, wie unser Anrufset im Vergleich zu Phase drei abschneidet. Unser Call-Set zeigt ein weitgehend ähnliches Verhalten wie Phase drei, mit einer etwas anderen Balance von Sensitivität und Spezifität. Angesichts der Tatsache, dass Phase drei jedoch mit einem massiv höheren Analyseaufwand verbunden war, der aufgrund der Ressourcen nicht wiederholt werden könnte, ist es vielleicht nicht verwunderlich, dass Phase drei einen höheren Ertrag erzielt. Dies spiegelt sich wiederum im Lift-Over wider, jedoch mit erheblichen Unterschieden, die in neuen Regionen gezeigt werden, in denen die de novo Call Set erkennt Varianten, die beim Lift-Over fehlen.

Obwohl wir die Einschränkungen des von uns verwendeten GIAB-Benchmarks anerkennen, fanden wir keine besseren Alternativen. Um unsere Daten, die auf gemeinsamer Genotypisierung basieren, effektiv zu vergleichen, brauchten wir „Goldstandard“-Daten für Proben in unserem Datensatz. Für kurze Varianten war der einzige solche Datensatz, den wir finden konnten, GIAB NA12878. Auch die Alternativen, eine manuelle Überprüfung der Daten oder alternative Datentypen, wie z. B. PacBio-Reads, die von uns bewertet werden, haben Grenzen und verlieren die Vorteile eines unabhängigen „Goldstandard“-Datensatzes, der von einer anderen Gruppe erstellt wurde.

Der Text wurde aktualisiert, um das oben Gesagte besser widerzuspiegeln.

Die alternativen Loci wurden beim Ausrichten von Lesevorgängen verwendet, um die bestmögliche Lesezuordnung sicherzustellen, aber Varianten wurden an diesen Loci nicht aufgerufen. Der Text wurde geändert, um dies klarer zu machen. Dies liegt zum großen Teil daran, dass Protokolle zum erfolgreichen Aufrufen der alternativen Loci fehlen. Die einzige uns bekannte Information von Entwicklern aufrufender Software ist ein Beta-Tutorial von GATK (https://software.broadinstitute.org/gatk/documentation/article.php?id=8017). Aufgrund des Fehlens von Tools und Protokollen für das sichere Aufrufen der alternativen Loci wurden keine Anrufe an diesen Loci getätigt.

Wir haben unsere Benchmarking-Arbeiten um den Lift-Over-Datensatz in den Vergleich erweitert. Wir haben uns auch speziell neue Regionen von GRCh38 angesehen. Diese sind im überarbeiteten Text enthalten.

Der Vorschlag bezüglich Fosmidklonen ist interessant und würde eine weitere Validierung liefern. Wir weisen jedoch darauf hin, dass dies eine Datennotiz ist, die von der Zeitschrift angeboten wird, um die Erstellung eines Datensatzes zu beschreiben, wobei Benchmarking als optional bezeichnet wird. Unser bestehendes Benchmarking deckt das Genom in größerem Umfang ab und sollte daher bereits einen besseren Hinweis auf die Leistungsfähigkeit unseres Berufungsgenoms geben. Darüber hinaus haben wir ein Benchmarking der Phasenlage mit WhatsHap hinzugefügt.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene aufgeschlüsselt sind. Weiterlesen Zunächst möchten wir uns bei der Gutachterin für die Rückmeldungen und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene in detaillierte Punkte unterteilt sind und unten mit detaillierten Kommentaren behandelt werden. Wir haben das Manuskript weiter aktualisiert, um die Klarheit zu verbessern, wo darauf hingewiesen wurde, dass dies fehlt. Wir haben auch die angeforderten Informationen bereitgestellt, die den generierten Anrufsatz mit dem Lift-Over verglichen und verschiedene andere Aktualisierungen enthalten.

Als Reaktion auf die Kommentare auf hoher Ebene, die sich unseres Erachtens hauptsächlich auf a) die Verbesserungen von GRCh38 gegenüber GRCh37 und b) den Vergleich zwischen de novo Calling versus Lift-Over:

a) Es war nicht unsere Absicht, die Überlegenheit von GRCh38 gegenüber GRCh37 zu demonstrieren. Wir glauben, dass das GRC, insbesondere in dem Papier von Schneider et al., haben dies bereits bewiesen. Wir haben Informationen dazu zur Information von Lesern aufgenommen, die mit diesen Themen möglicherweise nicht vertraut sind. Wir akzeptieren jedoch, dass dies einen ungenauen Eindruck von der Betonung des Datenvermerks vermitteln kann. Daher wurde der Text geändert, die Erläuterungen zu Montageänderungen reduziert und stattdessen auf das Papier von Schnieder Bezug genommen et al. Unser Ziel war es, eine Ressource für diejenigen bereitzustellen, die die neue Versammlung verabschieden möchten, und nicht die Argumentation dafür darzulegen, warum GRCh38 angenommen werden sollte, was unserer Meinung nach bereits an anderer Stelle gemacht wurde.
b) Unser Schwerpunkt liegt auf der Bereitstellung von Ressourcen für die Gemeinschaft. Um den Nutzern die Daten möglichst zeitnah zur Verfügung zu stellen, haben wir uns für die Veröffentlichung im Datennotizformat entschieden. Dabei liegt der Schwerpunkt auf der Beschreibung, wie die Daten erstellt wurden, wobei die Validierung der Datenausgaben in den Informationen für die Autoren als optional aufgeführt wird. Angesichts der Kommentare haben wir einen Vergleich mit dem Lift-Over-Set durchgeführt und uns auch speziell die Bereiche der Baugruppe angesehen, die zwischen den beiden Baugruppen aktualisiert wurden. Weitere Details finden Sie unten.

1) Erklärung, warum „Lift-Over“-Ansätze Grenzen haben:

Dies bezieht sich auf eine Reihe von drei Aussagen zur Unzulänglichkeit von Lift-Overs.

Für die erste Aussage stellt der Gutachter fest, dass die Entfernung der Sequenz beim Wechsel von GRCh37 zu GRCh38 und der Gewinn der Sequenz zwei getrennte Fälle sind und dass diese in der Aussage „sie beruhen auf einer äquivalenten Region, die im neuen Genom vorhanden ist,“ zusammengeführt wurden neue Reihenfolge in der verbesserten Baugruppe ist effektiv ausgeschlossen“. Wir akzeptieren, dass dies mehrere Facetten von Änderungen zwischen den beiden Baugruppen kombiniert. Der Text für die Aussage 1 wurde daher aktualisiert, um sich auf den zentralen Punkt zu konzentrieren, den wir herausstellen wollten: dass eine Zuordnung zwischen den Baugruppen notwendig ist, bevor eine gegebene Variante übernommen werden kann, und dass dies nicht immer möglich ist (für alle einer von mehreren möglichen Gründen). Darüber hinaus haben wir die Anzahl der Datensätze hinzugefügt, die in den von dbSNP/EVA verarbeiteten Dateien nicht übernommen werden konnten, um einen konkreten Hinweis auf die Anzahl der Datensätze zu geben, bei denen dies auftritt.

Für die zweite Aussage wollten wir sagen, dass selbst wenn eine Variante aufgehoben werden kann, daraus nicht folgt, dass die Beweise, die diesen Aufruf in der ursprünglichen Baugruppe unterstützten, auch auf den neuen Standort übertragen würden. Der Text wurde geändert, um dies klarer zu machen, wobei auch Beweise von Schneider . zitiert werden et al. in Bezug auf Alignments und den Übergang von GRCh37 zu GRCh38.

Für die dritte Aussage wurde angemerkt, dass dies klar sei, jedoch keine Beweise für die Behauptung vorgelegt wurden. Angesichts der anderen Änderungen wurde dieser Text geändert, um sich auf den Fall zu konzentrieren, dass der Baugruppe eine neue Sequenz hinzugefügt wird, und weist auf spezifische Beispiele hin, die als Teil von Abbildung 1 gezeigt sind und die Unterschiede in der Hub- und de novo Call Sets an Beispielen klinisch relevanter Loci, die zwischen den beiden Assemblies aktualisiert wurden

2) Die Autoren liefern nur biallelische SNPs:

Der geforderte Vergleich mit dem Lift-Over wird in der Antwort zu Punkt sieben angesprochen. Wir haben die angeforderten Zahlen hinzugefügt, die sich darauf beziehen, welcher Anteil der SNVs biallelisch sind (99,6%) und die Anzahl der SNVs im Verhältnis zu anderen kurzen Varianten. Wir haben auch die Gelegenheit genutzt, das Call-Set zu aktualisieren, um biallelische INDELs aufzunehmen, eine Kategorie von Varianten, die zuvor nicht enthalten war. Multiallelische Rufe bleiben im Set abwesend, da SHAPEIT solche Rufe nicht verarbeiten kann und unsere Pipelines weiterentwickelt werden müssten. Unsere Strategie bestand darin, Aufrufe so schnell wie möglich freizugeben und den Datensatz erneut zu durchsuchen, indem wir nach Möglichkeit zusätzliche Variantenklassen hinzufügen. Dies geschah mit dem Ziel, die Daten für viele nützlich zu machen, und mit der Absicht, den Datensatz zu überarbeiten, um ihn als nützlich zu erweitern.

3) Seite 3, Qualitätskontrolle von Alignment-Dateien:

Alle verwendeten Schritte sind in der Datennotiz beschrieben, nicht nur die Unterschiede. Der Text wurde aktualisiert, um den Lesern dies klarer zu machen.

Die Werkzeuge wurden in Absprache mit den Mitgliedern des 1000 Genomes Project Consortiums ausgewählt. Obwohl unser Ziel darin bestand, ihre GRCh37-Analyse für die neue Assembly zu rekapitulieren, wäre dies angesichts der großen Anzahl von Aufrufern, die im ursprünglichen Projekt verwendet wurden, der damit einhergehenden Berechnung und der relativ komplexen Methoden zum Filtern und Integrieren von Aufrufmengen, die sowohl rechen- als auch arbeitsintensiv. Dies zwang uns, eine reduzierte Anzahl von Anrufern und eine vereinfachte Methodik zu verwenden. Wir suchten nach Empfehlungen, die die Leistung der Anrufer bei den 1000 Genomes Phase-3-Daten berücksichtigten, die im Gegensatz zu den meisten anderen Panels eine Mischung aus geringer Abdeckung und Exom mit deutlich größerer geografischer Vielfalt sind.Darüber hinaus machte die Leistung einiger Anrufer im Datensatz ihre Verwendung unpraktisch.

Der Text wurde aktualisiert, um die Leser darüber zu informieren.

Dies sollte eine erste Veröffentlichung von Daten sein, mit der Absicht, zusätzliche Elemente zu überprüfen und hinzuzufügen, die einer weiteren Verarbeitung bedürfen. Da die Geschlechtschromosomen eine zusätzliche Analyse erforderten, wurden sie in dieser ersten Veröffentlichung nicht berücksichtigt. Darüber hinaus glauben wir, dass der Datensatz für einige Benutzer auch in ihrer Abwesenheit von Vorteil ist. Wir erwarten, dass in Zukunft Aufrufe zu den GRCh38-Geschlechtschromosomen veröffentlicht werden.

6) Datensatzvalidierung:

Wir erkennen an, dass der GIAB NA12878-Benchmark unvollkommen ist. Wie der Gutachter feststellt, handelt es sich um eine einzelne Probe, und die Unterschiede in den Versionen des Referenzgenoms, die von uns und GIAB für das Alignment (mit und ohne alternative Loci) verwendet werden, dürften einen Einfluss auf die Variantenerkennung haben.

In Bezug auf die alternativen Loci wird die Möglichkeit erwähnt, den Konfliktgrad mit dem Benchmark in Regionen zu vergleichen, in denen alternative Loci vorhanden sind und in denen sie nicht vorhanden sind. Da jedoch zu erwarten ist, dass das Vorhandensein der alternativen Loci auch zumindest einen gewissen Einfluss auf das gesamte Genom haben würde (ungeachtet des Vorhandenseins alternativer Loci an diesem bestimmten Ort), sind wir der Meinung, dass wir, um wirklich beurteilen zu können, welche Auswirkungen die alternative Loci in der Analyse hatten, wäre es notwendig, die Analyse zu wiederholen und stattdessen Ausrichtungen zu verwenden, bei denen die alternativen Loci nicht vorhanden waren. Da unser Datensatz auch auf einer gemeinsamen Genotypisierung beruht, würde dies effektiv bedeuten, alle Daten neu auszurichten und die Analyse aller Daten zu wiederholen, um diese Frage zu beantworten. Das damit verbundene beträchtliche Rechenvolumen würde einen erheblichen Zeit- und Kostenaufwand verursachen und macht diesen Vergleich daher unpraktisch. Dies wäre jedoch notwendig, um aussagekräftige und fundierte Schlussfolgerungen über den Einfluss der alternativen Loci auf unsere Analyse ableiten zu können.

Der Gutachter äußert auch Bedenken, dass die Genauigkeit mit NA12878 möglicherweise nicht auf andere Proben übertragen werden kann, insbesondere nicht auf solche mit nichteuropäischer Abstammung. Angesichts der Prävalenz von Daten aus NA12878 scheint es vernünftig zu folgern, dass Aufrufmethoden bei dieser Stichprobe eine gute und möglicherweise überdurchschnittliche Leistung erbringen sollten. NA12878 hat jedoch ähnliche Daten wie andere Proben in unserem Datensatz. Darüber hinaus besteht unser Datensatz nur aus Illumina-Daten, sodass wir beispielsweise nicht erwarten, dass die Arten von Sequenzierungsfehlern zwischen den Proben variieren. In der Arbeit anderer, die den neuen Aufrufsatz mit 1000 Genomen Phase 3 vergleichen, sehen wir, dass unsere Ergebnisse und die für Phase 3 ein starkes Maß an Konsistenz über die Stichproben hinweg zeigen (Robinson und Glusman, 2019, https://www.biorxiv .org/content/10.1011/600254v1), ohne Hinweis darauf, dass NA12878 ein Ausreißer ist.

In Bezug auf unseren Vergleich mit Phase drei war es nicht unsere Absicht, Phase drei zu übertreffen, sondern eine de novo Anrufgruppe ähnlicher Qualität auf GRCh38. Das Dienstprogramm ist für diejenigen, die mit GRCh38 arbeiten und mit a . arbeiten möchten de novo Aufrufsatz, der auf dieser Baugruppe erzeugt wurde, einschließlich der neuen GRCh38-Regionen. Der Vergleich mit Phase drei wird angeboten, um Benutzern zu helfen, zu verstehen, wie unser Anrufset im Vergleich zu Phase drei abschneidet. Unser Call-Set zeigt ein weitgehend ähnliches Verhalten wie Phase drei, mit einer etwas anderen Balance von Sensitivität und Spezifität. Angesichts der Tatsache, dass Phase drei jedoch mit einem massiv höheren Analyseaufwand verbunden war, der aufgrund der Ressourcen nicht wiederholt werden könnte, ist es vielleicht nicht verwunderlich, dass Phase drei einen höheren Ertrag erzielt. Dies spiegelt sich wiederum im Lift-Over wider, jedoch mit erheblichen Unterschieden, die in neuen Regionen gezeigt werden, in denen die de novo Call Set erkennt Varianten, die beim Lift-Over fehlen.

Obwohl wir die Einschränkungen des von uns verwendeten GIAB-Benchmarks anerkennen, fanden wir keine besseren Alternativen. Um unsere Daten, die auf gemeinsamer Genotypisierung basieren, effektiv zu vergleichen, brauchten wir „Goldstandard“-Daten für Proben in unserem Datensatz. Für kurze Varianten war der einzige solche Datensatz, den wir finden konnten, GIAB NA12878. Auch die Alternativen, eine manuelle Überprüfung der Daten oder alternative Datentypen, wie z. B. PacBio-Reads, die von uns bewertet werden, haben Grenzen und verlieren die Vorteile eines unabhängigen „Goldstandard“-Datensatzes, der von einer anderen Gruppe erstellt wurde.

Der Text wurde aktualisiert, um das oben Gesagte besser widerzuspiegeln.

Die alternativen Loci wurden beim Ausrichten von Lesevorgängen verwendet, um die bestmögliche Lesezuordnung sicherzustellen, aber Varianten wurden an diesen Loci nicht aufgerufen. Der Text wurde geändert, um dies klarer zu machen. Dies liegt zum großen Teil daran, dass Protokolle zum erfolgreichen Aufrufen der alternativen Loci fehlen. Die einzige uns bekannte Information von Entwicklern aufrufender Software ist ein Beta-Tutorial von GATK (https://software.broadinstitute.org/gatk/documentation/article.php?id=8017). Aufgrund des Fehlens von Tools und Protokollen für das sichere Aufrufen der alternativen Loci wurden keine Anrufe an diesen Loci getätigt.

Wir haben unsere Benchmarking-Arbeiten um den Lift-Over-Datensatz in den Vergleich erweitert. Wir haben uns auch speziell neue Regionen von GRCh38 angesehen. Diese sind im überarbeiteten Text enthalten.

Der Vorschlag bezüglich Fosmidklonen ist interessant und würde eine weitere Validierung liefern. Wir weisen jedoch darauf hin, dass dies eine Datennotiz ist, die von der Zeitschrift angeboten wird, um die Erstellung eines Datensatzes zu beschreiben, wobei Benchmarking als optional bezeichnet wird. Unser bestehendes Benchmarking deckt das Genom in größerem Umfang ab und sollte daher bereits einen besseren Hinweis auf die Leistungsfähigkeit unseres Berufungsgenoms geben. Darüber hinaus haben wir ein Benchmarking der Phasenlage mit WhatsHap hinzugefügt.

Zunächst möchten wir uns bei der Gutachterin für das Feedback und die Aufmerksamkeit für diese Arbeit bedanken.

Wir stellen fest, dass die Kommentare auf hoher Ebene in detaillierte Punkte unterteilt sind und unten mit detaillierten Kommentaren behandelt werden. Wir haben das Manuskript weiter aktualisiert, um die Klarheit zu verbessern, wo darauf hingewiesen wurde, dass dies fehlt. Wir haben auch die angeforderten Informationen bereitgestellt, die den generierten Anrufsatz mit dem Lift-Over verglichen und verschiedene andere Aktualisierungen enthalten.

Als Reaktion auf die Kommentare auf hoher Ebene, die sich unseres Erachtens hauptsächlich auf a) die Verbesserungen von GRCh38 gegenüber GRCh37 und b) den Vergleich zwischen de novo Calling versus Lift-Over:

a) Es war nicht unsere Absicht, die Überlegenheit von GRCh38 gegenüber GRCh37 zu demonstrieren. Wir glauben, dass das GRC, insbesondere in dem Papier von Schneider et al., haben dies bereits bewiesen. Wir haben Informationen dazu zur Information von Lesern aufgenommen, die mit diesen Themen möglicherweise nicht vertraut sind. Wir akzeptieren jedoch, dass dies einen ungenauen Eindruck von der Betonung des Datenvermerks vermitteln kann. Daher wurde der Text geändert, die Erläuterungen zu Montageänderungen reduziert und stattdessen auf das Papier von Schnieder Bezug genommen et al. Unser Ziel war es, eine Ressource für diejenigen bereitzustellen, die die neue Versammlung verabschieden möchten, und nicht die Argumentation dafür darzulegen, warum GRCh38 angenommen werden sollte, was unserer Meinung nach bereits an anderer Stelle gemacht wurde.
b) Unser Schwerpunkt liegt auf der Bereitstellung von Ressourcen für die Gemeinschaft. Um den Nutzern die Daten möglichst zeitnah zur Verfügung zu stellen, haben wir uns für die Veröffentlichung im Datennotizformat entschieden. Dabei liegt der Schwerpunkt auf der Beschreibung, wie die Daten erstellt wurden, wobei die Validierung der Datenausgaben in den Informationen für die Autoren als optional aufgeführt wird. Angesichts der Kommentare haben wir einen Vergleich mit dem Lift-Over-Set durchgeführt und uns auch speziell die Bereiche der Baugruppe angesehen, die zwischen den beiden Baugruppen aktualisiert wurden. Weitere Details finden Sie unten.

1) Erklärung, warum „Lift-Over“-Ansätze Grenzen haben:

Dies bezieht sich auf eine Reihe von drei Aussagen zur Unzulänglichkeit von Lift-Overs.

Für die erste Aussage stellt der Gutachter fest, dass die Entfernung der Sequenz beim Wechsel von GRCh37 zu GRCh38 und der Gewinn der Sequenz zwei getrennte Fälle sind und dass diese in der Aussage „sie beruhen auf einer äquivalenten Region, die im neuen Genom vorhanden ist,“ zusammengeführt wurden neue Reihenfolge in der verbesserten Baugruppe ist effektiv ausgeschlossen“. Wir akzeptieren, dass dies mehrere Facetten von Änderungen zwischen den beiden Baugruppen kombiniert. Der Text für die Aussage 1 wurde daher aktualisiert, um sich auf den zentralen Punkt zu konzentrieren, den wir herausstellen wollten: dass eine Zuordnung zwischen den Baugruppen notwendig ist, bevor eine gegebene Variante übernommen werden kann, und dass dies nicht immer möglich ist (für alle einer von mehreren möglichen Gründen). Darüber hinaus haben wir die Anzahl der Datensätze hinzugefügt, die in den von dbSNP/EVA verarbeiteten Dateien nicht übernommen werden konnten, um einen konkreten Hinweis auf die Anzahl der Datensätze zu geben, bei denen dies auftritt.

Für die zweite Aussage wollten wir sagen, dass selbst wenn eine Variante aufgehoben werden kann, daraus nicht folgt, dass die Beweise, die diesen Aufruf in der ursprünglichen Baugruppe unterstützten, auch auf den neuen Standort übertragen würden. Der Text wurde geändert, um dies klarer zu machen, wobei auch Beweise von Schneider . zitiert werden et al. in Bezug auf Alignments und den Übergang von GRCh37 zu GRCh38.

Für die dritte Aussage wurde angemerkt, dass dies klar sei, jedoch keine Beweise für die Behauptung vorgelegt wurden. Angesichts der anderen Änderungen wurde dieser Text geändert, um sich auf den Fall zu konzentrieren, dass der Baugruppe eine neue Sequenz hinzugefügt wird, und weist auf spezifische Beispiele hin, die als Teil von Abbildung 1 gezeigt sind und die Unterschiede in der Hub- und de novo Call Sets an Beispielen klinisch relevanter Loci, die zwischen den beiden Assemblies aktualisiert wurden

2) Die Autoren liefern nur biallelische SNPs:

Der geforderte Vergleich mit dem Lift-Over wird in der Antwort zu Punkt sieben angesprochen. Wir haben die angeforderten Zahlen hinzugefügt, die sich darauf beziehen, welcher Anteil der SNVs biallelisch sind (99,6%) und die Anzahl der SNVs im Verhältnis zu anderen kurzen Varianten. Wir haben auch die Gelegenheit genutzt, das Call-Set zu aktualisieren, um biallelische INDELs aufzunehmen, eine Kategorie von Varianten, die zuvor nicht enthalten war. Multiallelische Rufe bleiben im Set abwesend, da SHAPEIT solche Rufe nicht verarbeiten kann und unsere Pipelines weiterentwickelt werden müssten. Unsere Strategie bestand darin, Aufrufe so schnell wie möglich freizugeben und den Datensatz erneut zu durchsuchen, indem wir nach Möglichkeit zusätzliche Variantenklassen hinzufügen. Dies geschah mit dem Ziel, die Daten für viele nützlich zu machen, und mit der Absicht, den Datensatz zu überarbeiten, um ihn als nützlich zu erweitern.

3) Seite 3, Qualitätskontrolle von Alignment-Dateien:

Alle verwendeten Schritte sind in der Datennotiz beschrieben, nicht nur die Unterschiede. Der Text wurde aktualisiert, um den Lesern dies klarer zu machen.

Die Werkzeuge wurden in Absprache mit den Mitgliedern des 1000 Genomes Project Consortiums ausgewählt. Obwohl unser Ziel darin bestand, ihre GRCh37-Analyse für die neue Assembly zu rekapitulieren, wäre dies angesichts der großen Anzahl von Aufrufern, die im ursprünglichen Projekt verwendet wurden, der damit einhergehenden Berechnung und der relativ komplexen Methoden zum Filtern und Integrieren von Aufrufmengen, die sowohl rechen- als auch arbeitsintensiv. Dies zwang uns, eine reduzierte Anzahl von Anrufern und eine vereinfachte Methodik zu verwenden. Wir suchten nach Empfehlungen, die die Leistung der Anrufer bei den 1000 Genomes Phase-3-Daten berücksichtigten, die im Gegensatz zu den meisten anderen Panels eine Mischung aus geringer Abdeckung und Exom mit deutlich größerer geografischer Vielfalt sind. Darüber hinaus machte die Leistung einiger Anrufer im Datensatz ihre Verwendung unpraktisch.

Der Text wurde aktualisiert, um die Leser darüber zu informieren.

Dies sollte eine erste Veröffentlichung von Daten sein, mit der Absicht, zusätzliche Elemente zu überprüfen und hinzuzufügen, die einer weiteren Verarbeitung bedürfen. Da die Geschlechtschromosomen eine zusätzliche Analyse erforderten, wurden sie in dieser ersten Veröffentlichung nicht berücksichtigt. Darüber hinaus glauben wir, dass der Datensatz für einige Benutzer auch in ihrer Abwesenheit von Vorteil ist. Wir erwarten, dass in Zukunft Aufrufe zu den GRCh38-Geschlechtschromosomen veröffentlicht werden.

6) Datensatzvalidierung:

Wir erkennen an, dass der GIAB NA12878-Benchmark unvollkommen ist. Wie der Gutachter feststellt, handelt es sich um eine einzelne Probe, und die Unterschiede in den Versionen des Referenzgenoms, die von uns und GIAB für das Alignment (mit und ohne alternative Loci) verwendet werden, dürften einen Einfluss auf die Variantenerkennung haben.

In Bezug auf die alternativen Loci wird die Möglichkeit erwähnt, den Konfliktgrad mit dem Benchmark in Regionen zu vergleichen, in denen alternative Loci vorhanden sind und in denen sie nicht vorhanden sind. Da jedoch zu erwarten ist, dass das Vorhandensein der alternativen Loci auch zumindest einen gewissen Einfluss auf das gesamte Genom haben würde (ungeachtet des Vorhandenseins alternativer Loci an diesem bestimmten Ort), sind wir der Meinung, dass wir, um wirklich beurteilen zu können, welche Auswirkungen die alternative Loci in der Analyse hatten, wäre es notwendig, die Analyse zu wiederholen und stattdessen Ausrichtungen zu verwenden, bei denen die alternativen Loci nicht vorhanden waren. Da unser Datensatz auch auf einer gemeinsamen Genotypisierung beruht, würde dies effektiv bedeuten, alle Daten neu auszurichten und die Analyse aller Daten zu wiederholen, um diese Frage zu beantworten. Das damit verbundene beträchtliche Rechenvolumen würde einen erheblichen Zeit- und Kostenaufwand verursachen und macht diesen Vergleich daher unpraktisch. Dies wäre jedoch notwendig, um aussagekräftige und fundierte Schlussfolgerungen über den Einfluss der alternativen Loci auf unsere Analyse ableiten zu können.

Der Gutachter äußert auch Bedenken, dass die Genauigkeit mit NA12878 möglicherweise nicht auf andere Proben übertragen werden kann, insbesondere nicht auf solche mit nichteuropäischer Abstammung. Angesichts der Prävalenz von Daten aus NA12878 scheint es vernünftig zu folgern, dass Aufrufmethoden bei dieser Stichprobe eine gute und möglicherweise überdurchschnittliche Leistung erbringen sollten. NA12878 hat jedoch ähnliche Daten wie andere Proben in unserem Datensatz. Darüber hinaus besteht unser Datensatz nur aus Illumina-Daten, sodass wir beispielsweise nicht erwarten, dass die Arten von Sequenzierungsfehlern zwischen den Proben variieren. In der Arbeit anderer, die den neuen Aufrufsatz mit 1000 Genomen Phase 3 vergleichen, sehen wir, dass unsere Ergebnisse und die für Phase 3 ein starkes Maß an Konsistenz über die Stichproben hinweg zeigen (Robinson und Glusman, 2019, https://www.biorxiv .org/content/10.1011/600254v1), ohne Hinweis darauf, dass NA12878 ein Ausreißer ist.

In Bezug auf unseren Vergleich mit Phase drei war es nicht unsere Absicht, Phase drei zu übertreffen, sondern eine de novo Anrufgruppe ähnlicher Qualität auf GRCh38. Das Dienstprogramm ist für diejenigen, die mit GRCh38 arbeiten und mit a . arbeiten möchten de novo Aufrufsatz, der auf dieser Baugruppe erzeugt wurde, einschließlich der neuen GRCh38-Regionen. Der Vergleich mit Phase drei wird angeboten, um Benutzern zu helfen, zu verstehen, wie unser Anrufset im Vergleich zu Phase drei abschneidet. Unser Call-Set zeigt ein weitgehend ähnliches Verhalten wie Phase drei, mit einer etwas anderen Balance von Sensitivität und Spezifität. Angesichts der Tatsache, dass Phase drei jedoch mit einem massiv höheren Analyseaufwand verbunden war, der aufgrund der Ressourcen nicht wiederholt werden könnte, ist es vielleicht nicht verwunderlich, dass Phase drei einen höheren Ertrag erzielt. Dies spiegelt sich wiederum im Lift-Over wider, jedoch mit erheblichen Unterschieden, die in neuen Regionen gezeigt werden, in denen die de novo Call Set erkennt Varianten, die beim Lift-Over fehlen.

Obwohl wir die Einschränkungen des von uns verwendeten GIAB-Benchmarks anerkennen, fanden wir keine besseren Alternativen. Um unsere Daten, die auf gemeinsamer Genotypisierung basieren, effektiv zu vergleichen, brauchten wir „Goldstandard“-Daten für Proben in unserem Datensatz. Für kurze Varianten war der einzige solche Datensatz, den wir finden konnten, GIAB NA12878. Auch die Alternativen, eine manuelle Überprüfung der Daten oder alternative Datentypen, wie z. B. PacBio-Reads, die von uns bewertet werden, haben Grenzen und verlieren die Vorteile eines unabhängigen „Goldstandard“-Datensatzes, der von einer anderen Gruppe erstellt wurde.

Der Text wurde aktualisiert, um das oben Gesagte besser widerzuspiegeln.

Die alternativen Loci wurden beim Ausrichten von Lesevorgängen verwendet, um die bestmögliche Lesezuordnung sicherzustellen, aber Varianten wurden an diesen Loci nicht aufgerufen. Der Text wurde geändert, um dies klarer zu machen. Dies liegt zum großen Teil daran, dass Protokolle zum erfolgreichen Aufrufen der alternativen Loci fehlen. Die einzige uns bekannte Information von Entwicklern aufrufender Software ist ein Beta-Tutorial von GATK (https://software.broadinstitute.org/gatk/documentation/article.php?id=8017). Aufgrund des Fehlens von Tools und Protokollen für das sichere Aufrufen der alternativen Loci wurden keine Anrufe an diesen Loci getätigt.

Wir haben unsere Benchmarking-Arbeiten um den Lift-Over-Datensatz in den Vergleich erweitert. Wir haben uns auch speziell neue Regionen von GRCh38 angesehen. Diese sind im überarbeiteten Text enthalten.

Der Vorschlag bezüglich Fosmidklonen ist interessant und würde eine weitere Validierung liefern. Wir weisen jedoch darauf hin, dass dies eine Datennotiz ist, die von der Zeitschrift angeboten wird, um die Erstellung eines Datensatzes zu beschreiben, wobei Benchmarking als optional bezeichnet wird. Unser bestehendes Benchmarking deckt das Genom in größerem Umfang ab und sollte daher bereits einen besseren Hinweis auf die Leistungsfähigkeit unseres Berufungsgenoms geben. Darüber hinaus haben wir ein Benchmarking der Phasenlage mit WhatsHap hinzugefügt.


Ergebnisse

Vergleich zu Linear-Alignern

Reguläres Sequenz-zu-Sequenz-Alignment ist ein Spezialfall des Sequenz-zu-Graphen-Alignments, bei dem der Graph aus einer linearen Kette von Knoten besteht. Wir vergleichen GraphAligner mit einem gut optimierten Sequence-to-Sequence-Aligner, minimap2 [13], im gesamten humanen Genom-Read-Alignment. Wir simulierten 20x Coverage Reads aus der GRCh38-Referenz unter Verwendung von pbsim [33] mit Standardparametern. Wir haben Reads herausgefiltert, die kürzer als 1000 bp sind, und Reads, die alle Nicht-ATCG-Zeichen enthalten. Dann haben wir die Lesevorgänge mit minimap2 und GraphAligner an der Referenz ausgerichtet. Dann haben wir die Kartierungsgenauigkeit bewertet. Wir übernehmen die Kriterien der minimap2-Auswertung [13] und betrachten einen Read als korrekt kartiert, wenn sein längstes Alignment mindestens 10 % mit der genomischen Position von der Simulationsstelle überlappt.

Tabelle 1 zeigt die Ergebnisse. GraphAligner und minimap2 sind beide ungefähr gleich genau ausgerichtet, wobei minimap2 etwas mehr Reads korrekt ausrichtet (95,0 % vs. 95,1 %). GraphAligner benötigt etwa das Dreifache der Laufzeit von minimap2, was wir für einen bescheidenen Overhead für ein Tool halten, das Graphen verarbeiten kann, im Vergleich zu einem hochoptimierten Sequence-to-Sequence-Mapping-Tool. Beachten Sie, dass minimap2 um mehr als eine Größenordnung schneller ist als häufig verwendete konkurrierende Tools wie BWA-MEM [14].

Ausrichten an einem Diagramm mit Varianten

In diesem Experiment haben wir die Zuordnungsgenauigkeit zu einem Diagramm mit Varianten bewertet. Wir verwendeten die Chromosom 22-Referenz (GRCh37) und alle Varianten in der Phase-3-Veröffentlichung des Thousand Genomes-Projekts [34]. Wir konstruierten einen Variationsgraphen aus der Referenz und den Varianten mit vg [16] und erzeugten einen Graphen von Chromosom 22 mit 2.212.133 Varianten, der im Durchschnitt alle 15 Basenpaare eine Variante in den nicht-telomeren Regionen enthält (die Variantengrafik). Dann simulierten wir Reads unterschiedlicher Länge aus der Chromosom 22-Referenzsequenz (GRCh37) unter Verwendung von pbsim [33] mit den Standard-CLR-Parametern und passten sie mit GraphAligner an den Graphen an.Wir betrachten einen Read als korrekt zugeordnet, wenn sein längstes Alignment mindestens 10 % mit der genomischen Position von der Simulation aus überlappt und bewerten die Anzahl der Reads, die korrekt ausgerichtet sind. Wir haben die gleichen Reads auch auf die Chromosom 22-Referenz ohne Varianten ausgerichtet (die linearer Graph) mit GraphAligner zur Unterscheidung zwischen Lesevorgängen, die aufgrund von Varianten nicht ausgerichtet werden konnten, und Lesevorgängen, die aus anderen Gründen nicht ausgerichtet werden konnten, z. B. kurze Leselängen, die zu fehlenden Seeds führen. Zusätzlich zu den aus der Referenz simulierten Reads haben wir auch Reads von de novo diploid zusammengesetzten Chromosom 22-Contigs des einzelnen HG00733 simuliert [35]. Dies wurde durchgeführt, um die Ausrichtungsgenauigkeit bei Lesevorgängen mit realistischen Varianten zu testen.

Abbildung 1 zeigt die Ergebnisse. Der linke Teil der Abbildung zeigt die Ausrichtungsgenauigkeit für die simulierten Referenzlesevorgänge. Zu Vergleichszwecken stellt die blaue Kurve die Ergebnisse von simulierten Mapping-Reads von GRCh37 zurück zum (linearen) Referenzgenom dar und zeigt somit die Leistung an, die in einer idealisierten Umgebung erreicht werden kann. Bei der Ausrichtung auf das Variantendiagramm sind 95 % der simulierten Referenz-Reads korrekt ausgerichtet, sobald die Read-Länge über 1200 Basenpaare ansteigt. Bei 1500 Basenpaaren sind 97,0% der Reads korrekt auf das Variantendiagramm ausgerichtet. Der rechte Teil von Abb. 1 zeigt die Genauigkeit für Reads, die von de novo zusammengesetzten Contigs simuliert werden. Erwartungsgemäß ist die Ausrichtungsgenauigkeit für von Contigs simulierte Reads schlechter als für Reads, die von der Referenz (GRCh37) simuliert werden, wenn an der linearen Referenz ausgerichtet wird, aber ähnlich bei der Ausrichtung am Graphen mit Varianten. Die Ergebnisse zeigen, dass GraphAligner in der Lage ist, lange Lesevorgänge genau an einem variantenreichen Graphen auszurichten.

Anteil der Reads, die bei unterschiedlichen Read-Längen für den Variantengraphen und den linearen Graphen korrekt ausgerichtet sind. Links: Liest simuliert aus der GRCh37-Referenz. Rechts: Liest simuliert aus de novo zusammengesetzten Contigs von HG00733

Vergleich mit vg

In diesem Experiment haben wir GraphAligner und vg [16] für die Ausrichtung langer Lesevorgänge verglichen. Wir haben die Grafik aus dem vorherigen Experiment verwendet, die die Chromosom 22-Referenz und alle Varianten in der Phase-3-Veröffentlichung des Thousand Genomes-Projekts enthält [34]. Wir simulierten Reads aus der Chromosom 22-Referenz unter Verwendung von pbsim [33] mit Standardparametern. Dann haben wir die simulierten Lesevorgänge mit GraphAligner und vg am Diagramm ausgerichtet.

Tabelle 2 zeigt die Ergebnisse. GraphAligner hat 96,6 % der Lesevorgänge korrekt ausgerichtet, was mit den Ergebnissen des Experiments mit Variationsdiagrammen übereinstimmt. Im Gegensatz dazu ordnete vg 93,8% der Reads in die richtige genomische Region ein. Wir haben jedoch festgestellt, dass einige der Ausrichtungen von vg nicht mit der Graphtopologie konsistent waren, d. h. die Ausrichtung wurde durch Knoten durchquert, die nicht durch eine Kante verbunden sind. In manchen Fällen hat sich das Alignment mehrfach in denselben Referenzbereich „zurückgeschleift“ und sogar beide Allele einer Variante abgedeckt (Zusatzdatei 1: Abbildung S2). Wir haben nicht bewertet, wie viele der Ausrichtungen von vg nicht mit der Graphtopologie übereinstimmten. Der Laufzeit- und Spitzenspeicher von GraphAligner umfasst sowohl Indizierung als auch Ausrichtung. Trotz der Einbeziehung der Indizierungsphase sehen wir, dass GraphAligner fast zehnmal schneller ist als die Mapping-Phase von vg. Wenn man auch die Indizierung von vg einbezieht, ist GraphAligner über 13-mal schneller als vg. Der Spitzenspeicherverbrauch ist dreimal geringer.

Variantengenotypisierung

Wir haben eine einfache Varianten-Genotyping-Pipeline für lange Lesevorgänge implementiert. Zunächst wird eine Liste von Referenzvarianten und ein Referenzgenom verwendet, um mit vg einen Pangenom-Graphen zu erstellen [16]. Anschließend werden lange Lesevorgänge mit GraphAligner am Pangenom-Diagramm ausgerichtet. Schließlich wird vg verwendet, um die Varianten gemäß den Long-Read-Alignments zu genotypisieren.

Wir haben unsere Varianten-Genotyping-Pipeline mit 35-facher Abdeckung von PacBio-Hifi-Reads aus dem einzelnen HG002 [36] getestet, wobei wir den Genome in a Bottle (GIAB)-Benchmarking-Variantensatz Version 3.3.2 für GRCh38 [37] als Grundwahrheit verwendet haben. Wir haben drei verschiedene Szenarien getestet: erstens ein ideales Szenario, in dem wir die Varianten des GIAB-Variantensatzes verwenden, um den Graphen zu erstellen, zweitens ein realistischeres Szenario, in dem wir Varianten aus einer anderen Quelle verwendet haben, unter Verwendung des Variantensatzes von Lowy-Gallego et al . [38] aus dem GRCh38-Genom unter Verwendung der Daten aus Phase 3 des Thousand Genomes Project (1000G) aufgerufen, um den Graphen zu erstellen, und drittens, unter Verwendung der Varianten von 1000G, um den Graphen zu erstellen, aber nur die Genauigkeit von Varianten zu bewerten, die in beiden 1000G und das GIAB-Variantenset (1000G+GIAB). Der Grund für die Verwendung der drei verschiedenen Szenarien liegt darin, dass die Genotypisierungspipeline keine neuen Varianten nennen kann, sondern nur Varianten, die bereits in der Liste der Referenzvarianten enthalten sind. Dies trennt Fehler, die durch den Pangenom-Ansatz verursacht werden, und Fehler, die durch einen unvollständigen Referenzvariantensatz verursacht werden. Das GIAB-Szenario zeigt, wie sich die Pipeline verhalten würde, wenn der Referenzvariantensatz perfekt wäre, während das 1000G-Szenario die Leistung mit einer realistischen, unvollkommenen Referenzvariante zeigt gesetzt und das 1000G+GIAB-Szenario zeigt die Leistung in einem realistischen Umfeld für die Varianten, die die Pipeline im Prinzip genotypisieren könnte.

Wir haben die Genotypisierungsgenauigkeit mit RTG Tools vcfeval [39] bewertet, das Präzision und Recall für alle Varianten, nur SNPs und nur Nicht-SNPs, berechnet. vg erzeugt eine Konfidenz für jede Variante, und die Auswertung erzeugt eine Präzisions-Wiederaufruf-Kurve für verschiedene Konfidenzschwellen. Wir haben den Schwellenwert mit dem höchsten F-Maß ausgewählt und die Präzision und den Recall für diesen Schwellenwert angegeben. Wir haben die Ergebnisse in den Regionen mit hoher Konfidenz von Genome in a Bottle von allen Chromosomen in jedem Szenario ausgewertet.

Tabelle 3 zeigt die Ergebnisse. Die Genotypisierungsgenauigkeit ist im GIAB-Szenario hoch, aber im 1000G-Szenario niedriger. Dies zeigt, dass die Wahl des Variantensatzes die Genauigkeit merklich beeinflusst, da das F-Maß von 0,985 auf 0,930 sinkt. Wenn man jedoch Varianten ausschließt, die die Pipeline nicht einmal im Prinzip genotypisieren konnte, beträgt das F-Maß 0,970. Dies zeigt, dass ein Großteil des fehlenden Rückrufs im 1000G-Szenario von Varianten stammt, die nicht im Referenzvariantensatz enthalten sind.

Obwohl frühere Veröffentlichungen [36] gezeigt haben, dass die Leistung die Ergebnisse in Tabelle 3 übertraf, zeigt das Genotypisierungsexperiment einen beispielhaften Anwendungsfall für GraphAligner. Die Haupteinschränkung der Pipeline besteht darin, dass sie keine neuen Varianten aufrufen kann, sondern nur bekannte Varianten genotypisiert. Wir haben nicht versucht, die Parameter des Genotypisierungsmoduls von vg zu variieren oder den Genotypisierungsprozess anderweitig anzupassen, der auf die Genotypisierung mit kurzen Lesevorgängen abgestimmt ist und für lange Lesevorgänge möglicherweise nicht optimal ist.

Fehler Korrektur

Wir haben eine hybride Fehlerkorrekturpipeline implementiert, die auf dem Sequenz-zu-Graphen-Alignment basiert. Das Ausrichten von Lesevorgängen an einem de Bruijn-Graphen (DBG) ist eine Methode zur Fehlerkorrektur langer Lesevorgänge aus kurzen Lesevorgängen [6, 7]. Die Idee ist, eine DBG aus den kurzen Lesevorgängen zu erstellen und dann die beste Ausrichtung zwischen dem langen Lesevorgang und einem Pfad in der DBG zu finden. Die Sequenz des Pfades kann dann als korrigierter langer Lesevorgang verwendet werden.

Zhanget al. [40] führten eine Evaluierung von 16 verschiedenen Fehlerkorrekturmethoden durch. Aufgrund ihrer Ergebnisse haben wir FMLRC [8] als schnellen und genauen Hybridfehlerkorrektor zum Vergleich ausgewählt. Wir vergleichen auch mit LoRDEC [6], da unsere Pipeline die gleiche Gesamtidee verwendet.

LoRDEC [6] erstellt einen de Bruijn-Graphen aus den kurzen Lesevorgängen, richtet dann die langen Lesevorgänge mit einer Tiefensuche darauf aus und verwendet die Pfadsequenz als korrigierten Lesevorgang. FMLRC [8] richtet die Reads auch an einem Graphen aus, außer dass anstelle eines de Bruijn-Graphen ein FM-Index verwendet wird, der alle de Bruijn-Graphen darstellen und die dynamisch variieren kann k-mer Größe. FMLRC korrigiert dann die Reads in zwei Durchgängen mit unterschiedlichen k-mer Größen. Unsere Fehlerkorrekturpipeline ähnelt LoRDEC. Abbildung 2 zeigt die Pipeline. Wir korrigieren zuerst die Illumina-Reads mit Lighter [41] selbst, erstellen dann den de Bruijn-Graphen mit BCalm2 [42], richten die langen Reads mit GraphAligner mit Standardparametern aus und extrahieren schließlich den Pfad als korrigierten Read.

Überblick über die Fehlerkorrekturpipeline. Die Kreise repräsentieren Daten und die Rechtecke Programme

Aufgrund von Schwankungen und Verzerrungen der Illumina-Abdeckung sind einige genomische Bereiche mit kurzen Lesevorgängen selbst im Prinzip nicht korrigierbar. Unsere Pipeline hat zwei Modi: Entweder wir geben die vollständigen Lesevorgänge aus, wobei unkorrigierte Bereiche unverändert bleiben, oder abgeschnittene Lesevorgänge, die die unkorrigierten Bereiche entfernen und den Lesevorgang bei Bedarf in mehrere korrigierte Unterlesevorgänge aufteilen. In den Ergebnissen präsentieren wir die vollständigen Lesungen als „GraphAligner“ und die abgeschnittenen Lesungen als „GraphAligner-clip“. Ebenso berichten wir „LoRDEC“ als Full Reads und „LoRDEC-clip“ als Clipped Reads. FMLRC bietet keine Option zum Abschneiden der Lesevorgänge, daher melden wir nur die vollständigen Lesevorgänge.

Zur Auswertung der Ergebnisse verwenden wir die Auswertungsmethodik von Zhang et al. [40]. Die langen Lesevorgänge werden zuerst korrigiert, und dann wird die Bewertungspipeline sowohl für die Rohlesevorgänge als auch für die korrigierten Lesevorgänge ausgeführt. Der erste Schritt der Auswertung ist das Entfernen von Reads, die kürzer als 500 bp sind. Beachten Sie, dass die Reads während des Bewertungsschritts entfernt werden, dh sie werden im anfänglichen Korrekturschritt korrigiert und verschiedene Reads können in den unkorrigierten und korrigierten Sätzen entfernt werden. Danach werden die restlichen Reads auf das Referenzgenom ausgerichtet. Das Alignment liefert mehrere Qualitätsmetriken, darunter die Anzahl der ausgerichteten Reads und Basenpaare, Read N50, Fehlerrate und genomische Abdeckung. Hier melden wir die Fehlerrate, die durch die samtools-Statistiken anstelle der Ausrichtungsidentität angegeben wird. Der Ressourcenverbrauch wird anhand der CPU-Zeit und der Spitzenspeichernutzung gemessen. Wir nehmen das E coli Illumina+PacBio-Datensatz (E coli, von Zhang et al. als D1-P + D1-I bezeichnet) und die D. melanogaster Illumina+ONT-Datensatz (Fruchtfliege, von Zhang et al. D3-O + D3-I genannt) von Zhang et al. [40]. Darüber hinaus verwenden wir die Daten des gesamten menschlichen Genoms PacBio Sequel Footnote 1 und Illumina Footnote 2 aus HG00733, die nach dem Zufallsprinzip auf 15x Abdeckung für PacBio und 30x für Illumina subsampled wurden. Wir verwenden die diploide Anordnung aus [43] als Ground Truth, um gegen HG00733 zu evaluieren. Wir haben LoRDEC nicht in die Fruchtfliegen- oder HG00733-Experimente einbezogen, da die Ergebnisse in [40] zeigen, dass FMLRC es sowohl in Bezug auf Geschwindigkeit als auch Genauigkeit übertrifft. Obwohl wir dieselbe Bewertungsmethode verwenden, unterscheiden sich unsere Ergebnisse geringfügig. Dies ist auf zwei Faktoren zurückzuführen: Erstens haben Zhang et al. verwenden Sie LoRDEC Version 0.8 mit den Standardparametern, während wir Version 0.9 mit den vorgeschlagenen Parametern verwenden für E coli im LoRDEC-Papier [6]. Zweitens haben Zhang et al. verwenden FMLRC Version 0.1.2 und konstruieren das BWT mit msBWT [44], während wir Version 1.0.0 verwenden und das BWT mit RopeBWT2 [45] konstruieren, wie von der FMLRC-Dokumentation empfohlen.

Tabelle 4 zeigt die Ergebnisse. Die Menge der ausgerichteten Sequenz ist in allen Fällen ähnlich. Bei den PacBio-Datensätzen ist die Menge der korrigierten Sequenz geringer als die der unkorrigierten Eingangssequenz, während bei ONT die Menge der korrigierten Sequenz während der Korrektur zunimmt. Dies stimmt mit der Beobachtung überein, dass Insertionsfehler bei PacBio häufiger auftreten als Deletionen und umgekehrt bei ONT [47]. Sowohl für LoRDEC als auch für GraphAligner ist die Anzahl der Lesevorgänge merklich höher und der N50 für die beschnittenen Modi niedriger, was zeigt, dass die meisten Lesevorgänge unkorrigierte Bereiche enthalten und das Beschneiden der Lesevorgänge die Lesekontiguität verringert. Darüber hinaus zeigen die Fruchtfliegen- und Humanexperimente, dass das Abschneiden der Reads die von den Reads abgedeckte Genomfraktion signifikant reduziert. Das Clipping ist in den komplexeren Genomen ausgeprägter, wobei die Reads im gesamten Datensatz des menschlichen Genoms im Durchschnitt in vier Teile zerschnitten werden, etwa 4% des Genoms durch Clipping verloren gehen und eine starke Reduzierung des Read-N50-Werts. Wir sehen, dass GraphAligner etwa 30x schneller und 2,7x genauer ist als LoRDEC für E coli. GraphAligner ist in allen Datensätzen mehr als viermal schneller als FMLRC. Wenn Lesevorgänge nicht abgeschnitten werden, ist die Fehlerrate von GraphAligner etwas schlechter als die von FMLRC für E coli (0,51% vs. 0,30%), aber wesentlich besser für D. melanogaster (1,2 % vs. 2,3 %) und Mensch (3,4 % vs. 7,1 %). Für das humane Genom HG00733 liefert GraphAligner somit mehr als doppelt so hohe Fehlerraten bei einer mehr als zwölfmal schnelleren Laufzeit.

Unsere Pipeline ist eine große Verbesserung der Laufzeit gegenüber dem Stand der Technik. Die Fehlerraten sind bei einfacheren Genomen wettbewerbsfähig und bei komplexeren Genomen deutlich besser. Wir gehen davon aus, dass die von FMLRC verwendete Two-Pass-Methode im Prinzip eine bessere Korrektur ermöglichen kann als eine einzelne k-mer-Größengraph, aber die Leistung von FMLRC mit den größeren Genomen wird durch ihre Ausrichtungsmethode begrenzt, während GraphAligner mit den komplexeren Genomen umgehen kann. Bei Verwendung des Clipped-Modus, dh wenn nur Teile der korrigierten Lesevorgänge berücksichtigt werden, kann die Genauigkeit in den korrigierten Bereichen die Genauigkeit von kurzen Lesevorgängen erreichen oder übersteigen. Dies unterstreicht den Wert dieses Clipping-Modus für Benutzer. Die Hauptfehlerquelle sind in der Tat unkorrigierte Bereiche ohne ausreichende kurze Leseabdeckung.


Danksagung

Wir danken den vielen Menschen, die Daten und Software öffentlich zugänglich gemacht haben, insbesondere vgteam für die Bereitstellung der vg-Toolkit als Open-Source-Software. Wir danken Braunvieh Schweiz für die Bereitstellung von Stammbaum- und Genotypdaten von Original Braunvieh und Braunvieh. Samenproben der sequenzierten Bullen wurden freundlicherweise von Swissgenetics zur Verfügung gestellt.

Rezensionsverlauf

Die Überprüfungshistorie ist als Zusatzdatei 4 verfügbar.

Peer-Review-Informationen

Andrew Cosgrove war der Hauptredakteur dieses Artikels und leitete den redaktionellen Prozess und die Peer Review in Zusammenarbeit mit dem Rest des Redaktionsteams.


Einführung

Strukturvarianten (SVs) wie Deletionen, Insertionen und Duplikationen machen einen großen Teil der genomischen Vielfalt unter Individuen aus und wurden mit vielen Krankheiten, einschließlich Krebs, in Verbindung gebracht. Mit dem Aufkommen neuartiger DNA-Sequenzierungstechnologien wird die Whole Genome Sequencing (WGS) zu einem integralen Bestandteil der Krebsdiagnostik, die potenziell maßgeschneiderte Behandlungen einzelner Patienten ermöglichen kann (Stratton, 2011). Trotz Fortschritten bei groß angelegten Krebsgenomikprojekten (wie TCGA und PCAWG des International Cancer Genome Consortium https://icgc.org/) systematische und umfassende Analyse massiver Genomdaten, insbesondere der Nachweis von SVs in Genomen, bleibt aufgrund von rechnerischen und algorithmischen Einschränkungen eine Herausforderung (Alkan, Coe & Eichler, 2011 Yung et al., 2017 Ma et al., 2018 Gröbner et al., 2018).

Neuere Tools zur Erkennung von somatischen und Keimbahn-SV (Anrufer) nutzen mehr als eine Art von Informationen, die in WGS-Daten enthalten sind (Lin et al., 2015). Beispielsweise verlässt sich DELLY (Rausch et al., 2012) auf geteilte Lesevorgänge und diskordante Lesepaare, während LUMPY (Layer et al., 2014) zusätzlich Lesetiefeninformationen verwendet. Darüber hinaus integrieren Caller wie Manta (Chen et al., 2016) und GRIDSS (Cameron et al., 2017) auch Short-Read-Assembly. Um ein umfassenderes und/oder genaueres Callset zu erhalten, haben Ensemble-Ansätze vielversprechende Ergebnisse geliefert (English et al., 2015 Mohiyuddin et al., 2015 Becker et al., 2018 Fang et al., 2018). Bei einem solchen Ansatz wird (i) eine Reihe von SV-Anrufern ausgeführt, und (ii) werden ihre Ergebnisse zu einer einzigen Anrufgruppe kombiniert. Obwohl sich gezeigt hat, dass dieser Ansatz SV-Callsets verbessert, stellt der Schritt (i) einen großen Engpass dar, da mehrere SV-Caller effizient auf der Computerinfrastruktur des Benutzers laufen und/oder neue SV-Callers (sofern verfügbar) hinzugefügt werden, alles andere als einfach ist.