Information

Messung der genetischen Distanz: $F_{ST}$ vs. Neis Distanz

Messung der genetischen Distanz: $F_{ST}$ vs. Neis Distanz



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Soweit mir bekannt ist, ist Neis genetischer Abstand im Vergleich zu $F_{ST}$ ziemlich alt. Ich habe jedoch kürzlich weitere Artikel gelesen, die Neis genetische Distanz neben $F_{ST}$ nutzten. Da ich mit Nei nicht sehr vertraut bin, welche Vorteile hat es gegenüber $F_{ST}$?

Leidet Neis genetische Distanz unter Ermittlungsverzerrungen?


Zusammenhang zwischen drei Maßen der genetischen Differenzierung gNS, DEuropäische Sommerzeit und g’NS: Wie falsch haben wir uns geirrt?

Tabelle S1 In diese Metaanalyse eingeschlossene Studien.

Bitte beachten Sie: Wiley-Blackwell ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Materialien. Alle Fragen (außer fehlendem Material) sollten an den entsprechenden Autor des Artikels gerichtet werden.

Dateiname Beschreibung
MEC_4185_sm_TableS1.doc113 KB Unterstützendes Infoelement

Bitte beachten Sie: Der Herausgeber ist nicht verantwortlich für den Inhalt oder die Funktionalität der von den Autoren bereitgestellten unterstützenden Informationen. Alle Anfragen (außer fehlenden Inhalten) sollten an den entsprechenden Autor des Artikels gerichtet werden.


EIN EINFACHER TEST AUF ALLELEGRÖßENINFORMATIONEN INHALT

Der Test zeigt an, ob Allelgrößen bei einem Datensatz Aufschluss über die Populationsdifferenzierung geben, dh ob Verschiebungen der Allelgrößen durch stufenweise Mutationen zur Populationsdifferenzierung beitragen. Der Beitrag stufenartiger Mutationen zur genetischen Differenzierung erfordert (1), dass der Mutationsprozess zumindest teilweise SMM-ähnlich ist und (2) dass die Mutationsrate μ im Verhältnis zum Effekt von Drift und Migration groß genug ist (z.B., μ≥ m andernfalls werden neue Mutationen durch Migration schnell über ihre einheimische Bevölkerung hinaus verbreitet). Tabelle 2 skizziert die Nullhypothesen, die getestet werden können, und präsentiert eine allgemeine Nullhypothese sowie spezifische Nullhypothesen, die unter bestimmten vorherigen Annahmen gelten.

Das Prinzip des Tests beruht darauf, eine Verteilung einer Statistik unter der Nullhypothese (H0), dass Unterschiede in der Allelgröße nicht zur Populationsdifferenzierung beitragen. Daher verwenden wir ein Randomisierungsverfahren, bei dem die verschiedenen Allelgrößen, die an einem Locus für einen gegebenen Datensatz beobachtet werden, zufällig zwischen den Allelzuständen permutiert werden. Um das Verfahren besser zu verstehen, kann man den Allelzustand dissoziieren, der beispielsweise durch einen Buchstaben (z.B. a, b, c, d, und e wenn es fünf verschiedene Allele gibt) und die Allelgröße, identifiziert durch eine Zahl (z.B., 4, 5, 7, 8 und 11, die jeweils die Anzahl der Sequenzwiederholungen darstellen), vorausgesetzt, dass zwischen dem Allelzustand und der Allelgröße eine Eins-zu-Eins-Entsprechung besteht. Vor der Randomisierung ist die jedem Allelzustand zugeordnete Allelgröße die tatsächliche Allelgröße (z.B. a, 4 B, 5 C, 7 D, 8 und e, 11). Während des gesamten Randomisierungsverfahrens werden Genotypen in Bezug auf Allelzustände definiert und nicht modifiziert, aber die Allelgrößen werden zufällig den Allelzuständen zugewiesen (z.B. a, 7 B, 4 C, 11 D, 5 und e, 8). Nach einer solchen Randomisierung bleiben zwei beliebige Gene, die ursprünglich dieselbe Allelgröße aufweisen, identisch, obwohl es sich um eine andere Allelgröße handeln kann, wohingegen zwei beliebige Gene, die ursprünglich unterschiedliche Allele mit geringem Größenunterschied tragen, Allele mit großem Größenunterschied oder umgekehrt tragen können. Daher wird die Allelidentitätsinformation intakt gehalten, jedoch nicht die Allelgrößeninformation. Unter der Nullhypothese (Tabelle 2, Fall 1) sollte das Randomisierungsverfahren die Erwartung eines Differenzierungsmaßes wie RNS. Im Gegenteil, wenn Allelgrößen zur genetischen Differenzierung beitragen, RNS berechnet nach Allelgrößenpermutation (im Folgenden als bezeichnet pRNS) würde ausschließlich von der Allelidentität/Nichtidentität abhängen und hätte daher einen kleineren Erwartungswert als der vor der Randomisierung berechnete Wert. Der Test kann somit durch Vergleich der beobachteten RNS Wert (vor Randomisierung) zur Verteilung von pRNS Werte, die für alle möglichen Konfigurationen von Allelgrößenpermutationen erhalten wurden (oder eine repräsentative Untermenge davon, da die Gesamtzahl der verschiedenen Konfigurationen schnell enorm wird, wenn die Anzahl der Allele 7 oder 8 überschreitet). Aus diesem Vergleich lässt sich eine Wahrscheinlichkeit, dass die Nullhypothese gilt, als Anteil von pRNS Werte größer als die beobachteten RNS (einseitiger Test). Beachten Sie, dass der Mittelwert pRNS sollte in Erwartung gleich sein FNS auf den gleichen Daten berechnet (ohne Berücksichtigung potenzieller statistischer Verzerrungen), wie später bestätigt wird.

An einem einzigen Locus kann ein solcher Test nur angewendet werden, wenn eine ausreichende Anzahl verschiedener Allele (n) sind im Datensatz, da die Anzahl der verschiedenen Permutationskonfigurationen gleich ist n!. Daher scheinen fünf Allele (120 verschiedene Konfigurationen) ein Minimum zu sein, um einen solchen Test bei einem Typ-I-Fehlerratenkriterium von 5 oder 1% durchzuführen. Auf einem Multilocus RNS Schätzung kann der Test durchgeführt werden, indem die Allelgrößen innerhalb jedes Locus vertauscht werden. Bemerkenswert ist, dass der Test keine Annahmen zum Mutationsmodell macht: Ein signifikantes Ergebnis (RNS deutlich >pRNS) legt nahe, dass Mutationen zur genetischen Differenzierung beigetragen haben (z.B., weil μ≥ m in einem Inselmodell) und dass der Mutationsprozess zumindest teilweise einem SMM folgt (der Test bleibt bei Abweichungen vom SMM gültig). Neutralität gegenüber natürlicher Selektion wird jedoch vorausgesetzt. Wenn der Test aussagekräftig ist, FNS liefert wahrscheinlich eine verzerrte Schätzung der Genflussparameter, kann aber nicht geschlossen werden a priori das RNS würde aufgrund seiner größeren Varianz (die noch ausgeprägter ist, wenn Mutationen von mehr als einem Schritt auftreten können Z hivotovsky und Feldman 1995) und angesichts der Verzerrung, die er erleiden kann, wenn der Mutationsprozess von den Annahmen des GSM abweicht (E stoup und Angers 1998). Ein nicht signifikantes Ergebnis (RNS nicht wesentlich anders als pRNS) würde nahelegen, dass die Allelgröße für die Populationsdifferenzierung nicht aussagekräftig ist, weil der Mutationsprozess nicht stufenweise verläuft und/oder weil Mutationen nicht zur Differenzierung beigetragen haben (z.B., weil μ⪡ m im Inselmodell). In diesem Fall, FNS sollte sicherlich vorgezogen werden RNS (obwohl es das nicht gewährleisten würde FNS liefert eine korrekte Schätzung des Genflusses angesichts der vielen anderen Quellen von Verzerrungen im Zusammenhang mit den Populationsmodellen W hitlock und Mc Cauley 1999).

Hypothesen, die durch Allelgrößenpermutationen getestet wurden, die auf angewendet wurden RNS

Welche Hypothesen können getestet werden und mit welchen Statistiken? Simulationen ermöglichen die Validierung des Allelgrößen-Permutationstests und die Bewertung seiner Aussagekraft. Aber es ist zunächst notwendig, darauf zu bestehen, was getestet werden kann (Tabelle 2).

Durch die Randomisierung der Allelgrößen werden Replikate eines Datensatzes für einen Mutationsprozess nach einem KAM (oder IAM) erstellt, da nach diesem Modell die Allelgröße irrelevant ist und deren Austausch wie das Replizieren vergangener Mutationsprozesse ist, die zum aktuellen Datensatz führen, jedoch mit anderen zufällig ausgewählte Allele nach jedem Mutationsereignis. Daher besteht eine mögliche Anwendung des Allelgrößen-Randomisierungsverfahrens darin, zu testen, ob der Mutationsprozess einer KAM folgt (Tabelle 2, Fall 3). Zu diesem Zweck können randomisierte Allelgrößen auf jede Statistik basierend auf der Allelgröße angewendet werden, nicht nur R-Statistiken aber auch verschiedene genetische Distanzen für schrittweise Mutationsmodelle wie (δμ) 2 (z.B., Goldstein et al. 1995b S hrver et al. 1995) oder einfach auf der Gesamtvarianz der Allelgröße. Es ist jedoch bereits bekannt, dass die große Mehrheit der Mikrosatelliten-Loci nicht einer KAM entspricht, und die interessante Frage beim Mutationsprozess von Mikrosatelliten ist vielmehr, wie er von einer idealen SMM abweicht (E stoup und Angers 1998). Daher wird die Verwendung des Allelgrößen-Permutationsverfahrens zum Testen auf KAM nicht weiter diskutiert.

Eine zweite Anwendung des Allelgrößen-Permutationsverfahrens, hier unter der Annahme a priori dass Mutationen zumindest teilweise einem SMM-ähnlichen Prozess folgen, soll getestet werden, ob die Mutation zur Populationsdivergenz beigetragen hat (Tabelle 2, Fall 2). Mit anderen Worten, wir können testen, ob die Migrationsrate (m) zwischen den Populationen oder der Kehrwert der Anzahl der Generationen (T), da Populationsdivergenz groß ist im Vergleich zu den Mutationsraten (μ⪡ m oder μ⪡ 1/T, bzw. Tabelle 2, Fälle 2a und 2b). Der Allelgrößen-Permutationstest ist der interessanteste, um diese Frage zu beantworten, da es genügend Beweise dafür gibt, dass die meisten Mikrosatelliten einem SMM-ähnlichen Prozess folgen (z.B., Ellegren 2000 X u et al. 2000 Z hu et al. 2000 R enwick et al. 2001). Zu diesem Zweck kann die Allelgrößenpermutation jedoch nicht auf eine Statistik angewendet werden, die auf der Allelgröße basiert: Sie schneidet gut auf R-Statistiken, die Verhältnisse von Allelgrößen-Varianzkomponenten sind, aber nicht auf genetischen Distanzen wie dem Goldstein et al. (1995a) (δμ) 2 Statistik, die eine Komponente der Allelgrößenvarianz zwischen den Populationen ist. Der Grund dafür ist, dass zufällige Permutationen der Allelgrößen nicht nur die Kovarianz innerhalb der Population zwischen Allelgrößen für verschiedene Allele entfernen, sondern auch die Allelgrößenvarianz unter SMM oder GSM modifizieren, da die erwartete Häufigkeitsverteilung der Allelgrößen nicht einheitlich ist (D onnelly 1999). Statistiken, die eine Komponente der Allelgrößenvarianz ausdrücken, wie die (δμ) 2 -Statistik, werden immer von einer Änderung der Allelgrößenvarianz beeinflusst, unabhängig davon, ob Mutationen zur Differenzierung beigetragen haben oder nicht. Im Gegenteil, Statistiken, die auf einem Verhältnis von Varianzkomponenten basieren, wie z RNS, wird nicht beeinflusst, wenn die Varianzkomponenten innerhalb und zwischen den Populationen mit Faktoren mit den gleichen Erwartungen multipliziert werden. Die nachfolgend vorgestellten Simulationen zeigen, dass dies der Fall ist, wenn es keine Kovarianz innerhalb der Population zwischen den Allelgrößen für verschiedene Allele gibt (d.h., Differenzierung durch Drift und nicht schrittweise Mutationen).

Um zu zeigen, dass der Allelgrößen-Permutationstest für die RNS Statistik, aber nicht die (δμ) 2 Statistik beim Testen m ⪢ μ oder 1/T ⪢ μ (unter dem a priori Annahme, dass der Mutationsprozess schrittweise abläuft Tabelle 2, Fälle 2), simulierten wir eine zufällig paarende Population diploider Individuen (Populationsgröße n = 1000 Individuen) im Mutations-Drift-Gleichgewicht (μ= 0,001) unter dem SMM. Der Allelgrößen-Permutationstest (1000 Randomisierungen) wurde dann auf RNS und (δμ) 2 berechnet zwischen zwei unabhängigen Stichproben (Stichprobengröße n = 100 Individuen) aus dieser Population für jeden der 200 simulierten Loci (die beiden Stichproben repräsentieren somit undifferenzierte Subpopulationen). Die für Simulationen und Berechnungen verwendeten Computerprogramme werden im Folgenden beschrieben. Wir geben den Prozentsatz der Loci an, für die die Tests signifikant waren (%RHo) gemäß dem Kriterium der Fehlerrate vom Typ I (α, die Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist). Da die zu testende Nullhypothese (1/T ⪢μ) durch Simulationen erfüllt wird, muss ein gültiges Testverfahren sicherstellen, dass %RHo =α ist, ansonsten ist das Verfahren nicht ausreichend, um diese Nullhypothese zu testen. Abbildung 1 zeigt, dass das Allelgrößen-Randomisierungstestverfahren tatsächlich gültig ist, wenn es auf angewendet wird RNS aber nicht an (δμ) 2 .

Leistung des Tests unter SMM: Um die Aussagekraft des Tests beim Testen, ob Mutationen zur Populationsdifferenzierung im SMM beitrugen (Tabelle 2, Fälle 2), zu untersuchen, überprüften wir das Verfahren an künstlichen Datensätzen mit realistischen Stichprobengrößen, die aus Monte-Carlo-Simulationen von Populationen diploider Hermaphroditen abgeleitet wurden. Drei Gruppen von demographischen Situationen wurden simuliert: (1) ein Inselmodell im Drift-Migration-Mutations-Gleichgewicht, (2) ein Modell zweier isolierter Populationen, die von einer gemeinsamen Vorfahrenpopulation im Mutations-Drift-Gleichgewicht abgewichen sind, und (3) ein lineares Sprungbrett-Modell (Genfluss auf benachbarte Populationen beschränkt) bei Drift-Migration-Mutation-Gleichgewicht. Das Inselmodell bestand aus 10 Populationen, die jeweils aus 100 Individuen bestanden, und neue Generationen wurden durch zufälliges Ziehen von Genen aus der Population mit Wahrscheinlichkeit 1 erhalten - m oder aus den anderen Populationen mit Wahrscheinlichkeit m. Das isolierte Populationsmodell bestand aus zwei zufällig gepaarten Populationen, die jeweils aus 500 Individuen bestanden und die für T Generationen. Das Sprungbrettmodell bestand aus 30 ausgerichteten Populationen, die jeweils aus 50 Individuen bestanden, und neue Generationen wurden durch zufälliges Ziehen von Genen aus der Population mit Wahrscheinlichkeit 1 erhalten - m oder aus den beiden benachbarten Populationen mit Wahrscheinlichkeit m.

—Kontrolle der Gültigkeit des Allelgrößen-Permutationstests bei Anwendung auf RNS (□) oder (δμ) 2 (▵) Statistik, die zwischen zwei Stichproben aus einer Population im Mutations-Drift-Gleichgewicht unter dem SMM berechnet wurde. Der Prozentsatz der Loci mit der abgelehnten Nullhypothese (%RHo) ist als Funktion des Typ-I-Fehlerratenkriteriums (α) dargestellt, und die gestrichelte Linie zeigt die %RHo =α-Beziehung, die unter der Nullhypothese für ein gültiges Testverfahren erwartet wird . Die interessierende Nullhypothese ist, ob die Mutationsrate vernachlässigbar ist, da der Mutationsprozess schrittweise verläuft (Tabelle 2, Fall 2). Die Ergebnisse zeigen, dass das auf (δμ) 2 angewendete Allelgrößenpermutationsverfahren nicht geeignet ist, diese Hypothese zu testen.

Die simulierten genetischen Parameter waren die folgenden: Im Anfangsstadium wurden alle Populationen für ein Allel fixiert. 10 Loci wurden mit Mutationen nach einer SMM und μ = 10 –3 an allen Loci ohne Größenbeschränkungen simuliert. Simulationen wurden für eine ausreichende Zeit durchgeführt, um einen stabilen Zustand für die Parameter der Gesamt- und innerhalb der Population der Gendiversität zu erreichen, und dann wurde eine Stichprobe von Individuen, die für übliche experimentelle Studien repräsentativ sind, entnommen und analysiert. Um genaue Schätzungen zu erhalten, wurden 200 Wiederholungen für jeden Satz von Bedingungen durchgeführt. Simulationen wurden mit der Software EASYPOP Ver. 1.7.4 (B alloux 2001). Allelgrößen-Permutationstests (mit 1000 Randomisierungen) und Berechnungen von FNS und RNS an den entnommenen Proben wurden mit dem Programm SPAGeDi (H ardy und V ekemans 2002) durchgeführt. Single-Locus und Multilocus FNS und RNS wurden nach Weir und Cockerham (1984) bzw. Michalakis und E xcoffier (1996) geschätzt. Es ist zu beachten, dass dies RNS (ein Schätzer des Parameters namens ρNS von Rousset 1996) weicht etwas von der ursprünglichen Definition von Slatkin (1995) ab (M ichalakis und E xcoffier 1996), ist aber besser zum Vergleich mit der FNS Schätzer von Weir und Cockerham (1984) (von diesen Autoren θ genannt) und für demographische Parameterschätzungen (Rousset 1996). Beides FNS und RNS Schätzer gehen nach einer hierarchischen Standard-ANOVA vor, bei der die beobachtete Varianz (σ 2 ) der Allelidentität pro Locus und pro Allel (FNS) oder die Varianz der Allelgröße pro Locus (RNS), wird in drei Komponenten unterteilt (Zufallseffekte): zwischen Populationen (σ a 2 ), zwischen Individuen innerhalb einer Population (σ b 2 ) und zwischen Genen innerhalb eines Individuums innerhalb einer Population (σ c 2 ) . FNS und RNS werden dann geschätzt als σ a 2 ∕ ( σ a 2 + σ b 2 + σ c 2 ) (Single-Locus RNS) oder Σ σ a 2 ∕ Σ ( σ a 2 + σ b 2 + σ c 2 ), wobei die Summationen über alle Orte gelten (Multilocus RNS), alle Allele eines Locus (Single-Locus FNS) oder alle Allele und Loci (Multilocus FNS Ausleihe 2001).

Für das Inselmodell wurden Simulationen über 5000 Generationen mit Migrationsraten zwischen den Populationen von 10 -4 bis 10 -1 durchgeführt (d.h., m = 0,1-100μ) gemäß den Durchläufen. Global RNS, FNS, und pRNS (für 1000 Randomisierungen) wurden an einer Gesamtstichprobe von 300 Personen (30 Personen aus jeder Population) berechnet. Für das isolierte Populationsmodell wurde eine einzelne Population von 1000 Individuen für 5000 Generationen simuliert und dann in zwei isolierte Subpopulationen von 500 Individuen aufgeteilt, die für 30-10.000 zusätzliche Generationen betrieben wurden (d.h., 1/T = 0,1-33μ). RNS, FNS, und pRNS (für 1000 Randomisierungen) wurden an einer Gesamtstichprobe von 100 Individuen berechnet (50 Individuen aus jeder Subpopulation). Für das Sprungbrettmodell wurden 10.000 Generationen mit einer Migrationsrate von 0,1 (0,05 zwischen zwei benachbarten Populationen) simuliert. Die Analysen wurden an einer Stichprobe von 20 Individuen aus jeder der 30 Populationen (Gesamtstichprobengröße von 600 Individuen) durchgeführt. Paarweise FNS/(1 - FNS) und RNS/(1 - RNS)-Verhältnisse wurden für jedes Populationspaar berechnet, und diese Werte wurden über alle Paare gemittelt, getrennt durch 1, 2, 3. 20 Schritte (20 Distanzklassen). Allelgrößen-Permutationstests wurden paarweise gemittelt RNS/(1 - RNS) Verhältnisse pro Entfernungsklasse bereitzustellen pRNS/(1 - pRNS) Werte pro Distanzklasse (1000 Permutationen). Hier paarweise FNS/(1 - FNS) und RNS/(1 - RNS)-Verhältnisse wurden berechnet, weil die Theorie eine ungefähre lineare Beziehung mit der linearen Distanz zwischen Populationen in eindimensionalen Isolation-by-Distanz-Modellen vorhersagt (Rousset 1997).

Die Validität einiger Simulationsergebnisse konnte durch den Vergleich mit theoretischen Erwartungen überprüft werden. Zum Beispiel nach 5000 Simulationsgenerationen einer einzelnen Population von n = 1000 Individuen (für das isolierte Populationsmodell), die durchschnittliche Heterozygotie und die durchschnittliche Varianz der Allelgröße waren gleich He = 0,68 und V = 1,96, mit einer mittleren Anzahl von Allelen pro Locus von 5,8 (Bereich 3–11 Allele).Diese Werte liegen nahe ihren Erwartungen beim Mutations-Drift-Gleichgewicht (E stoup und C ornuet 1999): Unter strikter SMM ist He = 1 - (1 + 8nμ) -0,5 = 0,67 und V = 2nμ= 2. Im Inselmodell mit 10 Populationen von je 100 Individuen (D = 10, n = 100), Durchschnitt RNS Werte waren gleich 0,019, 0,197, 0,677 und 0,924 für m = 10 -1 , 10 -2 , 10 -3 bzw. 10 -4 (Fig. 2A), in Übereinstimmung mit den erwarteten Werten ungefähr gleich 1/(1 + 4Nm d/(D - 1)) = 0,022, 0,184, 0,692 bzw. 0,957 (R ousset 1996). Im isolierten Populationsmodell (n = 500), Divergenzzeit T kann aus der Beziehung geschätzt werden RNS/(1 - RNS) = T/2n (S latkin 1995 R ousset 1996) mit Schätzungen von T = 97, 1132 und 11.301 für tatsächliche Werte von 100, 1000 bzw. 10.000 Generationen. Im linearen Trittsteinmodell (n = 50, m = 0,1), paarweise RNS/(1 - RNS)-Werte stiegen linear mit dem Abstand zwischen den Populationen (Abbildung 2C), was eine Regressionssteigung von 0,054 ergab, in Übereinstimmung mit dem ungefähren erwarteten Wert 1/(4Nm) = 0,050 für das lineare Trittsteinmodell (Rousset 1997).

Ergebnisse aus allen Simulationen bestätigen diesen Mittelwert pRNS Werte (d.h., Mittelwert berechnet nach zufälligen Permutationen der Allelgröße) sind sehr nahe, wenn auch nicht genau gleich, der FNS Werte (Abbildung 2). Im Inselmodell beispielsweise der Mittelwert und die Standardabweichung der Differenz zwischen FNS und gemein pRNS Werte pro Locus waren gleich 0,003 ± 0,007, 0,008 ± 0,012 und 0,010 ± 0,110 für m = 10 –2 , 10 –3 bzw. 10 –4 . Daher meine pRNS Werte waren im Durchschnitt etwas niedriger als FNS -Werte, obwohl der Unterschied zwischen den beiden für einen bestimmten Ort beträchtlich sein kann, insbesondere bei sehr niedrigen Migrationsraten. Für die anderen Simulationen bedeutet pRNS Werte waren im Allgemeinen etwas höher als FNS (Abbildung 2, B und C). Wir haben auch beobachtet, dass die Diskrepanz zwischen FNS und gemein pRNS war für Multilocus-Schätzungen viel niedriger als für Single-Locus-Schätzungen.

Wie erwartet, RNS Werte sind ähnlich wie FNS Werte wann immer m ⪢μ= 0,001 (Inselmodell), 1/T ⪢μ (divergentes Populationsmodell) oder Populationen sind nahe (Sprungbrettmodell mit m μ). Andererseits, RNS wird erheblich größer als FNS Wenn m ≤μ (Inselmodell), 1/T ≤μ (divergentes Populationsmodell) oder wenn Populationen durch mehr als fünf Schritte getrennt sind (Stepping-stone-Modell Abbildung 2).

Um die Aussagekraft des Allelgrößen-Permutationstests zu beurteilen, präsentieren wir in Abbildung 2 (Grafiken rechts) den Prozentsatz der statistisch signifikanten Tests (%RHo) unter 200 Simulationsreplikaten (unter Verwendung von α=5%) gemäß (1) der Migration Bewertung m (Inselmodell), (2) die Divergenzzeit T in der Anzahl der Generationen seit der Isolation (isoliertes Zwei-Populations-Modell) und (3) der Abstand D in der Anzahl der Schritte zwischen Populationen (Sprungbrettmodell). Dies erfolgt für Tests, die auf jeden Locus angewendet werden, sowie auf eine Multilocus-Schätzung basierend auf 10 Loci.

—Simulationsergebnisse für (1) ein Inselmodell mit Migrationsrate m (A), (2) ein Zwei-Populations-Modell, isoliert für T Generationen (B) und (3) ein lineares Sprungbrettmodell von 30 Populationen (C). Grafiken auf der linken Seite zeigen RNS (□), FNS (○) und bedeuten pRNS (⋄) Werte (mittlere Multilocus-Schätzungen basierend auf 10 Loci und 200 Replikaten) gemäß m (EIN), T (B) oder die Anzahl der Schritte, die Populationen trennen (C). In C, paarweise gemittelt RNS/(1 - RNS), FNS/(1 - FNS), und gemein pRNS/(1 - pRNS) werden die Verhältnisse über alle Paare, die durch eine gegebene Anzahl von Schritten getrennt sind, dargestellt. Die Grafiken auf der rechten Seite veranschaulichen die Leistungsfähigkeit der Allelgrößen-Permutationstests, indem sie die Prozentsätze der signifikanten Tests (%RHo) auf RNS Schätzungen [oder paarweise Durchschnitt] RNS/(1 - RNS) Verhältnisse] basierend auf einem einzelnen Locus (×) oder 10 Loci (▵) (d.h., Multilocus-Schätzung) und unter Berücksichtigung eines Typ-I-Fehlerratenkriteriums α von 5 % (gestrichelte Linie). Die Symbole (× und ▵) auf den horizontalen Achsen der Diagramme A und B zeigen die Werte, bei denen die mittleren quadratischen Fehler von FNS und RNS sind ungefähr gleich.

Im Inselmodell nähert sich %RHo bei relativ hohen Migrationsraten (d.h., m = 10 -1 -10 -2 = 10-100μ), gemäß unserer a priori Erwartung, dass wir keinen signifikanten Effekt feststellen sollten, wenn m μ (Abbildung 2A). Im Gegenteil, bei niedrigeren Migrationsraten ist die Mutation im Vergleich zur Migration nicht mehr vernachlässigbar und der Anteil signifikanter Tests steigt über α und erreicht 88 und 100 %, wenn m = 10 -4 (m = 0,1μ) für Tests an einem einzelnen Locus bzw. 10 Loci (Abbildung 2A). Tests, die auf 10 Loci basieren, scheinen für typische Stichprobengrößen, die in experimentellen Studien angetroffen werden (300 Personen hier), tatsächlich ziemlich aussagekräftig zu sein, da 100 % der Tests signifikant waren, wenn m =μ und schon 24% wenn m = 10μ. Die Ergebnisse der beiden isolierten Populationsmodelle sind denen des Inselmodells sehr ähnlich, wenn m wird ersetzt durch 1/T (Abbildung 2B). Hier erscheinen die Tests jedoch weniger aussagekräftig als im simulierten Inselmodell (z.B., für 10 Loci, %RHo > 50% wenn 1/T ≤μ im isolierten Populationsmodell und m ≤ 0,3μ im Inselmodell), was wahrscheinlich auf die kleinere Stichprobengröße (100 vs. 300 Individuen) und die geringere Anzahl von Stichproben (2 vs. 10). B alloux und G oudet (2002) zeigten tatsächlich, dass die Varianz von RNS nimmt mit weniger Stichproben erheblich zu. Im Stepping-stone-Modell steigt %RHo mit dem Abstand der Populationen, erreicht aber ein Plateau jenseits von acht Schritten bei 60% für Schätzungen basierend auf 10 Loci und nur 20% für Single-Locus-Schätzungen (Abbildung 2C). Überraschenderweise ist %RHo bereits signifikant größer als α für Populationen, die nur durch einen Schritt getrennt sind und Migranten mit hoher Rate austauschen (m/2 = 0,05) relativ zur Mutationsrate (μ= 0,001).

Nützlichkeit des Tests, um die am besten geeigneten Statistiken zu ermitteln: Um zu überprüfen, ob der Test eine adäquate Richtlinie zur Auswahl bietet RNS und FNS bei der Bewertung der Populationsdifferenzierung, mittlere quadratische Fehler (MSE) von FNS und RNS berechnet wurden. Der MSE ist ein synthetisches Maß für die Effizienz eines Schätzers, der Bias und Varianz kombiniert (MSE = Bias 2 + Varianz). Es wurde bereits verwendet, um die Effizienz von FNS und RNS Schätzer (B alloux und Goudet 2002) oder Genflussschätzungen basierend auf FNS oder RNS (G aggiotti et al. 1999). MSEs wurden berechnet als Σ(ich - e) 2 /n, wo ich ist der FNS oder RNS Schätzung der ichth replizieren, n ist die Anzahl der Replikate (n = 200), und e ist der Erwartungswert unter Berücksichtigung der demografischen Parameter. Der Erwartungswert ist e = 1/(1 + 4Nmd/(D - 1)) beim Inselmodell (mit n = 100 und D = 10), und e = T/(2n + T) im Fall des isolierten Populationsmodells (mit n = 500). Dies sind die erwarteten Werte für RNS unter SMM und für FNS unter IAM (oder KAM) und einer geringen Mutationsrate (S latkin 1995 Rousset 1996). Beachten Sie, dass e ist nicht das erwartete FNS unter den Bedingungen der Simulationen (relativ hohe SMM und μ), aber nur eine gute Näherung, wenn Mutation vernachlässigt werden kann.

Für das Inselmodell und μ= 0,001 (SMM) mit einer Migrationsrate von 0,0001 bis 0,1 ist das Verhältnis MSE(RNS)/MSE(FNS) variierte jeweils von 0,06 bis 2,1 für Einzelorts-Schätzungen und von 0,02 bis 2,3 für Multi-Locus-Schätzungen basierend auf 10 Loci. Die Migrationsrate, mit der MSE(RNS) = MSE(FNS) war dazwischen m = 0,001 und 0,002 für Einzelortsschätzungen und zwischen m = 0,003 und 0,005 für Multilocus-Schätzungen. Wie in Abbildung 2A zu sehen ist, sind diese Migrationsratengrenzen, unter denen RNS schneidet besser ab als FNS, und oberhalb der das Gegenteil eintritt, entsprechen genau der Migrationsrate, unter der der Allelgrößen-Permutationstest oft signifikant wird (d.h., %RHo ≥ 30%). Das gleiche Muster wird für das isolierte Populationsmodell beobachtet: For T variierend von 30 bis 10.000 Generationen, MSE (RNS)/MSE(FNS) variierte von 2,37 bis 0,41 und von 4,00 bis 0,01 für Single-Locus- bzw. Multi-Locus-Schätzungen, und MSE(RNS) = MSE(FNS) zum T = 2000 (d.h., 2/μ) und T = 500 (d.h., 0,5/μ) für Single-Locus- bzw. Multi-Locus-Schätzungen. Daher wird der Test häufig signifikant, wenn MSE(RNS) ist in der Nähe von MSE(FNS) (Abbildung 2B).

Diese Ergebnisse deuten stark darauf hin, dass der Allelgrößen-Permutationstest gut geeignet ist, um zu bestimmen, welche FNS oder RNS ist zumindest auf der Grundlage des niedrigsten MSE-Kriteriums für demografische Parameterinferenzen am besten geeignet. Es muss jedoch darauf hingewiesen werden, dass die Statistik mit dem niedrigsten MSE nicht unbedingt die Statistik ist, die den niedrigsten MSE in der demografischen Schätzung liefert, da demografische Schätzungen normalerweise keine linearen Funktionen von . sind FNS oder RNS. Im isolierten Populationsmodell ist beispielsweise τ= T/n Schätzungen, die mit τ . abgeleitet werden könnenF = 2FNS/(1 - FNS) und τR = 2RNS/(1 - RNS) gib MSE(τR) > MSE(τF) für alle simulierten Divergenzzeiten mit Einzelortsschätzungen [τF kann auch geschätzt werden als -ln(1 - FNS) (Reynolds et al. 1983), führt aber im Wesentlichen zu den gleichen Ergebnissen]. Dies geschieht, weil immer FNS oder RNS nähert sich 1, das abgeleitete τ schnell enorme Werte an, so dass der Einfluss der größeren Varianz von RNS relativ zu FNS wird im abgeleiteten τ stark verstärkt, obwohl τR ist viel weniger voreingenommen als τF für τ≥ 1. Die gute Nachricht ist, dass wir für Multilocus-Schätzungen MSE(τR) = MSE(τF) zum T = 500 und MSE(τR) < MSE(τF) zum T > 500, wie zuvor für MSE gefunden(RNS) = MSE(FNS). Ebenso für das Inselmodell, wo Nm kann geschätzt werden als NmF = (1/FNS - 1)/4 und NmR = (1/RNS - 1)/4, die m Werte entsprechend MSE(NmF) = MSE(NmR) waren genau gleich den für MSE(RNS) = MSE(FNS) sowohl für Single- als auch Multilocus-Schätzungen. Somit ist die Nützlichkeit des Allelgrößen-Permutationstests, um zu bestimmen, welche von FNS oder RNS für Inferenzzwecke am besten geeignet ist, scheint recht allgemein zu sein, außer wahrscheinlich bei geringer Stichprobengröße und/oder geringer Anzahl von Loci, wenn Rückschlüsse auf jeden Fall zweifelhaft sind, weil die zugehörigen Varianzen zu groß sind.

Anwendungsbeispiele: Um den Nutzen und die Stärke des Allelgrößen-Permutationstests mit realen Daten zu veranschaulichen, präsentieren wir drei Beispiele veröffentlichter Datensätze, die wir erneut analysiert haben. Diese Daten wurden gesammelt, um die Populationsdifferenzierung zu bewerten und die Isolierung nach Entfernung in drei verschiedenen Organismen zu überprüfen. Wir haben global oder paarweise berechnet FNS und RNS Statistiken wie oben beschrieben und wendeten die Allelgrößen-Permutationstests an, um zu erhalten pRNS Werte. Diese Analysen wurden mit SPAGeDi durchgeführt.

Biomphalaria pfeifferi, eine selbstfressende Schnecke, die kürzlich in Madagaskar eingeführt wurde: Biomphalaria pfeifferi, ein Zwischenwirt eines parasitären Trematoden, der Darm-Bilharziose verursacht, ist eine zwittrige Süßwasserschnecke, die über den größten Teil Afrikas, des Nahen Ostens und Madagaskars verbreitet ist. Madagaskar wurde vor relativ kurzer Zeit von dieser Schnecke überfallen, wahrscheinlich als Folge menschlicher Besiedlung vor einigen hundert Jahren (C harbonnel et al. 2002a). Darüber hinaus deuten laut einer breit angelegten Untersuchung der Mikrosatellitenvariation in ganz Madagaskar Engpass- (C ornuet und Luikart 1996) und Beimischungstests (B ertolle und Excoffier 1998) darauf hin, dass mindestens drei unabhängige Einschleppungen aus genetisch differenzierten Quellen aufgetreten sind (C harbonnel et al. 2002a). Eine kleine Studie der Mikrosatellitenvariation zeigt auch, dass Populationen wiederkehrende Engpässe erlebten und dass Migration innerhalb von Wassereinzugsgebieten häufig, aber selten unter ihnen stattfand (C harbonnel et al. 2002b). Diese Populationsdynamik und die hohe Selbstbesamungsrate dieser Schnecke erklären die in Madagaskar beobachtete hohe genetische Differenzierung zwischen den Populationen: FNS = 0,80 bzw. 0,58 für breite und kleine Skalen (C harbonnel et al. 2002a,b).

In diesem speziellen Kontext können wir eine Hypothese über den Informationsgehalt formulieren, den die Allelgrößen von Mikrosatelliten tragen könnten. Angesichts der postulierten kürzlichen Einführungen dieser Schnecke in Madagaskar erwarten wir, dass die Mutation nicht zur Differenzierung zwischen Populationen mit Ursprung derselben Einführung beigetragen hat, sondern zur Differenzierung zwischen Populationen, die aus verschiedenen Einführungen stammen (zumindest wenn die Quellpopulationen über genügend Zeit divergiert waren .) ). Die Orte und der Zeitpunkt der Einführungen sind nicht bekannt, aber Populationen aus einem einzigen Einzugsgebiet stammen wahrscheinlich aus einem einzigen Einzug oder, wenn Genotypen aus verschiedenen Einzugsgebieten in einem Einzugsgebiet vermischt wurden, hat die Migration innerhalb des Einzugsgebiets wahrscheinlich die Ansammlung von a . verhindert phylogeographisches Muster in dieser Größenordnung. Daher können wir erwarten RNS zu etwas nahe sein FNS für Populationen, die zum gleichen Einzugsgebiet gehören und deutlich größer als FNS für Populationen aus verschiedenen Wassereinzugsgebieten, wenn letztere ursprünglich von Individuen aus unabhängigen Einführungen besiedelt wurden.

Differenzierung zwischen Populationen von Biomphalaria pfeifferi in verschiedenen Maßstäben

Um diese Hypothese zu testen, haben wir Daten aus kleinen und großen Studien von Charbonnel . erneut analysiert et al. (2002a,b). Global RNS und FNS Werte sowie paarweise RNS und FNS Werte zwischen Populationen wurden berechnet. Zur Unterscheidung von Populationspaaren innerhalb oder zwischen Wassereinzugsgebieten wurden paarweise Werte auf räumliche Distanzen regressiert (Mantel-Tests wurden verwendet, um die Signifikanz der Regressionssteigungen zu beurteilen) und durchschnittliche paarweise Werte wurden für eine Reihe von Distanzklassen berechnet (definiert so, dass jede enthielt ∼33 Populationspaare). Tausend zufällige Permutationen der Allelgrößen lieferten eine Verteilung von pRNS Werte, 95 %-Konfidenzintervalle, die den 25. bis 975. geordneten Wert abdecken, und P Werte testen, wenn RNS > pRNS.

Multilocus RNS Werte sind deutlich höher als der Mittelwert pRNS auf breiter Ebene, aber nicht auf lokaler Ebene (Tabelle 3). Auf jeden Locus angewendet, waren diese Tests auch für vier von acht Loci auf breiter Ebene signifikant, aber für keinen auf lokaler Ebene.

Die Analyse des durchschnittlichen paarweisen Multilocus FNS und RNS Werte pro Entfernungsklasse auf der breiten Skala zeigt Folgendes (Abbildung 3):

Die Differenzierung zwischen Populationen, die dasselbe Einzugsgebiet besetzen, ist viel geringer als zwischen Populationen aus verschiedenen Einzugsgebieten, selbst bei Populationen, die durch die gleiche räumliche Entfernung getrennt sind. Dies steht im Einklang mit der höheren Migrationsrate innerhalb von Wassereinzugsgebieten als bei ihnen (C harbonnel 2002b).

Innerhalb der Wasserscheiden wird für beide ein Isolationsmuster nach Entfernung festgestellt FNS und RNS (Mantel-Tests: P = 0,007 bzw. 0,021)). Unter Wassereinzugsgebieten wird ein solches Muster nicht erkannt für FNS aber ist für RNS (Mantel-Tests: P = 0,18 bzw. 0,002).

Innerhalb von Wasserscheiden, RNS's sind nicht wesentlich höher als pRNSs, während unter Wasserscheiden, RNS's sind deutlich höher als pRNSist für alle Fernklassen außer der ersten.

Durchschnitt paarweise pRNS Werte sind immer etwas niedriger als paarweise FNS Werte, aber sie folgen eng ihrem Variationsmuster mit der räumlichen Entfernung.

Zusammenfassend lässt sich sagen, dass auf lokaler Ebene RNS Werte liegen nahe bei FNS -Werte und Allelgrößen-Permutationstests zeigen keinen signifikanten Beitrag von schrittweisen Mutationen zur Populationsdifferenzierung. Im Gegenteil, im großen Stil RNS Werte sind wesentlich höher als FNS -Werte und Allelgrößen-Permutationstests zeigen, dass Verschiebungen der durchschnittlichen Allelgrößen signifikant zur Populationsdifferenzierung beitragen. Bedeutende Tests auf RNS Werte werden erwartet, wenn Populationen über einen ausreichend langen Zeitraum divergiert waren und/oder wenn Populationen Migranten in ähnlicher oder geringerer Geschwindigkeit als die Mutationsrate ausgetauscht haben. Die Ergebnisse sind somit sehr konsistent mit a priori Erwartungen angesichts der Tatsache, dass (1) in großem Maßstab diese beiden Bedingungen wahrscheinlich erfüllt sind, da weit auseinander liegende Populationen in Madagaskar wahrscheinlich aus relativ neuen und unabhängigen Einführungen von seit langem isolierten kontinentalen Ursprungspopulationen stammen und die Migrationsrate zwischen den Einzugsgebieten niedrig ist, und (2) Auf lokaler Ebene, insbesondere innerhalb von Wassereinzugsgebieten, ist wahrscheinlich keine dieser Bedingungen erfüllt.

—Durchschnitt paarweise FNS (○ und •), RNS (□ und ▪) und Mittelwert pRNS (⋄ und ♦) Werte unter Populationen von Biomphalaria pfeifferi in ganz Madagaskar für eine Reihe von Distanzklassen, die Vergleiche zwischen Populationen innerhalb von Wassereinzugsgebieten (•, ▪, ♦) und zwischen Wassereinzugsgebieten (○, □, ⋄) unterscheiden. Die gepunkteten Linien repräsentieren den Bereich der 95%-zentralen Ordnung pRNS Werte (d.h., nach Allelgrößen-Randomisierung). Jede Distanzklasse enthält 32-35 Populationspaare.

Fraxinus excelsior, ein weit verbreiteter europäischer Baum: Fraxinus excelsior (Oleaceae, Gemeine Esche) ist eine in Europa weit verbreitete windbestäubte Baumart, die hauptsächlich in Auenstandorten und mit einer verstreuten Verbreitung in natürlichen Wäldern vorkommt. Die Verteilung von chloroplastischen DNA (cpDNA)-Haplotypen in ganz Europa deutet darauf hin, dass F. excelsior befand sich während der letzten Eiszeit in mindestens drei verschiedenen Refugien, wobei ein mutmaßliches Refugium das Balkangebiet ist (G. G. V endramin , unveröffentlichte Daten). H euertz et al. (2001) analysierten den Mikrosatelliten-Polymorphismus in 10 bulgarischen Populationen (Balkangebiet) aus drei Regionen (321 Individuen). Die Bevölkerungen waren innerhalb der Regionen 0,5-22 km und zwischen den Regionen 120-300 km voneinander getrennt.

In Ermangelung von Beweisen für eine langfristige Divergenz zwischen bulgarischen Populationen (keine Beweise für verschiedene Zufluchtsorte) und da der Genfluss bei einer windbestäubten Art relativ ausgedehnt sein sollte, können wir erwarten, dass stufenartige Mutationen nicht wesentlich dazu beigetragen haben Bevölkerungsdifferenzierung in Bulgarien. Der Datensatz von H euertz et al. (2001) wurde daher erneut analysiert, um den Durchschnitt paarweise zu vergleichen FNS und RNS Werte zwischen Populationen, Unterscheidung von Paaren innerhalb und zwischen bulgarischen Regionen und Testen RNS Werte durch Allelgrößenpermutationen (1000 Randomisierungen).

Die mittleren paarweisen Multilocus-Schätzungen waren gleich FNS = 0.074, RNS = 0,091 innerhalb der Regionen und FNS = 0.097, RNS = 0,180 zwischen den Regionen (Abbildung 4). Während also die Differenzierung von kleinen zu großen geographischen Skalen leicht zunimmt, je nach FNS, es verdoppelt sich fast gemäß RNS. Darüber hinaus durchschnittlich paarweise RNS ist viel größer als FNS zwischen den Regionen, aber nur geringfügig größer als FNS innerhalb von Regionen. Innerhalb von Regionen beobachtet RNSDie Werte liegen immer innerhalb des 95%-Bereichs von Zentral pRNS, aber unter den Regionen ist der Multilocus RNS Schätzung sowie die Schätzung für den Locus FEM19 ist größer als der 95%-Bereich von pRNS (Abbildung 4), was zeigt, dass stufenartige Mutationen für mindestens einen Locus zur Populationsdifferenzierung im großen geografischen Maßstab beitrugen.

Mehrere Ursachen können für den signifikanten Effekt der Allelgröße auf die Bevölkerungsdifferenzierung zwischen den Regionen in Bulgarien verantwortlich sein, zum Beispiel:

Das Muster kann die Isolation durch die Entfernung widerspiegeln. Es erscheint jedoch unwahrscheinlich, dass die Migrationsrate zwischen den Regionen im Vergleich zur Mutationsrate schwach ist, da Pollen durch den Wind verbreitet werden.

Das Muster kann auf eine postglaziale Wiederbesiedlung aus verschiedenen Refugien zurückzuführen sein. Es gibt jedoch keine Hinweise auf unterschiedliche Refugien aus der maternal vererbten zytoplasmatischen DNA, da in allen drei Regionen derselbe einzigartige Haplotyp auftritt (M. H. euertz , unveröffentlichte Daten).

Das Muster könnte die durch den Menschen vermittelte Einführung von Fraxinus aus abgelegenen Regionen widerspiegeln.

Das Muster kann lokal auftretende Hybridisierung zwischen F. excelsior und eine verwandte Art wie F. angustifolia oder F. pallisiae. Da insgesamt vier Aschearten (die ersten drei und F. ornus) in Bulgarien gefunden werden und dass verschiedene Arten in denselben Wäldern vorkommen (M. H euertz , persönliche Beobachtung), verdient diese letztere Hypothese weitere Untersuchungen. Auf jeden Fall bleibt die Beobachtung, dass ein signifikanter Effekt stufenartiger Mutationen im großen Maßstab beobachtet wird, aber nicht im kleinen, sehr konsistent mit a priori Erwartungen, da benachbarte Populationen Gene relativ schnell austauschen sollten.

—Paarweise bedeuten RNS, bedeuten pRNS, und FNS Werte zwischen bulgarischen Bevölkerungen von Fraxinus excelsior für Populationen, die derselben Region (A) oder verschiedenen Regionen (B) angehören. Werte werden für jeden Locus und die Multilocus-Schätzungen angegeben. Bars von pRNS den Mittelwert angeben pRNS Werte über 1000 Allelgrößen-Permutationen, und die entsprechenden Intervalle geben den Bereich der 95 % zentralen pRNS Werte.

Centaurea corymbosa, ein seltenes und kleinwüchsiges felsbewohnendes Kraut: Centaurea corymbosa (Asteraceae) ist eine kurzlebige mehrjährige Krautart, die über ein sehr enges Verbreitungsgebiet (innerhalb einer Fläche von 3 km 2 eines Kalkmassivs entlang der französischen Mittelmeerküste) verbreitet ist, wo sie nur in sechs kleinen Populationen (C olas et al. 1997). Es hat sich auf einen extremen Lebensraum spezialisiert: die Spitze von Kalksteinfelsen, wo nur wenige andere Pflanzenarten überleben. Auf fruchtbarerem Boden, C. corymbosa wird verdrängt, so dass geeignete Lebensräume stark fragmentiert sind und als kleine Inseln in der Landschaft verstreut erscheinen. Da die Art nur einen kleinen Teil dieser „Inseln“ bewohnt (das gesamte Massiv erstreckt sich über 50 km 2 ), muss die Besiedelungsfähigkeit sehr eingeschränkt sein, wahrscheinlich als Folge der begrenzten Samenverbreitungsfähigkeit und des Selbstinkompatibilitätssystems, das eine A verhindert potenzieller Neuankömmling aus eigener Gründung einer neuen Population (C olas et al. 1997 F réville et al. 2001). Isozym-Muster (C olas et al. 1997) und Mikrosatellit (F réville et al. 2001) weisen eine hohe Differenzierung zwischen den Populationen auf, mit FNS = 0,35 bzw. 0,23, trotz der geringen Verbreitung der Art (2,3 km zwischen den beiden am weitesten entfernten Populationen). Eine hohe Differenzierung in einem so kleinen Maßstab kann nicht dem Paarungssystem zugeschrieben werden, da die Art selbstinkompatibel ist. Dies ist höchstwahrscheinlich auf kleine Populationsgrößen und einen geringen Genfluss zwischen den Populationen zurückzuführen. Es könnte auch eine Folge von mehr oder weniger wiederkehrenden Engpässen bei der Neugründung von Populationen sein (obwohl der Umsatz relativ langsam sein sollte, da seit 1994 kein Aussterben oder Neugründung von Populationen beobachtet wurde, als C. corymbosa Populationen wurden engmaschig untersucht, und Herbariumsdaten zeigen, dass fünf der sechs Populationen vor >100 Jahren bekannt waren).

In diesem Zusammenhang ist es interessant zu fragen, ob der Genfluss zwischen Populationen ausreichend gering ist, um Divergenz durch Mutationen zuzulassen. Je höher beobachtet FNS Wert an Allozym-Loci als an Mikrosatelliten-Loci könnte tatsächlich durch hohe Mutationsraten von Mikrosatelliten verursacht werden, vorausgesetzt, dass μ≥ m. F réville et al. (2001) wies darauf hin, dass diese Hypothese auch dadurch gestützt wird, dass FNS die Werte an den beiden polymorphsten Mikrosatelliten-Loci (12B1 und 21D9, Tabelle 4), die wahrscheinlich die höchsten Mutationsraten aufweisen, waren niedriger als die für die beiden Loci mit mittlerem Polymorphismus (13D10 und 28A7, Tabelle 4).

Das Allelgrößen-Randomisierungsverfahren ist ausreichend, um diese Frage zu beantworten. Daher global RNS, pRNS, und FNS wurden für Mikrosatelliten-Loci wie oben beschrieben berechnet, und RNS wurde mit der Verteilung von 1000 . verglichen pRNS Werte. Permutationstests haben keine festgestellt RNS Wert deutlich >pRNS (Tabelle 4). Dies deutet darauf hin, dass die Differenzierung hauptsächlich durch Drift verursacht wird und dass Genfluss, m, und/oder der Kehrwert der Divergenzzeit, 1/T, sind groß im Vergleich zur Mutationsrate μ. Dieses Ergebnis impliziert auch, dass FNS sollte ein besserer Schätzer sein als RNS der Populationsdifferenzierung für diese Art. Angesichts der geringen Populationsgrößen (C olas et al. 1997, 2001) wird eine hohe Drift erwartet. Wenn beispielsweise Populationen effektive Größen von ∼ 100 Individuen aufweisen (es gibt tatsächlich eine große Varianz zwischen den Populationen) und einem Inselmodell entsprechen (es gibt tatsächlich einige Isolations-durch-Entfernungs-Effekte), ist ein Wert von m = 0,006 würde das beobachtete erklären FNS, ein Wert größer als typische Mikrosatelliten-Mutationsraten (10 –3 –10 –4 ). Unter der Annahme, dass diese Populationen ausreichend lange existieren, um möglicherweise eine Differenzierung durch Mutationen (verändernde Allelgrößen) zu ermöglichen, deutet das Fehlen einer solchen mutationsgetriebenen Differenzierung auch darauf hin, dass die Migrationsrate größer ist als die Mutationsrate, so dass neue Mutationen Varianten über alle Populationen verteilt.

Differenzierung zwischen Populationen von Centaurea corymbosa, geschätzt von global RNS, bedeuten pRNS, und FNS Werte pro Lokus und für einen Multilocus-Mittelwert

Nichtsignifikante Tests könnten auch auf mangelnde Power zurückzuführen sein, daher sollte der Test auf zusätzliche Mikrosatelliten-Loci angewendet werden, um diese Ergebnisse zu bestätigen (derzeit hatten nur vier von sechs Loci eine ausreichende Anzahl von Allelen, um Permutationstests durchzuführen). Eine Abweichung von einem SMM an einigen Loci könnte auch die Leistung des Tests verringern. Zum Beispiel hat der Dinukleotid-Locus 28A7 sechs Allele mit Größen, die einer Sequenz von einem Wiederholungsschritt plus einem Allel folgen, das mindestens sechs Wiederholungen kleiner als die anderen ist. Obwohl dieses Muster nicht unbedingt mit einem reinen SMM (z.B., D onnelly 1999) könnte darauf hindeuten, dass eine Mutation mit großer Wirkung das Outsider-Allel geschaffen hat.


Materialen und Methoden

Simulationsstudie

Generierung einzelner Genotypen:

Wir generierten zunächst individuelle Genotypen mit ms (Hudson 2002) unter Annahme eines Inselmodells der Populationsstruktur (Wright 1931). Für jedes simulierte Szenario betrachteten wir acht Demes, die jeweils aus haploiden Individuen bestanden. Die Migrationsrate (m) wurde festgelegt, um den gewünschten Wert von (0,05 oder 0,2) zu erreichen, wobei Gleichung 6 in Rousset (1996) verwendet wurde, die zu z.B., für und für Die Mutationsrate wurde auf das Geben festgelegt. Wir betrachteten entweder feste oder variable Stichprobengrößen für die verschiedenen Demen. Im letzteren Fall ist die haploide Stichprobengröße n wurde unabhängig für jede Deme aus einer Gaußschen Verteilung mit Mittelwert 100 und SD 30 gezogen. Diese Zahl wurde auf die nächste ganze Zahl aufgerundet, mit einem Minimum von 20 und einem Maximum von 300 Haploiden pro Deme. Wir generierten eine sehr große Anzahl von Sequenzen für jedes Szenario und untersuchten unabhängige Einzelnukleotidpolymorphismen (SNPs) aus Sequenzen mit einer einzelnen Segregationsstelle. Jedes Szenario wurde 50-mal repliziert (500-mal für Abbildung 3 und Abbildung S2).

Pool-Sequenzierung:

Für jeden simulierten ms-Datensatz generierten wir Pool-Seq-Daten, indem wir Lesevorgänge aus einer Binomialverteilung (Gautier et al. 2013). Genauer nehmen wir an, dass für jeden SNP die Anzahl der Reads des Alleltyps k im Pool ich folgt: (14) Wo ist die Anzahl der Gene des Typs k in dem ichPool, ist die Gesamtzahl der Gene im Pool ich (haploide Poolgröße) und ist die simulierte Gesamtabdeckung für Pool ich. Im Folgenden betrachten wir entweder eine feste Abdeckung mit für alle Pools und Loci oder eine variierende Abdeckung über Pools und Loci hinweg mit

Sequenzierungsfehler:

Wir haben Sequenzierungsfehler simuliert, die mit einer Geschwindigkeit auftreten, die für Illumina-Sequenzer typisch ist (Glenn 2011 Ross et al. 2013). Wir nahmen an, dass jeder Sequenzierungsfehler den Alleltyp eines Reads mit gleicher Wahrscheinlichkeit in einen von drei anderen möglichen Zuständen modifiziert (es gibt also insgesamt vier Alleltypen, die vier Nukleotiden entsprechen). Beachten Sie, dass nur biallelische Marker in den endgültigen Datensätzen beibehalten werden. Beachten Sie auch, dass wir, da wir dieses Verfahren nur mit polymorphen Markern initiiert haben, Sequenzfehler vernachlässigen, die falsche SNPs von monomorphen Stellen erzeugen würden. Allerdings sollten solche SNPs in realen Datensätzen selten sein, da Marker mit einem niedrigen Minimum Read Count (MRC) in der Regel herausgefiltert werden.

Experimenteller Fehler:

Nicht äquimolare DNA-Mengen aller Individuen in einem Pool und stochastische Variationen in der Amplifikationseffizienz einzelner DNAs sind Quellen für experimentelle Fehler in Pool-Seq. Um experimentelle Fehler zu simulieren, haben wir das von Gautier abgeleitete Modell verwendet et al. (2013). In diesem Modell wird angenommen, dass der Beitrag jedes Gens J zur Gesamtabdeckung der ichPool folgt einer Dirichlet-Verteilung: (15) wobei der Parameter ρ steuert die Streuung der Genbeiträge um den Wert, der erwartet wird, wenn alle Gene gleichermaßen zum Pool von Reads beitragen. Der Einfachheit halber definieren wir den experimentellen Fehler ε als Variationskoeffizient von d.h., (siehe Gautier et al. 2013). Wann ε gegen 0 tendiert (oder äquivalent, wenn ρ gegen Unendlich tendiert), tragen alle Individuen gleichermaßen zum Pool bei und es gibt keinen experimentellen Fehler. Wir haben die Robustheit unserer Schätzungen auf Werte von . getestet ε zwischen 0,05 und 0,5. Der Fall könnte beispielsweise einer Situation entsprechen, in der (für ) fünf Personen mehr Reads beitragen als die anderen fünf Personen.

Andere Schätzer

Der Übersichtlichkeit halber wird in Tabelle 2 eine Zusammenfassung der Notation der in diesem Artikel verwendeten Schätzer gegeben.

Dieser Schätzer von ist standardmäßig im Softwarepaket PoPoolation2 (Kofler et al. 2011). Er basiert auf einer Definition des Parameters als Gesamtreduktion der durchschnittlichen Heterozygotie im Verhältnis zur Gesamtpopulation (siehe, z.B., Nei und Chesser 1983): (16) Wo ist die durchschnittliche Heterozygotie innerhalb von Subpopulationen und ist die durchschnittliche Heterozygotie in der Gesamtpopulation (erhalten durch Zusammenfassen aller Subpopulationen zu einer einzigen virtuellen Einheit). In PoPoolation2 ist der ungewichtete Durchschnitt der Heterozygoten innerhalb der Subpopulation: (17) (unter Verwendung der Notation aus Tabelle 1). Beachten Sie, dass PoPoolation2 nur auf den Fall von zwei Teilpopulationen beschränkt ist ( ). Die beiden Verhältnisse auf der rechten Seite von Gleichung 17 sind vermutlich Nei (1978) entlehnt, um eine unverzerrte Schätzung zu liefern, obwohl wir keine formale Rechtfertigung für den Ausdruck in Gleichung 17 für Pool-Seq-Daten gefunden haben. Die Gesamtheterozygotie wird wie folgt berechnet (unter Verwendung der Notation aus Tabelle 1):

Dies ist der alternative Schätzer des Softwarepakets PoPoolation2. Es basiert auf einer Interpretation von Kofler et al. (2011) von Karlsson et al.s (2007) Schätzer von , as: (19) wobei und sind die Häufigkeiten identischer Lesepaare innerhalb bzw. zwischen Pools, berechnet durch einfaches Zählen von IIS-Paaren. Dies sind Schätzungen der IIS-Wahrscheinlichkeit für zwei Lesevorgänge im selben Pool (unabhängig davon, ob sie aus demselben Gen sequenziert wurden oder nicht) und der IIS-Wahrscheinlichkeit für zwei Lesevorgänge in unterschiedlichen Pools. Beachten Sie, dass sich die IIS-Wahrscheinlichkeit von Gleichung 1 unterscheidet, die nach unserer Definition die IIS-Wahrscheinlichkeit zwischen verschiedenen Genen im selben Pool darstellt. Dieser Ansatz verwechselt daher Paare von Reads innerhalb von Pools, die identisch sind, weil sie von einem einzelnen Gen sequenziert wurden, von Paaren von Reads, die identisch sind, weil sie von unterschiedlichen IIS-Genen sequenziert wurden.

FRP13:

Dieser Schätzer von wurde von Ferretti . entwickelt et al. (2013) (siehe ihre Gleichungen 3, 10, 11, 12 und 13). Ferretti et al. (2013) verwenden dieselbe Definition von wie in Gleichung 16 oben, obwohl sie Heterozygoten innerhalb und zwischen Pools als „durchschnittliche paarweise Nukleotid-Diversitäten“ schätzen, die nach ihren Definitionen formal äquivalent zu IIS-Wahrscheinlichkeiten sind. Insbesondere schätzen sie die durchschnittliche Heterozygotie innerhalb der Pools als (unter Verwendung der Notation aus Tabelle 1): (20) und die Gesamtheterozygotie unter den Populationen als:

Analysen von Ind-seq-Daten

Für den Vergleich von Ind-seq- und Pool-seq-Datensätzen haben wir auf Teilstichproben von 5000 Loci berechnet. Diese Teilstichproben wurden so definiert, dass nur diejenigen Loci beibehalten wurden, die unter allen Coverage-Bedingungen polymorph waren, und dieselben Loci wurden für die Analyse der entsprechenden Ind-Seq-Daten verwendet. Für letzteres haben wir entweder den Schätzer von Nei und Chesser (1983) verwendet, der auf einem Verhältnis der Heterozygotie basiert (siehe Gleichung 16 oben), im Folgenden mit bezeichnet, oder den von Weir und Cockerham (1984) entwickelten Varianz-Schätzer, im Folgenden bezeichnet als von

Alle Schätzer wurden mit benutzerdefinierten Funktionen in der R-Softwareumgebung für statistische Berechnungen, Version 3.3.1 (R Core Team 2017), berechnet. Alle diese Funktionen wurden sorgfältig mit verfügbaren Softwarepaketen überprüft, um sicherzustellen, dass sie absolut identische Schätzungen liefern.

Anwendungsbeispiel: Kasper

Dennenmoser et al. (2017) untersuchten die genomischen Grundlagen der Anpassung an osmotische Bedingungen beim stacheligen Sculpin (Kasper), ein reichlich vorhandener euryhaliner Fisch im Nordwesten Nordamerikas. Dazu sequenzierten sie das gesamte Genom von Pools von Individuen aus zwei Mündungspopulationen (Capilano River Estuary, CR Fraser River Estuary, FE) und zwei Süßwasserpopulationen (Pitt Lake, PI Hatzic Lake, HZ) im südlichen British Columbia (Kanada). . Wir haben die vier entsprechenden BAM-Dateien aus dem Dryad Digital Repository (http://dx.doi.org/10.5061/dryad.2qg01) heruntergeladen und mit SAMtools Version 0.1.19 (Li et al. 2009) mit Standardoptionen, mit Ausnahme der maximalen Tiefe pro BAM, die auf 5000 Lesevorgänge festgelegt wurde. Die resultierende Datei wurde unter Verwendung eines benutzerdefinierten awk-Skripts weiter verarbeitet, um SNPs aufzurufen und Lesezählungen zu berechnen, nachdem Basen mit einem Base Alignment Quality (BAQ)-Score <25 verworfen wurden. Eine Position wurde dann als SNP betrachtet, wenn: (1) nur zwei verschiedene Nukleotide mit einem Read-Count >1 beobachtet wurden (Nukleotide mit Read wurden als Sequenzierungsfehler betrachtet) (2) die Abdeckung zwischen 10 und 300 in jedem der vier Alignments lag Dateien (3) lag die Minor-Allel-Häufigkeit, wie aus Read-Counts berechnet, in den vier Populationen. Der endgültige Datensatz bestand aus 608.879 SNPs.

Unser Ziel hier war es, die Populationsstruktur, die aus paarweisen Schätzungen unter Verwendung des Schätzers (Gleichung 12) abgeleitet wurde, mit der von PP2 zu vergleichenD. Um zu bestimmen, welcher der beiden Schätzer besser abschneidet, haben wir dann die Populationsstruktur verglichen, die aus dem Bayesschen hierarchischen Modell abgeleitet wurde, das im Softwarepaket BayPass implementiert ist (Gautier 2015). BayPass ermöglicht die robuste Schätzung der skalierten Kovarianzmatrix der Allelfrequenzen in Populationen für Pool-Seq-Daten, die bekanntermaßen aufschlussreich über die Populationsgeschichte sind (Pickrell und Pritchard 2012). Die Elemente der Schätzmatrix können als paarweise und populationsspezifische Differenzierungsschätzungen interpretiert werden (Coop et al. 2010) und liefern daher eine umfassende Beschreibung der Bevölkerungsstruktur, die die verfügbaren Daten vollständig nutzt.

Datenverfügbarkeit

Ein R-Paket namens poolfstat, das Schätzungen für Pool-seq-Daten implementiert, ist beim Comprehensive R Archive Network (CRAN) verfügbar: https://cran.r-project.org/web/packages/poolfstat/index.html.

Die Autoren geben an, dass alle Daten, die zur Bestätigung der in diesem Artikel präsentierten Schlussfolgerungen erforderlich sind, vollständig im Artikel, in Abbildungen und Tabellen enthalten sind. Ergänzendes Material (einschließlich Abbildungen S1–S4, Tabellen S1–S3 und eine vollständige Ableitung des Modells in Datei S1) verfügbar bei Figshare: https://doi.org/10.25386/genetics.6856781.


3. Materialien und Methoden

(i) Samensammlungen und Keimungsprotokoll

Im Sommer 2004 sammelten wir Früchte von Pflanzen von neun Populationen entlang der tunesischen Küste (Tabelle 1). Die Größe dieser Populationen variiert von fast 60 Individuen bis zu weit mehr als 500 einzelnen Pflanzen. Zehn Samen pro Familie wurden in einer Petrischale auf angefeuchtetem Filterpapier ausgesät. Die Keimung erfolgte unter Laborbedingungen (im Dunkeln bei 20–25°C). Vier Tage später wurden vier zufällig ausgewählte Setzlinge pro Familie in separate Töpfe gepflanzt und in einem unbeheizten Gewächshaus randomisiert. Zehn Familien pro Population (d. h. 40 Setzlinge pro Population) wurden unter einheitlichen Umweltbedingungen kultiviert und für quantitative genetische Untersuchungen verwendet. Von jeder Gruppe von 40 Sämlingen wurden 30 für die Allozymanalyse verwendet.

Tabelle 1. Cakile Maritima tunesische Bevölkerung. Ihre Klimaregion und ihr alphanumerischer Code

(ii) Samenauftrieb und Lebensfähigkeit

Das Merkmal Auftrieb (Schwimmvermögen) zeigt das Potenzial der Arten an, durch Wasser verbreitet zu werden. Sie wird als Anteil der Samen angegeben, die nach einer definierten Zeit schwimmen. Zu diesem Zweck 100 Samen von C. Maritima wurden im Oktober 2005 in eine geschlossene Flasche mit 500 ml Meerwasser gefüllt. Die Zahl der gesunkenen Samen wurde im Laufe der Zeit aufgezeichnet. Im Februar 2006 wurden zehn der schwimmenden Samen auf gefilterten Sand ausgesät und mit Leitungswasser bewässert, um ihre Lebensfähigkeit zu testen.

(iii) Morphologische Messungen

Zwei Sätze von morphologischen Merkmalen wurden als Unterscheidungsmerkmale zwischen Populationen angesehen: vegetative Merkmale (Blattmorphotyp (Blattform (LFF)) und Blattlänge (LFL)) und reproduktive Merkmale (Blüte Datum Emergenz (FED), Blütenblattlänge (PTLT), Blütenblattbreite (PTW), Blütenblattfarbe (PTC), Stempellänge (PSL), Fruchttyp (FRT), Fruchtgrößen (Länge des oberen Segments (LUP) und Länge des unteren Segments (LLW) und Samennummer (SN)). Die Blattmerkmale wurden von 1 bis 10 eingestuft, wobei 1 Blätter mit ganzrandigem Rand, 10 Blätter mit den tiefsten gefiederten Rändern und Zwischenstufen durch Abstufungen zwischen diesen Extremen klassifiziert wurden (Abb. 1) Längenmessungen Die Fruchtgröße wurde getrennt für das obere und untere Segment gemessen und in drei verschiedene Modalitäten eingeteilt: unbehornt, mittel und behornt, quantifiziert als eine Reihe von 0, 1 bzw. 2. (Abb. 2) und Breite, Stempellänge und Fruchtgröße wurden mit einem elektronischen Messschieber gemessen. Farb- und Größenmessungen wurden an einem Blütenblatt durchgeführt, das zufällig von jedem Individuum ausgewählt wurde.

Abb. 1. Blattmorphotypen in Cakile angeordnet als Standardsequenz, 1–10, für die Feldbewertung der Blattvariation.

Abb. 2. Siliculas Modal von Cakile (0: ungehörnte Frucht 1: Zwischenfrucht 2: gehörnte Frucht).

(iv) Datenanalyse

Für jedes quantitative Merkmal wurde eine verschachtelte Varianzanalyse (ANOVA) einschließlich Population und Familie (verschachtelt innerhalb der Population) als zufällige Effekte durchgeführt. Der Grad der Populationsdifferenzierung in den quantitativen Merkmalen wurde mit Qst (Spitze, Reference Spitze 1993) gemessen, das analog zu Fst mit Allozym-Marker-Loci gemessen wurde. Um Qst abzuschätzen,B 2 ergibt sich direkt aus der Populationsvarianz δP 2 , das heißt (δB 2 =δP 2 ), während die Familienvarianz δF 2 muss in δ . umgewandelt werdenw 2 durch Multiplikation mit einem Koeffizienten (C), die von der Beziehung der Individuen innerhalb der Familie abhängt (δw 2 =CδF 2). Für Halbgeschwister, Vollgeschwister und geklonte Individuen, C ist 4, 2 und 1 (unter der Annahme, dass keine Dominanz und keine Epistase vorliegen). Wenn sich Populationen im Hardy-Weinberg-Ungleichgewicht (Fis≠0) befinden, könnte der Differenzierungsgrad in quantitativen Merkmalen wie folgt ausgedrückt werden: (Yang et al., Reference Yang, Yeh und Yanchukt 1996), wobei Qst den Ausdruck hat (Spitze, Reference Spitze 1993) und andere (Lande, Reference Lande 1992 Latta, Reference Latta 2004).

V W wird auf das Vierfache der Varianzkomponente zwischen den Familien geschätzt V Familie unter der Annahme, dass die mütterlichen Effekte schwach waren und dass innerhalb von unbestäubten Familien als Halbgeschwister verwandt waren (Yang et al., Referenz Yang, Yeh und Yanchukt 1996), während V B ist einfach die Varianzkomponente zwischen den Populationen. Ungefähre Standardfehlerwerte (SE) von Qst wurden durch die „Delta“-Technik erhalten (Stuart &. Ord, Reference Stuart and Ord 1987). Dieses von Podolsky & Holtsford (Referenz Podolsky und Holtsford 1995) verwendete Verfahren liefert zuverlässige SE-Schätzungen genetischer Varianzkomponenten zum Festlegen von Vertrauensgrenzen (CLs) für genetische Parameter (Hohls, Referenz Hohls 1996).

(v) Allozym-Experiment

Für die Allozymanalyse wurde eine Elektrophorese-Untersuchung verwendet, um die genetische Variabilität innerhalb und zwischen C. Maritima Bevölkerungen. Von jeder Pflanze (1 Monat alt) wurden ungefähr 200 mg Blattgewebe gesammelt, unter flüssigem Stickstoff gemahlen und mit 100 μl Extraktionspuffer (PVP-Kaliumphosphat-Mahlpuffer, pH 7) gemischt, wie von Thrall . beschrieben et al. (Referenz Thrall, Andrew und Burdon 2000) und wurden bei 19 000 . zentrifugiert g für 20min. Gemahlenes Material wurde auf Whatman 3MM Filterpapierdochten absorbiert und in einem ultrakalten Gefrierschrank (–70 °C) bis zur Analyse aufbewahrt. Eine horizontale Stärke-Gel-Elektrophorese wurde für sieben Enzymsysteme durchgeführt, die ein Minimum von 13 Loci zeigten: Peroxidase (Px EC 1.11.1.7), Isocitrat-Dehydrogenase (IDH EC 1.1.1.42), Glutamat-Oxaloacetat-Transaminase (GOT EC 2.6.1.1), Shikimat-Dehydrogenase (SDH EC 1.1.1.25) Leucin-Aminopeptidase (LAP EC 3.4.11.1), 6-Phosphogluconat-Dehydrogenase (6-PGD EC 1.1.1.44) und Malat-Dehydrogenase (MDH EC 1.1.1.37). Die Zusammensetzungen von Gel- und Elektrodenpuffern wurden in Soltis . beschrieben et al. (Referenz Soltis, Haufler, Darrow und Gastony 1983) und die Verfahren zur Färbung von Allozymbanden wurden in Michaud . beschrieben et al. (Referenz Michaud, Lumaret und Romane 1992) für Px und in Cardy et al. (Referenz Cardy, Stuber und Goodman 1980) für IDH, GOT, LAP, SDH, 6-PGD und MDH. Für Phosphatasesäure (ACPH EC 3.1.3.2) wurden nach Laemmli (Referenz Laemmli 1970) vertikal gezonte Polyacrylamidgele hergestellt und nach Selander® gefärbt et al. (Referenz Selander, Smith, Yang, Johnson und Gentry 1971). Die Loci wurden fortlaufend nummeriert, wobei der am stärksten anodisch wandernde Locus als Locus 1 bezeichnet wurde. Die genetische Interpretation für alle Loci war unkompliziert.

(vi) Datenanalyse

An jedem der 13 untersuchten Loci C. Maritima, genotypische und allelische Häufigkeiten wurden aus einer Untersuchung von Gelphänogrammen bewertet. Drei Koeffizienten, die die genetische Variation messen, wurden mit BIOSYS-1 berechnet: (i) der Prozentsatz der polymorphen Loci (P) unter Verwendung des 0,95-Kriteriums (ein Locus gilt als polymorph, wenn das häufigste Allel in allen analysierten Populationen eine Häufigkeit von weniger als 95 % aufweist) (ii) die mittlere Anzahl von Allelen pro Locus (EIN) und (iii) die erwartete Heterozygotie (He) im Hardy-Weinberg-Gleichgewicht (Nei, Reference Nei 1978). Diese drei Koeffizienten wurden für jede der Stichprobenpopulationen geschätzt. Der Mittelwert und die Standardabweichung der zuvor genannten Koeffizienten wurden dann über alle untersuchten Populationen berechnet. Die genetische Struktur innerhalb und zwischen Populationen wurde auch mit Hilfe von Wrights ausgewertet (Referenz Wright 1965). F-Statistik Fit, Fis und Fst. Die Heterozygotenhäufigkeit für jeden polymorphen Locus in jeder Population wurde mit einer χ 2-Analyse auf signifikante Abweichungen von den Hardy-Weinberg-Erwartungen getestet (Li & Horvitz, Reference Li and Horvitz 1953) (BIOSYS-1). Die Schätzung von Nm (der Anzahl der Migranten pro Generation) basiert auf Fst (Wright, Reference Wright 1951) (Genetix 4.02). Um zu testen, ob die genetischen Unterschiede der Populationen dem Modell der Isolation nach Entfernung folgten, stellten wir die Beziehung zwischen den Fst-Werten der genetischen Differenz zwischen Populationspaaren und ihrer geografischen Entfernung mithilfe des Mantel-Tests (Genetix 4.02) her. Um die genetische Distanz und die geografische Distanz zu untersuchen, wurden die UPGMA-Clustering-Analysen durchgeführt (BIOSYS-1).

(vii) Matrixkorrelation

Der Zusammenhang zwischen morphologischen, genetischen, Meeresströmungsgeschwindigkeit und geographischen Entfernungsmatrizen wurde mit dem Mantel-Test (1967) untersucht. Der Mantel-Test verwendet zufällige Permutationen von Matrixzeilen und -spalten, um zu testen, ob Korrelationen zwischen Distanzmatrizen größer sind als zufällig erwartet (Sokal & Rohlf, Reference Sokal und Rohlf 1995). Wir haben genetische und morphologische Abstandsmatrizen miteinander mit geographischen Matrizen einzeln verglichen und dann aus Fst und Qst geschätzte Nm mit der Meeresströmungsgeschwindigkeit verglichen. Die paarweise Population der Meeresströmungsgeschwindigkeit wurde unter Verwendung der Schiffsdrift gemessen. Die Schiffsdriftmessung der Oberflächenströmungsgeschwindigkeit besteht aus der Vektordifferenz zwischen der Geschwindigkeit eines Schiffes, die aus zwei Positionsangaben bestimmt wurde, und der durchschnittlichen geschätzten Geschwindigkeit des Schiffes durch das Wasser während desselben Zeitintervalls, normalerweise 12–24 Stunden. Es wird angenommen, dass die Vektordifferenz auf einen Oberflächenstrom zurückzuführen ist. Das Fehlen von Verbundenheit wurde mit 0 markiert.

(viii) Zuordnungstests

Um zu testen, ob die Meeresströmungen, wie in Abb. 5 beschrieben, die Richtung des Genflusses bestimmen, wird es interessant sein, die Zuordnungstests zu verwenden. Diese Methoden sind starke Instrumente, um aktuelle Einwanderungsereignisse zu erkennen, selbst wenn die Gesamtbevölkerungsdifferenzierung gering ist (Rannala & Mountain, Reference Rannala and Mountain 1997 Waser & Strobeck, Reference Waser and Strobeck 1998 Castric & Bernatchez, Reference Castric und Bernatchez 2004). Tatsächlich sind Zuordnungstests besonders nützlich, um die aktuelle Dynamik natürlicher Populationen zu verfolgen, ohne dass Gleichgewichtsannahmen auf der Grundlage langfristiger genetischer Prozesse erforderlich sind (Manel et al., Referenz Manel, Gaggiotti und Waples 2005). Da das Muster der Fehlklassifizierung von Individuen innerhalb einer Population verwendet werden kann, um die Migrationsrichtung zu bestimmen, könnten Zuordnungstests eine nützliche Methode sein, um den Einfluss von Meeresströmungen auf den Genfluss zu untersuchen. Die Wahrscheinlichkeit, dass es sich bei einer Stichprobe innerhalb einer bestimmten Population um einen Migranten handelt, der aus einer anderen Population stammt, wurde mithilfe einer Bayes-Methode (Geneclass2-Software) bestimmt (Piry et al., Referenz Piry, Alapetite, Cornuet, Paetkau, Baudouin und Estoup 2004).


Diskussion

Clustering-Ansätze ermöglichen die Aufteilung einer Stichprobe von Individuen in genetisch unterschiedliche Gruppen ohne a priori Definition dieser Gruppen. Die meisten der jüngsten Fortschritte in der Clustering-Methodik wurden mit Bayes-Statistikmodellen erzielt [3, 20, 5, 21, 22]. Bayessche Methoden ordnen Individuen basierend auf ihren Genotypen und der Annahme, dass die Marker im Hardy-Weinberg- und Kopplungsgleichgewicht innerhalb jeder Subpopulation liegen, Gruppen zu.

In dieser Studie wurde eine neue Methode verwendet, um die verborgene Struktur in einer Population abzuleiten, die auf der Maximierung der genetischen Distanz basiert und keine Annahmen über HWE und LE macht, und wir zeigen, dass sie unter verschiedenen simulierten Szenarien eine gute Leistung liefert und mit einem echten Datensatz. Daher könnte es ein nützliches Werkzeug sein, um genetisch homogene Gruppen zu bestimmen, insbesondere in Situationen, in denen die Anzahl der Cluster hoch ist, eine komplexe Populationsstruktur vorliegt und HWD und/oder LD vorhanden sind.

Die Simulationsergebnisse zeigen, dass die BAPS-Methode die am wenigsten präzise ist, da sie eine große Anzahl genotypisierter Marker benötigt, um die richtige Verteilung zu erreichen, insbesondere wenn die Population das Mutations-Migration-Drift-Gleichgewicht erreicht hatte. Für das ursprüngliche/Basisszenario waren die Leistungen von MGD und STRUCTURE unabhängig von den Vergleichsparametern ähnlich (gut), obwohl die neue Methode einen leichten Vorteil aufwies (siehe Tabelle 3 und Abbildung 2).

Wir haben gezeigt, dass Abweichungen von den impliziten Annahmen der Bayes'schen Methoden über das Hardy-Weinberg- und Kopplungsgleichgewicht innerhalb von Populationen ihre Genauigkeit beeinträchtigen, insbesondere für BAPS, was zu einer überschätzten Anzahl von Clustern und einem reduzierten Anteil an korrekten Gruppierungen führt. Diese Beobachtungen stimmen mit Kaeuffer . überein et al. [35], die gezeigt haben, dass ein hoher Wert des LD-Korrelationskoeffizienten die Wahrscheinlichkeit erhöht, mit STRUCTURE unechte Clusterbildung zu erkennen. Die Randomisierung von Allelen (und teilweise auch die Randomisierung von Genotypen und Haplotypen) stellt sowohl HWE als auch LE wieder her. In diesen Situationen werten die beiden Methoden die Anzahl der Cluster korrekt aus und geben einen erhöhten Anteil an korrekten Gruppierungen. Im Gegenteil, MGD ist in Ungleichgewichtssituationen präziser und seine Leistung ändert sich nach der Randomisierung nicht signifikant, was die Unabhängigkeit der neuen Methode von der Existenz oder Nichtexistenz von HWE und LE zeigt. Ausgehend von den hier präsentierten Ergebnissen wäre eine Alternative zum Testen der Genauigkeit der Ergebnisse einer beliebigen Clustering-Methode der Vergleich der Ergebnisse, die nach der Randomisierung der molekularen Informationen innerhalb jeder vordefinierten Subpopulation erhalten wurden, wenn diese Informationen verfügbar sind.

Die Präzision aller drei Methoden ist hervorragend für F NSso niedrig wie 0,03. Dies steht im Einklang mit den Ergebnissen von Latch et al. [10], die bewiesen haben, dass STRUCTURE und BAPS die Populationsunterstruktur bei F NS= 0,02 - 0,03. In unseren Simulationen bestimmt jedoch nur STRUCTURE die richtige Anzahl von Clustern bei F NS= 0,01. Ungeachtet dessen gibt es eine Kontroverse über das minimale Differenzierungsniveau, das erforderlich ist, damit eine Population als genetisch strukturiert angesehen werden kann. Waples und Gaggiotti [36] haben vorgeschlagen, dass wenn F NSist zu reduziert (z.B. F NS= 0,01), dann kann es wahrscheinlich nicht mit statistisch signifikanten Hinweisen auf Abweichungen von Panmixie in Verbindung gebracht werden. In diesen Situationen ist nicht klar, ob die am besten geeignete Lösung für MGD (und auch die anderen Clustering-Methoden) darin besteht, verschiedene Teilpopulationen zu trennen oder die Teilpopulationen als undifferenzierte Population zu erhalten.

Die simulierten Szenarien unter Berücksichtigung unterschiedlicher Selbstbildungsraten zeigten sowohl eine zunehmende Differenzierung zwischen Subpopulationen (d.h. höher F NSWerte) und eine Zunahme des Hardy-Weinberg-Ungleichgewichts (F ISTbewegt sich von 0,01 auf 0,81). Allerdings ist der Anstieg in F NSWerte (von 0,27 bis 0,42) sind nicht so groß wie die der F ISTWerte, die darauf hinweisen, dass das Hardy-Weinberg-Ungleichgewicht nicht durch den Effekt des Differenzierungsniveaus maskiert werden kann. Darüber hinaus ist der Anstieg in F NSWerte sollten helfen, die verschiedenen Cluster zu unterscheiden und daher sollte der HWD zumindest die unterste Grenze seiner Wirkung erreichen.

Unsere mit der MGD-Methode aus dem Humandatensatz erhaltenen Ergebnisse sind im Allgemeinen denen von STRUCTURE [34] ähnlich und stimmen auch mit einer neueren Studie von 525910 SNP [37] überein, obwohl einige Diskrepanzen mit den Ergebnissen von Li et al. [38] unter Verwendung von 650000 SNP. Rosenberg et al. [34] haben mehrere Clustering-Lösungen für K = 7 mit STRUKTUR. Die mit MGD erhaltenen Ergebnisse für K = 7 stimmen vollständig mit den sieben geografischen Regionen überein. Eine sorgfältige Untersuchung der Ergebnisse erkennt Cluster, in denen gruppierte Individuen mehrere Herkunftsquellen haben, insbesondere im Nahen Osten und in Zentral-Südasien. Diese Situation (d.h. die geschätzte gemischte Abstammung) könnte entweder auf eine kürzliche Vermischung oder auf eine gemeinsame Abstammung vor der Divergenz zweier Populationen zurückzuführen sein, jedoch ohne nachfolgenden Genfluss zwischen ihnen. Es wurde darauf hingewiesen, dass die globale genetische Variation des Menschen stark von der Geographie beeinflusst wird [39–41]. Außerdem weisen Serre und Pääbo [42] darauf hin, dass die von Rosenberg . erhaltenen Cluster et al. [34] durch heterogene Stichproben generiert wurden und diese verschwinden würden, wenn mehr Populationen analysiert würden.

In dieser Studie wurde ein einfaches Inselmodell mit konstanten Populationsgrößen und invarianten symmetrischer Wanderung betrachtet, die in natürlichen Systemen unwahrscheinlich sind. Die Leistung von STRUCTURE wurde kürzlich durch Simulation verschiedener Ausbreitungsszenarien evaluiert [23] und scheint bei komplexeren Populationsstrukturen gut zu funktionieren als das endliche Inselmodell (hierarchisches Inselmodell, Kontaktzonenmodell). In dieser Studie war die Leistung der MGD-Methode in den simulierten Szenarien mit einer höheren Anzahl von Clustern und einer komplexeren Populationsstruktur besser als die der Bayesschen Ansätze. Es sind jedoch weitere Untersuchungen erforderlich, um die Fähigkeit der MGD-Methode zu bestimmen, mit anderen Arten von Bevölkerungsstrukturen umzugehen.

Die Rechenzeit kann eine Einschränkung des neuen Verfahrens sein, insbesondere wenn es sich um große Mengen an Markern handelt.Es ist jedoch zu beachten, dass Clustering-Analysen nicht sehr oft durchgeführt werden und die Ergebnisse in der Regel nicht dringend benötigt werden. Daher kann es sich lohnen, auf die mit der genauesten Methode erhaltenen Ergebnisse zu warten.

Wenn alternativ die aus der molekularen Koancestrie berechnete genetische Distanz evaluiert wurde, könnte die Verwendung anderer genetischer Distanzen, die zuvor in der Literatur veröffentlicht wurden [24], als Parameter zur Maximierung sowohl für kodominante als auch für dominante molekulare Marker untersucht werden. Darüber hinaus könnte der Nei-Mindestabstand [25] unangemessen sein, wenn mit verschiedenen Markern gearbeitet wird, zum Beispiel beim Mischen von Daten, die mit Markern mit unterschiedlichen Heterozygotiegraden erhalten wurden (z.B. Mischen von Mikrosatelliten- und SNP-Daten). Darüber hinaus könnte auch ein Gewichtungsverfahren [43, 44] unter Berücksichtigung der Subpopulationsgröße, der Anzahl der Loci oder der Anzahl der Allele implementiert werden. Ungeachtet der Natur der neuen Methode (d.h. die Maximierung der genetischen Distanz) ermöglicht die Verwendung jeglicher Maße, die besser zu den verfügbaren molekularen Daten passen, über die Nei-Distanz hinaus.

Die Aussagekraft der Marker hat einen deutlichen Einfluss auf die Effizienz der Clustering-Methoden, insbesondere für BAPS. Die Erhöhung der Anzahl der Marker (Szenario 1 vs. 2, 3 vs. 4, 5 vs. 6 und 7 vs. 8) führt fast immer zu besseren Ergebnissen: Die richtige Anzahl von Clustern wird in mehr Fällen geschätzt und der Prozentsatz der richtigen Gruppierungen ist höher. Parallel dazu liefern die biallelischen Marker beim Vergleich einer ähnlichen Anzahl von Markern, aber mit unterschiedlichem Polymorphismus (Szenario 2 vs. 5, Mikrosatelliten vs. SNP) schlechtere Leistungen. Trotzdem bieten MGD und STRUCTURE bei Verwendung einer angemessenen Anzahl von Markern (50 Mikrosatelliten und 300 SNP) eine hohe Genauigkeit. Beim Vergleich der mit STRUCTURE erhaltenen Ergebnisse ist es jedoch überraschend, dass dieses Verfahren mit 10 Mikrosatelliten eine geringere Genauigkeit zeigte als mit 50 Mikrosatelliten.

Obwohl die Methode in der vorliegenden Arbeit für kodominante Marker entwickelt wurde, unabhängig vom Ansatz (molekulare Koancestry oder Allelfrequenzen), kann die Methodik auch leicht auf dominante molekulare Marker erweitert werden, indem die molekulare Koancestry-Matrix durch eine beliebige verfügbare Matrix ersetzt wird Ähnlichkeitsmaß für dominante Marker [45] oder Abschätzung der Allelfrequenzen von rezessiven (siehe [46] und Referenzen darin) und dann die Verwendung der typischen genetischen Distanzen.

Die vorliegende Formulierung des Verfahrens berücksichtigt nicht explizit die Anwesenheit gemischter Individuen. Um dies zu tun, sollte jedem Locus in jedem Individuum ein anderer Satz von Wahrscheinlichkeiten gegeben werden (im Allel-Frequenz-Ansatz), damit jeder Locus verschiedenen Clustern zugeordnet werden kann. Die Erhöhung der Rechenzeit und die Fähigkeit des Optimierungsalgorithmus, mit einem größeren Lösungsraum umzugehen, verdienen weitere Untersuchungen.

Eine zusammengestellte Datei des Codes, der verwendet wird, um die Anzahl der Cluster und die Zuordnung der Individuen zu jedem Cluster in einer gegebenen Probe aus der molekularen Koancestry-Matrix oder den Allelfrequenzen abzuleiten, wird auf der Website http://www.uvigo verfügbar sein. es/webs/c03/webc03/XENETICA/XB2/Jesus/Fernandez.htm.


ERGEBNISSE

Erkennung von Hybridisierung mit Populationsgenetik vs. Gemeindeökologie-Diversitätsmetriken

Von den vier populationsgenetischen Metriken und drei Artenvielfaltsindizes, die alle mit einem Multilocus-Ansatz berechnet wurden, ist nur einer (hn) stellte eine Veränderung der genetischen Vielfalt in Hybridpopulationen fest (Abb. 1). Im Vergleich zu den Populationen der wilden Seerüben zeigten die Hybridpopulationen statistisch signifikant größere hn (Mann–Whitney U = 16, z = 𢄢.09, P = 0,037). Wir haben jedoch keine Unterschiede in anderen Multilocus-Metriken der genetischen Diversität festgestellt, einschließlich der prozentualen polymorphen Loci (U = 40, z = 0.04, P = 0,10), Anzahl der Allele pro polymorphem Locus (U = 40, z = 0.04, P = 0,10), Gesamtzahl der Allele (U = 30, z = −.84, P = 0,40), Shannon–Weiner’s h (U = 23, z = 𢄡.47, P = 0,14), Simpson’s D (U = 26, z = 𢄡.20, P = 0,23) oder McIntosh’s E (U = 47, z = 𢄡.41, P = 0.16).

Im Gegensatz zu den Multilocus-Ergebnissen waren Einzellocus-Vergleiche unter Verwendung von Artenvielfaltsmetriken aussagekräftiger. Im Vergleich zu den wilden Seerübenpopulationen wiesen Hybridpopulationen eine größere Shannon–Weiner-Diversität auf (h, an 11 von 12 Loci, Vorzeichentest: P = 0,003, z. B. Abb. 2 ), größere Simpson’s D (an 10 von 12 Orten, P = 0,02) und größere McIntosh’s E Werte (an 11 von 12 Loci, P = 0,003). Darüber hinaus waren Diversitätsvergleiche an einzelnen Orten unter Verwendung traditioneller genetischer Populationsmetriken weniger empfindlich als gemeindeökologische Metriken gegenüber Veränderungen der Alleldiversität oder -zusammensetzung. Im Vergleich zu Wildrübenpopulationen wiesen Hybridpopulationen mehr Allele auf (an 10 von 12 Loci, P = 0,02, aber Hybridpopulationen unterschieden sich nicht signifikant von Wildpopulationen in Prozent der polymorphen Loci (verringert an neun von 12 Loci, P = 0,073) oder Anzahl der Allele pro polymorphem Locus (erhöht an 8 von 12 Loci, P = 0.19).

Durchschnittliche Shannon–Weiner-Diversitätsschätzungen für 12 Loci (getrennte Linien), gemittelt über 10 wilde oder 8 mutmaßliche Hybriden Beta vulgaris Untersp. maritima Bevölkerungen. Die 12 Loci sind hier mit Abkürzungen dargestellt: AAT (Aspartat-Aminotransferase, EC 2.6.1.1), ACO (Aconitase EC 4.2.1.3), GDH (Glutamat-Dehydrogenase EC 1.4.1.2), LAP (Leucin-Aminopeptidase EC 3.4.11.1), MDH1, MDH2 (NAD + Malat-Dehydrogenase EC 1.1.1.37), PGM1, PGM2 (Phosphoglucomutase EC 5.4.2.2), SKD (Shikimat-Dehydrogenase EC 1.1.1.25), TPI1, TPI2 (Triosephosphat-Isomerase EC 5.3.1.1) und UDP (Uridin-Diphosphoglucose-Pyrophosphorylase EC 2.4.1.1). Fehlerschätzungen aus Gründen der Übersichtlichkeit nicht gezeigt.

Die Folgen der Hybridisierung für die genetische Vielfalt

Über die 12 Loci hinweg besaßen mutmaßliche Hybridrübenpopulationen nur ein Viertel der seltenen Allele, die in Wildpopulationen vorkommen (χ 2 = 22,5, df = 1, P < 0,001 Abb. 3 ). Basierend auf dem Jaccard-Ähnlichkeitskoeffizienten waren Hybridpopulationen 10,8 % (±SE = 0,6 %) ähnlicher Mangold-Sorten als Wildpopulationen (eine Stichprobe T Prüfung: T = 18.66, df = 47, P < 0,001). Darüber hinaus waren Hybridpopulationen den Zuckerrübensorten um 3,7% (±SE = 1,1%) ähnlicher als Wildpopulationen (T = 3.45, df = 47, P = 0,001). Schließlich waren Hybridpopulationen, basierend auf gepaarten Vergleichen, Mangold signifikant ähnlicher als Zuckerrübensorten (gepaarte T Prüfung: T = 𢄦.62, df = 47, P < 0,001).

Mittlere Anzahl von Allelen, die nicht signifikant zur Gendiversität beitragen (d. h. seltene Allele, ±SE) pro Locus, geschätzt für 12 Allozym-Loci, gemittelt über 10 wilde oder acht mutmaßliche Hybride Beta vulgaris Untersp. maritima Bevölkerungen.


Resultate und Diskussionen

Um die Anwendbarkeit unseres Ansatzes zu veranschaulichen, wenden wir ihn auf zwei zuvor veröffentlichte Datensätze an, die in [37] bzw. [17] analysiert wurden.

Käferdaten

Der erste Datensatz wurde im Rahmen einer phylogeographischen Untersuchung der Käferarten verwendet Brachyderes rugatus rugatus auf La Palma (Kanarische Inseln) [37]. In dieser Studie wurden 138 einzelne Käfer beprobt. Die 18 Probenahmestellen sind in Abbildung ​ Abbildung 3 dargestellt. 3 . Anhand von Sequenzdaten des mitochondrialen COII-Gens (Details siehe [37]) wurden die 138 Proben anschließend in 69 Haplotypen gruppiert und eine Haplotyp-Phylogenie basierend auf dem Sparsamkeitskriterium mit dem TCS-Programm konstruiert [38]. Diese Phylogenie ist in Abbildung ​ Abbildung4 4 dargestellt.

Stichprobenstandorte und -regionen für Käferdaten. Eine Karte von La Palma mit durch schwarze Punkte gekennzeichneten Probenahmestellen [37]. Probenstellen, an denen Haplotypen einer bestimmten Phylogruppe (vgl. Abbildung 4) gefunden wurden, sind durch die gestrichelten Kurven dargestellt. Beachten Sie, dass der Probenahmeort Altos de Jedey ist der einzige, bei dem Haplotypen aus zwei verschiedenen Phylogruppen (nämlich 1 und 2) gefunden wurden. Die sechs Gruppen von Probenahmeorten, die den sechs Regionen entsprechen R1, R2, . R6 im Text besprochene sind ebenfalls angegeben.

Haplotyp-Phylogenie für Käferdaten. Das in [37] vorgestellte Haplotyp-Netzwerk für die auf La Palma gesammelten Haplotypen. Beachten Sie, dass alle Kanten die Länge 1 haben. Die farbigen Punkte (schwarz, rot und grün) repräsentieren die abgetasteten Haplotypen und die hypothetischen Zwischenprodukte der weißen Punkte. Gestrichelte Kästchen entsprechen den drei Phylogruppen 1-3, die in [37] identifiziert wurden. Die in der Region gefundenen Haplotypen R2 sind rot markiert, die gefundenen in R6 in grün und die gefundenen in R3 sind durch blaue Kreise gekennzeichnet.

Gemäß dieser Phylogenie wurden die Haplotypen in 3 Phylogruppen eingeteilt, wie in der Phylogenie und in Abbildung ​ Abbildung 3 angegeben. 3 . Basierend auf diesen Gruppierungen wurde geschlossen für Brachyderes rugatus rugatus dass (i) es eine Region mit sekundärem Kontakt oder Schmelztiegel im Süden der Insel an der Überlappung der Regionen 1 und 2 gibt, und (ii) dass es eine Ahnenregion oder einen Hotspot in der Region gibt, die . enthält die drei Probenahmestellen oben rechts in Region 2. Beachten Sie, dass in [37] die Schlussfolgerung (i) durch die Durchführung des in [8] angegebenen Tests zur Erkennung von sekundären Kontaktzonen, der im Wesentlichen die Berechnung der durchschnittlichen Entfernung beinhaltet, unterstützt wurde zwischen den geographischen Zentren der Kladen bei zunehmender Verschachtelung in einer Phylogenie der interessierenden Haplotypen.

Um zu untersuchen, ob unsere neue Methode die Schlussfolgerungen (i) und (ii) unterstützt oder nicht, haben wir die Probenahmeorte zunächst in 6 Regionen gruppiert R1, . R6 wie in Abbildung ​ Abbildung3 gezeigt. 3 . Wir haben diese Regionen und nicht die einzelnen Probenahmeorte verwendet, da die Anzahl der Proben an jedem Ort sehr gering war (zwischen 2 und 8). Bei der Bildung der Gruppen wurden geografisch nahe Orte zusammengefasst. Wir betrachteten auch andere Gruppierungen basierend auf der geografischen Nähe (Daten nicht gezeigt) und das Ergebnis war ähnlich, wenn auch weniger ausgeprägt, wenn die Anzahl der Gruppierungen reduziert wurde (die kleinste Anzahl der verwendeten Gruppierungen war 3). Dann haben wir die Vielfalt gemessen (mit dem Maß PD) und Haplotyp-Konnektivität für die in jeder Region gefundenen Haplotypen Richrelativ zu den phyletischen Abständen, die durch die Phylogenie in Abbildung ​ Abbildung4, 4 angegeben werden, wie im Abschnitt Methoden beschrieben.

Die Ergebnisse für die 6 Regionen sind in Tabelle ​ Tabelle1 zusammengefasst. 1. In dieser Tabelle präsentieren wir die Größe der Teilmenge Ja der in der Region gefundenen Haplotypen (Spalte 2), die Werte PD(Ja), PDMindest(|Ja|), PDmax(|Ja|) (Spalten 3-5) und der normalisierte Diversity-Score PD*(Ja) (Spalte 6) wie im Abschnitt Methoden definiert. Ebenso präsentieren wir die Werte HC(Ja), HCMindest(|Ja|), HCmax(|Ja|) und HC*(Ja) (Spalten 7-10).

Tabelle 1

RegionAnzahl der Haplotypen in der RegionDiversitätHaplotyp-Konnektivität
PDPDMindestPDmaxPD*HCHCMindestHCmaxHC*
R6214725870.35143250.50
R3112810670.32161270.58
R2183320810.2173250.18
R47146550.1651270.15
R5182920810.1553250.09
R15104480.1471280.22

Diversitäts- und Haplotyp-Konnektivitäts-Scores für die in Abbildung 3 angegebenen geografischen Regionen auf La Palma, geordnet nach normalisierten phylogenetischen Diversitäts-Scores, PD*, wie im Haupttext definiert. Die mit gekennzeichneten Spalten PDMindest, PDmax, HCMindest und HCmax enthalten die minimale/maximale Punktzahl über alle Teilmengen mit der gleichen Anzahl von Haplotypen wie in der Region gefunden.

Wie in Tabelle ​ Tabelle1, 1 zu sehen ist, sind die beiden Regionen mit den höchsten PD*Score sind R6 und R3, die auch einen viel höheren HC* Punktzahl als jede der anderen vier Regionen. Dies unterstützt die Schlussfolgerung (i), d. h. dass R6 ist wahrscheinlich ein Schmelztiegel. Tatsächlich sind in Abbildung ​ Abbildung 4 4 die in der Region gefundenen Haplotypen R6 sind grün hinterlegt und es ist zu erkennen, dass sie sich zu zwei Gruppen zusammenschließen. Dies zeigt auch, warum wir ein hohes HC* Punktzahl für diese Region. Ebenso das hohe PD* und HK* Punktzahlen für die Region R3 legt nahe, dass diese Region ebenfalls ein Schmelztiegel ist, eine Schlussfolgerung, die mit den Ergebnissen in [37] übereinstimmt, wo vorgeschlagen wird, dass in R3 Verbreitungsausdehnungen nach Süden und Nordwesten überlappten sich teilweise.

Bezüglich der Schlussfolgerung (ii) sehen wir, dass unter den verbleibenden Regionen R2 hat eindeutig den höchsten PD* Punktzahl und viel niedriger HK* Punktzahl als R6 und R3. Dieses Bewertungsmuster, d. h. relativ hohe Diversität und geringe Haplotyp-Konnektivität, unterstützt eher ein Hot-Spot-Szenario als ein Schmelztiegel-Szenario, in Übereinstimmung mit Schlussfolgerung (ii). Wenn wir Abbildung ​ Abbildung4, 4 untersuchen, sehen wir, dass die Haplotypen in R2 (rot hervorgehoben) sind relativ über die Haplotyp-Phylogenie verteilt, daher der niedrige Haplotyp-Konnektivitäts-Score.

Kieferndaten

Der zweite Datensatz, den wir betrachten, war Teil einer Studie zur phylogeographischen Geschichte der Art Pinus pinaster rund um das Mittelmeer [17]. Die Proben wurden an 10 Stellen entnommen, wie in Abbildung ​ Abbildung 5 dargestellt. 5. Sequenzdaten, die aus neun einfachen Sequenzwiederholungsmarkern von Chloroplasten bestanden, führten zu 34 verschiedenen Haplotypen (für Details siehe [17]). Für diese 34 Haplotypen wurde eine Distanzmatrix unter Verwendung der paarweisen Haplotypdifferenz berechnet (d. h. für zwei beliebige Haplotypen die Summe der Differenz zwischen der Allelgröße über die neun Loci).

Stichprobenstandorte für Kieferndaten. Probenahmestellen für den Datensatz in [17].

Um die phylogeographische Struktur dieser Daten zu verstehen, wird in [17] die Häufigkeitsverteilung der paarweisen Abstände zwischen Haplotypen, manchmal auch als bezeichnet, Spektrum der genetischen Vielfalt (GDS) [12], berechnet. Wir haben dies neu berechnet und stellen das Ergebnis in Abbildung ​ Abbildung6 dar. 6. Insbesondere aufgrund von Überlegungen - wie der Form des GDS für die Standorte Landes und Pantelleria - wurde die Hypothese aufgestellt, dass Landes und Pantelleria Hot-Spots sind, obwohl auch festgestellt wurde, dass die Hypothese, dass es sich um Schmelztiegel handelt, nicht sein kann ausgeschlossen [[17], S.462]. In einer neueren erweiterten phylogeographischen Studie von Pinus pinaster [39] wurde geschlossen, dass Landes eher ein Schmelztiegel war.

Genetisches Diversitätsspektrum. Das genetische Diversitätsspektrum (GDS) für (a) den Standort Landes und (b) den Standort Pantelleria in Abbildung 5. Für jede mögliche Entfernung wird die Anzahl der Haplotyppaare dargestellt, die diese Entfernung voneinander haben.

Unter Verwendung derselben Distanzmatrix berechneten wir Diversity- und Haplotyp-Konnektivitäts-Scores für jeden der 10 Stichprobenorte, wie im Abschnitt Methoden erläutert (unter Verwendung des Measures ANZEIGE für Vielfalt). Diese sind in Tabelle ​ Tabelle2 dargestellt. 2. Beachten Sie, dass unsere Scores im Gegensatz zu [17] nicht berücksichtigen, wie oft ein Haplotyp an einem bestimmten Ort gefunden wurde, sondern welche Haplotypen gefunden wurden.

Tabelle 2

ProbenahmeortAnzahl der Haplotypen in der RegionDiversitätHaplotyp-Konnektivität
ANZEIGEANZEIGEMindestANZEIGEmaxANZEIGE*HCHCMindestHCmaxHC*
Landes62.450.337.140.3161100.56
Pantelleria91.670.375.660.2531100.22
Leiria80.730.366.060.0611100.00
Sardinien90.700.375.660.0621100.11
Marokko80.690.366.060.0611100.00
Korsika80.680.366.060.0611100.00
Ligurien50.640.318.060.0421110.10
Moncao60.330.337.140.0011100.00
Toskana50.310.318.060.0011110.00
Alcácier50.310.318.060.0011110.00

Diversity- und Haplotyp-Konnektivitäts-Scores für die in Abbildung 5 abgebildeten Probenahmeorte, geordnet nach normalisiertem durchschnittlichem Square-Distance-Diversity-Score (ANZEIGE*). Die mit gekennzeichneten Spalten ANZEIGEMindest, ANZEIGEmax, HCMindest und HCmax enthalten die minimale/maximale Punktzahl über alle Teilmengen mit der gleichen Anzahl von Haplotypen wie in der Region gefunden.

Wie in Tabelle ​ Tabelle2, 2 zu sehen ist, sind die beiden Standorte mit den höchsten ANZEIGE* Diversity-Scores sind Landes und Pantelleria. Angesichts der HC* Punkte für diese Standorte, dies unterstützt das Schmelztiegel-Szenario, insbesondere für den Standort Landes. Beachten Sie, dass die Bimodalität des GDS für den Standort Landes auch auf zwei Cluster von Haplotypen mit geringen internen Abständen und hohen Abständen zwischen den Clustern hinweist, was auch als Signatur für ein Schmelztiegel-Szenario angesehen werden könnte. Allerdings ist die Form des GDS für den Standort Pantelleria etwas weniger ausgeprägt, so dass zumindest in diesem Fall der Ansatz der Haplotyp-Konnektivität einige nützliche zusätzliche Informationen liefert.


Konzepte und Definitionen

Beginnen wir mit einem kurzen Rückblick auf die Artenvielfalt (auch bekannt Community Diversity, Biodiversität oder ökologische Diversität), um die beiden wesentlichen Elemente des Diversity-Konzepts im Allgemeinen zu erläutern, die die Einführung unserer SNP-Diversity- und -Ähnlichkeitsmaße unten erleichtern sollen. Artenvielfalt bezieht sich auf die ökologische Vielfalt von Arten in einer ökologischen Gemeinschaft, aber das Diversitätskonzept ist gleichermaßen auf die genetische Vielfalt anwendbar (z.B. Nei 1973, Wehenkel et al., Bergmann et al.) 13,23,24 oder andere Entitäten wie Metagenomdiversität (Ma und Li) 20 . Konzeptionell besitzt Diversität zwei wesentliche Elemente: die Vielfalt und der Variabilität von Sorten (Gaston Chao et al.) 10,25 . Die zwei Elemente der Artenvielfalt sind beispielsweise die Arten (Sorte) und die Variabilität der Artenhäufigkeit. Um das Konzept der Artenvielfalt zu quantifizieren, befragt man eine Gemeinschaft (normalerweise durch Probenahme), zählt die Häufigkeiten jeder Art in der Gemeinschaft und erhält Pich = (die relative Häufigkeit der Arten ich) = (die Anzahl der Individuen der Arten ich)/(die Gesamtzahl der Individuen aller Arten in der Gemeinschaft) und zählt auch die Anzahl der Arten in der Gemeinschaft (S). Der Datensatz einer solchen Erhebung (Stichprobe) ist ein Vektor der Artenhäufigkeit in Form von (P1, P2, …, Pich, …PS). Für einen solchen Vektor relativer Häufigkeiten (Häufigkeiten) besteht ein Ansatz zur Charakterisierung darin, eine statistische Verteilung anzupassen, die in der Gemeinschaftsökologie als Artenhäufigkeitsverteilung (SAD) bekannt ist. Zu den am häufigsten verwendeten SADs gehören Log-Reihen-, Log-Normal- und Potenzgesetz-Verteilungen. Eine gemeinsame Eigenschaft von SADs besteht darin, dass sie stark verzerrte Long-Tail-Verteilungen sind, aber selten der Normalverteilung oder Gleichverteilung folgen.Stattdessen ist die SAD stark aggregiert (schief oder nicht zufällig), genau wie die nicht zufällige SNP-Verteilung, die zuvor in der Einführung erwähnt wurde. Obwohl die SAD die Häufigkeit der Artenhäufigkeit vollständig beschreibt und daher die vollständigen Merkmale der Artenvielfalt angemessen erfasst, bietet die Verwendung einer SAD zur Messung der Vielfalt keine intuitiven Maßnahmen zur Synthese der beiden Elemente der Vielfalt (d.h., Vielfalt und Variabilität). Ein alternativer Ansatz zur Anpassung von SAD besteht darin, verschiedene Diversitätsmetriken (auch bekannt als Kennzahlen oder Indizes) zu verwenden. Es wurden zahlreiche Diversitätsmetriken zur Messung der Artenvielfalt vorgeschlagen, wobei die Shannon-Entropie am bekanntesten ist.

Diversity-Metriken gehören zu den sogenannten Aggregat Funktionen, die mehrere Werte zu einem einzigen Wert zusammenfassen (Beliakov et al., Jakobus) 6,7 . Das arithmetische Mittel (Durchschnitt) ist die am häufigsten verwendete Aggregationsfunktion, aber aufgrund der stark nicht zufälligen Verteilung der Artenhäufigkeit eine eher schlechte Metrik zur Messung der Diversität. Stattdessen eignet sich die entropiebasierte Aggregationsfunktion zum Messen der Diversität. Die erste und auch immer noch am weitesten verbreitete entropiebasierte Diversitätsmetrik ist die Shannon-Entropie, die Claude Shannon zugeschrieben wurde, dem Mitbegründer der Informationstheorie (Shannon, Shannon & Weaver) 8,26 , aber Shannon hatte nie studiert Biodiversität selbst. Was geschah, war, dass Ökologen die Idee von Shannons Informationstheorie übernommen haben, in der Shannons Entropie den Informationsgehalt oder die Unsicherheit in Kommunikationssystemen misst. Natürlich ist die Shannon-Entropie in der Tat allgemein genug, um die Biodiversität zu messen, da Diversität im Wesentlichen Heterogenität ist und sowohl Heterogenität als auch Unsicherheit durch die Veränderung von Informationen gemessen werden können. d.h., Informationen verringern die Unsicherheit.

Am Beispiel der Shannon-Entropie wird die Artenvielfalt (h), genauer die Artengleichheit, kann mit der folgenden Formel berechnet werden:

wo S ist die Anzahl der Arten in der Gemeinschaft, und Pich ist die relative Häufigkeit jeder Art in der Gemeinschaft. In Bezug auf die Sortenvariabilität Begriff zur Definition von Vielfalt, der Vielfalt ist die Art und Variabilität ist der Artenreichtum offensichtlich. Tatsächlich kann der Begriff der Vielfalt und Variabilität verwendet werden, um Vielfalt für alle Systeme (nicht einmal beschränkt auf biologische Systeme) zu definieren, die als die beiden Elemente Vielfalt und Variabilität, einschließlich der SNP-Diversität, abstrahiert werden können, wie unten dargelegt.

Definitionen für SNP-Diversitäten

Mit einer Analogie, ein Chromosom mit vielen Ort ähnelt einer ökologischen Gemeinschaft vieler Arten, und jede Ort kann eine unterschiedliche Anzahl von SNPs haben. Beim Vielfalt-Variabilitäts-Begriff zur Definition von Vielfalt ist der Ort der Vielfalt (ähnlich den Arten in einer Gemeinschaft) und die Anzahl der SNPs an jedem Ort ist die Variabilität (ähnlich dem Artenreichtum in einer Gemeinschaft). Angenommen S ist die Zahl der Ort mit jedem SNP, und Pich ist der relativ Fülle von SNPs am Ort ich (d.h., die Anzahl oder Häufigkeit von SNPs an Locus ich dividiert durch die Gesamtzahl der SNPs aller Loci), dann kann die SNP-Diversität mit der Shannon-Entropie gemessen werden (Gl. 1). Streng genommen kann SNP auch als bezeichnet werden Ort Vielfalt, da Ort ist im Wesentlichen der „Lebensraum“, in dem sich SNPs aufhalten. Abbildung 1 veranschaulicht konzeptionell die Verteilung von SNPs auf einem Chromosom, insbesondere wie Pich definiert und berechnet.

Ein konzeptionelles Diagramm, das die Verteilung von SNPs auf einem Chromosom in Bezug auf das Referenzchromosom zeigt: Das Chromosom ähnelt einer ökologischen Gemeinschaft, und die Anzahl der SNPs auf einem Genort ist ähnlich der Artenhäufigkeit in einer ökologischen Gemeinschaft. Zum Beispiel gibt es drei SNPs auf dem Gen-1-Genort, vorausgesetzt, die Gesamtzahl der SNPs auf dem Chromosom ist n (oder 10 angezeigt, wobei die ersten 3 Gene angezeigt werden), dann ist die relative SNP-Häufigkeit für Gen-1 gleich 3/n (oder 3/10 = 0,3 mit den 3 angezeigten Genen). Ähnlich, P2, P3, … berechnet werden. Wenn die relativen Häufigkeiten von SNPs verfügbar sind, kann die Diversität (Hill-Zahlen) basierend auf den Diversity-Definitionen berechnet werden [Gl. (2–15)]. Die R-Codes, die Alpha-Diversity-, Beta-Diversity- (einschließlich Ähnlichkeits-)Profile berechnen, werden im OSI bereitgestellt.

Obwohl die Shannon-Entropie weit verbreitet ist, um die Artenvielfalt zu messen, sind sich Ökologen in jüngster Zeit einig, dass Hill-Zahlen, die auf Renyis allgemeiner Entropie basieren, die am besten geeigneten Metriken zur Messung der Alpha-Diversität und zur multiplikativen Partitionierung der Beta-Diversität bieten (Chao et al. 2012, 2014, Ellison 2010, Kaplinsky & Arnaout) 9,10,12,19 . Angesichts der Vorteile von Hill-Zahlen gegenüber anderen bestehenden Diversity-Indizes glauben wir, dass die Hill-Zahlen auch eine bevorzugte Wahl für die Definition der SNP-Diversität sein sollten.

SNP-Alpha-Diversität

Hill-Zahlen wurden von Hill (1973) auf der Grundlage von Renyis (1961) allgemeiner Entropie 15,16 abgeleitet. Hier schlagen wir vor, es zur Definition der SNP-Alpha-Diversität anzuwenden, d.h.,

wo g ist die Anzahl der Genorte mit jedem SNP, Pich ist die relative Häufigkeit (d.h., das Häufigkeit des Auftretens) von SNPs am Ort ich, Q = 0, 1, 2, … ist der Auftrag Anzahl der SNP-Diversität, Q D ist die SNP-Alpha-Diversität in der Diversitätsordnung Q, d.h., die Hill-Zahlen der Q-te Bestellung.

Die Hill-Nummer ist undefiniert für Q = 1, aber seine Grenze als Q Ansätze zu 1 liegt in folgender Form vor:

Die Vielfaltsordnung (Q) bestimmt die Empfindlichkeit der Hill-Zahl gegenüber der relativen Häufigkeit (d.h., die Häufigkeit des Auftretens) von SNP. Wann Q = 0, die SNP-Frequenz zählt überhaupt nicht und 0 D = G, d.h.., das SNP-Reichtum, ähnlich wie Artenreichtum im Artenvielfaltskonzept. Wann Q = 1, 1 D entspricht dem exponentiell der Shannon-Entropie und wird als die Anzahl der SNPs mit typischen oder gemeinsamen Frequenzen interpretiert. Daher ist der Shannon-Index im Wesentlichen ein Spezialfall von Hill-Zahlen in Diversity-Ordnung Q = 1. Wann Q = 2, 2 D gleich dem Kehrwert des Simpson-Index, d.h.,

die als Anzahl der dominanten oder sehr häufig aufgetretenen SNPs interpretiert wird. Daher sind die zwei am häufigsten verwendeten Diversitätsindizes, der Shannon-Index und der Simpson-Index, die Sonderfälle und genauer gesagt die Funktionen der Hill-Zahlen.

Im Allgemeinen müssen wir eine Entität (Einheit oder Geltungsbereich) angeben, um die SNP-Diversität zu definieren und zu messen. Zu Demonstrationszwecken wählen wir in diesem Artikel das einzelne Chromosom als Einheit zur Definition der SNP-Diversität, ähnlich wie die Verwendung von Gemeinschaften zur Definition der Artenvielfalt. Die allgemeine Auslegung der Ordnungsvielfalt Q ist, dass das Chromosom enthält Q D = x Loci mit gleicher SNP-Frequenz. Beachten Sie, dass die Entität zum Definieren der SNP-Diversität andere geeignete Einheiten sein können, wie z ganzes Genom eines Organismus oder Chromosomensegments.

Die oben definierte SNP-Diversität misst die Diversität von SNP auf einer individuellen genetischen Einheit (z SNP-Alpha-Diversität. Im Folgenden definieren wir die Gegenstücke der Arten-Beta-Diversität und der Gamma-Diversität in der Gemeinschaftsökologie für SNPs, d.h., SNP-Beta-Diversität und SNP-Gamma-Diversität.

SNP-Gamma-Diversität

Während die zuvor definierte SNP-Alpha-Diversität darauf abzielt, die SNP-Diversität innerhalb einer genetischen Einheit (wie einem Chromosom oder Genom) zu messen, ist die folgende SNP-Gamma-Diversität definiert, um die gesamt SNP-Diversität von gepoolten, multiplen (n) Chromosomen aus einer Population (Kohorte) von n verschiedene Individuen, eines von jedem Individuum, aber mit der gleichen Chromosomennummerierung.

Vorausgesetzt es gibt n Individuen in einer Population (Kohorte) definieren wir die SNP-Gamma-Diversität mit folgender Formel, ähnlich der Art Gamma-Diversität in der Ökologie (z.B., Chaos et al. Chiu et al.) 9,10,27 ,

wobei (overline<

_>) ist die SNP-Frequenz auf dem ich-ter Ort (ich = 1, 2, …,G) in der gepoolten Bevölkerung von n Einzelpersonen (genannt n-Population).

Vergleich von Gl. (5) für Gamma-Diversity mit Gl. (2) für die Alpha-Diversität zeigt, dass die Gamma-Diversität die Hill-Zahlen basierend auf dem SNP . ist Frequenz bei ich-te Lokus in der n-Population. Ähnlich wie Chao et al. 9,10 Chiu et al. 27 , Ableitung für Arten-Gamma-Diversität in ökologischen Gemeinschaften, unter der Annahme jaij ist die SNP-Frequenz bei ich-ter Ort von J-th Individuum, jaich+ ist der Gesamtwert von SNP bei ich-ter Locus, der in der enthalten ist n Einzelpersonen, ja+J ist der Gesamt-SNP von J-tes Individuum, ja++ ist der gesamte SNP, der in . enthalten ist n Einzelpersonen, Pij ist die SNP-Frequenz bei ich-ter Ort von J-tes Individuum, wJ ist das Gewicht der J- die Person,

lässt sich leicht ableiten,

Stecker Gl. (6) für (overline<

_>) in die Definition von SNP-Gamma-Diversität [Gl. (5)] erhalten wir die folgenden Formeln zur Berechnung SNP-Gamma-Diversität von n-Bevölkerung wie folgt:

SNP-Beta-Vielfalt

In der Gemeinschaftsökologie gibt es zwei Schemata zur Definition von Beta-Diversität: Eine ist die additive Aufteilung und eine andere ist die multiplikative Aufteilung der Gamma-Diversität in vermeintlich unabhängige Alpha-Diversität und Beta-Diversität. Neuer Konsens (z.B., Jost Ellison Chao et al., Gotelli &. Chao, Gotelli &. Ellison) 9,10,11,12,28,29 empfahlen die Verwendung der multiplikativen Partition. Lass ( (<>^D_) ) und ( (<>^D_) ) sind Alpha- und Gamma-Diversität gemessen mit den Hill-Zahlen bzw. Beta-Diversität ist definiert als:

Wir verwenden die exakt gleiche multiplikative Aufteilung der Hill-Zahlen in der Artenvielfalt zur Messung der SNP-Beta-Diversität, außer dass sowohl die Alpha- als auch die Gamma-Diversität mit der SNP-Frequenz (relative Häufigkeit) und nicht mit der Artenhäufigkeit berechnet werden.

Diese SNP-Beta-Diversität ( (<>^D_<eta >) ), abgeleitet aus der obigen multiplikativen Partition, nimmt den Wert 1 an, wenn alle Gemeinschaften identisch sind, und der Wert von n (die Anzahl der Individuen in der Population), wenn alle Individuen völlig unterschiedlich sind (d.h., keine gemeinsamen SNPs).

Obwohl Gl. (2) die SNP-Alpha-Diversität korrekt definiert, erfordert einige Anpassungen für die Aufteilung der Gamma-Diversität, um Beta-Diversität mit Gl. (9). Ähnlich der Ableitung für die Arten-Alpha-Diversität, wie sie in Chiu . gezeigt wurde et al. 27 können wir die folgenden Formeln für die SNP-Alpha-Diversität in ableiten n-Bevölkerungseinstellung, d.h.,

Die Berechnung der SNP-Beta-Diversität kann dann mit Gl. (7-11), d.h., Gl. (7 und 8) für Gamma-Diversität, (9) für Beta-Diversität und (10–11) für Alpha-Diversität.

Wir definieren eine Reihe der Hill-Zahlen für SNP-Diversity bei unterschiedlicher Diversity-Reihenfolge Q = 0, 1, 2, … as SNP-Diversitätsprofil, d. h. eine Reihe von Hill-Zahlen, die unterschiedlichen Nichtlinearitätsniveaus entsprechen, die mit der SNP-Häufigkeitsverteilung unterschiedlich gewichtet sind.


AUSWIRKUNGEN AUF DAS MANAGEMENT

Unsere Studie zeigt, dass wiederholte genetische Probennahmen über biologisch relevante Zeitskalen (z. B. 10 Generationsintervalle oder

5 Jahre für den Bilby) ermöglicht es den Interessenträgern zu beurteilen, ob etablierte Managementpraktiken ausreichen, um die genetische Vielfalt auf einem Niveau zu halten, das mit den Vorfahrenpopulationen vergleichbar ist. Wenn ein übermäßiger Verlust an Heterozygotie ein Problem darstellt (dh die genetische Vielfalt ist auf ein deutlich niedrigeres Niveau als das der Gründungsgruppe(n) gesunken), die Translokation von Individuen aus genetisch divergenten Populationen mit einer Rate von 1–10 Migranten pro 1– 2 Generationen sollten ausreichen, um die schlimmsten Auswirkungen der Inzucht abzumildern und gleichzeitig sicherzustellen, dass der Genfluss die genetische Unterscheidung zwischen den einzelnen Managementeinheiten nicht vollständig stört. Wo möglich, sollten Translokationsprogramme Individuen aus genetisch unterschiedlichen Populationen einführen, die vergleichbare Umgebungen und Klimazonen bewohnen.

Wenn die Zahl der Gründer hoch ist, kann es von Vorteil sein, in Gefangenschaft gehaltene oder geschützte Metapopulationen in mehrere separate Managementeinheiten oder Subpopulationen aufzuteilen. Dies kann zwar zu einem kurzfristigen Verlust der Heterozygotie auf Ebene der einzelnen Managementeinheiten führen, aber die Kreuzung von Vertretern verschiedener Subpopulationen während oder innerhalb einer Translokationsgeneration sollte ausreichen, um die genetische Vielfalt auf das Niveau vor der Fragmentierung wiederherzustellen, das Anpassungspotential der Art als Ganzes zu erhalten. Die Beibehaltung der Metapopulation als Reihe von getrennten Managementeinheiten wird auch sicherstellen, dass vorhandene genetische Reserven für zukünftige Translokationen verwendet werden können, wodurch die Wahrscheinlichkeit von Engpassereignissen aufgrund der wiederholten Verbringung von Individuen aus denselben Quellpopulationen minimiert wird.


Schau das Video: Naturfag DNA (August 2022).