Information

12.3: Genomik und Proteomik - Biologie

12.3: Genomik und Proteomik - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Die Erforschung von Nukleinsäuren begann mit der Entdeckung der DNA, ging über zur Erforschung von Genen und kleinen Fragmenten und hat sich nun auf dem Gebiet der Genomik explodiert. Genomik ist die Untersuchung ganzer Genome, einschließlich des vollständigen Satzes von Genen, ihrer Nukleotidsequenz und -organisation und ihrer Wechselwirkungen innerhalb einer Art und mit anderen Arten. Die Fortschritte in der Genomik wurden durch die DNA-Sequenzierungstechnologie ermöglicht. So wie die Informationstechnologie zu Google Maps geführt hat, das es uns ermöglicht, detaillierte Informationen über Standorte auf der ganzen Welt zu erhalten, werden genomische Informationen verwendet, um ähnliche Karten der DNA verschiedener Organismen zu erstellen.

Genome kartieren

Genomkartierung ist der Prozess, die Position von Genen auf jedem Chromosom zu finden. Die erstellten Karten sind vergleichbar mit den Karten, die wir für die Straßennavigation verwenden. Eine genetische Karte ist eine Illustration, die Gene und ihre Position auf einem Chromosom auflistet. Genetische Karten liefern das Gesamtbild (ähnlich einer Karte von Autobahnen) und verwenden genetische Marker (ähnlich wie Landmarken). Ein genetischer Marker ist ein Gen oder eine Sequenz auf einem Chromosom, das eine genetische Verknüpfung mit einem interessierenden Merkmal zeigt. Der genetische Marker neigt dazu, mit dem interessierenden Gen vererbt zu werden, und ein Maß für den Abstand zwischen ihnen ist die Rekombinationsfrequenz während der Meiose. Frühe Genetiker nannten diese Verknüpfungsanalyse.

Physikalische Karten gehen in die intimen Details kleinerer Regionen der Chromosomen (ähnlich einer detaillierten Straßenkarte) (Abbildung 10.3.1). Eine physikalische Karte ist eine Darstellung des physikalischen Abstands in Nukleotiden zwischen Genen oder genetischen Markern. Sowohl genetische Verknüpfungskarten als auch physikalische Karten sind erforderlich, um ein vollständiges Bild des Genoms zu erstellen. Eine vollständige Karte des Genoms erleichtert es Forschern, einzelne Gene zu untersuchen. Humangenomkarten helfen Forschern bei ihren Bemühungen, menschliche krankheitsverursachende Gene im Zusammenhang mit Krankheiten wie Krebs, Herzerkrankungen und Mukoviszidose zu identifizieren, um nur einige zu nennen. Darüber hinaus kann die Genomkartierung verwendet werden, um Organismen mit nützlichen Eigenschaften zu identifizieren, wie etwa Mikroben mit der Fähigkeit, Schadstoffe zu reinigen oder sogar Umweltverschmutzung zu verhindern. Die Forschung zur Kartierung des Pflanzengenoms kann zu Methoden führen, die höhere Ernteerträge erzielen oder zur Entwicklung von Pflanzen führen, die sich besser an den Klimawandel anpassen.

Genetische Karten liefern den Umriss und physische Karten liefern die Details. Es ist leicht zu verstehen, warum beide Arten von Genom-Mapping-Techniken wichtig sind, um das Gesamtbild zu zeigen. Die von jeder Technik erhaltenen Informationen werden in Kombination verwendet, um das Genom zu studieren. Genomic Mapping wird mit verschiedenen Modellorganismen verwendet, die für die Forschung verwendet werden. Die Genomkartierung ist immer noch ein fortlaufender Prozess, und mit der Entwicklung fortschrittlicherer Techniken werden weitere Fortschritte erwartet. Die Genomkartierung ähnelt dem Lösen eines komplizierten Puzzles unter Verwendung aller verfügbaren Daten. Die in Labors auf der ganzen Welt generierten Kartierungsinformationen werden in zentrale Datenbanken wie das National Center for Biotechnology Information (NCBI) eingegeben. Es werden Anstrengungen unternommen, um die Informationen für Forscher und die breite Öffentlichkeit leichter zugänglich zu machen. So wie wir globale Positionsbestimmungssysteme anstelle von Papierkarten verwenden, um durch Straßen zu navigieren, ermöglicht uns NCBI die Verwendung eines Genom-Viewer-Tools, um den Data-Mining-Prozess zu vereinfachen.

KONZEPT IN AKTION

Online Mendelian Inheritance in Man (OMIM) ist ein durchsuchbarer Online-Katalog menschlicher Gene und genetischer Störungen. Diese Website zeigt die Genomkartierung und beschreibt auch die Geschichte und Forschung jedes Merkmals und jeder Störung. Klicken Sie auf den Link, um nach Merkmalen (wie Händigkeit) und genetischen Störungen (wie Diabetes) zu suchen.

Sequenzierung des gesamten Genoms

Obwohl es in den letzten Jahren erhebliche Fortschritte in den medizinischen Wissenschaften gegeben hat, sind Ärzte immer noch von vielen Krankheiten verwirrt und Forscher verwenden die Sequenzierung des gesamten Genoms, um dem Problem auf den Grund zu gehen. Die Sequenzierung des gesamten Genoms ist ein Verfahren, das die DNA-Sequenz eines gesamten Genoms bestimmt. Die Sequenzierung des gesamten Genoms ist ein Brute-Force-Ansatz zur Problemlösung, wenn eine genetische Grundlage im Kern einer Krankheit besteht. Mehrere Laboratorien bieten inzwischen Dienstleistungen zur Sequenzierung, Analyse und Interpretation ganzer Genome an.

Im Jahr 2010 wurde die gesamte Genomsequenzierung verwendet, um einen kleinen Jungen zu retten, dessen Darm mehrere mysteriöse Abszesse aufwies. Das Kind hatte mehrere Dickdarmoperationen ohne Linderung. Schließlich zeigte eine vollständige Genomsequenz einen Defekt in einem Signalweg, der die Apoptose (programmierter Zelltod) kontrolliert. Eine Knochenmarktransplantation wurde verwendet, um diese genetische Störung zu überwinden, was zu einer Heilung für den Jungen führte. Er war der erste Mensch, der mit der vollständigen Genomsequenzierung erfolgreich diagnostiziert wurde.

Die ersten zu sequenzierenden Genome, etwa von Viren, Bakterien und Hefen, waren hinsichtlich der Zahl der Nukleotide kleiner als die Genome vielzelliger Organismen. Die Genome anderer Modellorganismen wie der Maus (Muskulatur), die Fruchtfliege (Drosophila melanogaster) und der Nematode (Caenorhabditis elegans) sind mittlerweile bekannt. In Modellorganismen wird sehr viel Grundlagenforschung betrieben, weil die Informationen auf andere Organismen übertragen werden können. Ein Modellorganismus ist eine Art, die als Modell untersucht wird, um die biologischen Prozesse in anderen Arten zu verstehen, die durch den Modellorganismus dargestellt werden können. Zum Beispiel sind Fruchtfliegen in der Lage, Alkohol wie Menschen zu verstoffwechseln. Daher wurden die Gene, die die Alkoholempfindlichkeit beeinflussen, bei Fruchtfliegen untersucht, um die Variation der Alkoholempfindlichkeit beim Menschen zu verstehen. Die Sequenzierung ganzer Genome hilft bei den Forschungsanstrengungen in diesen Modellorganismen (Abbildung 10.3.2).

Die erste menschliche Genomsequenz wurde 2003 veröffentlicht. Die Zahl der sequenzierten ganzen Genome nimmt stetig zu und umfasst heute Hunderte von Arten und Tausende einzelner menschlicher Genome.

Anwendung von Genomik

Die Einführung von DNA-Sequenzierungs- und Gesamtgenomsequenzierungsprojekten, insbesondere des Humangenomprojekts, hat die Anwendbarkeit von DNA-Sequenzinformationen erweitert. Die Genomik wird heute in einer Vielzahl von Bereichen eingesetzt, beispielsweise in der Metagenomik, Pharmakogenomik und mitochondrialen Genomik. Die bekannteste Anwendung der Genomik besteht darin, Krankheiten zu verstehen und Heilmittel zu finden.

Vorhersage des Krankheitsrisikos auf individueller Ebene

Die Vorhersage des Krankheitsrisikos umfasst das Screening und die Identifizierung aktuell gesunder Personen durch Genomanalyse auf individueller Ebene. Eine Intervention mit Lebensstiländerungen und Medikamenten kann vor Ausbruch der Krankheit empfohlen werden. Dieser Ansatz ist jedoch am besten geeignet, wenn das Problem von einer einzelnen Genmutation herrührt. Solche Defekte machen nur etwa 5 Prozent der in entwickelten Ländern vorkommenden Krankheiten aus. Die meisten Volkskrankheiten, wie Herzerkrankungen, sind multifaktoriell oder polygen, was sich auf ein phänotypisches Merkmal bezieht, das durch zwei oder mehr Gene bestimmt wird, sowie Umweltfaktoren wie die Ernährung. Im April 2010 veröffentlichten Wissenschaftler der Stanford University die Genomanalyse eines gesunden Individuums (Stephen Quake, ein Wissenschaftler der Stanford University, der sein Genom sequenzieren ließ); die Analyse sagte seine Neigung zu verschiedenen Krankheiten voraus. Es wurde eine Risikobewertung durchgeführt, um den Risikoprozentsatz von Quake für 55 verschiedene Erkrankungen zu analysieren. Es wurde eine seltene genetische Mutation gefunden, die zeigte, dass er einem plötzlichen Herzinfarkt ausgesetzt war. Es wurde auch vorhergesagt, dass er ein 23-Prozent-Risiko für Prostatakrebs und ein 1,4-Prozent-Risiko für die Entwicklung von Alzheimer hat. Die Wissenschaftler nutzten Datenbanken und mehrere Publikationen, um die Genomdaten zu analysieren. Obwohl die Genomsequenzierung erschwinglicher und die Analysewerkzeuge zuverlässiger werden, müssen ethische Fragen im Zusammenhang mit der Genomanalyse auf Populationsebene noch angegangen werden. Könnten solche Daten beispielsweise rechtmäßig verwendet werden, um mehr oder weniger für Versicherungen in Rechnung zu stellen oder die Kreditwürdigkeit zu beeinflussen?

Genomweite Assoziationsstudien

Seit 2005 ist es möglich, eine Art von Studie durchzuführen, die als genomweite Assoziationsstudie (GWAS) bezeichnet wird. Ein GWAS ist eine Methode, die Unterschiede zwischen Individuen in Einzelnukleotidpolymorphismen (SNPs) identifiziert, die an der Entstehung von Krankheiten beteiligt sein können. Das Verfahren eignet sich besonders für Krankheiten, die von einer oder mehreren genetischen Veränderungen im gesamten Genom betroffen sein können. Es ist sehr schwierig, die Gene, die an einer solchen Krankheit beteiligt sind, anhand von Informationen zur Familienanamnese zu identifizieren. Die GWAS-Methode basiert auf einer genetischen Datenbank, die seit 2002 entwickelt wird, dem International HapMap Project. Das HapMap-Projekt sequenzierte die Genome von mehreren hundert Individuen aus der ganzen Welt und identifizierte Gruppen von SNPs. Die Gruppen umfassen SNPs, die sich auf Chromosomen nahe beieinander befinden, so dass sie dazu neigen, durch Rekombination zusammen zu bleiben. Die Tatsache, dass die Gruppe zusammenbleibt, bedeutet, dass nur ein Marker-SNP identifiziert werden muss, um alle SNPs in der Gruppe zu identifizieren. Es gibt mehrere Millionen identifizierte SNPs, aber ihre Identifizierung bei anderen Individuen, deren Genom nicht vollständig sequenziert wurde, ist viel einfacher, da nur die Marker-SNPs identifiziert werden müssen.

In einem gemeinsamen Design für ein GWAS werden zwei Personengruppen gewählt; eine Gruppe hat die Krankheit und die andere Gruppe nicht. Die Individuen in jeder Gruppe werden in anderen Merkmalen abgeglichen, um den Effekt von Störvariablen zu reduzieren, die Unterschiede zwischen den beiden Gruppen verursachen. Beispielsweise können sich die Genotypen unterscheiden, da die beiden Gruppen meist aus verschiedenen Teilen der Welt stammen. Sobald die Individuen ausgewählt sind und ihre Zahl normalerweise tausend oder mehr beträgt, damit die Studie funktioniert, werden Proben ihrer DNA erhalten. Die DNA wird mit automatisierten Systemen analysiert, um große Unterschiede im Prozentsatz bestimmter SNPs zwischen den beiden Gruppen zu identifizieren. Häufig untersucht die Studie eine Million oder mehr SNPs in der DNA. Die Ergebnisse von GWAS können auf zwei Arten verwendet werden: Die genetischen Unterschiede können als Marker für die Anfälligkeit für die Krankheit bei nicht diagnostizierten Personen verwendet werden, und die bestimmten identifizierten Gene können Ziele für die Erforschung des molekularen Weges der Krankheit und potenzieller Therapien sein. Ein Ableger der Entdeckung von Genassoziationen mit Krankheiten war die Gründung von Unternehmen, die sogenannte „persönliche Genomik“ anbieten, die Risikostufen für verschiedene Krankheiten basierend auf dem SNP-Komplement einer Person identifizieren. Die Wissenschaft hinter diesen Diensten ist umstritten.

Da GWAS nach Assoziationen zwischen Genen und Krankheiten sucht, liefern diese Studien Daten für andere Ursachenforschung, anstatt spezifische Fragen selbst zu beantworten. Ein Zusammenhang zwischen einem Genunterschied und einer Krankheit bedeutet nicht unbedingt, dass eine Ursache-Wirkungs-Beziehung besteht. Einige Studien haben jedoch nützliche Informationen über die genetischen Ursachen von Krankheiten geliefert. Zum Beispiel identifizierten drei verschiedene Studien im Jahr 2005 ein Gen für ein Protein, das an der Regulierung von Entzündungen im Körper beteiligt ist und mit einer krankheitsverursachenden Blindheit namens altersbedingter Makuladegeneration in Verbindung gebracht wird. Dies eröffnete neue Möglichkeiten für die Erforschung der Ursache dieser Krankheit. Eine große Anzahl von Genen wurde mithilfe von GWAS identifiziert, die mit Morbus Crohn in Verbindung gebracht werden, und einige davon haben neue hypothetische Mechanismen für die Ursache der Krankheit vorgeschlagen.

Pharmakogenomik

Pharmakogenomik beinhaltet die Bewertung der Wirksamkeit und Sicherheit von Arzneimitteln auf der Grundlage von Informationen aus der Genomsequenz eines Individuums. Informationen zur persönlichen Genomsequenz können verwendet werden, um Medikamente zu verschreiben, die je nach Genotyp des einzelnen Patienten am wirksamsten und am wenigsten toxisch sind. Die Untersuchung von Veränderungen der Genexpression könnte Informationen über das Gentranskriptionsprofil in Gegenwart des Wirkstoffs liefern, die als Frühindikator für das Potenzial toxischer Wirkungen verwendet werden können. Zum Beispiel könnten Gene, die an Zellwachstum und kontrolliertem Zelltod beteiligt sind, bei einer Störung zum Wachstum von Krebszellen führen. Genomweite Studien können auch helfen, neue Gene zu finden, die an der Arzneimitteltoxizität beteiligt sind. Die Gensignaturen sind möglicherweise nicht ganz genau, können aber weiter getestet werden, bevor pathologische Symptome auftreten.

Metagenomik

Traditionell wurde die Mikrobiologie mit der Ansicht gelehrt, dass Mikroorganismen am besten unter Reinkulturbedingungen untersucht werden, bei denen ein einzelner Zelltyp isoliert und im Labor kultiviert wird. Da Mikroorganismen innerhalb von Stunden mehrere Generationen durchlaufen können, passen sich ihre Genexpressionsprofile sehr schnell an die neue Laborumgebung an. Auf der anderen Seite widersetzen sich viele Arten einer isolierten Kultivierung. Die meisten Mikroorganismen leben nicht als isolierte Einheiten, sondern in mikrobiellen Gemeinschaften, die als Biofilme bekannt sind. Aus all diesen Gründen ist die Reinkultur nicht immer der beste Weg, um Mikroorganismen zu untersuchen. Metagenomik ist die Untersuchung der kollektiven Genome mehrerer Arten, die in einer Umweltnische wachsen und interagieren. Metagenomik kann verwendet werden, um neue Arten schneller zu identifizieren und die Auswirkungen von Schadstoffen auf die Umwelt zu analysieren (Abbildung 10.3.3). Metagenomik-Techniken können nun auch auf Gemeinschaften höherer Eukaryoten, wie z. B. Fische, angewendet werden.

Schaffung neuer Biokraftstoffe

Das Wissen über die Genomik von Mikroorganismen wird genutzt, um bessere Wege zu finden, Biokraftstoffe aus Algen und Cyanobakterien zu nutzen. Die Hauptbrennstoffquellen sind heute Kohle, Öl, Holz und andere Pflanzenprodukte wie Ethanol. Obwohl Pflanzen erneuerbare Ressourcen sind, müssen noch mehr alternative erneuerbare Energiequellen gefunden werden, um den Energiebedarf unserer Bevölkerung zu decken. Die mikrobielle Welt ist eine der größten Ressourcen für Gene, die neue Enzyme codieren und neue organische Verbindungen produzieren, und sie bleibt weitgehend ungenutzt. Diese riesige genetische Ressource birgt das Potenzial, neue Quellen für Biokraftstoffe zu erschließen (Abbildung 10.3.4).

Mitochondriale Genomik

Mitochondrien sind intrazelluläre Organellen, die ihre eigene DNA enthalten. Mitochondriale DNA mutiert mit hoher Geschwindigkeit und wird oft verwendet, um evolutionäre Beziehungen zu studieren. Ein weiteres Merkmal, das die Untersuchung des mitochondrialen Genoms interessant macht, ist, dass bei den meisten vielzelligen Organismen die mitochondriale DNA während des Befruchtungsprozesses von der Mutter weitergegeben wird. Aus diesem Grund wird die mitochondriale Genomik häufig verwendet, um die Genealogie zu verfolgen.

Genomik in der forensischen Analyse

Informationen und Hinweise aus DNA-Proben, die an Tatorten gefunden wurden, wurden als Beweismittel in Gerichtsverfahren verwendet, und genetische Marker wurden in forensischen Analysen verwendet. Auch auf diesem Gebiet hat sich die Genomanalyse als nützlich erwiesen. 2001 wurde der erste Einsatz von Genomik in der Forensik veröffentlicht. Es war eine gemeinsame Anstrengung zwischen akademischen Forschungseinrichtungen und dem FBI, um die mysteriösen Fälle von Milzbrand (Abbildung 10.3.5) zu lösen, die vom US-Postdienst transportiert wurden. Anthrax-Bakterien wurden zu einem infektiösen Pulver verarbeitet und an die Nachrichtenmedien und zwei US-Senatoren geschickt. Das Pulver infizierte das Verwaltungspersonal und die Postangestellten, die die Briefe öffneten oder bearbeiteten. Fünf Menschen starben, 17 erkrankten an den Bakterien. Mithilfe mikrobieller Genomik stellten die Forscher fest, dass in allen Mailings ein bestimmter Milzbrand-Stamm verwendet wurde; schließlich wurde die Quelle zu einem Wissenschaftler in einem nationalen Bioverteidigungslabor in Maryland zurückverfolgt.

Genomik in der Landwirtschaft

Genomik kann Versuche und Misserfolge in der wissenschaftlichen Forschung bis zu einem gewissen Grad reduzieren, was die Qualität und Quantität der Ernteerträge in der Landwirtschaft verbessern könnte (Abbildung 10.3.6). Die Verknüpfung von Merkmalen mit Genen oder Gensignaturen hilft, die Pflanzenzüchtung zu verbessern, um Hybriden mit den begehrtesten Eigenschaften zu erzeugen. Wissenschaftler verwenden genomische Daten, um wünschenswerte Merkmale zu identifizieren und diese Merkmale dann auf einen anderen Organismus zu übertragen, um einen neuen genetisch veränderten Organismus zu schaffen, wie im vorherigen Modul beschrieben. Wissenschaftler entdecken, wie Genomik die Qualität und Quantität der landwirtschaftlichen Produktion verbessern kann. Wissenschaftler könnten zum Beispiel wünschenswerte Eigenschaften verwenden, um ein nützliches Produkt zu schaffen oder ein bestehendes Produkt zu verbessern, beispielsweise um eine trockenheitsempfindliche Pflanze toleranter gegenüber der Trockenzeit zu machen.

Proteomik

Proteine ​​sind die Endprodukte von Genen, die die vom Gen kodierte Funktion ausführen. Proteine ​​bestehen aus Aminosäuren und spielen eine wichtige Rolle in der Zelle. Alle Enzyme (außer Ribozyme) sind Proteine ​​und wirken als Katalysatoren, die die Reaktionsgeschwindigkeit beeinflussen. Proteine ​​sind auch regulatorische Moleküle, und einige sind Hormone. Transportproteine ​​wie Hämoglobin helfen beim Transport von Sauerstoff zu verschiedenen Organen. Antikörper, die sich gegen Fremdpartikel abwehren, sind ebenfalls Proteine. Im erkrankten Zustand kann die Proteinfunktion durch Veränderungen auf genetischer Ebene oder durch direkten Einfluss auf ein bestimmtes Protein beeinträchtigt sein.

Ein Proteom ist der gesamte Satz von Proteinen, der von einem Zelltyp produziert wird. Proteome können mit dem Wissen über Genome untersucht werden, da Gene für mRNAs kodieren und die mRNAs Proteine ​​kodieren. Die Untersuchung der Funktion von Proteomen wird als Proteomik bezeichnet. Die Proteomik ergänzt die Genomik und ist nützlich, wenn Wissenschaftler ihre auf Genen basierenden Hypothesen überprüfen möchten. Obwohl alle Zellen in einem vielzelligen Organismus den gleichen Satz von Genen haben, ist der Satz von Proteinen, der in verschiedenen Geweben produziert wird, unterschiedlich und abhängig von der Genexpression. Somit ist das Genom konstant, aber das Proteom variiert und ist innerhalb eines Organismus dynamisch. Darüber hinaus können RNAs alternativ gespleißt (ausgeschnitten und eingefügt werden, um neue Kombinationen und neue Proteine ​​​​zu erzeugen) und viele Proteine ​​werden nach der Translation modifiziert. Obwohl das Genom eine Blaupause liefert, hängt die endgültige Architektur von mehreren Faktoren ab, die den Verlauf der Ereignisse verändern können, die das Proteom erzeugen.

Genome und Proteome von Patienten, die an bestimmten Krankheiten leiden, werden untersucht, um die genetischen Grundlagen der Krankheit zu verstehen. Die bekannteste Krankheit, die mit proteomischen Ansätzen untersucht wird, ist Krebs (Abbildung 10.3.7). Proteomische Ansätze werden verwendet, um das Screening und die Früherkennung von Krebs zu verbessern; Dies wird durch die Identifizierung von Proteinen erreicht, deren Expression durch den Krankheitsprozess beeinflusst wird. Ein einzelnes Protein wird als Biomarker bezeichnet, während eine Reihe von Proteinen mit veränderten Expressionsniveaus als Proteinsignatur bezeichnet wird. Damit ein Biomarker oder eine Proteinsignatur als Kandidat für die Früherkennung und Erkennung von Krebs nützlich sein kann, muss er in Körperflüssigkeiten wie Schweiß, Blut oder Urin sezerniert werden, damit groß angelegte Screenings auf nicht-invasive Weise durchgeführt werden können . Das aktuelle Problem beim Einsatz von Biomarkern zur Krebsfrüherkennung ist die hohe Rate falsch-negativer Ergebnisse. Ein falsch-negatives Ergebnis ist ein negatives Testergebnis, das positiv hätte sein sollen. Mit anderen Worten, viele Krebsfälle bleiben unentdeckt, was Biomarker unzuverlässig macht. Einige Beispiele für Proteinbiomarker, die bei der Krebserkennung verwendet werden, sind CA-125 für Eierstockkrebs und PSA für Prostatakrebs. Proteinsignaturen können beim Nachweis von Krebszellen zuverlässiger sein als Biomarker. Proteomics wird auch verwendet, um individualisierte Behandlungspläne zu entwickeln, die die Vorhersage beinhalten, ob eine Person auf bestimmte Medikamente anspricht oder nicht, und welche Nebenwirkungen die Person haben kann. Die Proteomik wird auch verwendet, um die Möglichkeit eines Wiederauftretens der Krankheit vorherzusagen.

Das National Cancer Institute hat Programme entwickelt, um die Erkennung und Behandlung von Krebs zu verbessern. Die Clinical Proteomic Technologies for Cancer und das Early Detection Research Network sind Bemühungen, Proteinsignaturen zu identifizieren, die für verschiedene Krebsarten spezifisch sind. Das biomedizinische Proteomics-Programm wurde entwickelt, um Proteinsignaturen zu identifizieren und wirksame Therapien für Krebspatienten zu entwickeln.

Zusammenfassung

Die Genomkartierung ähnelt dem Lösen eines großen, komplizierten Puzzles mit Informationen aus Labors auf der ganzen Welt. Genetische Karten geben einen Überblick über die Lage von Genen innerhalb eines Genoms und schätzen den Abstand zwischen Genen und genetischen Markern anhand der Rekombinationshäufigkeit während der Meiose ab. Physische Karten liefern detaillierte Informationen über die physische Distanz zwischen den Genen. Die detailliertesten Informationen sind über das Sequenzmapping verfügbar. Informationen aus allen Kartierungs- und Sequenzierungsquellen werden kombiniert, um ein gesamtes Genom zu untersuchen.

Die Sequenzierung des gesamten Genoms ist die neueste verfügbare Ressource zur Behandlung genetischer Krankheiten. Einige Ärzte verwenden die Sequenzierung des gesamten Genoms, um Leben zu retten. Genomik hat viele industrielle Anwendungen, einschließlich der Entwicklung von Biokraftstoffen, der Landwirtschaft, der Pharmazie und der Kontrolle der Umweltverschmutzung.

Die Vorstellungskraft ist das einzige Hindernis für die Anwendbarkeit der Genomik. Genomik wird in den meisten Bereichen der Biologie angewendet; Es kann für die personalisierte Medizin, die Vorhersage von Krankheitsrisiken auf individueller Ebene, die Untersuchung von Arzneimittelinteraktionen vor der Durchführung klinischer Studien und die Untersuchung von Mikroorganismen in der Umwelt im Gegensatz zum Labor verwendet werden. Es wird auch bei der Erzeugung neuer Biokraftstoffe, bei der genealogischen Bewertung anhand von Mitochondrien, bei Fortschritten in der Forensik und bei Verbesserungen in der Landwirtschaft angewendet.

Proteomik ist die Untersuchung des gesamten Satzes von Proteinen, die von einem bestimmten Zelltyp unter bestimmten Umweltbedingungen exprimiert werden. In einem vielzelligen Organismus haben unterschiedliche Zelltypen unterschiedliche Proteome, und diese variieren mit Veränderungen in der Umgebung. Im Gegensatz zu einem Genom ist ein Proteom dynamisch und unterliegt einem ständigen Fluss, was es komplizierter und nützlicher macht als die Kenntnis von Genomen allein.

Glossar

Biomarker
ein individuelles Protein, das in einem erkrankten Zustand einzigartig produziert wird
genetische Karte
eine Übersicht über Gene und ihre Lage auf einem Chromosom, die auf Rekombinationsfrequenzen zwischen Markern basiert
Genomik
das Studium ganzer Genome, einschließlich des vollständigen Satzes von Genen, ihrer Nukleotidsequenz und -organisation und ihrer Wechselwirkungen innerhalb einer Art und mit anderen Arten
Metagenomik
das Studium der kollektiven Genome mehrerer Arten, die in einer Umweltnische wachsen und interagieren
Modellorganismus
eine Art, die untersucht und als Modell verwendet wird, um die biologischen Prozesse in anderen Arten zu verstehen, die durch den Modellorganismus repräsentiert werden
Pharmakogenomik
die Untersuchung von Arzneimittelwechselwirkungen mit dem Genom oder Proteom; auch Toxikogenomik genannt
Physikalische Karte
eine Darstellung der physischen Distanz zwischen Genen oder genetischen Markern
Proteinsignatur
eine Reihe von über- oder unterexprimierten Proteinen, die für Zellen in einem bestimmten erkrankten Gewebe charakteristisch sind
Proteomik
Studium der Funktion von Proteomen

Genomik-Proteomik-Kern

Wir haben kürzlich den aufregenden und leistungsstarken neuen, hochmodernen Proteomik-Assay SOMAscan von SomaLogic hinzugefügt. Der Kern ist der exklusive Dienstleister für diese 1310 Protein-Biomarker-Entdeckungsplattform in der Boston/Longwood Medical Area.

SOMAscan (SomaLogic) ist eine hochempfindliche, Aptamer-basierte Entdeckungsplattform für immunähnliche Proteine ​​und Biomarker, die gleichzeitig 1.310 menschliche Proteine ​​in allen Arten von Proteinextrakten aus Körperflüssigkeiten wie Serum, Plasma, Urin, Speichel, Liquor, Zysten quantifiziert. Flüssigkeit und Gewebe, Zellen, Lavage, Tiermodelle und Exosomen.

Dienstleistungen

Genomik-Dienste
  • GeneChip HT Genome Array Plate Set - Neues GeneChip HT-System zur Durchführung großer Projekte mit bis zu 96 Proben pro Lauf, einschließlich Mensch, Maus und Ratte
  • Ganze Genom-Cartridge-Gen-Arrays
  • Wir bieten Amplifikationsdienste für begrenzte RNA-Mengen und teilweise degradierte RNA (FFPE) an.
Proteomische Dienste
  • Hoch-Multiplex, hochempfindliche Aptamer-basierte SOMAscan-1310 Proteinbiomarker-Entdeckung
  • Relative Quantifizierung durch µLC/MS/MS
  • ITRAQ - 8-plex isobares Peptid-Tagging-System, mit dem Sie alle primären Amine unabhängig von der Peptidklasse markieren können
  • SILAC - stabile Isotopenmarkierung von Aminosäuren in Zellkultur, die ein biosynthetischer Ansatz ist
  • GIST – globale interne Standardtechnologie, eine Markierungstechnik auf Peptidebene nach der Verdauung
  • ICAT - Isotopenkodiertes Affinitäts-Tag-basiertes Protein-Profiling
  • Proteinidentifizierung durch LC-MALDI und LC/MS/MS
  • Coomassie & silbergefärbtes Gelband
  • Identifizierung von Protein- und Peptidmodifikationen
  • Phosphorylierungsstellen
  • Proteinmodifikationen wie Acetylierung, Methylierung und Ubiquitinierung
  • Nur Coomassie-Färbung, gereinigte Proteine
  • Protein-Profiling komplexer biologischer Proben (Serum, Urin, Liquor, Gewebebiopsien, Zellextrakte, Lavage, Speichel usw.).
  • Profilerstellung durch µLC/MS
  • Multidimensionale Proteinfraktionierung durch µLC
Datenanalyse- und Bioinformatik-Dienste

Darüber hinaus bietet der Core einen vollständigen Bioinformatik-Core für Datenmanagement und -analyse sowie die Entwicklung neuer Software und die Möglichkeit, eine Vielzahl von genomischen und Hochdurchsatz-Assays durchzuführen.


Genomik- und Proteomikanalyse von kultivierten primären Rattenhepatozyten

Die Verwendung von Tiermodellen in der pharmazeutischen Forschung ist eine kostspielige und manchmal irreführende Methode zur Generierung von Toxizitätsdaten und damit zur Vorhersage der menschlichen Sicherheit. Deswegen, in vitro Testsysteme wie primäre Rattenhepatozyten und die sich entwickelnden Genomik- und Proteomiktechnologien spielen eine immer wichtigere Rolle in der toxikologischen Forschung. Die Gen- und Proteinexpressionsanalyse wurde in einer Zeitreihe (bis zu 5 Tage) von primären Rattenhepatozyten, die auf kollagenbeschichteten Schalen kultiviert wurden, untersucht. Insbesondere nach 24 h kommt es zu einer deutlichen Herunterregulation vieler wichtiger Phase-I- und Phase-II-Enzyme (z.B. Cytochrom P450, Glutathion-S-Transferasen, Sulfotransferasen), die am xenobiotischen Stoffwechsel beteiligt sind, und antioxidative Enzyme (z. B. Katalase, Superoxiddismutase, Glutathionperoxidase) wurden beobachtet. Akutphasenreaktionsenzyme wurden häufig hochreguliert (z. B. LPS-bindendes Protein, α-2-Makroglobulin, Ferritin, Serinproteinase-Inhibitor B, Haptoglobin), was wahrscheinlich auf zellulären Stress zurückzuführen ist, der durch die Zelle verursacht wird Isolationsverfahren (Perfusion) selbst. Eine parallele Beobachtung war die erhöhte Expression mehrerer Strukturgene (z. B. β-Aktin, α-Tubulin, Vimentin), möglicherweise verursacht durch andere proliferierende Zelltypen in der Kultur, wie Fibroblasten oder alternativ durch Hepatozyten-Dedifferenzierung.

Zusammenfassend lässt sich sagen, dass die sorgfältige Interpretation der daraus abgeleiteten Daten in vitro zeigt, dass primäre Hepatozyten erfolgreich für kurzfristige Toxizitätsstudien bis zu 24 h verwendet werden können. Die Kultivierungsbedingungen müssen jedoch weiter optimiert werden, um die massiven Veränderungen der Gen- und Proteinexpression von langzeitkultivierten Hepatozyten zu reduzieren, um praktische Anwendungen als Langzeit-Toxizitätstestsystem zu ermöglichen.


Experimentelle Verfahren

Die Entwicklung dieser Datenformate erfolgt seit 2014 und ist ein offener Prozess über Telefonkonferenzen und Diskussionen auf den PSI-Jahrestagungen. Beide Formatspezifikationen wurden dem PSI-Dokumentenprozess [31] zur Prüfung vorgelegt. Das übergeordnete Ziel dieses Prozesses ist es, analog zu einer iterativen wissenschaftlichen Manuskriptprüfung, dass alle formalisierten Standards gründlich bewertet werden. Dieser Prozess wird vom PSI-Editor und externen Gutachtern abgewickelt, die Feedback zu den Formatvorgaben geben können. Darüber hinaus gibt es eine Phase für öffentliche Kommentare, die die Einbeziehung heterogener Standpunkte aus der Community sicherstellt. Zum Zeitpunkt des Schreibens ist der PSI-Review-Prozess für beide Formate abgeschlossen und die Version 1.0 von beiden ist stabil.

Beide Formate verwenden Begriffe und Definitionen des kontrollierten Vokabulars (CV) als Teil des PSI-MS CV [32], die auch in anderen PSI-Datenformaten verwendet werden. Die gesamte zugehörige Dokumentation, einschließlich der detaillierten Dateiformatspezifikationen und Beispieldateien, ist unter http://www.psidev.info/probam und unter http://www.psidev.info/probed verfügbar.

Übersicht der Formate proBAM und proBed

Die Proteogenomik-Formate proBAM und proBed sind darauf ausgelegt, eine genomzentrierte Darstellung von Proteomik-Daten zu speichern (Abb. 1). Wie oben erwähnt, sind beide Formate hochgradig kompatibel mit ihren ursprünglichen Genomik-Gegenstücken und profitieren somit bereits von einer Vielzahl vorhandener Tools, die von der Genomik-Community entwickelt wurden.

Übersicht über die proBAM- und proBed-Proteogenomics-Standardformate. Sowohl proBAM als auch proBed können aus etablierten Proteomik-Standardformaten erstellt werden, die Peptid- und Proteinidentifikationsinformationen enthalten (mzTab und mzIdentML, blaue Box), die aus ihren entsprechenden MS-Datenspektrumsdateien (mzML, braune Kiste). Die Formate proBAM und proBed (Grünebox) enthalten ähnliche PSM-bezogene und genomische Kartierungsinformationen, jedoch enthält proBAM mehr Details, einschließlich enzymatischer (Protease) Informationen, Schlüssel in Proteomik-Experimenten (Enzymtyp, Fehlspaltungen, enzymatische Termini usw.) und Kartierungsdetails (CIGAR, Flag, etc.). Darüber hinaus ist proBAM in der Lage, einen vollständigen Ergebnissatz der MS-basierten Proteomik-Identifikation zu speichern, was neben der genomzentrischen Visualisierung weitere nachgelagerte Analysen ermöglicht, wie es auch der Zweck von proBed ist (lila Kiste)

ProBAM-Übersicht

Das BAM-Format wurde ursprünglich entwickelt, um Alignments von kurzen DNA- oder RNA-Reads zu einem Referenzgenom zu halten [22, 23]. Eine BAM-Datei besteht typischerweise aus einem Kopfabschnitt, der Metadaten speichert, und einem Ausrichtungsabschnitt, der Abbildungsdaten speichert (Fig. 1 und 2 Zusätzliche Datei 1: Tabelle S1A). Die Metadaten können Informationen über die Probenidentität, technische Parameter bei der Datengenerierung (wie Bibliothek, Plattform etc.) und Datenverarbeitung (wie verwendetes Mapping-Tool, Dublettenmarkierung etc.) beinhalten. Zu den wesentlichen Informationen gehören, wo die Lesevorgänge ausgerichtet sind, wie gut die Ausrichtung ist und die Qualität der Lesevorgänge. Spezifische Felder oder Tags dienen dazu, solche Informationen darzustellen oder zu codieren. Das proBAM-Format erbt all diese Funktionen. In diesem Fall werden Sequenzierungslesevorgänge durch PSMs ersetzt (siehe proBAM-Spezifikationsdokument für vollständige Details, http://www.psidev.info/probam#proBAM_specs).

Felder des proBAM- und proBed-Formats. Eine proBed-Datei enthält 12 Original-BED-Spalten (markiert durch a fettes Kästchen) und 13 zusätzliche Sondensäulen. Der proBAM-Alignment-Datensatz enthält 11 ursprüngliche BAM-Spalten (hervorgehoben durch a fettes Kästchen) und 21 proBAM-spezifische Spalten im TAG:TYPE:VALUE-Format. Jede Zeile in der Tabelle repräsentiert eine Spalte in proBAM und proBed. Die Zeilen sind farbig dargestellt, um die Kategorien der Informationen widerzuspiegeln, die in den beiden Formaten bereitgestellt werden (siehe Farblegende unten ist der Header-Bereich des proBAM-Formats hier nicht enthalten). Die Zeilen ohne Hintergrundfarbe in der proBAM-Tabelle stellen ursprüngliche BAM-Spalten dar, die in proBAM nicht verwendet werden, aber aus Kompatibilitätsgründen beibehalten werden. Die letzte Zeile in der proBAM-Tabelle zeigt die benutzerdefinierten Spalten an, die möglicherweise verwendet werden könnten

Da die in BAM verwendeten Tags normalerweise eine anerkannte Bedeutung haben, haben wir nicht versucht, sie neu zu verwenden, sondern neue zu erstellen, um spezifische Proteomik-Datentypen wie PSM-Scores, Ladungszustände und Protein-PTMs zu berücksichtigen (Abb . 2 and proBAM specification document section 4.4.1 for full description on PSM-specific tags). We also envisioned that additional fields and tags may be necessary to hold additional aspects of proteomics data. We thus designed a “Z?” tag as an extension anchor. Analogously to proBed, the format can also accommodate peptides (as groups of PSMs with the same peptide sequence).

ProBed overview

The original BED format (https://genome.ucsc.edu/FAQ/FAQformat.html#format1), developed by the UCSC, provides a flexible way to define data lines that can be displayed as annotation tracks. proBed is an extension to the original BED file format [28]. In BED, data lines are formatted in plain text with white-space separated fields. Each data line represents one item mapped to the genome. The first three fields (corresponding to genomic coordinates) are mandatory and an additional nine fields are standardized and commonly interpreted by genome browsers and other tools, totaling 12 BED fields, re-used here. The proBed format includes a further 13 fields to describe information primarily on peptide-spectrum matches (PSMs) (Figs. 1 and 2 Additional file 1: Table S1B). The format can also accommodate peptides (as groups of PSMs with the same peptide sequence), but in that case, some assumptions need to be taken in some of the fields (see proBed specification document section 6.8 for details, http://www.psidev.info/probed#proBed_specs).

Distinct features of proBAM and proBed and their use cases

The proBAM and proBed formats differ in similar ways as their genomic counterparts do, although representing analogous information. In fact, proBAM and proBed are complementary and have different use cases. Figure 3 shows two examples of proBAM and proBed visualization tracks of the same datasets. An IGV and Ensembl visualization are presented including multiple splice-junction peptides (Fig. 3a) and a novel translation initiation event in the HDGF gene locus (Fig. 3b), respectively.

Visualization of proBAM and proBed files in genome browsers. ein IGV visualization: proBAM (green box) and proBed (red box) files coming from the same dataset (accession number PXD001524 in the PRIDE database). proBed files are usually loaded as annotation tracks in IGV whereas proBAM files are loaded in the mapping section. B Ensembl visualization: proBAM (green box) and proBed (red box) files derived from the same dataset (accession number PXD000124) illustrating a novel translational event. The N-terminal proteomics identification result points to an alternative translation initiation site (TIS) for the gene HDGF at a near-cognate start-site located in the 5’-UTR of the transcript (blue box)

Similar to the designed purposes of SAM/BAM, the basic concepts behind the proBAM format are: (1) to provide genome coordinates as well as detailed mapping information, including CIGAR, flag, nucleotide sequences, etc. (2) to hold richer proteomics-related information and (3) to serve as a well-defined interface between PSM identification and downstream analyses. Therefore, the proBAM format contains much more information about the peptide-gene mapping statuses as well as PSM-related information, when compared to proBed. Peptide and nucleotide sequences are inherently embedded in proBAM, which can be useful for achieving improved visualization by tools such as IGV. This feature enables intuitive display of the coverage of a region of interest, peptides at splice junctions, single nucleotide/amino acid variation, and alternative spliced isoforms (Fig. 3), among others. Therefore, proBAM can hold the full MS proteomics result set, whereupon further downstream analysis can be performed: gene-level inference [33], basic spectral count based quantitative analysis, reanalysis based on different scoring systems, and/or false discovery rate (FDR) thresholds.

The proBed format, on the other hand, is more tailored for storing only the final results of a given proteogenomics analysis, without providing the full details. The BED format is commonly used to represent genomic features. Thus, proBed stores browser track information at the PSM and/or peptide level mainly for visualization purposes. As a key point, proBed files can be converted to BigBed [34], a binary format based on BED, which represents a feasible way to store the same information present in BED as compressed binary files, and is the final routinely used format as annotation tracks. It should be noted that a proBAM to proBed conversion should be possible and vice versa. However, “null” values for some of the Tags would be logically expected for the mapping from proBed to proBAM.

Software implementations

Both proBAM and proBed are fully compatible out-of-the-box with existing tools designed for the original SAM/BAM and BED files. Therefore, existing popular tools in the genomics community can readily be applied to read, merge and visualize these formats (Table 1). As mentioned already, several stand-alone and web genome browsers are available to visualize these formats, e.g. UCSC browser, Ensembl, Integrative Genomics Viewer, and JBrowse. For visualizing MS/MS identification results, an integrated proteomics data visualization tool, PDV (Table 1), currently accepts proBAM and matched spectrum file as input.

Routinely used command line tools such as SAMtools allow to manipulate (index, merge, sort) alignments in proBAM. Bedtools, seen as the “Swiss-army knife” tools for a wide range of genomic analysis tasks, allows similar actions to both formats, including, among others, intersection, merging, count, shuffling, and conversion functionality. Conversion from proBAM to CRAM format is also enabled by tools as SAMtools, Scramble, or Picard. With the UCSC “bedToBigBed” converter tool (http://hgdownload.soe.ucsc.edu/admin/exe/), one can also convert the proBed to bigBed. In this context, it is important to note that bedToBigBed version 2.87 is highlighted in the proBed format specification as the reliable version that can be used to create bigBed files coming from proBed (version 1.0) files.

There is also software specifically written for proBAM and proBed, supporting all the proteomics-related features. In fact, proteogenomics data encoded in the PSI standard formats mzIdentML and mzTab can be converted into proBAM and proBed, although it should be noted that the representation for proteogenomics data in mzIdentML has only been formalized recently [35]. In this context, first of all, the open-source Java library ms-data-core-api, created to handle different proteomics file formats using the same interface, can be used to write proBed [36]. A Java command line tool, PGConverter (https://github.com/PRIDE-Toolsuite/PGConverter), is also able to convert from mzIdentML and mzTab to proBed and bigBed. Analogously, several tools are available to write proBAM files, such as the Bioconductor proBAMr package. An additional R package, called proBAMtools, is also available to analyze fully exported MS-based proteomics results in proBAM [33]. proBAMtools was specifically designed to perform various analyses using proBAM files, including functions for genome-based proteomics data interpretation, protein and gene inference, count-based quantification, and data integration. It also provides a function to generate a peptide-based proBAM file coming from a PSM-based one.

ProBAMconvert is another intuitive tool that enables the conversion from mzIdentML, mzTab, and pepXML (another popular proteomics open format) [37] to both peptide- or PSM-based proBAM and proBed (http://probam.biobix.be) [38]. It is available as a command line interface (CLI) and a graphical user interface (GUI for Mac OS X, Windows and Linux). As with CLI, it is also wrapped in a Bioconda package (https://bioconda.github.io/recipes/probamconvert/README.html) and in a Galaxy tool, available from the public test toolshed (https://testtoolshed.g2.bx.psu.edu/view/galaxyp/probamconvert). The PGConverter tool also allows the validation of proBed files. For proBAM files, a validator is available that checks the validity of the original SAM/BAM format (https://github.com/statgen/bamUtil), although additional proteogenomics data verification still needs to be implemented.


Abstrakt

The biology and disease oriented branch of the Human Proteome Project (B/D-HPP) was established by the Human Proteome Organization (HUPO) with the main goal of supporting the broad application of state-of the-art measurements of proteins and proteomes by life scientists studying the molecular mechanisms of biological processes and human disease. This will be accomplished through the generation of research and informational resources that will support the routine and definitive measurement of the process or disease relevant proteins. The B/D-HPP is highly complementary to the C-HPP and will provide datasets and biological characterization useful to the C-HPP teams. In this manuscript we describe the goals, the plans, and the current status of the of the B/D-HPP.


Mr. Sandipan Ray. Sandipan Ray received his M.Sc. Degree in Biotechnology from the University of Calcutta, India in 2009. Presently, he is working as a senior research fellow at the Department of Biosciences and Bioengineering, IIT Bombay, India. He has published quite a few peer-reviewed research articles and reviews in the field of clinical proteomics and emerging proteomics technologies. He is a member of the Human Proteome Organisation (HUPO), US-HUPO, and Proteomics Society, India (PSI). He is actively involved in the development of Virtual Proteomics Lab and other related E-Learning resources at IIT Bombay. His current research interests include serum proteome analysis of Falciparum and Vivax Malaria to decipher disease pathogenesis, host immune response and identify surrogate protein markers.

Ms. Nicole Rachel Koshy. Nicole completed her Masters in Bioinformatics from CMS college of Science and Commerce, Coimbatore in 2008 and went on to pursue her M.S. in Biotechnology from the University of Houston — Clear Lake, Texas in the U.S. She worked on the virtual proteomics laboratory project at the IIT — Bombay and contributed to the bioinformatics module of experiments. She has also worked on a number of publications for the Virtual proteomics laboratory and is currently working at a Biotechnology company in Mumbai, India.

Mr. Panga Jaipal Reddy. Jaipal Reddy obtained his B.Sc. Degree from Osmania University and completed his Masters in Biochemistry from the University of Pune, India in 2008. Presently, he is working as a junior research fellow in Department of Biosciences and Bioengineering, IIT Bombay, India. He is the author of few scientific publications in reputed journals. He has participated in the development of Virtual Proteomics Lab and other related E-Learning resources at IIT Bombay. His current research interests include understanding the regulation of Z-ring assembly and identification of drug targets using proteomics.

Dr. Sanjeeva Srivastava. Dr. Srivastava completed his Ph.D from the University of Alberta, Canada in 2006 and postdoctoral research from Harvard Institute of Proteomics, Harvard Medical School, USA in 2009. He has taught few proteomics courses at the Cold Spring Harbor Laboratory, New York. Presently, he is an Assistant Professor of Department of Biosciences and Bioengineering, IIT Bombay, India. Current research in this group centers on using high-throughput proteomics for biomarker discovery in cancer and other diseases, to study protein–protein interactions and drug target discovery. Additionally, multi-dimensional Omics data are employed for in silico studies and models. The group has developed E-learning resources such as Virtual Laboratory as a community resource and is collaborating actively both across India and internationally to advance this knowledge frontier for the benefit of global health. He is recipient of several awards, including the National Young Scientist Award (Canada), Young Scientist Awards (India) and the Apple Research Technology Support Award (UK). He serves as Editor-in-Chief for the peer reviewed International Journal of Genomics and Proteomics, and Associate Editor for Current Pharmacogenomics and Personalized Medicine and several other international journals.


Abstrakt

Forensic DNA profiling currently allows the identification of persons already known to investigating authorities. Recent advances have produced new types of genetic markers with the potential to overcome some important limitations of current DNA profiling methods. Moreover, other developments are enabling completely new kinds of forensically relevant information to be extracted from biological samples. These include new molecular approaches for finding individuals previously unknown to investigators, and new molecular methods to support links between forensic sample donors and criminal acts. Such advances in genetics, genomics and molecular biology are likely to improve human forensic case work in the near future.


Body of the article

Since the 1950s and until recently, it was believed that mutations in a single gene confer vulnerability to multiple infectious diseases. Concomitantly, common infections have been presumed to be associated with the inheritance of mutations in multiple susceptibility genes. In recent work towards a unified genetic theory of disease [1-3], Prof. JL Casanova identified and characterized many new genetic defects that predispose otherwise healthy individuals to a single type of infection [4]. This novel causal relationship has modified the paradigm that dominated the field for several decades. Single-gene inborn errors of immunity in children may confer severe and selective vulnerability to specific infectious illnesses, whereas corresponding infections in adults usually involve more complex gene patterns. Several diseases have been studied including mycobacterial diseases, invasive pneumococcal disease, chronic mucocutaneous candidiasis, severe flu, Kaposi sarcoma and herpes simplex encephalitis (HSE).

Herpes simplex encephalitis

Herpes simplex virus (HSV-1) encephalitis (HSE) is a severe infection of the central nervous system (CNS)[5]. Although HSV-1 is widespread and typically innocuous in human populations, HSE is the most common form of sporadic viral encephalitis in Western countries, where it is estimated to occur in approximately two to four per million individuals per year. Peaks of HSE incidence occur between theages of 6 months to3 years during primary infection with HSV-1. The virus reaches the CNS via a neurotropic route involving the trigeminal and olfactory nerves [6,7]. The mortality rate, which used to be as high as 70%, has declined significantly thanks to treatment with the anti-viral acyclovir [8-10]. In spite of the treatment, up to 60% of patients suffer from long-term neurological sequelae of varying severity [7,11].

Genomic studies, exome sequencing

Exome sequencing, the targeted sequencing of the protein-coding portion of the human genome, has been shown to be a powerful and efficient method for detection of disease variants underlying Mendelian disorders. In the human genome, exons represent about 1% [12]. It is estimated that the protein coding regions of the human genome constitute about 85% of the disease-disposing mutations [13]. Robust sequencing of the complete coding region (exome) has the potential to be clinically relevant in genetic diagnosis as understanding of the functional consequences in sequence variation improves [13]. Currently exome sequencing is discovering inborn errors of immunity in children that confer severe and selective vulnerability to certain infectious diseases [14,15].

Childhood HSE has not been associable with known immunodeficiencies and its pathogenesis remained elusive until identified the first five genetic aetiologies of this condition were identified [16-21]. Autosomal recessive UNC-93B deficiency abolishes Toll-like receptor 3 (TLR3), TLR7, TLR8, and TLR9 signalling [16], whereas autosomal dominant TLR3 deficiency specifically affects TLR3 signalling[21]. Recently an autosomal recessive form of complete TLR3 deficiency has been described as a compound heterozygous for two loss-of-function TLR3 alleles [17]. Moreover an autosomal dominant deficiency in TNF receptor-associated factor 3 (TRAF3) [19], a Toll/IL1R (TIR) domain-containing adaptor inducing IFN-β (TRIF) deficiency [20] and TANK-binding kinase (TBK1)�iciency [18] have been described.

All of these genetic defects involve the Toll-like receptor 3 (TLR3) signalling pathway and these studies suggested that childhood HSE may result from impaired interferon (IFN)-α/β and IFN-λ production in response to the stimulation of TLR3 by dsRNA intermediates of HSV-1 in the CNS ( Fig. 1 ). However, the study of proteins implicated in the TLR3-IFN pathway for HSE patients revealed that only a small fraction of children with HSE carry mutations in UNC93B1, TLR3, TRAF3, TRIF or TBK1 [16-21]. A larger proportion of patients display an impaired production of IFN type I and III upon TLR3 stimulation of their fibroblasts. Conversely, the study of IFN type I and III production after TLR3 activation in SV40-fibroblasts of HSE patients has shown that 30%, of a total of 89 patients analysed, have IFN type I and III production which is normal. This suggested that in spite of the importance of the TLR3 pathway in HSE immunity, genetic defect(s) responsible for the susceptibility to HSV-1 in the CNS could be due to TLR3-independent pathways, or other TLR3, IFN-dependent pathways that are activated after the initial TLR3 activation.

A simplified diagram of the TLR-mediated and interferon (IFN)-mediated immunity in response to viruses. TLR3 is located in the endoplasmic reticulum (ER) and in endosomes, where it recognizes double-stranded RNA produced during the replication of most viruses. Activation of TLR3 induces activation of IRF-3 and NF- κ B via the TRIF adaptor, and the production of IFN-α/β and/or - λ. UNC-93B is required for the trafficking of TLR3, TLR7, TLR8 and TLR9 from the ER to the endosomal compartment. Proteins of the TLR3 pathway for which genetic mutation have been identified and associated with susceptibility to Herpes simplex virus-1 encephalitis (TLR3, TRIF, UNC-93B, TRAF3 and TBK1) are depicted in blue.

Formulating a Proteomics Approach

Conventional attempts to define disease-related genetic defects involving single proteins commonly try to screen large numbers of patient samples to validate single gene defects. This often has the major obstacle that sufficient numbers of patient samples are difficult to obtain. Since TLR3-dependent pathways are clearly involved in HSV-1 susceptibility, it was considered that it might be possible to use a combination of proteomics and systems biology methods to look for other networks and/or proteins[22]. The basic idea behind this strategy is that the increasing amount of available systems biology information has changed the situation. Using only small numbers of healthy controls and patient samples with appropriate functional stimulation, it might now be possible to detect disease-related functional networks by monitoring large numbers of proteins simultaneously, even if the underlying genetic defect in any individual patient cannot be statistically validated by such a study. If successful, definition of such functional networks could already have important diagnostic and therapeutic implications.

In the case of HSE, a large volume of previous biochemical experiments on several hundred patients and healthy individuals provided a strong base of knowledge, well established, highly reproducible sample preparation methods and related experimental tests of cellular response for the proteomics experiments. These previous studies also made it clear that there was a potential problem that is not often considered in present proteomics studies: what constitutes a normal, healthy response? Monitoring the abundance of key proteins (IFN-beta, IFN-lambda, IL6, NF㮫 and IRF3), cell survival after Vesicular stomatitis virus (VSV) infection, and viral replication [16-21], suggested that several different phenotypes could be distinguished and indicated that there were highly reproducible variations of up to 50 fold in the amounts of IFN type I and III produced by control cells from different healthy individuals in response to dsRNA ( Fig 2 ). In short, for these kinds of proteomics experiments highly reproducible sample preparation for “normal” cell samples that span the range of possible response over the human population seem to be required. Put differently, proteomics experiments should probably only be undertaken in the context of a large base of previous characterization of healthy population variation. With this background in mind, the goal was set out to obtain an initial test of four propositions. (1) Is the variation over population seen by biochemical tests for a few proteins expressed in larger numbers of proteins? (2) Are there proteomics signatures that are characteristic despite population variation? (3) Can significant differences between healthy and patient cells be detected despite population variation? (4) Are the differences of potential genetic, diagnostic or therapeutic interest? Positive results were obtained for all four propositions, but indicated some new challenges for proteomics and bioinformatics (see below).

Production of IFN-β by SV40-fibroblasts after poly(I:C) stimulation (25 μg/ml) for 24 hoursas assessed by ELISA. C1-C5 are the positive healthy controls and UNC93B1 -/- is the UNC-93B-deficientpatient. Mean values ± SD were calculated from three independent experiments.

A Short Summary of the Biological Findings

The SILAC measurements of differential protein abundance were conducted for six samples: three healthy controls from different individuals that showed weak (C3), medium (C1) and strong (C2) production of IFNs in response to dsRNA that was intended to sample population variation, a healthy control without dsRNA stimulation (C2NS), a patient with an UNC-93B-/- defect that abolishes TLR3 pathway response (UNC) and a patient with an unknown genetic defect (P). As described in the original publication [22], common functional pathways in healthy individuals implicated in transmigration of immune cells, apoptosis and oxidative stress that were abrogated in HSE patients were discovered. Furthermore, a set of new proteins for further investigation of possible disease aetiologies was identified ( Fig.3 ) and evidence was obtained that manipulation of one of these (SOD2) could have therapeutic benefits. The observation of changes in proteins involved in mitochondrial oxidative stress systems (SOD2, PPIF) opened a new, additional perspective apart from nuclear-directedTLR3 pathways that is consistent with other recent studies of response to viral infections [23-25]. For the patient with an unknown gene defect and without the fibroblastic phenotype, a lack of ICAM-1 upregulation, strong upregulation of SOD2, and upregulation of a variety of proteins previously associated with TLR3 pathways, delineated a new cellular phenotype which will help to dissect his genetic aetiology. The details of these results and of their context relative to the biological literature are contained in the original publication, to which the reader is referred – in the following we note some new features of the experimental results that have important consequences for future proteomics studies.

Illustration of the potential biological significance in immunity against HSE for proteins upregulated after TLR3 activation.

New Challenges for Proteomics and Bioinformatics

(1) Population variation is a crucial issue for proteomics

Comparison of the SILAC ratios between the different healthy samples indicated related response with correlation values in the ranges usually accepted as biologically relevant ( Fig. 4A ). Correlation with the unstimulated sample was in all cases very small. However, in agreement with the large differences in IFN production, the response to dsRNA showed large variation in the overall magnitude of SILAC ratios between different healthy individuals ( Fig. 4B ). The SILAC ratios revealed that the strong variation in response levels over the population previously detected with small numbers of proteins using western blotting is in fact reflected in the abundance changes for large numbers of proteins. Although the H/L distributions remained approximately Gaussian, for the healthy cells with the strongest response (C2), several hundred proteins showed 2-fold changes in abundance.

(A) Correlation of log2(H/L) between healthy samples (C1, C2, C3) and the healthy, non-stimulated sample (C2NS). (B) Cumulative proportion of proteins with the indicated H/L ratios for all six samples.

(2) Sets of “Most Significant” Proteins are Dependent on Population Variation

Even though similar functional networks were involved, the identity and rank order of proteins with the “most significant” abundance changes differed strongly between different individuals. For example, seven annexins were recorded for all samples. For the healthy samples the general trend for abundance changes was C2 > C1 > C3 in parallel to the changes in IFNs, but the rank order of individual annexins showed C1: ANXA5 > ANXA1 > ANXA7 C2: ANXA7 > ANXA6 > ANXA11 C3: ANXA11 > ANXA7 > ANXA4 ( Fig. 5A ). This feature complicates the choice of “most significant” proteins for subsequent analysis of functional networks using systems biology tools such as GeneGo. Because the H/L distributions remained approximately Gaussian ( Fig. 4B ), a Significance B formulation was used[26] to select the most significant changes for each sample type ( Fig. 5B ). However, for samples such as C1 and C2 the distribution of H/L is nicht dominated by experimental noise (C2NS), but rather by cellular response ( Fig. 4B ). Consequently proteins excluded from the C2 most significant set in fact showed substantially stronger abundance changes than proteins accepted for the C1 or C3 data sets ( Fig. 5B ). As an alternative that was the same for all data sets, a Significance B* factor was calculated relative to the signal intensity/scatter of the unstimulated C2NS data set ( Fig. 5C ), i.e. relative to real experimental noise. The disadvantage of this was that, because of the large differences in cellular response, the number of proteins accepted for network analysis was heavily dominated by C2, e.g. at Significance B* < 1e -5 , the C3/C1/C2 significant data sets included 15/351/842 proteins. Conversely, use of Significance B < 0.05 led to exclusion of large numbers of proteins from the C1 and C2 data sets that had large abundance changes with high reliability relative to real experimental noise. As a compromise, Significance B < 0.05 and H/L cut offs was used to select approximately equal numbers of “most significant” proteins from each sample type [22]. This 𠇎qual sampling” was successful in identifying relevant functional networks using GeneGo. However, only a minority of the “most significant” proteins were common to all three healthy individuals, even though other proteins in the union over the healthy samples satisfied the stringent cutoff Significance B* < 1e -5 . In the context of small numbers of samples it might be possible to use dosage of the stimulation (amount of dsRNA) to attain similar response levels for different cell samples, but for higher throughput analyses of larger numbers of samples, new computational approaches are needed.

Heat maps showing alternative strategies for selection of “most significant” protein sets for subsequent functional network searches using GeneGo. (A) SILAC ratios recorded for 7 different annexins over the six simple types. The number of ratio counts for individual proteins ranged from 6 to 243 per sample. (B) Proteins retained with a Significance B < 0.05 filter applied to each sample independently. (C) Proteins retained with a Significance B* < 0.001 filter applied across all samples. Boxed regions: proteins deleted that had |log2(S)| equal to or greater than “significant” proteins retained in other samples.

Such population variation has been seen in other recent proteomics studies. For example, measurements for 90 genetically different strains of yeast showed that most variation in protein abundance was due to variability in translation and/or protein stability rather than in transcript levels [27]. Similarly, a recent study of four patients with acute myeloid leukemia, five patients with acute lymphoid leukemia and 8 healthy controls compared the basal abundances of 639 different proteins using alignment-based quantitation of LC-MS/MS data sets [28] and found population variation similar to that shown in Fig. 5 .

(3) Current systems biology tools need adaptation to analysis of population variation

The ultimate goal of a population-wide, network-based analysis of function would be to identify common networks across the population and to specify for different individuals the extent to which a common stimulation engages the different networks. Such networks will not be easy to define since they are likely to be highly intertwined (buffered networks in the terminology of complex adaptive systems theory [29]) and the “output” of any sub-network may be diverse and may include: changes in protein abundance, post-translational state and subcellular spatial distribution [30,31] (from proteomics), changes in abundance of metabolites, co-factors, etc. (metabolomics) and genetic changes (epigenetics, micro-RNAs, etc.). The conceptual model of similar networks turned on to different degrees in different individuals that are reflected in protein abundance changes ( Fig. 6A ) is a testable model. Across the space of ichcell samples from different individuals, all proteins k that belong to network J have a vector of measured H/L ratios of the form: V → k = a jk ( n 1 j , n 2 j , … , n ij ) in which einjk represents an amplitude for “unit engagement” of the network Jfor each protein k und nij represents the amplitude to which the network is engaged in each individual ich. That is, in a multidimensional space with H/L ratios for different cell samples as the orthogonal axes, there is an axis described by the vector (n1J,n2J, …,nij) that is the same for all proteins k in network J ( Fig. 6B ).

(A) Model of abundance changes for four networks with intrinsic abundance changes einjk for different proteins for unit turn-on of the network. For three cell samples from healthy individuals each network is turned on to different degrees. These results in changes in the set of “most significant” proteins selected with Significance B filters (dashed lines) and their rank order for each cell sample. (B) Relationships in the 3D space of SILAC ratios [log2(S1), log2(S2), log2(S3)] for proteins from a single network. The red/blue spheres and axis indicate increased/decreased abundance. The relative amplitude to which the network is turned on in the different cell samples is given by the axis log2(S1):log2(S2):log2(S3) = 1:1:1 for equal activation in all cell samples. (C) Putative network for proteins involved in redox responses following stimulation of the healthy samples with dsRNA. Protokoll2(S1):log2(S2):log2(S3) = 0.42:0.91:0.13. (D) Putative network for proteins involved in nuclear processes following stimulation of the healthy samples with dsRNA. Protokoll2(S1):log2(S2):log2(S3) = 0.69:0.73:0.26.

The model implies the need to search for correlation amongst functionally related proteins (systems biology functional correlations) in functional data (H/L ratios) for high dimensional spaces (many individual samples) – a feature that seems not to be available in current publicly accessible systems biology tools. There are strong indications of such relations in the present data ( Fig. 6C, D ), but new, more sophisticated analysis and statistical validation is required.


Informationen zum Autor

Mitgliedschaften

Institute of Biological Sciences, Faculty of Science, University of Malaya, 50603, Kuala Lumpur, Malaysia

Saiful Anuar Karsani & Nor Afiza Saihen

Oral Cancer Research and Co-ordinating Centre & Faculty of Dentistry, University of Malaya, 50603, Kuala Lumpur, Malaysia

Oral Cancer Research Team, 2nd Floor Outpatient Centre, Sime Darby Medical Centre, Cancer Research Initiatives Foundation (CARIF), 47500 Subang Jaya, Selangor, Malaysia

Department of Clinical Oral Biology, Faculty of Dentistry, Universiti Kebangsaan Malaysia, 50300, Kuala Lumpur, Malaysia

Department of Oral and Maxillofacial Surgery, Faculty of Dentistry, University of Malaya, 50603, Kuala Lumpur, Malaysia

University of Malaya Centre for Proteomics Research (UMCPR), University of Malaya, 50603, Kuala Lumpur, Malaysia


The Clark Lab

We study the process of Adaptive Evolution, during which species adopt novel traits to overcome challenges. We retrace the evolutionary histories of genomic elements to determine the changes underlying adaptation and to discover previously unknown genetic networks. These discoveries have already led to advances in human health, species conservation, and molecular biology. To meet these goals we have developed a suite of computational and experimental approaches employing comparative genomics and proteomics. Ultimately, our research program develops an evolutionary model in which genomic elements are shaped by their co-evolution with other elements and their environment.

We are a combined computational and experimental lab in the Department of Human Genetics at the University of Utah. We are a member of the Cluster in Evolutionary Genetics and Genomics (CEGG), whose member labs span Human Genetics and Biology.

Eccles Institute for Human Genetics
Department of Human Genetics
Universität von Utah
Lab Room 6460
15 S 2030 E
Salt Lake City, Utah 84112-5330


Schau das Video: Genomics and proteomics, transcriptomics and metabolomics (Kann 2022).