Information

Warum wird eine Verbindung in einer KEGG-Modulsuche rot hervorgehoben?

Warum wird eine Verbindung in einer KEGG-Modulsuche rot hervorgehoben?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Betrachtet man folgendes Modul:
http://www.kegg.jp/kegg-bin/show_module?M00115+C00003
Warum ist die Verbindung C00003 rot markiert?


Es ist nur eine Möglichkeit, Ihren Suchbegriff hervorzuheben. Wenn Sie nach M00115+C03722 suchen, wird C03722 in Rot angezeigt.


Biochemie-Praktikum 1

•Gene bestehen aus Exons und Introns. Exons sind Regionen, die in der verarbeiteten mRNA beibehalten werden, und werden im Browser durch schwarze Blöcke dargestellt, während Introns die Regionen sind, die während der Erstellung der endgültigen mRNA entfernt und durch Linien dargestellt werden, die die Blöcke verbinden.

•Das Codon ATG in DNA (AUG in mRNA) spezifiziert die Aminosäure M (Methionin) und ist in der Spur "Base Position" des Genome Browser grün hervorgehoben. Das erste Methionin liefert den Startschuss für die Proteinsynthese.

•Die Codons TAA, TAG und TGA in DNA (UAA, UAG und UGA in mRNA) kodieren für das Stopcodon (*) und sind in der Spur "Base Position" des Genome Browsers rot hervorgehoben. Die Stopcodons liefern das Endsignal für die Proteinsynthese.

•Gene können entweder von links nach rechts (oberer DNA-Strang) oder von rechts nach links (unterer DNA-Strang) gelesen werden. Pfeile auf einem Gen zeigen seine Ausrichtung an.


Hintergrund

Sonnenlicht ist einer der wichtigsten abiotischen Faktoren für das Wachstum und die Entwicklung von Pflanzen. Es kann in chemische Energie umgewandelt werden, die dann durch Photosynthese zur Synthese organischer Verbindungen verwendet wird. Einige Baumkronen-Management-Praktiken wie das Entfernen von Blättern, das Ausdünnen von Trauben, das Training von Weinreben und das Bewegen von Blättern werden häufig verwendet, um das Mikroklima der Baumkronen zu optimieren, eine unterschiedliche Sonneneinstrahlung zu ermöglichen, den Beerenertrag zu kontrollieren und die Traubenbeeren- und Weinqualität zu verbessern [2]. Unter diesen Weinbaupraktiken wurde die Blattentfernung in einer Clusterzone (auch als basale Blattentfernung bezeichnet) am häufigsten durchgeführt, hauptsächlich wegen ihrer Fähigkeit, die Sonneneinstrahlung und den Luftstrom zu fördern sowie die Blattbedeckung und das Auftreten von Krankheiten zu reduzieren [3, 4] . Es wurde auch festgestellt, dass sich die künstliche Entlaubung positiv auf phenolische und flüchtige Verbindungen in Trauben und Wein auswirkt [5, 6].

Die Blattentfernung erfolgt im Allgemeinen in kühlen Regionen mit entsprechender Sonneneinstrahlung und Hitzestau und Niederschlag [7]. Es wird typischerweise durchgeführt, um das Laub um die Traubenzone herum selektiv oder vollständig zu entfernen, und diese Praxis wird traditionell zu einem bestimmten Zeitpunkt nach dem Fruchtansatz durchgeführt, normalerweise vor der Véraison [6, 8]. Angesichts der globalen Erwärmung in Verbindung mit der Empfindlichkeit der Traubenbeerenreifung gegenüber dem Klimawandel sollte die Weinbauwirtschaft in sonnen- und wärmegerechten Regionen an das sich erwärmende Klima angepasst werden [9]. In einigen sonnenreichen und trockenen Regionen wie den Weinanbaugebieten im Nordwesten Chinas führt das Entfernen von Weinblättern in der Grünfruchtperiode gelegentlich zu einem Sonnenbrand der Traubenbeeren und führt sogar zu verholzten und gebräunten Stielen, die dazu führen können, dass die Traubenbeeren aufgrund des Wachstums aufhören zu wachsen zum Nährstoffmangel. Außerdem wird der Reifeverlauf der Weinbeeren in dieser Region durch das trockene und heiße Klima immer beschleunigt [10, 11]. Die verkürzte Reifezeit führt auch zu Mangelerscheinungen an phenolischen Verbindungen, insbesondere an Anthocyanen und phenolischen Co-Pigmenten (z. Dementsprechend ist es notwendig, den Zeitpunkt der Sonnenbestrahlung der Trauben im trocken-heißen Klima-Weinbau anzupassen. Unsere frühere Studie hat gezeigt, dass das Entfernen von Blättern oder das Bewegen von Blättern bei Veraison, die Traubentrauben bis zur Ernte dem Sonnenlicht aussetzen, die Ansammlung von Flavon-3-olen deutlich verbessern und die Konzentrationen von Anthocyanen in Traubenbeeren reduzieren kann, die am Nordfuß des Mt. Tianshan-Region von Xinjiang im Nordwesten Chinas [5]. Das Ziel der vorliegenden Studie war es, die Variation des Metaboloms und des Transkriptoms flüchtiger Verbindungen in diesen exponierten Weinbeeren in dieser trocken-heißen Klimaregion zu analysieren.

Aus Trauben gewonnene flüchtige Verbindungen spielen die größte Rolle bei der Bewertung der Qualität von Trauben und Wein. Frühere Studien haben die Auswirkungen der Entfernung der basalen Blätter vor der Verkostung auf die Ansammlung von Monoterpenen und Norisoprenoiden berichtet, die zum Sortenaroma und dem angenehmen Geruch der Traube beitragen [8, 13, 14]. Darüber hinaus verursacht die Entfernung der basalen Blätter Variationen bei anderen flüchtigen Verbindungen wie Methoxypyrazin [4, 15], Thiol [16] und Rotundon [17], die den Weinbeeren die pflanzlichen, Zitrusaromen und schwarzen Pfefferaromen verleihen. Tatsächlich haben Zeitpunkt und Intensität der Sonneneinstrahlung einen deutlichen Einfluss auf die in Weinbeeren produzierten flüchtigen Verbindungen. Wie Kwasniewski et al. beobachtet [14], erhöht nur eine Cluster-Sonnenexposition, die 33 Tage nach dem Beerenansatz (PBS) beginnt, die Konzentration von Gesamt-1,1,6-Trimethyl-1,2-dihydronaphthalin (TDN) und Vitispiran signifikant, während die Blattentfernung nach 68 Tagen PBS reduziert β-Damascenon-Generation. Außerdem sammeln sich die Beeren mehr an, wenn alle grundständigen Blätter entfernt werden, um die Traubentraube vollständig dem Sonnenlicht auszusetzen β-Damascenon und einige Terpenoide in gebundener Form [6]. Cluster-Sonnenlichtexposition durch apikale Entlaubungsansätze kann im Vergleich zur basalen Blattentfernung die flüchtigen Verbindungen des Weins minimal beeinflussen, aber den Weinalkoholgehalt reduzieren [3]. Eine begrenzte Anzahl von Untersuchungen hat sich mit der Veränderung der flüchtigen C6/C9-Verbindungen in Traubenbeeren, die dem Sonnenlicht ausgesetzt sind, durch Blattentnahme im frühen Stadium der Beerenentwicklung beschäftigt [6, 18, 19] jedoch den Einfluss der Blattentnahme zum Zeitpunkt der Entwicklung oder Reifestadium ist noch nicht verstanden. Die C6-Aldehyde und -Alkohole können den charakteristischen „grünen“ Geruch verursachen, auch „grüne Blattflüchtige“ (GLVs) genannt. Diese Verbindungen werden durch die Zerstörung von Pflanzengeweben induziert oder nachdem Pflanzen unter biotischem oder abiotischem Stress leiden [20]. C9-Aldehyde, insbesondere (E)-2-Nonenal und (E,Z)-2,6 Nonadienal, tragen zum Gurkengeschmack in Pflanzen bei [21]. Frühere Studien haben sich auch nicht mit den Schwankungen der flüchtigen Benzol-abgeleiteten Verbindungen in Weinbeeren befasst, die durch das Entfernen der Blätter verursacht werden. Solche Verbindungen können Traubenbeeren und ihren entsprechenden Weinen blumige und fruchtige Aromen verleihen [22, 23]. Das Verständnis der Variation des aus Trauben gewonnenen flüchtigen Profils hilft einer Gesamtbewertung, wie das Entfernen von Blättern in Regionen mit intensiver Sonneneinstrahlung und wenig Niederschlag zu Strategien zur Verbesserung der Traubenaromaqualität beitragen wird.

Das Entfernen von Blättern kann potenzielle assimilierte Kohlenstoffergänzungen eliminieren, die die Frucht von benachbarten Blättern erhält, während das Bewegen von Blättern um Trauben herum den Reben ermöglicht, nicht nur die Photosyntheseorgane zu behalten, sondern auch die Sonnenexposition der Trauben zu erhöhen. Das Entfernen von Blättern bei Véraison könnte die Akkumulation von Gesamtanthocyanen signifikant fördern und verwandte Gene hochregulieren [24], aber der Einfluss dieser Leistung auf die Produktion flüchtiger Verbindungen bleibt unklar. Darüber hinaus hat sich eine frühere transkriptomische Studie nur auf den Einfluss der Cluster-Sonnenlichtexposition im frühen Wachstumsstadium von Weinbeeren konzentriert (EL 29) [8], während die transkriptomische Reaktion bei Weinbeeren auf die Blattentfernung oder Blattbewegung bei der Veraison oder der Reifung Stadium ist kaum zu verstehen.

In dieser Studie wurden vier Strategien zur Exposition gegenüber Cluster-Sonnenlicht verwendet, einschließlich Blattentfernung im Pfefferkorn-Größenstadium (LR-PS), Blattentfernung bei Véraison (LR-V), Entfernung von halben Blättern bei Véraison (HLR-V) und Blattbewegung bei Veraison (LM-V). Eine kombinierte Analyse von flüchtigen Metabolom- und Transkriptomdaten wurde durchgeführt, um die Effizienz dieser Manipulationen der Cluster-Sonnenlichtexposition auf die Produktion flüchtiger Verbindungen von Traubenbeeren und die zugrunde liegenden Mechanismen aufzuklären.


Ergebnisse

Etablierung und Validierung des Lasso-bestraften Cox-Regressionsmodells

Das Flussdiagramm zeigt unsere Analyseverfahren zur Konstruktion des SE-assoziierten Gen-basierten Prognosemodells des Osteosarkoms (Abbildung 1). Die 349 SE-assoziierten Gene basierend auf dem Datensatz von <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058 wurden ausgewählt, um die Lasso bestrafte Cox-Regressionsanalyse. Um den am besten passenden Parameter des Parameters λ zu identifizieren, müssen zunächst zwei wichtige optionale λ-Werte (logλMindest = 𢄡.91 und logλlse = 𢄡.48) wurden aus den vertikalen Linien mit einem minimalen mittleren quadratischen Fehler berechnet und weiter verwendet, um zwei Gruppen von Genen auszuwählen ( Abbildungen 2A𠄼 ). Außerdem wurden Lasso-Modelle nach dem λ . rekonstruiertMindest und λlseund Überlebenswahrscheinlichkeiten wurden basierend auf zwei Genlisten ( 2D ) weiter geschätzt. Wie in Abbildung 2D gezeigt, ist die Verwendung des auf fünf Genen basierenden Prognosemodells basierend auf dem λMindest (Wilcoxon-Test, P = 1,4e�) erleichterte die offensichtliche Unterscheidung der Überlebenswahrscheinlichkeiten zwischen Proben von lebenden und abgelaufenen Patienten. Wenn jedoch ein auf zwei Genen basierendes Prognosemodell verwendet wurde, das auf der λlse, wurde kein statistisch signifikanter Unterschied beobachtet (Wilcoxon-Test, P > 0,05). In ähnlicher Weise zeigte das Ergebnis der ROC-Kurvenanalyse, dass die Fläche unter dem Kurvenminimum (AUCMindest) betrug 0,92, was bedeutet, dass das auf fünf Genen basierende Lasso-Modell bei der Vorhersage der OS-Wahrscheinlichkeit von Patienten mit Osteosarkom gut abschneidet (Abbildung 2E).

Der Verfahrensablauf zur Etablierung und Zertifizierung des SE-assoziierten genbasierten Prognosemodells für Patienten mit Osteosarkom. KEGG, Kyoto Encyclopedia of Genes and Genomes Lasso, Least Absolute Shrinkage and Selection Operator Target-OS, Target-Osteosarcoma SE, Super-Enhancer WGCNA, Weighted Gene Co-Expression Network Analysis.

Etablierung des Fünf-Gen-Prognosemodells durch Lasso-Regressionsanalyse basierend auf den 349 SE-assoziierten Genen aus Daten, die von SEdb heruntergeladen wurden. (EIN,B) Lasso-Koeffizientenprofile der 349 SE-assoziierten Gene. (C) Zwei optimale Lambda (λ)-Werte (λMindest und λlse) wurden anhand der vertikalen Linien mit einem minimalen mittleren quadratischen Fehler geschätzt. Die vertikale Achse stellt den mittleren quadratischen Fehler dar, während die horizontale Achse den Wert von log(λ) darstellt. (D) Das Streudiagramm des Überlebensstatus von Patienten mit Osteosarkom basierend auf dem Fünf-Gen-Modell (links, λMindest, P = 1.4e�) oder Zwei-Gen-Modell (rechts, λ .)lse, P > 0,05) mit dem Wilcoxon-Test. (E) ROC-Kurven der beiden Prognosemodelle basierend auf λMindest und λlse. Die Werte der AUC wurden in die Abbildung aufgenommen. AUC, Fläche unter der Kurve Lasso, geringster absoluter Schrumpf- und Selektionsoperator ROC, Empfängerbetriebscharakteristik SE, Super-Enhancer SEdb, Super-Enhancer-Datenbank.

Validierung unabhängiger Prognosefaktoren durch das Cox-Regressionsmodell

Zur Validierung des mit Lasso bestraften Cox-Regressionsmodells führten wir univariate und multivariate Cox-Regressionsanalysen durch, um festzustellen, ob diese Gene unabhängige prognostische Faktoren für das OS von Patienten mit Osteosarkom sind. In der univariaten Cox-Regressionsanalyse sind alle Log-Rank P-Werte dieser fünf Gene waren π.05 (Abbildung 3A). Nach der multivariaten Cox-Regressionsanalyse wird die globale P-Wert (Log-Rank-Test) des Fünf-Gen-Prognosemodells betrug nur 0,000171 (Abbildung 3B). Der AIC betrug 59,74 und der C-Index 0,89, was darauf hindeutet, dass diese fünf Gene günstige prognostische Faktoren für das OS von Patienten mit Osteosarkom sein können. Darüber hinaus stimmte das Ergebnis der K–M-Überlebensanalyse mit dem der univariaten Cox-Regressionsanalyse überein (Abbildung 3C). Außerdem, AMN1 und ZP3 können protektive Faktoren bei Osteosarkomen sein (HR: 1,26e� bzw. 1,13e�), während LIMS1, SAMD4A, und SPARC scheinen in diesem Setting schädliche Faktoren zu sein (HR: 699.2, 167 bzw. 298,7). Somit kann ein mit Lasso bestraftes Cox-Regressionsmodell mit fünf SE-assoziierten Genen verwendet werden, um das OS von Patienten mit Osteosarkom vorherzusagen.

Univariate und multivariate Cox-Regressionsanalysen und K–M-Überlebensanalyse des Fünf-Gen-Prognosemodells. (EIN) Univariate Cox-Regressionsanalyse jedes Gens des Modells. (B) Multivariate Cox-Regressionsanalyse des Fünf-Gen-Modells. (C) K–M-Überlebenskurven, die den Unterschied im OS zwischen den Gruppen mit relativ hoher und niedriger Expression für jedes Gen gemäß dem Median der Expressionsniveaus zeigen. K–M, Kaplan–Meier AIC, Akaike Informationskriterium OS, Gesamtüberleben.

Etablierung und Validierung des Polygenic Risk Score Modells

Wir haben die Expressionsdaten der fünf Gene und den entsprechenden Koeffizienten aus der obigen multivariaten Regressionsanalyse integriert, um das Risiko-Score-Modell zu erstellen. Alle Patienten im Trainingsdatensatz von <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058 (n = 41) wurden in Hochrisiko- (Risikoscore > 0) und Niedrigrisikogruppen (Risikoscore < 0) unterteilt (Abbildung 4A). Wie in Abbildung 4B gezeigt, wurde das Überleben in der Niedrigrisikogruppe häufiger beobachtet, während der Tod in der Hochrisikogruppe häufiger vorkam. LIMS1, SAMD4A, und SPARC tendenziell hochreguliert, während AMN1 und ZP3 wurden bei Patienten der Hochrisikogruppe herunterreguliert ( 4C ). Die K–M OS-Analyse prognostizierte ein schlechteres OS-Ergebnis in der Hochrisikogruppe (Log-Rank-Test, P = 0,0006) ( 4D ). Unterdessen betrugen die AUCs einer zeitabhängigen ROC-Kurve, die mit dem auf fünf Genen basierenden Risiko-Score-Modell berechnet wurde, Ϡ,8 (Abbildung 4E), was darauf hindeutet, dass das Prognosemodell eine hohe Sensitivität und Spezifität aufwies.

Das Fünf-Gen-Risiko-Score-Modell für den <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058-Datensatz (n = 41). (EIN) Streudiagramm mit der Risikobewertung jedes Patienten im <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058-Datensatz. Die Patienten wurden entsprechend dem Risikoscore in Hoch- oder Niedrigrisikogruppen eingeteilt. Die blauen Diagramme stellen die Patienten der Niedrigrisikogruppe (Risikoscore ≤ 0) dar, während die roten Diagramme Patienten der Hochrisikogruppe (Risikoscore > 0) darstellen. (B) Die Verteilung des Überlebensstatus von Patienten mit Osteosarkom in den Hoch- oder Niedrigrisikogruppen. (C) Der Expressionsstatus der fünf prognostischen Gene bei 41 Patienten mit Osteosarkom im <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058-Datensatz . (D) K–M-Überlebenskurven, die den Unterschied im OS zwischen Hoch- und Niedrigrisikopatienten (41 Patienten) zeigen (Log-Rank-Test, P = 0.0006). (E) Zeitabhängige ROC-Kurvenanalyse zur Vorhersage des Überlebens unter Verwendung des Fünf-Gen-Prognosemodells. Die AUCs des 1-, 3- und 5-Jahres-OS sind in der Abbildung dargestellt. AUC, Fläche unter der Kurve K–M, Kaplan–Meier OS, Gesamtüberleben ROC, Receiver Operating Characteristic.

Der Target-OS-Datensatz wurde außerdem verwendet, um die Vorhersagewerte des polygenen Risikoscores zu überprüfen. Nach der multivariaten Cox-Regressionsanalyse wird die globale P-Wert (Log-Rank-Test) des Fünf-Gen-Prognosemodells für den Target-OS-Datensatz war π.05 (Ergänzende Abbildung S1A). Insgesamt 88 Patienten wurden anhand des optimalen Cutoff-Wertes des Risikoscores in die Niedrig- und Hochrisikogruppe eingeteilt (Ergänzende Abbildungen S1B𠄽). Die K–M-Kurven von zwei Gruppen auf der Grundlage der Risikowerte waren signifikant unterschiedlich (Log-Rank-Test, P < 0,05) und AUCs von zeitabhängigen ROC-Kurven zeigten auch, dass das Fünf-Gen-Risikomodell ein günstiger Ansatz zur Vorhersage des OS von Patienten mit Osteosarkom sein könnte (Ergänzende Abbildungen S1E,F).

Konstruktion des prädiktiven Nomogramms basierend auf dem Risk-Score-Modell für die prognostische Vorhersage

Zur Visualisierung des Cox-Regressionsmodells wurde ein Nomogramm zur Vorhersage der 1-, 3- und 5-Jahres-OS-Wahrscheinlichkeit für Patienten mit Osteosarkom im <"type":"entrez-geo","attrs":<"text . erstellt ":"GSE39058","term_id":"39058">> GSE39058-Datensatz (n = 41). Die Prädiktoren des Nomogramms umfassten Alter, Geschlecht, Nekrose, Rezidiv und Risikogruppe (Abbildung 5A). Das in Fig. 5B gezeigte Kalibrierungsdiagramm veranschaulicht die Leistung des Nomogramms. Die Kalibrierungsdiagramme lagen nahe der idealen grauen Vorhersagelinie (45° -Linie), was darauf hindeutet, dass unser Nomogramm bei der Vorhersage der Überlebenswahrscheinlichkeit gut abgeschnitten hat (Abbildung 5B). Um den prädiktiven Effekt der Risikogruppe als Indikator für das OS zu beurteilen, haben wir das Nomogramm auf einen bestimmten Patienten angewendet ( <"type":"entrez-geo","attrs":<"text":"GSM954850","term_id ":"954850">> GSM954850) in <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058 ( Abbildungen 5C,D ) . Der Patient <"type":"entrez-geo","attrs":<"text":"GSM954850","term_id":"954850">> GSM954850 ist nach 750 Tagen abgelaufen. Nach dem Modell mit Risikogruppe lag die prognostizierte Sterbewahrscheinlichkeit nach 1.095 Tagen bei 0,815, dieser Wert war deutlich höher als im Modell ohne Risikogruppe (0,659). Dieses Ergebnis impliziert, dass das Vorhersagemodell, das die Risikogruppe als Parameter enthält, genauer ist als das Modell ohne Risikogruppe.

Nomogramm zur Vorhersage der Wahrscheinlichkeit eines 1-, 3- und 5-Jahres-OS bei Patienten mit Osteosarkom. (EIN) Nomogramm, das die auf der Punkteskala (der Aufwärtslinie) identifizierten Punkte für jede Variable addiert. Die auf den unteren Skalen projizierten Gesamtpunkte geben die Wahrscheinlichkeit eines 1-, 3- und 5-Jahres-OS an. (B) Kalibrierungsdiagramm zur Vorhersage des 1-, 3- und 5-Jahres-OS. Die graue Linie repräsentiert den Idealzustand. (C,D) Die Nomogramme, die die Wahrscheinlichkeit eines 1-, 3- und 5-Jahres-OS für den spezifischen Patienten vorhersagen <"type":"entrez-geo","attrs":<"text":"GSM954850","term_id":" 954850">> GSM954850 basierend auf dem Modell, das die Risikogruppe in der <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058"> . enthält oder nicht enthält > GSE39058-Datensatz. OS, Gesamtüberleben DFS, krankheitsfreies Überleben.

Identifizierung von SE-bezogenen Hub-Genen bei Osteosarkomen mithilfe von WGCNA und einem Protein–Protein-Interaktionsnetzwerk

Die gewichtete Gen-Co-Expressions-Netzwerkanalyse ist eine weitere bioinformatische Methode zur Analyse klinischer Merkmale, die mit dem Ausmaß der Genexpression verbunden sind. Eine Clusteranalyse wurde durchgeführt, um die Heatmap der klinischen Merkmale anzuzeigen ( 6A ). Wie in Abbildung 6B gezeigt, wurde β = 9 über die Vorhersage der Skalenunabhängigkeit und der mittleren Konnektivität (Abbildung 6B) als bester weicher Schwellenwert ausgewählt, um das Gen-Co-Expressionsnetzwerk zu konstruieren. Anschließend wurden Eigengene in verschiedenfarbige Module unterteilt, wodurch 17 verschiedene Module entstanden. Eine Heatmap für die Modul-Trait-Beziehung wurde gemäß dem Korrelationskoeffizienten von Pearson entwickelt (Abbildung 6C). Drei Module zeigten eine höhere Korrelation mit klinischen Merkmalen: MEgray60 mit Rezidiv (R = 0.37, P = 0,01) MEblue mit Tod (R = 0.33, P = 0,03) und MEpink mit Überlebenszeit (R = 0.47, P = 0,002) ( 6C ). Ein Streudiagramm zeigte auch, dass das MM dieser drei Module positiv mit GS korreliert war (Abbildung 6D). Ein Venn-Plot von SE-assoziierten Genen, die von der SE-assoziierten Genmatrix abgeleitet wurden, wurde gezeichnet, und die Gene innerhalb von drei Modulen wurden geschnitten ( 6E ). Es gab 13, 70 und 16 Interaktionsgene zwischen den Modulen grey60, blue, pink und SE-assoziierten Genen. Die Interaktionsgene wurden in zahlreichen krebsbezogenen Signalwegen angereichert, wie etwa Proteoglykanen bei Krebs und Transkriptionsfehlregulation bei Krebs ( 6F ). Darüber hinaus konstruierten wir ein Gen-Wirkstoff-Interaktionsnetzwerk unter Verwendung der fünf Gene und verwandter Medikamente (Ergänzende Abbildung S2). Alle fünf Gene interagierten mit JQ1 (einem etablierten SE-Inhibitor). Das Netzwerk zeigte, dass diese fünf Gene wahrscheinlich bis zu einem gewissen Grad durch SE reguliert werden. Schließlich zeigten wir die Signalspuren für die H3K27ac-, H3K4me1- und H3K4me3-ChIP–seq-Profile der fünf Gene (Abbildung 7). Wir beobachteten fünf vorhergesagte SEs in der Nähe dieser fünf Gene. Diese Daten legen nahe, dass die Expression der fünf Gene durch SE reguliert wird. Darüber hinaus kann der SE-Inhibitor JQ1 das Expressionsmuster in U2OS-Zellen regulieren.

Identifizierung von SE-bezogenen Hub-Genen beim Osteosarkom basierend auf dem <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058-Datensatz durch WGCNA-Analyse . (EIN) Clusteranalyse zwischen der Genexpression im <"type":"entrez-geo","attrs":<"text":"GSE39058","term_id":"39058">> GSE39058-Datensatz und Probenausreißern oder klinischen Merkmalen. Die Farbintensität war proportional zu Probenausreißern, Alter, Geschlecht, Nekrose, Rezidiv und Überlebenszeit. (B) Analyse der Skalenunabhängigkeit und der mittleren Konnektivität (vertikale Achse) für verschiedene weiche Schwellwerte (β Wert der horizontalen Achse). (C) Heatmap der Korrelation zwischen Modulen und klinischen Merkmalen des Osteosarkoms P-Werte in der Tabelle geben die Korrelation zwischen Modulen und klinischen Merkmalen an. Drei Module hatten eine hohe Korrelation mit klinischen Merkmalen: MEgray60 mit Rezidiv (R = 0.37, P = 0,01) MEblue mit Tod (R = 0.33, P = 0,03) und MEpink mit Überlebenszeit (R = 0.47, P = 0.002). (D) Streudiagramm, das den MM im Vergleich zum GS von Modulgenen im Zusammenhang mit dem Tod im blauen Modul, dem Rezidiv im grauen 60-Modul oder der Überlebenszeit im rosa Modul zeigt (horizontale Achse: MM bedeutet Modulzugehörigkeit, vertikale Achse: GS bedeutet Gensignifikanz). (E) Venn-Plot der SE-bezogenen Gene und Eigengene in den blauen, grauen60 und rosa Modulen. Es gibt 70, 13 bzw. 16 korrelierte Gene. (F) KEGG-Pfadanalyse der oben korrelierten Gene im Venn-Plot. KEGG, Kyoto Encyclopedia of Genes and Genomes SE, Super-Enhancer WGCNA, gewichtete Gen-Co-Expressionsnetzwerkanalyse.

Signalspuren für H3K27ac (rot), H3K4me1 (lila) und H3K4me3 (grün) ChIP–seq-Profile der fünf SE-assoziierten Hub-Gene, visualisiert mit IGV. Die Regionen von SE werden in einem rosa Balken auf den Signalspuren angezeigt. ChIP–seq, Chromatin Immunopräzipitation–sequencing SE, Super-Enhancer IGV, Integrative Genomics Viewer.


Ergebnisse

Nachweis taxonomischer Biomarker

Um die wichtigsten Kandidaten für Mikrobiota-Biomarker zu identifizieren, die in Morbus Crohn und gesunden Proben vorhanden sind, wurde ein Kladogramm erstellt, um die relative Häufigkeit von Bakterien zu demonstrieren. Mit dem LEfSe-Tool identifizierten wir 40 verschiedene häufig vorkommende mikrobielle taxonomische Merkmale in Kontrollproben, Stuhlproben und Schleimhautgewebeproben von CD. Der kleine Kreis auf dem Kladogrammring stellt einen taxonomischen Rang dar, der basierend auf den LDA-Werten unterschiedliche Häufigkeitswerte zwischen den Gruppen aufweist. Alle erkannten mikrobiellen taxonomischen Merkmale können in einem Kladogramm dargestellt werden, das signifikante Unterschiede zwischen drei Arten von Proben hervorhebt (siehe Abb.  3 (oben)). Wir diskutieren speziell die Ergebnisse von Familien- und Gattungsbiomarkern. Die LEfSe-Analyse ergab Streptokokkengewächse, Lactobacillales, und Pseudomonadengewächse sind im CDS unterschiedlich häufig, während Porphyromonadaceae, Shewanellaceae, und Enterobakterien sind in CDT unterschiedlich häufig. Bacteroidaceae, Lachnospiraceae, Rikenellaceae, und Ruminococcaceae wurden als taxonomische Biomarker für gesunde Personen identifiziert.

Aus LEfSe generierte Kladogramme zum Nachweis von Biomarkern in taxonomischen (oben) und metabolischen Funktionswegen (unten)

Nachweis von metabolischen funktionellen Biomarkern

Zusätzlich zur mikrobiellen Zusammensetzung verglichen wir auch unterschiedlich viele funktionelle und metabolische Eigenschaften in drei mikrobiellen Proben. Abbildung  3 (unten) zeigt 135 unterschiedliche Funktionsmodule, die in den mikrobiellen Gemeinschaften nachgewiesen wurden, die CDT, CDS und HCS entsprechen. Während im gesamten menschlichen Mikrobiom verschiedene mikrobielle Stoffwechselfunktionen ausgeführt werden, könnten bestimmte Teilmengen dieser Funktionalität in verschiedenen Arten von Proben angereichert werden. Das LEfSe-Tool hebt diese spezifischen Stoffwechselmerkmale (KEGG-Module) hervor, wie in Abb.  3 (unten) gezeigt. Module wie Biosynthese von Lysin (M00016) und UMP (M00051) wurden in gesunden Kontrollproben unterschiedlich angereichert. Wir fanden auch, dass die Glutathion-Biosynthese (M00118), der Metabolismus der schwefelhaltigen Aminosäuren Cystein (M00338) und die Methionin-Biosynthese (M00017) in CDT signifikant angereichert waren. Darüber hinaus sind einige weitere Module essentiell für grundlegende Lebensaktivitäten prokaryotischer Zellen, wie der zentrale Kohlenhydratstoffwechsel ( <"type":"entrez-nucleotide","attrs":<"text":"M00002","term_id":" 202949","term_text":"M00002">> M00002-M00007) und der Aminosäurestoffwechsel (M00018, M00019, M00020, M00118 und M00338) sind im Kladogramm hervorgehoben. Diese Ergebnisse zeigen ausschließlich, dass die spezifischen Stoffwechselmodule in unterschiedlichen biologischen Proben angereichert sind.

Nachweis bakterieller Wechselwirkungen

Wir untersuchten die interbakteriellen Assoziationsnetzwerke auf Familien- und Gattungsebene in drei Umgebungen (CDT, CDS und HCS). Tabelle  1 und Zusätzliche Dateiਁ präsentieren die Ergebnisse der positiven und negativen Assoziationen zwischen Bakterien durch einen Korrelationsansatz von Spearman’. In Stuhlproben von Morbus-Crohn-Patienten und gesunden Personen wurden weniger Assoziationen identifiziert als in Schleimhautgeweben von Morbus-Crohn-Proben.

Tabelle 1

Interbakterielle Korrelationen in allen Probengruppen

Taxonomische KladeTaxonomische KladeR2
CDSf__Bakteroidaceaef__Lachnospiraceae0.94
f__Aerococcaceaef__Fusobacteriaceae0.98
HCSf__Prevotellaceaef__RF160.98
f__Bacillaceaef__Staphylokokkengewächse0.98
f__Rikenellaceaef__Ruminococcaceae0.97
CDTf__Aeromonadaceaef__Shewanellaceae0.81
f__BA059f__Syntrophobacteraceae0.72
f__Planococcaceaef__Gallionellaceae0.72
f__Porphyromonadengewächsef__Pseudomonadaceae0.71
f__Carnobacteriaceaef__Streptokokkengewächse0.70
f__Moraxellaceaef__Pseudomonadaceae0.68
f__Mikrobakterienf__Spirochaetaceae0.68
f__BA059f__Gallionellaceae0.68
f__Peptococcaceaef__Alteromonadaceae0.68
f__Peptococcaceaef__Sinobacteraceae0.68
f__Nitrospiraceaef__Syntrophobacteraceae0.68
f__Procabacteriaceaef__Halomonadaceae0.68
f__Veillonellaceaef__Pseudomonadaceae-0.66
f__Porphyromonadengewächsef__Shewanellaceae0.66

In Schleimhautgeweben von Patienten mit Morbus Crohn wurden 13 positive mit einer negativen Beziehung zwischen Bakterienfamilien festgestellt. Eine starke positive Korrelation zwischen Aeromonadengewächse und Shewanellaceae wurde in Tabelle  1 beobachtet und beide haben gemeinsame Vorfahren in ihren evolutionären Abstammungslinien. Es gab auch starke positive und negative Assoziationen zwischen Bakteriengattungen bei CDT und CDS. Wie bei CDT wurden bei CDS und gesunden Einzelproben signifikant starke positive Wechselwirkungen beobachtet. Alle beobachteten interbakteriellen Assoziationen auf Gattungsebene haben in unserem Ergebnis eine hohe Korrelation miteinander gezeigt. Zum Beispiel, Prevotellaceae mit HF 16, und Bacillaceae mit Staphylokokkengewächse, sind hoch korreliert zusammen mit einer gemeinsamen evolutionären Abstammung. Daher zeigen diese Ergebnisse, dass es Unterschiede in den mikrobiellen Interaktionen zwischen CD-Patienten und HCS gibt. Ähnliche Unterschiede in der bakteriellen Verwandtschaft spiegelten sich in anderen Probengruppen wider.

Nachweis von Assoziationen zwischen bakteriellen Taxa und mikrobiellen Signalwegen

Für alle Bakterien mit starken Assoziationen in den vorherigen Ergebnissen haben wir ihre hochkorrelierten KEGG-Orthologe identifiziert (Tabellen  2 und ​ und3 3 ).

Tabelle 2

Identifizierung von Assoziationen zwischen Bakterienfamilien und ihren mikrobiellen Signalwegen mit der KO-Dichte im Stuhl von Morbus Crohn

Tisch 3

Identifizierung von Assoziationen zwischen Bakterienfamilien und ihren mikrobiellen Signalwegen mit der KO-Dichte im Morbus Crohn-Gewebe

KEGG-Ortholog (KO)ModulDichte
f_Pseudomonadaceaef_Moraxellaceae <"type":"entrez-nucleotide","attrs":<"text":"K00404","term_id":"162411","term_text":"K00404">> K00404, <"type":"entrez -nucleotide","attrs":<"text":"K00405","term_id":"162413","term_text":"K00405">> K00405, <"type":"entrez-nucleotide","attrs" :<"text":"K00406","term_id":"162414","term_text":"K00406">> K00406, <"type":"entrez-nukleotid","attrs":<"text":" K00407","term_id":"162416","term_text":"K00407">> K00407M001560.80
f_Pseudomonadaceae <"type":"entrez-nucleotide","attrs":<"text":"K01856","term_id":"174057","term_text":"K01856">> K01856, <"type":"entrez -nucleotide","attrs":<"text":"K03464","term_id":"197513","term_text":"K03464">> K03464, <"type":"entrez-nucleotide","attrs" :<"text":"K01055","term_id":"172411","term_text":"K01055">> K01055, <"type":"entrez-nukleotid","attrs":<"text":" K03381","term_id":"210219","term_text":"K03381">> K03381M005680.80
f_Moraxellaceae <"type":"entrez-nucleotide","attrs":<"text":"K01856","term_id":"174057","term_text":"K01856">> K01856, <"type":"entrez -nucleotide","attrs":<"text":"K03464","term_id":"197513","term_text":"K03464">> K03464, <"type":"entrez-nucleotide","attrs" :<"text":"K01055","term_id":"172411","term_text":"K01055">> K01055M005680.60
f_Pseudomonadaceaef_Moraxellaceae <"type":"entrez-nucleotide","attrs":<"text":"K00457","term_id":"343194","term_text":"K00457">> K00457, <"type":"entrez -nucleotide","attrs":<"text":"K00451","term_id":"208933","term_text":"K00451">> K00451, <"type":"entrez-nucleotide","attrs" :<"text":"K01800","term_id":"161416","term_text":"K01800">> K01800, <"type":"entrez-nukleotid","attrs":<"text":" K01555","term_id":"174453","term_text":"K01555">> K01555M000440.67
f_Pseudomonadaceaef_Moraxellaceae <"type":"entrez-nucleotide","attrs":<"text":"K00166","term_id":"175799","term_text":"K00166">> K00166, <"type":"entrez -nucleotide","attrs":<"text":"K00167","term_id":"174925","term_text":"K00167">> K00167, K09699, <"type":"entrez-nucleotide"," attrs":<"text":"K00253","term_id":"175764","term_text":"K00253">> K00253, <"type":"entrez-nukleotid","attrs":<"text" :"K00249","term_id":"176448","term_text":"K00249">> K00249, <"type":"entrez-nukleotid","attrs":<"text":"K01968","term_id ":"508622","term_text":"K01968">> K01968, <"type":"entrez-nukleotid","attrs":<"text":"K01969","term_id":"171834"," term_text":"K01969">> K01969,K1376M000360.62
f_Pseudomonadaceaef_MoraxellaceaeK02274, <"type":"entrez-nucleotide","attrs":<"text":"K02275","term_id":"188926","term_text":"K02275">> K02275, <"type": "entrez-nukleotid","attrs":<"text":"K02276","term_id":"188927","term_text":"K02276">> K02276M001550.60

Mehrere KEGG-Orthologe beziehen sich auf den V/A-Typ H+/Na+, der die ATPase-Untereinheit A transportiert ( <"type":"entrez-nucleotide","attrs":<"text":"K02117","term_id":"146697"> > K02117), B ( <"type":"entrez-nucleotide","attrs":<"text":"K02118","term_id":"151839","term_text":"K02118">> K02118), C( <"type":"entrez-nukleotid","attrs":<"text":"K02119","term_id":"153938","term_text":"K02119">> K02119), D( <" type":"entrez-nukleotid","attrs":<"text":"K02120","term_id":"210767","term_text":"K02120">> K02120), E( <"type":" entrez-nucleotide","attrs":<"text":"K02121","term_id":"330029","term_text":"K02121">> K02121), I( <"type":"entrez-nucleotide" ,"attrs":<"text":"K02123","term_id":"335123","term_text":"K02123">> K02123) und K( <"type":"entrez-nucleotide","attrs ":<"text":"K02124","term_id":"216170","term_text":"K02124">> K02124) zeigte eine positive Korrelation (Spearman’s Korrelation Ϡ.6, FDR π.05 ) mit Bacteroidaceae und Lachnospiraceae in CDS (Tabelle  2 ). These strong correlations between the abundances of bacteria taxon and gene abundances (KO) highlight genes relevant to disease phenotype in the bacterial species. A V-type ATPase in prokaryotes (M00159) KEGG module was highly associated (KO density Ϡ.6) with above mentioned KOs in the stool samples from Crohn’s disease patients. In the CDT, Table  3 shows Pseudomonadaceae und Moraxellaceae were found to be positively correlated with several genes (KO). For those significant associations between the taxonomic clades and metagenomic gene familes, 5 strongly associated KEGG modules, viz. Cytochrome c oxidase, cbb3-type (M00156), Catechol ortho-cleavage, catechol ⇒ 3-oxoadipate (M00568), Tyrosine degradation, tyrosine ⇒ homogentisate (M00044), Leucine degradation, leucine ⇒ acetoacetate + acetyl-CoA (M00036) and Cytochrome c oxidase, prokaryotes (M00155), were identified. Additional fileਂ shows the associations of all correlated bacterial genera with their highly correlated KEGG orthologues in CDT. Those three bacteria revealed strong associations with four KEGG modules, viz. Polyamine biosynthesis (M00134), Nucleotide sugar biosynthesis (M00554), PRPP biosynthesis (M00005), and Trans-cinnamate degradation (M00545).

Split graph analysis

The resulting split graph consists of two disjoint sets of nodes, where one set corresponds to correlated microbial communities, and the other set corresponds to their microbial metabolic pathways. We automatically extracted various important components (subgraphs) from the split graphs that model the integrated network in both samples (CDS and CDT). Again, the automatic extraction of such components is implemented by finding high-weighted maximal cliques in the split graph. Due to the independence of the nodes representing the pathways, each clique in the graph contained one node representing a pathway. A high-weighted clique is the graph which will contain a group of bacteria that are highly correlated and a pathway that is highly associated or impacted by such group.

In the CDS split graph, two bacteria at the family level, Bacteroidaceae und Lachnospiraceae, are highly correlated with each other (Spearman’s correlations 0.94, FDR π.05). This clique is associated with V-type ATPase, prokaryotes KEGG module (M00159) (Fig.  4 ). The quantified values for this association were weighted based upon calculating the proportions of KEGG orthologus (KO) for each correlated bacteria. Similarly, in the CDT split graph, a maximal clique of size two was identified with high correlation between Pseudomonadaceae und Moraxellaceae (Spearman’s correlations 0.68, FDR π.05) (Fig.  5 ) and multiple KEGG modules were connected to this clique of bacteria (KO density Ϡ.6). These KEGG modules in CDT are mainly involved in ATP synthesis and amino acid metabolism. Yet, the extent to which bacteria in the clique correspond to distinct functional modules in the split graph has remained largely unclear. We also extracted the split graph where the microbial components were considered at the genus level. At the genus level, we obtained multiple split graphs with different sizes of clique where each pair of bacteria are highly correlated (Spearman’s correlations Ϡ.6, FDR π.05) in CDT (See Additional fileਃ). Figure  6 represent two complete split graphs containing multiple high-weighted maximal cliques. For instance, three bacterial components correlated with PRPP biosynthesis microbial metabolic pathway constitute one of the high-weighted maximal cliques.

Split graph in Crohn’s disease stool samples at the family taxonomic level

Split graph in Crohn’s disease tissue samples at the family taxonomic level

Top two split graphs in Crohn’s disease tissue samples at the genus taxonomic level

We also visualized a heatmap of OTU abundances at the genus level to assess the abundance of bacteria in the samples (Fig.  7 ). The abundance of Blautia and unknown genus from Lachnospiraceae family and that of unknown genus from Ruminococcaceae family were observed to be high in CDT samples. Likewise, the bacterial genera, Veillonella und Bakteroiden, were also highly abundant in CDT group. In addition, there were no high-weighted maximal cliques obtained in split graph from CDS samples as none of the KEGG modules were significantly correlated to any of the highly correlated bacteria in CDS (Spearman’s correlation Ϡ.6, FDR π.05).

Heatmap of relative abundance of 23 bacterial genera in Crohn’s disease Stool (CDS), Crohn’s disease tissue (CDT) and control samples (HCS)

Comparison of Two Population Proportions Analysis

In the split graph, the extracted high-weighted maximal cliques of microbial communities with their metabolic pathways were mostly observed in the microbiome profiles obtained mucosal tissue samples of CD patients.

Among all correlated edges in CDT and CDS networks, proportion of the correlated edges with a common family is different between CDT and CDS networks (Table  4 ). In other words, the proportion of correlated edges in CDT with common family is significantly different to the proportion of correlated edges in CDS with common family. Similarly, the proportion of correlated edges with common class (and phylum) is also significantly different between CDT and CDS networks.

Tabelle 4

p-value from proportion test at different level of taxonomy

Previous studies on microbiomes in Crohn’s disease revealed that fecal bacterial ecosystems differ from those in the intestinal mucosal tissue [22, 23]. Studies of microbiome in fecal samples have more challenges in identifying their community associated with respect to disease initiation and progression due to the nature of the environment. Based on these observations, we can infer that microbial dysbiosis is less tended to be shifted toward lumens in a given disease state. In order to gain a better understanding of possible microbial mechanisms, the need to examine tissue biopsies along with stool samples are highlighted.


PathBank LAYOUT AND NAVIGATION

A screenshot montage of the PathBank interface and its search and browsing tools is shown in Figure 1. PathBank has a landing/home page very similar to that of its smaller cousin, SMPDB ( 15). This includes a short textual description of the database, a circulating ‘carousel’ of selected PathBank images and a series of tabs at the top of the page for navigation. An empty search box is located at the top left of each PathBank page. PathBank has five major tabs: (i) Browse (ii) Search (iii) About (iv) Downloads and (v) Contact Us. Under the Browse tab users may browse the website using four different pages: a) Pathways b) Table of Primary Pathways (TOPP) c) Compounds (metabolites or drugs) or d) Proteins. All pathway search and browse results are filterable by species (10 model species available) and by pathway type (Metabolite/Compound and Protein) using two dropdown filters. Additionally, selecting a pathway type will render visible a third dropdown menu to allow filtering of the results by pathway sub-categories (6 Metabolite/Compound pathway sub-categories and 15 Protein pathway sub-categories).

A screenshot montage of different browsing and searching screens taken from PathBank. A more detailed description of the different functions and capabilities of the various browse and search tools in PathBank is given in the text.

A screenshot montage of different browsing and searching screens taken from PathBank. A more detailed description of the different functions and capabilities of the various browse and search tools in PathBank is given in the text.

If users choose to browse by Pathway, a multi-page table is presented that contains four columns: (i) the PathBank identifier (with the thumbnail image) (ii) the pathway details, which includes the pathway name, species, description and download links (iii) the compounds (which are hyperlinked) and (iv) the proteins (which are also hyperlinked). Clicking on the thumbnail image of a given pathway will direct users to the full-size pathway image. Likewise, clicking on the metabolite/compound names (column iii) or protein names (column iv) will open a page with detailed compound descriptions (from the appropriate organism-specific metabolome database such as HMDB or from a specialized organism-specific database) or protein descriptions (from UniProt).

If the TOPP option is selected, a multi-page table is presented showing three columns: (i) the PathBank identifier (ii) the pathway name including the species name (if filtered by all species) and (iii) the link to the pathway view. In the TOPP, similarly named (replicated) pathways are grouped together to facilitate browsing of largely unique pathways. Groupings are represented by a single primary pathway, hence the table name, which has a clickable pathway name displayed in blue text. These hyperlinked pathways may be selected by the user to navigate to a popover view containing all of the related pathways which can be similarly browsed. In the case of lipid pathways, only the generic version of the pathway is listed in the main table the pathways for the specific lipids are browsable in the generic lipid's popover view.

Users can browse PathBank's compounds and proteins in much the same manner. Multi-page tables present compounds and proteins alphabetically in three columns: (i) the compound/protein's identifier along with the corresponding View buttons (ii) the compound/protein's name (with a short description) and (iii) the associated pathways (which are hyperlinked). Clicking on a compound's View button will take a user to the appropriate ‘Compound Card’, corresponding to the database most appropriate for the chosen (or filtered) organism. The default is HMDB if no organism has been selected. Clicking on a protein's corresponding View button will take a user to the appropriate ‘UniProt Card’. Unlike the pathway browse results, compounds and proteins are filterable only by species using the dropdown menu provided. An additional filter in the form of a Search box at the top right of the table allows users to filter the page by compound, protein or pathway name.

PathBank places a strong emphasis on providing users with high quality, artistically pleasing pathway diagrams that are not only correct and informative but also colorful, interactive and richly detailed. All of the pathway diagrams in PathBank use scalable vector graphics (SVG) and a web interface technology inspired by Google Maps. This allows rapid and continuous zooming using a mouse pad or a mouse scroll wheel or through simply clicking on-screen zoom icons. It also allows facile navigation around zoomed-in pathway diagrams through a simple click-and-drag operation or through clicking on-screen up/down or left/right arrows located near the on-screen zoom functions. A full-screen view of each PathBank pathway diagram is also available, which can be toggled off and on by clicking the full-screen icon located between the navigation arrows.

On the right side of each pathway diagram is a pathway display panel with five tabs (Description, Highlight, Analyze, Downloads, Settings/Display). The default view is the Description panel, which describes the pathway in detail and provides one or more literature references. The Highlight panel (viewed by clicking the ‘Highlight’ tab) allows users to select and color different proteins and metabolites for display purposes. The Analyze panel (viewed by clicking the ‘Analyze’ tab) allows users to enter concentration (relative or absolute) data on proteins/transcripts and/or metabolites and to have these colored on the pathway diagram. It is highly recommended that users switch to the black and white version of the pathway when using the highlight and analyze tools in order to clearly see the elements being colored. The download panel (viewable by clicking the ‘Download’ tab) allows users to select the type of file format that they wish to have their pathway image (annotated or untouched) saved as. Options are available for downloading images in BioPAX ( 22) image format (full color SVG, grayscale SVG, simple SVG, large font SVG, and simple large font SVG), BioPAX only format, SBGN ( 23), SBML ( 24), PWML (a custom PathWhiz format), PNG or all of the above. At last, the Display panel (viewed by clicking the ‘Display’ tab) allows users to change the pathway display to suit a particular taste or application. Users may toggle between simple (thick line) and complex (individual lipid) membranes between a dark blue (aqueous) background or a white background between the full color, highly detailed version and the simplified KEGG-like (black and white) representation and finally between full-names of pathway components and their large font abbreviations. There is also an additional fifth option to render the simplified (KEGG-like) pathway representation using the easier-to-read large font abbreviations.

In addition to these browsing functions, PathBank also offers extensive search functions. These include a general text search (available at the top of every PathBank web page) as well as several, more specific, search functions listed under the ‘Search’ tab. The text search supports Boolean logic (AND, OR and NOT operations) along with field-specific searches covering compound names, protein names, compound/protein identifiers, pathway names, and pathway descriptions. Instructions for the text search are accessible using the Search dropdown list. There are four additional searches available: (i) the Path-MAP Advanced Search (ii) the ChemQuery Structure Search (iii) the Molecular Weight Search and (iv) the Sequence Search. The Path-MAP search allows users to enter long lists of compound names, protein names, compound identifiers, protein identifiers or gene identifiers to search for organism-specific pathways enriched with these entities. The result is a list of pathways with enrichment scores calculated using the frequency of matches and the number of pathway entities as scaled using a hypergeometric function. It is also possible to enter similar lists with Path-MAP but with concentrations or relative concentrations, as might be obtained from a typical proteomics, transcriptomics or metabolomics experiment. The result of this type of search is a pathway annotated and colored with the corresponding metabolite/protein concentrations according to a yellow (low)-red (high) concentration gradient. Other searches such as the ChemQuery and Molecular Weight searches are intended for metabolite or compound searching against PathBank's chemical database of 78 271 compounds and are identical to those used by HMDB, SMPDB and many other databases. The Sequence search uses BLAST ( 25) to find sequence matches or sequence similarities to the protein sequences within PathBank's sequence database of 8973 proteins.

PathBank's ‘About’ tab provides additional information about PathBank, its associated release notes, the required citations, database statistics, the PathBank style guide, links to other Pathway Databases, as well as images (via a Pathway legend) for the different components (organelles, organs, tissues) seen in PathBank pathways. PathBank's ‘Download’ tab allows users to download pathways, metabolite names and protein names (in CSV files) as well as all of its pathways in BioPAX, SBGN, SBML and PWML format. A subset of PathBank's pathways (i.e. the primary pathways browsable through the TOPP) are also downloadable in SVG and PNG format. Due to the extremely large file size, users who wish to download all pathway images will need to submit a request using PathBank's Contact form. All of PathBank's sequences (both gene and protein) are available in FASTA text format, all of its chemical structures are available in SDF format and all of its reactions are available in RXN format.


Release Notes

Current release (MBROLE version 2.0) analyzes annotations from the following releases of the databases:

    (Kyoto Encyclopedia of Genes and Genomes) release 54.1. (Human Metabolite Database) version 3.5. (Yeast Metabolite Database) version 1.0. release July 2014. version 17.1 Updated Mar 18, 2014. (Medical Subject Heading) Updated Feb 25, 2014. version 4.0. Release Jan, 2014. (Chemical Entities of Biological Interest) release 116 (June, 2014). (Chemical Entities of Biological Interest) release 47 (April, 2014). version 1.0. (E coli Metabolome Database) version 1.0.

Hintergrund

One important goal of computational systems biology is the development of mathematical models for complex metabolic reaction networks. The type of such models and their predictive capacity depend on the available biochemical knowledge. Generally, one may distinguish two main steps in network modelling: (i) stoichiometric network reconstruction and (ii) network analysis (see figure 1). Necessary prerequisite for any type of mathematical network model is the knowledge of the network stoichiometry, i. e. reactions, membrane transport processes and associated metabolites. For eukaryotic cells, stoichiometric reconstruction of the network includes the assignment of reactions to cellular compartments. Based on the stoichiometric matrix of the network one may perform structural analyses as, for example, identification of elementary flux modes [1], possible routes for a self-consistent expansion of the network starting with some initial seed compounds [2] or calculation of stationary flux distributions based on constraint optimization [3–5]. One central issue in such analyses is to define the possible directionality of a cellular reaction. To decide on this one has to know the (Gibb's) standard free energy change of the reaction and the range within which the ligand concentrations may vary. Compared to structural modelling, a deeper insight into the regulation of reaction networks in response to external variations can be achieved on the basis of kinetic models. For the establishment of kinetic network models rate equations for all reactions and transport processes need to be set up. SABIO-RK and the Chemical Kinetics Database NIST collect kinetic data from the literature. Moreover, application of structural modelling approaches to complex eukaryotic cells requires information on the localization of the reactions in the various intracellular organelles as well as the transport of metabolites among the organelles. The biochemical information required for stoichiometric network reconstruction is spread over various data sources.

Intercorrelation of METANNOGEN with knowledge-bases and network modelling tools. The user manually collects information from biochemical reactions. The network is exported as a SBML file and may be processed with network modelling/analyzing tools.

Comprehensive collections for biochemical reactions are KEGG [6], BIOCYC, [7], REACTOME [8] and UM-BBD [9]. For information on cellular compartmentalization and substrate specificity the enzyme database BRENDA [10] is valuable. Sometimes the cellular compartment of an enzyme reported in databases or publications might not be the site of its action. For example, a mitochondrial enzyme might be firmly attached to the mitochondrial wall and catalyses the biochemical reaction not inside but outside the mitochondrial matrix. Therefore literature search is necessary to obtain detailed knowledge on the biochemical reactions under consideration. There are several approaches to combine information from many sources. The AMAZE LIGHTBENCH combines a variety of information which is accessible with a web browser [11]. Available modelling programs usually allow to edit biochemical networks with a graphical network editor. This approach is sufficient for small networks but for large networks comprising many metabolic reactions an information storage system is required. The recently developed database system META-ALL allows users to enter data on biochemical reactions into a locally running ORACAL database with Web-clients [12]. The resulting model can be exported in SBML format. The program EPE is a visual editor for biological networks including metabolic networks and allows to add annotations.

To facilitate the exploitation of various information sources for the stoichiometric reconstruction of metabolic networks we have developed the interactive computer program METANNOGEN (Figure 1). In contrast to other programs for building user defined reaction network METANNOGEN uses the database KEGG of biochemical reactions as primary information source from which biochemical reactions relevant to the considered network can be selected, edited and stored. The advantages of our approach are that (I) only reaction equations not stored in KEGG need to be entered manually, (II) that the graphical pathway representation of KEGG are used, which look familiar because their layout resembles figures in text books on Biochemistry,(III) that the KEGG database can be updated without affecting the user data and (IV) that the immutable identifiers are provided for compounds and reactions by KEGG.


Drug Repurposing: A Network-based Approach to Amyotrophic Lateral Sclerosis

The continuous adherence to the conventional “one target, one drug” paradigm has failed so far to provide effective therapeutic solutions for heterogeneous and multifactorial diseases as amyotrophic lateral sclerosis (ALS), a rare progressive and chronic, debilitating neurological disease for which no cure is available. The present study is aimed at finding innovative solutions and paradigms for therapy in ALS pathogenesis, by exploiting new insights from Network Medicine and drug repurposing strategies. To identify new drug-ALS disease associations, we exploited SAveRUNNER, a recently developed network-based algorithm for drug repurposing, which quantifies the proximity of disease-associated genes to drug targets in the human interactome. We prioritized 403 SAveRUNNER-predicted drugs according to decreasing values of network similarity with ALS. Among catecholamine, dopamine, serotonin, histamine, and GABA receptor modulators, as well as angiotensin-converting enzymes, cyclooxygenase isozymes, and serotonin transporter inhibitors, we found some interesting no customary ALS drugs, including amoxapine, clomipramine, mianserin, and modafinil. Furthermore, we strengthened the SAveRUNNER predictions by a gene set enrichment analysis that confirmed modafinil as a drug with the highest score among the 121 identified drugs with a score > 0. Our results contribute to gathering further proofs of innovative solutions for therapy in ALS pathogenesis.

Dies ist eine Vorschau von Abonnementinhalten, auf die Sie über Ihre Institution zugreifen können.


Methoden

Selection of samples and reads filtering

Illumina sequences were downloaded from Sequence Read Archive (SRA), MG-RAST or JGI Genome portal databases. Quality check and adaptors removal were performed using Trimmomatic (v0.33) and bbduk (version released Nov 2016) (https://jgi.doe.gov/data-and-tools/bbtools/). The composition of the feedstocks used in the different reactors was approximated using substrate information from various sources (Additional file 1). When available, metadata were taken from the publicly accessible description of the respective experiments or full-scale plant operation datasets. Otherwise, reactor feedstock compositions were estimated from the available literature, and were expressed in terms of carbohydrate, protein, lipid and VFA fractions relative to their total solid (TS) content.

Montage

Reads were assembled using Megahit (v1.1.1) with “−sensitive” mode for samples having less than 40 Gb of sequenced bases and with “–large” for the remaining [50]. Quality of the assemblies was determined using QUAST (v3.1) [51] and the results are reported in Additional file 8.

Binning

Using MetaBAT 2 (v2.12.1) bam files were inspected and each assembly was binned using standard parameters [52]. Minimum size of scaffolds considered for MAGs generation was 1.5 kbp. MAGs were checked for completeness (Cp) and contamination (Ct) using the “Lineage_wf” workflow of CheckM (v1.0.3) [53] and the result obtained for each MAG was determined using the formula: CC3 = Cp − (Ct*3). Removal of contamination from MAGs was performed using RefineM (v0.0.23) [54]. Threshold values used for defining the quality level of MAGs and to assign them to the categories “High Quality” (HQ), “Medium–High Quality (MHQ), “Medium Quality” (MQ) and “Low Quality” (LQ) were defined according to the standards recently described, except for the introduction of the MHQ class (Table 1) [55].

MAGs de-replication

MAGs obtained were de-replicated using Mash (v2.0) [56] on the entire genome sequences with very permissive parameters (0.05 Mash-distance, roughly equivalent to 0.95 ANI and 100/1000 Matching-hashes). Subsequently, a more precise analysis was performed applying the genome-wide Average Nucleotide Identity metric (ANI) using protein-encoding nucleotide sequences only [57]. MAGs were considered as belonging to the same species if they showed ANI value higher than 95% and reaching at least 50% of genome coverage for both strains (on at least one of the two comparisons, “MAG1 vs. MAG2” or “MAG2 vs. MAG1”). Details regarding the assembly and binning procedure are reported in Additional file 2.

Taxonomic assignment

Taxonomic classification was determined for 1635 MAGs obtained after de-replication and belonging at least to the MQ level. This approach was carried out as described previously [4] and more details can be found in the Additional file 2. MAGs were classified by comparison against all taxonomically classified taxa of the NCBI Genome Database (prokaryotic section) using Microbial Genomes Atlas MiGA Online [58].

MAGs coverage calculation and relative abundance

Filtered shotgun reads randomly selected from each sample were aligned back to the entire collection of MAGs. Ordered “bam” files were inspected using CheckM [53] to calculate both the fraction of reads aligned and the relative abundance of each MAG. Analysis was performed using all reads available for each sample and verified using a representative subsample of one million reads per sample. Results obtained using the two datasets of sequences were highly similar (Pearson correlation coefficient was > 0.999 on MAGs representing more than 0.001% of the population). Results obtained using one Mread per sample are reported in Additional file 8. The value (0.001%) was also defined as the arbitrary threshold for considering one MAG as “present in a specific sample”. Coverage values obtained for each MAG were clustered with MeV (v4.9.0) using Pearson correlation and average linkage [59]. The fraction of MAGs shared between different samples was visually represented using CIRCOS (v0.69) [60]. Alpha and beta diversity were determined from the file reporting the number of reads per MAG using Past (v3.21) [61]. The same tool was used for statistical tests and graphical plots.

Gene finding and annotation

Gene annotation was performed using three different procedures: (1) rapid annotation using subsystem technology (RAST annotation server) [62]. These results were reported in a table for comparative purposes (Additional file 14). (2) KEGG annotation and modules completeness were determined using “KEGG Mapping/Reconstructmodule.py” (https://github.com/pseudonymcp/keggmapping). Software assigned to the KEGG modules the results obtained from diamond (v0.9.22.123) alignment only results having max log e-value 1e−5, min bitscore 50, min identity 25 were recovered. Abundance of all the KEGG modules in each experiment was calculated with custom perl scripts (https://sourceforge.net/projects/perl-scripts-kegg/). Cluster analysis on “complete” or “1 bm” KEGG modules identified in HQ and MHQ MAGs was performed using MeV (v4.9.0) [59]. (3) Enzymes involved in carbohydrates utilization were annotated using the carbohydrate-active enzyme database (CAZy) annotation web server dbCAN (dbCAN-fam-HMMs.txt.v4) based on hmmscan. hmmscan-parser.sh was used to filter output file with default parameters (if alignment > 80aa, use E-value < 1e−5, otherwise use E-value < 1e−3 covered fraction of HMM > 0.3) (hmmer.org) [63] (Additional file 12). Abundance of specific functional classes was determined using hypergeometric analysis and p-values corrected using false discovery rate as described previously [64].

MAGs replication rate

Considering the genome size and the total number of reads mapped on each MAG, the coverage of each MAG was determined using Bowtie 2 (v2.2.4). The MAGs having completeness higher than 90%, contamination lower than 5%, a number of scaffolds per Mbp lower than 175 and a coverage value higher than five, were selected in order to determine their index of replication (iRep) applying the iRep software [45]. Pairwise Wilcoxon rank sum test was performed (pairwise.wilcox.test in R software v3.4.4) and p-values were corrected with Bonferroni adjustment. The number of replication origins in archaeal genomes was inspected using Ori-Finder 2 software [65] and those having none or more than one were excluded from further analyses.

Diversity indices, statistics and PCoA

β-diversity (pairwise sample dissimilarity, clustering method UPGMA) was calculated applying the ExpressBetaDiversity (EBD) software (v1.0.7) [66]. Statistical calculations (Mann–Whitney with Bonferroni correction for identification of taxa enriched in different groups and t-test for the comparison of the number of species in reactors fed with different substrate), diversity indexes (including for example Dominance, Simpson, Shannon H, Evenness, Fisher alpha, Berger–Parker, Chao-1) and β-diversity (pairwise sample dissimilarity, Whittaker) calculations were performed using past software (v3.21) [61]. PCoA was performed with past software using Bray–Curtis as distance measure solely acidogenic reactors were excluded from the analysis due to their strongly different microbial composition.


Schau das Video: Tutorial KEGG PATHWAY Database - PT-BR (August 2022).