Eine gute Anzahl von Methoden wurde entwickelt, um Gen-Co-Expressions-Netzwerke zu konstruieren. Im Prinzip folgen sie alle einem zweistufigen Ansatz: Berechnung des Co-Expressionsmaßes und Auswahl des Signifikanzschwellenwerts. Im ersten Schritt wird ein Co-Expressionsmaß ausgewählt und unter Verwendung dieses Maßes ein Ähnlichkeitswert für jedes Genpaar berechnet. Dann wird ein Schwellenwert bestimmt und Genpaare, die einen Ähnlichkeitswert haben, der höher ist als der ausgewählte Schwellenwert, werden als eine signifikante Koexpressionsbeziehung angesehen und durch eine Kante im Netzwerk verbunden.
Die Eingangsdaten zum Aufbau eines Gen-Co-Expressionsnetzwerks werden häufig als Matrix dargestellt. Wenn wir die Genexpressionswerte von m Genen für n Proben (Bedingungen) haben, wären die Eingabedaten eine m × n-Matrix, die als Expressionsmatrix bezeichnet wird. Zum Beispiel werden in einem Microarray-Experiment die Expressionswerte von Tausenden von Genen für mehrere Proben gemessen. Im ersten Schritt wird ein Ähnlichkeitswert (Co-Expression Measure) zwischen jedem Zeilenpaar in der Expressionsmatrix berechnet. Die resultierende Matrix ist eine m × m-Matrix, die Ähnlichkeitsmatrix genannt wird. Jedes Element in dieser Matrix zeigt, wie ähnlich sich die Expressionsniveaus zweier Gene zusammen ändern. Im zweiten Schritt werden die Elemente in der Ähnlichkeitsmatrix, die oberhalb einer bestimmten Schwelle liegen (d.h. eine signifikante Koexpression anzeigen), durch 1 und die übrigen Elemente durch 0 ersetzt. Die resultierende Matrix, die als Adjazenzmatrix bezeichnet wird, stellt den Graphen des konstruierten Gen-Coexpressionsnetzwerks dar. In dieser Matrix zeigt jedes Element an, ob zwei Gene im Netzwerk verbunden sind (die 1-Elemente) oder nicht (die 0-Elemente).
Co-Expressionsmaßbearbeiten
Die Expressionswerte eines Gens für verschiedene Proben können als Vektor dargestellt werden, so dass die Berechnung des Co-Expressionsmaßes zwischen einem Paar von Genen dasselbe ist wie die Berechnung des ausgewählten Maßes für zwei Vektoren von Zahlen.
Pearson’s correlation coefficient, Mutual Information, Spearman’s rank correlation coefficient und Euclidean distance sind die vier meist verwendeten Co-Expressionsmaße zur Konstruktion von Gen-Co-Expressionsnetzwerken. Der euklidische Abstand misst den geometrischen Abstand zwischen zwei Vektoren und berücksichtigt so sowohl die Richtung als auch die Größe der Vektoren der Genexpressionswerte. Die gegenseitige Information misst, inwieweit die Kenntnis der Expressionsniveaus eines Gens die Unsicherheit über die Expressionsniveaus eines anderen Gens verringert. Der Korrelationskoeffizient von Pearson misst die Tendenz zweier Vektoren, zusammen zuzunehmen oder abzunehmen, und gibt ein Maß für ihre Gesamtkorrespondenz. Die Spearmansche Rangkorrelation ist die Pearsonsche Korrelation, die für die Ränge der Genexpressionswerte in einem Genexpressionsvektor berechnet wird. Mehrere andere Maßnahmen wie partielle Korrelation, Regression und Kombination von partieller Korrelation und gegenseitiger Information wurden ebenfalls verwendet.
Jede dieser Maßnahmen hat ihre eigenen Vor- und Nachteile. Der euklidische Abstand ist nicht angemessen, wenn die absoluten Niveaus funktionell verwandter Gene sehr unterschiedlich sind. Wenn zwei Gene konstant niedrige Expressionsniveaus aufweisen, aber ansonsten zufällig korreliert sind, können sie im euklidischen Raum immer noch nahe beieinander liegen. Ein Vorteil der gegenseitigen Information besteht darin, dass sie nichtlineare Beziehungen erkennen kann; Dies kann jedoch zu einem Nachteil werden, da anspruchsvolle nichtlineare Beziehungen erkannt werden, die biologisch nicht sinnvoll erscheinen. Darüber hinaus sollte zur Berechnung der gegenseitigen Information die Verteilung der Daten geschätzt werden, die für eine gute Schätzung eine große Anzahl von Stichproben benötigt. Der Rangkorrelationskoeffizient von Spearman ist robuster gegenüber Ausreißern, andererseits ist er weniger empfindlich gegenüber Ausdruckswerten und kann in Datensätzen mit einer kleinen Anzahl von Stichproben viele falsch positive Ergebnisse erkennen.
Der Korrelationskoeffizient von Pearson ist das beliebteste Maß für die Koexpression, das beim Aufbau von Gen-Koexpressionsnetzwerken verwendet wird. Der Pearson-Korrelationskoeffizient nimmt einen Wert zwischen -1 und 1 an, wobei Absolutwerte nahe 1 eine starke Korrelation zeigen. Die positiven Werte entsprechen einem Aktivierungsmechanismus, bei dem die Expression eines Gens mit der Zunahme der Expression seines coexprimierten Gens zunimmt und umgekehrt. Wenn der Expressionswert eines Gens mit zunehmender Expression seines coexprimierten Gens abnimmt, entspricht dies einem zugrunde liegenden Suppressionsmechanismus und hätte eine negative Korrelation.
Das Pearson-Korrelationsmaß hat zwei Nachteile: Es kann nur lineare Beziehungen erkennen und reagiert empfindlich auf Ausreißer. Darüber hinaus geht die Pearson-Korrelation davon aus, dass die Genexpressionsdaten einer Normalverteilung folgen. Song et al. haben biweight Midcorrelation (Bicor) als gute Alternative für Pearsons Korrelation vorgeschlagen. „Bicor ist ein Median-basiertes Korrelationsmaß und robuster als die Pearson-Korrelation, aber oft leistungsfähiger als die Spearman-Korrelation“. Darüber hinaus wurde gezeigt, dass „die meisten Genpaare lineare oder monotone Beziehungen erfüllen“, was darauf hindeutet, dass „gegenseitige Informationsnetzwerke sicher durch Korrelationsnetzwerke ersetzt werden können, wenn es darum geht, Co-Expressionsbeziehungen in stationären Daten zu messen“.
Threshold selectionEdit
Es wurden mehrere Methoden zur Auswahl eines Schwellenwerts bei der Konstruktion von Gen-Co-Expressionsnetzwerken verwendet. Eine einfache Schwellwertmethode besteht darin, einen Co-Expression-Cutoff auszuwählen und Beziehungen auszuwählen, deren Co-Expression diesen Cutoff überschreitet. Ein anderer Ansatz besteht darin, die Z-Transformation von Fisher zu verwenden, die für jede Korrelation einen Z-Score basierend auf der Anzahl der Stichproben berechnet. Dieser Z-Score wird dann für jede Korrelation in einen p-Wert umgewandelt und ein Cutoff auf den p-Wert gesetzt. Einige Methoden permutieren die Daten und berechnen einen Z-Score unter Verwendung der Verteilung der Korrelationen zwischen Genen in permutierten Datensätzen. Einige andere Ansätze wurden ebenfalls verwendet, z. B. die Schwellenwertauswahl basierend auf dem Clustering-Koeffizienten oder der Zufallsmatrix-Theorie.
Das Problem bei p-Wert-basierten Methoden besteht darin, dass der endgültige Grenzwert für den p-Wert basierend auf statistischen Routinen gewählt wird (z. B. wird ein p-Wert von 0,01 oder 0,05 als signifikant angesehen), nicht basierend auf einer biologischen Einsicht.
WGCNA ist ein Framework zur Konstruktion und Analyse von gewichteten Gen-Co-Expressionsnetzwerken. Die WGCNA-Methode wählt den Schwellenwert für die Konstruktion des Netzwerks basierend auf der skalenfreien Topologie von Gen-Co-Expressionsnetzwerken aus. Diese Methode konstruiert das Netzwerk für mehrere Schwellenwerte und wählt den Schwellenwert aus, der zu einem Netzwerk mit skalierungsfreier Topologie führt. Darüber hinaus konstruiert die WGCNA-Methode ein gewichtetes Netzwerk, was bedeutet, dass alle möglichen Kanten im Netzwerk erscheinen, aber jede Kante hat ein Gewicht, das zeigt, wie signifikant die Co-Expressionsbeziehung ist, die dieser Kante entspricht. Bemerkenswert ist, dass die Schwellenwertauswahl Netzwerke zu einer skalierungsfreien Topologie zwingen soll. Die zugrunde liegende Prämisse, dass biologische Netzwerke skalenfrei sind, ist jedoch umstritten.
lmQCM ist eine Alternative für WGCNA, die das gleiche Ziel der Analyse von Gen-Co-Expressionsnetzwerken erreicht. lmQCM steht für local maximum Quasi-Clique Merger, mit dem Ziel, die lokal dichten Strukturen im Netzwerk auszunutzen, können kleinere und dicht co-exprimierte Module abgebaut werden, indem Modulüberlappungen ermöglicht werden. der Algorithmus lmQCM hat sein R-Paket und Python-Modul (gebündelt in Biolearns). Die im Allgemeinen kleinere Größe der abgebauten Module kann auch aussagekräftigere GO-Anreicherungsergebnisse (Gene Ontology) generieren.