ett stort antal metoder har utvecklats för att konstruera gen co-expression nätverk. I princip följer de alla ett tvåstegs tillvägagångssätt: beräkning av samuttrycksmått och val av signifikanströskel. I det första steget väljs ett samuttrycksmått och en likhetspoäng beräknas för varje par gener med hjälp av denna åtgärd. Därefter bestäms en tröskel och genpar som har en likhetspoäng högre än den valda tröskeln anses ha ett signifikant samuttrycksförhållande och är förbundna med en kant i nätverket.
ingångsdata för att konstruera ett gensamuttrycksnätverk representeras ofta som en matris. Om vi har genuttrycksvärdena för m-gener för n-prover (betingelser), skulle ingångsdata vara en m-matris, kallad expression matrix. Till exempel, i ett mikroarrayexperiment mäts uttrycksvärdena för tusentals gener för flera prover. I första steget beräknas en likhetspoäng (co-expression measure) mellan varje par rader i expression matrix. Den resulterande matrisen är en m-matris m-matris som kallas likhetsmatrisen. Varje element i denna matris visar hur på samma sätt uttrycksnivåerna för två gener förändras tillsammans. I det andra steget ersätts elementen i likhetsmatrisen som ligger över en viss tröskel (dvs. indikerar signifikant samuttryck) med 1 och de återstående elementen ersätts med 0. Den resulterande matrisen, kallad adjacency matrix, representerar grafen för det konstruerade gensamuttrycksnätverket. I denna matris visar varje element om två gener är anslutna i nätverket (de 1 elementen) eller inte (de 0 elementen).
Co-expression measuredit
expressionsvärdena för en gen för olika prover kan representeras som en vektor, så att beräkningen av co-expressionsmåttet mellan ett par gener är detsamma som att beräkna det valda måttet för två vektorer av siffror.
Pearsons korrelationskoefficient, ömsesidig Information, Spearmans rangkorrelationskoefficient och euklidiskt avstånd är de fyra mest använda samuttrycksmåtten för att konstruera gensamuttrycksnätverk. Euklidiskt avstånd mäter det geometriska avståndet mellan två vektorer och beaktar både riktningen och storleken på vektorerna för genuttrycksvärden. Ömsesidig information mäter hur mycket att känna till uttrycksnivåerna för en gen minskar osäkerheten om uttrycksnivåerna för en annan. Pearsons korrelationskoefficient mäter tendensen hos två vektorer att öka eller minska tillsammans, vilket ger ett mått på deras totala korrespondens. Spearmans rangkorrelation är Pearsons korrelation beräknad för raderna av genuttrycksvärden i en genuttrycksvektor. Flera andra mått som partiell korrelation, regression och kombination av partiell korrelation och ömsesidig information har också använts.
var och en av dessa åtgärder har sina egna fördelar och nackdelar. Det euklidiska avståndet är inte lämpligt när de absoluta nivåerna av funktionellt relaterade gener är mycket olika. Dessutom, om två gener har konsekvent låga uttrycksnivåer men annars är slumpmässigt korrelerade, kan de fortfarande visas nära i euklidiskt utrymme. En fördel med ömsesidig information är att den kan upptäcka icke-linjära relationer; detta kan dock bli en nackdel på grund av att detektera sofistikerade icke-linjära relationer som inte ser biologiskt meningsfulla ut. För att beräkna ömsesidig information bör man dessutom uppskatta fördelningen av data som behöver ett stort antal prover för en bra uppskattning. Spearmans rangkorrelationskoefficient är mer robust mot avvikare, men å andra sidan är den mindre känslig för uttrycksvärden och i dataset med litet antal prover kan upptäcka många falska positiva.
Pearsons korrelationskoefficient är det mest populära samuttrycksmåttet som används vid konstruktion av gensamuttrycksnätverk. Pearsons korrelationskoefficient tar ett värde mellan -1 och 1 där absoluta värden nära 1 visar stark korrelation. De positiva värdena motsvarar en aktiveringsmekanism där uttrycket av en gen ökar med ökningen av uttrycket av dess samuttryckta gen och vice versa. När uttrycksvärdet för en gen minskar med ökningen av uttrycket av dess samuttryckta gen motsvarar den en underliggande undertryckningsmekanism och skulle ha en negativ korrelation.
det finns två nackdelar för Pearson korrelationsmått: det kan bara upptäcka linjära relationer och det är känsligt för avvikare. Dessutom antar Pearson-korrelation att genuttrycksdata följer en normal fördelning. Song et al. har föreslagit biweight midcorrelation (bicor) som ett bra alternativ för Pearsons korrelation. ”Bicor är ett medianbaserat korrelationsmått och är mer robust än Pearson-korrelationen men ofta kraftfullare än Spearmans korrelation”. Dessutom har det visats att” de flesta genpar uppfyller linjära eller monotona relationer ”vilket indikerar att”ömsesidiga informationsnätverk säkert kan ersättas av korrelationsnätverk när det gäller att mäta samuttrycksrelationer i stationära data”.
tröskel selectionEdit
flera metoder har använts för att välja en tröskel i att konstruera gen co-expression nätverk. En enkel tröskelmetod är att välja en co-expression cutoff och välja relationer som deras co-expression överstiger denna cutoff. Ett annat tillvägagångssätt är att använda Fishers Z-transformation som beräknar en z-poäng för varje korrelation baserat på antalet prover. Denna z-poäng omvandlas sedan till ett p-värde för varje korrelation och en cutoff ställs in på p-värdet. Vissa metoder permuterar data och beräknar en z-poäng med hjälp av fördelningen av korrelationer som finns mellan gener i permuterad dataset. Några andra tillvägagångssätt har också använts, såsom tröskelval baserat på klusterkoefficient eller slumpmässig matristeori.
problemet med p-värdebaserade metoder är att den slutliga gränsen på p-värdet väljs utifrån statistiska rutiner(t.ex. ett p-värde på 0,01 eller 0,05 anses vara signifikant), inte baserat på en biologisk insikt.
WGCNA är ett ramverk för att konstruera och analysera viktade gensamuttrycksnätverk. WGCNA-metoden väljer tröskeln för att konstruera nätverket baserat på den skalfria topologin hos gensamuttrycksnätverk. Denna metod konstruerar nätverket för flera tröskelvärden och väljer tröskeln som leder till ett nätverk med skalfri topologi. Dessutom konstruerar wgcna-metoden ett vägt nätverk vilket innebär att alla möjliga kanter visas i nätverket, men varje kant har en vikt som visar hur signifikant är samuttrycksförhållandet som motsvarar den kanten. Observera att tröskelval är avsett att tvinga nätverk till en skalfri topologi. Den underliggande förutsättningen att biologiska nätverk är skalfria är emellertid omtvistad.
lmQCM är ett alternativ för WGCNA att uppnå samma mål för Gen co-expression networks analys. lmQCM, står för lokal maximal kvasi-Clique Fusion, som syftar till att utnyttja de lokalt täta strukturerna i nätverket, vilket kan bryta mindre och tätt samuttryckta moduler genom att tillåta modulöverlappning. algoritmen lmQCM har sitt r-paket och python-modul (buntad i Biolearns). Den generellt mindre storleken på minerade moduler kan också generera mer meningsfulla gen ontologi (GO) anrikningsresultat.