et godt antall metoder er utviklet for å konstruere gen co-expression nettverk. I prinsippet følger de alle en totrinns tilnærming: beregning av samuttrykksmål og valg av signifikansgrense. I det første trinnet velges et samuttrykksmål og en likhetspoeng beregnes for hvert par gener ved hjelp av dette tiltaket. Deretter bestemmes en terskel, og genpar som har likhetspoeng høyere enn den valgte terskelen anses å ha et signifikant samuttrykksforhold og er forbundet med en kant i nettverket.
inngangsdataene for å bygge et gen-koekspresjonsnettverk er ofte representert som en matrise. Hvis vi har genuttrykksverdiene til m-gener for n-prøver (betingelser), vil inngangsdataene være en m×n-matrise, kalt uttrykksmatrise. For eksempel, i et mikroarray-eksperiment måles uttrykksverdiene til tusenvis av gener for flere prøver. I første trinn beregnes en likhetspoeng (co-expression measure) mellom hvert par rader i uttrykksmatrise. Den resulterende matrisen er en m×m matrise kalt likhetsmatrisen. Hvert element i denne matrisen viser hvordan på samme måte uttrykksnivåene av to gener endres sammen. I det andre trinnet erstattes elementene i likhetsmatrisen som er over en viss terskel (dvs.indikerer signifikant samuttrykk) med 1 og de gjenværende elementene erstattes av 0. Den resulterende matrisen, kalt adjacency matrix, representerer grafen til det konstruerte gen-koekspresjonsnettverket. I denne matrisen viser hvert element om to gener er koblet i nettverket (de 1 elementene) eller ikke (de 0 elementene).
co-expression measureded
uttrykksverdiene for et gen for forskjellige prøver kan representeres som en vektor, og dermed beregne co-expression measurement mellom et par gener er det samme som å beregne det valgte målet for to vektorer av tall.
Pearsons korrelasjonskoeffisient, Gjensidig Informasjon, Spearmans rangkorrelasjonskoeffisient og Euklidisk avstand er de fire mest brukte kouttrykksmålene for å konstruere gen-kouttrykksnettverk. Euklidsk avstand måler den geometriske avstanden mellom to vektorer, og så vurderer både retningen og størrelsen på vektorene av genuttrykk verdier. Gjensidig informasjon måler hvor mye å vite uttrykksnivåene til ett gen reduserer usikkerheten om uttrykksnivåene til en annen. Pearsons korrelasjonskoeffisient måler tendensen til to vektorer til å øke eller redusere sammen, noe som gir et mål på deres samlede korrespondanse. Spearmans rangkorrelasjon er Pearsons korrelasjon beregnet for rekkene av genuttrykksverdier i en genuttrykksvektor. Flere andre tiltak som delvis korrelasjon, regresjon og kombinasjon av delvis korrelasjon og gjensidig informasjon har også blitt brukt.
Hver av disse tiltakene har sine egne fordeler og ulemper. Den Euklidiske avstanden er ikke hensiktsmessig når de absolutte nivåene av funksjonelt relaterte gener er svært forskjellige. Videre, hvis to gener har konsekvent lave uttrykksnivåer, men ellers er tilfeldig korrelert, kan de fortsatt vises nært I Euklidisk rom. En fordel for gjensidig informasjon er at den kan oppdage ikke-lineære relasjoner; men dette kan bli en ulempe på grunn av å oppdage sofistikerte ikke-lineære relasjoner som ikke ser biologisk meningsfulle ut. I tillegg, for å beregne gjensidig informasjon, bør man estimere fordelingen av dataene som trenger et stort antall prøver for et godt estimat. Spearmans rangkorrelasjonskoeffisient er mer robust for uteliggere, men på den annen side er den mindre følsom for uttrykksverdier, og i datasett med lite antall prøver kan det oppdage mange falske positiver.
Pearsons korrelasjonskoeffisient er det mest populære samuttrykksmålet som brukes til å konstruere gen-samuttrykksnettverk. Pearsons korrelasjonskoeffisient tar en verdi mellom -1 og 1 hvor absolutte verdier nær 1 viser sterk korrelasjon. De positive verdiene tilsvarer en aktiveringsmekanisme hvor uttrykket av ett gen øker med økningen i uttrykket av dets samuttrykkede gen og omvendt. Når ekspresjonsverdien av ett gen reduseres med økningen i uttrykket av dets samuttrykkede gen, tilsvarer det en underliggende undertrykkelsesmekanisme og vil ha en negativ korrelasjon.
Det er to ulemper For Pearson korrelasjonsmåling: Det kan bare oppdage lineære relasjoner og det er følsomt for uteliggere. Videre antar Pearson korrelasjon at genuttrykksdataene følger en normal fordeling. Song et al. har foreslått biweight midcorrelation (bicor) som et godt alternativ for Pearsons korrelasjon. «Bicor er et medianbasert korrelasjonsmål, og er mer robust enn Pearson-korrelasjonen, men ofte kraftigere enn Spearmans korrelasjon.» Videre har det vist seg at «de fleste genpar tilfredsstiller lineære eller monotoniske forhold» som indikerer at «gjensidige informasjonsnettverk trygt kan erstattes av korrelasjonsnettverk når det gjelder måling av samuttrykksforhold i stasjonære data».
Threshold selectionEdit
Flere metoder har blitt brukt for å velge en terskel i å konstruere gen co-expression nettverk. En enkel terskel metode er å velge en co-uttrykk cutoff og velge relasjoner som deres co-uttrykk overstiger denne cutoff. En annen tilnærming er Å bruke Fishers Z-transformasjon som beregner en z-score for hver korrelasjon basert på antall prøver. Denne z-poengsummen konverteres deretter til en p-verdi for hver korrelasjon, og en cutoff er satt på p-verdien. Noen metoder permutere dataene og beregne en z-score ved hjelp av fordelingen av korrelasjoner funnet mellom gener i permuted datasett. Noen andre tilnærminger har også blitt brukt som terskelvalg basert på klyngekoeffisient eller tilfeldig matriseteori.
problemet med p-verdibaserte metoder er at sluttavsnittet på p-verdien velges ut fra statistiske rutiner(f. eks. en p-verdi på 0,01 eller 0,05 regnes som signifikant), ikke basert på biologisk innsikt.
WGCNA ER et rammeverk for å konstruere OG analysere vektet gen co-uttrykk nettverk. WGCNA metoden velger terskelen for å bygge nettverket basert på skala-fri topologi av genet co-uttrykk nettverk. Denne metoden konstruerer nettverket for flere terskler og velger terskelen som fører til et nettverk med skalafri topologi. VIDERE konstruerer wgcna-metoden et vektet nettverk som betyr at alle mulige kanter vises i nettverket, men hver kant har en vekt som viser hvor signifikant samuttrykksforholdet tilsvarer den kanten. Av notatet, terskelvalg er ment å tvinge nettverk til en skala-fri topologi. Den underliggende forutsetningen om at biologiske nettverk er skalafrie, er imidlertid omstridt.
lmQCM er et alternativ FOR WGCNA å oppnå det samme målet med gene co-expression networks analysis. lmQCM, står for local maximal Quasi-Clique Fusjon, med sikte på å utnytte lokalt tette strukturer i nettverket, og dermed kan min mindre og tett samuttrykkede moduler ved å tillate modul overlapping. algoritmen lmQCM har Sin R-pakke og python-modul (buntet I Biolearns). Den generelt mindre størrelsen på mined moduler kan også generere mer meningsfulle gene ontology (GO) berikelse resultater.