Gen-Co-ekspressionsnetværk

der er udviklet et stort antal metoder til konstruktion af Gen-Co-ekspressionsnetværk. I princippet følger de alle en totrins tilgang: beregning af co-ekspressionsmåling og valg af signifikanstærskel. I det første trin vælges et co-ekspressionsmål, og der beregnes en lighedsscore for hvert par gener ved hjælp af dette mål. Derefter bestemmes en tærskel, og genpar, der har en lighedsscore højere end den valgte tærskel, anses for at have et signifikant Co-ekspressionsforhold og er forbundet med en kant i netværket.

de to generelle trin til konstruktion af et gen-Co-ekspressionsnetværk: beregning af co-ekspressionsscore (f.eks. den absolutte værdi af Pearson korrelationskoefficient) for hvert par gener og valg af en signifikanstærskel (f. eks. korrelation > 0,8).

inputdataene til konstruktion af et gen-Co-ekspressionsnetværk er ofte repræsenteret som en matrice. Hvis vi har genekspressionsværdierne for M-gener for n-prøver (betingelser), ville inputdataene være en m-kur n-matrice, kaldet ekspressionsmatrice. For eksempel måles ekspressionsværdierne for tusinder af gener i et mikroarray-eksperiment for flere prøver. I første trin beregnes en lighedsscore (co-ekspressionsmåling) mellem hvert par rækker i ekspressionsmatrice. Den resulterende matrice er en m-m-matrice kaldet lighedsmatricen. Hvert element i denne matrice viser, hvordan ekspressionsniveauerne for to gener på samme måde ændres sammen. I det andet trin erstattes elementerne i lighedsmatricen, der ligger over en bestemt tærskel (dvs.indikerer signifikant co-ekspression) med 1, og de resterende elementer erstattes af 0. Den resulterende matrice, kaldet adjacency matricen, repræsenterer grafen for det konstruerede gen-Co-ekspressionsnetværk. I denne matrice viser hvert element, om to gener er forbundet i netværket (de 1 elementer) eller ej (de 0 elementer).

co-ekspression måletdet

ekspressionsværdierne for et gen for forskellige prøver kan repræsenteres som en vektor, således at beregning af co-ekspressionsmålet mellem et par gener er det samme som beregning af det valgte mål for to vektorer af tal.

Pearsons korrelationskoefficient, gensidig Information, Spearmans rangkorrelationskoefficient og euklidisk afstand er de fire mest anvendte co-ekspressionsforanstaltninger til konstruktion af Gen-Co-ekspressionsnetværk. Euklidisk afstand måler den geometriske afstand mellem to vektorer og overvejer således både retningen og størrelsen af vektorerne af genekspressionsværdier. Gensidig information måler, hvor meget kendskab til ekspressionsniveauerne for et gen reducerer usikkerheden om ekspressionsniveauerne for et andet. Pearsons korrelationskoefficient måler tendensen hos to vektorer til at stige eller falde sammen, hvilket giver et mål for deres samlede korrespondance. Spearmans rangkorrelation er Pearsons korrelation beregnet for rækken af genekspressionsværdier i en genekspressionsvektor. Flere andre foranstaltninger såsom delvis korrelation, regression og kombination af delvis korrelation og gensidig information er også blevet brugt.

hver af disse foranstaltninger har deres egne fordele og ulemper. Den euklidiske afstand er ikke passende, når de absolutte niveauer af funktionelt relaterede gener er meget forskellige. Desuden, hvis to gener har konsekvent lave ekspressionsniveauer, men ellers er tilfældigt korrelerede, kan de stadig forekomme tæt i euklidisk rum. En fordel ved gensidig information er, at den kan opdage ikke-lineære forhold; dette kan dog blive en ulempe på grund af detektering af sofistikerede ikke-lineære forhold, der ikke ser biologisk meningsfuldt ud. Derudover skal man til beregning af gensidig information estimere fordelingen af de data, der har brug for et stort antal prøver for et godt skøn. Spearmans rangkorrelationskoefficient er mere robust over for outliers, men på den anden side er den mindre følsom over for ekspressionsværdier, og i datasæt med et lille antal prøver kan det registrere mange falske positive.

Pearsons korrelationskoefficient er det mest populære co-ekspressionsmål, der anvendes til konstruktion af Gen-Co-ekspressionsnetværk. Pearsons korrelationskoefficient tager en værdi mellem -1 og 1, hvor absolutte værdier tæt på 1 viser stærk korrelation. De positive værdier svarer til en aktiveringsmekanisme, hvor ekspressionen af et gen stiger med stigningen i ekspressionen af dets co-udtrykte gen og omvendt. Når ekspressionsværdien af et gen falder med stigningen i ekspressionen af dets co-udtrykte gen, svarer det til en underliggende undertrykkelsesmekanisme og ville have en negativ korrelation.

der er to ulemper ved Pearson-korrelationsmåling: det kan kun registrere lineære forhold, og det er følsomt over for outliers. Desuden antager Pearson-korrelation, at genekspressionsdataene følger en normalfordeling. Song et al. har foreslået bivægt midcorrelation (bicor) som et godt alternativ til Pearsons korrelation. “Bicor er et medianbaseret korrelationsmål og er mere robust end Pearson-korrelationen, men ofte mere kraftfuld end Spearmans korrelation”. Desuden har det vist sig, at “de fleste genpar tilfredsstiller lineære eller monotone forhold”, hvilket indikerer, at “gensidige informationsnetværk sikkert kan erstattes af korrelationsnetværk, når det kommer til måling af co-ekspressionsforhold i stationære data”.

Tærskelvalgredit

flere metoder er blevet anvendt til valg af en tærskel i konstruktion af Gen-Co-ekspressionsnetværk. En simpel tærskelmetode er at vælge en co-udtryk cutoff og vælge relationer, som deres co-udtryk overstiger denne cutoff. En anden tilgang er at bruge Fishers å-transformation, der beregner en å-score for hver korrelation baseret på antallet af prøver. Denne score konverteres derefter til en p-værdi for hver korrelation, og en cutoff indstilles på p-værdien. Nogle metoder permuterer dataene og beregner en å-score ved hjælp af fordelingen af korrelationer fundet mellem gener i permuteret datasæt. Nogle andre tilgange er også blevet brugt, såsom tærskelvalg baseret på klyngekoefficient eller tilfældig matrikteori.

problemet med p-værdibaserede metoder er, at den endelige cutoff på p-værdien vælges ud fra statistiske rutiner(f.eks. en p-værdi på 0,01 eller 0,05 betragtes som signifikant), ikke baseret på en biologisk indsigt.

VVCNA er en ramme for konstruktion og analyse af vægtede gen-Co-ekspressionsnetværk. Metoden vælger tærsklen til at konstruere netværket baseret på den skalafrie topologi af Gen-Co-ekspressionsnetværk. Denne metode konstruerer netværket til flere tærskler og vælger den tærskel, der fører til et netværk med skalafri topologi. Desuden konstruerer metoden et vægtet netværk, hvilket betyder, at alle mulige kanter vises i netværket, men hver kant har en vægt, der viser, hvor signifikant er co-ekspressionsforholdet svarende til den kant. Bemærk, tærskelvalg er beregnet til at tvinge netværk til en skalafri topologi. Den underliggende forudsætning for, at biologiske netværk er skalafrie, er imidlertid omstridt.

lmkm er et alternativ til at opnå det samme mål for analyse af Gen-Co-ekspressionsnetværk. lokal maksimal kvasi-klike Fusion, der sigter mod at udnytte de lokalt tætte strukturer i netværket, kan således minde mindre og tæt co-udtrykte moduler ved at tillade moduloverlapning. algoritmen har sin R-pakke og python-modul (bundtet i Biolearns). Den generelt mindre størrelse af minerede moduler kan også generere mere meningsfulde gen ontologi (GO) berigelsesresultater.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.