geenin rinnakkaisilmaisuverkkojen rakentamiseen on kehitetty hyvä määrä menetelmiä. Periaatteessa ne kaikki noudattavat kaksivaiheista lähestymistapaa: co-expression-mittojen laskemista ja merkittävyyskynnyksen valintaa. Ensimmäisessä vaiheessa valitaan rinnakkaisilmaisumitta ja lasketaan yhtäläisyyspisteet jokaiselle geeniparille tämän mittarin avulla. Tämän jälkeen määritetään kynnysarvo ja geenipareilla, joiden samankaltaisuuspistemäärä on valittu kynnysarvo korkeampi, katsotaan olevan merkittävä yhteis-ilmentymäsuhde ja ne ovat verkostossa olevan reunan kautta yhteydessä toisiinsa.
syöttötiedot geenien yhteisilmaisuverkoston rakentamiseksi esitetään usein matriisina. Jos meillä on m-geenien geeniekspressioarvot n-näytteille (olosuhteet), syöttötieto olisi m×n-matriisi, jota kutsutaan ekspressiomatriisiksi. Esimerkiksi mikroarray-kokeessa tuhansien geenien ilmentymisarvoja mitataan useista näytteistä. Ensimmäisessä vaiheessa jokaisen lausekematriisin riviparin välille lasketaan yhtäläisyyspistemäärä (co-expression measure). Tuloksena oleva matriisi on M×m-matriisi, jota kutsutaan samankaltaisuusmatriisiksi. Jokainen tämän matriisin alkuaine osoittaa, kuinka samalla tavalla kahden geenin ilmentymistasot muuttuvat yhdessä. Toisessa vaiheessa samankaltaisuusmatriisin elementit, jotka ylittävät tietyn kynnysarvon (eli osoittavat merkittävää rinnakkaisilmaisua), korvataan luvulla 1 ja muut elementit korvataan luvulla 0. Tuloksena oleva matriisi, jota kutsutaan adjacency-matriisiksi, edustaa konstruoidun geenin co-expression-verkoston graafia. Tässä matriisissa jokainen alkuaine osoittaa, onko kaksi geeniä yhteydessä verkkoon (1 alkuaine) vai ei (0 alkuainetta).
Koekspressiomitta
geenin ekspressioarvot eri näytteille voidaan esittää vektorina, jolloin koekspressiomäärän laskeminen geeniparin välillä on sama kuin valitun mitan laskeminen kahdelle lukuvektorille.
Pearsonin korrelaatiokerroin, keskinäinen informaatio, Spearmanin rankkorrelaatiokerroin ja Euklidinen etäisyys ovat neljä useimmiten käytettyä rinnakkaisilmaisumittaa geenien yhteisilmaisuverkkojen rakentamisessa. Euklidinen etäisyys mittaa kahden vektorin välistä geometrista etäisyyttä ja tarkastelee siten sekä geenin ilmentymisarvojen vektorien suuntaa että suuruutta. Keskinäinen informaatio mittaa, kuinka paljon yhden geenin ilmentymistasojen tunteminen vähentää epävarmuutta toisen geenin ilmentymistasoista. Pearsonin korrelaatiokerroin mittaa kahden vektorin taipumusta kasvaa tai pienentyä yhdessä, jolloin saadaan mitta niiden yleisestä vastaavuudesta. Spearmanin rank-korrelaatio on Pearsonin korrelaatio, joka lasketaan geenin ekspressioarvojen riveille geeniekspressiovektorissa. Lisäksi on käytetty useita muita mittareita, kuten osittaista korrelaatiota, regressiota sekä osittaisen korrelaation ja keskinäisen informaation yhdistämistä.
jokaisella näistä toimenpiteistä on omat etunsa ja haittansa. Euklidinen etäisyys ei ole tarkoituksenmukainen silloin, kun funktionaalisesti toisiinsa liittyvien geenien absoluuttiset tasot ovat hyvin erilaisia. Lisäksi, jos kahdella geenillä on jatkuvasti alhainen ilmentymistaso, mutta ne muuten korreloituvat satunnaisesti, ne saattavat silti esiintyä lähellä euklidisessa avaruudessa. Yksi molemminpuolisen tiedon etu on se, että se voi havaita epälineaarisia suhteita; tämä voi kuitenkin muuttua haitaksi, koska se havaitsee kehittyneitä epälineaarisia suhteita, jotka eivät näytä biologisesti merkityksellisiltä. Lisäksi keskinäisen tiedon laskemista varten olisi arvioitava tietojen jakauma, joka tarvitsee suuren määrän otoksia hyvän estimaatin saamiseksi. Spearmanin sijoituskorrelaatiokerroin on vankempi outlaijereille, mutta toisaalta se on vähemmän herkkä ilmaisuarvoille ja aineistoissa, joissa on pieni määrä näytteitä, voi havaita monia vääriä positiivisia.
Pearsonin korrelaatiokerroin on suosituin rinnakkaisilmaisumitta, jota käytetään geenien yhteisilmaisuverkkojen rakentamisessa. Pearsonin korrelaatiokertoimen arvo on välillä -1 ja 1, jossa lähellä lukua 1 olevat itseisarvot osoittavat vahvaa korrelaatiota. Positiiviset arvot vastaavat aktivaatiomekanismia, jossa yhden geenin ilmentyminen lisääntyy sen yhdessä ilmentyvän geenin ilmentymisen lisääntyessä ja päinvastoin. Kun yhden geenin ekspressioarvo pienenee sen co-ilmentyvän geenin ekspression kasvaessa, se vastaa taustalla olevaa suppressiomekanismia ja sillä olisi negatiivinen korrelaatio.
Pearsonin korrelaatiomittarilla on kaksi haittapuolta: se voi havaita vain lineaarisia suhteita ja se on herkkä poikkeaville aineille. Lisäksi Pearsonin korrelaatio olettaa, että geenin ilmentymistiedot noudattavat normaalijakaumaa. Song ym. ovat ehdottaneet biweight midcorrelation (bicor) hyvänä vaihtoehtona Pearson n korrelaatio. ”Bicor on mediaanipohjainen korrelaatiomitta, ja se on kestävämpi kuin Pearsonin korrelaatio, mutta usein voimakkaampi kuin keihäsmiehen korrelaatio”. Lisäksi on osoitettu, että ”useimmat geeniparit täyttävät lineaariset tai monotoniset suhteet”, mikä osoittaa, että ”keskinäiset tietoverkot voidaan turvallisesti korvata korrelaatioverkoilla, kun on kyse koordinaatiosuhteiden mittaamisesta stationaarisessa datassa”.
Kynnysvalinta
kynnysarvon valintaan on käytetty useita menetelmiä geenien yhteisilmaisuverkkojen rakentamisessa. Yksinkertainen thresholding menetelmä on valita co-expression cutoff ja valita suhteita, jotka niiden co-expression ylittää tämän cutoff. Toinen lähestymistapa on käyttää Fisherin Z-muunnosta, jossa lasketaan z-pisteet kullekin korrelaatiolle näytteiden lukumäärän perusteella. Tämä Z-pisteet muunnetaan sitten p-arvoksi kullekin korrelaatiolle ja p-arvolle asetetaan raja-arvo. Jotkin menetelmät permuuttavat tiedot ja laskevat Z-pisteet permutoiduissa aineistoissa esiintyvien geenien välisten korrelaatioiden jakautumisen avulla. Myös joitakin muita lähestymistapoja on käytetty, kuten ryhmittelykertoimeen perustuva kynnysvalinta tai satunnaismatriisiteoria.
P-arvoon perustuvien menetelmien ongelmana on, että p-arvon lopullinen raja-arvo valitaan tilastollisten rutiinien perusteella(esimerkiksi P-arvoa 0,01 tai 0,05 pidetään merkittävänä), ei biologisen oivalluksen perusteella.
WGCNA on viitekehys painotettujen geenien yhteisilmaisuverkkojen rakentamiselle ja analysoinnille. Wgcna-menetelmä valitsee verkoston rakentamisen kynnyksen geenien yhteisilmaisuverkkojen asteittaisen topologian perusteella. Tämä menetelmä konstruoi verkon useille kynnyksille ja valitsee kynnyksen, joka johtaa verkkoon, jolla on mittakaavavapaa topologia. Lisäksi WGCNA-menetelmällä muodostetaan painotettu verkko, joka tarkoittaa, että kaikki mahdolliset särmät näkyvät verkossa, mutta jokaisella särmällä on paino, joka osoittaa, kuinka merkittävä on kyseistä särmää vastaava co-expression-suhde. On huomattava, että kynnysvalinnan tarkoituksena on pakottaa verkostot mittakaavattomaksi topologiaksi. Taustalla oleva oletus siitä, että biologiset verkostot ovat mittakaavavapaita, on kuitenkin kiistanalainen.
lmQCM on vaihtoehto wgcna: lle, joka saavuttaa saman tavoitteen geenien yhteisilmaisuverkkojen analyysissä. lmQCM, tulee sanoista local maximal Quasi-Clique fuusio, jonka tavoitteena on hyödyntää paikallisesti tiheä rakenteita verkossa, näin voi louhia pienempiä ja tiheästi co-expressed moduulit sallimalla moduuli päällekkäisiä. algoritmi lmQCM on sen R-paketti ja python moduuli (nipussa Biolearns). Louhittujen moduulien yleensä pienempi koko voi myös tuottaa mielekkäämpiä geenien ontologian (GO) rikastustuloksia.