számos módszert fejlesztettek ki a gén Ko-expressziós hálózatok felépítésére. Alapvetően mindegyik kétlépcsős megközelítést követ: a Ko-kifejezés mértékének kiszámítása és a szignifikancia küszöb kiválasztása. Az első lépésben kiválasztunk egy KO-expressziós mérést, és ezzel a méréssel kiszámítjuk az egyes génpárokra vonatkozó hasonlósági pontszámot. Ezután meghatározunk egy küszöbértéket, és a kiválasztott küszöbértéknél magasabb hasonlósági pontszámmal rendelkező génpárokat jelentős Ko-expressziós kapcsolatnak tekintjük, és a hálózat egyik éle köti össze őket.
a gén koexpressziós hálózat felépítéséhez szükséges bemeneti adatokat gyakran mátrixként ábrázolják. Ha rendelkezünk az m gének génexpressziós értékeivel n mintákra (feltételekre), akkor a bemeneti adatok egy m 6 n mátrix, az úgynevezett expressziós mátrix. Például egy mikroarray kísérletben több ezer gén expressziós értékét mérik több mintára. Az első lépésben egy hasonlósági pontszámot (co-expression measure) számítunk ki az expressziós mátrix minden sorpárja között. Az eredményül kapott mátrix egy M ++ M mátrix, amelyet hasonlósági mátrixnak nevezünk. A mátrix minden eleme megmutatja, hogy két gén expressziós szintje hasonlóan változik együtt. A második lépésben a hasonlóságmátrix azon elemeit, amelyek egy bizonyos küszöbérték felett vannak (azaz jelentős Ko-expressziót jeleznek), 1-vel, a fennmaradó elemeket pedig 0-val helyettesítjük. A kapott mátrix, az úgynevezett szomszédsági mátrix, a felépített gén-expressziós hálózat grafikonját képviseli. Ebben a mátrixban minden elem megmutatja, hogy két gén kapcsolódik-e a hálózathoz (az 1 elem) vagy sem (a 0 elem).
Co-expression measurededit
egy gén expressziós értékei különböző mintákra vektorként ábrázolhatók, így a génpárok közötti koexpressziós mérték kiszámítása megegyezik a kiválasztott mérték kiszámításával két számvektor esetében.
a Pearson-féle korrelációs együttható, a kölcsönös információ, a Spearman-féle rangkorrelációs együttható és az euklideszi távolság a négy leggyakrabban használt Ko-expressziós mutató a gén-expressziós hálózatok felépítéséhez. Az euklideszi távolság két vektor közötti geometriai távolságot méri, így figyelembe veszi mind a génexpressziós értékek vektorainak irányát, mind nagyságát. A kölcsönös információ azt méri, hogy az egyik gén expressziós szintjének ismerete mennyire csökkenti a másik expressziós szintjével kapcsolatos bizonytalanságot. Pearson korrelációs együtthatója két vektor együttes növekedésének vagy csökkenésének tendenciáját méri, megadva az Általános megfelelésük mértékét. Spearman rangkorrelációja a Pearson-korreláció a génexpressziós értékek soraira számítva egy génexpressziós vektorban. Számos más intézkedést is alkalmaztak, mint például a részleges korreláció, a regresszió, valamint a részleges korreláció és a kölcsönös információ kombinációja.
ezen intézkedések mindegyikének megvannak a maga előnyei és hátrányai. Az euklideszi távolság nem megfelelő, ha a funkcionálisan rokon gének abszolút szintje nagyon eltérő. Továbbá, ha két génnek következetesen alacsony az expressziós szintje, de egyébként véletlenszerűen korrelálnak, akkor is közel jelenhetnek meg az euklideszi térben. A kölcsönös információ egyik előnye, hogy képes észlelni a nemlineáris kapcsolatokat; ez azonban hátrányba kerülhet a kifinomult nemlineáris kapcsolatok kimutatása miatt, amelyek biológiailag nem tűnnek értelmesnek. Ezenkívül a kölcsönös információk kiszámításához meg kell becsülni az adatok eloszlását, amelyhez nagy számú mintára van szükség a jó becsléshez. Spearman rangkorrelációs együtthatója robusztusabb a kiugró értékekkel szemben, másrészt kevésbé érzékeny az expressziós értékekre, és a kis számú mintával rendelkező adatkészletekben sok hamis pozitív eredményt észlelhet.
Pearson korrelációs együtthatója a legnépszerűbb Ko-expressziós mérték, amelyet a gén Ko-expressziós hálózatok felépítésében használnak. A Pearson-féle korrelációs együttható értéke -1 és 1 között van, ahol az 1-hez közeli abszolút értékek erős korrelációt mutatnak. A pozitív értékek egy olyan aktivációs mechanizmusnak felelnek meg, ahol az egyik gén expressziója növekszik a társ-expresszált gén expressziójának növekedésével és fordítva. Ha egy gén expressziós értéke csökken az Együtt expresszált gén expressziójának növekedésével, akkor megfelel egy mögöttes szuppressziós mechanizmusnak, és negatív korrelációval rendelkezik.
a Pearson-korreláció mérésének két hátránya van: csak lineáris összefüggéseket képes észlelni, és érzékeny a kiugró értékekre. Sőt, a Pearson-korreláció feltételezi, hogy a génexpressziós adatok normális eloszlást követnek. Song et al. javasolták a kétsúlyú középkorrelációt (bicor) a Pearson korrelációjának jó alternatívájaként. “A Bicor egy medián alapú korrelációs mérték, amely robusztusabb, mint a Pearson-korreláció, de gyakran erősebb, mint a Spearman-korreláció”. Ezenkívül kimutatták, hogy “a legtöbb génpár kielégíti a lineáris vagy monoton kapcsolatokat”, ami azt jelzi, hogy “a kölcsönös információs hálózatok biztonságosan helyettesíthetők korrelációs hálózatokkal, amikor a stacionárius adatokban a Ko-expressziós kapcsolatok méréséről van szó”.
Threshold selectionEdit
számos módszert alkalmaztak a küszöb kiválasztására a gén koexpressziós hálózatok felépítésében. Egy egyszerű küszöb módszer az, hogy válasszon egy co-expression cutoff és válassza ki a kapcsolatokat, amelyek a co-expression meghaladja ezt a cutoff. Egy másik megközelítés a Fisher Z-transzformációjának használata, amely kiszámítja a Z-pontszám minden korrelációhoz a Minták száma alapján. Ezt a z-pontszámot ezután minden korrelációhoz p-értékké alakítják át, és a P-értékre egy határértéket állítanak be. Néhány módszer permutálja az adatokat, és kiszámítja a z-pontszámot a permutált adatkészletben található gének közötti korrelációk eloszlása alapján. Néhány más megközelítést is alkalmaztak, például küszöbválasztást klaszterezési együttható vagy véletlenszerű mátrixelmélet alapján.
a p-érték alapú módszerekkel az a probléma, hogy a p-érték végső határát statisztikai rutinok alapján választják meg(pl. a 0,01 vagy 0,05 p-érték szignifikánsnak tekinthető), nem biológiai betekintés alapján.
a WGCNA egy keretrendszer a súlyozott gén-expressziós hálózatok felépítéséhez és elemzéséhez. A wgcna módszer kiválasztja a hálózat felépítésének küszöbértékét a gén koexpressziós hálózatok skálamentes topológiája alapján. Ez a módszer több küszöbértékre építi fel a hálózatot, és kiválasztja azt a küszöbértéket, amely skálamentes topológiájú hálózathoz vezet. Sőt, a WGCNA módszer súlyozott hálózatot épít fel, ami azt jelenti, hogy az összes lehetséges él megjelenik a hálózatban, de mindegyik élnek van egy súlya, amely megmutatja, hogy mennyire jelentős az adott élnek megfelelő Ko-expressziós kapcsolat. Megjegyzendő, hogy a küszöbérték-kiválasztás célja a hálózatok skálamentes topológiára kényszerítése. Az a feltevés azonban, hogy a biológiai hálózatok skálamentes, vitatott.
az lmQCM a wgcna alternatívája, amely ugyanazt a célt éri el, mint a gén-expressziós hálózatok elemzése. az lmQCM a local maximal Quasi-Clique fúziót jelenti, amelynek célja a hálózat lokálisan sűrű struktúráinak kiaknázása, így kisebb és sűrűn együtt kifejezett modulokat bányászhat a modulok átfedésének lehetővé tételével. az lmqcm algoritmusnak van R csomagja és python modulja (a Biolearns-ben található). A bányászott modulok általában kisebb mérete értelmesebb gén ontológiai (GO) dúsítási eredményeket is generálhat.