bylo vyvinuto velké množství metod pro konstrukci genových koexprimačních sítí. V zásadě se všichni řídí dvoustupňovým přístupem: výpočtem míry co-expression a výběrem prahu významnosti. V prvním kroku je vybrána míra koexprese a pro každý pár genů se vypočítá skóre podobnosti pomocí tohoto opatření. Poté se stanoví práh a páry genů, které mají skóre podobnosti vyšší než zvolený práh, se považují za významné koexpresní vztahy a jsou spojeny hranou v síti.
vstupní data pro konstrukci genové koexpresní sítě jsou často reprezentována jako matice. Pokud máme hodnoty genové exprese m genů pro n vzorky (podmínky), vstupní data by byla matice m×n, nazývaná expresní matice. Například v experimentu microarray jsou hodnoty exprese tisíců genů měřeny pro několik vzorků. V prvním kroku se vypočítá skóre podobnosti (míra co-exprese) mezi každou dvojicí řádků v matici výrazů. Výsledná matice je matice m×m nazývaná matice podobnosti. Každý prvek v této matici ukazuje, jak se podobně mění úrovně exprese dvou genů. Ve druhém kroku jsou prvky v matici podobnosti, které jsou nad určitou prahovou hodnotou (tj. označují významnou koexpresi), nahrazeny 1 a zbývající prvky jsou nahrazeny 0. Výsledná matice, nazývaná matice sousedství, představuje graf vytvořené genové koexpresní sítě. V této matici každý prvek ukazuje, zda jsou v síti připojeny dva geny (prvky 1) nebo ne (prvky 0).
Co-expression measureEdit
hodnoty exprese genu pro různé vzorky mohou být reprezentovány jako vektor, takže výpočet míry koexprese mezi dvojicí genů je stejný jako výpočet vybrané míry pro dva vektory čísel.
Pearsonův korelační koeficient, vzájemná informace, Spearmanův korelační koeficient a euklidovská vzdálenost jsou čtyři nejčastěji používané míry koexprese pro konstrukci genových koexpresních sítí. Euklidovská vzdálenost měří geometrickou vzdálenost mezi dvěma vektory, a tak zvažuje směr i velikost vektorů hodnot genové exprese. Vzájemná informace měří, jak moc znalost úrovní exprese jednoho genu snižuje nejistotu ohledně úrovní exprese druhého. Pearsonův korelační koeficient měří tendenci dvou vektorů ke zvýšení nebo snížení společně, což udává míru jejich celkové korespondence. Spearmanova rank korelace je Pearsonova korelace vypočtená pro řady hodnot genové exprese ve vektoru genové exprese. Bylo také použito několik dalších opatření, jako je částečná korelace, regrese a kombinace částečné korelace a vzájemné informace.
každé z těchto opatření má své vlastní výhody a nevýhody. Euklidovská vzdálenost není vhodná, pokud jsou absolutní hladiny funkčně příbuzných genů velmi odlišné. Kromě toho, pokud mají dva geny trvale nízké úrovně exprese, ale jinak jsou náhodně korelovány, mohou se stále jevit blízko v euklidovském prostoru. Jednou z výhod vzájemné informace je, že dokáže detekovat nelineární vztahy; to se však může stát nevýhodou kvůli detekci sofistikovaných nelineárních vztahů, které nevypadají biologicky smysluplně. Kromě toho je třeba pro výpočet vzájemných informací odhadnout rozdělení údajů, které pro dobrý odhad vyžadují velký počet vzorků. Spearmanův korelační koeficient hodnosti je robustnější vůči odlehlým hodnotám, ale na druhé straně je méně citlivý na hodnoty výrazu a v datových sadách s malým počtem vzorků může detekovat mnoho falešných pozitiv.
Pearsonův korelační koeficient je nejoblíbenějším měřítkem koexprese používaným při konstrukci genových koexpresních sítí. Pearsonův korelační koeficient má hodnotu mezi -1 a 1, kde absolutní hodnoty blízké 1 vykazují silnou korelaci. Pozitivní hodnoty odpovídají aktivačnímu mechanismu, kde se exprese jednoho genu zvyšuje se zvýšením exprese jeho ko-exprimovaného genu a naopak. Když hodnota exprese jednoho genu klesá se zvýšením exprese jeho ko-exprimovaného genu, odpovídá základnímu supresivnímu mechanismu a má negativní korelaci.
existují dvě nevýhody pro Pearsonovu korelační míru: dokáže detekovat pouze lineární vztahy a je citlivý na odlehlé hodnoty. Pearsonova korelace navíc předpokládá, že data genové exprese sledují normální distribuci. Song et al. navrhli biweight midcorrelation (bicor) jako dobrou alternativu pro Pearsonovu korelaci. „Bicor je korelační míra založená na mediánu a je robustnější než Pearsonova korelace, ale často silnější než Spearmanova korelace“. Dále bylo prokázáno, že „většina genových párů uspokojuje lineární nebo monotónní vztahy“, což naznačuje, že „vzájemné informační sítě mohou být bezpečně nahrazeny korelačními sítěmi, pokud jde o měření koexpresivních vztahů ve stacionárních datech“.
práh selectionEdit
pro výběr prahu při konstrukci genových koexpresních sítí bylo použito několik metod. Jednoduchou metodou prahování je zvolit mezní hodnotu co-expression a vybrat vztahy, které jejich koexprese překračuje toto mezní hodnoty. Dalším přístupem je použití Fisherovy z-transformace, která vypočítá z-skóre pro každou korelaci na základě počtu vzorků. Toto Z-skóre je pak převedeno na p-hodnotu pro každou korelaci a Mezní hodnota je nastavena na hodnotu p. Některé metody permutují data a vypočítávají z-skóre pomocí distribuce korelací nalezených mezi geny v permutovaném datovém souboru. Byly také použity některé další přístupy, jako je výběr Prahu na základě shlukovacího koeficientu nebo teorie náhodné matice.
problém s metodami založenými na hodnotě p spočívá v tom, že konečná mezní hodnota hodnoty p je zvolena na základě statistických rutin (např. hodnota p 0,01 nebo 0,05 je považována za významnou), nikoli na základě biologického vhledu.
WGCNA je rámec pro konstrukci a analýzu vážených genových koexpresních sítí. Metoda WGCNA vybírá prahovou hodnotu pro konstrukci sítě na základě topologie genové koexprese bez měřítka. Tato metoda konstruuje síť pro několik prahových hodnot a vybere prahovou hodnotu, která vede k síti s topologií bez měřítka. Metoda WGCNA navíc konstruuje váženou síť, což znamená, že se v síti objevují všechny možné hrany, ale každá hrana má váhu, která ukazuje, jak významný je vztah co-expression odpovídající této hraně. Za zmínku stojí, že výběr prahové hodnoty má donutit sítě do topologie bez měřítka. Základní předpoklad, že biologické sítě jsou bez měřítka, je však sporný.
lmQCM je alternativou pro wgcna dosažení stejného cíle analýzy genových koexpresních sítí. lmQCM, znamená lokální maximální kvazi-klikové sloučení, jehož cílem je využít lokálně husté struktury v síti, a tak může těžit menší a hustě koexprimované moduly tím, že umožňuje překrývání modulů. algoritmus lmQCM má svůj R balíček a python modul (svázaný v Biolearns). Obecně menší velikost vytěžených modulů může také generovat smysluplnější výsledky obohacení genové ontologie (GO).