opracowano wiele metod konstruowania sieci koekspresji genów. W zasadzie wszystkie one stosują podejście dwuetapowe: obliczanie miary współekspresji i wybieranie progu istotności. W pierwszym kroku wybiera się miarę współekspresji i oblicza się wynik podobieństwa dla każdej pary genów za pomocą tej miary. Następnie określa się próg i pary genów, które mają wynik podobieństwa wyższy niż wybrany próg, uważa się za posiadające znaczącą zależność koekspresji i są połączone krawędzią w sieci.
dane wejściowe do budowy sieci koekspresji genów są często przedstawiane jako macierz. Jeśli mamy wartości ekspresji genów m genów dla N próbek (warunków), dane wejściowe byłyby macierzą M×N, zwaną macierzą ekspresji. Na przykład w eksperymencie mikromacierzowym wartości ekspresji tysięcy genów są mierzone dla kilku próbek. W pierwszym kroku między każdą parą wierszy w macierzy wyrażeń oblicza się wynik podobieństwa (miara koekspresji). Otrzymaną macierzą jest macierz M×M zwana macierzą podobieństwa. Każdy element tej matrycy pokazuje, jak podobnie zmieniają się poziomy ekspresji dwóch genów. W drugim etapie elementy w macierzy podobieństwa, które są powyżej pewnego progu (tj. wskazują znaczącą koekspresję), są zastępowane przez 1, a pozostałe elementy są zastępowane przez 0. Otrzymana macierz, zwana macierzą adjacency, reprezentuje Wykres skonstruowanej sieci koekspresji genów. W tej macierzy każdy element pokazuje, czy dwa geny są połączone w sieć (pierwiastek 1), czy nie (pierwiastek 0).
miara Koekspresji
wartości ekspresji genu dla różnych próbek mogą być reprezentowane jako wektor, dlatego obliczanie miary koekspresji między parą genów jest takie samo jak obliczanie wybranej miary dla dwóch wektorów liczb.
współczynnik korelacji Pearsona, wzajemna informacja, współczynnik korelacji rangi Spearmana i odległość euklidesowa to cztery najczęściej używane miary koekspresji do budowy sieci koekspresji genów. Odległość euklidesowa mierzy odległość geometryczną między dwoma wektorami, a więc uwzględnia zarówno kierunek, jak i wielkość wektorów wartości ekspresji genów. Wzajemna informacja mierzy, w jakim stopniu znajomość poziomów ekspresji jednego genu zmniejsza niepewność co do poziomów ekspresji innego genu. Współczynnik korelacji Pearsona mierzy tendencję dwóch wektorów do zwiększania lub zmniejszania się razem, dając miarę ich ogólnej korespondencji. Korelacja rang Spearmana jest korelacją Pearsona obliczoną dla Rang wartości ekspresji genów w wektorze ekspresji genów. Zastosowano również kilka innych środków, takich jak korelacja częściowa, regresja i połączenie korelacji częściowej i wzajemnej informacji.
każdy z tych środków ma swoje zalety i wady. Odległość euklidesowa nie jest właściwa, gdy bezwzględne poziomy funkcjonalnie powiązanych genów są bardzo różne. Co więcej, jeśli dwa geny mają niezmiennie niski poziom ekspresji, ale są w inny sposób losowo skorelowane, mogą nadal pojawiać się blisko przestrzeni euklidesowej. Jedną z zalet wzajemnej informacji jest to, że może ona wykrywać nieliniowe relacje; jednak może to stać się wadą z powodu wykrywania wyrafinowanych nieliniowych relacji, które nie wyglądają na biologicznie znaczące. Ponadto do obliczania wzajemnych informacji należy oszacować rozkład danych, który wymaga dużej liczby próbek do dobrego oszacowania. Współczynnik korelacji rang Spearmana jest bardziej odporny na wartości odstające, ale z drugiej strony jest mniej wrażliwy na wartości wyrażeń, a w zestawach danych z małą liczbą próbek może wykryć wiele fałszywych alarmów.
współczynnik korelacji Pearsona jest najpopularniejszą miarą koekspresji stosowaną w konstruowaniu sieci koekspresji genów. Współczynnik korelacji Pearsona przyjmuje wartość od -1 do 1, gdzie wartości bezwzględne bliskie 1 wykazują silną korelację. Wartości dodatnie odpowiadają mechanizmowi aktywacji, w którym ekspresja jednego genu wzrasta wraz ze wzrostem ekspresji jego współwyrażonego genu i odwrotnie. Gdy wartość ekspresji jednego genu zmniejsza się wraz ze wzrostem ekspresji jego współwyrażonego genu, odpowiada on mechanizmowi supresji leżącemu u podstaw i miałby ujemną korelację.
istnieją dwie wady miary korelacji Pearsona: może ona wykrywać tylko relacje liniowe i jest wrażliwa na wartości odstające. Co więcej, korelacja Pearsona zakłada, że dane ekspresji genu są zgodne z rozkładem normalnym. Song et al. zaproponowali dwuwagi średniej korelacji (bicor) jako dobrą alternatywę dla korelacji Pearsona. „Bicor jest miarą korelacji opartą na medianie i jest bardziej wytrzymały niż korelacja Pearsona, ale często silniejszy niż korelacja Spearmana”. Ponadto wykazano, że” większość par genów spełnia relacje liniowe lub monotoniczne”, co wskazuje, że”sieci wzajemnej informacji można bezpiecznie zastąpić sieciami korelacji, jeśli chodzi o pomiar relacji koekspresji w danych stacjonarnych”.
wybór progu
do wyboru progu w konstruowaniu sieci koekspresji genów zastosowano kilka metod. Prostą metodą progowania jest wybranie odcięcia koekspresji i wybranie relacji, których koekspresja przekracza to odcięcie. Innym podejściem jest użycie transformacji z Fishera, która oblicza Z-score dla każdej korelacji na podstawie liczby próbek. Ten wynik z jest następnie konwertowany na wartość p dla każdej korelacji, a na wartości p ustawia się odcięcia. Niektóre metody permutują Dane i obliczają z-score używając rozkładu korelacji znalezionych między genami w permutowanym zbiorze danych. Niektóre inne podejścia zostały również wykorzystane, takie jak dobór progu na podstawie współczynnika klastrowania lub teorii macierzy losowych.
problem z metodami opartymi na wartościach p polega na tym, że ostateczne odcięcie wartości p jest wybierane na podstawie procedur statystycznych(np. wartość p 0,01 lub 0,05 jest uważana za znaczącą), a nie na podstawie wglądu biologicznego.
WGCNA jest ramą do konstruowania i analizowania ważonych sieci koekspresji genów. Metoda WGCNA wybiera próg budowy sieci w oparciu o bezskalową topologię sieci koekspresji genów. Metoda ta konstruuje Sieć dla kilku progów i wybiera próg, który prowadzi do sieci o topologii bezskalowej. Ponadto metoda WGCNA konstruuje sieć ważoną, co oznacza, że wszystkie możliwe krawędzie pojawiają się w sieci, ale każda krawędź ma wagę, która pokazuje, jak istotna jest relacja koekspresji odpowiadająca tej krawędzi. Warto zauważyć, że wybór progu ma na celu zmuszenie sieci do uzyskania topologii bezskalowej. Jednak podstawowe założenie, że sieci biologiczne są wolne od skali, jest sporne.
lmqcm jest alternatywą dla WGCNA osiągając ten sam cel analizy sieci koekspresji genów. lmQCM, skrót od local maximal Quasi-Clique Fusion, mający na celu wykorzystanie lokalnie gęstych struktur w sieci, dzięki czemu można wydobywać mniejsze i gęsto współwyrażone Moduły, umożliwiając nakładanie się modułów. algorytm lmQCM ma swój pakiet R i moduł Pythona (w pakiecie biolearns). Ogólnie mniejszy rozmiar wydobywanych modułów może również generować bardziej znaczące wyniki wzbogacania ontologii genów (GO).