un număr bun de metode au fost dezvoltate pentru construirea rețelelor de coexpresie genetică. În principiu, toate urmează o abordare în două etape: calcularea măsurii de co-exprimare și selectarea pragului de semnificație. În prima etapă, se selectează o măsură de coexpresie și se calculează un scor de similitudine pentru fiecare pereche de gene folosind această măsură. Apoi, se determină un prag și perechile de gene care au un scor de similitudine mai mare decât pragul selectat sunt considerate a avea o relație semnificativă de coexprimare și sunt conectate printr-o margine în rețea.
datele de intrare pentru construirea unei rețele de co-exprimare a genelor sunt adesea reprezentate ca o matrice. Dacă avem valorile expresiei genice ale genelor m pentru n eșantioane (condiții), datele de intrare ar fi o matrice m n, numită matrice de Expresie. De exemplu, într-un experiment microarray valorile expresiei a mii de gene sunt măsurate pentru mai multe probe. În primul pas, se calculează un scor de similitudine (măsură de coexpresie) între fiecare pereche de rânduri din matricea de Expresie. Matricea rezultată este o matrice m XQQ m numită matrice de similitudine. Fiecare element din această matrice arată cum, în mod similar, nivelurile de Expresie ale două gene se schimbă împreună. În a doua etapă, elementele din matricea de similitudine care depășesc un anumit prag (adică indică o coexpresie semnificativă) sunt înlocuite cu 1, iar elementele rămase sunt înlocuite cu 0. Matricea rezultată, numită matricea de adiacență, reprezintă graficul rețelei de coexpresie a genelor construite. În această matrice, fiecare element arată dacă două gene sunt conectate în rețea (elementele 1) sau nu (elementele 0).
coexpression measuredit
valorile de Expresie ale unei gene pentru diferite probe pot fi reprezentate ca un vector, astfel calcularea măsurii de coexpression între o pereche de gene este aceeași cu calcularea măsurii selectate pentru doi vectori de numere.
coeficientul de corelație al lui Pearson, informația reciprocă, coeficientul de corelație a rangului lui Spearman și distanța euclidiană sunt cele patru măsuri de coexpresie utilizate în cea mai mare parte pentru construirea rețelelor de coexpresie genetică. Distanța euclidiană măsoară distanța geometrică dintre doi vectori și, prin urmare, ia în considerare atât direcția, cât și magnitudinea vectorilor valorilor expresiei genelor. Informațiile reciproce măsoară cât de mult cunoașterea nivelurilor de Expresie ale unei gene reduce incertitudinea cu privire la nivelurile de Expresie ale alteia. Coeficientul de corelație al lui Pearson măsoară tendința a doi vectori de a crește sau de a scădea împreună, oferind o măsură a corespondenței lor globale. Corelația rangului lui Spearman este corelația lui Pearson calculată pentru rândurile valorilor expresiei genelor într-un vector de expresie a genelor. Au fost utilizate și alte măsuri, cum ar fi corelația parțială, regresia și combinația de corelație parțială și informații reciproce.
fiecare dintre aceste măsuri are propriile avantaje și dezavantaje. Distanța euclidiană nu este adecvată atunci când nivelurile absolute ale genelor legate funcțional sunt foarte diferite. Mai mult, dacă două gene au niveluri de Expresie constant scăzute, dar altfel sunt corelate aleatoriu, acestea ar putea apărea în continuare apropiate în spațiul Euclidian. Un avantaj al informațiilor reciproce este că poate detecta relații neliniare; cu toate acestea, acest lucru se poate transforma într-un dezavantaj din cauza detectării unor relații neliniare sofisticate care nu par semnificative din punct de vedere biologic. În plus, pentru calcularea informațiilor reciproce ar trebui să se estimeze distribuția datelor care necesită un număr mare de eșantioane pentru o estimare bună. Coeficientul de corelație a rangului lui Spearman este mai robust față de valori aberante, dar pe de altă parte este mai puțin sensibil la valorile expresiei și în seturile de date cu număr mic de eșantioane poate detecta multe fals pozitive.
coeficientul de corelație al lui Pearson este cea mai populară măsură de co-exprimare utilizată în construirea rețelelor de co-exprimare a genelor. Coeficientul de corelație al lui Pearson are o valoare cuprinsă între -1 și 1, unde valorile absolute apropiate de 1 prezintă o corelație puternică. Valorile pozitive corespund unui mecanism de activare în care expresia unei gene crește odată cu creșterea expresiei genei sale Co-exprimate și invers. Când valoarea expresiei unei gene scade odată cu creșterea expresiei genei sale coexprimate, aceasta corespunde unui mecanism de suprimare subiacent și ar avea o corelație negativă.
există două dezavantaje pentru măsurarea corelației Pearson: poate detecta doar relații liniare și este sensibil la valori aberante. Mai mult, corelația Pearson presupune că datele privind expresia genelor urmează o distribuție normală. Song și colab. au sugerat midcorelația bi-greutate (bicor) ca o alternativă bună pentru corelația lui Pearson. „Bicor este o măsură de corelație bazată pe mediană și este mai robustă decât corelația Pearson, dar adesea mai puternică decât corelația Spearman”. Mai mult, s-a demonstrat că „majoritatea perechilor de gene satisfac relații liniare sau monotone”, ceea ce indică faptul că „rețelele de informații reciproce pot fi înlocuite în siguranță de rețele de corelație atunci când vine vorba de măsurarea relațiilor de coexpresie în datele staționare”.
selectarea Praguluiedit
au fost utilizate mai multe metode pentru selectarea unui prag în construirea rețelelor de coexpresie genetică. O metodă simplă de prag este de a alege o limită de coexpresie și de a selecta relațiile pe care coexpresia lor le depășește această limită. O altă abordare este utilizarea transformării Z a lui Fisher, care calculează un scor z pentru fiecare corelație pe baza numărului de eșantioane. Acest scor z este apoi convertit într-o valoare p pentru fiecare corelație și o limită este setată pe valoarea P. Unele metode permutează datele și calculează un scor z folosind distribuția corelațiilor găsite între gene în setul de date permutate. Au fost utilizate și alte abordări, cum ar fi selecția pragului bazată pe coeficientul de clustering sau teoria matricei aleatorii.
problema metodelor bazate pe valoarea p este că limita finală a valorii p este aleasă pe baza rutinelor statistice(de exemplu, o valoare p de 0,01 sau 0,05 este considerată semnificativă), nu se bazează pe o perspectivă biologică.
WGCNA este un cadru pentru construirea și analiza rețelelor ponderate de co-exprimare a genelor. Metoda WGCNA Selectează pragul pentru construirea rețelei pe baza topologiei fără scară a rețelelor de coexpresie genetică. Această metodă construiește rețeaua pentru mai multe praguri și selectează pragul care duce la o rețea cu topologie fără scară. Mai mult, metoda WGCNA construiește o rețea ponderată, ceea ce înseamnă că toate marginile posibile apar în rețea, dar fiecare margine are o greutate care arată cât de semnificativă este relația de coexpresie corespunzătoare acelei margini. De remarcat, selecția pragului este destinată constrângerii rețelelor într-o topologie fără scară. Cu toate acestea, premisa care stă la baza faptului că rețelele biologice sunt fără scară este controversată.
lmQCM este o alternativă pentru WGCNA care atinge același obiectiv al analizei rețelelor de coexpresie genetică. lmQCM, reprezintă fuziunea cvasi-clică maximă locală, cu scopul de a exploata structurile dens locale din rețea, astfel poate extrage module mai mici și dens Co-exprimate, permițând suprapunerea modulelor. algoritmul lmQCM are pachetul R și modulul python (inclus în Biolearns). Dimensiunea în general mai mică a modulelor minate poate genera, de asemenea, rezultate de îmbogățire a ontologiei genetice (GO) mai semnificative.