er zijn een groot aantal methoden ontwikkeld voor het construeren van Gen co-expressienetwerken. In principe volgen ze allemaal een tweestappenaanpak: het berekenen van de co-expressiemaat en het selecteren van de significantiedrempel. In de eerste stap wordt een co-expressiemaat geselecteerd en wordt een gelijkvormigheidsscore berekend voor elk paar genen met behulp van deze maat. Dan, wordt een drempel bepaald en genparen die een gelijkaardigheidsscore hoger dan de geselecteerde drempel hebben worden beschouwd om een significante co-expressierelatie te hebben en door een rand in het netwerk worden verbonden.
de inputgegevens voor het construeren van een gen co-expressienetwerk worden vaak voorgesteld als een matrix. Als we de genexpressiewaarden van M-genen voor n-Monsters (voorwaarden) hebben, zouden de inputgegevens een M×n-matrix zijn, genaamd expressiematrix. Bijvoorbeeld, in een microarray-experiment worden de uitdrukkingswaarden van duizenden genen gemeten voor Verscheidene steekproeven. In de eerste stap wordt een gelijkvormigheidsscore (Co-expressiemaat) berekend tussen elk paar rijen in expressiematrix. De resulterende matrix is een M×m-matrix die de gelijkvormigheidsmatrix wordt genoemd. Elk element in deze matrix laat zien hoe op dezelfde manier de expressieniveaus van twee genen samen veranderen. In de tweede stap worden de elementen in de gelijkvormigheidsmatrix die boven een bepaalde drempel liggen (d.w.z. significante co-expressie aangeven) vervangen door 1 en de overige elementen vervangen door 0. De resulterende matrijs, genoemd de adjacencymatrijs, vertegenwoordigt de grafiek van het geconstrueerde netwerk van GENCO-uitdrukking. In deze matrix laat elk element zien of twee genen verbonden zijn in het netwerk (de 1 elementen) of niet (de 0 elementen).
Co-expressiemaat
de expressiewaarden van een gen voor verschillende monsters kunnen worden weergegeven als een vector, dus de berekening van de co-expressiemaat tussen een paar genen is hetzelfde als de berekening van de geselecteerde maat voor twee vectoren van getallen.
Pearson ’s correlation coefficient, Mutual Information, Spearman’ s rank correlation coefficient en Euclidische afstand zijn de vier meest gebruikte co-expressiemetingen voor het construeren van Gen co-expressienetwerken. De Euclidische afstand meet de meetkundige afstand tussen twee vectoren, en beschouwt zo zowel de richting als de grootte van de vectoren van genuitdrukkingswaarden. Wederzijdse informatie meet hoeveel het kennen van de uitdrukkingsniveaus van één gen de onzekerheid over de uitdrukkingsniveaus van een ander vermindert. De correlatiecoëfficiënt van Pearson meet de neiging van twee vectoren om samen te stijgen of te dalen, wat een maat geeft voor hun totale correspondentie. De rangcorrelatie van Spearman is de correlatie van Pearson die wordt berekend voor de rangen van genuitdrukkingswaarden in een genuitdrukkingsvector. Verscheidene andere maatregelen zoals gedeeltelijke correlatie, regressie, en combinatie van gedeeltelijke correlatie en wederzijdse informatie zijn ook gebruikt.
elk van deze maatregelen heeft zijn eigen voor-en nadelen. De Euclidische afstand is niet geschikt wanneer de absolute niveaus van functioneel verwante genen sterk verschillen. Bovendien, als twee genen constant lage expressieniveaus hebben maar anders willekeurig gecorreleerd zijn, kunnen ze nog steeds dicht in de Euclidische ruimte verschijnen. Een voordeel aan Wederzijdse informatie is dat het niet-lineaire relaties kan detecteren; dit kan echter een nadeel worden door het detecteren van geavanceerde niet-lineaire relaties die biologisch niet zinvol lijken. Bovendien, voor het berekenen van wederzijdse informatie moet men de verdeling van de gegevens die een groot aantal monsters nodig voor een goede schatting schatten. Spearman ‘ s rank correlation coefficient is robuuster voor uitschieters, maar aan de andere kant is het minder gevoelig voor expressiewaarden en in datasets met een klein aantal monsters kunnen veel valse positieven detecteren.De correlatiecoëfficiënt van Pearson is de meest populaire co-expressiemaat die wordt gebruikt bij het construeren van GENCO-expressienetwerken. De correlatiecoëfficiënt van Pearson neemt een waarde tussen -1 en 1 waar absolute waarden dicht bij 1 sterke correlatie vertonen. De positieve waarden komen overeen met een activeringsmechanisme waarbij de expressie van één gen toeneemt met de toename van de expressie van het co-tot expressie gebrachte gen en vice versa. Wanneer de expressiewaarde van één gen afneemt met de toename van de expressie van zijn mede-uitgedrukte gen, komt het overeen met een onderliggend onderdrukkingsmechanisme en zou het een negatieve correlatie hebben.
er zijn twee nadelen voor Pearson correlatiemaat: het kan alleen lineaire relaties detecteren en het is gevoelig voor uitschieters. Bovendien veronderstelt de correlatie Pearson dat de gegevens van de genuitdrukking een normale verdeling volgen. Song et al. hebben voorgesteld biweight midcorrelatie (bicor) als een goed alternatief voor Pearson correlatie. “Bicor is een mediaan gebaseerde correlatie maat, en is robuuster dan de Pearson correlatie, maar vaak krachtiger dan de Spearman correlatie”. Verder is aangetoond dat” de meeste genparen voldoen aan lineaire of monotone relaties “wat erop wijst dat”Wederzijdse informatienetwerken veilig kunnen worden vervangen door correlatienetwerken wanneer het gaat om het meten van co-expressierelaties in stationaire gegevens”.
Drempelselectiedit
verschillende methoden zijn gebruikt voor het selecteren van een drempel bij het construeren van GENCO-expressienetwerken. Een eenvoudige dorsmethode is het kiezen van een co-expressie cutoff en het selecteren van relaties die hun co-expressie overschrijdt deze cutoff. Een andere benadering is om Fisher ‘ s z-transformatie te gebruiken die een Z-score berekent voor elke correlatie gebaseerd op het aantal monsters. Deze Z-score wordt dan omgezet in een p-waarde voor elke correlatie en een cut-off wordt ingesteld op de p-waarde. Sommige methodes staan de gegevens toe en berekenen een Z-score gebruikend de distributie van correlaties die tussen genen in gepermuteerde dataset worden gevonden. Sommige andere benaderingen zijn ook gebruikt zoals drempelselectie die op clustering coëfficiënt of willekeurige matrixtheorie wordt gebaseerd.
het probleem met P-waarde gebaseerde methoden is dat de uiteindelijke cut-off op de p-waarde wordt gekozen op basis van statistische routines(bijvoorbeeld een p-waarde van 0,01 of 0,05 wordt als significant beschouwd), niet op basis van een biologisch inzicht.
WGCNA is een raamwerk voor het construeren en analyseren van gewogen gen co-expressienetwerken. De wgcna methode selecteert de drempel voor het construeren van het netwerk gebaseerd op de schaal-vrije topologie van Gen co-expressienetwerken. Deze methode construeert het netwerk voor meerdere drempels en selecteert de drempel die leidt tot een netwerk met schaalvrije topologie. Bovendien construeert de wgcna-methode een gewogen netwerk, wat betekent dat alle mogelijke randen in het netwerk verschijnen, maar elke rand heeft een gewicht dat aangeeft hoe belangrijk de co-expressierelatie is die overeenkomt met die rand. De drempelselectie is bedoeld om netwerken te dwingen tot een schaalloze topologie. De onderliggende aanname dat biologische netwerken schaalvrij zijn, is echter omstreden.
lmQCM is een alternatief voor WGCNA dat hetzelfde doel van de analyse van GENCO-expressienetwerken bereikt. lmQCM, staat voor local maximal Quasi-Clique Merger, gericht op de lokale dichte structuren in het netwerk te exploiteren, dus kan de mijnbouw kleinere en dichtgedrukte modules door module overlapping. het algoritme lmQCM heeft zijn R pakket en python module (gebundeld in Biolearns). De over het algemeen kleinere grootte van Ontgonnen modules kan ook betekenisvollere resultaten van de verrijking van de genontologie (GO) produceren.