Gene co-expression network

Un buon numero di metodi sono stati sviluppati per la costruzione di reti di co-espressione genica. In linea di principio, tutti seguono un approccio in due fasi: calcolo della misura di co-espressione e selezione della soglia di significatività. Nella prima fase, viene selezionata una misura di co-espressione e viene calcolato un punteggio di somiglianza per ogni coppia di geni utilizzando questa misura. Quindi, viene determinata una soglia e le coppie di geni che hanno un punteggio di somiglianza superiore alla soglia selezionata sono considerate avere una significativa relazione di co-espressione e sono collegate da un bordo nella rete.

Le due fasi generali per la costruzione di una rete di co-espressione genica: calcolo del punteggio di co-espressione (ad esempio il valore assoluto del coefficiente di correlazione di Pearson) per ogni coppia di geni e selezione di una soglia di significatività (ad esempio correlazione > 0.8).

I dati di input per la costruzione di una rete di co-espressione genica sono spesso rappresentati come una matrice. Se abbiamo i valori di espressione genica dei geni m per i campioni n (condizioni), i dati di input sarebbero una matrice m×n, chiamata matrice di espressione. Per esempio, in un esperimento di microarray i valori di espressione di migliaia di geni sono misurati per diversi campioni. Nel primo passaggio, un punteggio di somiglianza (misura di co-espressione) viene calcolato tra ogni coppia di righe nella matrice di espressione. La matrice risultante è una matrice m×m chiamata matrice di somiglianza. Ogni elemento in questa matrice mostra come allo stesso modo i livelli di espressione di due geni cambiano insieme. Nella seconda fase, gli elementi della matrice di similarità che sono al di sopra di una certa soglia (cioè indicano una co-espressione significativa) sono sostituiti da 1 e gli elementi rimanenti sono sostituiti da 0. La matrice risultante, chiamata matrice di adiacenza, rappresenta il grafico della rete di co-espressione genica costruita. In questa matrice, ogni elemento mostra se due geni sono collegati nella rete (gli elementi 1) o meno (gli elementi 0).

Co-expression Measuredit

I valori di espressione di un gene per campioni diversi possono essere rappresentati come un vettore, quindi il calcolo della misura di co-espressione tra una coppia di geni è lo stesso del calcolo della misura selezionata per due vettori di numeri.

Il coefficiente di correlazione di Pearson, l’informazione reciproca, il coefficiente di correlazione di rango di Spearman e la distanza euclidea sono le quattro misure di co-espressione maggiormente utilizzate per la costruzione di reti di co-espressione genica. La distanza euclidea misura la distanza geometrica tra due vettori e quindi considera sia la direzione che la grandezza dei vettori dei valori di espressione genica. L’informazione reciproca misura quanto conoscere i livelli di espressione di un gene riduce l’incertezza sui livelli di espressione di un altro. Il coefficiente di correlazione di Pearson misura la tendenza di due vettori ad aumentare o diminuire insieme, dando una misura della loro corrispondenza complessiva. La correlazione di rango di Spearman è la correlazione di Pearson calcolata per i ranghi dei valori di espressione genica in un vettore di espressione genica. Sono state utilizzate anche diverse altre misure come la correlazione parziale, la regressione e la combinazione di correlazione parziale e informazioni reciproche.

Ciascuna di queste misure ha i suoi vantaggi e svantaggi. La distanza euclidea non è appropriata quando i livelli assoluti di geni funzionalmente correlati sono molto diversi. Inoltre, se due geni hanno livelli di espressione costantemente bassi ma sono altrimenti correlati casualmente, potrebbero ancora apparire vicini nello spazio Euclideo. Un vantaggio dell’informazione reciproca è che può rilevare relazioni non lineari; tuttavia questo può trasformarsi in uno svantaggio a causa del rilevamento di sofisticate relazioni non lineari che non sembrano biologicamente significative. Inoltre, per il calcolo delle informazioni reciproche si dovrebbe stimare la distribuzione dei dati che richiede un gran numero di campioni per una buona stima. Il coefficiente di correlazione di rango di Spearman è più robusto per i valori anomali, ma d’altra parte è meno sensibile ai valori di espressione e nei set di dati con un numero limitato di campioni può rilevare molti falsi positivi.

Il coefficiente di correlazione di Pearson è la misura di co-espressione più popolare utilizzata nella costruzione di reti di co-espressione genica. Il coefficiente di correlazione di Pearson assume un valore compreso tra -1 e 1 dove valori assoluti vicini a 1 mostrano una forte correlazione. I valori positivi corrispondono a un meccanismo di attivazione in cui l’espressione di un gene aumenta con l’aumento dell’espressione del suo gene co-espresso e viceversa. Quando il valore di espressione di un gene diminuisce con l’aumento dell’espressione del suo gene co-espresso, corrisponde a un meccanismo di soppressione sottostante e avrebbe una correlazione negativa.

Ci sono due svantaggi per la misura di correlazione di Pearson: può rilevare solo relazioni lineari ed è sensibile ai valori anomali. Inoltre, la correlazione di Pearson presuppone che i dati di espressione genica seguano una distribuzione normale. Canzone et al. ho suggerito la midcorrelazione bipeso (bicor) come una buona alternativa per la correlazione di Pearson. “Bicor è una misura di correlazione basata sulla mediana ed è più robusta della correlazione di Pearson ma spesso più potente della correlazione di Spearman”. Inoltre, è stato dimostrato che” la maggior parte delle coppie di geni soddisfa relazioni lineari o monotoniche”, il che indica che”le reti di informazione reciproca possono tranquillamente essere sostituite da reti di correlazione quando si tratta di misurare le relazioni di co-espressione nei dati stazionari”.

Selezione soglia

Sono stati utilizzati diversi metodi per selezionare una soglia nella costruzione di reti di co-espressione genica. Un semplice metodo di soglia consiste nel scegliere un cutoff di co-espressione e selezionare le relazioni che la loro co-espressione supera questo cutoff. Un altro approccio è quello di utilizzare la trasformazione Z di Fisher che calcola un punteggio z per ogni correlazione in base al numero di campioni. Questo punteggio z viene quindi convertito in un valore p per ogni correlazione e sul valore p viene impostato un cutoff. Alcuni metodi permutano i dati e calcolano un punteggio z utilizzando la distribuzione delle correlazioni trovate tra i geni nel set di dati permutato. Sono stati utilizzati anche altri approcci come la selezione della soglia basata sul coefficiente di clustering o sulla teoria della matrice casuale.

Il problema con i metodi basati sul valore p è che il cutoff finale sul valore p viene scelto in base a routine statistiche(ad esempio un valore p di 0,01 o 0,05 è considerato significativo), non basato su un’intuizione biologica.

WGCNA è un framework per la costruzione e l’analisi di reti di co-espressione genica ponderata. Il metodo WGCNA seleziona la soglia per la costruzione della rete basata sulla topologia senza scala delle reti di co-espressione genica. Questo metodo costruisce la rete per diverse soglie e seleziona la soglia che porta a una rete con topologia senza scala. Inoltre, il metodo WGCNA costruisce una rete ponderata che significa che tutti i possibili bordi appaiono nella rete, ma ogni bordo ha un peso che mostra quanto sia significativa la relazione di co-espressione corrispondente a quel bordo. Da notare, la selezione della soglia ha lo scopo di costringere le reti in una topologia senza scala. Tuttavia, la premessa di fondo che le reti biologiche sono senza scala è controversa.

lmQCM è un’alternativa per il WGCNA che raggiunge lo stesso obiettivo dell’analisi delle reti di co-espressione genica. lmQCM, acronimo di local maximal Quasi-Clique Merger, mira a sfruttare le strutture localmente dense nella rete, quindi può estrarre moduli più piccoli e densamente co-espressi consentendo la sovrapposizione dei moduli. l’algoritmo lmQCM ha il suo pacchetto R e il modulo python (in bundle in Biolearns). Le dimensioni generalmente più piccole dei moduli estratti possono anche generare risultati di arricchimento dell’ontologia genica (GO) più significativi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.