Rede de co-expressão de genes

um bom número de métodos foram desenvolvidos para a construção de redes de co-expressão de genes. Em princípio, todos seguem uma abordagem em duas etapas: calcular a medida de co-expressão e selecionar o limiar de significância. No primeiro passo, uma medida de co-expressão é selecionada e uma pontuação de similaridade é calculada para cada par de genes usando esta medida. Em seguida, um limiar é determinado e pares de genes que têm uma pontuação de semelhança maior do que o limiar selecionado são considerados como tendo uma relação de co-expressão significativa e são conectados por uma aresta na rede.

A dois passos gerais para a construção de um gene co-rede de expressão: cálculo da co-expressão de pontuação (por exemplo, o valor absoluto do coeficiente de correlação de Pearson) para cada par de genes, e a seleção de um limiar de significância (e.g. correlação > 0.8).

os dados de entrada para a construção de uma rede de co-expressão de genes são muitas vezes representados como uma matriz. Se tivermos os valores de expressão genética de genes m para amostras n (Condições), os dados de entrada seriam uma matriz m×n, chamada matriz de expressão. Por exemplo, em um experimento de microarray os valores de expressão de milhares de genes são medidos para várias amostras. No primeiro passo, uma pontuação de semelhança (medida de co-expressão) é calculada entre cada par de linhas na matriz de expressão. The resulting matrix is an m×M matrix called the similarity matrix. Cada elemento nesta matriz mostra como similarmente os níveis de expressão de dois genes mudam juntos. Na segunda etapa, os elementos da matriz de similaridade que estão acima de um determinado limiar (i.e. indicar significativa co-expressão) são substituídos por 1 e os restantes elementos são substituídos por 0. A matriz resultante, chamada de matriz de adjacência, representa o grafo da rede de co-expressão de genes construída. Nesta matriz, cada elemento mostra se dois genes estão conectados na rede (os 1 Elementos) ou não (os 0 elementos).

Co-expressão measureEdit

Os valores de expressão de um gene para diferentes amostras pode ser representado como um vetor, assim, calcular o co-expressão de medida entre um par de genes é o mesmo que calcular a medida selecionada para dois vetores de números.

Pearson’s correlation coefficient, Mutual Information, Spearman’s rank correlation coefficient and Euclidean distance are the four mostly used co-expression measures for constructing gene co-expression networks. A distância euclidiana mede a distância geométrica entre dois vetores, e assim considera tanto a direção quanto a magnitude dos vetores dos valores de expressão genética. A informação mútua mede o quanto conhecer os níveis de expressão de um gene reduz a incerteza sobre os níveis de expressão de outro. O coeficiente de correlação de Pearson mede a tendência de dois vetores para aumentar ou diminuir em conjunto, dando uma medida de sua correspondência global. Spearman’s rank correlation is the Pearson’s correlation calculated for the rank of gene expression values in a gene expression vector. Foram também utilizadas várias outras medidas, tais como correlação parcial, regressão e combinação de correlação parcial e informação mútua.Cada uma destas medidas tem as suas vantagens e desvantagens. A distância Euclidiana não é apropriada quando os níveis absolutos de genes funcionalmente relacionados são altamente diferentes. Além disso, se dois genes têm consistentemente baixos níveis de expressão, mas são de outra forma correlacionados aleatoriamente, eles ainda podem aparecer perto no espaço euclidiano. Uma vantagem para a informação mútua é que ela pode detectar relações não-lineares; no entanto, isso pode se transformar em uma desvantagem por detectar relações não-lineares sofisticadas que não parecem biologicamente significativas. Além disso, para calcular a informação mútua, deve estimar-se a distribuição dos dados que necessitam de um grande número de amostras para uma boa estimativa. O coeficiente de correlação de rank de Spearman é mais robusto para os valores anómalos, mas por outro lado é menos sensível aos valores de expressão e em conjuntos de dados com pequeno número de amostras podem detectar muitos falsos positivos.

pearson’s correlation coefficient is the most popular co-expression measure used in constructing gene co-expression networks. O coeficiente de correlação de Pearson leva um valor entre -1 e 1 onde valores absolutos próximos de 1 mostram forte correlação. Os valores positivos correspondem a um mecanismo de activação em que a expressão de um gene aumenta com o aumento da expressão do seu gene Co-expresso e vice-versa. Quando o valor de expressão de um gene diminui com o aumento da expressão do seu gene Co-expresso, corresponde a um mecanismo de supressão subjacente e teria uma correlação negativa.

existem duas desvantagens para a medida de correlação de Pearson: ela só pode detectar relações lineares e é sensível a valores anómalos. Além disso, a correlação de Pearson assume que os dados de expressão genética seguem uma distribuição normal. Song et al. sugeriram a midcorrelação de biweight (bicor) como uma boa alternativa para a correlação de Pearson. “Bicor é uma medida de correlação baseada em mediana, e é mais robusta do que a correlação de Pearson, mas muitas vezes mais poderosa do que a correlação de Spearman”. Além disso, foi demonstrado que “a maioria dos pares de genes satisfazem relações lineares ou monotónicas”, o que indica que “as redes de informação mútua podem ser substituídas com segurança por redes de correlação quando se trata de medir relações de co-expressão em dados estacionários”.

Threshold selectionEdit

vários métodos têm sido usados para selecionar um threshold na construção de redes de co-expressão genética. Um método simples de thresholding é escolher um corte de co-expressão e selecionar relacionamentos que sua Co-expressão excede este corte. Outra abordagem é usar a transformação Z de Fisher que calcula uma pontuação z para cada correlação com base no número de amostras. Esta pontuação z é então convertida em um valor p para cada correlação e um corte é definido no valor p. Alguns métodos permutam os dados e calculam uma pontuação z usando a distribuição de correlações encontradas entre genes em conjunto de dados permutados. Algumas outras abordagens também têm sido usadas como seleção de limiar baseado em coeficiente de clustering ou teoria da matriz aleatória.

O problema com p-valor base de métodos é que o final de corte sobre o valor-p é escolhido com base na estatística rotinas(por exemplo, um p-valor de 0,01 ou 0,05 é considerado significativo), e não com base em uma visão biológica.

WGCNA é uma estrutura para construir e analisar redes de co-expressão de genes ponderadas. O método WGCNA seleciona o limiar para a construção da rede com base na topologia livre de escala das redes de co-expressão genética. Este método constrói a rede para vários limiares e seleciona o limiar que leva a uma rede com topologia livre de escala. Além disso, o método WGCNA constrói uma rede ponderada, o que significa que todas as arestas possíveis aparecem na rede, mas cada aresta tem um peso que mostra o quão significativa é a relação de co-expressão correspondente a essa aresta. De notar, a seleção de limiar destina-se a coagir as redes em uma topologia livre de escala. No entanto, a premissa subjacente de que as redes biológicas são livres de escala é controversa.

lmQCM é uma alternativa para WGCNA atingir o mesmo objetivo de análise de redes de co-expressão genética. lmQCM, significa concentração local maximal Quasi-Clique, com o objetivo de explorar as estruturas localmente densas na rede, assim, pode extrair módulos menores e densamente Co-expressos, permitindo a sobreposição de módulos. o algoritmo lmQCM tem seu pacote R e módulo python (empacotado em Biolearns). O tamanho geralmente menor dos módulos extraídos também pode gerar resultados de enriquecimento de genes mais significativos (GO).

Deixe uma resposta

O seu endereço de email não será publicado.