Red de coexpresión de genes

Se han desarrollado un buen número de métodos para construir redes de coexpresión de genes. En principio, todos siguen un enfoque de dos pasos: calcular la medida de coexpresión y seleccionar el umbral de significación. En el primer paso, se selecciona una medida de coexpresión y se calcula una puntuación de similitud para cada par de genes utilizando esta medida. Luego, se determina un umbral y se considera que los pares de genes que tienen una puntuación de similitud mayor que el umbral seleccionado tienen una relación de coexpresión significativa y están conectados por un borde en la red.

Los dos pasos generales para construir una red de coexpresión de genes: calcular la puntuación de coexpresión (por ejemplo, el valor absoluto del coeficiente de correlación de Pearson) para cada par de genes y seleccionar un umbral de significación (por ejemplo, correlación > 0,8).

Los datos de entrada para construir una red de coexpresión de genes a menudo se representan como una matriz. Si tenemos los valores de expresión génica de genes m para muestras n (condiciones), los datos de entrada serían una matriz m×n, llamada matriz de expresión. Por ejemplo, en un experimento de microarrays se miden los valores de expresión de miles de genes para varias muestras. En el primer paso, se calcula una puntuación de similitud (medida de coexpresión) entre cada par de filas en la matriz de expresiones. La matriz resultante es una matriz m×m llamada matriz de similitud. Cada elemento de esta matriz muestra de manera similar los niveles de expresión de dos genes cambian juntos. En el segundo paso, los elementos de la matriz de similitud que están por encima de un cierto umbral (es decir, indican coexpresión significativa) se sustituyen por 1 y los elementos restantes se sustituyen por 0. La matriz resultante, llamada matriz de adyacencia, representa el gráfico de la red de coexpresión de genes construida. En esta matriz, cada elemento muestra si dos genes están conectados en la red (los elementos 1) o no (los elementos 0).

Medición de coexpresión Edit

Los valores de expresión de un gen para diferentes muestras se pueden representar como un vector, por lo que calcular la medida de coexpresión entre un par de genes es lo mismo que calcular la medida seleccionada para dos vectores de números.

El coeficiente de correlación de Pearson, la Información Mutua, el coeficiente de correlación de rango de Spearman y la distancia euclidiana son las cuatro medidas de coexpresión más utilizadas para construir redes de coexpresión de genes. La distancia euclidiana mide la distancia geométrica entre dos vectores, y así considera tanto la dirección como la magnitud de los vectores de los valores de expresión génica. La información mutua mide cuánto conocer los niveles de expresión de un gen reduce la incertidumbre sobre los niveles de expresión de otro. El coeficiente de correlación de Pearson mide la tendencia de dos vectores a aumentar o disminuir juntos, dando una medida de su correspondencia general. La correlación de rangos de Spearman es la correlación de Pearson calculada para los rangos de los valores de expresión génica en un vector de expresión génica. También se han utilizado varias otras medidas, como correlación parcial, regresión y combinación de correlación parcial e información mutua.

Cada una de estas medidas tiene sus propias ventajas y desventajas. La distancia euclidiana no es apropiada cuando los niveles absolutos de genes relacionados funcionalmente son muy diferentes. Además, si dos genes tienen niveles de expresión consistentemente bajos, pero están correlacionados aleatoriamente, todavía podrían aparecer cerca en el espacio euclidiano. Una ventaja de la información mutua es que puede detectar relaciones no lineales; sin embargo, esto puede convertirse en una desventaja debido a la detección de relaciones no lineales sofisticadas que no parecen biológicamente significativas. Además, para calcular la información mutua se debe estimar la distribución de los datos que necesita un gran número de muestras para una buena estimación. El coeficiente de correlación de rango de Spearman es más robusto para valores atípicos, pero por otro lado es menos sensible a los valores de expresión y en conjuntos de datos con un número pequeño de muestras puede detectar muchos falsos positivos.

El coeficiente de correlación de Pearson es la medida de coexpresión más popular utilizada en la construcción de redes de coexpresión de genes. El coeficiente de correlación de Pearson toma un valor entre -1 y 1, donde los valores absolutos cercanos a 1 muestran una fuerte correlación. Los valores positivos corresponden a un mecanismo de activación en el que la expresión de un gen aumenta con el aumento de la expresión de su gen coexpresado y viceversa. Cuando el valor de expresión de un gen disminuye con el aumento de la expresión de su gen coexpresado, corresponde a un mecanismo de supresión subyacente y tendría una correlación negativa.

Hay dos desventajas para la medida de correlación de Pearson: solo puede detectar relaciones lineales y es sensible a valores atípicos. Además, la correlación de Pearson asume que los datos de expresión génica siguen una distribución normal. Song et al. han sugerido la correlación media de dos pesos (bicor) como una buena alternativa para la correlación de Pearson. «Bicor es una medida de correlación basada en la mediana, y es más robusta que la correlación de Pearson, pero a menudo más poderosa que la correlación de Spearman». Además, se ha demostrado que «la mayoría de los pares de genes satisfacen relaciones lineales o monótonas», lo que indica que «las redes de información mutua pueden reemplazarse con seguridad por redes de correlación cuando se trata de medir relaciones de coexpresión en datos estacionarios».

Selección de umbral Edit

Se han utilizado varios métodos para seleccionar un umbral en la construcción de redes de coexpresión de genes. Un método de umbral simple consiste en elegir un límite de coexpresión y seleccionar relaciones cuya coexpresión supere este límite. Otro enfoque es utilizar la transformación Z de Fisher, que calcula una puntuación z para cada correlación basada en el número de muestras. Esta puntuación z se convierte entonces en un valor p para cada correlación y se establece un punto de corte en el valor p. Algunos métodos permutan los datos y calculan una puntuación z utilizando la distribución de correlaciones encontradas entre genes en el conjunto de datos permutados. También se han utilizado otros enfoques, como la selección de umbrales basada en el coeficiente de agrupación o la teoría de matrices aleatorias.

El problema con los métodos basados en el valor p es que el punto de corte final del valor p se elige en función de rutinas estadísticas(por ejemplo, un valor p de 0,01 o 0,05 se considera significativo), no en función de una visión biológica.

WGCNA es un marco para construir y analizar redes de coexpresión de genes ponderadas. El método WGCNA selecciona el umbral para construir la red basado en la topología sin escala de las redes de coexpresión de genes. Este método construye la red para varios umbrales y selecciona el umbral que conduce a una red con topología sin escala. Además, el método WGCNA construye una red ponderada, lo que significa que todos los bordes posibles aparecen en la red, pero cada borde tiene un peso que muestra cuán significativa es la relación de coexpresión correspondiente a ese borde. Cabe destacar que la selección de umbrales está destinada a coaccionar las redes hacia una topología sin escala. Sin embargo, la premisa subyacente de que las redes biológicas no tienen escala es controvertida.

lmQCM es una alternativa para el WGCNA que logra el mismo objetivo del análisis de redes de coexpresión génica. lmQCM, significa fusión Cuasi Camarilla máxima local, con el objetivo de explotar las estructuras localmente densas en la red, por lo que puede extraer módulos más pequeños y densamente coexpresados al permitir la superposición de módulos. el algoritmo lmQCM tiene su paquete R y módulo python (incluido en Biolearns). El tamaño generalmente más pequeño de los módulos extraídos también puede generar resultados de enriquecimiento de ontología génica (GO) más significativos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.