Un bon nombre de méthodes ont été développées pour construire des réseaux de co-expression de gènes. En principe, ils suivent tous une approche en deux étapes: le calcul de la mesure de co-expression et la sélection du seuil de signification. Dans la première étape, une mesure de co-expression est sélectionnée et un score de similarité est calculé pour chaque paire de gènes à l’aide de cette mesure. Ensuite, un seuil est déterminé et les paires de gènes qui ont un score de similarité supérieur au seuil sélectionné sont considérées comme ayant une relation de co-expression significative et sont reliées par un bord dans le réseau.
Les données d’entrée pour la construction d’un réseau de co-expression de gènes sont souvent représentées sous forme de matrice. Si nous avons les valeurs d’expression des gènes m pour n échantillons (conditions), les données d’entrée seraient une matrice m×n, appelée matrice d’expression. Par exemple, dans une expérience de microréseau, les valeurs d’expression de milliers de gènes sont mesurées pour plusieurs échantillons. Dans la première étape, un score de similarité (mesure de co-expression) est calculé entre chaque paire de lignes dans la matrice d’expression. La matrice résultante est une matrice m×m appelée matrice de similarité. Chaque élément de cette matrice montre comment de manière similaire les niveaux d’expression de deux gènes changent ensemble. Dans la deuxième étape, les éléments de la matrice de similarité qui sont au-dessus d’un certain seuil (c’est-à-dire indiquent une co-expression significative) sont remplacés par 1 et les éléments restants sont remplacés par 0. La matrice résultante, appelée matrice d’adjacence, représente le graphique du réseau de co-expression de gènes construit. Dans cette matrice, chaque élément montre si deux gènes sont connectés dans le réseau (les 1 éléments) ou non (les 0 éléments).
Mesure de co-expression
Les valeurs d’expression d’un gène pour différents échantillons peuvent être représentées sous forme de vecteur, de sorte que le calcul de la mesure de co-expression entre une paire de gènes est identique au calcul de la mesure sélectionnée pour deux vecteurs de nombres.
Le coefficient de corrélation de Pearson, l’information mutuelle, le coefficient de corrélation de rang de Spearman et la distance euclidienne sont les quatre mesures de co-expression les plus utilisées pour la construction de réseaux de co-expression de gènes. La distance euclidienne mesure la distance géométrique entre deux vecteurs, et considère donc à la fois la direction et l’amplitude des vecteurs des valeurs d’expression génique. L’information mutuelle mesure dans quelle mesure la connaissance des niveaux d’expression d’un gène réduit l’incertitude quant aux niveaux d’expression d’un autre. Le coefficient de corrélation de Pearson mesure la tendance de deux vecteurs à augmenter ou à diminuer ensemble, donnant une mesure de leur correspondance globale. La corrélation de rang de Spearman est la corrélation de Pearson calculée pour les rangs des valeurs d’expression génique dans un vecteur d’expression génique. Plusieurs autres mesures telles que la corrélation partielle, la régression et la combinaison de la corrélation partielle et de l’information mutuelle ont également été utilisées.
Chacune de ces mesures a ses propres avantages et inconvénients. La distance euclidienne n’est pas appropriée lorsque les niveaux absolus de gènes fonctionnellement liés sont très différents. De plus, si deux gènes ont des niveaux d’expression toujours bas mais sont autrement corrélés de manière aléatoire, ils pourraient toujours apparaître proches dans l’espace euclidien. Un avantage de l’information mutuelle est qu’elle peut détecter des relations non linéaires; cependant, cela peut se transformer en un inconvénient en raison de la détection de relations non linéaires sophistiquées qui ne semblent pas significatives sur le plan biologique. De plus, pour calculer l’information mutuelle, il faut estimer la distribution des données qui nécessite un grand nombre d’échantillons pour une bonne estimation. Le coefficient de corrélation de rang de Spearman est plus robuste pour les valeurs aberrantes, mais d’un autre côté, il est moins sensible aux valeurs d’expression et dans des ensembles de données avec un petit nombre d’échantillons peut détecter de nombreux faux positifs.
Le coefficient de corrélation de Pearson est la mesure de co-expression la plus populaire utilisée dans la construction de réseaux de co-expression de gènes. Le coefficient de corrélation de Pearson prend une valeur comprise entre -1 et 1 où les valeurs absolues proches de 1 montrent une forte corrélation. Les valeurs positives correspondent à un mécanisme d’activation où l’expression d’un gène augmente avec l’augmentation de l’expression de son gène co-exprimé et vice versa. Lorsque la valeur d’expression d’un gène diminue avec l’augmentation de l’expression de son gène co-exprimé, elle correspond à un mécanisme de suppression sous-jacent et aurait une corrélation négative.
La mesure de corrélation de Pearson présente deux inconvénients : elle ne peut détecter que des relations linéaires et elle est sensible aux valeurs aberrantes. De plus, la corrélation de Pearson suppose que les données d’expression génique suivent une distribution normale. Song et coll. ont suggéré la corrélation médiane bi-pondérale (bicor) comme une bonne alternative à la corrélation de Pearson. « Le Bicor est une mesure de corrélation basée sur la médiane, et est plus robuste que la corrélation de Pearson, mais souvent plus puissante que la corrélation de Spearman ». De plus, il a été montré que « la plupart des paires de gènes satisfont des relations linéaires ou monotones » ce qui indique que « les réseaux d’informations mutuelles peuvent être remplacés en toute sécurité par des réseaux de corrélation lorsqu’il s’agit de mesurer des relations de co-expression dans des données stationnaires ».
Sélection de seuil
Plusieurs méthodes ont été utilisées pour sélectionner un seuil dans la construction de réseaux de co-expression de gènes. Une méthode de seuillage simple consiste à choisir un seuil de co-expression et à sélectionner des relations dont leur co-expression dépasse ce seuil. Une autre approche consiste à utiliser la transformation Z de Fisher qui calcule un score z pour chaque corrélation en fonction du nombre d’échantillons. Ce score z est ensuite converti en une valeur p pour chaque corrélation et une coupure est définie sur la valeur p. Certaines méthodes permutent les données et calculent un score z en utilisant la distribution des corrélations trouvées entre les gènes dans un ensemble de données permuté. D’autres approches ont également été utilisées, telles que la sélection de seuil basée sur le coefficient de regroupement ou la théorie des matrices aléatoires.
Le problème avec les méthodes basées sur la valeur p est que la coupure finale sur la valeur p est choisie en fonction de routines statistiques (par exemple, une valeur p de 0,01 ou 0,05 est considérée comme significative), pas sur la base d’un aperçu biologique.
WGCNA est un cadre pour la construction et l’analyse de réseaux de co-expression de gènes pondérés. La méthode WGCNA sélectionne le seuil de construction du réseau sur la base de la topologie sans échelle des réseaux de co-expression de gènes. Cette méthode construit le réseau pour plusieurs seuils et sélectionne le seuil qui conduit à un réseau avec une topologie sans échelle. De plus, la méthode WGCNA construit un réseau pondéré, ce qui signifie que toutes les arêtes possibles apparaissent dans le réseau, mais chaque arête a un poids qui montre la signification de la relation de co-expression correspondant à cette arête. Il est à noter que la sélection de seuil est destinée à contraindre les réseaux à une topologie sans échelle. Cependant, la prémisse sous-jacente selon laquelle les réseaux biologiques sont sans échelle est controversée.
lmQCM est une alternative pour WGCNA atteignant le même objectif d’analyse des réseaux de co-expression génique. lmQCM, signifie Fusion Quasi-Clique maximale locale, visant à exploiter les structures localement denses du réseau, peut ainsi extraire des modules plus petits et densément co-exprimés en permettant le chevauchement des modules. l’algorithme lmQCM a son package R et son module python (regroupés en Biolearns). La taille généralement plus petite des modules extraits peut également générer des résultats d’enrichissement en ontologie génétique (GO) plus significatifs.