遺伝子共発現ネットワーク

遺伝子共発現ネットワークを構築するためのかなりの数の方法が開発されている。 原則として、それらはすべて、共発現尺度の計算と有意性しきい値の選択という2つのステップのアプローチに従います。 最初のステップでは、共発現測定値が選択され、この測定値を使用して遺伝子の各対について類似性スコアが計算される。 次に、閾値を決定し、選択された閾値よりも高い類似性スコアを有する遺伝子対は、有意な共発現関係を有すると考えられ、ネットワーク内のエッジによ

遺伝子共発現ネットワークを構築するための二つの一般的なステップ:遺伝子の各ペアの共発現スコア(例えば、ピアソン相関係数の絶対値)を計算し、有意閾値(例えば、相関>0.8)を選択する。

遺伝子共発現ネットワークを構築するための入力データは、多くの場合、行列として表される。 N個のサンプル(条件)についてm個の遺伝子の遺伝子発現値がある場合、入力データは発現行列と呼ばれるm×n行列になります。 例えば、マイクロアレイ実験では、何千もの遺伝子の発現値がいくつかのサンプルについて測定される。 最初のステップでは、式行列内の行の各ペアの間で類似度スコア(共式尺度)が計算されます。 結果として得られる行列は、類似行列と呼ばれるm×m行列である。 この行列の各要素は、2つの遺伝子の発現レベルがどのように同様に変化するかを示しています。 第二のステップでは、ある閾値を超えている(すなわち、有意な共発現を示す)類似行列内の要素が1に置き換えられ、残りの要素が0に置き換えられる。 隣接行列と呼ばれる結果の行列は、構築された遺伝子共発現ネットワークのグラフを表す。 この行列では、各要素は、2つの遺伝子がネットワーク内で接続されているかどうか(1要素)、または接続されていないか(0要素)を示します。

Co-expression measureEdit

異なるサンプルの遺伝子の発現値はベクターとして表すことができるため、一対の遺伝子間のco-expression measureを計算することは、数値の二つのベク

ピアソンの相関係数、相互情報、スピアマンのランク相関係数、ユークリッド距離は、遺伝子共発現ネットワークを構築するために主に使用される四つの共発現尺度である。 ユークリッド距離は、2つのベクトル間の幾何学的距離を測定するため、遺伝子発現値のベクトルの方向と大きさの両方を考慮します。 相互情報は、ある遺伝子の発現レベルをどれだけ知っているかを測定し、別の遺伝子の発現レベルに関する不確実性を減少させる。 ピアソンの相関係数は、2つのベクトルが一緒に増加または減少する傾向を測定し、それらの全体的な対応の尺度を与えます。 Spearmanのランク相関は、遺伝子発現ベクター内の遺伝子発現値のランクに対して計算されたPearsonの相関です。 部分相関、回帰、および部分相関と相互情報の組み合わせのようないくつかの他の尺度も使用されている。

これらの対策にはそれぞれ長所と短所があります。 ユークリッド距離は、機能的に関連する遺伝子の絶対レベルが非常に異なる場合には適切ではない。 さらに、二つの遺伝子が一貫して低い発現レベルを有するが、それ以外の場合はランダムに相関している場合、それらはまだユークリッド空間に近 相互情報の利点の一つは、非線形関係を検出できることであるが、これは生物学的に意味のない洗練された非線形関係を検出するために不利になる可能性がある。 さらに、相互情報を計算するためには、良好な推定のために多数のサンプルを必要とするデータの分布を推定する必要があります。 Spearmanのランク相関係数は外れ値に対してより堅牢ですが、一方で、式の値にはあまり敏感ではなく、サンプル数が少ないデータセットでは多くの偽陽性が検出される可能性があります。

ピアソンの相関係数は、遺伝子共発現ネットワークの構築に使用される最も一般的な共発現尺度です。 ピアソンの相関係数は-1と1の間の値をとり、1に近い絶対値は強い相関を示します。 正の値は、一つの遺伝子の発現がその共発現遺伝子の発現の増加とともに増加し、その逆もまた同様である活性化機構に対応する。 一つの遺伝子の発現値がその共発現遺伝子の発現の増加とともに減少するとき、それは根底にある抑制機構に対応し、負の相関を有するであろう。

ピアソン相関測定には、線形関係のみを検出することができ、外れ値に敏感であるという二つの欠点があります。 さらに、ピアソン相関は、遺伝子発現データが正規分布に従うことを前提としている。 Songら。 ピアソンの相関のための良い代替としてバイウェイトmidcorrelation(bicor)を提案しています。 「Bicorは中央値ベースの相関尺度であり、Pearson相関よりも堅牢ですが、Spearmanの相関よりも強力なことがよくあります」。 さらに,”ほとんどの遺伝子対は線形または単調な関係を満たす”ことが示されており,”静止データにおける共発現関係を測定する際には,相互情報ネットワークを相関ネットワークに安全に置き換えることができる”ことを示している。

しきい値選択編集

いくつかの方法は、遺伝子共発現ネットワークを構築する際にしきい値を選択するために使用されています。 簡単なしきい値法は、共式カットオフを選択し、その共式がこのカットオフを超える関係を選択することです。 別のアプローチは、サンプルの数に基づいて各相関のzスコアを計算するFisherのZ変換を使用することです。 次に、このzスコアが各相関のp値に変換され、p値にカットオフが設定されます。 いくつかの方法は、データを並べ替え、並べ替えられたデータセット内の遺伝子間で見つかった相関の分布を使用してzスコアを計算します。 クラスタリング係数やランダム行列理論に基づくしきい値選択のようないくつかの他のアプローチも使用されている。

p値ベースの方法の問題は、p値の最終的なカットオフが、生物学的洞察に基づいてではなく、統計的ルーチン(例えば、0.01または0.05のp値が有意であると

WGCNAは、重み付けされた遺伝子共発現ネットワークを構築し、分析するためのフレームワークです。 WGCNA法は,遺伝子共発現ネットワークのスケールフリートポロジに基づいてネットワークを構築するためのしきい値を選択する。 この方法は,いくつかのしきい値に対するネットワークを構築し,スケールフリートポロジーを持つネットワークにつながるしきい値を選択する。 さらに,WGCNA法は,すべての可能なエッジがネットワーク内に現れることを意味する重み付きネットワークを構築するが,各エッジはそのエッジに対応する共発現関係がいかに重要であるかを示す重みを有する。 注目すべきは、しきい値の選択は、ネットワークをスケールフリーのトポロジに強制することを意図しています。 しかし、生物学的ネットワークはスケールフリーであるという根本的な前提は論争の的である。

lmQCMは、遺伝子共発現ネットワーク解析の同じ目標を達成するWGCNAの代替手段です。 lmqcmはlocal maximal Quasi-Clique Mergerの略で、ネットワーク内の局所的に密な構造を利用することを目的としているため、モジュールの重複を可能にすることによって、より小さく密に共表現されたモジュールを採掘することができる。 アルゴリズムlmQCMには、Rパッケージとpythonモジュール(Biolearnsにバンドルされています)があります。 採掘されたモジュールの一般的に小さいサイズはまた、より意味のある遺伝子オントロジー(GO)濃縮結果を生成することができます。

コメントを残す

メールアドレスが公開されることはありません。