유전자 공동 발현 네트워크를 구성 하기 위한 방법의 좋은 번호를 개발 되었습니다. 원칙적으로,그들은 모두 두 단계 접근 방식을 따라:공동 표현 측정을 계산하고,의미 임계 값을 선택. 첫 번째 단계에서 공동 발현 측정이 선택되고 이 측정을 사용하여 각 유전자 쌍에 대해 유사성 점수가 계산됩니다. 이어서,임계값이 결정되고,선택된 임계값보다 높은 유사성 점수를 갖는 유전자 쌍이 유의한 공동-발현 관계를 갖는 것으로 간주되고,네트워크 내의 에지에 의해 연결된다.
유전자 공동 발현 네트워크를 구성하기위한 입력 데이터는 종종 매트릭스로 표현된다. 우리는 유전자 발현 값이있는 경우 미디엄 유전자 엔 샘플(조건),입력 데이터는 미디엄 될 것입니다. 예를 들어,마이크로 어레이 실험에서 수천 개의 유전자의 발현 값이 여러 샘플에 대해 측정됩니다. 첫 번째 단계에서 유사성 점수(공동 표현식 측정)는 표현식 행렬의 각 행 쌍 사이에서 계산됩니다. 결과 행렬 m m 매트릭스 라는 유사성 매트릭스입니다. 이 매트릭스의 각 요소는 두 유전자의 발현 수준이 얼마나 유사하게 변화 하는지를 보여줍니다. 제 2 단계에서,유사성 행렬의 요소들은 특정 임계값을 초과하고(즉,유의한 공동 표현식을 나타냄)1 로 대체되고 나머지 요소들은 0 으로 대체된다. 인접 행렬 이라고 하는 결과 매트릭스 생성 된 유전자 공동 발현 네트워크의 그래프를 나타냅니다. 이 매트릭스에서 각 요소는 두 개의 유전자가 네트워크에 연결되어 있는지(1 요소)또는 그렇지 않은지(0 요소)를 보여줍니다.
공동발현 측정편집
서로 다른 샘플에 대한 유전자의 발현 값을 벡터로 나타낼 수 있으므로,한 쌍의 유전자 사이의 공동발현 측정값을 계산하는 것은 두 개의 숫자 벡터에 대해 선택된 측정값을 계산하는 것과 같다.
피어슨의 상관 계수,상호 정보,스피어의 순위 상관 계수 및 유클리드 거리는 유전자 공동 발현 네트워크를 구성하는 데 주로 사용되는 4 가지 공동 발현 측정 값입니다. 유클리드 거리는 두 벡터 사이의 기하학적 거리를 측정하므로 유전자 발현 값의 벡터의 방향과 크기를 모두 고려합니다. 상호 정보는 한 유전자의 발현 수준을 아는 것이 다른 유전자의 발현 수준에 대한 불확실성을 얼마나 감소시키는지를 측정합니다. 피어슨의 상관 계수 증가 또는 감소 함께,그들의 전반적인 대응의 측정을 주는 두 벡터의 경향을 측정 합니다. 스피어의 순위 상관 관계는 유전자 발현 벡터에서 유전자 발현 값의 순위에 대해 계산 된 피어슨의 상관 관계입니다. 부분 상관 관계,회귀 및 부분 상관 관계와 상호 정보의 조합과 같은 여러 다른 측정도 사용되었습니다.
이러한 각 조치에는 고유 한 장점과 단점이 있습니다. 기능적으로 관련된 유전자의 절대 수준이 매우 다른 경우 유클리드 거리는 적절하지 않습니다. 더욱이,두 유전자가 지속적으로 낮은 발현 수준을 가지고 있지만 그렇지 않으면 무작위로 상관 관계가 있다면,그들은 여전히 유클리드 공간에서 가깝게 나타날 수 있습니다. 상호 정보에 한 가지 장점은 비선형 관계를 감지 할 수 있다는 것입니다;그러나이 때문에 생물학적으로 의미있는 보이지 않는 정교한 비선형 관계를 검출 단점으로 설정할 수 있습니다. 또한,상호 정보를 계산하기 위해 좋은 견적을 위해 많은 수의 샘플을 필요로하는 데이터의 분포를 추정해야합니다. 스피어맨의 순위 상관 계수는 이상값에 더 강력하지만,다른 한편으로는 식 값에 덜 민감하고 샘플 수가 적은 데이터 집합에서 많은 오 탐지를 감지 할 수 있습니다.
피어슨의 상관 계수는 유전자 공동 발현 네트워크를 구성하는 데 사용되는 가장 보편적 인 공동 발현 측정 값입니다. 피어슨의 상관 계수는-1 과 1 사이의 값을 취하며 1 에 가까운 절대 값은 강한 상관 관계를 나타냅니다. 양수 값은 한 유전자의 발현이 공동 발현 된 유전자의 발현이 증가함에 따라 증가하는 활성화 메커니즘에 해당하며 그 반대의 경우도 마찬가지입니다. 한 유전자의 발현 값이 공동 발현 유전자의 발현의 증가와 함께 감소 할 때,그것은 기본 억제 메커니즘에 해당하고 음의 상관 관계를 가질 것이다.
피어슨 상관 관계 측정에는 두 가지 단점이 있습니다:선형 관계 만 감지 할 수 있으며 이상치에 민감합니다. 또한,피어슨 상관 관계는 유전자 발현 데이터가 정규 분포를 따르는 것으로 가정합니다. 노래 외. 피어슨의 상관 관계에 대한 좋은 대안으로 바이급 중간 상관 관계(바이 코)를 제안했습니다. “바이 코는 중앙값 기반 상관 관계 척도이며 피어슨 상관 관계보다 강력하지만 종종 스피어 맨의 상관 관계보다 강력합니다”. 또한,”대부분의 유전자 쌍이 선형 또는 단조 관계를 만족시킨다”는 것은”고정 된 데이터에서 공동 발현 관계를 측정 할 때 상호 정보 네트워크가 상관 네트워크로 안전하게 대체 될 수있다”는 것을 나타낸다.
임계값 선택편집
유전자 공동발현 네트워크를 구성하는 임계값을 선택하기 위한 몇 가지 방법이 사용되어왔다. 간단한 임계 값 방법은 공동 표현식 컷오프를 선택하고 공동 표현식이이 컷오프를 초과하는 관계를 선택하는 것입니다. 또 다른 방법은 피셔의 지-변환을 계산하는 것입니다 지-샘플 수를 기반으로 각 상관 관계에 대한 점수. 이 지-점수는 각 상관 관계에 대한 피-값으로 변환되고 컷오프가 피-값에 설정됩니다. 일부 방법은 데이터를 순열하고 계산 지-순열 데이터 세트에서 유전자 사이에 발견 된 상관 관계의 분포를 사용하여 점수. 클러스터링 계수 또는 랜덤 행렬 이론에 기반한 임계 값 선택과 같은 일부 다른 접근법도 사용되었습니다.
피-값 기반 방법의 문제점은 피-값에 대한 최종 컷오프가 생물학적 통찰력을 기반으로하지 않고 통계적 루틴에 기초하여 선택된다는 것입니다(예:피-값 0.01 또는 0.05 는 중요한 것으로 간주됩니다).
가중 유전자 공동발현 네트워크를 구축하고 분석하기 위한 프레임워크이다. 유전자 공동 발현 네트워크의 규모 없는 토폴로지에 따라 네트워크를 구성 하기 위한 임계값을 선택 합니다. 이 메서드는 여러 임계값에 대한 네트워크를 구성하고 스케일이 없는 토폴로지가 있는 네트워크로 연결되는 임계값을 선택합니다. 이는 모든 가능한 에지가 네트워크에 나타남을 의미하지만,각 에지는 그 에지에 대응하는 공동 표현 관계가 얼마나 중요한지 보여주는 가중치를 갖는다. 임계값 선택은 네트워크를 스케일이 없는 토폴로지로 강제 변환하기 위한 것입니다. 그러나 생물학적 네트워크가 규모가 없다는 근본적인 전제는 논쟁의 여지가 있습니다.
따라서 모듈 중복을 허용하여 작고 밀도가 공동 표현 모듈을 채굴 할 수 있습니다. 바둑은 많은 세계 대회 개최로,특히 아시아,유럽,미국을 중심으로 그 인기가 세계적으로 증가하고 있습니다.. 채굴 모듈의 일반적으로 작은 크기는 더 의미있는 유전자 온톨로지(이동)농축 결과를 생성 할 수 있습니다.