추상
클러스터링 기술은 대규모 데이터 세트를 분석하여 유사한 특성을 가진 샘플을 그룹화하는 데 널리 사용됩니다. 예를 들어,클러스터링은 조직 샘플에 존재하는 다른 세포 유형을 식별하기 위해 단일 세포 시퀀싱 분야에서 자주 사용됩니다. 클러스터링을 수행하기위한 많은 알고리즘이 있으며 결과는 크게 다를 수 있습니다. 특히 데이터 집합에 있는 그룹 수는 알 수 없는 경우가 많으며 알고리즘으로 식별된 클러스터 수는 사용된 매개 변수에 따라 변경될 수 있습니다. 탐구 하 고 다양 한 클러스터링 해상도의 영향을 검사,우리 클러스터링 나무 제시. 이 시각화는 여러 해상도에서 클러스터 간의 관계를 보여 주므로 연구원은 클러스터 수가 증가함에 따라 샘플이 어떻게 움직이는 지 볼 수 있습니다. 또한,메타 정보는 클러스터의 식별에 해상도 및 가이드의 선택을 알리기 위해 트리에 중첩 될 수있다. 두 개의 실제 예제,고전적인 아이리스 데이터 집합 및 복잡 한 단일 셀 시퀀싱 데이터 집합 뿐만 아니라 시뮬레이션의 시리즈를 사용 하 여 클러스터링 나무의 기능을 설명 합니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.
소개
클러스터링 분석은 일반적으로 다양한 응용 분야에서 유사한 샘플을 그룹화하는 데 사용됩니다. 일반적으로 클러스터링의 목표는 다른 그룹의 샘플보다 서로 유사한 샘플 그룹을 형성하는 것입니다. 퍼지 또는 소프트 클러스터링 접근법은 각 샘플을 모든 클러스터에 일정 확률로 할당하고 계층 적 클러스터링은 샘플 트리를 형성하지만 대부분의 방법은 각 샘플이 단일 그룹에 할당되는 하드 클러스터를 형성합니다. 이 목표는 샘플 간의 거리(예:|$케이$|-평균,팸),데이터 집합 전체의 밀도 영역(예:디비스캔)또는 통계적 분포와의 관계를 고려하여 다양한 방법으로 달성될 수 있습니다.
대부분의 경우 데이터 집합에 있어야 하는 그룹의 수를 미리 알 수 없으며 사용할 클러스터의 정확한 수를 결정하는 것은 중요한 과제입니다. 다음과 같은 일부 알고리즘의 경우|$케이$|-클러스터링을 의미하므로 클러스터 수를 명시 적으로 제공해야합니다. 다른 메서드에는 직접 또는 간접적으로 클러스터링 해상도 및 생성된 클러스터 수를 제어하는 매개 변수가 있습니다. 분석가가 사용할 클러스터링 해상도를 결정하는 데 도움이 되도록 설계된 방법 및 통계(예:팔꿈치 방법 및 실루엣 그림)가 있지만 일반적으로 한 번에 단일 샘플 또는 클러스터 집합만 고려하는 단일 점수를 생성합니다.
대안적인 방법은 여러 해상도에서 클러스터링을 고려하고 클러스터 수가 증가함에 따라 샘플이 그룹화를 변경하는 방법을 검사하는 것입니다. 이로 인해 다양한 클러스터 안정성 측정이 이루어졌으며,그 중 다수는 교란되거나 하위 샘플링 된 데이터 세트의 클러스터링에 의존합니다. 예를 들어 모델 탐색기 알고리즘은 데이터 집합을 여러 번 서브샘플링하고 각 서브샘플링된 데이터 집합을 다양한 해상도로 클러스터화한 다음 동일한 해상도로 클러스터링 간의 유사성을 계산하여 해상도 선택을 알릴 수 있는 유사성 분포를 제공합니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 서로 다른 해상도의 클러스터 레이블 집합으로 시작하여 각 클러스터는 점수가 매겨지며,클러스터가 다른 해상도의 클러스터와 동일한 샘플을 공유하지만 더 높은 해상도로 인해 불이익을 받으면 안정성이 향상됩니다.
비슷한 간단한 접근 방식은 우리가 점수를 계산하지 않고,여기에 제시 클러스터링 트리 시각화에 의해 촬영:(1)데이터 세트는 여러 해상도에서 하드 클러스터링 알고리즘을 사용하여 클러스터 된,클러스터 노드의 세트를 생산;(2)인접 해상도에서 클러스터 사이의 중첩은 가장자리를 구축하는 데 사용됩니다; 그리고(3)결과 그래프는 트리로 표시됩니다. 이 트리는 클러스터가 서로 어떻게 관련되어 있는지,즉 어떤 클러스터가 구별되고 어떤 클러스터가 불안정한지 검사하는 데 사용할 수 있습니다. 다음 섹션에서는 이러한 트리를 구성하는 방법에 대해 설명하고 고전적인 클러스터링 데이터 집합과 복잡한 스크나 서열 데이터 집합으로 만든 트리의 예를 제시합니다. 여기에 표시된 수치는 우리의 공개 클러스트 패키지를 사용하여 연구에서 생산 될 수있다. 클러스터링 트리는 사용할 클러스터링 해상도를 직접 제공 할 수는 없지만 가능한 선택 범위를 탐색하고 시각화하는 데 유용한 도구가 될 수 있습니다.
클러스터링 트리 빌드
클러스터링 트리를 빌드하려면 클러스터링 집합으로 시작하여 여러 해상도로 그룹에 샘플을 할당합니다. 이들은 어떤 식 으로든 클러스터 수를 제어 할 수있는 하드 클러스터링 알고리즘을 사용하여 생성 될 수 있습니다. 예를 들어|$케이$|-|$케이 를 사용하여 클러스터 된 샘플 세트 일 수 있습니다.\,\, = \,\,1,2,3$| 도에 도시 된 바와 같이. 1. 이러한 클러스터링을 정렬하여 해상도(|$케이$|)를 높여 정렬 한 다음 인접한 클러스터링 쌍을 고려합니다. 각 클러스터는 다음과 같습니다.\,\, = \,\,1,\,\, \각 클러스터에 대한 자세한 내용은 각 클러스터에 대한 자세한 내용을 참조하십시오.이 경우 각 클러스터에 대한 자세한 내용은 각 클러스터에 대한 자세한 내용을 참조하십시오.\,\, = \,\,1,\,\, \클러스터의 해상도에 따라 클러스터 수가 다릅니다. 두 클러스터 간의 중첩은 둘 다에 할당되는 샘플의 수로 계산됩니다./ 다음으로 각 노드가 클러스터이고 각 가장자리가 두 클러스터 사이의 겹치는 그래프를 작성합니다. 이 그래프를 단순화를 위해 트리라고 부르지 만 기본 무 방향 그래프가 트리 인 지시 비순환 그래프의 특별한 경우 인 폴리 트리로 더 정확하게 설명 할 수 있습니다.
클러스터링 트리를 작성하는 데 필요한 단계 그림. 먼저 데이터 집합을 서로 다른 해상도로 클러스터링해야 합니다. 인접한 해상도에서 클러스터 간 샘플의 중첩이 계산되어 각 에지의 비율을 계산하는 데 사용됩니다. 마지막으로 가장자리가 필터링되고 그래프가 트리로 시각화됩니다.
클러스터링 트리를 작성하는 데 필요한 단계 그림. 먼저 데이터 집합을 서로 다른 해상도로 클러스터링해야 합니다. 인접한 해상도에서 클러스터 간 샘플의 중첩이 계산되어 각 에지의 비율을 계산하는 데 사용됩니다. 마지막으로 가장자리가 필터링되고 그래프가 트리로 시각화됩니다.
가장자리의 대부분은 빈 것,예를 들어,그림. 1 클러스터에 샘플 없음/$케이\,\, = \,\,2$| 클러스터에서 종료/$케이\,\, = \,\,3$|. 일부 데이터 세트에는 샘플이 거의 없는 가장자리도 있을 수 있습니다. 이 가장자리는 유익하지 않으며 어수선한 나무를 초래합니다. 유익하지 않고 낮은 수의 가장자리를 제거하는 확실한 해결책은 그들이 나타내는 샘플 수에 대한 임계 값을 사용하여 가장자리를 필터링하는 것입니다. 그러나 이 경우 샘플 수는 낮은 해상도의 가장자리와 더 큰 클러스터를 연결하는 가장자리를 선호하기 때문에 사용할 올바른 통계가 아닙니다. 대신 비례 메트릭을 가장자리의 샘플 수와 클러스터에 있는 샘플 수 사이의 비율로 정의합니다. 이 메트릭은 클러스터 크기와 독립적으로 고해상도 클러스터에 대한 에지의 중요도를 보여줍니다. 그런 다음 덜 유익한 가장자리를 제거하기 위해 비율에 임계 값을 적용 할 수 있습니다.
최종 그래프를 시각화할 수 있습니다. 이론적으로 모든 그래프 레이아웃 알고리즘을 사용할 수 있습니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 이 레이아웃은 부모 노드를 자식 위에 배치하는 링골드-틸포드 트리 레이아웃과 교차 가장자리 수를 최소화하면서 방향성 비순환 그래프의 노드를 레이어에 배치하는 스기야마 레이아웃입니다. 이 두 알고리즘 모두 매력적인 레이아웃을 생성 할 수 있으므로 나무를 클러스터링하기 위해 특정 레이아웃 알고리즘을 설계 할 필요가 없습니다. 기본적으로 클루스트리 패키지는 레이아웃을 생성할 때 가장자리의 하위 집합,특히 각 노드에 대해 가장 높은 비율의 가장자리만 사용합니다. 그러나 사용자가 원하는 경우 모든 가장자리를 사용하도록 선택할 수 있습니다.
사용된 레이아웃에 관계없이 최종 시각화는 각 레이어가 서로 다른 클러스터링 해상도인 일련의 레이어에 클러스터 노드를 배치하고 가장자리는 이러한 해상도를 통한 샘플의 전환을 표시합니다. 가장자리는 나타내는 샘플의 수에 따라 색상이 지정되며 비율 메트릭은 가장자리 투명도를 제어하는 데 사용되어 더 중요한 가장자리를 강조 표시합니다. 기본적으로 노드 크기는 클러스터의 샘플 수에 따라 조정되며 해당 색상은 클러스터링 해상도를 나타냅니다. 클러스트리 패키지에는 다음 예제와 같이 클러스터에 있는 샘플의 특성을 기반으로 노드의 미학을 제어하는 옵션도 포함되어 있습니다.
클러스터링 트리는 개념적으로 계층적 클러스터링을 통해 생성된 트리와 비슷하지만 몇 가지 중요한 차이점이 있습니다. 가장 확실한 것은 계층적 클러스터링 트리는 특정 클러스터링 알고리즘의 결과이며 개별 샘플 간의 관계를 보여 주는 반면 여기에 설명된 클러스터링 트리는 클러스터링 방법과 무관하며 클러스터 간의 관계를 보여 주는 것입니다. 계층적 트리의 분기는 클러스터링 알고리즘이 샘플을 병합하는 방법을 보여줍니다. 반면 클러스터링 트리의 가장자리는 해상도가 변경되고 노드에 부모가 여러 개인 경우 샘플이 클러스터 간에 이동하는 방식을 보여줍니다. 계층적 트리에서 샘플에 대한 정보를 오버레이할 수는 있지만 일반적으로 수행되지는 않지만 클루스트리 패키지의 핵심 기능과 클러스터링 트리를 실제로 사용할 수 있는 방법입니다.
시뮬레이션을 사용한 데모
클러스터링 트리가 서로 다른 상황에서 어떻게 보일 수 있는지,그리고 데이터 집합이 오버클러스터링될 때 어떻게 동작하는지 설명하기 위해 간단한 시뮬레이션을 사용하여 몇 가지 예시를 제시합니다(방법 참조). 우리는 다섯 가지 시나리오를 제시:랜덤 균일 노이즈(시뮬레이션 에이),단일 클러스터(시뮬레이션 비),두 개의 클러스터(시뮬레이션 씨),세 개의 클러스터(시뮬레이션 디),네 개의 클러스터(시뮬레이션 이자형). 각 클러스터는 100 차원 정규 분포에서 생성 된 1,000 개의 샘플(점)로 구성되며 각 합성 데이터 세트는/$케이$|-|$케이로 클러스터링을 의미합니다.\,\, = \,\,1,\,\, \10$/. 그런 다음 클루 트리 패키지를 사용하여 각 데이터 세트에 대한 클러스터링 트리를 생성합니다(그림 1). 2).
클러스터링 트리를 시연하는 데 사용되는 5 개의 합성 데이터 세트. 각 데이터 집합에 대해 처음 두 주성분의 산점도,기본 클러스터링 트리 및 노드가 보라색(가장 낮은)에서 노란색(가장 높은)으로 색인된 클러스터링 트리가 표시됩니다. 5 개의 데이터 세트에는(ㅏ)무작위 균일 노이즈,(비)단일 클러스터,(기음)두 개의 클러스터,(디)세 개의 클러스터 및(이자형)네 개의 클러스터.
클러스터링 트리를 시연하는 데 사용되는 5 개의 합성 데이터 세트. 각 데이터 집합에 대해 처음 두 주성분의 산점도,기본 클러스터링 트리 및 노드가 보라색(가장 낮은)에서 노란색(가장 높은)으로 색인된 클러스터링 트리가 표시됩니다. 5 개의 데이터 세트에는(ㅏ)무작위 균일 노이즈,(비)단일 클러스터,(기음)두 개의 클러스터,(디)세 개의 클러스터 및(이자형)네 개의 클러스터.
처음 두 예(균일 노이즈 및 단일 클러스터)를 보면 클러스터링 알고리즘이 데이터 집합에 실제 존재하는 것보다 더 많은 클러스터를 반환 할 때 클러스터링 트리가 어떻게 작동하는지 명확하게 알 수 있습니다. 새 클러스터가 여러 개의 기존 클러스터에서 형성되기 시작하고 많은 샘플이 트리의 분기 사이를 전환하여 비율이 낮은 가장자리를 만듭니다. 불안정한 클러스터는 그림 1 에서 볼 수 있듯이 해상도가 증가함에 따라 나타나고 사라질 수 있습니다. 데이터 세트에 더 많은 구조를 추가하면 클러스터링 트리가 명확한 가지를 형성하기 시작하고 비율이 낮은 가장자리는 트리의 섹션에 국한되는 경향이 있습니다. 어떤 클러스터가 안정적인지,그리고 낮은 비율의 에지가 발생하는지 살펴보면 트리의 어떤 영역이 진정한 클러스터의 결과일 가능성이 있으며 오버 클러스터링으로 인해 발생하는지 추론할 수 있습니다.
각 데이터 세트에 대한 두 번째 클러스터링 트리는 각 클러스터의 안정성 지수에 따라 색상이 지정된 노드를 보여줍니다. 예상대로 처음 두 예에서 높은 안정성 점수를 받는 클러스터는 없습니다. 그러나,우리는 명확 하 게 두 클러스터 예제(시뮬레이션 씨)에 대 한 클러스터링 트리에서 두 가지를 참조 하는 동안,이 점수에 반영 되지 않습니다. 해상도가 증가함에 따라 클러스터 간에 이동하는 샘플 수가 많기 때문에 높은 안정성 점수를 받는 클러스터는 없습니다. 시뮬레이션된 데이터 집합에 더 많은 실제 클러스터가 있으므로 사용할 올바른 해상도에 대한 예측 점수가 높아집니다. 그러나 개별 클러스터 안정성 점수가 가장 높으면 잘못된 해상도가 사용될 수 있으므로 특정 해상도에서 모든 클러스터의 안정성 점수를 확인하는 것이 중요합니다. 이러한 예제에서는 클러스터링 트리를 사용하여 기존 클러스터링 메트릭을 매개 변수 선택을 알리는 데 도움이 되는 방식으로 표시할 수 있는 방법을 보여 줍니다.
간단한 예제
클러스터링 트리의 구축 방법을 더 자세히 설명하기 위해 고전적인 홍채 데이터 세트를 사용하는 예제를 통해 작업합니다. 이 데이터 세트에는 홍채 세토사,홍채 베르시 컬러 및 홍채 비르 지니 카의 세 가지 종 각각에서 150 개의 홍채 꽃에서 꽃받침 길이,꽃받침 너비,꽃잎 길이 및 꽃잎 폭을 측정 한 내용이 포함되어 있습니다. 세토사 샘플은 다른 샘플과 크게 다르며 선형으로 분리할 수 있습니다. 이 데이터 세트를 사용하여 클러스터링 한/$케이$|-와 클러스터링을 의미|$케이\,\, = \,\,1,\,\, \5$|및 그림 1 에 표시된 클러스터링 트리를 생성했습니다. 3.
클러스터링 트리 기반|$케이$/-홍채 데이터 세트의 클러스터링을 의미합니다. (에이)노드의 값에 따라 착색|$케이$|그들이 나타내는 샘플의 수에 따라 크기. 가장자리는 샘플 수에 따라 색상이 지정됩니다(몇 개를 나타내는 파란색에서 많은 것을 나타내는 노란색까지). 투명도는 비례에 따라 조정되며 더 강한 선은 고해상도 클러스터에 더 중요한 가장자리를 표시합니다. 클러스터 레이블은|$케이$|-수단 알고리즘에 의해 무작위로 할당됩니다. (비)노드 색상과 같은 나무는 각 클러스터에서 샘플의 평균 꽃잎 길이를 표시하도록 변경.
클러스터링 트리 기반|$케이$/-홍채 데이터 세트의 클러스터링을 의미합니다. (에이)노드의 값에 따라 착색|$케이$|그들이 나타내는 샘플의 수에 따라 크기. 가장자리는 샘플 수에 따라 색상이 지정됩니다(몇 개를 나타내는 파란색에서 많은 것을 나타내는 노란색까지). 투명도는 비례에 따라 조정되며 더 강한 선은 고해상도 클러스터에 더 중요한 가장자리를 표시합니다. 클러스터 레이블은|$케이$|-수단 알고리즘에 의해 무작위로 할당됩니다. (비)노드 색상과 같은 나무는 각 클러스터에서 샘플의 평균 꽃잎 길이를 표시하도록 변경.
우리는 나무의 한 가지가 분명히 구별된다는 것을 알 수 있습니다(아마도 세토사를 나타내는),클러스터의 수에 관계없이 변경되지 않은 채로 남아 있습니다. 다른 측면에서,우리는|$케이에서 클러스터를 참조하십시오\,\, = \,\,2$| 두 개의 클러스터로 깔끔하게 분할됩니다.\,\, = \,\,3$|. 그러나,우리가 이동/$케이\,\, = \,\,4$| 및/$케이\,\, = \,\,5$|, 우리는 더 낮은 비율의 가장자리를 가진 여러 가지에서 클러스터가 형성되는 것을 봅니다. 우리가 시뮬레이션 된 예에서 보았 듯이,이러한 종류의 패턴은 데이터가 오버 클러스터 화되었고 인공 그룹을 도입하기 시작했음을 나타낼 수 있습니다.세토사 샘플과 다른 두 클러스터는/$케이\,\, = \,\,3$| 샘플에 대한 알려진 정보를 오버레이하여. 그림. 3 비 우리는 그들이 포함 된 샘플의 평균 꽃잎 길이에 의해 노드를 착색했다. 우리는 이제 별개의 가지에 클러스터가 가장 짧은 꽃잎을 가지고 있음을 볼 수 있습니다.\,\, = \,\,3$| 가장 긴 꽃잎을 갖는 중간 길이와 클러스터 3 을 갖는. 이 특징은 샘플을 예상되는 종으로 분리하는 것으로 알려져 있으며,세토사는 평균적으로 가장 짧은 꽃잎을 가지고 있으며,중간 길이는 베르 시컬러이고,가장 긴 것은 버지니카입니다.
이것은 매우 간단한 예제이지만 클러스터링 트리를 볼 때의 몇 가지 이점을 강조합니다. 우리는 가장자리를 검사하여 올바른 클러스터링 해상도의 일부 표시를 얻을,우리는 클러스터링의 품질을 평가하기 위해 알려진 정보를 오버레이 할 수 있습니다. 예를 들어,모든 클러스터가 동일한 평균 꽃잎 길이를 갖는 것을 관찰 한 경우,이것이 종을 분리하는 중요한 특징이라는 것을 알고 있기 때문에 클러스터링이 성공하지 못했다는 것을 암시합니다. 우리는 잠재적으로 샘플이 낮은 비율의 가장자리를 따라보고 또는 시도하고 특정 클러스터가 분할하는 원인을 이해하기 위해 일련의 기능을 오버레이하여 더 많은 것을 배울 수 있습니다.
스크나 서열 데이터에 대한 클러스터링 트리
클러스터링 기술을 많이 사용하기 시작한 분야 중 하나는 스크나 서열 데이터의 분석입니다. 스크나 시퀀싱은 수천에서 수백만 개의 개별 세포에서 유전자가 어떻게 발현되는지 측정할 수 있는 최근 개발된 기술입니다. 이 기술은 발달 생물학 및 면역학 같은 분야에서 급속 하 게 채택 되었습니다. 이 라이브러리는 그러한 문제를 표준화된 프로그래밍 인터페이스를 제공함으로써 해결합니다. 이 상황에서 클러스터링은 일반적으로 유전자 발현 프로파일에 따라 유사한 세포를 그룹화하는 데 사용됩니다. 그룹 사이 유전자 발현에 있는 다름은 그 때 그 세포의 신원 또는 기능을 추론하기 위하여 이용될 수 있습니다. 세포 유형(클러스터)의 수는 연구 대상 조직,발달 또는 환경 상태 및 포획 된 세포 수와 같은 요인에 따라 달라질 수 있습니다. 종종 데이터가 생성되기 전에 셀 유형의 수를 알 수 없으며 일부 샘플에는 수십 개의 클러스터가 포함될 수 있습니다. 따라서 사용할 클러스터링 해상도를 결정하는 것은 이 응용 프로그램에서 중요한 고려 사항입니다.
클러스터링 나무가 스크나-서열 문맥에서 어떻게 사용될 수 있는지에 대한 예로서,우리는 일반적으로 사용되는 말초 혈액 단핵 세포 데이터 세트를 고려한다. 이 데이터 세트는 원래 10 배 유전체학에 의해 생산되었으며 잘 연구 된 다양한 면역 세포 유형을 나타내는 2,700 개의 말초 혈액 단핵 세포를 포함합니다. 클러스터링 해상도 매개 변수를 0 에서 5 로 변경하는 경우를 제외하고 자습서의 지침에 따라 이 데이터 집합을 분석했습니다(방법 참조). 쇠라는 그래프 기반의 클러스터링 알고리즘을 사용하고,해상도 매개 변수는 더 많은 클러스터의 결과로 높은 값으로,이 그래프의 분할을 제어합니다. 이 분석에서 생성 된 클러스터링 트리는 그림 1 에 나와 있습니다. 4.
2,700 개의 데이터 세트의 두 클러스터링 트리. ()0 에서 1 까지의 해상도 매개 변수를 사용하여 쇠라를 사용하여 클러스터링 결과. 0.1 의 해상도에서 우리는 네 가지 주요 분기의 형성을 봅니다.이 중 하나는 0.4 의 해상도로 계속 분할되고 그 후에는 사소한 변경 만 있습니다. (비)0 에서 해상도 5. 가장 높은 해상도에서,우리는 클러스터 불안정성을 나타내는 많은 낮은 비율의 가장자리를 볼 시작합니다. 쇠라는 클러스터 0 이 가장 큰 클러스터로 크기에 따라 클러스터에 레이블을 지정합니다.
2,700 개의 데이터 세트의 두 클러스터링 트리. ()0 에서 1 까지의 해상도 매개 변수를 사용하여 쇠라를 사용하여 클러스터링 결과. 0.1 의 해상도에서 우리는 네 가지 주요 분기의 형성을 봅니다.이 중 하나는 0.4 의 해상도로 계속 분할되고 그 후에는 사소한 변경 만 있습니다. (비)0 에서 해상도 5. 가장 높은 해상도에서,우리는 클러스터 불안정성을 나타내는 많은 낮은 비율의 가장자리를 볼 시작합니다. 쇠라는 클러스터 0 이 가장 큰 클러스터로 크기에 따라 클러스터에 레이블을 지정합니다.
0.1 의 단계에서 해상도를 0 에서 1 로 덮는 클러스터링 트리(그림 1). 4 에이)네 가지 주요 가지가 단지 0.1 의 해상도로 형성된다는 것을 보여줍니다. 해상도 0.1 에서 클러스터 3 으로 시작하는 이러한 분기 중 하나는 변경되지 않고 클러스터 2 로 시작하는 분기는 해상도 0.4 에서 한 번만 분할됩니다. 대부분의 분기는 클러스터 1 로 시작하는 분기에서 발생합니다.이 분기는 해상도가 증가함에 따라 새 클러스터를 형성하기 위해 지속적으로 하위 분기가 분리됩니다. 이 트리에는 해상도 0.4—0.5 와 해상도 0.7–1.0 에서 두 개의 안정성 영역이 있으며 클러스터 0 에서 시작하는 분기가 두 개로 나뉩니다.
그림. 0.5 단계로 0 에서 5 까지 더 큰 해상도 범위를 가진 클러스터링 트리를 보여줍니다. 이 범위를 살펴보면 알고리즘이 이 데이터 집합에 실제로 존재할 가능성이 있는 것보다 더 많은 클러스터를 생성해야 할 때 어떤 일이 발생하는지 알 수 있습니다. 오버 클러스터의 발생으로,우리는 더 낮은 비율의 가장자리와 여러 부모 클러스터에서 형성 새로운 클러스터를 볼 시작합니다. 이것은 트리의 이러한 영역이 불안정하고 형성되는 새 클러스터가 데이터 집합에서 실제 그룹을 나타내지 않을 것임을 시사합니다.
알려진 마커 유전자는 일반적으로 특정 클러스터에 해당하는 세포 유형을 식별하는 데 사용됩니다. 클러스터링 트리에 유전자 발현 정보를 오버레이하면 순수 세포 집단을 포함하는 클러스터가 형성 될 때를 나타내는 데 도움이되는 대체 뷰를 제공합니다. 그림 5 는 그림 5 의 클러스터링 트리를 보여줍니다. 4 일부 알려진 마커 유전자의 발현과 겹쳐.
알려진 마커의 표현에 따라 색이 지정된 데이터 집합의 클러스터링 트리입니다. 노드 색상은 각 클러스터에서 샘플의 로그 2 유전자 수의 평균을 나타냅니다. CD19(A)식별 B 셀,CD14(B)를 표시의 인구 monocytes,CD3D(C)마커 T 세포 및 CCR7(D)을 보여줍 사이에 분할 메모리고 순진한 CD4T cells.
알려진 마커의 표현에 따라 색이 지정된 데이터 집합의 클러스터링 트리입니다. 노드 색상은 각 클러스터에서 샘플의 로그 2 유전자 수의 평균을 나타냅니다. CD19(A)식별 B 셀,CD14(B)를 표시의 인구 monocytes,CD3D(C)마커 T 세포 및 CCR7(D)을 보여줍 사이에 분할 메모리고 순진한 CD4T cells.
이 추가 정보를 추가하면 일부 세포 유형을 신속하게 식별 할 수 있습니다. (그림. 5 에이)의 마커입니다 비 세포 그리고 나무의 가장 뚜렷한 가지로 명확하게 표현됩니다. (그림. 5 비)는 단핵구 유형의 마커이며,중앙 가지 중 하나를 따라 가면서 더 많이 표현되어 이러한 세포의 순수한 집단을 식별하는 해상도를 볼 수 있습니다. (그림. 5 씨)는 일반적인 마커입니다 티 세포 그리고 두 개의 분리 된 가지로 표현됩니다. 메모리 및 순진한 세포 분리. 클러스터링 트리에 알려진 유전자의 발현을 추가함으로써 클러스터링 해상도가 증가함에 따라 더 많은 집단이 식별 될 수 있는지,그리고 클러스터가 알려진 생물학과 일치하는지 확인할 수 있습니다. 대부분의 쇠랏 튜토리얼에서 0.6 의 해상도가 사용되지만,저자는 0.8 의 해상도로 이동하면 메모리와 순진한 셀 사이에 분할을 얻을 수 있다고 지적합니다. 이는 이전 정보를 추가하여 클러스터링 트리를 보면 예상할 수 있는 분할입니다.
토론
유사한 샘플을 그룹으로 클러스터링하는 것은 많은 분야에서 유용한 기술이지만 분석가들은 종종 사용할 클러스터링 해상도를 결정하는 까다로운 문제에 직면합니다. 이 문제에 대한 전통적인 접근 방식은 일반적으로 한 번에 단일 클러스터 또는 샘플을 고려하며 샘플 라벨에 대한 사전 지식에 의존 할 수 있습니다. 여기,우리는 클러스터링 나무,여러 해상도에서 클러스터링 간의 관계를 보여 주는 대체 시각화 제시. 클러스터링 트리는 사용할 클러스터링 해상도를 직접 제안 할 수는 없지만 특히 다른 메트릭 또는 도메인 지식과 결합 할 때 이러한 결정을 내리는 데 유용한 도구가 될 수 있습니다.
클러스터링 트리는 해상도가 높아짐에 따라 클러스터가 분할되는 방식,명확하게 분리되고 구별되는 클러스터,서로 관련이 있는 클러스터 및 더 많은 클러스터가 생성됨에 따라 샘플이 그룹을 변경하는 방식을 표시합니다. 클러스터링 트리는 계층 적 클러스터링에서 생성 된 트리와 유사하게 나타날 수 있지만 몇 가지 중요한 차이점이 있습니다. 계층적 클러스터링은 개별 샘플 간의 관계를 고려하며 그룹을 형성하는 분명한 방법을 제공하지 않습니다. 대조적으로,클러스터링 트리는 특정 클러스터링 방법과 독립적이며 샘플이 아닌 클러스터 간의 관계를 다른 해상도로 보여 주며,이 중 하나를 추가 분석에 사용할 수 있습니다.
클러스터링 나무의 사용을 설명 하기 위해 우리는 일련의 시뮬레이션과 실제 분석의 두 가지 예를 제시,하나는 고전적인 아이리스 데이터 집합을 사용 하 고 두 번째 복잡 한 스크나 서열 데이터 집합을 기반으로 합니다. 두 예제 모두 클러스터링 트리가 사용할 해결 방법을 결정하는 데 도움이 되는 방법과 추가 정보를 오버레이하여 해당 클러스터의 유효성을 검사하는 데 도움이 되는 방법을 보여 줍니다. 이 데이터 세트는 종종 크고 잡음이 많으며 알 수없는 수의 셀 유형 또는 클러스터를 포함하기 때문에 특히 유용합니다.
클러스터 수를 결정하는 것이 문제가되지 않더라도 클러스터링은 유용한 도구가 될 수 있습니다. 다양한 클러스터에 걸쳐 요약된 정보를 표시할 수 있는 작고 정보 밀도가 높은 시각화를 제공합니다. 클러스터 노드가 나타내는 샘플의 특성을 기반으로 클러스터 노드의 모양을 수정하여 클러스터링을 평가하고 클러스터의 정체성을 설정할 수 있습니다. 클러스터링 트리는 잠재적으로 많은 분야에서 응용 프로그램을 가질 수 있으며 미래에는 퍼지 클러스터링을 수용하는 등보다 유연하게 적용 할 수 있습니다. 또한 여러 매개 변수 집합 또는 클러스터링 메서드의 결과를 결합하기 위해 보다 일반적인 클러스터링 그래프를 사용할 수도 있습니다.이 소프트웨어 패키지는 통계 프로그래밍 언어(버전 3.5.0)를 위해 작성되었습니다. 이 패키지에는 디버깅 심볼이 들어 있습니다. 이 패키지에는 주 프로그램 바이너리와 미리 컴파일된 대수 및 자동 로드 모듈이 전부 들어있습니다.
여기에 표시된 그림 패널은 카우 플롯패키지를 사용하여 제작되었다.
시뮬레이션
시뮬레이션된 데이터 세트는 통계적 분포로부터 포인트를 생성하여 구성되었다. 첫 번째 시뮬레이션(시뮬레이션)은 0 과 10 사이의 균일 한 분포를 사용하여 100 차원 공간에서 무작위로 생성 된 1,000 점으로 구성됩니다. 시뮬레이션 비 100 차원에서 1,000 점의 단일 정규 분산 클러스터로 구성됩니다. 이 클러스터의 중심은 평균 0 및 표준 편차가 10 인 정규 분포에서 선택되었습니다. 그런 다음 평균이 중심점과 같고 표준 편차가 5 인 정규 분포에서이 중심 주위에 점이 생성되었습니다. 나머지 세 가지 시뮬레이션은 추가 클러스터를 추가하여 생성되었습니다. 클러스터 간의 알려진 관계를 갖기 위해 기존 클러스터의 센터를 조작하여 새 클러스터의 센터를 만들었습니다. 클러스터 2 의 경우 평균 0 및 표준 편차 2 를 갖는 정규 분포에서 임의의 100 차원 벡터를 생성하고 클러스터 1 의 중심에 추가했습니다. 중심 3 은 중심 1 과 중심 2 의 평균과 평균 0 및 표준 편차 5 를 갖는 정규 분포의 무작위 벡터였습니다. 클러스터 1 과 2 사이의 클러스터 3 과 4 사이의 유사한 관계를 보장하기 위해 센터 4 는 센터 2 를 중앙 3 에 생성하는 데 사용되는 벡터의 절반과 평균 0 및 표준 편차 2 를 갖는 정규 분포에서 다른 벡터를 추가하여 생성되었습니다. 각 클러스터의 포인트는 클러스터 1 과 동일한 방식으로 생성되었습니다. 시뮬레이션 씨 클러스터 1 과 2 의 점으로 구성됩니다.; 그리고 시뮬레이션 전자는 클러스터로 구성 1,2,3,과 4. 이 패키지에는 디버깅 심볼이 들어 있습니다. 클러스터링 트리 시각화는 트리 레이아웃과 함께 클루스트리 패키지를 사용하여 생성되었습니다. 시뮬레이션된 데이터 집합 및 이를 생성하는 데 사용되는 코드는 이 문서의 리포지토리에서 사용할 수 있습니다.
홍채 데이터 집합
홍채 데이터 집합은 다음과 같이 사용할 수 있습니다. 이 패키지에는 디버깅 심볼이 들어 있습니다. /$케이$/의 각 값은 최대 100 개의 반복과 10 개의 임의의 시작 위치로 클러스터되었습니다. 클러 스 트리 패키지는 스기야마 레이아웃을 사용하여 결과를 시각화하는 데 사용되었습니다. 이 패키지에는 런타임 라이브러리가 들어 있습니다.이 자습서는 대부분의 분석에 대해 쇠랏 버전 2.3.1 을 사용하여 수행되었습니다. 간단히 말해서,세포는 표현 하는 유전자의 수와 미토콘드리아 유전자에 할당 된 카운트의 비율에 따라 필터링 했다. 그런 다음 데이터를 로그 정규화하고 1,838 개의 가변 유전자를 확인했습니다. 잠재적인 혼란 변수(고유 분자 식별자 및 백분율 미토콘드리아 식의 수)식별 된 변수 유전자에 주성분 분석을 수행 하기 전에 데이터 집합에서 퇴행 했다. 그런 다음 처음 10 개의 주요 구성 요소를 사용하여 0 에서 5 범위의 해상도 매개 변수를 사용하여 루뱅 모듈성 최적화를 사용하여 클러스터로 분할 된 그래프를 만들고 0 에서 1 사이의 0.1 단계로 0.5 단계로 만들었습니다. 그런 다음 클루스트리를 사용하여 트리 레이아웃을 사용하여 결과를 시각화했습니다.
소스 코드 및 요구 사항의 가용성
프로젝트 이름:클루스트리.
프로젝트 홈 페이지:https://github.com/lazappi/clustree.운영 체제:리눅스,맥코스,윈도우
프로그래밍 언어:아르 자형(> = 3.4)
기타 요구 사항: None
라이센스:GPL-3
어떤 제한을 사용하여 비 학자:None
RRID:SCR_016293
의 가용성을 지원하는 데이터는
이 clustree 패키지를 사용할 수 있에서 크랜고 개발되고 있습니다. 여기에 제시된 분석에 사용된 코드 및 데이터 집합도 깃허브에서 구할 수 있습니다. 클러스터된 홍채 데이터세트는 클러스트리의 일부로 포함되어 있습니다. 코드의 스냅샷은 기가사이언스 리포지토리에서 사용할 수 있습니다.단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포,단핵 세포.
경쟁 이익
저자는 경쟁 이익이 없다고 선언합니다.
자금
호주 정부 연구 교육 프로그램 장학금에 의해 지원됩니다. 건강 및 의료 연구위원회 경력 개발 원정대(응용 프로그램 1126157)를 통해 지원됩니다. 머독 아동 연구소는 빅토리아 정부의 운영 인프라 지원 프로그램에 의해 지원됩니다.
저자 기고
엘.지.클러스터링 트리 알고리즘을 설계하고 클루 트리 소프트웨어 패키지를 작성하고 원고를 작성했습니다. 프로젝트 감독 및 원고에 댓글을 달았습니다.
감사
원고 초안에 대한 의견 및 검토자에게 의견 및 제안을 제공해 주셔서 감사합니다.
.
의 효율성 대 해석 가능성.
.
;
:
–
.
.
.
,
.
.
.
.
;
:
–
.
,
에서 그룹 찾기.
.
. 피피.
–
.
가 있는 대규모 공간 데이터베이스에서 클러스터를 발견하기 위한 밀도 기반 알고리즘입니다.
.
:
;
. 피피.
–
..
:
,
.
.
;
:
–
.
.
.
;
:
–
.
의 해석 및 검증에 대한 그래픽 지원.
.
;
:
–
.
.
.
;
:
–
.
.
.
.
,
;
–
.
.
.
;
:
–
.
,
.
에서 인과 폴리 나무의 회복.
;
.
.
.
;
:
–
.
.
.
;
:
–
.
,
,
.
.
;
:
–
.
.
.
.
;
:
–
.
.
.
.
;
:
–
.
.
.
;
:
–
.
.
.
;
:
–
.
.
.
;
:
.
.
.
;
:
–
.
.
.
.
.
.
:
;
.
. 이 방법은 다음과 같습니다.
.
.
.
.
,
.
.
. 2018 년 11 월 1 일,2018 년 11 월 1 일 ;
.
.
.
;
;
:
.
. ;
.
.
.
.
. .