クラスタリングツリー:複数の解像度でクラスタリングを評価するための可視化

概要

クラスタリング技術は、類似した特性を持つサンプルをグループ化するための大規模なデータセットの分析に広く使用されています。 例えば、クラスタリングは、組織試料中に存在する異なる細胞型を同定するために、単細胞RNA配列決定の分野でしばしば使用される。 クラスタリングを実行するための多くのアルゴリズムがあり、結果は大幅に変化する可能性があります。 特に、データセット内に存在するグループの数は不明であることが多く、アルゴリズムによって識別されるクラスターの数は、使用されるパラメータに基づ クラスタリング分解能の変化の影響を探索し,検討するために,クラスタリングツリーを提示した。 この可視化は、複数の解像度でクラスタ間の関係を示し、研究者はクラスタの数が増加するにつれてサンプルがどのように動くかを見ることがで さらに、メタ情報をツリー上に重ねて、解決の選択とクラスタの識別のガイドを通知することができます。 一連のシミュレーションと二つの実際の例,古典的なアイリスデータセットと複雑な単一細胞RNAシーケンスデータセットを用いてクラスタリングツリーの特徴を示した。 クラスタリングツリーは、CRANから入手可能でGitHubで開発されたclustree Rパッケージを使用して生成できます。

はじめに

クラスタリング分析は、さまざまなアプリケーションで同様のサンプルをグループ化するために一般的に使用されます。 通常、クラスタリングの目的は、他のグループのサンプルよりも互いに類似したサンプルのグループを形成することです。 ファジィまたはソフトクラスタリングのアプローチは、ある確率で各サンプルをすべてのクラスターに割り当て、階層クラスタリングはサンプルのツリーを形成するが、ほとんどの方法は、各サンプルが単一のグループに割り当てられるハードクラスターを形成する。 この目標は、サンプル間の距離(例えば、|$k$|-means、PAM)、データセット全体の密度の領域(例えば、DBSCAN)、または統計的分布との関係を考慮することなど、様々な方法で達成

多くの場合、データセットに存在するべきグループの数は事前に知られていないため、使用するクラスターの正しい数を決定することは重要な課題です。 |$K$|-means clusteringなどの一部のアルゴリズムでは、クラスターの数を明示的に指定する必要があります。 他の方法には、直接的または間接的に、クラスタリングの解像度、したがって生成されるクラスターの数を制御するパラメータがあります。 分析者がどのクラスタリング分解能を使用するかを決定するのに役立つように設計された方法と統計(elbow methodやsilhouette plotsなど)がありますが、一般的には、一度に単一のサンプルまたはクラスターのセットのみを考慮する単一のスコアを生成します。

別のアプローチは、複数の解像度でクラスターを考慮し、クラスターの数が増えるにつれてサンプルがどのようにグループ化を変化させるかを調べるこ その多くは、摂動またはサブサンプリングされたデータセットのクラスタリングに依存しています。 たとえば、モデルエクスプローラーアルゴリズムは、データセットを複数回サブサンプルし、サブサンプルされた各データセットをさまざまな解像度でクラスタリングし、同じ解像度でクラスタリング間の類似度を計算して、解像度の選択を知らせる類似度の分布を与えます。 摂動に基づいていないクラスター安定性の尺度の1つは、単一細胞RNA配列決定(scRNA-seq)データをクラスタリングするためのSC3パッケージに含まれています。 異なる解像度のクラスターラベルのセットから始めて、各クラスターにスコアが付けられ、別の解像度でクラスターと同じサンプルを共有しているが、高解像度であることが罰せられた場合、クラスターには安定性が向上します。

同様の単純なアプローチは、スコアを計算することなく、ここで提示クラスターツリービジュアライゼーションによって取られます。(i)データセットは、複数の解; そして(iii)得られたグラフは木として提示される。 このツリーを使用して、クラスタが互いにどのように関連しているか、どのクラスタが異なるか、どのクラスタが不安定かを調べることができます。 以下のセクションでは、このようなツリーの構築方法について説明し、古典的なクラスタリングデータセットと複雑なscRNA-seqデータセットから構築されたツリー ここに示されている図は私達の公に利用できるclustreeのパッケージを使用してRで作り出すことができる。 クラスタリングツリーは、使用するクラスタリングの解像度を直接提供することはできませんが、可能な選択肢の範囲を探索して視覚化するのに役立

クラスタリングツリーの構築

クラスタリングツリーを構築するには、一連のクラスタリングから開始し、いくつかの異なる解像度でグループにサンプルを割 これらは、何らかの方法でクラスターの数を制御できる任意のハードクラスタリングアルゴリズムを使用して生成できます。 たとえば、これは|$k$|を使用してクラスター化されたサンプルのセットである可能性があります-|$kを使用した手段\,\, = \,\,1,2,3$| 図に示すように。 1. これらのクラスタをソートして、解像度(|k k||)を増やして順序付けし、隣接するクラスタのペアを検討します。 各クラスター|${c_{k\,\,i}}$|(が|$i\,\, = \,\,1,\,\, \ldots,\,\n$|および|$n$|数はクラスター解像度|$k$|)と比較すると、各クラスター|${c_{k+1,\,\,j}}$|(が|$j\,\, = \,\,1,\,\, \ldots,\,\,m$|および|$m$|数はクラスター解像度|$k+1$|). 2つのクラスター間の重複は、|c{c_{k、\、\、i}}||と|${c_{k+1、\、\、j}}j|の両方に割り当てられたサンプルの数として計算されます。 次に、各ノードがクラスタであり、各エッジが二つのクラスタ間の重複であるグラフを構築します。 単純化のためにこのグラフをツリーと呼ぶが、より正確にはポリツリーと記述することができ、これは有向非巡回グラフの特別な場合であり、その下にある無向グラフがツリーである。

1:

クラスタリングツリーを構築するために必要な手順の図。 まず、データセットを異なる解像度でクラスター化する必要があります。 隣接する解像度でのクラスター間のサンプルの重複が計算され、各エッジの比率を計算するために使用されます。 最後に、エッジがフィルタリングされ、グラフがツリーとして視覚化されます。

フィギュア1:

クラスタリングツリーを構築するために必要な手順の図。 まず、データセットを異なる解像度でクラスター化する必要があります。 隣接する解像度でのクラスター間のサンプルの重複が計算され、各エッジの比率を計算するために使用されます。 最後に、エッジがフィルタリングされ、グラフがツリーとして視覚化されます。

縁部の多くは、例えば、図1 0aでは空である。 1クラスタAのサンプルは|$kではありません\,\, = \,\,2$| |$kでクラスター Bになります\,\, = \,\,3$|. 一部のデータセットでは、サンプルが少ないエッジが存在することもあります。 これらのエッジは有益ではなく、雑然とした木になります。 情報量の少ないエッジを除去するための明白な解決策は、それらが表すサンプル数のしきい値を使用してそれらをフィルタリングすることです。 ただし、この場合、サンプル数は、解像度の低いエッジと、より大きなクラスターを接続するエッジを優先するため、使用する正しい統計ではありません。 代わりに、エッジ上のサンプル数とそれが進むクラスター内のサンプル数との比として、インプロポーションメトリックを定義します。 このメトリックは、クラスターのサイズとは無関係に、高解像度クラスターに対するエッジの重要性を示します。 次に、あまり有益でないエッジを削除するために、比率にしきい値を適用することができます。

最終的なグラフを視覚化することができます。 理論的には、任意のグラフレイアウトアルゴリズムを使用することができます。 しかし、clustreeパッケージでは、igraphパッケージで利用可能なツリー構造用に特別に設計された二つのアルゴリズムを使用しました。 これらは、親ノードを子ノードの上に配置するReingold-Tilfordツリーレイアウトと、有向非循環グラフのノードをレイヤーに配置し、交差エッジの数を最小限に抑えるSugiyamaレイアウ これらのアルゴリズムはどちらも魅力的なレイアウトを生成することができるため、クラスタリングツリーのための特定のレイアウトアルゴリズムを設計する必要は見つかりませんでした。 デフォルトでは、clustreeパッケージは、レイアウトを構築するときにエッジのサブセット、特に各ノードの割合が最も高いエッジのみを使用します。 しかし、ユーザーは必要に応じてすべてのエッジを使用することを選択できます。

使用されるレイアウトに関係なく、最終的なビジュアライゼーションでは、各レイヤーが異なるクラスタリング解像度であり、エッジがそれらの解像度を経たサンプルの遷移を示す一連のレイヤーにクラスターノードが配置されます。 エッジは、それらが表すサンプルの数に応じて着色され、比率メトリックは、より重要なエッジを強調し、エッジの透明度を制御するために使用され デフォルトでは、ノードサイズはクラスター内のサンプル数に応じて調整され、その色はクラスタリングの解像度を示します。 Clustreeパッケージには、次の例に示すように、それらが表すクラスター内のサンプルの属性に基づいてノードの美学を制御するオプションも含まれています。

クラスタリングツリーは概念的には階層クラスタリングによって生成されるツリーに似ていますが、いくつかの重要な違いがあります。 最も明白なのは,階層クラスタリングツリーは特定のクラスタリングアルゴリズムの結果であり,個々のサンプル間の関係を示すことであるが,ここで説明したクラスタリングツリーはクラスタリング法とは無関係であり,クラスタリング間の関係を示すことである。 階層ツリーの分岐は、クラスタリングアルゴリズムがサンプルをどのようにマージしたかを示します。 対照的に、クラスタリングツリーのエッジは、解像度の変化に応じてサンプルがクラスタ間でどのように移動するかを示し、ノードは複数の親を持 サンプルに関する情報を階層ツリーにオーバーレイすることは可能ですが、これは一般的には行われませんが、clustreeパッケージの重要な機能であり、実際にクラスタリングツリーをどのように使用できるかです。

シミュレーションを使用したデモ

さまざまな状況でクラスタリングツリーがどのように見えるか、データセットがオーバークラスタリングされたときにどのように動作するかを実証するために、簡単なシミュレーションを使用した実例をいくつか紹介します(メソッドを参照)。 ランダム一様雑音(シミュレーションA),単一クラスタ(シミュレーションB),二つのクラスタ(シミュレーションC),三つのクラスタ(シミュレーションD),四つのクラスタ(シミュレーションE)の五つのシナリオを示した。 各クラスターは、100次元正規分布から生成された1,000個のサンプル(ポイント)で構成され、各合成データセットは|$k$|を使用してクラスター化されています-|$k\,\, = \,\,1,\,\, \ldots,8$|. 次に、clustreeパッケージを使用して、各データセットのクラスタリングツリーを生成します(Fig. 2).

2:

クラスタリングツリーを示すために使用される5つの合成データセット。 各データセットについて、最初の2つの主成分の散布図、既定のクラスタリングツリー、およびsc3安定性インデックスで紫色(最低)から黄色(最高)に色付けされたノードを持つクラスタリングツリーが表示されます。 5つのデータセットには、(A)ランダムな一様ノイズ、(B)1つのクラスター、(C)2つのクラスター、(D)3つのクラスター、および(E)4つのクラスターが含まれます。

フィギュア2:

クラスタリングツリーを示すために使用される5つの合成データセット。 各データセットについて、最初の2つの主成分の散布図、既定のクラスタリングツリー、およびsc3安定性インデックスで紫色(最低)から黄色(最高)に色付けされたノードを持つクラスタリングツリーが表示されます。 5つのデータセットには、(A)ランダムな一様ノイズ、(B)1つのクラスター、(C)2つのクラスター、(D)3つのクラスター、および(E)4つのクラスターが含まれます。

最初の2つの例(一様なノイズと単一のクラスター)を見ると、クラスタリングアルゴリズムがデータセットに実際に存在するよりも多くのクラスターを返 新しいクラスターは複数の既存のクラスターから形成され始め、多くのサンプルはツリーの枝を切り替え、その結果、比率の低いエッジが得られます。 不安定なクラスターは、図2に示すように、分解能が増加するにつれて出現し、その後消失することもあります。 2E.データセットに構造を追加すると、クラスタリングツリーは明確な枝を形成し始め、比率の低いエッジはツリーのセクションに限定される傾向があ どのクラスターが安定しており、比率の低いエッジが発生する場所を見ることによって、ツリーのどの領域が真のクラスターの結果であり、過クラスタ化に

各データセットの第二のクラスタリングツリーには、各クラスターのSC3安定性インデックスに従って色付けされたノードが表示されます。 予想されるように、最初の2つの例では、高い安定性スコアを受け取るクラスターはありません。 ただし、2クラスターの例(シミュレーションC)では、クラスタリングツリーに2つの分岐が明確に表示されますが、これはSC3スコアには反映されません。 高い安定性スコアを得るクラスターはありませんが、ほとんどの場合、分解能が高くなるにつれて多数のサンプルがクラスター間を移動するためです。 シミュレーションされたデータセットに真のクラスターが多くなるにつれて、SC3安定性スコアは、使用する正しい解像度をより予測します。 ただし、個々のクラスターの安定性スコアが最も高いと、4つのクラスターの例(シミュレーションE)に見られるように、誤った解像度が使用される可能性があ これらの例では、クラスタリングツリーを使用して、パラメータの選択を通知するのに役立つ方法で既存のクラスタリング指標を表示する方法を示

簡単な例

クラスタリングツリーがどのように構築されるかをさらに説明するために、古典的なirisデータセットを使用した例を使用します。 このデータセットには、アイリスsetosa、アイリスversicolor、およびアイリスvirginicaのそれぞれから150のアイリスの花、50からのがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。 Irisデータセットは、i.setosaサンプルが他のサンプルとは大きく異なり、線形分離可能であるため、クラスタリングと分類の両方の問題の例として一般的に使 $K$|を使用してこのデータセットをクラスター化しました-|k k clusteringでクラスタリングすることを意味します\,\, = \,\,1,\,\, \ldto、5π|と図に示すクラスタリングツリーを生成した。 3A.

フィギュア3:

|$k||に基づく木のクラスタリング-アイリスデータセットのクラスタリングを意味します。 (A)ノードは、|k k||の値に従って色付けされ、それらが表すサンプルの数に応じてサイズが決まります。 エッジは、サンプルの数に応じて着色されています(少数を表す青色から多数を表す黄色まで)。 透明度は、比率に応じて調整され、より強い線は、より高い解像度のクラスターにとってより重要なエッジを示します。 クラスターラベルは、|$k$|-meansアルゴリズムによってランダムに割り当てられます。 (B)ノードのカラーリングを変更した同じツリーは、各クラスター内のサンプルの平均花びらの長さを示します。

フィギュア3:

|$k||に基づく木のクラスタリング-アイリスデータセットのクラスタリングを意味します。 (A)ノードは、|k k||の値に従って色付けされ、それらが表すサンプルの数に応じてサイズが決まります。 エッジは、サンプルの数に応じて着色されています(少数を表す青色から多数を表す黄色まで)。 透明度は、比率に応じて調整され、より強い線は、より高い解像度のクラスターにとってより重要なエッジを示します。 クラスターラベルは、|$k$|-meansアルゴリズムによってランダムに割り当てられます。 (B)ノードのカラーリングを変更した同じツリーは、各クラスター内のサンプルの平均花びらの長さを示します。

木の一つの枝は明らかに区別され(おそらくI.setosaを表す)、クラスタの数に関係なく変化しないことがわかります。 反対側では、|$k atのクラスタがあることがわかります\,\, = \,\,2$| /√kで2つのクラスター(おそらくI.versicolorとI.virginica)にきれいに分割されます\,\, = \,\,3$|. しかし、|$kに移動すると、/$k\,\, = \,\,4$| および/√k\,\, = \,\,5$|, 私たちは、より低い割合のエッジを持つ複数の枝から形成されているクラスターを参照してください。 シミュレーションの例で見てきたように、この種のパターンは、データが過密になり、人工的なグループ化を導入し始めたことを示すことができます。

distinct branchがI.setosaサンプルを表し、他の2つのクラスターが|$kであるという仮定を確認できます\,\, = \,\,3$| i.versicolorとI.virginicaは、サンプルに関するいくつかの既知の情報をオーバーレイすることによって である。 3B我々は、それらが含まれているサンプルの平均花びらの長さによってノードを着色しています。 これで、異なる枝のクラスターが最短の花びらを持ち、クラスター1が|$kであることがわかります\,\, = \,\,3$| 中間の長さを有し、最も長い花弁を有するクラスタ3を有する。 この特徴は試料を予想種に分離することが知られており,I.setosaは平均して最短の花弁を持ち,I.versicolorは中間の長さを持ち,i.virginicaは最長である。

これは非常に単純な例ですが、クラスタリングツリーを表示することの利点のいくつかを強調しています。 エッジを調べることによって正しいクラスタリング分解能のいくつかの指標を得,クラスタリングの品質を評価するために既知の情報をオーバーレイすることができる。 たとえば、すべてのクラスターが同じ平均花弁の長さを持っていることを観察した場合、これが種を分離する重要な特徴であることを知っているので、クラスタリングは成功していないことを示唆するでしょう。 どのサンプルが比率の低いエッジに従っているかを調べるか、一連のフィーチャをオーバーレイして、特定のクラスターが分割される原因を理解しようとすることで、より多くのことを学ぶことができます。

scRNA-seqデータのクラスタリングツリー

クラスタリング技術を多用し始めているフィールドの一つは、scRNA-seqデータの解析です。 scRNA配列決定は、数千から数百万の個々の細胞で遺伝子がどのように発現されるかを測定することができる最近開発された技術です。 この技術は、発生生物学や免疫学などの分野で急速に採用されており、古いRNA-seq技術を使用してサンプル中の多くの異なる細胞間で平均化された測定ではなく、単一の細胞からの情報を持つことが価値がある。 ScRNA-seqの主な用途は、複雑な組織のサンプル中に存在する異なる細胞型を発見し、尋問することである。 このような状況では、クラスタリングは、典型的には、それらの遺伝子発現プロファイルに基づいて類似の細胞をグループ化するために使用される。 次いで、群間の遺伝子発現の差を使用して、それらの細胞の同一性または機能を推測することができる。 ScRNA-seqデータセット内の細胞型(クラスター)の数は、研究されている組織、その発生状態または環境状態、および捕獲された細胞の数などの要因に応じて変 多くの場合、データが生成される前に細胞型の数は不明であり、一部のサンプルには数十個のクラスターが含まれている可能性があります。 したがって、使用するクラスタリング解像度を決定することは、このアプリケーションで重要な考慮事項です。

クラスタリングツリーがscRNA-seqコンテキストでどのように使用できるかの例として、一般的に使用される末梢血単核細胞(PBMC)データセットを検討します。 このデータセットは、もともと10xゲノミクスによって生成され、よく研究された免疫細胞の種類の範囲を表す2,700末梢血単核細胞が含まれています。 このデータセットは、scRNA-seq解析に一般的に使用されるツールキットであるSeuratパッケージを使用して分析しましたが、クラスタリング分解能パラメータをゼロから5まで変更したことを除いて、チュートリアルの手順に従って分析しました(メソッドを参照)。 Seuratはグラフベースのクラスタリングアルゴリズムを使用し、resolutionパラメーターはこのグラフの分割を制御し、値が高いほどクラスターが多くなります。 この解析から生成されたクラスタリングツリーを図に示します。 4.

4:

2,700PBMCsのデータセットの二つのクラスタリングツリー。 (A)0から1までの分解能パラメータを持つSeuratを使用したクラスタリングの結果。 0.1の解像度では、4つの主要な枝の形成が見られ、そのうちの1つは0.4の解像度に分割され続け、その後はわずかな変更しかありません。 (B)ゼロから5までの解像度。 最高解像度では、クラスターの不安定性を示す多くの低い比率のエッジが見え始めます。 Seuratはクラスターのサイズに応じてクラスターにラベルを付け、クラスター0が最大です。

フィギュア4:

2,700PBMCsのデータセットの二つのクラスタリングツリー。 (A)0から1までの分解能パラメータを持つSeuratを使用したクラスタリングの結果。 0.1の解像度では、4つの主要な枝の形成が見られ、そのうちの1つは0.4の解像度に分割され続け、その後はわずかな変更しかありません。 (B)ゼロから5までの解像度。 最高解像度では、クラスターの不安定性を示す多くの低い比率のエッジが見え始めます。 Seuratはクラスターのサイズに応じてクラスターにラベルを付け、クラスター0が最大です。

クラスタリングツリーは、解像度ゼロから1までを0.1ステップでカバーしています(図。 4A)は、四つの主な枝がちょうど0.1の分解能で形成されることを示しています。 クラスター3で始まるこれらのブランチの1つは解像度0.1で変更されず、クラスター2で始まるブランチは解像度0.4で1回だけ分割されます。 分岐の大部分はクラスタ1から始まる分岐で発生し、分解能が上がるにつれて新しいクラスタを形成するためにサブブランチが一貫して分割されている。 このツリーには、分解能0.4—0.5と分解能0.7–1.0の2つの安定領域があり、クラスタ0から始まる分岐が2つに分割されます。

図4Bは、0.5のステップで0から5までのより広い範囲の解像度を持つクラスタリングツリーを示しています。 この範囲を見ると、アルゴリズムがこのデータセットに実際に存在する可能性が高いよりも多くのクラスターを生成するように強制されたときに何が オーバークラスタリングが発生すると、より低い比率のエッジと、複数の親クラスターから形成される新しいクラスターが表示され始めます。 これは、ツリーのこれらの領域が不安定であり、形成される新しいクラスターがデータセット内の真のグループを表す可能性が低いことを示唆しています。

既知のマーカー遺伝子は、特定のクラスターが対応する細胞型を識別するために一般的に使用されます。 クラスタリングツリーに遺伝子発現情報をオーバーレイすると、純粋な細胞集団を含むクラスターがいつ形成されるかを示すのに役立つ代替ビューが提供 図5は、図のPBMCクラスタリングツリーを示しています。 いくつかの既知のマーカー遺伝子の発現を重ねた図4Aを参照されたい。

5:

既知のマーカーの表現に従って着色されたPBMCデータセットのクラスタリングツリー。 ノードの色は、各クラスター内のサンプルのlog2遺伝子数の平均を示します。 CD1 9(A)はB細胞を同定し、CD1 4(B)は単球の集団を示し、CD3D(C)はT細胞のマーカーであり、CCR7(D)は記憶とナイーブCD4t細胞との間の分裂を示す。

フィギュア5:

既知のマーカーの表現に従って着色されたPBMCデータセットのクラスタリングツリー。 ノードの色は、各クラスター内のサンプルのlog2遺伝子数の平均を示します。 CD1 9(A)はB細胞を同定し、CD1 4(B)は単球の集団を示し、CD3D(C)はT細胞のマーカーであり、CCR7(D)は記憶とナイーブCD4t細胞との間の分裂を示す。

この追加情報を追加することにより、いくつかの細胞型を迅速に識別することができます。 CD1 9(図1 9)。 5A)はB細胞のマーカーであり、木の最も明確な枝で明確に発現される。 CD1 4(図2)。 5B)は単球の一種のマーカーであり、これは中心枝の一つに従うにつれてより発現され、これらの細胞の純粋な集団を識別する解像度を見ることができ CD3D(Fig. (図5C)はT細胞の一般的マーカーであり、CCR7の低発現および高発現に分裂する2つの別々の枝で発現される(図5C)。 5D)、記憶およびナイーブCD4t細胞を分離する。 クラスタリングツリーに既知の遺伝子の発現を追加することにより、クラスタリング分解能が増加するにつれてより多くの集団を識別できるかどうか、 Seuratチュートリアルのほとんどでは、0.6の解像度が使用されていますが、著者らは、0.8の解像度に移動することによって、メモリとナイーブCD4t細胞の間で分割を達成することができることに注意してください。 これは、事前情報を追加してクラスタリングツリーを見ることによって予想できる分割です。

ディスカッション

類似したサンプルをグループにクラスタリングすることは、多くの分野で有用な手法ですが、多くの場合、アナリストはどのクラスタリング分解能を使用するかを決定するという難しい問題に直面しています。 この問題に対する従来のアプローチでは、通常、単一のクラスターまたはサンプルを一度に検討し、サンプルラベルの事前知識に依存する可能性があ ここでは、クラスタリングツリー、複数の解像度でクラスタリング間の関係を示す代替の可視化を提示します。 クラスタリングツリーは、どのクラスタリング解決を使用するかを直接提案することはできませんが、特に他のメトリックやドメインの知識と組み合わ

クラスターツリーは、解像度が高くなるにつれてクラスターがどのように分割されるか、どのクラスターが明確に分離されているか、互いに関連しているか、クラスターが生成されるにつれてサンプルがどのようにグループを変化させるかを表示します。 クラスタリングツリーは、階層クラスタリングから生成されたツリーと同様に見えることがありますが、いくつかの重要な違いがあります。 階層クラスタリングは、個々のサンプル間の関係を考慮し、グループを形成するための明白な方法を提供しません。 対照的に、クラスタリングツリーは特定のクラスタリング方法とは独立しており、サンプルではなくクラスター間の関係を異なる解像度で示します。

クラスタリングツリーの使用法を説明するために、一連のシミュレーションと実際の解析の二つの例を提示しました。 どちらの例も、クラスタリングツリーがどの解像度を使用するかの決定にどのように役立つか、および余分な情報をオーバーレイすることがこれらのクラ これらのデータセットは、多くの場合、大規模でノイズが多く、未知の数の細胞型またはクラスターが含まれているため、これはscRNA-seq解析に特に使用されます。

クラスターの数を決定することが問題ではない場合でも、クラスタリングツリーは貴重なツールになります。 それらは集りの範囲を渡る要約された情報を表示できる密集した、情報密な視覚化を提供する。 それらが表すサンプルの属性に基づいてクラスターノードの外観を変更することにより、クラスターリングを評価し、クラスターのidを確立することがで クラスタリングツリーは多くの分野で応用される可能性があり、将来的にはファジィクラスタ化に対応するなど、より柔軟に適応することができます。 また、より一般的なクラスタリンググラフでは、複数のパラメータセットまたはクラスタリング方法の結果を結合するための使用もあります。

メソッド

clustree

clustreeソフトウェアパッケージ(v0.2.0)は、R統計プログラミング言語(v3.5.0)用に構築されています。 これは、ggplot2(v2.2.1)およびtidygraph(v1.1.0)パッケージ上に構築されたggraphパッケージ(v1.0.1)に依存しています。 クラスタリングツリーはReingold-Tilford tree layoutまたはSugiyama layoutを使用して表示されます。

ここに示す図のパネルは、cowplotパッケージ(v0.9.2)を使用して製造されました。

シミュレーション

シミュレーションデータセットは、統計的分布から点を生成することによって構築されました。 最初のシミュレーション(シミュレーションA)は、ゼロと10の間の一様分布を使用して、100次元空間からランダムに生成された1,000点で構成されます。 シミュレーションBは、1,000点の100次元の単一の正規分布クラスターで構成されます。 このクラスターの中心は、平均ゼロと標準偏差10の正規分布から選択されました。 次に、平均が中心点に等しく、標準偏差が5の正規分布からこの中心の周りに点が生成されました。 残りの三つのシミュレーションは、追加のクラスタを追加することによ クラスター間の既知の関係を持つために、既存のクラスターの中心を操作することによって、新しいクラスターの中心を作成しました。 クラスター2では、平均ゼロと標準偏差2の正規分布からランダムな100次元ベクトルが生成され、クラスター1の中心に追加されました。 中心3は、中心1と中心2の平均に、平均ゼロと標準偏差5の正規分布からのランダムベクトルを加えたものでした。 クラスター3と4の間とクラスター1と2の間の同様の関係を確実にするために、中心4は、中心2を生成するために使用されるベクトルの半分を中心3に加え、平均ゼロと標準偏差2の正規分布から別のベクトルを追加することによって生成されました。 各クラスターのポイントは、クラスター1と同じ方法で生成されました。 シミュレーションCはクラスター1と2の点で構成され、シミュレーションDはクラスター1、2、および3で構成されます; シミュレーションEは、クラスター1、2、3、および4で構成されます。 各シミュレートされたデータセットは、statsパッケージの”kmeans”関数を使用して、1から8までの|$k$|の値、最大100回の反復、および10個のランダムな開始位置を使用してクラスター化されました。 クラスタリングツリーの視覚化は、ツリーレイアウトを持つclustreeパッケージを使用して作成されました。 シミュレートされたデータセットとそれらを生成するために使用されるコードは、この記事のリポジトリーから入手できます。

アイリスデータセット

アイリスデータセットはRの一部として利用可能です。 Statsパッケージの”kmeans”関数を使用して、このデータセットを1から5までの|k k||の値でクラスター化しました。 |K k$|の各値は、最大100回の反復と10個のランダムな開始位置でクラスター化されました。 Clustreeパッケージは、Sugiyamaレイアウトを使用して結果を視覚化するために使用されました。 クラスター化された虹彩データセットは、clustreeパッケージの一部として利用できます。

PBMC dataset

PBMC datasetはSeuratチュートリアルページからダウンロードされており、このチュートリアルはSeuratバージョン2.3.1を使用した分析のほとんどに従っていました。 簡単に説明すると、細胞は、それらが発現する遺伝子の数およびミトコンドリア遺伝子に割り当てられたカウントの割合に基づいて濾過された。 その後、データを対数正規化し、1,838個の可変遺伝子を同定した。 潜在的な交絡変数(一意の分子識別子の数とミトコンドリア発現の割合)は、同定された可変遺伝子の主成分分析を実行する前に、データセットから退 最初の10個の主成分を使用して、Louvain modularity optimizationを使用してクラスターに分割されたグラフを作成し、分解能パラメータをゼロから5の範囲、0.1から1の間、0.5の その後、Clustreeを使用して、ツリーレイアウトを使用して結果を視覚化しました。

ソースコードの入手可能性と要件

プロジェクト名:clustree.

プロジェクトホームページ:https://github.com/lazappi/clustree。

オペレーティングシステム:Linux、MacOS、Windows

プログラミング言語:R(> = 3.4)

その他の要件: なし

ライセンス:GPL-3

非学者による使用の制限:なし

RRID:SCR_016293

サポートデータの可用性

clustreeパッケージはCRANから入手でき、GitHubで開発されています。 ここで紹介する分析に使用されるコードとデータセットは、GitHubからも入手できます。 クラスタ化されたirisデータセットはclustreeの一部として含まれており、PBMCデータセットはSeuratチュートリアルページまたはPaper GitHubリポジトリからダウンロードできます。 コードのスナップショットは、GigaScienceリポジトリGigaDBで入手できます。

略語

PBMC:末梢血単核細胞;scRNA-seq:単一細胞RNA-シークエンシング。

競合する利益

著者らは、競合する利益を持たないと宣言している。

資金

L.Z.はオーストラリア政府の研究訓練プログラム奨学金によって支援されています。 A.O.は、国民健康と医学研究評議会のキャリア開発フェローシップ(APP1126157)を通じてサポートされています。 マードック・チルドレンズ・リサーチ・インスティテュートは、ビクトリア州政府の運営インフラ支援プログラムによって支援されている。

著者の貢献

L.Z.はクラスターツリーアルゴリズムを設計し、clustreeソフトウェアパッケージを書き、原稿を起草しました。 A.O.はプロジェクトを監督し、原稿にコメントしました。

謝辞

原稿の草稿に関するコメントを提供してくれたMarek Cmeroと、彼らのコメントや提案のための査読者に感謝します。

フォージ
私たち

多変量データのクラスター分析:分類の効率対解釈可能性

バイオメトリクス

1965

;

21

:

768

9

.

マックイーン
J

多変量観測の分類と分析のためのいくつかの方法

数学統計と確率に関する第5回バークレーシンポジウムで

,

1967

.

ロイド
S

PCMでの最小二乗量子化

IEEEトランスInf理論

1982

;

28

:

129

37

.

Kaufman
L

,

Rousseeuw
PJ

.

データ

、米国ニュージャージー州

でグループを検索します。

John Wiley&Sons,Inc

1990

. pp.

68

125

.

エステル
M

Kriegel

H-P

Sander

J

など。

ノイズ

を持つ大規模な空間データベース内のクラスタを発見するための密度ベースのアルゴリズム。

知識発見とデータマイニングに関する第二回国際会議の議事録

オレゴン州ポートランド

:

AAAIプレス

;

1996

. pp.

226

31

..

:

フレイリー
C

,

ラフテリー
AE

.

モデルベースのクラスタリング、判別分析、密度推定

J Am Stat Assoc

2002

;

97

:

611

31

.

ソーンダイク
RL

誰が家族の中に属していますか?

.

サイコメトリカ
1953

;

18

:

267

76

.

ルソー
PJ

シルエット:クラスター分析の解釈と検証へのグラフィカルな援助

J Comput Appl Math

.

1987

;

20

:

53

65

.

ルクスブルク
ウ-フォン

クラスタリング安定性:概要

機械学習の基礎と動向

.

2010

;

2

:

235

74

.

Ben-Hur
A

,

Elisseeff
A

,

Guyon
I

.

クラスター化されたデータ

内の構造を発見するための安定性ベースの方法。

パコパコママ
2002

,

7

;

6

17

.

Kiselev
VY

,

Kirschner

K

,

Schaub
MT

et al.

SC3:単一細胞RNA-seqデータのコンセンサスクラスタリング

2017

;

14

:

483

6

.

リバーン
G

、パール

J

統計データ

からの因果ポリツリーの回復。

2013

;

http://arxiv.org/abs/1304.2736、2018年5月16日アクセス

から入手可能。

Csardi
G

Nepusz
T

複雑なネットワーク研究のためのigraphソフトウェアパッケージ

インタージャーナル複合システム

2006

;

1695

:

1

9

.

Reingold
EM

,

Tilford
JS

.

IEEE Trans Software Eng

1981

;

SE-7

:

223

8

.

杉山
K

、田川

S

、戸田

M

階層システム構造の視覚的理解のための方法

/

/

/

///

1981

;

11

:

109

25

.

アンダーソン
E

ガスペ半島の菖蒲

アメリカ虹彩学会紀要

1935

;

59

:

2

5

.

フィッシャー
RA

分類学的問題における複数の測定値の使用

アン-オイゲン
1936

;

7

:

179

88

.

Tang
F

Barbacioru
C

Wang
Y

など。

単一細胞のmRNA-seq全トランスクリプトーム解析

2009

;

6

:

377

82

.

シュテッレ
O

,

Teichmann
SA

,

Marioni
JC

.

単細胞トランスクリプトミクスにおける計算および分析的課題

2015

;

16

:

133

45

.

GXY

,

Terry
JM

,

Belgrader
P

など。

単一細胞の超並列デジタル転写プロファイリング

ナットコム
2017

;

8

:

14049

.

サティヤ
R

、ファレル

JA

、ジェナート

D

ら。

単細胞遺伝子発現データの空間的再構成

ナットビオテクノール

2015

;

33

:

495

502

.

ペダーセン
TL

ggraph:グラフとネットワークのためのグラフィックスの文法の実装

.

2018

.

から利用可能:https://CRAN.R-project.org/package=ggraph,アクセス21May, 2018

ウィッカム
H

ggplot2:データ解析のためのエレガントなグラフィックス

ニューヨーク

:

スプリンガー

;

2010

.

ペダーセン
TL

tidygraph:グラフ操作のためのTidygraph API

.

2018

.

から利用可能:https://CRAN.R-project.org/package=tidygraph,アクセス月21, 2018

ウィルケ
CO

カウプロット: “Ggplot2″のための合理化されたプロットのテーマとプロットの注釈。’

.

2018

.

から利用可能:https://CRAN.R-project.org/package=cowplot,アクセスされた月21, 2018

Zappia
L

Oshlack
A

,

2018

.

から入手可能:https://github.com/Oshlack/clustree-paper、2018年5月21日アクセス

サティヤラボ
Seurat PBMC3Kチュートリアル

。 ;

2018

.

: https://satijalab.org/seurat/pbmc3k_tutorial.html、アクセス数21, 2018

Vd

,

Guillaume

J-L

,

Lambiotte
R

,Et al.

大規模ネットワークにおけるコミュニティの高速展開

Jスタットメック

;

2008

;

2008

:

P10008

Zappia
L

Oshlack
A

clustree:異なる解像度

でクラスタを視覚化する。

2018

.

から利用可能:https://CRAN.R-project.org/package=clustree,アクセスされた月21, 2018

Zappia
L

Oshlack
A

;

2018

.

から入手可能:https://github.com/lazappi/clustree、2018年5月21日アクセス

Zappia
L

Oshlack
A

“クラスタリングツリー”のデータをサポート:複数の解像度でクラスタリングを評価するための可視化。”

.

ギガサイエンスデータベース

2018

. .

コメントを残す

メールアドレスが公開されることはありません。