Clustering fák: a vizualizáció értékelésére klaszterek több felbontásban

absztrakt

klaszterezési technikákat széles körben használják az elemzés nagy adatkészletek csoportosítani minták hasonló tulajdonságokkal. Például a klaszterezést gyakran használják az egysejtű RNS-szekvenálás területén annak érdekében, hogy azonosítsák a szövetmintában jelen lévő különböző sejttípusokat. Számos algoritmus létezik a klaszterezés végrehajtására, és az eredmények jelentősen eltérhetnek. Az adatkészletben jelen lévő csoportok száma gyakran ismeretlen, és az algoritmus által azonosított klaszterek száma az alkalmazott paraméterek alapján változhat. A különböző klaszterfelbontások hatásának feltárásához és vizsgálatához bemutatjuk a klaszterező fákat. Ez a vizualizáció több felbontásban mutatja a klaszterek közötti kapcsolatokat, lehetővé téve a kutatók számára, hogy lássák, hogyan mozognak a minták a klaszterek számának növekedésével. Ezenkívül a meta-információk átfedhetők a fán, hogy tájékoztassák a felbontás megválasztását és útmutatást nyújtsanak a klaszterek azonosításához. A fák csoportosulásának jellemzőit szimulációk sorozatával, valamint két valós példával szemléltetjük, a klasszikus írisz adatkészlettel és egy komplex egysejtű RNS-szekvenáló adatkészlettel. A fürtöző fák a CRAN-tól elérhető és a GitHub-on kifejlesztett clustree r csomag segítségével állíthatók elő.

Bevezetés

a Klaszterelemzést általában hasonló minták csoportosítására használják sokféle alkalmazásban. A klaszterezés célja általában olyan mintacsoportok kialakítása, amelyek jobban hasonlítanak egymásra, mint más csoportok mintáira. Míg a fuzzy vagy puha fürtözési megközelítések minden mintát bizonyos valószínűséggel minden fürthöz rendelnek, a hierarchikus fürtözés pedig mintafát képez, a legtöbb módszer kemény fürtöket képez, ahol minden mintát egyetlen csoporthoz rendelnek. Ezt a célt különféle módon lehet elérni, például figyelembe véve a minták közötti távolságokat (pl. |$k$|-means, PAM), az adatkészlet sűrűségének területeit (pl.

sok esetben az adatkészletben jelen lévő csoportok száma nem ismert előre, és a használni kívánt klaszterek helyes számának meghatározása jelentős kihívást jelent. Bizonyos algoritmusok esetében, mint például a|$k$ / -fürtözést jelent, a klaszterek számát kifejezetten meg kell adni. Más módszerek olyan paraméterekkel rendelkeznek, amelyek közvetlenül vagy közvetve szabályozzák a fürtözési felbontást, tehát az előállított klaszterek számát. Bár vannak olyan módszerek és statisztikák (például a könyök módszer és sziluettdiagramok), amelyek segítenek az elemzőknek eldönteni, hogy melyik fürtözési felbontást használják, általában egyetlen pontszámot állítanak elő, amely egyszerre csak egyetlen mintakészletet vagy klasztert vesz figyelembe.

alternatív megközelítés lenne a klaszterek többszörös felbontásban történő vizsgálata, és annak vizsgálata, hogy a minták hogyan változtatják meg a csoportosulásokat a klaszterek számának növekedésével. Ez számos klaszterstabilitási intézkedéshez vezetett, amelyek közül sok zavart vagy részmintázott adatkészletek csoportosítására támaszkodik. Például a model explorer algoritmus többször is részmintákat készít egy adatkészletből, az egyes részmintázott adatkészleteket különböző felbontásokkal csoportosítja, majd kiszámítja az azonos felbontású klaszterek közötti hasonlóságot, hogy a hasonlóságok eloszlását adja, amely tájékoztathatja a felbontás megválasztását . Az egyik klaszterstabilitási intézkedés, amely nem perturbációkon alapul, az SC3 csomag az egysejtű RNS-szekvenálás (scRNA-seq) adatok csoportosítására . A különböző felbontású fürtcímkék halmazától kezdve minden fürtöt pontoznak, a klaszterek nagyobb stabilitást kapnak, ha ugyanazokkal a mintákkal rendelkeznek, mint egy fürt egy másik felbontásban, de büntetik, mert nagyobb felbontásúak.

hasonló egyszerű megközelítést alkalmaz az itt bemutatott fürtözési fa vizualizáció, a pontszámok kiszámítása nélkül: (i) az adatkészletet bármilyen kemény fürtözési algoritmus segítségével csoportosítják több felbontásban, klasztercsomópontok halmazát állítva elő; (ii) a szomszédos felbontásokban lévő klaszterek közötti átfedést élek építésére használják; és (iii) a kapott gráfot fa formájában mutatjuk be. Ez a fa felhasználható annak vizsgálatára, hogy a klaszterek hogyan kapcsolódnak egymáshoz—mely klaszterek különböznek egymástól és melyek instabilak. A következő szakaszokban leírjuk, hogyan építünk egy ilyen fát, és bemutatunk példákat a klasszikus fürtözési adatkészletből és egy komplex scRNA-seq adatkészletből épített fákra. Az itt bemutatott számok R-ben állíthatók elő nyilvánosan elérhető clustree csomagunk segítségével. Bár a fürtöző fák nem tudnak közvetlenül fürtözési felbontást biztosítani, hasznos eszköz lehet a lehetséges választási lehetőségek feltárására és vizualizálására.

Fürtöző fa építése

fürtöző fa létrehozásához csoportosulásokkal kezdjük, és a mintákat több különböző felbontásban csoportokba osztjuk. Ezeket bármilyen kemény klaszterező algoritmus segítségével elő lehet állítani, amely valamilyen módon lehetővé teszi a klaszterek számának ellenőrzését. Például ez lehet A |$k$|-segítségével csoportosított minták halmaza / $k\,\, = \,\,1,2,3$| amint az ábrán látható. 1. Ezeket a fürtöket úgy rendezzük, hogy a felbontás növelésével rendezzük őket (|$k$|), majd fontolja meg a szomszédos klaszterek párjait. Minden fürt / ${C_{k,\,\, i}}$ / (ahol / $i\,\, = \,\,1,\,\, \ldots,\,\, n$| és |$N$ / A |$k $ / felbontásban lévő klaszterek száma) összehasonlításra kerül az egyes klaszterekkel / ${C_{k + 1,\,\, j}}$ / (ahol / $j\,\, = \,\,1,\,\, \ldots,\,\, m$| és |$m$ / a klaszterek száma felbontásban / $k + 1$/). A két klaszter közötti átfedést a |${C_{k,\,\,i}}$| és |${C_{k + 1,\,\,j}}$|mintákhoz rendelt minták számaként számítjuk ki. Ezután építünk egy gráfot, ahol minden csomópont klaszter, és minden Él átfedés két klaszter között. Bár ezt a gráfot az egyszerűség kedvéért fának nevezzük, helyesebben a politree, az irányított aciklusos gráf speciális esete, ahol az alapul szolgáló irányítatlan gráf fa .

ábra 1:

a fürtöző fa felépítéséhez szükséges lépések illusztrációja. Először is, az adatkészletet különböző felbontásokban kell fürtözni. A minták átfedését a szomszédos felbontásokban lévő klaszterek között kiszámítják, és az egyes élek arányának kiszámításához használják. Végül az éleket kiszűrjük, és a grafikon faként jelenik meg.

ábra 1:

a fürtöző fa felépítéséhez szükséges lépések illusztrációja. Először is, az adatkészletet különböző felbontásokban kell fürtözni. A minták átfedését a szomszédos felbontásokban lévő klaszterek között kiszámítják, és az egyes élek arányának kiszámításához használják. Végül az éleket kiszűrjük, és a grafikon faként jelenik meg.

sok él üres lesz, például az ábrán. 1 nincs minta az a klaszterben |$k-nál\,\, = \,\,2$| A B klaszter végén / $k\,\, = \,\,3$|. Egyes adatkészletekben lehetnek olyan élek is, amelyek kevés mintát tartalmaznak. Ezek az élek nem informatívak, és rendetlen fát eredményeznek. Kézenfekvő megoldás a nem informatív, alacsony számlálású élek eltávolítására az, ha azokat az általuk képviselt minták számának küszöbértékével szűrjük. Ebben az esetben azonban a Minták száma nem a megfelelő statisztika, mert az alacsonyabb felbontású éleket, valamint a nagyobb klasztereket összekötő éleket részesíti előnyben. Ehelyett az arányos mutatót úgy definiáljuk, mint a szélén lévő minták száma és a klaszterben lévő minták száma közötti arányt. Ez a mutató a fürt méretétől függetlenül mutatja az él fontosságát a nagyobb felbontású fürt szempontjából. Ezután alkalmazhatunk egy küszöböt az arányra a kevésbé informatív élek eltávolítása érdekében.

a végső grafikon ezután láthatóvá válik. Elméletileg bármilyen gráfelrendezési algoritmus használható. A clustree csomaghoz azonban az igraph csomagban elérhető, kifejezetten faszerkezetekhez tervezett két algoritmust használtuk . Ezek a Reingold-Tilford fa elrendezés, amely a szülő csomópontokat a gyermekeik fölé helyezi, és a Sugiyama elrendezés, amely egy irányított aciklikus gráf csomópontjait rétegekbe helyezi, miközben minimalizálja az átkelő élek számát . Mindkét algoritmus vonzó elrendezéseket hozhat létre; mint ilyen, nem találtuk szükségét egy speciális elrendezési algoritmus megtervezésére a fák csoportosításához. Alapértelmezés szerint a clustree csomag csak az élek egy részhalmazát használja az elrendezés összeállításakor, konkrétan az egyes csomópontok legnagyobb arányú éleit. Megállapítottuk, hogy ez gyakran értelmezhető vizualizációkhoz vezet; a felhasználók azonban választhatják az összes él használatát, ha szükséges.

az alkalmazott elrendezéstől függetlenül a végső megjelenítés a fürtcsomópontokat rétegek sorozatába helyezi, ahol minden réteg eltérő fürtözési felbontású, az élek pedig a minták átmenetét mutatják ezeken a felbontásokon keresztül. Az élek az általuk képviselt minták számának megfelelően vannak színezve, az arányszám pedig az él átlátszóságának szabályozására szolgál, kiemelve a fontosabb éleket. Alapértelmezés szerint a csomópont méretét a fürtben lévő minták számának megfelelően állítják be, színük pedig a fürtözési felbontást jelzi. A clustree csomag opciókat is tartalmaz a csomópontok esztétikájának szabályozására az általuk képviselt klaszterek mintáinak attribútumai alapján, amint azt a következő példák mutatják.

míg a fürtöző fa fogalmilag hasonló a hierarchikus fürtözés révén előállított fához, van néhány fontos különbség. A legnyilvánvalóbb, hogy egy hierarchikus fürtöző fa egy adott csoportosítási algoritmus eredménye, és megmutatja az egyes minták közötti kapcsolatokat, míg az itt leírt csoportosító fák függetlenek a csoportosítási módszertől és a klaszterek közötti kapcsolatokat mutatják. A hierarchikus fa ágai azt mutatják, hogy a fürtözési algoritmus hogyan egyesítette a mintákat. Ezzel szemben a fürtöző fa élei azt mutatják, hogy a minták hogyan mozognak a fürtök között a felbontás változásakor, és a csomópontoknak több szülője is lehet. Bár lehetséges a mintákkal kapcsolatos információk átfedése egy hierarchikus fán, ez általában nem történik meg, de a clustree csomag kulcsfontosságú jellemzője, valamint a fák fürtözésének gyakorlati felhasználása.

szimulációkat használó demonstráció

annak bemutatására, hogy egy fürtöző fa hogyan nézhet ki különböző helyzetekben, és hogyan viselkedik adatkészletként, néhány szemléltető példát mutatunk be egyszerű szimulációk segítségével (lásd módszerek). Öt forgatókönyvet mutatunk be: véletlenszerű egységes zaj (a szimuláció), egyetlen klaszter (B szimuláció), két klaszter (C szimuláció), három klaszter (d szimuláció) és négy klaszter (E szimuláció). Minden klaszter 1000 mintából (pontból) áll, amelyek egy 100 dimenziós normál eloszlásból származnak, és minden egyes szintetikus adatkészlet a |$k$ / – azt jelenti, hogy a |$k-val csoportosul\,\, = \,\,1,\,\, \ldotok ,8$/. Ezután a clustree csomag segítségével fürtöző fákat állítunk elő minden adatkészlethez (ábra. 2).

ábra 2:

öt szintetikus adatkészlet, amelyet a fák csoportosulásának bemutatására használnak. Minden adatkészlethez az első két fő összetevő szórási diagramja, egy alapértelmezett fürtöző fa, valamint az SC3 stabilitási index által színezett csomópontokkal rendelkező fürtöző fa látható a lila (legalacsonyabb) és a sárga (legmagasabb) között. Az öt adatkészlet a következőket tartalmazza: (a) véletlenszerű egyenletes zaj, (B) egyetlen klaszter, (C) két klaszter, (D) három klaszter és (E) négy klaszter.

ábra 2:

öt szintetikus adatkészlet, amelyet a fák csoportosulásának bemutatására használnak. Minden adatkészlethez az első két fő összetevő szórási diagramja, egy alapértelmezett fürtöző fa, valamint az SC3 stabilitási index által színezett csomópontokkal rendelkező fürtöző fa látható a lila (legalacsonyabb) és a sárga (legmagasabb) között. Az öt adatkészlet a következőket tartalmazza: (a) véletlenszerű egyenletes zaj, (B) egyetlen klaszter, (C) két klaszter, (D) három klaszter és (E) négy klaszter.

az első két példát vizsgálva (egységes zaj és egyetlen klaszter) világosan láthatjuk, hogyan viselkedik egy klaszterező fa, amikor egy klaszterező algoritmus több klasztert ad vissza, mint amennyi valóban jelen van egy adatkészletben. Új klaszterek kezdenek kialakulni több meglévő klaszterből, és sok minta vált a fa ágai között, ami alacsony arányú éleket eredményez. Instabil klaszterek is megjelenhetnek, majd eltűnhetnek a felbontás növekedésével, amint az az ábrán látható. 2E. ahogy több struktúrát adunk az adatkészletekhez, a fürtöző fák tiszta ágakat kezdenek alkotni, és az alacsony arányú élek általában a fa szakaszaira korlátozódnak. Ha megvizsgáljuk, hogy mely klaszterek stabilak, és hol keletkeznek alacsony arányú élek, arra következtethetünk, hogy a fa mely területei valószínűleg valódi klaszterek következményei, és melyeket a túlfürtölés okozza.

az egyes adatkészletek második fürtözési fája az egyes klaszterek SC3 stabilitási indexe szerint színezett csomópontokat mutat. Ahogy az várható volt, az első két példában egyetlen klaszter sem kap magas stabilitási pontszámot. Bár egyértelműen két ágat látunk a fürtöző fában a két klaszter példához (C szimuláció), ez nem tükröződik az SC3 pontszámokban. Egyetlen fürt sem kap magas stabilitási pontszámot, valószínűleg a klaszterek között mozgó minták nagy száma miatt, ahogy a felbontás növekszik. Mivel a szimulált adatkészletekben több igaz klaszter található, az SC3 stabilitási pontszámok jobban előrejelzik a megfelelő felbontást. Fontos azonban megvizsgálni az összes klaszter stabilitási pontszámát egy adott felbontásban, mivel a legmagasabb egyedi klaszterstabilitási pontszám felvétele a helytelen felbontáshoz vezethet, amint az a négy klaszteres példában is látható (e szimuláció). Ezek a példák azt mutatják be, hogy a fürtöző fák hogyan használhatók a meglévő fürtözési mutatók megjelenítésére oly módon, amely segíthet a paraméterválasztás tájékoztatásában.

egy egyszerű példa

a csoportosító fa felépítésének további szemléltetéséhez egy példát fogunk kidolgozni a klasszikus írisz adatkészlet felhasználásával . Ez az adatkészlet 150 íriszvirágból, 50-ből, mind a három fajból: Iris setosa, Iris versicolor és Iris virginica. Az iris adatkészletet gyakran használják példaként mind a klaszterezési, mind az osztályozási problémákra, mivel az I. setosa minták jelentősen különböznek a többi mintától, és lineárisan elválaszthatók. Ezt az adatkészletet a |$k$ / használatával csoportosítottuk-azt jelenti, hogy a |$k-val csoportosulunk\,\, = \,\,1,\,\, \ldots, 5$ / és létrehozta a fürtöző fa ábrán látható. 3A.

ábra 3:

a fák csoportosítása a / $k$ / alapján-az írisz adatkészlet csoportosítását jelenti. (A) a csomópontokat a |$K$ / érték szerint színezzük, és az általuk képviselt minták számának megfelelően méretezzük. Az élek a minták számának megfelelően vannak színezve(a kevés kéktől a sok sárga színig). Az átlátszóságot az aránynak megfelelően állítják be, erősebb vonalakkal, amelyek a nagyobb felbontású klaszter számára fontosabbak. Cluster címkék véletlenszerűen a / $k$ / – azt jelenti, algoritmus. (B) ugyanaz a fa a csomópont színezésével megváltozott, hogy megmutassa az egyes klaszterekben a minták átlagos sziromhosszát.

ábra 3:

a fák csoportosítása a / $k$ / alapján-az írisz adatkészlet csoportosítását jelenti. (A) a csomópontokat a |$K$ / érték szerint színezzük, és az általuk képviselt minták számának megfelelően méretezzük. Az élek a minták számának megfelelően vannak színezve(a kevés kéktől a sok sárga színig). Az átlátszóságot az aránynak megfelelően állítják be, erősebb vonalakkal, amelyek a nagyobb felbontású klaszter számára fontosabbak. Cluster címkék véletlenszerűen a / $k$ / – azt jelenti, algoritmus. (B) ugyanaz a fa a csomópont színezésével megváltozott, hogy megmutassa az egyes klaszterekben a minták átlagos sziromhosszát.

látjuk, hogy a fa egyik ága egyértelműen megkülönböztethető (feltehetően az I. setosa-t képviseli), változatlan marad a klaszterek számától függetlenül. A másik oldalon azt látjuk, hogy a klaszter |$k\,\, = \,\,2$| tisztán két klaszterre oszlik (feltehetően I. versicolor és I. virginica) a |$k-nál\,\, = \,\,3$|. Azonban, ahogy mozogunk / $k\,\, = \,\,4$| és / $k\,\, = \,\,5$|, látjuk, hogy a klaszterek több ágból alakulnak ki, alacsonyabb arányú élekkel. Amint azt a szimulált példákban láttuk, ez a fajta minta azt jelezheti, hogy az adatok túlterheltek lettek, és elkezdtük bevezetni a mesterséges csoportosításokat.

ellenőrizhetjük azt a feltételezést, hogy a különálló ág az I. setosa mintákat képviseli |a másik két klaszter pedig / $k\,\, = \,\,3$| vannak I. versicolor és I. virginica átfedő néhány ismert információt a minták. Ábra. 3B a csomópontokat az általuk tartalmazott minták átlagos sziromhosszával színeztük. Most láthatjuk, hogy a különálló ág klasztereinek a legrövidebb szirmai vannak, az 1. klaszter / $k\,\, = \,\,3$| közepes hosszúságú, a 3. klaszter pedig a leghosszabb szirmokkal rendelkezik. Ismert, hogy ez a tulajdonság elválasztja a mintákat a várt fajokra: az I. setosa szirmai átlagosan a legrövidebbek, az I. versicolor közepes hosszúságú, az I. virginica pedig a leghosszabb.

bár ez egy nagyon egyszerű példa, kiemeli a fürtöző fa megtekintésének néhány előnyét. Az élek vizsgálatával némi jelzést kapunk a helyes fürtözési felbontásról, és az ismert információkat átfedhetjük a klaszterezés minőségének értékeléséhez. Például, ha megfigyeljük, hogy az összes klaszter átlagos sziromhossza azonos volt, az azt sugallja, hogy a klaszterezés nem volt sikeres, mivel tudjuk, hogy ez egy fontos jellemző, amely elválasztja a fajt. Potenciálisan többet megtudhatunk, ha megvizsgáljuk, hogy mely minták követik az alacsony arányú éleket, vagy egy sor funkció átfedésével megpróbáljuk megérteni, mi okozza az egyes klaszterek felosztását.

fák Fürtözése scRNA-seq adatokhoz

az egyik olyan terület, amely nagymértékben használta a fürtözési technikákat, az scRNA-seq adatok elemzése. az scRNA-szekvenálás egy nemrégiben kifejlesztett technológia, amely meg tudja mérni, hogy a gének hogyan fejeződnek ki több ezer-millió egyedi sejtben . Ezt a technológiát gyorsan elfogadták olyan területeken, mint a fejlődésbiológia és az immunológia, ahol értékes az egyes sejtekből származó információk birtoklása, nem pedig a régebbi RNS-seq technológiák alkalmazásával átlagolt mérések. Az scRNA-seq kulcsfontosságú felhasználása a különböző sejttípusok felfedezése és kihallgatása egy komplex Szövet mintájában. Ebben a helyzetben a fürtözést általában hasonló sejtek csoportosítására használják génexpressziós profiljuk alapján. A csoportok közötti génexpresszió különbségei ezután felhasználhatók e sejtek azonosságának vagy működésének következtetésére . Az scrns-seq adatkészletben a sejttípusok (klaszterek) száma olyan tényezőktől függően változhat, mint a vizsgált szövet, fejlődési vagy környezeti állapota, valamint a befogott sejtek száma. Gyakran előfordul, hogy a cellatípusok száma nem ismert az adatok létrehozása előtt, és egyes minták több tucat klasztert tartalmazhatnak. Ezért annak eldöntése, hogy melyik fürtözési felbontást használja, fontos szempont ebben az alkalmazásban.

példaként arra, hogy a fák csoportosítása hogyan használható az scRNA-seq kontextusban, egy általánosan használt perifériás vér mononukleáris sejt (PBMC) adatkészletet veszünk figyelembe. Ezt az adatkészletet eredetileg a 10x Genomics állította elő, és 2700 perifériás vér mononukleáris sejtet tartalmaz, amelyek számos jól tanulmányozott immunsejttípust képviselnek . Ezt az adatkészletet a Seurat csomag , az scrna-seq elemzéshez általánosan használt eszközkészlet segítségével elemeztük, az oktatóanyagukban szereplő utasításokat követve, kivéve a fürtözési felbontás paraméterének nulláról 5-re változtatását (lásd módszerek). A Seurat gráf alapú fürtözési algoritmust használ, és a felbontás paraméter szabályozza a gráf particionálását, a magasabb értékek több klasztert eredményeznek. Az elemzésből előállított fürtöző fákat az ábra mutatja. 4.

ábra 4:

két fürtöző fa egy 2700 PBMCs adatkészletből. (A) A Seurat használatával történő klaszterezés eredménye, nullától 1-ig terjedő felbontási paraméterekkel. 0, 1 felbontásnál négy fő ág kialakulását látjuk, amelyek közül az egyik továbbra is 0, 4 felbontásra oszlik, amely után csak kisebb változások vannak. B) nullától 5-ig terjedő határozatok. A legmagasabb felbontásnál sok alacsony arányú él látható, jelezve a klaszter instabilitását. A Seurat méretük szerint címkézi a klasztereket, a klaszter 0 a legnagyobb.

ábra 4:

két fürtöző fa egy 2700 PBMCs adatkészletből. (A) A Seurat használatával történő klaszterezés eredménye, nullától 1-ig terjedő felbontási paraméterekkel. 0, 1 felbontásnál négy fő ág kialakulását látjuk, amelyek közül az egyik továbbra is 0, 4 felbontásra oszlik, amely után csak kisebb változások vannak. B) nullától 5-ig terjedő határozatok. A legmagasabb felbontásnál sok alacsony arányú él látható, jelezve a klaszter instabilitását. A Seurat méretük szerint címkézi a klasztereket, a klaszter 0 a legnagyobb.

a fürtöző fa, amely nulla-1 felbontást tartalmaz 0,1 lépésekben (ábra. 4A) azt mutatja, hogy négy fő ág képződik mindössze 0,1 felbontással. Ezen ágak egyike, a 3. klaszterrel kezdve a 0,1 felbontással, változatlan marad, míg a 2.klaszterrel kezdődő ág csak egyszer szakad meg 0,4 felbontással. Az elágazás nagy része az 1. klaszterrel kezdődő ágban történik, amelynek alágai következetesen szétválnak, hogy új klasztereket képezzenek a felbontás növekedésével. Ennek a fának két stabilitási régiója van–a 0,4–0,5 felbontásnál és a 0,7-1,0 felbontásnál, ahol a 0 klaszternél kezdődő ág kettéválik.

ábra. A 4B egy nagyobb felbontási tartományú fürtöző fát mutat, nullától 5-ig 0,5 lépésekben. Ha ezt a tartományt nézzük, láthatjuk, mi történik, ha az algoritmus arra kényszerül, hogy több klasztert állítson elő, mint amennyi valószínűleg valóban jelen van ebben az adatkészletben. Ahogy a túlcsordulás bekövetkezik, egyre több alacsony arányú él és új klaszter alakul ki több szülő klaszterből. Ez azt sugallja, hogy a fa ezen területei instabilak, és hogy az új klaszterek kialakulása nem valószínű, hogy valódi csoportokat képviselnének az adatkészletben.

az ismert marker géneket általában használják azon sejttípusok azonosítására, amelyeknek az egyes klaszterek megfelelnek. A génexpressziós információk átfedése egy fürtöző fára alternatív nézetet nyújt, amely segíthet jelezni, hogy mikor alakulnak ki tiszta sejtpopulációkat tartalmazó klaszterek. Ábra 5 ábra a PBMC csoportosító fa ábra. 4A átfedésben van néhány ismert marker gén expressziójával.

ábra 5:

a PBMC adatkészlet fáinak csoportosítása az ismert markerek kifejezése szerint színezve. A csomópont színei az egyes klaszterekben lévő minták log2 génszámának átlagát jelzik. A CD19 (A) azonosítja a B-sejteket, a CD14 (B) a monociták populációját mutatja, A CD3D (C) A T-sejtek markere, a CCR7 (D) pedig a memória és a naiv CD4 T-sejtek közötti megoszlást mutatja.

ábra 5:

a PBMC adatkészlet fáinak csoportosítása az ismert markerek kifejezése szerint színezve. A csomópont színei az egyes klaszterekben lévő minták log2 génszámának átlagát jelzik. A CD19 (A) azonosítja a B-sejteket, a CD14 (B) a monociták populációját mutatja, A CD3D (C) A T-sejtek markere, a CCR7 (D) pedig a memória és a naiv CD4 T-sejtek közötti megoszlást mutatja.

ezen extra információk hozzáadásával gyorsan azonosíthatunk néhány sejttípust. CD19 (ábra. 5A) a B-sejtek markere, és egyértelműen kifejeződik a fa legkülönfélébb ágában. CD14 (ábra. 5B) egy olyan típusú monocita markere, amely kifejeződőbbé válik, amikor követjük az egyik központi ágat, lehetővé téve számunkra, hogy lássuk, melyik felbontás azonosítja e sejtek tiszta populációját. CD3D (ábra. 5C) a T-sejtek általános markere, és két különálló ágban fejeződik ki, amelyek a CCR7 alacsony és magas expressziójára oszlanak (ábra. 5D), elválasztva a memóriát és a naiv CD4 T sejteket. Ha ismert gének expresszióját adjuk hozzá egy fürtöző fához, láthatjuk, hogy több populáció azonosítható – e, mivel a klaszterfelbontás megnövekedett, és ha a klaszterek összhangban vannak-e az ismert biológiával. A Seurat oktatóanyag nagy részében 0,6 felbontást használnak, de a szerzők megjegyzik, hogy a 0,8 felbontásra való áttéréssel megosztható a memória és a naiv CD4 T-sejtek között. Ez egy olyan felosztás, amelyre előre lehet számítani, ha a fürtöző fát előzetes információk hozzáadásával nézzük meg.

Vita

a hasonló minták csoportokba csoportosítása sok területen hasznos technika, de az elemzők gyakran szembesülnek azzal a trükkös problémával, hogy eldöntsék, melyik csoportosítási felbontást használják. A probléma hagyományos megközelítései általában egyszerre egyetlen fürtöt vagy mintát vesznek figyelembe, és a mintacímkék előzetes ismeretére támaszkodhatnak. Itt bemutatjuk a fürtöző fákat, egy alternatív vizualizációt, amely megmutatja a klaszterek közötti kapcsolatokat több felbontásban. Míg a fák csoportosítása nem tudja közvetlenül javasolni, hogy melyik csoportosítási felbontást használja, hasznos eszköz lehet a döntés meghozatalában, különösen más mutatókkal vagy tartományi ismeretekkel kombinálva.

a Fürtöző fák azt mutatják, hogy a klaszterek hogyan oszlanak meg a felbontás növekedésével, mely klaszterek egyértelműen elkülönülnek és elkülönülnek egymástól, amelyek kapcsolatban állnak egymással, és hogyan változnak a minták csoportok, amikor több klaszter keletkezik. Bár a csoportosuló fák hasonlónak tűnhetnek a hierarchikus csoportosulásból származó fákhoz, számos fontos különbség van. A hierarchikus csoportosítás figyelembe veszi az egyes minták közötti kapcsolatokat, és nem nyújt nyilvánvaló módot a csoportok létrehozására. Ezzel szemben a klaszterező fák függetlenek minden konkrét klaszterezési módszertől, és a klaszterek közötti kapcsolatokat mutatják, nem pedig a mintákat, különböző felbontásokban, amelyek bármelyike felhasználható további elemzésre.

a fák csoportosulásának szemléltetésére egy sor szimulációt és két valós elemzést mutattunk be, az egyik a klasszikus írisz adatkészletet, a másik pedig egy komplex scRNA-seq adatkészletet használ. Mindkét példa bemutatja, hogy egy fürtöző fa hogyan segíthet a döntésben, hogy melyik felbontást használja, és hogyan segíthet az extra információk átfedése a klaszterek érvényesítésében. Ez különösen hasznos az scRNA-seq elemzéshez, mivel ezek az adatkészletek gyakran nagyok, zajosak, és ismeretlen számú sejttípust vagy klasztert tartalmaznak.

még akkor is, ha a klaszterek számának meghatározása nem jelent problémát, a fák csoportosítása értékes eszköz lehet. Kompakt, információsűrű megjelenítést biztosítanak, amely összesített információkat képes megjeleníteni a klaszterek széles skáláján. A klasztercsomópontok megjelenésének az általuk képviselt minták attribútumai alapján történő módosításával a klaszterek kiértékelhetők, és létrehozhatók a klaszterek identitása. A fürtöző fák számos területen alkalmazhatók, és a jövőben rugalmasabbá tehetők, például a fuzzy klaszterek elhelyezésével. Általánosabb fürtözési gráfok is használhatók több paraméterkészlet vagy fürtözési módszer eredményeinek kombinálására.

módszerek

clustree

a clustree szoftvercsomag (v0.2.0) az R statisztikai programozási nyelvhez (v3.5.0) készült. A ggraph csomagra (v1.0.1) támaszkodik , amely a ggplot2 (v2.2.1) és a tidygraph (v1.1.0) csomagokra épül. A fürtöző fák a Reingold-Tilford fa elrendezéssel vagy a Sugiyama elrendezéssel jelennek meg; mindkettő elérhető az igraph csomag részeként (v1.2.1).

az itt bemutatott Ábrapanelek a cowplot csomag (v0.9.2) felhasználásával készültek .

szimulációk

a szimulált adatkészleteket statisztikai eloszlásokból származó pontok generálásával állítottuk elő. Az első szimuláció (a szimuláció) 1000 pontból áll, amelyeket véletlenszerűen generálnak egy 100 dimenziós térből, egyenletes eloszlással nulla és 10 között. A B szimuláció egyetlen, normálisan elosztott, 1000 pontból álló klaszterből áll, 100 dimenzióban. Ennek a klaszternek a középpontját egy normál eloszlásból választottuk, amelynek átlaga nulla és szórása 10. Ezután pontokat generáltunk e középpont körül egy normál eloszlásból, amelynek átlaga megegyezik a középponttal, szórása pedig 5. A fennmaradó három szimulációt további klaszterek hozzáadásával állítottuk elő. A klaszterek közötti ismert kapcsolat érdekében az új klaszterek központját a meglévő klaszterek központjainak manipulálásával hozták létre. A 2. klaszter esetében egy véletlenszerű 100 dimenziós vektort generáltunk egy normál eloszlásból, amelynek átlaga nulla és szórása 2, és hozzáadtuk az 1.klaszter középpontjához. A 3. középpont az 1.és 2. középpont átlaga, plusz egy véletlenszerű vektor egy normális eloszlásból, átlagos nulla és 5 szórással. A 3.és 4. klaszterek közötti, az 1. és 2. klaszterekhez hasonló kapcsolat biztosítása érdekében a 4. középpontot úgy állítottuk elő, hogy a 2. Centrum előállításához használt vektor felét hozzáadtuk a 3. középponthoz, plusz egy másik vektort egy normál eloszlásból, amelynek átlagos nulla és 2. szórása van. Az egyes klaszterek pontjai ugyanúgy keletkeztek, mint az 1.klaszter esetében. A C szimuláció az 1. és 2. klaszter pontjaiból áll; a D szimuláció az 1., 2. és 3. klaszterből áll; az E szimuláció pedig az 1., 2., 3. és 4. klaszterekből áll. Minden szimulált adatkészletet a stats csomag “kmeans” függvényével csoportosítottunk, amelynek értéke |$k$| 1-től 8-ig, legfeljebb 100 iteráció és 10 véletlenszerű kiindulási pozíció volt. A fürtöző fa vizualizációk a clustree csomag segítségével készültek a fa elrendezésével. A szimulált adatkészletek és az előállításukhoz használt kód A cikk adattárából érhetők el .

Iris adatkészlet

az iris adatkészlet az R részeként érhető el. Ezt az adatkészletet a stats csomag “kmeans” függvényével csoportosítottuk, amelynek értéke |$k$| 1-től 5-ig. A |$k$ / minden értékét legfeljebb 100 iterációval és 10 véletlenszerű kiindulási pozícióval csoportosítottuk. A clustree csomagot használták az eredmények megjelenítésére a Sugiyama elrendezés segítségével. A fürtözött iris adatkészlet a clustree csomag részeként érhető el.

PBMC adatkészlet

a PBMC adatkészlet letöltésre került a Seurat oktatóoldaláról , és ezt az oktatóanyagot az elemzés nagy részében a Seurat 2.3.1-es verziójával követték. Röviden, a sejteket az expresszált gének száma és a mitokondriális génekhez rendelt számok százalékos aránya alapján szűrtük. Az adatokat ezután log-normalizálták, és 1838 változó gént azonosítottak. A lehetséges zavaró változókat (az egyedi molekuláris azonosítók száma és a mitokondriális expresszió százalékos aránya) visszafejlettük az adatkészletből, mielőtt elvégeztük a főkomponens elemzését az azonosított változó géneken. Az első 10 főkomponenst ezután egy gráf felépítéséhez használták, amelyet fürtökre osztottak fel Louvain modularitás optimalizálás felbontási paraméterekkel a nulla-5 tartományban, 0,1 lépésekben nulla és 1 között, majd 0,5 lépésekben. Ezután a Clustree-t használták az eredmények megjelenítésére a fa elrendezésével.

A forráskód elérhetősége és követelményei

Projekt neve: clustree.

a projekt honlapja: https://github.com/lazappi/clustree.

operációs rendszerek: Linux, MacOS, Windows

programozási nyelv: R (> = 3.4)

egyéb követelmények: None

licenc: GPL-3

a nem akadémikusok általi használatra vonatkozó korlátozások: None

RRID:SCR_016293

a támogató adatok elérhetősége

a clustree csomag a Cran-tól érhető el, és a GitHub-on fejlesztik . Az itt bemutatott elemzéshez használt kód és adatkészletek szintén elérhetők a GitHub – on . A fürtözött iris adatkészlet a clustree részeként szerepel, a PBMC adatkészlet pedig letölthető a Seurat oktatóoldaláról vagy a paper GitHub adattárból. A kód pillanatképei elérhetők a GigaScience adattárban, GigaDB .

rövidítések

PBMC: perifériás vér mononukleáris sejt; scrns-seq: egysejtű RNS-szekvenálás.

versengő érdekek

a szerzők kijelentik, hogy nincsenek versengő érdekeik.

finanszírozás

L. Z.-t egy ausztrál kormány Kutatási Képzési Program ösztöndíja támogatja. Az AO-t a Nemzeti Egészségügyi és Orvosi Kutatási Tanács Karrierfejlesztési ösztöndíja (APP1126157) támogatja. A Murdoch Gyermekkutató Intézetet a viktoriánus kormány operatív infrastruktúra-támogatási programja támogatja.

szerzői hozzájárulások

L. Z. tervezte a fürtöző fa algoritmust, írta a clustree szoftvercsomagot, és elkészítette a kéziratot. A. O. felügyelte a projektet és kommentálta a kéziratot.

köszönetnyilvánítás

Köszönjük Marek Cmero-nak, hogy észrevételeket tett a kézirat tervezetével kapcsolatban, a bírálók pedig észrevételeiket és javaslataikat.

Forgy
we

.

többváltozós adatok Klaszteranalízise: a besorolások hatékonysága és értelmezhetősége

.

biometrikus adatok

.

1965

;

21

:

768

9

.

Macqueen
J

.

néhány módszer a többváltozós megfigyelések osztályozására és elemzésére

.

5. Berkeley Symposium on Mathematical Statistics and Probability

,

1967

.

Lloyd
S

.

legkisebb négyzetek kvantálása PCM-ben

.

IEEE Trans INF elmélet

.

1982

;

28

:

129

37

.

Kaufman
L

,

Rousseeuw
PJ

.

Particionálás a Medoidok körül (Pam Program). Csoportok keresése az adatokban

,

New Jersey, USA

.

John Wiley &Sons, Inc

.

1990

. pp.

68

125

.

észter
M

,

Kriegel
H-P

,

csiszoló
J

et al.

sűrűségalapú algoritmus klaszterek felfedezésére nagy térbeli adatbázisokban, zaj

.

a Tudásfeltárás és adatbányászat második nemzetközi konferenciájának anyagai

.

Portland, Oregon

:

AAAI Press

;

1996

. pp.

226

31

..

elérhető

:

Fraley
C

,

Raftery
AE

.

modell alapú klaszterezés, diszkrimináns elemzés és sűrűségbecslés

.

J Am Stat Assoc

.

2002

;

97

:

611

31

.

Thorndike
RL

.

ki tartozik a családba?

.

Pszichometrika

.

1953

;

18

:

267

76

.

Rousseeuw
PJ

.

sziluettek: grafikus segédeszköz a klaszteranalízis értelmezéséhez és validálásához

.

J Comput Appl Matematika

.

1987

;

20

:

53

65

.

Luxburg
u von

.

csoportosítási stabilitás: áttekintés

.

a gépi tanulás alapjai és trendjei

.

2010

;

2

:

235

74

.

Ben-Hur
A

,

Elisseeff
A

,

Guyon
I

.

stabilitáson alapuló módszer a struktúra felfedezésére fürtözött adatokban

.

Pac Symp Biokomput

.

2002

,

7

;

6

17

.

Kiselev
VY

,

Kirschner
K

,

Schaub
MT

et al.

SC3: egysejtű RNS-seq adatok konszenzusos csoportosítása

.

Nat Módszerek

.

2017

;

14

:

483

6

.

Rebane
G

,

Pearl
J

.

okozati Polifák helyreállítása

statisztikai adatokból.

2013

;

elérhető: http://arxiv.org/abs/1304.2736, hozzáférés május 16, 2018

.

Csardi
G

,

Nepusz
T

.

az igraph szoftvercsomag komplex hálózati kutatásokhoz

.

Inter Journal Komplex Rendszerek

.

2006

;

1695

:

1

9

.

Reingold
EM

,

Tilford
JS

.

Tidier rajzok fák

.

IEEE Trans Software Eng

.

1981

;

SE-7

:

223

8

.

Sugiyama
K

,

Tagawa
S

,

Toda
M

.

a hierarchikus rendszerszerkezetek vizuális megértésének módszerei

.

IEEE Trans Syst Man Cybern

.

1981

;

11

:

109

25

.

Anderson
E

.

a Gaspe-félsziget íriszei

.

az amerikai írisz Társaság értesítője

.

1935

;

59

:

2

5

.

Fisher
RA

.

többszörös mérések használata taxonómiai problémákban

.

Ann Eugen

.

1936

;

7

:

179

88

.

Tang
F

,

Barbacioru
C

,

Wang
Y

et al.

egyetlen sejt mRNS-seq teljes transzkriptóm elemzése

.

Nat Módszerek

.

2009

;

6

:

377

82

.

Stegle
O

,

Teichmann
SA

,

Marioni
JC

.

számítási és analitikai kihívások az egysejtű transzkriptomikában

.

Nat Rev Genet

.

2015

;

16

:

133

45

.

Zheng
GXY

,

Terry
JM

,

Belgrader
P

et al.

tömegesen párhuzamos digitális transzkripciós profilozás egyetlen cellából

.

Nat Commun

.

2017

;

8

:

14049

.

Satija
R

,

Farrell
JA

,

Gennert
D

et al.

az egysejtű génexpressziós adatok térbeli rekonstrukciója

.

Nat Biotechnol

.

2015

;

33

:

495

502

.

Pedersen
TL

.

ggraph: a Graphics Grammar Graphics és hálózatok implementációja

.

2018

.

elérhető: https://CRAN.R-project.org/package=ggraph, elérve: május 21, 2018

Wickham
H

.

ggplot2: elegáns grafika Az adatok elemzéséhez

.

New York

:

Springer

;

2010

.

Pedersen
TL

.

tidygraph: a tiszta API gráf manipuláció

.

2018

.

elérhető: https://CRAN.R-project.org/package=tidygraph, elérhető: május 21, 2018

Wilke
CO

.

cowplot: Egyszerűsített telek téma és telek annotációk a ‘ ggplot2.’

.

2018

.

elérhető: https://CRAN.R-project.org/package=cowplot, elérhető: május 21, 2018

Zappia
L

,

Oshlack
a

.

clustree-paper GitHub repository

,

2018

.

elérhető: https://github.com/Oshlack/clustree-paper, hozzáférés május 21, 2018

.

Satija Lab

.

Seurat PBMC3K bemutató

. ;

2018

.

elérhető: https://satijalab.org/seurat/pbmc3k_tutorial.html, május 21, 2018

Blondel
VD

,

Guillaume
J-L

,

Lambiotte
R

et al.

közösségek gyors kibontakozása nagy hálózatokban

.

J Stat Mech

.

IOP Publishing

;

2008

;

2008

:

P10008

.

Zappia
L

,

Oshlack
A

.

clustree: különböző felbontású klaszterek megjelenítése

.

2018

.

elérhető: https://CRAN.R-project.org/package=clustree, elérhető: május 21, 2018

Zappia
L

,

Oshlack
a

.

clustree GitHub repository

. ;

2018

.

elérhető: https://github.com/lazappi/clustree, hozzáférés május 21, 2018

.

Zappia
L

,

Oshlack
A

.

alátámasztó adatok a ” fák Fürtözése: vizualizáció a klaszterek több felbontásban történő értékeléséhez.”

.

GigaScience Adatbázis

.

2018

. .

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.