Clustering trees: a visualization for evaluating clusterings at multiple resoluutions

Abstract

Clustering techniques are well well used in the analysis of large datasets to group together sample property. Esimerkiksi ryhmittelyä käytetään usein yksisoluisen RNA-sekvensoinnin yhteydessä kudosnäytteessä esiintyvien eri solutyyppien tunnistamiseen. Ryhmittelyn suorittamiseen on monia algoritmeja, ja tulokset voivat vaihdella huomattavasti. Erityisesti aineistossa esiintyvien ryhmien määrä on usein tuntematon, ja algoritmin tunnistamien klustereiden määrä voi muuttua käytettyjen parametrien perusteella. Tutkiaksemme ja tutkiaksemme erilaisten ryhmittelytarkkuuksien vaikutusta esittelemme ryhmittelypuita. Tämä visualisointi näyttää klustereiden väliset suhteet useilla resoluutioilla, jolloin tutkijat voivat nähdä, miten näytteet liikkuvat klusterien määrän kasvaessa. Lisäksi metatieto voidaan päällystä puuhun, jolloin saadaan tietoa erottelukyvyn valinnasta ja opastetaan klustereiden tunnistamisessa. Havainnollistamme puiden ryhmittelyn ominaisuuksia simulaatiosarjalla sekä kahdella todellisella esimerkillä, klassisella iiris-aineistolla ja monimutkaisella yksisoluisella RNA-sekvensointiaineistolla. Clustering puita voidaan valmistaa clustree R paketti, saatavilla CRAN ja kehitetty GitHub.

Johdanto

Ryhmittelyanalyysia käytetään yleisesti samankaltaisten näytteiden ryhmittelyyn erilaisissa sovelluksissa. Tyypillisesti ryhmittelyn tavoitteena on muodostaa näytteiden ryhmiä, jotka muistuttavat enemmän toisiaan kuin muiden ryhmien näytteitä. Siinä missä sumeat tai pehmeät ryhmittelyt antavat jokaiselle näytteelle jonkin todennäköisyyden, ja hierarkkinen ryhmittely muodostaa näytepuun, useimmat menetelmät muodostavat kovia klustereita, joissa jokainen näyte on liitetty yhteen ryhmään. Tämä tavoite voidaan saavuttaa useilla eri tavoilla, kuten tarkastelemalla otosten välisiä etäisyyksiä (esim. |$k$|-means, PAM), tiheysalueita aineistossa (esim. DBSCAN) tai suhteita tilastollisiin jakaumiin.

monissa tapauksissa ei tiedetä etukäteen, kuinka monta ryhmää aineistossa pitäisi olla, ja käytettävän klusterin oikean määrän päättäminen on merkittävä haaste. Joillekin algoritmeille, kuten |$K$ / – tarkoittaa ryhmittelyä, klusterien lukumäärä on ilmoitettava erikseen. Muissa menetelmissä on parametrejä, jotka suoraan tai välillisesti säätelevät klusterointiresoluutiota ja siten tuotettujen klustereiden määrää. Vaikka on olemassa menetelmiä ja tilastoja (kuten kyynärpää-menetelmä ja siluetti tontit), joiden tarkoituksena on auttaa analyytikoita päättämään, mitä klusterin resoluutio käyttää, ne tyypillisesti tuottavat yhden pisteet, joka pitää vain yhden joukon näytteitä tai klustereita kerrallaan.

vaihtoehtoinen lähestymistapa olisi tarkastella ryhmittelyjä useilla resoluutioilla ja tutkia, miten näytteet muuttavat ryhmittelyjä klusterien määrän kasvaessa. Tämä on johtanut erilaisiin klusterin vakautta mittaaviin toimenpiteisiin , joista monet perustuvat sekavien tai alinäytteistettyjen aineistojen ryhmittelyyn. Esimerkiksi, model explorer algoritmi subsamples datajoukko useita kertoja, klustereita kunkin subsampled datajoukko eri resoluutioilla, ja sitten laskee samankaltaisuus välillä klusterings samalla resoluutiolla antaa jakauma yhtäläisyyksiä, jotka voivat ilmoittaa valinnan resoluutio . Yksi klusterin stabiilisuuden mitta, joka ei perustu häiriöihin, on SC3-paketin sisältämä aineisto yksisoluisen RNA-sekvensoinnin (scRNA-seq) keräämiseksi . Alkaen klusterimerkinnöistä eri resoluutioilla jokainen klusteri pisteytetään, jolloin klusterit saavat paremman vakauden, jos ne jakavat samat näytteet kuin klusteri toisella resoluutiolla, mutta niitä rangaistaan korkeammalla resoluutiolla.

samanlainen yksinkertainen lähestymistapa on omaksuttu tässä esittelemässämme ryhmittelypuun visualisoinnissa ilman pisteiden laskemista: (i) aineisto ryhmitellään käyttäen mitä tahansa kovaa ryhmittelyalgoritmia useilla resoluutioilla tuottaen klusterisolmukokonaisuuksia; (ii) klusterien päällekkäisyyttä vierekkäisillä resoluutioilla käytetään reunojen muodostamiseen; ja (iii)tuloksena kuvaaja on esitetty puu. Tämän puun avulla voidaan tutkia, miten klusterit liittyvät toisiinsa—mitkä klusterit ovat erillisiä ja mitkä epävakaita. Seuraavissa jaksoissa kuvataan, miten tällainen puu rakennetaan, ja esitellään esimerkkejä perinteisestä ryhmittelyaineistosta ja monimutkaisesta scRNA-seq-aineistosta rakennetuista puista. Tässä esitetyt luvut voidaan tuottaa R käyttäen julkisesti saatavilla olevaa clustree-pakettia. Vaikka ryhmittelypuut eivät voi suoraan tarjota ryhmittelytarkkuutta käytettäväksi, ne voivat olla hyödyllinen työkalu mahdollisten valintojen tutkimiseen ja visualisointiin.

Ryhmittelypuun rakentaminen

ryhmittelypuun rakentaminen aloitetaan ryhmittelyllä ja jaetaan näytteitä ryhmille useilla eri resoluutioilla. Nämä voitaisiin tuottaa millä tahansa kovaksiklusterointialgoritmilla, joka mahdollistaa klustereiden määrän jollain tavalla kontrolloinnin. Esimerkiksi, tämä voisi olla joukko näytteitä ryhmitelty käyttäen / $K$ / – tarkoittaa |$k\,\, = \,\,1,2,3$| kuten kuvassa. 1. Me lajitella nämä klusterings niin, että ne ovat järjestyksessä lisäämällä resoluutio (|$k$|), sitten harkita paria vierekkäisten klusterings. Jokainen klusteri / ${c_{k,\,\, i}}$| (missä / $i\,\, = \,\,1,\,\, \ldots,\,\, n$ / ja / $n$ / on klusterien lukumäärä resoluutiolla |$k$|) verrataan kuhunkin klusteriin / ${c_{K + 1,\,\, j}}$ / (missä / $j\,\, = \,\,1,\,\, \ldots,\,\, m$ / ja / $M$ / on klusterien lukumäärä resoluutiolla / $k + 1$/). Kahden klusterin päällekkäisyys lasketaan niiden näytteiden lukumääränä, joille on annettu sekä |${c_{k,\,\, i}}$| ja |${c_{K + 1,\,\, j}}$|. Seuraavaksi rakennamme kaavion, jossa jokainen solmu on klusteri ja jokainen reuna on päällekkäinen kahden klusterin välillä. Vaikka viittaamme tähän kaavioon puun yksinkertaisuuden vuoksi, sitä voidaan oikeammin kuvata polytreeksi, erikoistapaukseksi suunnatusta asyklisestä kuvaajasta, jossa taustalla oleva suuntaamaton kuvaaja on puu .

Kuva 1:

kuvituskuva vaiheista, joita tarvitaan klusteripuun rakentamiseen. Ensinnäkin aineisto on ryhmiteltävä eri resoluutioilla. Näytteiden päällekkäisyys klusterien välillä vierekkäisillä resoluutioilla lasketaan, ja sitä käytetään laskettaessa kunkin reunan in-suhde. Lopuksi reunat suodatetaan ja kuvaaja visualisoidaan puuksi.

Kuva 1:

kuvituskuva vaiheista, joita tarvitaan klusteripuun rakentamiseen. Ensinnäkin aineisto on ryhmiteltävä eri resoluutioilla. Näytteiden päällekkäisyys klusterien välillä vierekkäisillä resoluutioilla lasketaan, ja sitä käytetään laskettaessa kunkin reunan in-suhde. Lopuksi reunat suodatetaan ja kuvaaja visualisoidaan puuksi.

monet reunat ovat tyhjiä, esim. viikuna. 1 ei näytteitä klusterissa a at / $k\,\, = \,\,2$| päätyä klusteriin B at / $k\,\, = \,\,3$|. Joissakin aineistoissa voi olla myös reunoja, jotka sisältävät vain vähän näytteitä. Nämä reunat eivät ole informatiivisia ja johtavat sekaiseen puuhun. Ilmiselvä ratkaisu epätietoisten, vähämerkityksisten reunojen poistamiseen on suodattaa ne käyttämällä kynnysarvoa niiden edustamien näytteiden määrälle. Tässä tapauksessa näytteiden määrä ei kuitenkaan ole oikea tilastotieto, koska se suosii matalampien resoluutioiden reunoja ja suurempia klustereita yhdistäviä reunoja. Sen sijaan määrittelemme suhteellisuusmittarin reunalla olevien näytteiden määrän ja sen ryppään näytteiden määrän suhteena, jota kohti se menee. Tämä metriikka osoittaa reunan merkityksen korkeamman resoluution klusterille riippumatta klusterin koosta. Voimme sitten soveltaa kynnysarvoa in-suhteessa, jotta voidaan poistaa vähemmän informatiivinen reunat.

lopullinen kaavio voidaan sitten visualisoida. Teoriassa voidaan käyttää mitä tahansa graafin asettelualgoritmia. Kuitenkin, clustree paketti, olemme käyttäneet kahta algoritmeja suunniteltu erityisesti puurakenteita saatavilla igraph paketti . Nämä ovat Reingold-Tilford-puun asettelu , joka asettaa vanhempien solmut lastensa yläpuolelle, ja Sugiyama-asettelu, joka sijoittaa suunnatun asyklisen graafin solmut kerroksittain minimoiden samalla risteävien reunojen määrän . Molemmat algoritmit voivat tuottaa houkuttelevia asetteluja; sellaisenaan emme ole löytäneet tarvetta suunnitella erityistä asettelualgoritmia puiden ryhmittelyyn. Oletusarvon mukaan klustree-paketti käyttää vain reunojen osajoukkoa rakentaessaan asettelua, erityisesti suhteellisesti korkeimpia reunoja kullekin solmulle. Olemme havainneet, että tämä johtaa usein enemmän tulkittavia visualisointeja; käyttäjät voivat kuitenkin halutessaan käyttää kaikkia reunoja.

käytetystä layoutista riippumatta lopullinen visualisointi sijoittaa klusterisolmut sarjaan kerroksia, joissa jokaisella kerroksella on erilainen ryhmittelytarkkuus ja reunat osoittavat näytteiden siirtymisen näiden resoluutioiden läpi. Reunat väritetään niiden edustamien näytteiden määrän mukaan, ja suhteellista metriikkaa käytetään reunojen läpinäkyvyyden säätelyyn korostaen tärkeämpiä reunoja. Oletuksena solmun kokoa säädetään klusterissa olevien näytteiden määrän mukaan, ja niiden väri kertoo klusterointiresoluution. Clustree-paketti sisältää myös vaihtoehtoja solmujen estetiikan hallitsemiseksi niiden edustamissa klustereissa olevien näytteiden attribuuttien perusteella, kuten seuraavat esimerkit osoittavat.

vaikka ryhmittelypuu on käsitteellisesti samanlainen kuin hierarkkisella ryhmittelyllä tuotettu puu, siinä on joitakin merkittäviä eroja. Ilmeisimmät ovat, että hierarkkinen ryhmittelypuu on tietyn ryhmittelyalgoritmin tulos ja osoittaa yksittäisten näytteiden väliset suhteet, kun taas tässä kuvatut ryhmittelypuut ovat riippumattomia klusterointimenetelmästä ja osoittavat klustereiden välisiä suhteita. Hierarkkisen puun oksista näkyy, miten klusterointialgoritmi on yhdistänyt näytteitä. Sen sijaan klusterointipuun reunat näyttävät, miten näytteet liikkuvat klustereiden välillä, kun resoluutio muuttuu ja solmuilla voi olla useita vanhempia. Vaikka tietoa näytteistä on mahdollista päällystää hierarkkisessa puussa, tätä ei yleensä tehdä, vaan se on keskeinen ominaisuus klustreenipaketissa ja miten klusterointia voitaisiin käytännössä käyttää.

demonstraatio simulaatioilla

sen osoittamiseksi, miltä ryhmittelypuu voi näyttää eri tilanteissa ja miten se käyttäytyy, kun aineisto on yliklusteroitu, esitämme joitakin havainnollistavia esimerkkejä yksinkertaisilla simulaatioilla (KS.menetelmät). Esitämme viisi skenaariota: satunnainen yhtenäinen melu (simulaatio A), yksi klusteri (simulaatio B), kaksi klusteria (simulaatio C), kolme klusteria (simulaatio D) ja neljä klusteria (simulaatio E). Jokainen klusteri koostuu 1000 näytteestä (pisteestä), jotka on tuotettu 100-ulotteisesta normaalijakaumasta, ja jokainen synteettinen aineisto on ryhmitelty käyttäen |$K$ / – tarkoittaa ryhmittelyä / $k\,\, = \,\,1,\,\, \ldots, 8$/. Tämän jälkeen käytämme clustree-pakettia tuottaaksemme klusterointipuita kullekin aineistolle (Kuva. 2).

kuva 2:

viisi synteettistä aineistoa, joilla havainnollistetaan puiden ryhmittelyä. Kunkin aineiston osalta esitetään kahden ensimmäisen pääkomponentin hajontakaavio, oletuspuu ja ryhmittelypuu, joiden solmut on väritetty SC3: n stabiilisuusindeksillä violetista (alimmasta) keltaiseen (ylimmästä). Nämä viisi aineistoa sisältävät: (A) satunnaisen yhtenäisen kohinan, (B) yhden klusterin, (c) kaksi klusteria, (d) kolme klusteria ja (E) neljä klusteria.

kuva 2:

viisi synteettistä aineistoa, joilla havainnollistetaan puiden ryhmittelyä. Kunkin aineiston osalta esitetään kahden ensimmäisen pääkomponentin hajontakaavio, oletuspuu ja ryhmittelypuu, joiden solmut on väritetty SC3: n stabiilisuusindeksillä violetista (alimmasta) keltaiseen (ylimmästä). Nämä viisi aineistoa sisältävät: (A) satunnaisen yhtenäisen kohinan, (B) yhden klusterin, (c) kaksi klusteria, (d) kolme klusteria ja (E) neljä klusteria.

tarkasteltaessa kahta ensimmäistä esimerkkiä (yhtenäinen kohina ja yksi klusteri ), voimme selvästi nähdä, miten klusterointipuu käyttäytyy, kun klusterointialgoritmi palauttaa enemmän klustereita kuin ovat todella läsnä aineistossa. Uusia klustereita alkaa muodostua useista olemassa olevista klustereista, ja monet näytteet vaihtuvat puun oksien välillä, mikä johtaa pieniin reunoihin. Epävakaat klusterit voivat myös näkyä ja sitten kadota, kun resoluutio kasvaa, kuten kuvassa. 2E. kun lisäämme aineistoihin lisää rakennetta, ryhmittelevät puut alkavat muodostaa selkeitä oksia ja pienet suhteessa olevat reunat rajoittuvat yleensä puun osiin. Tarkastelemalla, mitkä klusterit ovat vakaita ja missä syntyy pieniä reunoja, voimme päätellä, mitkä puun alueet ovat todennäköisesti seurausta todellisista klustereista ja mitkä johtuvat yliklusteroinnista.

kunkin aineiston toisessa ryhmittelypuussa on kunkin klusterin SC3-stabiilisuusindeksin mukaisesti väritettyjä solmuja. Kuten odotimmekin, mikään klusteri ei saa korkeaa stabiiliutta kahdessa ensimmäisessä esimerkissä. Vaikka näemme selvästi kaksi oksaa kahden klusterin esimerkissä (simulaatio C), tämä ei näy SC3-pisteissä. Mikään klusteri ei saa suurta stabiiliutta, mikä johtuu todennäköisesti siitä, että klusterien välillä liikkuu suuri määrä näytteitä erotuskyvyn kasvaessa. Kun simuloiduissa aineistoissa on enemmän todellisia klustereita, SC3: n stabiilisuuspisteet ennustavat paremmin käytettävää oikeaa resoluutiota. On kuitenkin tärkeää tarkastella kaikkien klusterien stabiilisuuspisteitä tietyllä resoluutiolla, koska korkeimman yksittäisen klusterin stabiilisuuspisteen ottaminen voi johtaa virheellisen resoluution käyttöön, kuten voidaan nähdä neliklusterisessa esimerkissä (simulaatio E). Nämä esimerkit osoittavat, miten klusterointipuita voidaan käyttää nykyisten klusterointimittareiden näyttämiseen tavalla, joka voi auttaa ilmoittamaan parametrivalinnoista.

yksinkertainen esimerkki

havainnollistaa tarkemmin, miten klusteripuu on rakennettu, työstämme esimerkin käyttäen klassista iris-aineistoa . Tämä aineisto sisältää mittaukset sepal pituus, sepal leveys, terälehti pituus, ja terälehti leveys 150 iiris kukkia, 50 kunkin kolmen lajin: Iris setosa, Iris versicolor, ja Iris virginica. Iris-aineistoa käytetään yleisesti esimerkkinä sekä ryhmittelyongelmista että luokitteluongelmista I. setosa-näytteet eroavat merkittävästi muista näytteistä ja ovat lineaarisesti erotettavissa niistä. We have clustered this dataset using / $K$ / – means clustering with / $k\,\, = \,\,1,\,\, \ldots, 5$ / ja tuotti klusterin puu kuvassa. 3A.

kuva 3:

puiden ryhmittely perustuu / $K$ / – tarkoittaa iiris-aineiston ryhmittelyä. (A) solmut ovat värillisiä arvon |$k$| mukaan ja mitoitettu näytteiden lukumäärän mukaan ne edustavat. Reunat värjätään näytteiden lukumäärän mukaan (sinisestä muutamaa edustavasta keltaiseen edustaen monia). Läpinäkyvyyttä säädetään suhteessa, jolloin vahvemmilla viivoilla näkyvät reunat, jotka ovat tärkeämpiä korkeamman resoluution klusterille. Klusterimerkinnät määritetään satunnaisesti |$k$ / – – menetelmän algoritmilla. (B) sama puu solmun väritys muuttunut näyttää keskimääräinen terälehti pituus näytteiden kussakin klusterissa.

kuva 3:

puiden ryhmittely perustuu / $K$ / – tarkoittaa iiris-aineiston ryhmittelyä. (A) solmut ovat värillisiä arvon |$k$| mukaan ja mitoitettu näytteiden lukumäärän mukaan ne edustavat. Reunat värjätään näytteiden lukumäärän mukaan (sinisestä muutamaa edustavasta keltaiseen edustaen monia). Läpinäkyvyyttä säädetään suhteessa, jolloin vahvemmilla viivoilla näkyvät reunat, jotka ovat tärkeämpiä korkeamman resoluution klusterille. Klusterimerkinnät määritetään satunnaisesti |$k$ / – – menetelmän algoritmilla. (B) sama puu solmun väritys muuttunut näyttää keskimääräinen terälehti pituus näytteiden kussakin klusterissa.

näemme, että yksi puun haara on selvästi erillinen (oletettavasti edustaa I. setosa), pysyy muuttumattomana riippumatta klusterien lukumäärästä. Toisella puolella näemme, että klusterin |$k\,\, = \,\,2$| siististi jakautuu kahteen klustereita (oletettavasti I. versicolor ja I. virginica) at / $k\,\, = \,\,3$|. Kuitenkin, kun siirrymme / $k\,\, = \,\,4$| ja / $k\,\, = \,\,5$|, näemme rykelmiä muodostuvan useista haaroista, joissa on matalampia reunoja. Kuten olemme nähneet simuloiduissa esimerkeissä, tällainen kuvio voi viitata siihen, että data on yliklusteroitunut ja olemme alkaneet ottaa käyttöön keinotekoisia ryhmittymiä.

voimme tarkistaa oletuksemme, että erillinen haara edustaa I. setosan näytteitä ja että kaksi muuta klusteria at / $k\,\, = \,\,3$| ovat I. versicolor ja I. virginica peittämällä joitakin tunnettuja tietoja näytteistä. Kuvassa. 3B olemme värjänneet solmut keskimääräinen terälehden pituus näytteiden ne sisältävät. Voimme nyt nähdä, että klustereita erillinen haara on lyhin terälehdet, klusterin 1 at / $k\,\, = \,\,3$| joiden välipituus ja klusterin 3 ottaa pisin terälehdet. Tämän ominaisuuden tiedetään erottavan näytteet oletettuihin lajeihin; I. setosalla on keskimäärin lyhimmät terälehdet, I. versicolorilla keskimittainen pituus ja I. virginicalla pisin.

vaikka tämä on hyvin yksinkertainen esimerkki, se korostaa joitakin ryhmittelevän puun katselun etuja. Saamme viitteitä oikeasta ryhmittelytarkkuudesta tutkimalla reunoja, ja voimme päällystää tunnettuja tietoja ryhmittelyn laadun arvioimiseksi. Jos esimerkiksi huomaisimme, että kaikilla ryppäillä oli sama keskimääräinen terälehden pituus, se viittaisi siihen, että ryhmittely ei ole onnistunut, koska tiedämme, että tämä on tärkeä ominaisuus, joka erottaa lajit toisistaan. Voisimme mahdollisesti oppia lisää tarkastelemalla, mitkä näytteet noudattavat pienen osuuden reunoja tai asettamalla useita ominaisuuksia päällekkäin yrittääksemme ymmärtää, mikä aiheuttaa tiettyjen klustereiden jakautumisen.

Scrna-seq-tietojen ryhmittely

yksi ala, jossa on alettu käyttää runsaasti ryhmittelytekniikoita, on scRNA-seq-tietojen analysointi. scRNA-sekvensointi on hiljattain kehitetty tekniikka, jolla voidaan mitata, miten geenit ilmaistaan tuhansissa miljoonissa yksittäisissä soluissa . Tämä tekniikka on otettu nopeasti käyttöön kehitysbiologian ja immunologian kaltaisilla aloilla, joilla on arvokasta saada tietoa yksittäisistä soluista sen sijaan, että mittauksia laskettaisiin keskimäärin näytteessä olevista monista eri soluista käyttäen vanhempia RNA-seq-teknologioita. ScRNA-seq: n keskeinen käyttötarkoitus on löytää ja kuulustella monimutkaisen kudoksen näytteessä olevia eri solutyyppejä. Tässä tilanteessa ryhmittelyä käytetään tyypillisesti samankaltaisten solujen ryhmittelyyn niiden geeniekspressioprofiilien perusteella. Ryhmien välisten geeniekspressioerojen avulla voidaan sitten päätellä näiden solujen identiteetti tai toiminta . ScRNA-seq-aineistossa olevien solutyyppien (klusterien) määrä voi vaihdella riippuen tutkittavasta kudoksesta, sen kehitys-tai ympäristötilasta ja kerättyjen solujen määrästä. Usein solutyyppien määrää ei tiedetä ennen tietojen tuottamista, ja joissakin näytteissä voi olla kymmeniä klustereita. Siksi päättää, mitä klusterin resoluutio käyttää on tärkeä näkökohta tässä sovelluksessa.

esimerkkinä siitä, miten ryhmittelypuita voidaan käyttää scRNA-seq-kontekstissa, pidämme yleisesti käytettyä perifeerisen veren mononukleaarisoluaineistoa (pbmc). Tämä aineisto on alun perin tuotettu 10x Genomics ja sisältää 2700 ääreisveren mononukleaarisoluja, jotka edustavat useita hyvin tutkittu immuunisolutyyppejä . Analysoimme tämän aineiston käyttämällä Seurat-pakettia, joka on yleisesti käytetty työkalupakki scRNA-seq-analyysiin, noudattaen opetusohjelman ohjeita lukuun ottamatta ryhmittelyn erotusparametrin vaihtelua nollasta 5: een (KS.menetelmät). Seurat käyttää graafipohjaista klusterointialgoritmia, ja resoluutioparametri ohjaa tämän kuvaajan osiointia, jolloin korkeammat arvot johtavat useampiin klustereihin. Tämän analyysin tuloksena saadut klusteripuut on esitetty kuvassa. 4.

Kuva 4:

kaksi ryhmittelypuuta 2700 Pbmc: n aineistosta. (A) tulokset ryhmittelystä käyttäen Seurat resoluutio parametrit nollasta 1. 0,1: n resoluutiolla nähdään neljän päähaaran muodostuminen, joista yksi jatkaa jakaantumistaan 0,4: n resoluutioksi, minkä jälkeen on vain pieniä muutoksia. B) päätöslauselmat nollasta viiteen. Korkeimmilla resoluutioilla alamme nähdä monia pieniä suhteessa olevia reunoja, mikä viittaa klusterin epävakauteen. Seurat luokittelevat klustereita niiden koon mukaan, joista klusteri 0 on suurin.

Kuva 4:

kaksi ryhmittelypuuta 2700 Pbmc: n aineistosta. (A) tulokset ryhmittelystä käyttäen Seurat resoluutio parametrit nollasta 1. 0,1: n resoluutiolla nähdään neljän päähaaran muodostuminen, joista yksi jatkaa jakaantumistaan 0,4: n resoluutioksi, minkä jälkeen on vain pieniä muutoksia. B) päätöslauselmat nollasta viiteen. Korkeimmilla resoluutioilla alamme nähdä monia pieniä suhteessa olevia reunoja, mikä viittaa klusterin epävakauteen. Seurat luokittelevat klustereita niiden koon mukaan, joista klusteri 0 on suurin.

clustering puu kattaa päätöslauselmat nollasta 1 portaissa 0,1 (Kuva. 4A) osoittaa, että neljä päähaaraa muodostavat vain 0,1: n tarkkuudella. Yksi näistä haaroista, joka alkaa klusterista 3 resoluutiolla 0,1, pysyy muuttumattomana, kun taas klusterista 2 alkava haara jakautuu vain kerran resoluutiolla 0,4. Suurin osa haarautumisesta tapahtuu ryppäästä 1 alkavassa haarassa, jonka alihaarat jakautuvat jatkuvasti muodostaen uusia klustereita erotuskyvyn kasvaessa. Tässä puussa on kaksi vakauden aluetta-päätöslauselmassa 0,4 – 0,5 ja päätöslauselmassa 0,7–1,0, jossa klusterista 0 alkava haara jakautuu kahtia.

Kuva. 4B näyttää ryhmittelypuun, jossa on suurempi resoluutioalue, nollasta 5: een 0,5: n portaissa. Tarkastelemalla tätä aluetta voimme nähdä, mitä tapahtuu, kun algoritmin on pakko tuottaa enemmän klustereita kuin todennäköisesti on todella läsnä tässä aineistossa. Kun yliklusterointi tapahtuu, alamme nähdä enemmän pieniä suhteessa reunoja ja uusia klustereita, jotka muodostuvat useista emoryppäistä. Tämä viittaa siihen, että nämä puun alueet ovat epävakaita ja että muodostumassa olevat uudet klusterit eivät todennäköisesti edusta todellisia ryhmiä aineistossa.

tunnettuja merkkigeenejä käytetään yleisesti niiden solutyyppien tunnistamiseen, joita tietyt klusterit vastaavat. Geeniekspressiotiedon asettaminen päällekkäin ryhmittelypuuhun tarjoaa vaihtoehtoisen näkemyksen, joka voi auttaa osoittamaan, milloin puhtaita solupopulaatioita sisältäviä klustereita muodostuu. Kuvassa 5 on Pbmc-ryhmittelypuu viikuna. 4A päällekkäin joidenkin tunnettujen merkkigeenien ilmentymisen kanssa.

kuva 5:

Pbmc-aineiston Ryhmittelypuut väritetty tunnettujen merkkiaineiden ilmaisun mukaan. Solmuvärit kertovat kunkin klusterin näytteiden log2-geenimäärien keskiarvon. CD19 (A) tunnistaa B-soluja, CD14 (B) näyttää monosyyttipopulaation, CD3D (C) on T-solujen markkeri ja CCR7 (D) osoittaa muistin ja naiivien CD4 T-solujen jakautumisen.

kuva 5:

Pbmc-aineiston Ryhmittelypuut väritetty tunnettujen merkkiaineiden ilmaisun mukaan. Solmuvärit kertovat kunkin klusterin näytteiden log2-geenimäärien keskiarvon. CD19 (A) tunnistaa B-soluja, CD14 (B) näyttää monosyyttipopulaation, CD3D (C) on T-solujen markkeri ja CCR7 (D) osoittaa muistin ja naiivien CD4 T-solujen jakautumisen.

lisäämällä nämä lisätiedot voimme nopeasti tunnistaa joitakin solutyyppejä. CD19 (Kuva. 5A) on B-solujen merkkiaine, joka ilmenee selvästi puun selkeimmässä haarassa. CD14 (Kuva. 5B) on erään monosyyttityypin merkkiaine, joka ilmenee enemmän seuratessamme yhtä keskushaaraa, jolloin voimme nähdä, mikä resoluutio tunnistaa näiden solujen puhtaan populaation. CD3D (Kuva. 5C) on T-solujen yleinen markkeri ja se ilmaistaan kahtena erillisenä haarana, joista toinen jakautuu ccr7: n matalaan ja korkeaan ilmentymään (Kuva. 5D), erottaen muistin ja naiivit CD4 T-solut. Lisäämällä tunnettujen geenien ilmentymistä ryhmittelypuuhun voimme nähdä, voidaanko useampia populaatioita tunnistaa, kun klusterointiresoluutio kasvaa ja jos klusterit ovat yhdenmukaisia tunnetun biologian kanssa. Suurimmassa osassa Seuratutoriaalia käytetään 0,6: n resoluutiota, mutta kirjoittajat huomauttavat, että siirtymällä 0,8: n resoluutioon voidaan saavuttaa jako muistin ja naiivien CD4 T-solujen välillä. Tämä on split, joka voitaisiin ennakoida katsomalla klusterointi puu lisäämällä ennakkotietoja.

Keskustelu

samankaltaisten otosten ryhmittely ryhmiksi on monella alalla hyödyllinen tekniikka, mutta usein analyytikot joutuvat kinkkisen ongelman eteen päätettäessä, mitä ryhmittelytarkkuutta käytetään. Perinteisissä lähestymistavoissa tähän ongelmaan tarkastellaan yleensä yhtä klusteria tai otosta kerrallaan, ja ne voivat perustua otosmerkintöjen aikaisempaan tuntemukseen. Tässä, esittelemme clustering trees, vaihtoehtoinen visualisointi, joka näyttää suhteet clusterings useita päätöslauselmia. Vaikka ryhmittelypuut eivät voi suoraan ehdottaa, mitä ryhmittelyresoluutiota käytetään, ne voivat olla hyödyllinen työkalu kyseisen päätöksen tekemisessä, erityisesti kun ne yhdistetään muihin mittareihin tai toimialueen tietoihin.

Ryhmittelypuut näyttävät, miten klusterit jakaantuvat erotuskyvyn kasvaessa, mitkä klusterit ovat selvästi erillisiä ja toisistaan erillisiä, jotka liittyvät toisiinsa ja miten näytteet vaihtavat ryhmiä sitä mukaa, kun klustereita syntyy lisää. Vaikka ryhmittelypuut voivat näyttää samanlaisilta kuin hierarkkisessa ryhmittelyssä tuotetut puut, on useita merkittäviä eroja. Hierarkkinen ryhmittely tarkastelee yksittäisten otosten välisiä suhteita eikä tarjoa itsestään selvää tapaa muodostaa ryhmiä. Sitä vastoin ryhmittelypuut ovat riippumattomia mistään tietystä ryhmittelymenetelmästä, ja ne osoittavat ryppäiden väliset suhteet näytteiden sijaan eri resoluutioilla, joista mitä tahansa voitaisiin käyttää jatkotutkimuksiin.

esitimme joukon simulaatioita ja kaksi esimerkkiä todellisista analyyseistä, joista toinen perustui klassiseen iris-aineistoon ja toinen monimutkaiseen scRNA-seq-aineistoon. Molemmat esimerkit osoittavat, miten ryhmittelypuu voi auttaa päättämään, mitä resoluutiota käytetään, ja miten lisätiedon päällekkäisyys voi auttaa vahvistamaan klustereita. Tämä on erityisen hyödyllistä scRNA-seq-analyysissä, koska nämä tietojoukot ovat usein suuria, meluisia ja sisältävät tuntemattoman määrän solutyyppejä tai klustereita.

silloinkin, kun klusterien määrä ei ole ongelma, puiden ryhmittely voi olla arvokas työkalu. Ne tarjoavat kompaktin, informaatiotiheän visualisoinnin, joka voi näyttää tiivistettyä tietoa eri klustereissa. Muokkaamalla klusterisolmujen ulkonäköä niiden edustamien näytteiden ominaisuuksien perusteella voidaan klustereita arvioida ja klustereiden identiteettejä määrittää. Ryhmittelypuita voidaan käyttää monilla aloilla,ja tulevaisuudessa niitä voidaan mukauttaa joustavammiksi esimerkiksi sumeisiin ryhmittelyihin. Voidaan käyttää myös yleisempiä ryhmittelykaavioita, joilla yhdistetään useiden parametrien tai ryhmittelymenetelmien tuloksia.

menetelmät

clustree

clustree-ohjelmistopaketti (v0.2.0) on rakennettu R-tilastoohjelmointikielelle (v3.5.0). Se perustuu ggraph-pakettiin (v1.0.1) , joka on rakennettu ggplot2 (v2.2.1) ja tidygraph (v1.1.0) – paketeille. Ryhmittelypuut näytetään käyttäen Reingold-Tilford-puun asettelua tai Sugiyama-asettelua; molemmat ovat saatavilla osana igraph-pakettia (v1. 2.1).

tässä esitetyt Kuvapaneelit on valmistettu cowplot-paketilla (v0. 9 .2).

simulaatiot

simuloidut tietokokonaisuudet muodostettiin generoimalla pisteitä tilastollisista jakaumista. Ensimmäinen simulaatio (simulaatio a) koostuu 1 000 pisteestä, jotka on satunnaisesti luotu 100-ulotteisesta avaruudesta käyttäen yhtenäistä jakaumaa nollan ja 10: n välillä. Simulaatio B koostuu yhdestä normaalisti jakautuneesta 1000 pisteen ryppäästä 100 ulottuvuudessa. Tämän klusterin keskipiste valittiin normaalijakaumasta, jonka keskiarvo on nolla ja keskihajonta 10. Tämän keskuksen ympärille syntyi pisteitä normaalijakaumasta, jonka keskiarvo on yhtä suuri kuin keskipiste ja keskihajonta 5. Loput kolme simulaatiota tuotettiin lisäämällä klustereita. Jotta klustereiden välillä olisi tunnettu suhde, luotiin uusien klustereiden keskus manipuloimalla olemassa olevien klusterien keskuksia. Klusterin 2 osalta normaalijakaumasta, jonka keskiarvo on nolla ja keskihajonta 2, syntyi satunnainen 100-ulotteinen vektori, joka lisättiin klusterin 1 keskipisteeseen. Keskus 3 oli keskusten 1 ja 2 keskiarvo sekä satunnaisvektori normaalijakaumasta, jonka keskiarvo on nolla ja keskihajonta 5. Jotta klustereiden 3 ja 4 välinen suhde olisi samanlainen kuin klustereiden 1 ja 2 välillä, saatiin aikaan keskus 4 lisäämällä puolet vektorista, jota käytettiin tuottamaan keskus 2: sta keskukseen 3 sekä toinen vektori normaalijakaumasta, jonka keskiarvo on nolla ja keskihajonta 2. Pisteitä kullekin klusterin luotiin samalla tavalla kuin klusterin 1. Simulaatio C koostuu klustereiden 1 ja 2 pisteistä; simulaatio D koostuu klustereista 1, 2 ja 3; simulaatio e koostuu klustereista 1, 2, 3 ja 4. Jokainen simuloitu tietojoukko ryhmitettiin käyttäen stats-paketin ”kmeans” – funktiota, jonka arvot ovat |$K$| 1: stä 8: aan, enintään 100 iteraatiota ja 10 satunnaista aloituspaikkaa. Clustering tree-visualisoinnit tuotettiin käyttämällä clustree-pakettia puun asettelulla. Simuloidut tietokokonaisuudet ja niiden tuottamiseen käytetty koodi ovat saatavilla tämän artikkelin arkistosta .

Iris-aineisto

iris-aineisto on saatavilla osana R: ää. Olemme ryhmitelty tämän aineiston käyttäen” kmeans ” funktio tilastot paketti arvot |$K$| 1-5. Jokainen arvo / $K$ / oli ryhmitelty enintään 100 iteraatiota ja 10 satunnaista aloituspaikkaa. Clustree-pakettia käytettiin tulosten visualisointiin Sugiyama-asettelun avulla. Clustered iris-aineisto on saatavilla osana clustree-pakettia.

PBMC-tietokokonaisuus

Pbmc-tietokokonaisuus ladattiin Seurat tutorial-sivulta , ja tätä opetusohjelmaa seurattiin suurimman osan analyysistä käyttäen Seuratin versiota 2.3.1. Lyhyesti solut suodatettiin niiden ilmentämien geenien lukumäärän ja mitokondrioiden geeneille osoitettujen määrien prosenttiosuuden perusteella. Tämän jälkeen aineistosta tunnistettiin log-normalized ja 1 838 muuttuvaa geeniä. Potentiaaliset sekoittavat muuttujat (yksilöllisten molekyylitunnisteiden lukumäärä ja mitokondrioiden ilmentymisprosentti) taantuivat aineistosta ennen pääkomponenttianalyysin tekemistä tunnistetuista muuttuvista geeneistä. Ensimmäiset 10 pääkomponenttia käytettiin sitten rakentamaan kaavio, joka jaettiin klustereihin käyttäen Louvainin modulaarista optimointia, jonka resoluutio parametrit ovat välillä nolla-5, vaiheissa 0,1 välillä nolla-1, ja sitten vaiheissa 0,5. Clustreen avulla tulokset visualisoitiin puun asettelun avulla.

lähdekoodin saatavuus ja vaatimukset

Projektin nimi: clustree.

projektin kotisivut: https://github.com/lazappi/clustree.

käyttöjärjestelmät: Linux, MacOS, Windows

ohjelmointikieli: R (> = 3.4)

muut vaatimukset: Ei

License: GPL-3

mitään rajoituksia ei-akateemisten käyttöön:Ei

RRID: SCR_016293

tukitietojen saatavuus

clustree-paketti on saatavilla CRANISTA ja sitä kehitetään GitHubissa . Tässä esitettyyn analyysiin käytetyt koodit ja aineistot ovat saatavilla myös Githubista . Clustered iris-tietokokonaisuus sisältyy clustreen, ja pbmc-tietokokonaisuus on ladattavissa Seurat-opetussivulta tai paper GitHub-arkistosta. Tilannekuvia koodista on saatavilla GigaScience repository, GigaDB .

lyhenteet

pbmc: perifeerinen veren mononukleaarisolu; scRNA-seq: yksisoluinen RNA-sekvensointi.

kilpailevat intressit

tekijät ilmoittavat, ettei heillä ole kilpailevia intressejä.

rahoitusta

L. Z. tukee Australian hallituksen Tutkijakoulutusohjelman stipendi. A. O. saa tukea National Health and Medical Research Council Career Development Fellowshipin kautta (APP1126157). Murdoch Children ’ s Research Institute tukee Victorian hallituksen Operational Infrastructure Support Program.

Tekijäosuudet

L. Z. suunnitteli clustering tree-algoritmin, kirjoitti clustree-ohjelmistopaketin ja laati käsikirjoituksen. A. O. valvoi projektia ja kommentoi käsikirjoitusta.

kiitokset

Kiitos Marek Cmerolle kommentista käsikirjoitusluonnokseen ja arvostelijoille kommenteista ja ehdotuksista.

Forgy
me

.

monimuuttujatietojen klusterianalyysi: luokitusten tehokkuus vs. tulkittavuus

.

biometriikka

.

1965

;

21

:

768

9

.

Macqueen
J

.

eräät monimuuttujahavaintojen luokittelu-ja analyysimenetelmät

.

5th Berkeley Symposium on Mathematical Statistics and Probability

,

1967

.

Lloyd
S

.

pienimmän neliösumman kvantisointi PCM: ssä

.

IEEE Trans Inf-teoria

.

1982

;

28

:

129

37

.

Kaufman
L

,

Rousseeuw
PJ

.

osiointi Medoidien ympärillä (ohjelma PAM). Ryhmien löytäminen tiedoista

,

New Jersey, USA

.

John Wiley & Sons, Inc

.

1990

. PP.

68

125

.

Ester
M

,

Kriegel
H-P

,

Sander
J

, et al.

tiheyspohjainen algoritmi klustereiden löytämiseen suurista spatiaalisista tietokannoista, joiden kohina on

.

Proceedings of The Second International Conference on Knowledge Discovery and Data Mining

.

Portland, Oregon

:

Aaai Press

;

1996

. PP.

226

31

..

saatavilla

:

Fraley
C

,

Raftery
AE

.

mallipohjainen ryhmittely, diskriminanttianalyysi ja tiheyden estimointi

.

J Am Stat Assoc

.

2002

;

97

:

611

31

.

Thorndike
RL

.

kuka kuuluu sukuun?

.

Psykometrika

.

1953

;

18

:

267

76

.

Rousseeuw
PJ

.

Silhouettes: a graphical aid to the interpretation and validation of cluster analysis

.

J Comput Appl Math

.

1987

;

20

:

53

65

.

Luxburg
U von

.

Clustering stability: an overview

.

koneoppimisen perusteet ja suuntaukset

.

2010

;

2

:

235

74

.

Ben-Hur
A

,

Elisseeff
A

,

Guyon
I

.

stabiilisuuteen perustuva menetelmä rakenteen löytämiseksi ryhmitetyistä tiedoista

.

Pac Symp Biokomput

.

2002

,

7

;

6

17

.

Kiselev
vy

,

Kirschner
K

,

Schaub
MT

et al.

SC3: consensus clustering of single-cell RNA-seq data

.

Nat-Menetelmät

.

2017

;

14

:

483

6

.

Rebane
G

,

Helmi
J

.

kausaalisten poljinten talteenotto tilastotiedoista

.

2013

;

Available from: http://arxiv.org/abs/1304.2736, Accessed touko 16, 2018

.

Csardi
G

,

Nepusz
T

.

igraph-ohjelmistopaketti monimutkaiseen verkkotutkimukseen

.

Inter Journal Complex Systems

.

2006

;

1695

:

1

9

.

Reingold
EM

,

Tilford
JS

.

siistimmät piirrokset puista

.

IEEE Trans Software Eng

.

1981

;

SE-7

:

223

8

.

Sugiyama
K

,

Tagawa
S

,

Toda
M

.

hierarkkisten järjestelmärakenteiden visuaalisen ymmärtämisen menetelmät

.

IEEE Trans Syst Man Cybern

.

1981

;

11

:

109

25

.

Anderson
E

.

Gaspen niemimaan iirikset

.

Bulletin of the American Iris Society

.

1935

;

59

:

2

5

.

Fisher
RA

.

useiden mittausten käyttö taksonomisissa ongelmissa

.

Ann Eugen

.

1936

;

7

:

179

88

.

Tang
F

,

Barbacioru
C

,

Wang
Y

, et al.

mRNA-seq yhden solun kokonaistranskriptomi

.

Nat-Menetelmät

.

2009

;

6

:

377

82

.

Stegle
O

,

Teichmann
SA

,

Marioni
JC

.

yksisoluisen transkriptomiikan Laskennalliset ja analyyttiset haasteet

.

Nat Rev Genet

.

2015

;

16

:

133

45

.

Zheng
GXY

,

Terry
JM

,

Belgrader
P

, et al.

Massively parallel digital transkriptional profilointi of single cells

.

Nat Commun

.

2017

;

8

:

14049

.

Satija
R

,

Farrell
ja

,

Gennert
D

, et al.

yksisoluisen geenin ekspressioaineiston spatiaalinen rekonstruktio

.

Nat Biotechnol

.

2015

;

33

:

495

502

.

Pedersen
TL

.

ggraph: graafien ja verkkojen kieliopin toteutus

.

2018

.

Available from: https://CRAN.R-project.org/package=ggraph, Accessed 21 May, 2018

Wickham
H

.

ggplot2: elegantti grafiikka tietojen analysointiin

.

New York

:

Springer

;

2010

.

Pedersen
TL

.

tidygraph: a Tidy API for Graph Manipulation

.

2018

.

Available from: https://CRAN.R-project.org/package=tidygraph, Accessed touko 21, 2018

Wilke
CO

.

navetta: Virtaviivainen Juoniteema ja Juonihuomautukset ” ggplot2.’

.

2018

.

Available from: https://CRAN.R-project.org/package=cowplot, Accessed touko 21, 2018

Zappia
L

,

Oshlack
a

.

clustree-paper GitHub repository

,

2018

.

Available from: https://github.com/Oshlack/clustree-paper, Accessed touko 21, 2018

.

Satija Lab

.

Seurat PBMC3K Tutorial

. ;

2018

.

saatavilla: https://satijalab.org/seurat/pbmc3k_tutorial.html, Accessed touko 21, 2018

Blondel
VD

,

Guillaume
J-L

,

Lambiotte
R

, et al.

yhteisöjen nopea avautuminen suurissa verkoissa

.

J Stat Mech

.

IOP Publishing

;

2008

;

2008

:

P10008

.

Zappia
L

,

Oshlack
A

.

clustree:visualisoi Clusterings eri resoluutioilla

.

2018

.

Available from: https://CRAN.R-project.org/package=clustree, Accessed touko 21, 2018

Zappia
L

,

Oshlack
a

.

clustree GitHub repository

. ;

2018

.

Available from: https://github.com/lazappi/clustree, Accessed touko 21, 2018

.

Zappia
L

,

Oshlack
A

.

Supporting data for ”Clustering trees: a visualization for evaluating clusterings at multiple resoluutions.”

.

GigaScience-Tietokanta

.

2018

. .

Vastaa

Sähköpostiosoitettasi ei julkaista.