Klaszteranalízis elvégzése és értelmezése

mi a klaszteranalízis?

a klaszterelemzés egy feltáró elemzés, amely megpróbálja azonosítani az adatokon belüli struktúrákat. A klaszterelemzést szegmentációs elemzésnek vagy taxonómiai elemzésnek is nevezik. Pontosabban megpróbálja azonosítani az esetek homogén csoportjait, ha a csoportosítás korábban nem ismert. Mivel feltáró jellegű, nem tesz különbséget függő és független változók között. Az SPSS által kínált különböző klaszterelemzési módszerek képesek kezelni a bináris, nominális, ordinális és skála (intervallum vagy Arány) adatokat.

a Klaszteranalízist gyakran használják más elemzésekkel (például diszkriminánsanalízissel) együtt. A kutatónak képesnek kell lennie a klaszterelemzés értelmezésére az adatok megértése alapján annak megállapítására, hogy az elemzés által előállított eredmények valóban értelmesek-e.

tipikus kutatási kérdések a klaszterelemzés válaszai a következők:

  • orvostudomány-mik a diagnosztikai klaszterek? A kérdés megválaszolásához a kutató diagnosztikai kérdőívet dolgozna ki, amely magában foglalja a lehetséges tüneteket (például pszichológiában, szorongásban, depresszióban stb.). A klaszterelemzés ezután azonosíthatja a hasonló tünetekkel rendelkező betegcsoportokat.
  • Marketing-melyek az ügyfélszegmensek? A kérdés megválaszolásához egy piackutató felmérést végezhet, amely lefedi az ügyfelek igényeit, attitűdjeit, demográfiai adatait és viselkedését. A kutató ezután felhasználhatja a klaszterelemzést a hasonló igényekkel és attitűdökkel rendelkező ügyfelek homogén csoportjainak azonosítására.
  • Oktatás-melyek azok a diákcsoportok, amelyek különös figyelmet igényelnek? A kutatók mérhetik a pszichológiai, alkalmassági és teljesítményjellemzőket. A klaszterelemzés ezután azonosíthatja, hogy milyen homogén csoportok léteznek a hallgatók körében (például minden tantárgyban magasan teljesítők, vagy olyan hallgatók, akik bizonyos tantárgyakban kiemelkednek, de másokban kudarcot vallanak).
  • Biológia-mi a fajok taxonómiája? A kutatók különböző növények adathalmazát gyűjthetik össze, és a fenotípusuk különböző tulajdonságait jegyezhetik fel. A klaszteranalízis csoportosíthatja ezeket a megfigyeléseket klaszterek sorozatába, és segíthet a hasonló növények csoportjainak és alcsoportjainak taxonómiájának felépítésében.

további technikák, amelyeket érdemes kipróbálni a hasonló megfigyelési csoportok azonosításához, a Q-analízis, a többdimenziós skálázás (MDS) és a látens osztályelemzés.

a klaszterelemzés az SPSS-ben

kutatási kérdésünk ebben a példában a klaszterelemzés a következő:

milyen homogén hallgatói klaszterek jelennek meg a matematika, az olvasás és az írás szabványosított teszteredményei alapján?

az SPSS Klaszterelemzésekben megtalálható az elemzés/osztályozás…. Az SPSS három módszert kínál a klaszterelemzéshez: k-azt jelenti, hogy klaszter, hierarchikus Klaszter és kétlépcsős klaszter.

a K-means cluster egy módszer a nagy adatkészletek gyors fürtözésére. A kutató előre meghatározza a klaszterek számát. Ez hasznos különböző modellek tesztelésére, eltérő feltételezett számú klaszterrel.

a hierarchikus klaszter a leggyakoribb módszer. Ez generál egy sor modellek klaszter megoldások 1 (minden esetben egy klaszter) n (minden esetben egy egyedi klaszter). A hierarchikus klaszter változókkal is működik, szemben az esetekkel; a faktorelemzéshez némileg hasonló módon csoportosíthatja a változókat. Ezenkívül a hierarchikus klaszterelemzés képes kezelni a nominális, ordinális és skálaadatokat; azonban nem ajánlott a különböző mérési szintek keverése.

a kétlépcsős klaszteranalízis a csoportosulásokat először az előcsoportosítás, majd a hierarchikus módszerek futtatásával azonosítja. Mivel egy gyors klaszter algoritmust használ előre, képes kezelni a nagy adathalmazokat, amelyek hierarchikus klasztermódszerekkel történő kiszámítása hosszú időt vesz igénybe. Ebben a tekintetben az előző két megközelítés kombinációja. A kétlépcsős fürtözés képes kezelni a méretarányos és sorszámos adatokat ugyanabban a modellben, és automatikusan kiválasztja a klaszterek számát.

a hierarchikus klaszterelemzés három alapvető lépést követ: 1) számítsa ki a távolságokat, 2) kapcsolja össze a fürtöket, és 3) válasszon megoldást a megfelelő számú klaszter kiválasztásával.

először ki kell választanunk azokat a változókat, amelyekre klasztereinket alapozzuk. A párbeszédablakban hozzáadjuk a matematikai, olvasási és írási teszteket a változók listájához. Mivel az eseteket csoportosítani akarjuk, a többi kullancsot alapértelmezetten hagyjuk.

a párbeszédpanelen statisztika … megadhatjuk, hogy ki akarjuk-e adni a közelségi mátrixot (ezek az elemzés első lépésében kiszámított távolságok), valamint az esetek előrejelzett klasztertagságát megfigyeléseinkben. Ismét az összes beállítást alapértelmezés szerint hagyjuk.

a párbeszédpanelen telkek … hozzá kell adnunk a Dendrogramot. A dendrogram grafikusan megmutatja, hogyan egyesülnek a klaszterek, és lehetővé teszi számunkra, hogy meghatározzuk a megfelelő számú klasztert.

a párbeszédpanel metódusa … lehetővé teszi számunkra, hogy megadjuk a távolságmérést és a fürtözési módszert. Először meg kell határoznunk a helyes távolságmérést. Az SPSS három nagy blokknyi távolságmérőt kínál az intervallum (skála), a számlálás (ordinális) és a bináris (névleges) adatok számára.

az intervallumadatok esetében a leggyakoribb a négyzet euklideszi távolság. Két megfigyelés közötti euklideszi távolságon alapul, amely a négyzet távolságok összegének négyzetgyöke. Mivel az euklideszi távolság négyzet alakú, növeli a nagy távolságok fontosságát, miközben gyengíti a kis távolságok fontosságát.

ha van rendes adatunk (számlálás), választhatunk a Chi-négyzet vagy a szabványosított Chi-négyzet között, amelyet Phi-négyzetnek nevezünk. Bináris adatok esetén általában a négyzet euklideszi távolságot használják.

példánkban az intervallum és a négyzet euklideszi távolságot választjuk.

ezután ki kell választanunk a klaszter módszert. A választás általában a csoportok közötti kapcsolat (a klaszterek közötti távolság az ezen klasztereken belüli összes adatpont átlagos távolsága), a legközelebbi szomszéd (egyetlen kapcsolat: a klaszterek közötti távolság a legkisebb távolság két adatpont között), a legtávolabbi szomszéd (teljes kapcsolat: a távolság a legnagyobb távolság két adatpont között), és Ward módszere (a távolság az összes klaszter távolsága a minta Nagy átlagához). Az egykötés a klaszterek hosszú láncaival működik a legjobban, míg a teljes összekapcsolás a klaszterek sűrű foltjaival működik a legjobban. A csoportok közötti kapcsolat mindkét fürttípussal működik. Javasoljuk, hogy először használjon egyetlen összeköttetést. Bár az egyetlen kapcsolat hajlamos klaszterláncokat létrehozni, segít a kiugró értékek azonosításában. Miután kizártuk ezeket a kiugró értékeket, áttérhetünk Ward módszerére. Ward módszere az F értéket használja (mint az ANOVA – ban), hogy maximalizálja a klaszterek közötti különbségek jelentőségét.

az utolsó szempont a szabványosítás. Ha a változók különböző skálákkal rendelkeznek, és azt jelenti, hogy esetleg z pontszámokra vagy a skála központosításával szeretnénk szabványosítani. Az értékeket abszolút értékekké is átalakíthatjuk, ha van olyan adatkészletünk, ahol ez megfelelő lehet.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.