클러스터 분석이란 무엇입니까?
클러스터 분석은 데이터 내의 구조를 식별하려고 하는 탐색적 분석입니다. 클러스터 분석은 세분화 분석 또는 분류 분석이라고도합니다. 보다 구체적으로,그룹화가 이전에 알려지지 않은 경우 동질적인 사례 그룹을 식별하려고 시도합니다. 탐색 적이기 때문에 종속 변수와 독립 변수를 구분하지 않습니다. 이진수,명목,서수 및 스케일(구간 또는 비율)데이터를 처리할 수 있습니다.
군집 분석은 종종 다른 분석(예:판별 분석)과 함께 사용됩니다. 연구원은 분석에 의해 생성 된 결과가 실제로 의미가 있는지 확인하기 위해 데이터에 대한 이해를 기반으로 클러스터 분석을 해석 할 수 있어야합니다.
일반적인 연구 질문 클러스터 분석 답변은 다음과 같습니다:
- 의학-진단 클러스터는 무엇입니까? 이 질문에 답하기 위해 연구원은 가능한 증상(예:심리학,불안,우울증 등)을 포함하는 진단 설문지를 고안합니다.). 그런 다음 클러스터 분석을 통해 유사한 증상을 보이는 환자 그룹을 식별 할 수 있습니다.
- 마케팅-고객 세그먼트는 무엇입니까? 이 질문에 대답하기 위해 시장 조사원은 고객의 요구,태도,인구 통계 및 행동을 다루는 설문 조사를 수행 할 수 있습니다. 그런 다음 연구원은 클러스터 분석을 사용하여 유사한 요구와 태도를 가진 균질 한 고객 그룹을 식별 할 수 있습니다.
- 교육-특별한 관심이 필요한 학생 그룹은 무엇입니까? 연구원은 심리적,적성 및 성취 특성을 측정 할 수 있습니다. 클러스터 분석은 학생들 사이에 어떤 동질적인 그룹이 존재하는지 식별 할 수 있습니다(예:모든 과목에서 높은 성취 자 또는 특정 과목에서 뛰어나지 만 다른 과목에서는 실패하는 학생).
- 생물학-종의 분류 란 무엇입니까? 연구원은 다른 식물의 데이터 세트를 수집하고 표현형의 다른 속성을 기록 할 수 있습니다. 클러스터 분석은 이러한 관찰을 일련의 클러스터로 그룹화하고 유사한 식물의 그룹 및 하위 그룹의 분류를 구축하는 데 도움이 될 수 있습니다.
유사한 관찰 그룹을 식별하기 위해 시도할 수 있는 다른 기술은 큐 분석,다차원 크기 조정 및 잠재 클래스 분석입니다.
이 예제 클러스터 분석에 대한 연구 질문은 다음과 같습니다:
수학,읽기 및 쓰기의 표준화 된 시험 점수를 기반으로 학생들의 동질적인 클러스터가 출현하는 것은 무엇입니까?
클러스터 분석은 분석/분류에서 찾을 수 있습니다…. 클러스터 분석을 위한 세 가지 방법을 제공합니다.
클러스터란 대용량 데이터 세트를 빠르게 클러스터링하는 방법입니다. 연구원은 클러스터 수를 미리 정의합니다. 이는 가정된 클러스터 수가 다른 여러 모델을 테스트하는 데 유용합니다.
계층적 클러스터가 가장 일반적인 방법입니다. 1(하나의 클러스터의 모든 경우)에서 엔(각 경우는 개별 클러스터 임)까지의 클러스터 솔루션이있는 일련의 모델을 생성합니다. 계층적 클러스터는 사례와 달리 변수와 함께 작동하며 요인 분석과 다소 유사한 방식으로 변수를 함께 클러스터링할 수 있습니다. 또한 계층적 군집 분석은 명목,서수 및 척도 데이터를 처리할 수 있지만 서로 다른 측정 수준을 혼합하는 것은 권장되지 않습니다.
2 단계 클러스터 분석은 사전 클러스터링을 먼저 실행한 다음 계층적 메서드를 실행하여 그룹화를 식별합니다. 빠른 클러스터 알고리즘을 미리 사용하기 때문에 계층적 클러스터 메서드로 계산하는 데 시간이 오래 걸리는 대용량 데이터 집합을 처리할 수 있습니다. 이 점에서 이전 두 가지 접근 방식의 조합입니다. 2 단계 클러스터링은 동일한 모델의 스케일 및 서수 데이터를 처리 할 수 있으며 클러스터 수를 자동으로 선택합니다.
계층적 군집 분석은 1)거리 계산,2)군집 연결,3)적절한 군집 수를 선택하여 솔루션을 선택하는 세 가지 기본 단계를 따릅니다.
첫째,우리는 우리가 우리의 클러스터를 기반으로 하는 변수를 선택 해야 합니다. 대화 상자 창에서 변수 목록에 수학,읽기 및 쓰기 테스트를 추가합니다. 사례를 클러스터링하려면 나머지 눈금 표시를 기본값으로 둡니다.
대화 상자 통계…에서 근접 행렬(분석의 첫 번째 단계에서 계산된 거리)과 관측치에 있는 사례의 예측 클러스터 멤버 자격을 출력할 것인지 여부를 지정할 수 있습니다. 다시 말하지만 모든 설정은 기본값으로 둡니다.
우리는 덴드로그램을 추가해야 합니다. 덴드로그램은 클러스터가 어떻게 병합되는지 그래픽으로 보여 주며 적절한 클러스터 수를 식별 할 수 있습니다.
대화 상자 방법…을 사용하면 거리 측정 및 클러스터링 방법을 지정할 수 있습니다. 첫째,우리는 정확한 거리 측정을 정의 할 필요가있다. 간격(척도),카운트(서수)및 이진(공칭)데이터에 대한 3 개의 큰 거리 측정 블록을 제공합니다.
구간 데이터의 경우 가장 일반적인 것은 제곱 유클리드 거리입니다. 그것은 두 관측치 사이의 유클리드 거리를 기반으로하며,이는 제곱 거리의 합계의 제곱근입니다. 유클리드 거리가 제곱되기 때문에 작은 거리의 중요성을 약화시키면서 큰 거리의 중요성을 증가시킵니다.
서수 데이터(카운트)가있는 경우 카이 제곱 또는 표준화 된 카이 제곱 중에서 선택할 수 있습니다. 이진 데이터의 경우 일반적으로 제곱 유클리드 거리가 사용됩니다.
이 예에서는 간격과 사각형 유클리드 거리를 선택합니다.
다음으로,우리는 클러스터 방법을 선택해야합니다. 일반적으로 선택 항목은 그룹 간 연결(클러스터 간 거리는 이러한 클러스터 내의 모든 데이터 포인트의 평균 거리 임),가장 가까운 이웃(단일 연결:클러스터 간 거리는 두 데이터 포인트 사이의 가장 작은 거리 임),가장 먼 이웃(완전한 연결:거리는 두 데이터 포인트 사이의 가장 큰 거리 임)및 와드의 방법(거리는 샘플의 총 평균에 대한 모든 클러스터의 거리 임)입니다. 단일 연결은 클러스터의 긴 체인에서 가장 잘 작동하는 반면 완전한 연결은 클러스터의 조밀 한 덩어리에서 가장 잘 작동합니다. 그룹 간 연결은 두 클러스터 유형 모두에서 작동합니다. 그것은 권장 먼저 하나의 연결을 사용하는 것입니다. 단일 링크는 클러스터 체인을 만드는 경향이 있지만 이상치를 식별하는 데 도움이됩니다. 이러한 이상 값을 제외 한 후 와드의 방법으로 이동할 수 있습니다. 와드의 방법은 에프 값(분산 분석과 같은)을 사용하여 군집 간 차이의 중요성을 최대화합니다.
마지막 고려 사항은 표준화입니다. 만약 변수들이 서로 다른 척도와 평균을 가지고 있다면 우리는 표준화하기를 원할 수도 있습니다 지 점수 또는 척도를 중심으로. 이 값이 적절한 데이터 세트가있는 경우 값을 절대 값으로 변환 할 수도 있습니다.