클러스터 분석

평가|생물 심리학|비교|인지|발달|언어|개인차|성격|철학|사회|
방법|통계|임상|교육|산업|전문 항목|세계 심리학|

통계:과학적 방법·연구 방법·실험 설계·학부 통계 과정·통계 테스트·게임 이론·의사 결정 이론

이 문서는 심리학자와의 관련성을 향상시키기 위해 재 작성..
이 페이지를 개선 할 수 있다면 직접 도와주세요..

클러스터 분석 또는 클러스터링은 기계 학습,데이터 마이닝,패턴 인식,이미지 분석 및 생물 정보학을 포함한 많은 분야에서 사용되는 통계 데이터 분석을위한 일반적인 기술입니다. 클러스터링은 유사한 객체를 다른 그룹으로 분류하거나 더 정확하게는 데이터 세트를 하위 집합(클러스터)으로 분할하여 각 하위 집합의 데이터(이상적으로)가 몇 가지 공통된 특성(종종 정의 된 거리 측정에 따라 근접성)을 공유합니다.

데이터 클러스터링(또는 클러스터링)이라는 용어 외에도 클러스터 분석,자동 분류,수치 분류,보물학 및 유형 학적 분석을 포함하여 유사한 의미를 가진 여러 용어가 있습니다.

클러스터링 유형

데이터 클러스터링 알고리즘은 계층적 또는 분할적일 수 있다. 계층 적 알고리즘은 이전에 설정된 클러스터를 사용하여 연속적인 클러스터를 찾는 반면 분할 알고리즘은 모든 클러스터를 한 번에 결정합니다. 계층 적 알고리즘은 응집(상향식)또는 분열(하향식)일 수 있습니다. 응집 알고리즘은 각 요소를 별도의 클러스터로 시작하여 연속적으로 더 큰 클러스터로 병합합니다. 분할 알고리즘은 전체 집합으로 시작하여 연속적으로 더 작은 클러스터로 나눕니다.

계층적 클러스터링

거리 측정

계층적 클러스터링의 핵심 단계는 거리 측정값을 선택하는 것입니다. 간단한 측정은 맨하탄 거리,각 변수에 대한 절대 거리의 합과 같습니다. 이 이름은 두 변수의 경우 도시 거리와 비교할 수있는 격자에 변수를 그릴 수 있으며 두 점 사이의 거리는 사람이 걷는 블록의 수라는 사실에서 비롯됩니다.

보다 일반적인 척도는 유클리드 거리이며,각 변수 사이의 거리의 제곱을 찾고,제곱을 합산하고,그 합계의 제곱근을 찾는 것으로 계산됩니다. 두 변수의 경우,거리는 삼각형에서 빗변의 길이를 찾는 것과 유사합니다.”건강 심리학 연구에서 클러스터 분석을 검토 한 결과 해당 연구 분야의 발표 된 연구에서 가장 일반적인 거리 측정은 유클리드 거리 또는 제곱 유클리드 거리라는 것을 발견했습니다.

클러스터 생성

거리 측정이 주어지면 요소를 결합 할 수 있습니다. 계층 적 클러스터링은 클러스터의 계층 구조 인 빌드(응집)또는 분할(분할)입니다. 이 계층 구조의 전통적인 표현은 트리 데이터 구조(덴드로 그램)로,한쪽 끝에는 개별 요소가 있고 다른 쪽 끝에는 모든 요소가있는 단일 클러스터가 있습니다. 응집 알고리즘은 트리의 맨 위에서 시작하는 반면,분열 알고리즘은 맨 아래에서 시작합니다. (그림에서 화살표는 응집 클러스터링을 나타냅니다.)

주어진 높이에서 트리를 자르면 선택한 정밀도로 클러스터링이 가능합니다. 다음 예제에서는 두 번째 행 다음에 절단하면 클러스터가 생성됩니다. 세 번째 행 후에 절단하면 클러스터가 생성되며,이는 더 거친 클러스터링이며 더 큰 클러스터 수가 적습니다.

응집 계층적 클러스터링

예를 들어,이 데이터가 클러스터될 것이라고 가정합니다. 여기서 유클리드 거리는 거리 메트릭입니다.

원시 데이터

계층 적 클러스터링 덴드로 그램은 다음과 같습니다:

전통적인 표현

이 방법은 점진적으로 클러스터를 병합하여 개별 요소에서 계층 구조를 작성합니다. 우리는 6 개의 요소를 가지고 있습니다. 첫 번째 단계는 클러스터에서 병합할 요소를 결정하는 것입니다. 일반적으로,우리는 두 개의 가장 가까운 요소를 먹고 싶어,따라서 우리는 거리를 정의해야합니다} _{2})} 요소 사이. 이 단계에서 거리 행렬을 구성 할 수도 있습니다.우리가 가장 가까운 두 요소를 병합했다고 가정 비 과 씨,우리는 이제 다음과 같은 클러스터를 가지고{ㅏ},{비,씨},{디},{이자형}과{에프},그리고 더 병합 할. 그러나 그렇게하기 위해서는{ㅏ}과{비 씨}사이의 거리를 가져 와서 두 클러스터 사이의 거리를 정의해야합니다. 일반적으로 거리를 사이에 두 개의 클러스터{\displaystyle{\mathcal{A}}}{\displaystyle{\mathcal{B}}}은 다음 중 하나입니다:

  • 최대 거리의 요소들 사이의 각 클러스터(또한 완벽한 결합 클러스터링):

{\displaystyle\최대\{\,d(x,y):x\에서{\mathcal{A}},\,y\에서{\mathcal{B}}\,\}}

  • 최소 거리의 요소들 사이의 각 클러스터(또 하나의 링크는 클러스터링):

{\displaystyle\min\{\,d(x,y):100000000000}}\,\}}

  • 각 클러스터의 요소 간의 평균 거리(평균 링크 클러스터링이라고도 함):

{\displaystyle{1\통해{\mathrm{카드}({\mathcal{A}})\mathrm{카드}({\mathcal{B}})}}\sum_{x\에서{\mathcal{A}}}\sum_{y\에서{\mathcal{B}}}d(x,y)}

  • 합의 모든 intra-클러스터의 분산을
  • 의 증가는 차이에 대해 클러스터에 병합되는(병동의 기준이)
  • 확률 후보는 클러스터의 부활에서 동일한 기능(V-링크)

각각 응집에서 발생하는 사이에 큰 거리 클러스터는 이전보다 덩어리,그리고 중 하나를 결정할 수 있습지 클러스터링을 하면 클러스터 병합하기에는 너무 멀리 떨어져 있거나(거리 기준)클러스터 수가 충분히 적을 때(숫자 기준).

분할 클러스터링

케이-수단 및 파생 상품

케이-의미 클러스터링

케이-의미 알고리즘은 각 점을 중심(중심이라고도 함)이 가장 가까운 클러스터에 할당합니다. 즉,좌표는 클러스터의 모든 점에 대해 개별적으로 각 차원에 대한 산술 평균입니다.

예: 데이터 집합에는 세 가지 차원이 있고 클러스터에는 두 개의 점이 있습니다. 이 경우,그 중 하나는 두 개의 삼각형이며,두 개의 삼각형은 두 개의 삼각형입니다.

알고리즘은 대략(제이 맥퀸, 1967):

  • 무작위로 생성 케이 클러스터 및 결정 클러스터 센터,또는 직접 생성 케이 시드 포인트 클러스터 중심으로.
  • 각 지점을 가장 가까운 클러스터 센터에 할당합니다.
  • 새 클러스터 센터를 다시 계산합니다.
  • 일부 수렴 기준이 충족 될 때까지 반복합니다(일반적으로 할당이 변경되지 않음).

이 알고리즘의 주요 장점은 대용량 데이터 세트에서 실행할 수있는 단순성과 속도입니다. 그 단점은 결과 클러스터가 초기 무작위 할당에 의존하기 때문에 각 실행마다 동일한 결과를 산출하지 않는다는 것입니다. 클러스터 간 분산을 최대화(또는 클러스터 내 분산을 최소화)하지만 결과에 전역 최소 분산이 있는지 확인하지는 않습니다.

큐티 클러 스트 알고리즘

큐티(품질 임계 값)클러스터링(하이어 외,1999)은 유전자 클러스터링을 위해 발명 된 데이터를 분할하는 대체 방법이다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.

알고리즘은:

  • 사용자는 클러스터의 최대 직경을 선택합니다.
  • 클러스터의 직경이 임계값을 초과할 때까지 가장 가까운 점,다음으로 가장 가까운 점 등을 포함하여 각 점에 대한 후보 클러스터를 작성합니다.
  • 가장 많은 점을 가진 후보 클러스터를 첫 번째 실제 클러스터로 저장하고 클러스터의 모든 점을 추가 고려에서 제거합니다.
  • 감소 된 포인트 세트로 재귀합니다.

점과 점 그룹 사이의 거리는 완전한 연결을 사용하여 계산됩니다. 지점에서 그룹의 구성원까지의 최대 거리(클러스터 간 거리에 대한”응집 계층 적 클러스터링”섹션 참조).

퍼지 씨-퍼지 클러스터링에서 클러스터링

을 의미하며,각 점은 하나의 클러스터에 완전히 속하는 것이 아니라 퍼지 논리에서와 같이 클러스터에 속하는 정도를 갖습니다. 따라서,클러스터의 가장자리에 있는 점들은 클러스터의 중심에 있는 점들보다 낮은 정도로 클러스터에 있을 수 있다. 각 점에 대해 엑스 우리는 계수를 가지고 있습니다. 일반적으로 이러한 계수의 합은 1 로 정의되므로디스플레이 스타일는 특정 클러스터에 속할 확률을 나타냅니다.

 100000000000}

퍼지 씨-평균,클러스터의 중심은 클러스터에 속하는 정도에 의해 가중되는 모든 점의 평균입니다.

}

소속 정도는 클러스터까지의 거리의 역수와 관련이 있습니다.

)},}

그런 다음 계수는 정규화되고 실제 매개 변수로 퍼지되어 그 합이 1 이됩니다. 2015 년 11 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년 12 월 15 일-2015 년}

미디엄 2 와 같으면 계수를 선형 적으로 정규화하여 합계를 1 로 만드는 것과 같습니다. 미디엄 1 에 가까울 때 점에 가장 가까운 클러스터 중심은 다른 것보다 훨씬 더 많은 가중치가 부여되며 알고리즘은 케이-수단.

퍼지 씨-수단 알고리즘은 케이-수단 알고리즘과 매우 유사하다:

  • 클러스터의 수를 선택합니다.
  • 클러스터에 있는 각 점 계수에 임의로 할당합니다.
  • 알고리즘이 수렴될 때까지 반복한다(즉,두 반복 사이의 계수의 변화는이하이다. :
    • 위의 공식을 사용하여 각 클러스터의 중심을 계산합니다.
    • 각 점에 대해 위의 공식을 사용하여 클러스터에있는 계수를 계산합니다.

이 알고리즘은 클러스터 내 분산을 최소화하지만 케이-평균,최소값은 로컬 최소값이며 결과는 초기 가중치 선택에 따라 다릅니다.

팔꿈치 기준

팔꿈치 기준은 예를 들어 케이-수단 및 응집 계층 적 클러스터링에 대해 어떤 클러스터 수를 선택해야하는지 결정하는 일반적인 경험 규칙입니다.

팔꿈치 기준은 다른 클러스터를 추가하면 충분한 정보를 추가하지 않도록 여러 클러스터를 선택해야한다고 말합니다. 더 정확하게,당신은 클러스터의 수에 대한 클러스터에 의해 설명 분산의 비율을 그래프 경우,첫 번째 클러스터는 많은 정보를 추가합니다(분산을 많이 설명),하지만 어떤 점에서 한계 이득은 드롭됩니다,그래프의 각도를 제공(팔꿈치).

다음 그래프에서 팔꿈치는 빨간색 원으로 표시됩니다. 따라서 선택한 클러스터의 수는 4 이어야합니다.

설명하 분산을

스펙트럼 클러스터링

주어진 데이터 세트 포인트 유사성 매트릭스로 정의할 수 있습니다 행렬{\displaystyle S}여기서{\displaystyle S_{ij}}나타내는 측정 사이의 유사성을 점{\displaystyle i}{\displaystyle j}. 스펙트럼 클러스터링 기술은 데이터의 유사성 행렬의 스펙트럼을 사용하여 포인트를 클러스터링합니다. 때때로 이러한 기술은 더 적은 차원에서 클러스터링을 위해 차원 감소를 수행하는 데에도 사용됩니다.

이러한 기술 중 하나는 이미지 분할에 일반적으로 사용되는 시-말릭 알고리즘입니다. 그것은 파티션에 포인트를 두 가지로{\displaystyle(S_{1},S_{2})}에 따라 변경했{\displaystyle v}에 해당하는 두 번째 작은 고유치의 라플라스

{\displaystyle L=I-D^{1/2}SD^{1/2}}

{\displaystyle S}, 여기서{\displaystyle D}은선 행렬

{\displaystyle D_{ii}=\sum_{j}S_{ij}.이 파티셔닝은,나머지는에서. 이 알고리즘은 이러한 방식으로 하위 집합을 반복적으로 분할하여 계층 적 클러스터링에 사용할 수 있습니다. 관련 알고리즘은 메일라시 알고리즘입니다.이 알고리즘은 행렬의 가장 큰 고유 값에 해당하는 고유 벡터를 취하여 일부 케이에 대해 다른(예:케이-평균)을 호출하여 이들 고유 벡터의 각 구성 요소에 의해 포인트를 클러스터링합니다.

응용

생물학

생물학 클러스터링은 전산 생물학 및 생물 정보학 분야에서 많은 응용 분야를 가지고 있으며 그 중 두 가지는 다음과 같습니다:

  • 전사학에서 클러스터링은 관련 발현 패턴을 가진 유전자 그룹을 구축하는 데 사용됩니다. 종종 이러한 그룹은 특정 경로에 대한 효소 또는 공동 조절되는 유전자와 같은 기능적으로 관련된 단백질을 포함합니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다.
  • 서열 분석에서 클러스터링은 상동 서열을 유전자 패밀리로 그룹화하는 데 사용됩니다. 이것은 생물 정보학 및 일반적으로 진화 생물학에서 매우 중요한 개념입니다. 보다 진화에 의한 유전자 복제.

마케팅 조사

클러스터 분석은 설문 조사 및 테스트 패널의 다변량 데이터로 작업 할 때 시장 조사에 널리 사용됩니다. 시장 조사원은 클러스터 분석을 사용하여 일반 소비자 인구를 시장 부문으로 분할하고 다른 소비자 그룹/잠재 고객 간의 관계를 더 잘 이해합니다.

  • 시장 세분화 및 목표 시장 결정
  • 제품 포지셔닝
  • 신제품 개발
  • 테스트 시장 선택(참조 : 실험 기술)

기타 응용

소셜 네트워크 분석:소셜 네트워크 연구에서 클러스터링을 사용하여 대규모 그룹 내의 커뮤니티를 인식 할 수 있습니다.

이미지 분할:클러스터링을 사용하여 디지털 이미지를 경계 감지 또는 물체 인식을 위해 별개의 영역으로 나눌 수 있습니다.

데이터 마이닝:많은 데이터 마이닝 응용 프로그램에는 데이터 항목을 관련 하위 집합으로 분할하는 작업이 포함됩니다. 또 다른 일반적인 응용 프로그램은 월드 와이드 웹 페이지와 같은 문서를 장르로 나누는 것입니다.

데이터 클러스터링 간의 비교

두 클러스터링 간의 유사성 측정에 대한 몇 가지 제안이있었습니다. 이러한 측정을 사용하여 여러 데이터 클러스터링 알고리즘이 데이터 집합에서 얼마나 잘 수행되는지 비교할 수 있습니다. 이러한 측정 값 중 많은 부분이 일치 행렬(일명 혼란 행렬)에서 파생됩니다.데이터 클러스터링은 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 데이터 클러스터링에 대한 정보입니다. 서바이벌., 1999. 여기에서 사용할 수 있습니다.

  • 계층 적,케이-평균 및 퍼지 씨-평균의 또 다른 프리젠 테이션은 클러스터링 소개를 참조하십시오. 또한 가우스 혼합에 대한 설명이 있습니다.
  • 데이비드 다우,혼합 모델링 페이지-기타 클러스터링 및 혼합 모델 링크.
  • 클러스터링에 대한 자습서
  • 온라인 교과서:정보 이론,추론 및 학습 알고리즘,데이비드 제이 맥케이에 의해.인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망,인공신경망)
  • 이 연구에서는 2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 15 일,2009 년 12 월 건강 심리학에서 클러스터 분석의 사용 및보고:검토. 영국 건강 심리학 저널 10:329-358.연구원을위한 클러스터 분석,2004,340 쪽. 1411606175 또는 출판사,크리거 펍이 출판 한 1990 년판 재판. (주).. 일본어 번역은 우치다 로카쿠호 출판사에서 구할 수 있습니다.(주),도쿄,일본.유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형,유전자변형

  • 온라인 교과서:정보 이론,추론 및 학습 알고리즘,데이비드 제이 맥케이
  • 스펙트럼 클러스터링 :2000 년 8 월 22 일(8),888-905,2000 년 8 월 22 일(8),888-905,2000 년 8 월 22 일(6452>

    • 지안보시와 지텐드라 말리크,”정규화 된 컷 및 이미지 세분화”. 지텐드라 말리크의 홈페이지
    • 마리나 메일라와 지안보시,”랜덤워크를 이용한 세분화 학습”,신경정보처리 시스템,닙스,2001. 지안보시 홈페이지

    에서 클러스터 수를 추정할 수 있습니다:

    • 수,에프.,오즈 카라 한,이자형. (1990)”텍스트 데이터베이스에 대한 커버 계수 기반 클러스터링 방법론의 개념과 효과.”데이터베이스 시스템의 트랜잭션. 15 (4) 483-517.예일대(또 다른 학습 환경):지식 발견과 데이터 마이닝을 위한 무료 오픈소스 소프트웨어 또한 클러스터링을 위한 플러그인을 포함하고 있다.
    • 여기 클러스터링을 위한 일부 매트랩 소스 파일들
    • 클러스터링 평가를 위한 소형 비교 패키지(매트랩에서도)
    • 믹스 모드 : 모델 기반 클러스터 및 판별 분석. 링파이프 클러스터링 자습서 링파이프,소스와 함께 배포 된 자바 텍스트 데이터 마이닝 패키지를 사용하여 전체 및 단일 링크 클러스터링을 수행하는 튜토리얼.
    • 웨카:웨카에는 데이터 전처리,분류,회귀,군집화,연관 규칙 및 시각화를 위한 도구가 포함되어 있습니다. 또한 새로운 기계 학습 계획을 개발하는 데 적합합니다.

    답글 남기기

    이메일 주소는 공개되지 않습니다.