K-Means
유클리드 거리에 기반한 평균 클러스터링 마이닝 기법
단점
- 초기조건에 따라 매우 상이한 결과가 나온다
- 데이터의 모든 정보를 동일한 가중치로 계산하기 때문에 분별력이 약하다
- 클러스터링 데이터가 원의 형태를 띄게 되는데 원에 속하지 못하는 데이터가 생겨날 수 있다
K-Means 수행과정
- 임의의 K개의 군집수와 위치 설정
- 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속
- 군집으로 나누어진 데이터를 기준으로 군집 중앙의 위치를 재설정
- 새롭게 구한 군집 중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두번째부터 재 수행
이 과정을 통하여 K개의 군집으로 데이터를 구분, K값에 따라 클러스터링에 많은 영향을 받는다
데이터 처리에 따른 두가지 방식
finite training : 일정량의 데이터를 미리 주고 주어진 데이터를 토대로 집단 중심점과 데이터들의 소속을 결정하고 난 후에는 추가로 들어오는 데이터에 대해서 고정된 중심점 정보를 갖고 소속을 결정짓는 방식
Infinite training : 집단 중심점에 대한 정보를 지속적으로 변화시키면서 추가적으로 들어오는 모든 데이터에 대하여 반복적으로 재해석하여 집단 중심점을 재 파악하고, 모든 데이터의 소속을 수정하면서 진행하는 방식
'DataMining' 카테고리의 다른 글
연관규칙 (Association Rule) (0) | 2014.06.16 |
---|---|
평가기법 - 오류율 계산 (0) | 2014.06.16 |
교사학습과 비교사학습 (0) | 2014.06.16 |
Clustering과 Classification (0) | 2014.06.16 |
나이브 베이지안 분류기 (0) | 2014.06.16 |