2014. 6. 16. 00:19



K-Means
유클리드 거리에 기반한 평균 클러스터링 마이닝 기법
단점
  - 초기조건에 따라 매우 상이한 결과가 나온다
  - 데이터의 모든 정보를 동일한 가중치로 계산하기 때문에 분별력이 약하다
  - 클러스터링 데이터가 원의 형태를 띄게 되는데 원에 속하지 못하는 데이터가 생겨날 수 있다


K-Means 수행과정
  - 임의의 K개의 군집수와 위치 설정
  - 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속
  - 군집으로 나누어진 데이터를 기준으로 군집 중앙의 위치를 재설정
  - 새롭게 구한 군집 중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두번째부터 재 수행

이 과정을 통하여 K개의 군집으로 데이터를 구분, K값에 따라 클러스터링에 많은 영향을 받는다


데이터 처리에 따른 두가지 방식
finite training : 일정량의 데이터를 미리 주고 주어진 데이터를 토대로 집단 중심점과 데이터들의 소속을 결정하고 난 후에는 추가로 들어오는 데이터에 대해서 고정된 중심점 정보를 갖고 소속을 결정짓는 방식
Infinite training : 집단 중심점에 대한 정보를 지속적으로 변화시키면서 추가적으로 들어오는 모든 데이터에 대하여 반복적으로 재해석하여 집단 중심점을 재 파악하고, 모든 데이터의 소속을 수정하면서 진행하는 방식



'DataMining' 카테고리의 다른 글

연관규칙 (Association Rule)  (0) 2014.06.16
평가기법 - 오류율 계산  (0) 2014.06.16
교사학습과 비교사학습  (0) 2014.06.16
Clustering과 Classification  (0) 2014.06.16
나이브 베이지안 분류기  (0) 2014.06.16
Posted by 긍정왕오킹