배고파서 까먹고 만든 블로그

2014. 6. 16. 00:19

K-Means

K-Means

유클리드 거리에 기반한 평균 클러스터링 마이닝 기법

단점

- 초기조건에 따라 매우 상이한 결과가 나온다

- 데이터의 모든 정보를 동일한 가중치로 계산하기 때문에 분별력이 약하다

- 클러스터링 데이터가 원의 형태를 띄게 되는데 원에 속하지 못하는 데이터가 생겨날 수 있다

K-Means 수행과정

- 임의의 K개의 군집수와 위치 설정

- 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속

- 군집으로 나누어진 데이터를 기준으로 군집 중앙의 위치를 재설정

- 새롭게 구한 군집 중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두번째부터 재 수행

이 과정을 통하여 K개의 군집으로 데이터를 구분, K값에 따라 클러스터링에 많은 영향을 받는다

데이터 처리에 따른 두가지 방식

finite training : 일정량의 데이터를 미리 주고 주어진 데이터를 토대로 집단 중심점과 데이터들의 소속을 결정하고 난 후에는 추가로 들어오는 데이터에 대해서 고정된 중심점 정보를 갖고 소속을 결정짓는 방식

Infinite training : 집단 중심점에 대한 정보를 지속적으로 변화시키면서 추가적으로 들어오는 모든 데이터에 대하여 반복적으로 재해석하여 집단 중심점을 재 파악하고, 모든 데이터의 소속을 수정하면서 진행하는 방식

연관규칙 (Association Rule) (0)	2014.06.16
평가기법 - 오류율 계산 (0)	2014.06.16
교사학습과 비교사학습 (0)	2014.06.16
Clustering과 Classification (0)	2014.06.16
나이브 베이지안 분류기 (0)	2014.06.16

Posted by 긍정왕오킹

Graphics, AR/VR, OS, Windows Driver, Programming

긍정왕오킹