K-Nearest Neighbor (kNN) classifier는 간단하지만 괜찮은 성능을 보이는 classifier이다.

Training Data의 개수가 적거나 data dimension이 높은 경우,

Training Data의 분포가 Multi modal인 경우,

최신의 classifier와 필적할만한 성능을 보여준다.

 

그냥 임의의 중심점에서 가장 가까운 데이터를 잡아내는 것으로

거리는 유클리드 거리를 사용한다,

 

 

문제점

1. kNN classifier는 training data가 typical example로 구성된 경우를 가정한다.

 - 즉, data내에 outlier가 존재하면 성능에 영향을 미친다.

2. neighbor의 개수, k값에 영향을 크게 받는다.

3. neighbor의 선택 기준, 즉 data point들 사이의 similarity 혹은 distance metric이 성능에 영향을 미친다.

 

'DataMining' 카테고리의 다른 글

RANSAC  (0) 2014.06.16
선형회귀분석  (0) 2014.06.16
연관규칙 (Association Rule)  (0) 2014.06.16
평가기법 - 오류율 계산  (0) 2014.06.16
K-Means  (0) 2014.06.16
Posted by 긍정왕오킹