DataMining 9

K-Nearest Neighbor Classifier

K-Nearest Neighbor (kNN) classifier는 간단하지만 괜찮은 성능을 보이는 classifier이다. Training Data의 개수가 적거나 data dimension이 높은 경우, Training Data의 분포가 Multi modal인 경우, 최신의 classifier와 필적할만한 성능을 보여준다. 그냥 임의의 중심점에서 가장 가까운 데이터를 잡아내는 것으로 거리는 유클리드 거리를 사용한다, 끗 문제점 1. kNN classifier는 training data가 typical example로 구성된 경우를 가정한다. - 즉, data내에 outlier가 존재하면 성능에 영향을 미친다. 2. neighbor의 개수, k값에 영향을 크게 받는다. 3. neighbor의 선택 기준,..

DataMining 2014.06.16

RANSAC

이게 데이터마이닝인지 참 애매하다,, 영상처리에서 모델피팅에 주로 사용되는 알고리즘이다. 어쨋든 유용한 정보만 땡겨내기 때문에 마이닝이라고 하자 모델 피팅 과정(걍 트래킹)에서 가장 큰 문제가 되는 것들 중 하나는 바로 Outlier (필요하지 않는 튀는 점, 모델과 동떨어진 곳에 위치하는 점)처리 문제이다. 이 Outlier들은 모델 피팅을 할 때 상당히 큰 잡음으로 작용하여 올바른 결과가 산출되는데 방해가 된다. 그래서 이런 Outlier들은 모델피팅하는 과정에서 무시되거나 적은 가중치를 적용하여 알고리즘에 끼치는 영향을 감소시켜야 한다. 이걸 효과적으로 처리할 수 있는게 바로 RANSAC 알고리즘이다. 기본적 아이디어는 참 단순하다. 과연그럴까 RANSAC은 피팅하고자 하는 모델을 구성하기 위한 최..

DataMining 2014.06.16

선형회귀분석

선형회귀분석 X, Y라는 두 변수가 있다 상관 분석을 통해 Y ~ X가 상관관계가 있음을 파악했다 여기서, 더 나아가 Y = aX + b 라는 방정식까지 얻을 수 있다면, X라는 변수로 Y를 예측할 수 있게된다 이걸 회귀방정식이라고 한다 이걸 얻어내는 과정은 회귀분석이라고 한다 한 변수 혹은 여러 변수가 다른 변수에 미치는 영향력의 크기를 수학적 관계식으로 추정하고 분석한다. 이런 일차방정식을 구하는 것을 선형회귀분석이라고 한다 회귀분석 특성치의 경향을 파악하는 수단으로, 독립변수와 종속변수의 상관관계 중 가장 단순한 회귀식으로 두 변수 사이의 선형관계를 그래프를 사용하지 않고, 통계확률에서 최소제곱법의 원리를 이용한 회귀분석으로 보다 정확한 출력을 보장한다. 선형회귀분석을 선호하는 이유 - 단순하고 다..

DataMining 2014.06.16

연관규칙 (Association Rule)

연관규칙이란? 어떤 사건들이 같이 일어나는지 알아보는 규칙 예를들어보자 - 넥타이를 구매하는 고객은 정장을 같이산다 - 금요일 오후 젊은 남자들이 기저귀를 사면 맥주도 같이산다 요런원리다 그래서, 1. 아이템과 트랜잭션(거래정보) 정의 ↓ 2. 규칙찾기 ↓ 3. 결과분석 1-1 아이템의 분류 (Taxonomy) 1-2 트랜잭션(거래정보)의 특성 연관규칙 분석은 트랜잭션 데이터만으로도 분석 가능 - 알려진 데이터의 가공 - 인구통계 데이터까지 더해지면 더욱 가치있어질 수 있다 - 이 데이터는 목표변수를 갖지 않기 때문에, 비교사학습을 한다 2. 규칙찾기 Support (지지율) - P(A) or P(A, B) // A의 확률 or A, B가 일어날 확률, Probably - 사건이 일어나는 비율 - 전체 ..

DataMining 2014.06.16

평가기법 - 오류율 계산

마이닝 결과에 대한 평가기법에는 여러가지가 있겠지만,, 딱 일곱개만 알아보겠다. 그리고 모두 수치적 데이터에 대한 평가방법이다. 평균제곱오차 (Mean Squared Error) 루트평균제곱오차 (Root Mean Squared Error) 평균절대값오차 (Mean Absolute Error) 상대적평균오차 (Relative Squared Error) 루트상대적평균오차 (Root Relative Squared Error) 상대적절대값오차 (Relative Absolute Error) 상관계수 (Correlation Coefficient) 이렇게 있다 그런데 이 중에서 내가 빨간색으로 해놓은 평균제곱오차(MSE)랑 상관계수만 알아둬도 될 것 같다 p : 예측값, a : 실측값, 위에 밑줄말고 윗줄쳐진거는 ..

DataMining 2014.06.16

K-Means

K-Means 유클리드 거리에 기반한 평균 클러스터링 마이닝 기법 단점 - 초기조건에 따라 매우 상이한 결과가 나온다 - 데이터의 모든 정보를 동일한 가중치로 계산하기 때문에 분별력이 약하다 - 클러스터링 데이터가 원의 형태를 띄게 되는데 원에 속하지 못하는 데이터가 생겨날 수 있다 K-Means 수행과정 - 임의의 K개의 군집수와 위치 설정 - 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속 - 군집으로 나누어진 데이터를 기준으로 군집 중앙의 위치를 재설정 - 새롭게 구한 군집 중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두번째부터 재 수행 이 과정을 통하여 K개의 군집으로 데이터를 구분, K값에 따라 클러스터링에 많은 영향을 받는다 데이터 처리에 따른 두가지 방..

DataMining 2014.06.16

교사학습과 비교사학습

이것도 그리 길지않은내용입니다. 교사학습(Supervised Learning) - Classification 트레이닝 데이터로 부터 새로 입력된 타겟 데이터의 성질을 분류해낸다 요고는 Classification 트레이닝 데이터는 입력된 트레이닝 객체에 대한 속성을 벡터형태로 갖고있고, 이 벡터와 새로이 들어온 타겟 데이터의 속성을 비교하여 분류해낸다. - 나이브 베이지안 - 서포트 벡터 머신 (SVM) - 회귀분석 - 신경망 등이 있다 비교사학습(Unsupervised Learning) - Clustering 트레이닝 데이터가 존재하지 않는 분류방식으로 이것들을 클러스터링이라한다 타겟 데이터가 어떤 속성으로 구성되어있는지 알아내는데 중점을 두고 이 타겟 데이터를 유사한 것 끼리 묶어주는 것 - K-Mea..

DataMining 2014.06.16

나이브 베이지안 분류기

먼저 베이즈의 정리를 한번 보자꾸나 P(A|B) = P(B|A)P(A)/P(B) 여기에서 P(A|B) - 사건B가 발생한 상태에서 사건A가 발생할 조건부 확률 P(B|A) - 사건A가 발생한 상태에서 사건B가 발생할 조건부 확률 P(A) - 사건A가 발생할 확률, B에 대한 어떠한 정보도 없는 상태에서 A가 발생할 확률 P(B) - 사건B가 발생할 확률, A에 대한 어떠한 정보도 없는 상태에서 B가 발생할 확률 헷갈린다.. 간단하게 공식이 어떻게 유도되는 지 보자. P(B|A) = P(A^B)/P(A) 이므로 P(A^B) = P(B|A)P(A)라고 쓸 수 있다. 따라서 P(A|B) = P(A^B)/P(B) = P(B|A)P(A)/P(B) 벤다이어그램을 통하여 정리자체를 이해하는 건 참 쉬워보인다. 그럼 ..

DataMining 2014.06.16