분류 전체보기 290

선형회귀분석

선형회귀분석 X, Y라는 두 변수가 있다 상관 분석을 통해 Y ~ X가 상관관계가 있음을 파악했다 여기서, 더 나아가 Y = aX + b 라는 방정식까지 얻을 수 있다면, X라는 변수로 Y를 예측할 수 있게된다 이걸 회귀방정식이라고 한다 이걸 얻어내는 과정은 회귀분석이라고 한다 한 변수 혹은 여러 변수가 다른 변수에 미치는 영향력의 크기를 수학적 관계식으로 추정하고 분석한다. 이런 일차방정식을 구하는 것을 선형회귀분석이라고 한다 회귀분석 특성치의 경향을 파악하는 수단으로, 독립변수와 종속변수의 상관관계 중 가장 단순한 회귀식으로 두 변수 사이의 선형관계를 그래프를 사용하지 않고, 통계확률에서 최소제곱법의 원리를 이용한 회귀분석으로 보다 정확한 출력을 보장한다. 선형회귀분석을 선호하는 이유 - 단순하고 다..

DataMining 2014.06.16

연관규칙 (Association Rule)

연관규칙이란? 어떤 사건들이 같이 일어나는지 알아보는 규칙 예를들어보자 - 넥타이를 구매하는 고객은 정장을 같이산다 - 금요일 오후 젊은 남자들이 기저귀를 사면 맥주도 같이산다 요런원리다 그래서, 1. 아이템과 트랜잭션(거래정보) 정의 ↓ 2. 규칙찾기 ↓ 3. 결과분석 1-1 아이템의 분류 (Taxonomy) 1-2 트랜잭션(거래정보)의 특성 연관규칙 분석은 트랜잭션 데이터만으로도 분석 가능 - 알려진 데이터의 가공 - 인구통계 데이터까지 더해지면 더욱 가치있어질 수 있다 - 이 데이터는 목표변수를 갖지 않기 때문에, 비교사학습을 한다 2. 규칙찾기 Support (지지율) - P(A) or P(A, B) // A의 확률 or A, B가 일어날 확률, Probably - 사건이 일어나는 비율 - 전체 ..

DataMining 2014.06.16

평가기법 - 오류율 계산

마이닝 결과에 대한 평가기법에는 여러가지가 있겠지만,, 딱 일곱개만 알아보겠다. 그리고 모두 수치적 데이터에 대한 평가방법이다. 평균제곱오차 (Mean Squared Error) 루트평균제곱오차 (Root Mean Squared Error) 평균절대값오차 (Mean Absolute Error) 상대적평균오차 (Relative Squared Error) 루트상대적평균오차 (Root Relative Squared Error) 상대적절대값오차 (Relative Absolute Error) 상관계수 (Correlation Coefficient) 이렇게 있다 그런데 이 중에서 내가 빨간색으로 해놓은 평균제곱오차(MSE)랑 상관계수만 알아둬도 될 것 같다 p : 예측값, a : 실측값, 위에 밑줄말고 윗줄쳐진거는 ..

DataMining 2014.06.16

K-Means

K-Means 유클리드 거리에 기반한 평균 클러스터링 마이닝 기법 단점 - 초기조건에 따라 매우 상이한 결과가 나온다 - 데이터의 모든 정보를 동일한 가중치로 계산하기 때문에 분별력이 약하다 - 클러스터링 데이터가 원의 형태를 띄게 되는데 원에 속하지 못하는 데이터가 생겨날 수 있다 K-Means 수행과정 - 임의의 K개의 군집수와 위치 설정 - 각각의 데이터에 대해 K개의 위치까지의 거리를 구하고 가장 가까운 군집에 소속 - 군집으로 나누어진 데이터를 기준으로 군집 중앙의 위치를 재설정 - 새롭게 구한 군집 중앙의 위치가 기존과 동일하면 알고리즘 종료, 다르면 두번째부터 재 수행 이 과정을 통하여 K개의 군집으로 데이터를 구분, K값에 따라 클러스터링에 많은 영향을 받는다 데이터 처리에 따른 두가지 방..

DataMining 2014.06.16

교사학습과 비교사학습

이것도 그리 길지않은내용입니다. 교사학습(Supervised Learning) - Classification 트레이닝 데이터로 부터 새로 입력된 타겟 데이터의 성질을 분류해낸다 요고는 Classification 트레이닝 데이터는 입력된 트레이닝 객체에 대한 속성을 벡터형태로 갖고있고, 이 벡터와 새로이 들어온 타겟 데이터의 속성을 비교하여 분류해낸다. - 나이브 베이지안 - 서포트 벡터 머신 (SVM) - 회귀분석 - 신경망 등이 있다 비교사학습(Unsupervised Learning) - Clustering 트레이닝 데이터가 존재하지 않는 분류방식으로 이것들을 클러스터링이라한다 타겟 데이터가 어떤 속성으로 구성되어있는지 알아내는데 중점을 두고 이 타겟 데이터를 유사한 것 끼리 묶어주는 것 - K-Mea..

DataMining 2014.06.16

나이브 베이지안 분류기

먼저 베이즈의 정리를 한번 보자꾸나 P(A|B) = P(B|A)P(A)/P(B) 여기에서 P(A|B) - 사건B가 발생한 상태에서 사건A가 발생할 조건부 확률 P(B|A) - 사건A가 발생한 상태에서 사건B가 발생할 조건부 확률 P(A) - 사건A가 발생할 확률, B에 대한 어떠한 정보도 없는 상태에서 A가 발생할 확률 P(B) - 사건B가 발생할 확률, A에 대한 어떠한 정보도 없는 상태에서 B가 발생할 확률 헷갈린다.. 간단하게 공식이 어떻게 유도되는 지 보자. P(B|A) = P(A^B)/P(A) 이므로 P(A^B) = P(B|A)P(A)라고 쓸 수 있다. 따라서 P(A|B) = P(A^B)/P(B) = P(B|A)P(A)/P(B) 벤다이어그램을 통하여 정리자체를 이해하는 건 참 쉬워보인다. 그럼 ..

DataMining 2014.06.16

PTAMM - ZMSSD, 3DOF

2011.12.25 작성된 내용입니다. - 크리스마스인데 눈물이 앞을 가리네요.. 그때 못놀았나봐요 ZMSSD Zero-mean Sum of Squared Differences 여기서 Sum of Squared Differences는 Mean Squared Error과 같다. Zero-mean은 평균이 0 즉, 평균이 0인 평균제곱오차 - 일반평균제곱오차보다 계산이 빨라 그런데 왜 빠른지까지는 이해가 잘 안돼 이게 뭔소리냐 전에 Datamining에 오류율계산부분에 평균제곱오차를 써놨던 적이 있다. 그걸따르면,, 평균제곱오차 예측값에 실측값의 오차에 제곱을 인스턴스의 개수대로 나눈거야. 그냥 하면 되지 왜 쓸데없이 제곱을 하느냐? 제곱을 하지 않으면 음의수나, 0이 나올 수도 있어.. 제대로된 평가를 하..

PTAMM - 수술도구 메뉴화면

2011.12.09 작성된 글입니다. 약간의 소스수정과 메뉴화면을 만들었다 소스수정내용은 이동, 회전, 크기변환시 가중치만 바꿨다. 기존의 가중치는 너무 낮아서 세밀한 표현은 가능했지만 그냥 느렸다 신속한 적용이 불가 그래서, 그냥 숫자만 늘려서 키웠다. 메뉴화면 아추버 그리고, 슬개골 만들었다. 3DMAX로 인체모형을 이용해서 슬개관절만 뽑아냈다. 그리고 인체모형이니까 개다리처럼 바꾸려고 약간 수정했다. 학교에서 받은 동영상의 개다리ㅋㅋ 슬개관절 MAX로 만든 다리 음 비슷해