연관규칙이란?
어떤 사건들이 같이 일어나는지 알아보는 규칙
예를들어보자
- 넥타이를 구매하는 고객은 정장을 같이산다
- 금요일 오후 젊은 남자들이 기저귀를 사면 맥주도 같이산다
요런원리다
그래서,
1. 아이템과 트랜잭션(거래정보) 정의
↓
2. 규칙찾기
↓
3. 결과분석
1-1 아이템의 분류 (Taxonomy)
1-2 트랜잭션(거래정보)의 특성
연관규칙 분석은 트랜잭션 데이터만으로도 분석 가능
- 알려진 데이터의 가공
- 인구통계 데이터까지 더해지면 더욱 가치있어질 수 있다
- 이 데이터는 목표변수를 갖지 않기 때문에, 비교사학습을 한다
2. 규칙찾기
Support (지지율)
- P(A) or P(A, B) // A의 확률 or A, B가 일어날 확률, Probably
- 사건이 일어나는 비율
- 전체 거래 가운데 A 또는 A, B 모두가 들어있을 비율
- 지지율 = A, B를 포함한 거래수 / 전체거래수
Confidence (신뢰도)
- P(B|A) = P(A, B) / P(A)
- 선행 사건이 일어나고 난 후 후행 사건이 일어날 확률
- 항목 A가 발생한 상태에서 B가 발생할 확률
- 1에 가까울 수록 확률이 높다
Lift (향상도)
- P(B|A) / P(B)
- 예측에 있어서 무작위 추측에 비해 규칙이 얼마나 더 우수한가
- Confidence를 후행사건의 빈도로 나누어 주는 것
+ Lift = Confidence / P(B)
+ 의미없는 규칙을 피하기 위해 (결과값이 1보다 커야 유용한 값)
+ 예를들어보자
* Conf(A -> B) = 0.9
* if P(B) = 1, then Lift(A -> B) = 0.9
* if P(B) = 0.1, then Lift(A -> B) = 9
'DataMining' 카테고리의 다른 글
RANSAC (0) | 2014.06.16 |
---|---|
선형회귀분석 (0) | 2014.06.16 |
평가기법 - 오류율 계산 (0) | 2014.06.16 |
K-Means (0) | 2014.06.16 |
교사학습과 비교사학습 (0) | 2014.06.16 |