DataMining

연관규칙 (Association Rule)

MOLOKINI 2014. 6. 16. 00:26

연관규칙이란?

어떤 사건들이 같이 일어나는지 알아보는 규칙

예를들어보자
  - 넥타이를 구매하는 고객은 정장을 같이산다
  - 금요일 오후 젊은 남자들이 기저귀를 사면 맥주도 같이산다
요런원리다

그래서,
1. 아이템과 트랜잭션(거래정보) 정의
                       ↓
2. 규칙찾기
                       ↓
3. 결과분석


1-1 아이템의 분류 (Taxonomy)          


 

1-2 트랜잭션(거래정보)의 특성

연관규칙 분석은 트랜잭션 데이터만으로도 분석 가능

  - 알려진 데이터의 가공

  - 인구통계 데이터까지 더해지면 더욱 가치있어질 수 있다

  - 이 데이터는 목표변수를 갖지 않기 때문에, 비교사학습을 한다



2. 규칙찾기

 

Support (지지율)

  - P(A) or P(A, B) // A의 확률 or A, B가 일어날 확률, Probably

  - 사건이 일어나는 비율

  - 전체 거래 가운데 A 또는 A, B 모두가 들어있을 비율

  - 지지율 = A, B를 포함한 거래수 / 전체거래수


Confidence (신뢰도)

  - P(B|A) = P(A, B) / P(A)

  - 선행 사건이 일어나고 난 후 후행 사건이 일어날 확률

  - 항목 A가 발생한 상태에서 B가 발생할 확률

  - 1에 가까울 수록 확률이 높다


Lift (향상도)

  - P(B|A) / P(B)

  - 예측에 있어서 무작위 추측에 비해 규칙이 얼마나 더 우수한가

  - Confidence를 후행사건의 빈도로 나누어 주는 것

    + Lift = Confidence / P(B)

    + 의미없는 규칙을 피하기 위해 (결과값이 1보다 커야 유용한 값)

    + 예를들어보자

      * Conf(A -> B) = 0.9

      * if P(B) = 1, then Lift(A -> B) = 0.9

      * if P(B) = 0.1, then Lift(A -> B) = 9


'DataMining' 카테고리의 다른 글

RANSAC  (0) 2014.06.16
선형회귀분석  (0) 2014.06.16
평가기법 - 오류율 계산  (0) 2014.06.16
K-Means  (0) 2014.06.16
교사학습과 비교사학습  (0) 2014.06.16