Mutual Information과 Correlation의 차이점
공부하다가 문득 떠오른 의문이 있다.
왜 feature engineering에서는 correlation을 안쓰고 mutual information을 사용할까?
Mutual information은 correlation로 대체될수 없는 어떤 특징을 가진걸까?
Mutual Information과 Correlation가 가진 정보의 차이
mutual information은 두 변수의 정보 엔트로피간의 인과관계를 나타내는 정보고 correlation 두 변수 값들의 인과관계를 나타내는 정보다.
correlation으로 알수있는 정보는 오직 두 변수간의 인과관계의 선형성과 단조성이다. 이는 인과관계의 극히 일부분에 지나지 않는 정보다. 그래서 비선형의 인과관계를 지닌 변수들과 인과관계를 찾을 수 없는 변수들을 구분하지 못한다. 반면 mutual information은 그 인과관계의 구체적인 모양을 가르쳐주지 않지만 선형 비선형을 아우르는 전반적인 인과관계의 세기를 알려줄 수 있다.
댓글
댓글 쓰기