머신러닝에서의 Feature Engineering

피쳐엔지니어링은 문제해결에 용이하게 피쳐들을 설계하는 것이다. 머신러닝에서 문제해결을 더욱 용이하게 한다는 것은 모델의 정확도를 높히거나 불필요한 계산과 데이터 요구를 줄여주는 것이다.

Feature engineering의 목적은 모든 feature들이 target과 학습가능한 관계를 가지게 feature set을 구성하는 것이다.

먼저, 그 목적을 이루기 위해서 기본으로 주어진 feature들과 target간의 관계를 이해해야한다. 그 다음 모든 feature들과 target의 관계가 모델이 학습가능한 관계가 되게끔 feature set을 재설계 해야한다. 각 모델은 그 종류에 따라 자신이 학습가능한 관계가 정해져있다. 예를들어 선형모델은 오직 선형관계만 학습가능하다. 그러기 위해선 관계가 없는 feature들은 버리고 관계가 있지만 모델이 학습하기 어려운 feature들은 수정이 필요하다.

Feature Engineering의 기법들

1. Feature Importance 측정 : Mutual Information(MI)

mutual information은 두 변수간의 상호 의존성을 측정한 것. feature-target간의 MI는 feature importance가 된다. 여기서 측정한 target과의 MI값이 낮은 feature들의 정보들을 조합해서 더 높은 MI값을 가진 새 feature를 만들어 모델에서 정보를 더 잘 활용할 수 있게 하는 것이 Feature Engineering의 핵심이다.

기본 원리

서로다른 두 변수에 대해서, 서로간의 상호 의존성이 클수록 한 변수의 정보 엔트로피(불확실성) 감소가 다른 변수의 정보 엔트로피(불확실성) 감소에 전이되는 정도가 커진다. 따라서 한 변수의 정보 엔트로피가 줄어들때 다른 변수의 정보 엔트로피가 얼만큼 줄어드는지를 측정한다.

정보 엔트로피

어떤 상태에서 얻을 수 있는 정보량의 기대값이다. 이는 어떤 상태가 가진 정보의 불확실성으로 해석된다.

정보량

어떤 사건으로부터 새롭게 얻을수 있는 정보의 양이다. 이는 미래에 시행을 했을때 해당 사건이 발생할 것을 얼마나 확신하는지를 나타낸다. 확신하는 만큼 이미 어느정도의 정보를 알고 있는 것이기에 얻을 수 있는 정보의 양이 적다. 어떤 사건이 발생할 확률의 역수에 로그를 취한 값으로 정의되며 그 단위는 다음과 같다.

어떤 사건이 발생할 확률이 p일때,

$$\log_{2}{1\over p}\ bit = \log_{2}{1\over p}\ Sh = \ln{1\over p}\ nat$$

$n\ bit$의 정보량은 다음과 같다

$2^n$개의 면을가진 주사위를 굴리기 전의 정보 엔트로피값
동전던지기를 $n$회 수행하는 확률실험의 정보 엔트로피값
아직 안읽은 n비트짜리 메시지가 가지는 정보 엔트로피값

정보 엔트로피는 확률분포가 균일할수록 높아진다.

엔트로피는 전체 dataset에서 해당 variable의 값이 얼만큼 균일하게 분포하는가로 판단할 수 있다. 그러면 feature importance(로 사용될 m.i)는 해당 feature의 각 value가 주어졌을때의 target의 균일도 감소량을 구하고 그 값들을 평균낸값으로 생각 할 수 있다.

MI의 상관관계 해석

target과의 MI가 높을수록 그 feature-target은 강한 선형관계를 가진다. 모든 지도학습 모델은 강한 선형관계에서 가장 잘 학습되므로 모델에 가장 적합한 feature라 할 수 있다.

구현

2. 새 Feature 생성 : 낮은 MI의 Feature들로부터 높은 MI를 가진 Feature들을 만드는 주요 전략들

Numerical Feature들이 결합된 정보를 가진 Feature

Numerical Feature들의 수학적 결합으로 새 Feature를 만든다. Ordered Categorical도 encoding후 같이 사용 가능하다.

Non-ordered Categorical Feature와 Numerical이 결합된 정보를 가진 Feature

Non-ordered Categorical feature끼리 결합한 feature는 target과 선형상관관계를 만들기 어렵다.

Count Feature

조건을 만족하는 Feature의 개수가 target과의 선형상관관계를 가질때

Feature를 여러 차원(Feature)으로 분해

어떤 Feature의 값들이 서로 다른 정보들의 조합으로 나타내질수 있다면. 그럼 그 Feature는 그 조합을 만드는 세부 Feature들로 분해되어 질 수 있다.

numerical feature가 분해가능한지 알기위해선 그 그래프가 복잡한 비선형 관계를 가지는지 확인하면된다.

Cat. Feat.은 분해가능한 여부가 그 카테고리 라벨에 명시적으로 나타난다.

Grouped Transform

어떤 feature의 값에따라 다른 feature를 그룹으로 묶고 그 그룹을 대표할수있는 값(평균이나 중간값)을 값으로 가지는 feature를 만든다.

9 Log

이 블로그 검색