머신러닝 : Pipeline 사용법
pipeline은 사용자가 정의한 데이터 전처리부터 모델학습 까지의 일련의 과정들을 하나의 class로 묶어 줍니다. 이로인해 사용자가 얻을 수 있는 장점은 다음과 같습니다.
- 코드가 간결하다
- 불필요한 변수 X
- 가독성 ↑
- ↳↳↳디버깅이 쉽다.
- cross-validation을 사용할 수 있다.
주요 파라미터
- steps : tuple list를 받아서 순서대로 실행한다.
- 각 tuple은 다음과 같이 구성
(alias, transformer or estimator) - 처음-중간 tuple은 transformer만 사용.
- 마지막 tuple은 transformer 또는 estimator사용.
↪estimator가 아니면 predict() 사용불가.
주요 메소드
- fit(X, y) : X를 step에 따라 각 transformer에서 fit_transform()하고 최종적으로 estimator를 fit()한다. [마지막 step이 estimator일 때만 가능]
- transform(X) : X를 step에 따라 transform()한 결과를 반환. [마지막 step이 transformer일때만 가능]
- predict(X) : X를 step에 따라 transform하고 estimator로 predict()한 결과 반환. [마지막 step이 estimator일때만 가능]
- fit_transform(X) : 모든 단계에서 fit_transform()한 결과를 반환. [마지막 step이 transformer일때만 사용가능]
- fit_predict(X, y) : fit()의 최종단계에서 estimator가 fit_predict()를 수행. [마지막 step이 estimator일 때만 가능]
댓글
댓글 쓰기