기본 콘텐츠로 건너뛰기

머신러닝 전처리, Categorical variable 처리법

머신러닝 전처리, Categorical variable 처리법

회귀분석 모델이 제대로 작동하기 위해서는 변수값들이 서로 order를 가져야만 한다. 하지만 categorical variable은 모델이 사용할만큼 그 order가 명시적이지 않다. categorical variable는 두가지로 나뉠 수 있다. 하나는 category 사이에 order가 있는경우, 나머지는 그렇지 못한 경우다. 전자의 경우는 각 category를 해당하는 order로 encoding하는 방법이 있다. 후자의 경우도 조금 복잡한 전처리 과정을 거쳐서 모델이 사용가능한 데이터로 encoding이 가능하다.

방법 1: Drop

그냥 버려서 모델에 노이즈로 작용하지 않게 한다.

방법 2: Ordinal Encoding

category가 자체적인 order를 가진 경우에만 사용가능한 방법이다. 각 category를 해당하는 order로 encoding 한다.

방법 3 : One-Hot Encoding

category가 order를 가지지 않는 경우를 위한 방법이다. 각 category별로 column을 만들고 column의 value가 (original value == category)에 대한 boolean value를 가지도록 encoding 한다. 이러면 각 column은 boolean value를 가지기 때문에 회귀분석모델에서 충분히 이용 가능하다. 다만 category 수가 많아지면 data의 column이 너무 많아지게 된다.

댓글

이 블로그의 인기 게시물

윈도우 10 마우스(커서) 옆에 자꾸 Progress bar(진행중 아이콘)가 나타난다면

이 글은 윈도우10 사용자 중 자꾸만 마우스 커서 옆에 뭔가가 실행중이라고 진행 아이콘이 뜨는 사람에게 조그마한 희망을 주는 글 입니다. 또한 백그라운드에서 프로그램이 실행되는 경우는 아주 다양하니 이 글에서 제시하는 방법은 수많은 문제 중 한가지 문제의 해결책일 뿐임을 미리 알려드립니다. 본인은 원래 해당컴퓨터에서 바이러스에 걸릴만한 행위를 일체 하지않았다. 토렌트나 웹하드는 전혀 사용하지 않고 인터넷에서 파일도 대기업의 공인된 파일만 다운받아서 썼었다. 그러나 어느 날 부턴가 다음과 같은 현상이 발생하였다. 아무런 프로그램도 실행중이지 않지만 자꾸 마우스 아이콘에 실행중이라고 뜨는 문제였다. 이해를 돕기위한 삽화 나는 실행한 프로그램이 없지만 뭔가가 실행중이라는 것은 백그라운드 서비스가 원인이라는 것이다. 그렇다면 어떤 서비스가 다음과같은 현상을 야기했을까? 나는 작업관리자에서 의심가는 백그라운드 프로세스를 종료해보았다. 바로 vpwalletservice VP.Inc에서 배포한 프로그램이었다. 아니나 다를까 해당 프로세스를 삭제하자마자 현상은 사라졌다. 백그라운드 서비스인만큼 msconfig의 서비스 목록에서도 제거하였고 이제 확실히 이런 현상은 발생하지 않을 것이다. 해당 프로그램은 현재 여러 문제를 야기시키는 것으로 인터넷에서 유명하다. 얼마전에는 해당프로그램이 윈도우 부팅시에 start process as current user get session user token failed 메시지를 띄우게 만들어 부팅을 방해했던 문제도 직접 경험해 본적이있다. 이 경우에도 해결방법은 같다.

Cubase : Serum 사용법(1) : 소개와 오실레이터, 필터, 모듈레이터의 사용법

큐베이스 가상악기 Serum 사용법(1) Serum 소개와 오실레이터, 필터, 모듈레이터의 사용법 1. Serum 이란? 큐베이스에서 사용가능한 가상악기 VST 플러그인 형태로 나온 Software Synthesizer 이다. 사운드의 시각화가 잘 되어있는게 특징이며, 웨이브테이블을 통해 다체로운 사운드를 만들 수 있는게 특징이다. Serum 사용 화면. 2. Serum 의 구조 소프트웨어 신디사이저는 구조는 다음과 같고 Serum도 이러한 구조로 이루어져있다. 신디사이저의 구조 여기에서 각 모듈들이 하는 역활은 다음과 같다. 오실레이터 (Oscillator) : 소리를 발진 시킨다. 필터 (Filter) : 오실레이터로부터 받은 소리를 필터링 한다. 엠프 (Amp) : 필터를 거쳐온 소리를 증폭시켜서 최종적으로 출력한다. 모듈레이터 (Modulator) : 각 모듈(오실레이터, 필터, 엠프)에 ENV, LFO 신호를 줘서 변형을 준다. ENV (Envelope Generator) : ADSR의 패턴을 가지고 신디사이저의 모듈들을 컨트롤 할 수 있는 Envelope를 생성한다. 보통 키보드 게이트의 신호를 통해 작동되어 시간에 따라 변하는 전압(Envelope)을 생성한다. LFO (Low Frequency Oscillator) : 저주파 발진기로. 저주파 패턴을 만들어서 음성을 변조하는대 사용한다. 그리고 Serum에서 각 모듈의 위치는 다음과 같다. Serum의 모듈 위치 3. Serum 각 모듈별 사용법 - 오실레이터(Oscillator) 오실레이터에서 Osc A, B가 활성화 되어있다 오실레이터는 크게 Sub와 Noise, Osc A, Osc B로 이루어져 있다. Sub는 기본파형을 발생시킬수 있으며 Noise는 치지직거리는 배경 잡음을 발생시키고, Osc A와 B는 각각 웨이브테이블을 이용해 다양한 파형의 소리를 발진시킨다. 각 요소

16진수를 10진수로 변환하기 + 10진수를 16진수로 변환하기 (C,C++)

/*16진수 를 10진수로 변환하는 프로그렘*/ #include <stdio.h> #include <math.h> #include <windows.h> int main(){         char c[8];     //4byte int변수의 최대 표현 범위는 2^31-1이므로 8자리 (16^8-1) 이상으로 필요하지 않다.     int i,sum=0,d;     // 최대 8자리의 16진수를 입력하되 만약 8자리의 16진수는 7까지만 입력가능.         printf("자릿수를 입력(최대 8 자리) : ");     scanf("%d",&d);         printf("%d자리 16진수 입력(최대 7FFFFFFF) : ",d);         scanf("%s",c);     for(i=0;i<d;i++){                      if('A'<=c[i]&&c[i]<='F')c[i]+=10-'A';                      else c[i]-='0';                      sum+=c[i]*pow(16,d-1-i);     }         printf("10진수 변환:  %d\n",sum);         system("PAUSE");     return 0;     }         /*10진수 를 16진수로 변환하는 프로그렘*/ #include <stdio.h> #include <windows.h> int main(){         char c[8];//8자리 이상 필요 없다.     //0~2^31-1까지 입력     //int는 4바이트지만 음수를 표현해야 하므로 31비트 까지만 양수로 표현 가능;     int i,d=0,z;