본문 바로가기

Machine Learning

Python - 카테고리컬 데이터 LabelEncoder(), OneHotEncoder()

컴퓨터는 숫자로 처리해야 한다.

숫자가 아닌 데이터 중에서, 카테고리로 판단되는 데이터는 숫자로 바꿔줄 수 있다.

 

 

Label Encoding - 범주형 변수의 문자열을 수치형으로 변환

OneHot Encoding - 피쳐값의 유형에 따라 새로운 피쳐를 추가해 고유값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시

 

카테고리컬 데이터인 Mixer 와 Computer 를 0과 1로 변환하여 처리하는걸 볼 수 있다.

 

 

 

레이블 인코딩을 이용해 문자열을 숫자로 변환한 후

2차원 데이터로 변환하는 reshape을 사용

원-핫 인코딩을 적용한 모습