Machine Learning
Python - 카테고리컬 데이터 LabelEncoder(), OneHotEncoder()
웰시코기 5살
2022. 5. 10. 18:00
컴퓨터는 숫자로 처리해야 한다.
숫자가 아닌 데이터 중에서, 카테고리로 판단되는 데이터는 숫자로 바꿔줄 수 있다.

Label Encoding - 범주형 변수의 문자열을 수치형으로 변환
OneHot Encoding - 피쳐값의 유형에 따라 새로운 피쳐를 추가해 고유값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시
카테고리컬 데이터인 Mixer 와 Computer 를 0과 1로 변환하여 처리하는걸 볼 수 있다.
레이블 인코딩을 이용해 문자열을 숫자로 변환한 후
2차원 데이터로 변환하는 reshape을 사용
원-핫 인코딩을 적용한 모습