One Hot Encoding
# Tag:
One Hot Encoding
N개의 클래스를 N차원의 One-Hot Vector로 표현되도록 변환한다.
One-Hot Vector
- 인코딩하려는 피처의 고윳값 개수를 구한다.
- 피처의 고윳값 개수만큼 열을 추가한다.
- 각 고윳값에 해당하는 열에 1을 표시하고 나머지 열에는 0을 표시한다.
- 숫자의 차이가 모델에 영향을 미치는 선형 계열 모델에서 범주형 데이터로 변환할 때 사용한다.
- 예측이 아닌 분류 문제에서는 대부분 정답 레이블을 첫 번째, 두 번째, 세 번째와 같이 순서로 나타내도록 데이터의 형태를 바꾸는데, 이 때 One-Hot Encoding이 이용된다.
장점
- Label Endoding의 문제(서로 가까운 숫자를 비슷한 데이터로 판단)를 해결한다.
- 분류의 문제에서 더 높은 성능으로 분류할 수 있다.
단점
열 개수가 늘어나 지나치게 많아지면 모델 훈련 속도가 느려지는 단점이 있다.