기초_개념/Machine_Learning
Multi Dimension Feature Space
JungGwig
2020. 12. 30. 18:46
Feature Space
- 관측 값들이 있는 공간을 의미하며, 여러 차원으로 구성될 수 있다.
- 만약 특징 변수가 N 개라면 N 차원의 특징 공간을 갖는다.
Curse of Dimensionality
- 우리가 직관적으로 이해할 수 있는 차원의 한계는 3차원 정도일 것이다. 하지만, 실제 머신러닝과 딥러닝에서 사용되는 데이터의 특징 공간은 큰 차원으로 표현된다.
- 차원의 저주 : 학습 데이터 각각이 수천 수백만 개의 Feature를 가지고 있을 때 훈련이 느리게 할 뿐만 아니라, 최적의 솔루션을 찾기 어렵게 만드는 현상
- 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 공간이 매우 미비해진다. 즉, 새로운 데이터도 학습 데이터와 멀리 떨어져 있을 가능성이 높다. = 차원이 커질 수록 예측이 불안정해진다. = 특징을 추출하는데 많은 어려움이 있다.
- 해결책
- 학습 데이터의 밀도가 충분히 높아질 때까지 훈련 데이터의 크기를 키운다.
- 차원 축소 ( Dimensionality reduction )
- Feature Selection
- 특정 피처에 종속성이 강한 불필요한 피처를 제거하는 방법
- 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것
- Feature Extraction
- 기존 필처를 저차원의 중요 피처로 압출하여 추출하는 것
- SVD ( Singular Value Decomposition )
- PCA ( Principal Component Analysis )
- LDA ( Latent Dirichlet Allocation Analysis )
- NMF ( Non-negative Matrix Factorization )
- Feature Selection