기초_개념/Machine_Learning

Multi Dimension Feature Space

JungGwig 2020. 12. 30. 18:46

Feature Space

  • 관측 값들이 있는 공간을 의미하며, 여러 차원으로 구성될 수 있다.
  • 만약 특징 변수가 N 개라면 N 차원의 특징 공간을 갖는다.

Curse of Dimensionality

  • 우리가 직관적으로 이해할 수 있는 차원의 한계는 3차원 정도일 것이다. 하지만, 실제 머신러닝과 딥러닝에서 사용되는 데이터의 특징 공간은 큰 차원으로 표현된다. 
  • 차원의 저주 : 학습 데이터 각각이 수천 수백만 개의 Feature를 가지고 있을 때 훈련이 느리게 할 뿐만 아니라, 최적의 솔루션을 찾기 어렵게 만드는 현상
  • 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 공간이 매우 미비해진다. 즉, 새로운 데이터도 학습 데이터와 멀리 떨어져 있을 가능성이 높다. = 차원이 커질 수록 예측이 불안정해진다. = 특징을 추출하는데 많은 어려움이 있다.
  • 해결책
    • 학습 데이터의 밀도가 충분히 높아질 때까지 훈련 데이터의 크기를 키운다.
    • 차원 축소 ( Dimensionality reduction )
      • Feature Selection
        • 특정 피처에 종속성이 강한 불필요한 피처를 제거하는 방법
        • 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것 
      • Feature Extraction
        • 기존 필처를 저차원의 중요 피처로 압출하여 추출하는 것 
        • SVD ( Singular Value Decomposition ) 
        • PCA ( Principal Component Analysis )
        • LDA ( Latent Dirichlet Allocation Analysis )
        • NMF ( Non-negative Matrix Factorization )