기초_개념/Machine_Learning
-
Principal Component Analysis기초_개념/Machine_Learning 2021. 1. 17. 02:30
PCA (주성분 분석) 고차원 데이터에는 불필요한 변수가 다수 존재하고, 시각적으로 표현하기 어렵습니다. PCA는 차원 축소를 통해 고차원 데이터를 효과적으로 분석할 수 있도록 하며 시각화, 군집화, 압축 등을 가능하게 해줍니다. 차원 축소 방법 Feature Selection : 분석 목적에 부합하는 소수의 예측 변수만을 선택 장점 : 선택한 변수 해석 용이 단점 : 변수간 상관관계 고려 어려움 Supervised 방법 : Information gain, LASSO, Stepwise Representation, etc... Unsupervised 방법 : PCA loading Feature Extraction : 예측변수의 변환을 통해 새로운 변수 추출 장점 : 변수간 상관관계 고려, 변수의 개수를 많..
-
Multi Dimension Feature Space기초_개념/Machine_Learning 2020. 12. 30. 18:46
Feature Space 관측 값들이 있는 공간을 의미하며, 여러 차원으로 구성될 수 있다. 만약 특징 변수가 N 개라면 N 차원의 특징 공간을 갖는다. Curse of Dimensionality 우리가 직관적으로 이해할 수 있는 차원의 한계는 3차원 정도일 것이다. 하지만, 실제 머신러닝과 딥러닝에서 사용되는 데이터의 특징 공간은 큰 차원으로 표현된다. 차원의 저주 : 학습 데이터 각각이 수천 수백만 개의 Feature를 가지고 있을 때 훈련이 느리게 할 뿐만 아니라, 최적의 솔루션을 찾기 어렵게 만드는 현상 고차원으로 갈수록 전체 공간에서 데이터가 차지하는 공간이 매우 미비해진다. 즉, 새로운 데이터도 학습 데이터와 멀리 떨어져 있을 가능성이 높다. = 차원이 커질 수록 예측이 불안정해진다. = 특징..