기초_개념/Machine_Learning
Principal Component Analysis
JungGwig
2021. 1. 17. 02:30
PCA (주성분 분석)
- 고차원 데이터에는 불필요한 변수가 다수 존재하고, 시각적으로 표현하기 어렵습니다.
- PCA는 차원 축소를 통해 고차원 데이터를 효과적으로 분석할 수 있도록 하며 시각화, 군집화, 압축 등을 가능하게 해줍니다.
- 차원 축소 방법
- Feature Selection : 분석 목적에 부합하는 소수의 예측 변수만을 선택
- 장점 : 선택한 변수 해석 용이
- 단점 : 변수간 상관관계 고려 어려움
- Supervised 방법 : Information gain, LASSO, Stepwise Representation, etc...
- Unsupervised 방법 : PCA loading
- Feature Extraction : 예측변수의 변환을 통해 새로운 변수 추출
- 장점 : 변수간 상관관계 고려, 변수의 개수를 많이 줄일 수 있음.
- 단점 : 추출된 변수의 해석이 어려움
- Supervised 방법 : Partial least squares (PLS)
- Unsupervised 방법 : PCA, Wavelets transformers, Autoencoder
- Feature Selection : 분석 목적에 부합하는 소수의 예측 변수만을 선택
- PCA는 n 개의 관측치와 p 개의 변수로 구성된 데이터를 상관관계가 없는 k 개의 변수로 구성된 데이터로 요약하는 방식으로, 이 때 요약된 변수는 기존 변수의 선형조합으로 생성됩니다.
- PCA의 목적은 아래 그림과 같이 원래 데이터의 분산을 최대한 보존하는 새로운 축을 찾고, 그 축에 데이터를 Projection 시키는 기법으로 일반적으로 전체 분석 과정 중 초기에 사용되는 경우가 많습니다.
이 글은 www.youtube.com/watch?v=FhQm2Tc8Kic&t=3s 강의를 보며 정리한 내용입니다.