ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • MLOps 입력값 드리프트
    AI 2022. 7. 13. 15:46

    데이터 드리프트의 원인

    - 표본 선택의 편향 : 학습 표본이 모집단을 대표하지 않는 경우. 가중치 조절을 통해 편향성을 완화할 수 있지만 문제가 되는 특성을 알 수 없거나 특성을 알더라도 가중치 조절에 사용할 수 없는 경우가 많음.

    - 끊임없이 변화하는 환경 : 원천 모집단에서 수집한 학습 데이터가 대상 모집단을 대표하지 않는 경우. 계절별 예측 테스크의 경우 봄에 수집된 데이터가 여름 예측에서는 잘 동작하지 않을 수 있다.

     

    입력값 드리프트 감지 기법

    일변량 통계 테스트 ( Univariate Statistical Test )

    • 각 특성과 관련한 원천 데이터 분포에서 얻은 데이터와 대상 데이터 분포에서 얻은 데이터에 대해 통계적 검정을 수행
    • 접근법
      • 연속형 특성 : 콜모고로프-스미르노프 검정(Kolmogorov-Smirnov test)이 비모수 가설 검정(nonparametric hypothesis test)으로서, 두 표본이 동일한 분포에서 추출되었는지 여부를 확인하는데 사용될 수 있다. 실증적 분포 함수 사이의 거리를 측정
      • 범주형 특성 : 카이-제곱 검정(Chi-squared test)이 실용적 선택으로서, 대상 데이터에서 관측된 범주형 특성의 빈도가 원천 데이터에서 보인 예상 빈도와 일하는지 여부 확인
    • p-값
      • 장점 : 드리프트를 최대한 빨리 감지하는데 도움이 된다.
      • 단점 : 효과를 감지할 수 있지만 정량적으로 확인할 수 없다.

    도메인 분류기 ( Domain Classifier )

    • Classifier 모델을 활용하는 방식으로 원본 데이터 세트와 개발 데이터 세트를 구분하는 분류 모델을 학습시키고, 해당 모델이 학습 시 사용한 데이터와 새 데이터를 구분할 수 있다면, 드리프트가 발생했다고 볼 수 있다. 드리프트를 유발한 특성을 식별하기 위해서는 학습된 모델의 각 특성 중요도를 활용할 수도 있다.

     

     

    'AI' 카테고리의 다른 글

    Spark : 구조  (0) 2022.07.26
    Spark : Basic  (0) 2022.07.26
    Sequence To Sequence  (0) 2021.01.03
    Word Embedding  (0) 2020.12.29
    Data Sampling  (0) 2020.12.28

    댓글

Designed by Tistory.