-
Feature Support MaxtrixAI 2020. 5. 29. 13:07
LAMB
- Layerwise Adaptive Moments based Optimizer의 약자
- 매우 큰 배치 사이즈로 딥러닝 모델을 학습할 때 학습 성능을 향상 시키기 위한 Optimizer이다.
- global batch size가 32768~65536으로 BERT 모델을 학습 시킬 때 Adam Optimizer를 사용했을 때 보다 성능이 15% 향상되었다.
- 많은 수의 GPU를 이용하여 많은 큰 batch size를 할당할 경우 학습 속도는 Adam보다 72배는 빨랐다.
- Adam은 모든 파라미터에 글로벌하게 적용되기 때문에 사용할 수 있는 Learning Rate에 한계가 있는 반면, LAMB는 계층별 Learning Rate 전략을 따른다.
'AI' 카테고리의 다른 글
Neural Network architectures (0) 2020.11.05 Attention is all you need (0) 2020.06.16 [DL] Dropout (0) 2019.12.27 [ML] Logistic Regression (Classification) (0) 2019.12.11 [DL] Neural Nets for XOR (0) 2019.12.11