Feature Support Maxtrix

JungGwig 2020. 5. 29. 13:07

LAMB

- Layerwise Adaptive Moments based Optimizer의 약자

- 매우 큰 배치 사이즈로 딥러닝 모델을 학습할 때 학습 성능을 향상 시키기 위한 Optimizer이다.

- global batch size가 32768~65536으로 BERT 모델을 학습 시킬 때 Adam Optimizer를 사용했을 때 보다 성능이 15% 향상되었다.

- 많은 수의 GPU를 이용하여 많은 큰 batch size를 할당할 경우 학습 속도는 Adam보다 72배는 빨랐다.

- Adam은 모든 파라미터에 글로벌하게 적용되기 때문에 사용할 수 있는 Learning Rate에 한계가 있는 반면, LAMB는 계층별 Learning Rate 전략을 따른다.