Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 530 Bytes

200310 ReZero is All You Need.md

File metadata and controls

7 lines (4 loc) · 530 Bytes

https://arxiv.org/abs/2003.04887

ReZero is All You Need: Fast Convergence at Large Depth (Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, Julian McAuley)

트랜스포머의 각 residual block에서 layer norm을 제거하고 마지막 레이어에 0으로 초기화된 학습 가능한 multiplier를 달아줘서 학습 초기에 identity처럼 동작하게 만드는 방법. 학습이 더 빠르다는 것이 장점. fixup이나 skipinit와 동일한 선상.

#initialization #norm_free