Layer Normalization
Batch Normalization 이라고도 불리며, 배치에 있는 각 입력을 평균이 0 이고 분산이 1 을 가지도록 정규화하는 작업을 의미한다.
Two Methods for Layer Norm
layer norm 방식은 크게 두가지가 있는데, post layer norm 또는 pre layer norm 방식이 존재한다.

(1) Post Layer Normalization
transformer 논문에서 사용한 방식으로, skip connection 를 적용한 이후에 정규화를 적용하는 방식이다.
gradient 가 발산하는 경우가 있으므로 훈련하기 까다롭다. 이에 대비하여 Learning rate 를 작은 값에서 시작해서 최대 값으로 Incremental 하게 증가시키는 learning rate-warm up 방식을 적용한다.
(2) Pre Layer Normalization
정규화를 적용한 결과에 skip connection 을 적용하는 방식이다. 보다 안정적으로 적용되며 일반적으로 learning rate warm-up 이 필요하지 않다고 한다.
구체적인 내용은 이 논문: On Layer Normalization in the Transformer Architecture 을 참고
Related
References
Paper Link: https://arxiv.org/pdf/1607.06450.pdf