1 min read
..., post layer norm 또는 pre layer norm 방식이 존재한다. (1) Post Layer Normalization transformer 논문에서 사용한 방식으로, skip connection 를 적용한 이후에 정규화를 적용하는 방식이다. gradient 가 발산하는 경우가 있으므로 훈련하기 까다롭다. 이에 대비하여 Learning rate 를 작은 값에서 시작해서 최대 ...
Residual Connection 이란 residual connection 은 skip connection 과 동일한 개념으로, gradient 를 non linear 한 activation function 을 통과시키지 않고 network 로 직접 흘려보내는 방법을 의미한다. B) 사용...