Gaussian Error Linear Units

GELU — PyTorch 2.4 documentation

B) GELU 함수 적용

Gaussian Error Linear Units (GELU) 함수는 다음과 같이 정의됩니다:

여기서 는 Gaussian 분포의 누적 분포 함수 (CDF) 를 의미합니다.

또한, tanh 를 사용하여 근사할 경우, GELU 는 다음과 같이 추정됩니다:

C) Approximate Argument 가 필요한 이유

GELU 는 아래처럼 생겼는데 x 축이 음에 가까울수록 출력이 flat 한 형태다. 이 식을 TensorFlow 에서 구현시 계산 속도가 느려진다는 이슈가 있어서 tanh function 를 활용한 approximate 수식을 적용했다고 한다.

2024 년 기준으로는 요즘엔 exact 버전과 별 차이가 없다고 한다.

D) Questions

  • 왜 GELU 가 ReLU function 보다 dead relu 이슈가 적을까?