ReLU Function

요즘에 ReLU 를 많이 쓰지 않는 것 같아요. GeLU 와 SiLU 와 같은 non-ReLU 계열들이 더 빠른 convergence 를 가지고 성능 측면에서도 좋다는 결과들이 많이 등장했기 때문입니다.

  • 미분값
      • 원래는 에서 undefined 이긴 한데, 그냥 또는 로 쳐준다.

B) 장점

ReLU 는 non-ReLU 계열들과 다르게 activation sparsity 가 높습니다. pre-activation value 가 음수면 모두 0 으로 보내버리니 당연하겠죠? Activation sparsity 가 높으면 학습 및 추론에서 연산량을 줄일 수 있기 때문에 효율적입니다.

ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

scaling law 에서 얘기하는 바처럼 충분히 많은 데이터로 큰 모델을 학습할 때는 activation function 의 종류는 큰 영향을 주지 못한다고 말합니다.

C) 단점

  • 가 음수일 때, 미분값이 0 이므로 학습이 느려질 수 있다.
  • 하지만 실제로는 대부분의 값들은 보다 충분히 커서 학습이 상당히 빠르게 이루어 질 수 있다.

D) Related

E) References