Zzong's Notes

❯

machine_learning

❯

Initializing Weights

Initializing Weights

2026년 6월 14일2 min read

신경망의 모든 Weights 와 Bias 를 0 으로 설정하면 무슨일이 일어날까

Symmetric 하다. 즉, 매 iteration 마다 hidden units 들은 모두 같은 값을 출력한다.
그리고, hidden units 출력한 값들은 그 다음 units 에게 같은 영향을 준다.
결과적으로 back-propagation 에서 같은 update 를 진행하고, 얼마나 많은 학습을 진행하든 항상 같은 값을 출력한다.
그래서 이런 경우, hidden unit 한 개 이상은 의미가 없다.

B) Random Initialization

가장 쉬운 방법은 모든 weights 를 랜덤한 값으로 설정하는 것이다.
이 방법이 먹히는 이유는 symmetry 를 break 하기 때문이다.
그래서 bias 를 랜덤 값으로 설정하고, weights 를 모두 0 으로 설정해도 신경망은 학습한다.
하지만 너무 크면 안된다.
Why? Activation function(tanh or sigmoid) 의 gradient 계산 시, 기울기 값이 0 에 가깝기 때문에 gradient descent 에서 학습이 매우 느릴 가능성이 높기 때문이다.

C) Logistic Regression 의 경우

Logistic Regression 은 weight 들을 모두 0 으로 설정해도 상관없다.
왜냐하면 logistic regression 은 hidden layer 가 없으므로, 미분값이 순전히 weight 가 아니라 입력 $x$ 에 의존하기 때문이다.
그래서 first iteration 은 값이 동일할지 몰라도, second iteration 부터는 weights 가 $x$ 의 분포를 따를것이다.

함께 보면 좋은 글

regularization

Regularization Regularization 은 overfitting 문제를 완화하기 위한 방법이다.

backpropagation

Backpropagation Algorithm 다음과 같은 일련의 방법으로 역전파 알고리즘이 진행된다.

bias

Bias bias 는 데이터 내에 있는 모든 정보를 고려하지 않음으로 인해, 지속적으로 잘못된 것들을 학습하는 경향을 말한다. 어떤 모델을 학습시켰을 경우, 그 모델이 예측한 값과 실제 정답이 얼마나 멀리있는지를 나타내는가 생각해보면 된다.

logistic regression

Logistic Regression logistic regression model 은 classification 문제를 해결하는데 사용하는 모델이다.

logistic loss

Logistic Loss logistic regression 에서 사용하는 loss function 을 의미한다.

Normalization

Normalization Normalization 은 데이터의 scale 을 맞추는 전처리를 넓게 부르는 말이다. 문맥에 따라 의미가 조금 달라서, 실제로 어떤 변환을 말하는지 확인해야 한다.

gradient descent

Gradient Descent ML 모델 h 에 대한 적합한 (\theta i 와 같은) parameter 를 찾기 위한 방법 B) Visualization of Gradient Descent 아래는 parameter \theta 0 와 \theta 1 에 대한 loss function J 의 등고선 그래프이다.

Random search

Random Search Random Search 는 hyperparameter 탐색 공간에서 조합을 무작위로 sampling 해서 평가하는 방법이다. 모든 조합을 훑는 Grid Search 와 달리, 주어진 budget 안에서 다양한 영역을 넓게 찍어본다.

Decision boundary

Decision Boundary Decision boundary 는 label 값 y 가 0 인지 1 인지 결정하는 영역을 나누는 선이다.

Early Stopping

Early Stopping 2. Early Stopping 전략이란 무엇인가? Early Stopping 은 overfitting 현상을 완화하는 방법으로, 학습을 하다가 일정 기준에 의해 학습을 중간에 멈추는 방법을 의미한다.

신경망의 모든 Weights 와 Bias 를 0 으로 설정하면 무슨일이 일어날까
B) Random Initialization
C) Logistic Regression 의 경우