sigmoid1 Non zero-centered activation function과 학습 비효율 CS231n 강의에서 나온 Sigmoid의 non zero-centered한 성질로 인한 학습 비효율에 대해 정확하게 이해하기 위해 정리한다. Sigmoid function의 특징으로는 non zero-centered 라는 점이고, 출력이 항상 양수로 나온다는 점이다. Sigmoid function을 activation function으로 사용했을 때, 학습에 어떤 영향을 끼칠까? 다음과 같은 단순한 형태의 네트워크가 있다고 하자.그리고 위 그림 1에서 색칠한 영역을 자세히 살펴보면 아래와 같다.입력 $x_{1}과 x_{2}$는 앞 layer의 Sigmoid 출력이기 때문에 항상 양의 값을 갖게된다. 그리고 경사 하강을 이용한 weight의 update 수식은 아래와 같다.$$ W \leftarr.. 2024. 5. 1. 이전 1 다음