ReLU의 활성 함수으로써의 사용과 미분 가능성

ReLU는 여러 딥러닝 모델에서 activation function으로써 쓰이고 있다.

(ReLU에서 생기는 문제를 해결하기 위한 다양한 variation들이 있긴 하지만)

$ReLU(x) = max(0, x)$

 import numpy as np
import matplotlib.pyplot as plt
 
x = np.linspace(-5, 5, 100)
y = np.maximum(0, x)
 
plt.plot(x, y)
plt.grid(True)
plt.xlabel("x")
plt.ylabel("ReLU(x)")

딥러닝에서는 모델 훈련 시 Gradient descent를 통해 Loss를 최소화하는 파라미터를 계산하는데,

Gradient descent를 위해서는 미분값을 필요로 한다.

하지만 activation function으로 사용되는 ReLU는 $x=0$ 에서 미분이 가능하지 않다.

그런데 어떻게 ReLU를 activation function으로 사용할 수 있고 Gradient descent를 적용할 때 기울기 계산에 문제가 없는 것일까?

수학적으로는 $x=0$ 일 때 미분이 가능하지 않지만 실제로는 노드에 정확히 0의 값으로 입력이 들어오는게 매우 드물기 때문에

단순하게 미분값을 0으로 처리한다고 한다.

이렇듯 딥러닝에서는 수학적인 개념이 공학적으로 사용될 때 조금의 차이가 있다.

참고

- https://www.quora.com/Why-does-ReLU-work-with-backprops-if-its-non-differentiable

- https://medium.com/@kashifrazagill006/unraveling-the-mystery-of-relu-why-its-continuous-but-not-differentiable-f2de995fb2df

'Machine Learning > Deep Learning' 카테고리의 다른 글

CNN에서 layer가 깊어질 수록 channel size를 키우는 이유 (0)	2024.05.31
Dropout vs Inverted Dropout (0)	2024.05.21
Manifold와 뉴럴 네트워크 학습 (0)	2024.05.20
Non zero-centered activation function과 학습 비효율 (1)	2024.05.01
Perceptron (0)	2024.03.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Be an Overachiever

ReLU의 활성 함수으로써의 사용과 미분 가능성

'Machine Learning > Deep Learning' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

	import numpy as np
	import matplotlib.pyplot as plt

	x = np.linspace(-5, 5, 100)
	y = np.maximum(0, x)

	plt.plot(x, y)
	plt.grid(True)
	plt.xlabel("x")
	plt.ylabel("ReLU(x)")

ReLU의 활성 함수으로써의 사용과 미분 가능성

'Machine Learning > Deep Learning' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역