Recent Posts
Recent Comments
Archives
반응형
250x250
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
Today
Yesterday

Total
04-29 05:43
관리 메뉴

Hey Tech

[Deep Learning] 최적화(Optimizer): (3) RMSProp 본문

AI & 빅데이터/머신러닝·딥러닝

[Deep Learning] 최적화(Optimizer): (3) RMSProp

Tony Park 2022. 5. 21. 02:16
728x90
반응형

1.  개념

RMSProp는 딥러닝 최적화 기법 중 하나로써 Root Mean Sqaure Propagation의 약자로, 알엠에스프롭(R.M.S.Prop)이라고 읽습니다.

✋등장배경

최적화 기법 중 하나인 AdaGrad는 학습이 진행될 때 학습률(Learning rate)이 꾸준히 감소하다 나중에는 \(0\)으로 수렴하여 학습이 더 이상 진행되지 않는다는 한계가 있습니다. RMSProp은 이러한 한계점을 보완한 최적화 기법으로써 제프리 힌튼 교수가 Coursea 강의 중에 발표한 알고리즘입니다.

🛠 원리

RMSProp은 AdaGrad와 마찬가지로 변수(feature)별로 학습률을 조절하되 기울기 업데이트 방식에서 차이가 있습니다. 이전 time step에서의 기울기를 단순히 같은 비율로 누적하지 않고 지수이동평균(Exponential Moving Average, EMA)을 활용하여 기울기를 업데이트합니다. 즉, 알고리즘의 핵심은 가장 최근 time step에서의 기울기는 많이 반영하고 먼 과거의 time step에서의 기울기는 조금만 반영하는 점입니다.

🧮 수식

수식과 함께 자세히 알아보겠습니다.

 

$$ g_{t} = \gamma g_{t-1} + (1-\gamma)(\nabla f(x_{t-1}))^{2} $$

$$ x_{t} = x_{t-1} - \frac{\eta}{\sqrt{g_{t} + \epsilon}} \cdot \nabla f(x_{t-1}) $$

  • \(g_{t}\): \(t\)번째 time step까지의 기울기 누적 크기
  • \(\gamma\): 지수이동평균의 업데이트 계수
  • \(\epsilon\): 분모가 \(0\)이 되는 것을 방지하기 위한 작은 값 \(\approx 10^{-6}\)
  • \(\eta\): 학습률

\(t\)번째 time step의 누적 기울기(\(g_{t}\))는 이전 time step까지의 누적 기울기(\(g_{t-1}\))에 \(\gamma\)를 곱해 점차 작게 만들어 주고, 새로운 Gradient에는 \((1-\gamma)\)를 곱한 값을 더하여 업데이트합니다. 이 값의 제곱근 역수를 \(t\)번째 time step에서의 \(x_{t}\)의 학습률에 곱합니다. 이때 \(g_{t}\)가 \(0\)인 경우 값이 무한대로 발산할 수 있기 때문에, 이를 방지하기 위해 매우 작은 값(\(\epsilon\))을 같이 더해 줍니다.

2.  장점

RMSProp 알고리즘의 장점은 크게 2가지입니다.

  • 변수(feature)마다 적절한 학습률을 적용하여 효율적인 학습을 진행할 수 있다는 점
  • AdaGrad보다 학습을 오래 할 수 있다는 점

AdaGrad에서는 \(g_{t}\)를 계산할 때 \(g_{t-1}\)와 새로운 Gradient의 값을 보정하지 않고 그대로 더하였기 때문에 학습이 진행될수록 무한정 커지는 경우가 발생했습니다. 반면, RMSProp은 \(\gamma\)를 활용하여 \(g_{t}\)가 무한정 커지는 것을 방지하기 때문에 오래 학습할 수 있습니다.

📚참고할 만한 포스팅

1. [Deep Learning] 퍼셉트론(Perceptron) 개념 이해
2. [Deep Learning] 퍼셉트론(Perceptron) 학습방법 및 절차
3. [Deep Learning] 활성화 함수의 개념 및 종류: sign, tanh, sigmoid, softmax, ReLU
4. [Deep Learning] 손실함수(Loss Function) 개념
5. [Deep Learning] 평균제곱오차(MSE) 개념 및 특징
6. [Deep Learning] 평균절대오차(MAE) 개념 및 특징
7. [Deep Learning] 최적화 개념과 경사 하강법(Gradient Descent)
8. [Deep Learning] 최적화 기법: (1) Momentum
9. [Deep Learning] 최적화 기법: (2) AdaGrad
10. [Deep Learning] 최적화 기법: (3) RMSProp
11. [Deep Learning] 최적화 기법: (4) Adam


포스팅 내용에 오류가 있다면 아래에 댓글 남겨주시길 바랍니다.
그럼 오늘도 멋진 하루 만드시길 바랍니다 :)
고맙습니다😊

728x90
반응형
Comments