역전파 알고리즘(Back-propagation Algorithm)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Kicarussays

역전파 알고리즘(Back-propagation Algorithm) 본문

Deep Learning

역전파 알고리즘(Back-propagation Algorithm)

Kicarus 2020. 8. 6. 14:30

Francisco S. Melo 선생님의 Neural networks and the Back-propagation algorithm을 참고하였음을 밝힙니다.

구글에 검색하면 pdf파일 나오니까 참고하면서 보면 좋을 듯합니다. 여기에서 다운로드 받으실 수 있습니다.

이제 수식으로 역전파 알고리즘을 이해해볼텐데요, 편미분과 그래디언트 디센트 알고리즘(Gradient Descent Algorithm), 벡터의 내적과 행렬의 곱셈에 대한 개념이 있어야 이해에 도움이 될 것입니다.

1. 퍼셉트론(Perceptron)

퍼셉트론을 잘 나타내는 그림입니다. 데이터 $x = [x 0, \dots, x p] <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">x</mi></mrow><mo>=</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><msub><mi>x</mi><mn>0</mn></msub><mo>,</mo><mo>\dots</mo><mo>,</mo><msub><mi>x</mi><mi>p</mi></msub><mo data-mjx-texclass="CLOSE">]</mo></mrow></math>$ 가 activation 함수를 거치면

$a = w 0 + p \sum i = 1 w i x i = w ⊤ x <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>a</mi><mo>=</mo><msub><mi>w</mi><mn>0</mn></msub><mo>+</mo><munderover><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>p</mi></munderover><msub><mi>w</mi><mi>i</mi></msub><msub><mi>x</mi><mi>i</mi></msub><mo>=</mo><msup><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mrow data-mjx-texclass="ORD"><mi mathvariant="normal">⊤</mi></mrow></msup><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">x</mi></mrow></math>$

을 통해 $a <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>a</mi></math>$ 값을 얻게 됩니다. 여기서 $w = [w 0, \dots, w p] <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo>=</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">[</mo><msub><mi>w</mi><mn>0</mn></msub><mo>,</mo><mo>\dots</mo><mo>,</mo><msub><mi>w</mi><mi>p</mi></msub><mo data-mjx-texclass="CLOSE">]</mo></mrow></math>$ 로, weight 벡터로 보면 됩니다. 퍼셉트론이 $n <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>n</mi></math>$ 개의 뉴런을 가지고 있다면 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 는 $n \times p <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>n</mi><mo>\times</mo><mi>p</mi></math>$ 행렬이 되겠죠. 이렇게 얻은 $a <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>a</mi></math>$ 값이 Threshold 함수를 거치면 0과 1사이의 값을 갖게 됩니다. 보통 미분가능한 Threshold 함수로 Sigmoid 함수를 채택하는 것 같습니다. Sigmoid 함수는

$Sigmoid(x)=11+e−x<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>S</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mo stretchy="false">(</mo><mi>x</mi><mo stretchy="false">)</mo><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow data-mjx-texclass="ORD"><mo>−</mo><mi>x</mi></mrow></msup></mrow></mfrac></math>$

로 나타낼 수 있고, 그래프로 나타내면

이렇게 됩니다.

이 포스트에서는 역전파 알고리즘이 어떻게 작동하는지 보이는 것이 목적이기 때문에 퍼셉트론에 대한 설명은 이 정도로 충분할 것 같습니다. 다중 퍼셉트론에 대한 개념은 미리 알고 이 포스트를 보기를 권장합니다. 또한 이 포스트에서는 앞으로 이 Sigmoid 함수를

$σ(x)=11+e−x<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mi>σ</mi><mo stretchy="false">(</mo><mi>x</mi><mo stretchy="false">)</mo><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow data-mjx-texclass="ORD"><mo>−</mo><mi>x</mi></mrow></msup></mrow></mfrac></math>$

로 쓸 것입니다.

2. 역전파 알고리즘(Back-propagation Algorithm)

그림 3. Unit $j <math xmlns="http://www.w3.org/1998/Math/MathML"><mi>j</mi></math>$ in the network

먼저 이 그림을 보겠습니다. 각 $a j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mi>j</mi></msub></math>$ 는 이전 단계의 Sigmoid 함수를 거친 $z <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">z</mi></mrow></math>$ 벡터와 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 벡터의 내적을, 각 $z j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>z</mi><mi>j</mi></msub></math>$ 는 해당 $a j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>a</mi><mi>j</mi></msub></math>$ 의 Sigmoid 함수값을 나타냅니다.

우리의 목표는 우리가 만든 인공신경망을 통과하여 얻은 클래스값과 데이터가 실제로 가지고 있는 클래스값의 차이, 즉 오차를 최소화하는 것입니다. 오차들의 제곱합을 수식으로 나타내면 주어진 데이터셋 $D = {(x n, y n), n = 1, \dots, N} <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi data-mjx-variant="-tex-calligraphic" mathvariant="script">D</mi></mrow><mo>=</mo><mrow data-mjx-texclass="INNER"><mo data-mjx-texclass="OPEN">{</mo><mo stretchy="false">(</mo><msub><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">x</mi></mrow><mi>n</mi></msub><mo>,</mo><msub><mi>y</mi><mi>n</mi></msub><mo stretchy="false">)</mo><mo>,</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>\dots</mo><mo>,</mo><mi>N</mi><mo data-mjx-texclass="CLOSE">}</mo></mrow></math>$ 에 대하여,

$E(w)=12N∑n=1(ˆy(xn)−yn)2<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="ORD"><mi data-mjx-variant="-tex-calligraphic" mathvariant="script">E</mi></mrow><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mo data-mjx-texclass="OP">∑</mo><mrow data-mjx-texclass="ORD"><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mover><mi>y</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><msub><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">x</mi></mrow><mi>n</mi></msub><mo stretchy="false">)</mo><mo>−</mo><msub><mi>y</mi><mi>n</mi></msub><msup><mo stretchy="false">)</mo><mn>2</mn></msup></math>$

입니다. weight벡터에 따라 오차가 결정되는 것이죠. $ˆ y <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mover><mi>y</mi><mo stretchy="false">^</mo></mover></mrow></math>$ 는 데이터셋이 신경망을 통과하고 갖게 되는 값입니다. 우변의 앞에 $12<math xmlns="http://www.w3.org/1998/Math/MathML"><mfrac><mn>1</mn><mn>2</mn></mfrac></math>$ 를 붙인 까닭은 이후에 미분했을 때 모양을 잘 나오게 하기 위함입니다.

오차함수 $E <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi data-mjx-variant="-tex-calligraphic" mathvariant="script">E</mi></mrow></math>$ 를 최소화하는 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 를 구하기 위해 그래디언트 디센트 알고리즘(Gradient Descent Algorithm; GDA)가 필요하다는 것은 알고있어야 합니다. GDA에 대해 모른다면 이에 대해 먼저 공부하고 이 포스트를 읽기를 권장합니다.

아무튼 오차함수 $E <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi data-mjx-variant="-tex-calligraphic" mathvariant="script">E</mi></mrow></math>$ 는 각 데이터에 대한 오차들의 제곱합입니다. 따라서 GDA를 그대로 적용하기에 무리가 있죠. 따라서 역전파 알고리즘은 각 데이터의 오차 제곱을 $En(w)=12(ˆy(xn)−yn)2<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msub><mi>E</mi><mi>n</mi></msub><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mover><mi>y</mi><mo stretchy="false">^</mo></mover></mrow><mo stretchy="false">(</mo><msub><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">x</mi></mrow><mi>n</mi></msub><mo stretchy="false">)</mo><mo>−</mo><msub><mi>y</mi><mi>n</mi></msub><msup><mo stretchy="false">)</mo><mn>2</mn></msup></math>$ 으로 두기로 하고, 그러면 오차함수를 $E (w) = N \sum n = 1 E n (w) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="ORD"><mi data-mjx-variant="-tex-calligraphic" mathvariant="script">E</mi></mrow><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo><mo>=</mo><munderover><mo data-mjx-texclass="OP">\sum</mo><mrow data-mjx-texclass="ORD"><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>E</mi><mi>n</mi></msub><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo></math>$ 으로 다시 쓸 수 있습니다. 이제 GDA를 쓰기 괜찮은 모양이 되었습니다. $w \leftarrow w - η ▽ w E n (w) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">\leftarrow</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo>-</mo><mi>η</mi><msub><mi data-mjx-alternate="1">▽</mi><mrow data-mjx-texclass="ORD"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></mrow></msub><msub><mi>E</mi><mi>n</mi></msub><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo></math>$ 으로 GDA를 적용하여 $E n (w) <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>E</mi><mi>n</mi></msub><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo></math>$ 를 최소로 하는 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 를 찾을 수 있겠죠.

지금부터 편미분 개념이 필요합니다. 오차를 최소화하는 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 을 찾기 위해서 각 $w i j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></math>$ 에 대해 $E n <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>E</mi><mi>n</mi></msub></math>$ 을 편미분 할 것입니다. 이 과정을 통해 원래 우리가 하고자 했던 $w \leftarrow w - η ▽ w E n (w) <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">\leftarrow</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo>-</mo><mi>η</mi><msub><mi data-mjx-alternate="1">▽</mi><mrow data-mjx-texclass="ORD"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></mrow></msub><msub><mi>E</mi><mi>n</mi></msub><mo stretchy="false">(</mo><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow><mo stretchy="false">)</mo></math>$ 에서 $w <math xmlns="http://www.w3.org/1998/Math/MathML"><mrow data-mjx-texclass="ORD"><mi mathvariant="bold">w</mi></mrow></math>$ 를 $w i j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></math>$ 로 치환하여

$wij←wij−η∂En∂wij<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub><mo stretchy="false">←</mo><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub><mo>−</mo><mi>η</mi><mfrac><mrow><mi>∂</mi><msub><mi>E</mi><mi>n</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac></math>$ 을 구하는 것이죠. 한 번에 벡터를 구할 수 없으니 개별 값을 하나하나 구하는 것입니다. 그래디언트 기호가 편미분 기호로 바뀐 것은 $E n <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>E</mi><mi>n</mi></msub></math>$ 을 단일 변수인 $w i j <math xmlns="http://www.w3.org/1998/Math/MathML"><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></math>$ 에 대해 편미분 했기 때문입니다.

자, 이제 $∂En∂wij<math xmlns="http://www.w3.org/1998/Math/MathML"><mfrac><mrow><mi>∂</mi><msub><mi>E</mi><mi>n</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac></math>$ 를 구해야겠죠. Chain Rule을 이용해 다음과 같이 나타낼 수 있습니다.

$∂En∂wij=∂En∂aj∂aj∂wij<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mfrac><mrow><mi>∂</mi><msub><mi>E</mi><mi>n</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac><mo>=</mo><mfrac><mrow><mi>∂</mi><msub><mi>E</mi><mi>n</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>a</mi><mi>j</mi></msub></mrow></mfrac><mfrac><mrow><mi>∂</mi><msub><mi>a</mi><mi>j</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac></math>$

식이 좀 복잡하니 간단하게 풀어봅시다. $δj=∂En∂aj<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><msub><mi>δ</mi><mi>j</mi></msub><mo>=</mo><mfrac><mrow><mi>∂</mi><msub><mi>E</mi><mi>n</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>a</mi><mi>j</mi></msub></mrow></mfrac></math>$ 으로 두고, 그림 3을 통해

$∂aj∂wij=zi<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mfrac><mrow><mi>∂</mi><msub><mi>a</mi><mi>j</mi></msub></mrow><mrow><mi>∂</mi><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub></mrow></mfrac><mo>=</mo><msub><mi>z</mi><mi>i</mi></msub></math>$ 임을 알 수 있죠. ( $∵ <math xmlns="http://www.w3.org/1998/Math/MathML"><mo>∵</mo><msub><mi>a</mi><mi>j</mi></msub><mo>=</mo><mo>\dots</mo><mo>+</mo><msub><mi>w</mi><mrow data-mjx-texclass="ORD"><mi>i</mi><mi>j</mi></mrow></msub><msub><mi>z</mi><mi>i</mi></msub><mo>+</mo><mo>\dots</mo></math>$ ) 이제 이 식들을 모두 종합해 정리하면 $\frac{\partial E_{n}}{\partial w_{i j}} = δ_{j} z_{i}$ 입니다. 여기서 우리는 $z_{i}$ 을 이미 알고 있기 때문에 $δ_{j}$ 값만 계산하면 됩니다.

이제 두 가지 케이스로 나누어 생각해야합니다. 그 전에 수식을 좀 많이 봤으니 우리가 최종적으로 구하고자 하는 것이 무엇인지 상기하도록 하죠. 우리는 오차함수를 최소화하는 $w$ 를 구하기 위해 새로운 함수 $E_{n}$ 를 선언했고, 이 $E_{n}$ 을 최소화하기 위해 GDA를 사용할 것입니다. 그러기 위해 $E_{n}$ 을 $w_{i j}$ 에 대해 편미분하여 식을 간단히 바꾸는 과정까지 완료했습니다. $\frac{\partial E_{n}}{\partial w_{i j}}$ 를 구하기 위해 앞으로 나올 두 가지 케이스는 다음과 같습니다.

Case 1. $j$ 가 output unit일 때

$j$ 가 output unit이라면 $E_{n} = \frac{1}{2} (σ (a_{j}) - y_{n})^{2}$ 이 되겠죠. 여기서 우리는 양변을 $a_{j}$ 로 편미분할 것입니다. 그러면, $\frac{\partial E_{n}}{\partial a_{j}} = δ_{j} = σ^{'} (a_{j}) (σ (a_{j}) - y_{n}) = σ (a_{j}) (1 - σ (a_{j})) (σ (a_{j}) - y_{n})$ 이 됩니다. 도함수 $σ^{'}$ 가 위 식처럼 어떻게 변하는지는 직접 계산해보시기 바랍니다. 직접 해보면 그리 어렵지 않습니다.

Case 2. $j$ 가 output unit이 아닐 때(역전파)

$j$ 가 output unit이 아니라면, 해당 $a_{j}$ 에 대해서 Sigmoid 함수를 거친 $z_{j}$ 값이 있을 것이고, 그 $z_{j}$ 값과 연결된 다음 단계인 $k$ 번 째 Layer의 Node(weight)들이 있을 것입니다. 이해가 어려울 수 있는데 그림 3을 보면서 이해해보시기 바랍니다. 지금 우리가 구하고자 하는 값은 $\frac{\partial E_{n}}{\partial w_{j k}}$ 입니다. 이 값을 $δ_{k} z_{j}$ 로 간단하게 만들었었죠? 이미 $z_{j}$ 값은 알고있기 때문에 $δ_{k} = \frac{\partial E_{n}}{\partial a_{k}}$ 만 구하면 됩니다. 아래의 식을 보시죠.

$\frac{\partial E_{n}}{\partial a_{j}} = \sum_{k = 1}^{K} \frac{\partial E_{n}}{\partial a_{k}} \frac{\partial a_{k}}{\partial a_{j}} = \sum_{k = 1}^{K} δ_{k} \frac{\partial a_{k}}{\partial a_{j}}$

위 식에서 $a_{k}$ 는 $k$ 번 째 Layer에서 $a_{j}$ 로부터 영향을 받은 값들입니다. 즉 $z_{j} = σ (a_{j})$ 에 어떤 weight가 곱해진 값이겠죠. 그렇기 때문에 Chain Rule을 이용해 위와 같은 식으로 나타낼 수 있습니다. 이제 우리는 아래와 같은 식을 얻을 수 있습니다.

$\frac{\partial a_{k}}{\partial a_{j}} = w_{j k} σ^{'} (a_{j})$

앞에서 $a_{k}$ 는 $a_{j}$ 의 영향을 받았다고 했죠. 이것을 수식으로 나타내면 $a_{k} = \dots + w_{j k} σ (a_{j}) + \dots$ 입니다. $w_{j k}$ 는 $k$ 번 째 Layer의 $j$ 번 째 Node였죠. 따라서 이 weight가 $a_{j}$ 의 Sigmoid 함수값과 곱해진 값이 $a_{k}$ 를 구성하게 됩니다. 따라서 $a_{k}$ 를 $a_{j}$ 에 대해 편미분했을 때 위와 같은 식을 얻을 수 있는 것이죠. 따라서 $δ_{j}$ 에 대해

$δ_{j} = \frac{\partial E_{n}}{\partial a_{j}} = σ^{'} (a_{j}) \sum_{k = 1}^{K} w_{j k} δ_{k}$

위와 같은 식을 얻을 수 있습니다.

이제 역전파 알고리즘을 수행할 모든 준비가 끝난 것입니다. 알고리즘을 수행하기에 앞서 $w$ 의 초기값을 설정해주어야 합니다. 초기값을 잘 설정하는 방법이 있겠지만 저도 아직 딥러닝을 처음 공부하는 사람인지라,,^^ 일단 임의로 초기값을 설정하는 것으로 하죠.

역전파 알고리즘은 다음과 같습니다. 주어진 데이터셋 $D = {(x_{n}, y_{n}), n = 1, \dots, N}$ 에 대해,

1. 각 데이터 $(x_{n}, y_{n}) \in D$ 에 대해 forward propagate합니다.

forward propagate는 초기값을 설정한 퍼셉트론에 일단 데이터를 넣고 각 Layer와 Node에 대해 모든 $a_{j}$ 값들을 구하고 최종적으로 $\hat{y} (x_{n})$ 까지 모두 구하는 과정을 말합니다.

2. Output unit에 대해 $δ_{j}$ 를 구합니다.

3. 역전파 과정을 통해 output unit이 아닌 모든 $j$ 에 대해 $δ_{j}$ 를 구합니다.

4. 모든 노드들에 대해서 $\frac{\partial E_{n}}{\partial w_{i j}}$ 을 구합니다.

5. GDA로 $w_{i j}$ 의 수렴값을 찾습니다. 다음과 같은 식을 쓰면 되겠죠. $w_{i j} \leftarrow w_{i j} - η \frac{\partial E_{n}}{\partial w_{i j}}$

저작자표시

'Deep Learning' 카테고리의 다른 글

[Transformer 이해하기 3] Attention is all you need, Transformer 설명 및 코드리뷰 (0)	2022.01.25
[Transformer 이해하기 2] Neural Machine Translation by Jointly Learning to Align and Translate, Attention 설명 및 코드리뷰 (0)	2022.01.22
[Transformer 이해하기 1] Sequence-to-Sequence, seq2seq 설명 및 코드리뷰 (0)	2022.01.20
[논문리뷰/설명] DeepHit: A Deep Learning Approach to Survival Analysis with Competing Risks : 생존분석을 위한 딥러닝 (0)	2021.06.30
[논문리뷰/설명] A simple neural network module for relational reasoning (Relation Network): 관계형 추론을 위한 딥러닝 (1)	2021.03.25

'Deep Learning' Related Articles

Comments

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Kicarussays

Kicarussays

역전파 알고리즘(Back-propagation Algorithm) 본문

역전파 알고리즘(Back-propagation Algorithm)

1. 퍼셉트론(Perceptron)

2. 역전파 알고리즘(Back-propagation Algorithm)

'Deep Learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역