$$ w \leftarrow w - \eta \frac{\partial loss}{\partial w} $$
$$ b \leftarrow b- \eta \frac{\partial loss}{\partial b} $$
Beyond Linear Neural Networks
딥러닝은 Neural Network를 깊게 쌓은 것이다.
그러면 Network를 깊게 쌓을려면 어떻게 해야할까?
단순히 affine transform을 계속 곱한다면 이것은 한 단 짜리 neural network와 다를 것이 없다.
x라는 입력에서 y라는 출력으로 가는 mapping이 표현할 수 있는 표현력을 극대화하기 위해서는 단순히 선형결합을 N번 반복하는게 아니라 선형결합 뒤에 activation function을 통해서 Nonlinear transform을 거치는 과정을 N번 반복해야한다.
Universal Approximators Theorm
hidden layer가 한 개만 있는 neural network는 대부분의 continuous function을 근사할 수 있다.
이런 것을 만족하는 neural network가 세상 어딘가에 존재한다고 말할 수 있지만 내가 학습시킨 neural network가 그러한 성질을 가질 것이라고 말해서는 안된다.
→ Neural Network가 표현력이 크다라는 의미로 해석하면 된다.
Multi-Layer Perceptron
입력이 주어져있고 그 입력을 affine transformation과 non-linear transformation을 거쳐서 hidden vector, hidden layer에서 다시 affine transformation (과 non-linear transformation)을 하는 한 단 짜리 hidden layer가 있는 두 layer의 neural network를 보통 Multi-Layer Perceptron이라고 한다.