Gradient Descent란 무엇이며, 왜 꼭 Gradient를 써야 할까?
머신러닝에서는 loss function의 값이 최소가 될 때의 파라미터(Weight, Bias)를 찾는 것이 목표이다.
loss function이 일반적인 2차 함수거나 복잡하지 않은 함수라면 단순히 극소점을 찾아서 최적의 파라미터를 찾을 수 있다.
그러나 현실적으로는 loss function이 복잡하기 때문에 Gradient를 이용해 loss function이 최솟값을 찾는다.
Gradient는 '이렇게 변하면 y값이 가장 크게 변할 것'이라는 방향성을 나타내기 때문에 (-)값을 곱해주어 더해주면 감소하는 방향을 구하며 이 방법을 Gradient Descent라고 한다.
그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까?
그래프에서 x축은 Weight, y축은 Cost이다.
실제 문제는 Cost Function이 단순하게 2차원 볼록함수 형태로 그려지지 않을 것이다.
https://mole-starseeker.tistory.com/46
https://tex.stackexchange.com/questions/544796/plot-gradient-descent