결합분포 ${P}(x,y)$는 위 그림과 같이 각각의 ${Y}$값, ${X}$값에 따라 칸을 나눈경우, 각각의 칸에 대해서 하늘색 점들을 셀 수 있다.
각각의 칸에 대해서 개수를 세게되면 이를 통해 현재 주어진 데이터의 결합분포를 가지고 원래 확률분포 ${D}$를 모델링할 수 있다.
원래 확률분포 ${D}$가 이산인지 연속인지에 따라서 결합분포 ${P}(x,y)$를 이산인지 연속인지 결정하는 것은 아니다. (원래 확률분포가 연속형이라 하더라도 결합분포를 이산형으로 사용해볼 수 있다. 즉, 결합분포는 원래 확률분포와는 상관없이 모델링 방법에 따라 결정되는 것!)
${P}(x)$는 입력 ${x}$에 대한 주변확률분포로 ${y}$에 대한 정보를 주진 않는다.
$$ {P}(x) = \sum_y {P}(x,y) $$
$$ {P}(x) = \int_y {P}(x,y)dy $$
조건부확률분포 ${P}(x|y)$는 입력 ${x}$와 출력 ${y}$ 사이의 관계를 모델링한다.
조건부확률과 기계학습
조건부확률 ${P}(y|x)$는 입력변수 x에 대해 정답이 y일 확률을 의미한다.
연속확률분포의 경우 ${P}(y|x)$는 확률이 아니고 밀도로 해석해야 한다.
분류 문제에서 $softmax({W} \phi (x)+b)$는 데이터 $x$로부터 추출된 특징패턴 $\phi (x)$와 가중치행렬 $W$를 통해 조건부확률 $P(y|x)$를 계산한다.
회귀 문제의 경우 연속형확률변수이기 때문에 조건부기대값 ${E}[y|x]$를 추정한다.
기대값이란?
기대값(expectation)은 데이터를 대표하는 통계량
확률분포를 통해 다른 통계적 범함수(statistical function)를 계산하는데 사용된다.
기대값을 이용해 분산(Variance), 첨도(Skewness), 공분산(Covariance) 등 여러 통계량을 계산할 수 있다.
몬테카를로 샘플링
기계학습의 많은 문제들은 확률분포를 명시적으로 모를때가 대부분이다. → 확률분포를 모를 때, 데이터를 이용하여 기대값을 계산하려면 몬테카를로(MonteCarlo) 샘플링 방법을 사용해야 한다.