인공지능/학습과추론

[최고의 복습은 시험기간에...] 학습과 추론 복습 시작!

Magdalena Kim 2024. 4. 20. 23:08

어떤 과목일까 궁금한 마음 + 인공지능에 대한 새로운 시각의 공부를 해볼 수 있지 않을까 하는 마음에 학습과 추론이라는 과목을 신청하게 되었다.

 

1주차 강의자료에 문을 여는 질문 'What is this course about?'

-> ABOUT 'Probabilistic Modeling and Inference with high dimensional data' !

 

확률 모델에 대해 배우고, 높은 차원의 데이터에 대한 추론의 방법에 대해 배우는 과목이었다!

 

아직까지는 모호하다!

차근차근 내용을 정리하며 이 과목이 어떤 학습 목표를 이루고자 하는지를 이해해보자.

 

[개요]

"Box's Loop"

우리는 모델을 Build한 후,

모델과 데이터를 이용해 Hidden Quantities를 추론한다!

추론해 낸 Hidden Quantities를 이용해 모델에 적용도 해보고,

데이터와 비교 후 모델을 Criticize 하기도 한다.

모델 평가 후 개선시키고, 다시 추론과 평가과 개선의 과정을 반복하며 우리는 '학습'이라는 것을 진행한다.

 

'학습'을 Bayesian 관점에서 바라보면

학습에 필요한 준비물인 모델, 추론 알고리즘, 모델 평가는 다음과 같이 수학적으로 정의될 수 있다.

 

1) 'Model'

= Joint Distribution of Parameters and Data

 

 → 동일한 표본공간에서 정의되는 두 개 이상의 확률변수의 분포결합확률분포 (joint probability distribution) 또는 결합분포(joint distribution)라 한다. (이 수업에서 정의하는 모델은 파라미터와 데이터라는 여러 개의 확률변수의 결합분포의 형태로 정의될 것이다.)

 

2) 'Inference Algorithm'

= Computing the Posterior Distribution of Parameters given Data

 

 →  데이터가 주어졌을 때(Condition) 파라미터가 나타내는 확률분포(Conditional Distribution의 일종)를 사후확률분포(Posterior Distribution)라고 한다.

 

3) 'Model Criticism'

= Posterior Expectations

 

 →  모델의 평가는 추론 알고리즘으로 정의한 사후확률분포의 기댓값을 이용해 진행한다.

 

아직은 모호하지만 이해를 위해서는 적용의 예시가 필요한 법!

앞으로 예시들을 통해 큰 그림 속 작은 퍼즐 조각들을 맞춰가보자!

 

이 과목 꽤나 수학과목이다. 그래서 Notation들이 꽤 많이(아주 진짜 많이) 나오는데 다 내가 적을 자신이 없어서 캡쳐본을 이용해야지.... 일단 기본 Notation에 대한 설명 페이지인데 이건 내가 알고 있으니까 일단은 구체적으로 코멘트를 하진 않겠어오.....ㅎ.ㅎ

 

아래 수식은 너무너무 유명한 Bayes' Rule 수식이다.

우리는 추론 알고리즘으로 Posterior Distribution을 사용할텐데 그 확률분포를 어떻게 구하느냐?

Bayes' Rule을 이용해서 파라미터와 데이터에 대한 Joint Distribution을 Data에 대한 Marginal Likelihood로 나눠서 구해줄 수 있다.

Conduct Rule을 이용하면 파라미터와 데이터에 대한 Joint Distribution은 파라미터에 대한 Prior Distribution(선행지식)과 데이터 given 파라미터의 likelihood의 곱으로 구해줄 수 있다.

 

Q. 이걸 설명으로 적으면서 궁금해진 것은.. 인공지능개론 수업에서 Probability와 Likelihood는 다르다고 했는데..!! Distribution과 Probability와 Likelihood의 차이점, 그리고 아래 수식에서 왜 각각의 자리에 Distribution와 Likelihood가 구분되어 들어갔는지..? 이유가 있는 것인지? 복잡복잡

 →  Self로 생각을 좀 해보쟈... 아니... 여러 사이트를 참고해서 정리를 좀 해보자... 아래 이어져요...

더보기

사후확률, Posterior Distribution은 Parameter given Data의 Conditional Distribution이다.

사후확률을 알고 싶지만 이 확률은 실제로 우리가 알 수 없다.

확률을 구하는 것에 초점을 맞추는 것보다는 근사하는 방법을 택한다.

이 때 사용하는 것이 Bayes' Rule이다.

 

Bayes' Rule을 이용하면 Posterior Distribution은 Prior Distribution과 Likelihood의 곱에 비례함을 알 수 있다.(데이터에 대한 Marginal Distribution은 상수 취급해주는 듯!)

이때, 사전확률(Prior Distribution/Probability)란 관측자가 관측을 하기 전에 시스템 또는 모델에 대해 가지고 있는 선험적 확률을 뜻한다.

우도(Likelihood)란 어떤 모델에서 해당 데이터(관측값)이 나올 확률을 의미한다.

사후확률(Posterior Distribution/Probability)란 다시 한 번 정의하면, 사건이 발생한 후(관측 이후) 그 사건이 특정 모델에서 발생했을 확률을 말한다.

 

출처 : https://hwiyong.tistory.com/27

Likelihood와 Probability의 차이?
Probability : 주어진 확률 분포가 고정된 상태에서 관측되는 사건이 변화될 때, 확률을 표현하는 단어
Likelihood : 관측된 사건이 고정된 상태에서 확률 분포가 변화될 때(확률 분포를 모르기 때문에 '가정'할 때), 확률을 표현하는 단어

- 선택 가능한 정수의 범위를 1~5로 제한(확률 분포를 고정)한 상태에서 관측 목표값이 1~5 중에 한개 숫자(관측 되는 사건이 변화)가 될 경우, 확률에 대한 단어를 Probability로 사용합니다. 이 경우 확률값은 0.2로 단순히 계산 할 수 있습니다.
- 선택 가능한 정수의 범위를 1~5가 아닌 다른 정수 범위 1~10 또는 4~50으로 바꾸면서(=확률 분포를 모름), 2가 관측될 확률을 계산(관측 사건이 고정) 할 경우, 확률에 대한 단어를 Likelihood로 사용합니다.

이산 사건에서,
L( θ | x ) 와 P( x | θ ) 는 같은 값을 나타냅니다.
L( θ | x )는 관측값이 주어질 때, 변화되는 확률 분포에서 주어진 관측값이 나올 확률입니다.
P( x | θ )는 확률 분포가 주어질 때, 변화되는 관측값이 나올 확률입니다.

L( θ | x ) 와 P( θ | x ) 는 다른 값을 나타냅니다.
P( θ | x )는 관측값이 주어질 때, 변화되는 확률 분포가 나올 확률입니다.

연속 사건에서,
이산 사건과 달리
L( θ | x ) 와 P( x | θ ) 는 다른 값을 나타냅니다.
Probability P( x | θ ) 계산시, 특정 단일 사건(x)이 발생할 확률이  0 (=1/∞)이기 때문에 사용하지 않습니다.
Likelihood L( θ | x ) 계산시, 특정 단일 사건(x)이 발생할 확률을 확률 밀도 함수(pdf)의 y값으로 사용합니다.
Probability P( x | θ ) 계산시, 사건 범위(x1~x2)가 발생할 확률을 확률 밀도 함수(pdf)의 범위 면적값으로 사용합니다.
Likelihood L( θ | x ) 계산시, 사건 범위(x1~x2)가 발생할 확률은 계산할 수 없습니다.

출처 : https://xoft.tistory.com/30

 

적다보니..

내가 궁금했던 거는 왜 likelihood를 probability notation으로 나타낼까 하는 것이었는데...

나의 추측에 의하면...

Discrete Random Variable에서는 likelihood( L( θ | x ) )랑 probability( P( x | θ ) )가 같고,

Continuous Random Variable에서는 likelihood가 곧, 확률 변수의 확률분포(PDF)의 단일 함숫값을 나타내기 때문... 아닐까...?

Likelihood 자리가 의미하는 바는 특정 확률 분포에서 관측값이 나올 가능성인데...

P( x | θ )의 표현이 그 의미를 내포하고 있기에 저 자리에 저 값이 오는 게 아닐까 하는... 사실 아직 조금 모호해요... 나도 내가 뭐라고 하는지 모르겠는 !v!

더보기

<Bayesian 통계학의 목표>

: 주어진 데이터(prior probability와 이후 시행된 확률 실험으로부터 얻어진 결과)를 종합하여 (관심의 대상이 되는) 파라미터의 불확실성의 확률(posterior probability)로 나타내는 것

 

<Bayesian 통계학의 기본 구조>

  • 파라미터의 prior distribution을 결정
  • 데이터와 prior distribution을 이용한 posterior distribution 계산
  • Posterior distribution을 이용한 파라미터 추론

Me :
베이지안 통계를 친구 생일선물 고르기에 비유해서 설명해줘.
이때, 사전 확률, 가능도, 사후 확률 각각에 대해 자세히 설명해주면 좋겠어.

 
ChatGPT :

친구의 생일 선물을 선택할 때 베이지안 통계를 적용하면 다음과 같은 과정으로 설명할 수 있어요.

  1. 사전 확률 (Prior Probability):
    사전 확률은 우리가 어떤 선물이 친구에게 적합할 것으로 생각하는 초기 믿음이에요.
    이는 우리가 친구에 대해 알고 있는 정보나 그들의 성향에 기반해 정한 것이에요.
    예를 들어, 우리가 친구가 여행을 좋아하고 있다는 것을 알고 있다면, 여행용품을 선택할 확률이 높을 것이에요.
  2. 가능도 (Likelihood):
    가능도는 선택한 선물이 주어진 정보나 관찰 아래에서 얼마나 적절한지를 나타내는 요소에요.
    이것은 선물이 친구의 취향에 얼마나 부합하는지에 따라 달라져요.
    만약 친구가 최근에 여행에 대해 많이 이야기했다면, 여행용품이 더 높은 가능도를 가질 것이에요.
  3. 사후 확률 (Posterior Probability):
    사후 확률은 우리가 새로운 정보를 고려한 후, 선물의 적절성에 대한 확신의 업데이트된 정도를 나타내요.
    이것은 사전 확률과 가능도를 고려하여 계산돼요.
    즉, 새로운 정보를 받은 후에는 사전 확률을 새로운 정보에 따라 업데이트하고, 이를 토대로 선물의 적합성에 대한 확률을 재조정하는 것이죠.

간단한 예시로, 우리가 친구가 여행을 좋아한다고 가정했을 때 (사전 확률),
친구가 최근에 여행에 대해 많이 이야기했다는 정보를 얻는다면 (가능도),
우리는 여행용품을 선택할 확률이 더 높아질 것이에요 (사후 확률 업데이트).

이러한 과정을 통해 베이지안 통계를 사용하여 친구의 생일 선물을 선택할 때,
우리는 계속해서 새로운 정보를 통합하고 업데이트하여 가장 적합한 선물을 선택할 수 있어요.

 

 

이 정도하면 많이 찾아본 것 같다.

이제 다음 얘기로 넘어가보자.

 

Warm-Up : Normal Model with Unknown Mean

N명의 학생 점수 분포가 가우시안 RV로 모델ed 되어 있다고 가정하자.

점수들은 conditionally independent given the mean and variance라고도.