๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
Generative AI

ํ™•๋ฅ  vs ๊ฐ€๋Šฅ๋„

by arirang_ 2024. 12. 29.

๐Ÿ“Œ ํ™•๋ฅ  (Probability)

โœ… ํŠน์ • ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฐ€๋Šฅ์„ฑ(๊ธฐํšŒ)

  • ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ฐ์ดํ„ฐ X๊ฐ€ ๊ด€์ธก๋  ํ™•๋ฅ 

๐Ÿ“Œ ๊ฐ€๋Šฅ๋„ (likelihood)

โœ… ํ™•๋ฅ  ๋ชจ๋ธ์—์„œ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ(๋˜๋Š” ๊ฐ€์ •)๊ฐ€ ๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ์— ์–ผ๋งˆ๋‚˜ ์ ํ•ฉํ•œ๊ฐ€๋ฅผ ์ˆ˜์น˜๋กœ ๋‚˜ํƒ€๋‚ธ ์ฒ™๋„.

ฮธ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋ฐ์ดํ„ฐ X๋ฅผ ์ž˜ ์„ค๋ช…ํ•˜๋Š”๊ฐ€?์— ๋Œ€ํ•œ ์ฒ™๋„์ด๋ฏ€๋กœ ฮธ๋ฅผ ์›€์ง์—ฌ๊ฐ€๋ฉฐ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ ์ด๋‹ค.

(๋ชจ๋ธ์ด๋‚˜ ๊ฐ€์„ค์ด ๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ์— ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž๋Š”๊ฐ€๋ฅผ ์ˆ˜์น˜์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ์ฒ™๋„)

  • ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ X๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๊ฐ๊ฐ์˜

  • X๋ผ๋Š” ๊ด€์ธก๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ฮธ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ X๋ผ๋Š” ๊ด€์ธก๊ฐ’์ด ๋‚˜์˜ฌ ํ™•๋ฅ 
  • ์ด๋ฏธ X๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ฮธ๊ฐ€ ๋‹ฌ๋ผ์ง์— ๋”ฐ๋ผ X๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์„ค๋ช…(ํƒ€๋‹นํ™”)ํ•˜๋Š”์ง€๋ฅผ ํƒ€๋‚˜๋‚ด๋Š” ํ•จ์ˆ˜
  • ฮธ๋ฅผ ๋ณ€์ˆ˜๋กœ ์‚ผ๊ณ , X๋ฅผ ๊ณ ์ •ํ•œ๋‹ค.

  • ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ฮธ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ฐ์ดํ„ฐ X๊ฐ€ ๋‚˜์˜ฌ ํ™•๋ฅ 
  • ฮธ๊ฐ€ ๊ณ ์ •๋œ ์ƒํƒœ์—์„œ X๋ผ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ 
  • X๋ฅผ ๋ณ€์ˆ˜๋กœ ์‚ผ๊ณ , ฮธ๋ฅผ ๊ณ ์ •ํ•œ๋‹ค.

๐Ÿ“Œ ์˜ˆ์‹œ

X : ์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ

X ~ N(14, 9) : ํ‰๊ท ์ด 14, ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 3์ธ ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ์‚ฌ๊ณผ๋กœ ๊ฐ€๋“ ์ฐฌ ์–‘๋™์ด๊ฐ€ ์žˆ๋‹ค.

๊ทธ ์–‘๋™์ด์˜ ์ •๊ทœ ๋ถ„ํฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ๊ฐ€ 15~16g์ผ ํ™•๋ฅ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

์ƒ‰์น ๋œ ๋ถ€๋ถ„์ด ์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ๊ฐ€ 15~16g์ผ ํ™•๋ฅ (probability)์ด๋‹ค.

(์ •๊ทœ)๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜(ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ)๋ฅผ ์•Œ๊ณ  ์žˆ์œผ๋ฉด, ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ํ™•๋ฅ ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

 

ํ™•๋ฅ  = P(์‚ฌ๊ฑด | ๋ถ„ํฌ )

๐Ÿ’ก ๋ถ„ํฌ๋ฅผ ์•Œ๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์€ ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ๋ฅผ ์•Œ๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

๐Ÿ’ก ๋ถ„ํฌ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ํ•ด๋‹น ๋ถ„ํฌ์—์„œ ์‚ฌ๊ฑด์ด ์ผ์–ด๋‚  ๊ฐ€๋Šฅ์„ฑ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ํ™•๋ฅ ์ด๋‹ค.

โญ ํ™•๋ฅ ์€ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜ ๊ณก์„  ์•„๋ž˜์˜ ๋ฉด์ ์ด๋‹ค.

 

 

 

โญ๊ฐ€๋Šฅ๋„๋Š” ํ™•๋ฅ  ๋ฐ€๋„ ๊ณก์„ ์—์„œ x๊ฐ’์— ๋Œ€์‘๋˜๋Š” y๊ฐ’(๋ฐ€๋„๊ฐ’)์ด๋‹ค.

 

 

ํ‰๊ท  14, ํ‘œ์ค€ํŽธ์ฐจ 3์ธ ๋ถ„ํฌ์—์„œ ์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ(X)๊ฐ€ 16.5์ผ ๋•Œ์˜ ๊ฐ€๋Šฅ๋„๋Š” 0.094์ด๋‹ค.

ํ‰๊ท  14, ํ‘œ์ค€ํŽธ์ฐจ 3

 

ํ‰๊ท  15, ํ‘œ์ค€ํŽธ์ฐจ 3์ธ ๋ถ„ํฌ์—์„œ ์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ(X)๊ฐ€ 16.5์ผ ๋•Œ์˜ ๊ฐ€๋Šฅ๋„๋Š” 0.117์ด๋‹ค.

ํ‰๊ท  15, ํ‘œ์ค€ํŽธ์ฐจ 3

 

์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ 16.5์— ๋Œ€ํ•ด ํ‰๊ท ์ด 14์ธ ๋ถ„ํฌ๋ฅผ ๊ฐ€์งˆ ๊ฐ€๋Šฅ๋„๋ณด๋‹ค ํ‰๊ท ์ด 15์ธ ๋ถ„ํฌ๋ฅผ ๊ฐ€์งˆ ๊ฐ€๋Šฅ๋„๊ฐ€ ๋” ๋†’๋‹ค.

 

์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ 16.5๊ฐ€ ๋‚˜์˜ฌ ๊ฐ€๋Šฅ์„ฑ์ด ๊ฐ€์žฅ ๋†’์€ ๋ถ„ํฌ๋Š” ํ‰๊ท ์ด 16.5์ธ ๋ถ„ํฌ์ด๋‹ค. 

y๊ฐ’(ํ™•๋ฅ  ๋ฐ€๋„ ๊ฐ’)์ด ์ œ์ผ ํฌ๋‹ค.

๊ฐ€๋Šฅ๋„ = L(๋ถ„ํฌ | ๋ฐ์ดํ„ฐ )

๋ฐ์ดํ„ฐ(์‚ฌ๊ณผ์˜ ๋ฌด๊ฒŒ)๊ฐ€ ์ฃผ์–ด์ง€๋ฉด ํŠน์ • ๋งค๊ฐœ๋ณ€์ˆ˜(ํ‰๊ท  14, ํ‰๊ท  15, ํ‰๊ท  16.5... ํ‘œ์ค€ํŽธ์ฐจ 3,...)๋ฅผ ๊ฐ–๋Š” ๋ถ„ํฌ์—์„œ

์ด ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ˜ํ”Œ๋ง๋  ๊ฐ€๋Šฅ์„ฑ(ํ™•๋ฅ  ๋ฐ€๋„๊ฐ’)์„ ์ธก์ •ํ•œ๋‹ค.

 

 

๐Ÿ“Œ ์ฝ”๋“œ

โœ… ํ™•๋ฅ  ์‹œ๊ฐํ™”ํ•˜๋Š” ์ฝ”๋“œ

import numpy as np
import matplotlib.pyplot as plt

# ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ ์„ค์ •
mu = 14
sigma = 3

# ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆด x๊ฐ’์˜ ๋ฒ”์œ„ ์„ค์ • (ํ‰๊ท  ยฑ3*ํ‘œ์ค€ํŽธ์ฐจ ๋ฒ”์œ„)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 200)

# ์ •๊ทœ๋ถ„ํฌ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(PDF) ๊ณ„์‚ฐ
pdf = (1 / (sigma * np.sqrt(2 * np.pi))) * \
      np.exp(-((x - mu) ** 2) / (2 * sigma ** 2))

#์Œ์˜ ๋„ฃ์„ ๊ตฌ๊ฐ„ (x=15 ~ x= 16)
x_shade = np.linspace(15, 16, 100)
pdf_shade = (1 / (sigma * np.sqrt(2 * np.pi))) * \
            np.exp(-((x_shade - mu) ** 2) / (2 * sigma ** 2))

plt.fill_between(x_shade, pdf_shade, color='green', alpha=0.3)

# ๊ทธ๋ž˜ํ”„ ๊ทธ๋ฆฌ๊ธฐ
plt.plot(x, pdf, color='green', label=f'(ฮผ={mu}, ฯƒ={sigma})')
plt.title(f'(ฮผ={mu}, ฯƒ={sigma})')
plt.xlabel("x(apple weight)")
plt.ylabel("Probability Density")
plt.legend()
#plt.grid(True)
plt.show()

 

 

โœ… ๊ฐ€๋Šฅ๋„ ์‹œ๊ฐํ™”ํ•˜๋Š” ์ฝ”๋“œ

import numpy as np
import matplotlib.pyplot as plt

# ํ‰๊ท ๊ณผ ํ‘œ์ค€ํŽธ์ฐจ ์„ค์ •
mu = 14
sigma = 3

# ๊ทธ๋ž˜ํ”„๋ฅผ ๊ทธ๋ฆด x๊ฐ’์˜ ๋ฒ”์œ„ ์„ค์ • (ํ‰๊ท  ยฑ3*ํ‘œ์ค€ํŽธ์ฐจ ๋ฒ”์œ„)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 200)

# ์ •๊ทœ๋ถ„ํฌ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜(PDF) ๊ณ„์‚ฐ
pdf = (1 / (sigma * np.sqrt(2 * np.pi))) * \
      np.exp(-((x - mu) ** 2) / (2 * sigma ** 2))


# ๊ทธ๋ž˜ํ”„ ๊ทธ๋ฆฌ๊ธฐ
plt.plot(x, pdf, color='green', label=f'ฮผ={mu}, ฯƒ={sigma}')

x_line = 16.5
pdf_value = (1 / (sigma * np.sqrt(2 * np.pi))) * \
            np.exp(-((x_line - mu) ** 2) / (2 * sigma ** 2))


#1) x=16.5์— ์„ธ๋กœ์„ (๋นจ๊ฐ„ ์ ์„ )๊ทธ๋ฆฌ๊ธฐ
plt.axvline(x=x_line, color='red', linestyle='--', label='x=16.5')

#2) ํ•ด๋‹น ํ™•๋ฅ  ๋ฐ€๋„๊ฐ’์— ๊ฐ€๋กœ์„ (๋นจ๊ฐ„ ์‹ค์„ )๊ทธ๋ฆฌ๊ธฐ
plt.axhline(y=pdf_value, color='red', label=f'y={pdf_value:.3f}')


#๊ทธ๋ž˜ํ”„ ๊พธ๋ฏธ๊ธฐ
plt.title(f'ฮผ={mu}, ฯƒ={sigma}')
plt.xlabel("x(apple weight)")
plt.ylabel("Probability Density")
plt.legend()

plt.show()

๐Ÿ“Œ ์ถœ์ฒ˜

https://digestize.medium.com/stat-digest-likelihood-is-not-probability-b5bce82eded5

 

Stat Digest: Likelihood is not Probability

Clearly explained with examples

digestize.medium.com

https://modulabs.co.kr/blog/probability-versus-likelihood

 

ํ™•๋ฅ  vs ๊ฐ€๋Šฅ๋„

ํ™•๋ฅ ์€ ํŠน์ • ๊ฒฐ๊ณผ๊ฐ€ ๋ฐœ์ƒํ•  ๊ฐ€๋Šฅ์„ฑ์ด๋‚˜ ๊ธฐํšŒ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋”ฐ๋ผ ์˜ˆ์ธกํ•œ ํŠน์ • ๊ฒฐ๊ณผ์˜ ๋ฐœ์ƒ ๊ฐ€๋Šฅ์„ฑ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ฐ€๋Šฅ๋„๋Š” ๋ชจ๋ธ์ด๋‚˜ ๊ฐ€์„ค์ด ๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ์— ์–ผ๋งˆ๋‚˜ ์ž˜

modulabs.co.kr