본문 바로가기

부스트캠프 AI Tech/[Week2] Deep Learning basic

[Week2] DL Basic - Generative Models [Day5]

*Learning a Generative Model

  • Suppose we are given images of dogs
  • We want to learn a probability distribution p(x) such that
    • Generation : 개와 같은 비슷한 이미지를 생성할 수 있음
    • Density estimation(anomaly detection) : p(x)의 x가 강아지 같은지 아닌지 분류
    • Unsupervised representation learning : feature learning
  • Then, how can we represent p(x)?

 

 

 

*Basic Discrete Distributions

  • Bernoulli distribution : (biased) coin flip
    • D = {Heads, Tails}
    • Specify P(X=Heads) = p. Then P(X=Tails) = 1 - p.
    • Write : X ~ Ber(p).
  • Categorical distribution : (biased) m-sided dice
    • D = {1, ... , m}
    • Specify P(Y=i) =  pi, such that pi(1~m) 더하면 1
    • Write: Y ~ Cat(p1,...,pm)
  • Example
    • Modeling an RGB joint distribution (of a single pixel)
    • (r, g, b) ~ p(R, G, B)
    • Number of cases? 256 x 256 x 256
    • How many parameters do we need to specify? 256 x 256 x 256 - 1
    • RGB image는 파라미터가 갯수가 매우 많다

 

 

 

*Structure Through Independence

  • binary 이미지를 가정하고, X1 ~ Xn까지 독립적이면 p(x1,...,xn) = p(x1)p(x2) ··· p(xn)
  • How many possible states? 2^n
  • How many parameters to specify p(x1,...,xn)? n
  • 각 픽셀을 독립적이라고 가정한다면, 2^n개의 파라미터는 n개의 파라미터로 줄일 수 있다.
  • Fully dependent한다면 파라미터가 너무 많고, independent한다면 파라미터가 너무 적어 표현력이 떨어진다.
  • 따라서, 이 중간의 어딘가를 찾아야함
    • 세가지 중요한 규칙:
      • Chain rule -> number of parameters : 2^n-1
      • Bayes' rule
      • Conditional independence -> number of parameters : 2*n-1
      • Result : 적절히 활용하면 파라미터를 줄일 수 있다

 

 

 

*Auto-regressive Model

 

  • Suppose we have 28 x 28 binary pixels.
  • Our goal is to learn $$ p(x)= p(x_{1},...,x_{784}) ,   x\in \left ( 0,1 \right )^{784} $$