*Learning a Generative Model
- Suppose we are given images of dogs
- We want to learn a probability distribution p(x) such that
- Generation : 개와 같은 비슷한 이미지를 생성할 수 있음
- Density estimation(anomaly detection) : p(x)의 x가 강아지 같은지 아닌지 분류
- Unsupervised representation learning : feature learning
- Then, how can we represent p(x)?
*Basic Discrete Distributions
- Bernoulli distribution : (biased) coin flip
- D = {Heads, Tails}
- Specify P(X=Heads) = p. Then P(X=Tails) = 1 - p.
- Write : X ~ Ber(p).
- Categorical distribution : (biased) m-sided dice
- D = {1, ... , m}
- Specify P(Y=i) = pi, such that pi(1~m) 더하면 1
- Write: Y ~ Cat(p1,...,pm)
- Example
- Modeling an RGB joint distribution (of a single pixel)
- (r, g, b) ~ p(R, G, B)
- Number of cases? 256 x 256 x 256
- How many parameters do we need to specify? 256 x 256 x 256 - 1
- RGB image는 파라미터가 갯수가 매우 많다
*Structure Through Independence
- binary 이미지를 가정하고, X1 ~ Xn까지 독립적이면 p(x1,...,xn) = p(x1)p(x2) ··· p(xn)
- How many possible states? 2^n
- How many parameters to specify p(x1,...,xn)? n
- 각 픽셀을 독립적이라고 가정한다면, 2^n개의 파라미터는 n개의 파라미터로 줄일 수 있다.
- Fully dependent한다면 파라미터가 너무 많고, independent한다면 파라미터가 너무 적어 표현력이 떨어진다.
- 따라서, 이 중간의 어딘가를 찾아야함
- 세가지 중요한 규칙:
- Chain rule -> number of parameters : 2^n-1
- Bayes' rule
- Conditional independence -> number of parameters : 2*n-1
- Result : 적절히 활용하면 파라미터를 줄일 수 있다
- 세가지 중요한 규칙:
*Auto-regressive Model
- Suppose we have 28 x 28 binary pixels.
- Our goal is to learn $$ p(x)= p(x_{1},...,x_{784}) , x\in \left ( 0,1 \right )^{784} $$
'부스트캠프 AI Tech > [Week2] Deep Learning basic' 카테고리의 다른 글
[Week2] DL Basic - Transformer [Day4] (0) | 2021.08.12 |
---|---|
[Week2] DL Basic - RNN [Day4] (0) | 2021.08.12 |
[Week2] DL Basic - CNN [Day3] (0) | 2021.08.11 |
[Week2] DL Basic - Optimization [Day2] (0) | 2021.08.10 |
[Week2] DL Basic - MLP(Multi-Layer-Perceptron) [Day1] (0) | 2021.08.09 |