[Week2] DL Basic - Optimization [Day2]

*Optimization

*Important Concepts in Optimization

*Generalization

*Underfitting vs. Overfitting

*Cross-validation

train data중 일정 비율만큼 validation data를 만들어 학습이 얼마나 잘 되고 있는지 확인
traing data <-> validation data 비율?
- k-fold validation : k개의 partition으로 나눠 k-1개를 학습하고 나머지 1개로 validation
cross-validation을 통해 최적의 hyper-parameter를 찾는다
Test data는 엄밀하게 training에 관여하지 않음

*Bias and Variance

*Bootstrapping

*Bagging vs. Boosting (ensemble method)

Bagging(Bootstrapping aggregating) : random sample data를 통해 n개의 단일 모델을 만들고 평균을 냄 -> 일반적으로 성능이 더 좋음.
Boosting : random sample data를 통해 다수의 모델을 만들지만 훈련과정에서 앞 모델이 틀린 부분에 가중치를 부여하며 sequential하게 학습

*Gradient Descent Methods

*Batch-size Matters

flat minimizer > sharp minimizer (Generalization gap이 작다)
- sharp minimum은 training function에서 약간만 멀어져도 testing function의 에러가 높아짐
- flat minimum은 training function에서 약간 멀어져도 testing fucntion 에러가 비슷

*Gradient Descent Methods 종류

(Stochastic) Gradient descent
- step size를 적절히 잡는게 중요
Momentum
- 베타항을 두어 이전 모멘텀(방향)과 현재 그레디언트를 합쳐 학습 진행
- Mini-batch로 그레디언트가 여러번 바뀌는 상황에서 좋은 성능
Nesterov Accelerate
- GD + Momentum 형태
- Momentum보다 local minima에 더 정확하고 빨리 수렴
Adagrad
- 적게 변한 파라미터는 많은 가중치를 두고, 많이 변한 파라미터는 적은 가중치를 두어 학습
- Gt가 계속해서 커지므로 학습이 진행될수록 학습이 멈춰지는 단점이 있음
Adadelta
- Adagrad의 Gt가 계속해서 커지는 현상을 방지
- Learning rate이 없음 (많이 안쓴다)
RMSprop
- EMA of gradient squares
Adam
- Adaptive Moment Estimation
- EMA of gradient squares + Momentum 형태

*Regularization의 종류 : 학습에 제약을 두어 Generalization을 잘 하기 위함

*Optimizer의 발전

[Week2] DL Basic - Generative Models [Day5] (0)	2021.08.13
[Week2] DL Basic - Transformer [Day4] (0)	2021.08.12
[Week2] DL Basic - RNN [Day4] (0)	2021.08.12
[Week2] DL Basic - CNN [Day3] (0)	2021.08.11
[Week2] DL Basic - MLP(Multi-Layer-Perceptron) [Day1] (0)	2021.08.09