[Week3] PyTorch 활용하기 [Day4]

*Multi-GPU 활용

*Model parallel

*Data parallel

데이터를 나눠 GPU에 할당후 결과의 평균을 취하는 방법
minibatch 수식과 유사한데 한번에 여러 GPU에서 수행
PyTorch에서는 두가지 방식을 제공(DataParallel , DistributedDataParallel)
DataParallel - 단순히 데이터를 분배한후 평균을 취함 -> GPU 사용 불균형 문제 발생 , Batch사이즈 감소(한 GPU 병목)
DistributedDataParallel - 각 CPU마다 process 생성하여 개별 GPU에 할당 -> 기본적으로 DataParallel로 하나 개별적으로 연산의 평균을 냄
DataParallel code :
DistributedDataParallel code:

*Hyperparameter Tuning

*Ray

*결론

Hyperparameter Tuning도 중요하긴 하지만 이걸로 인해 얻는 성능개선보다 좋은 데이터를 넣어서 얻는 결과가 훨씬 큼.따라서 처음엔 모델구조나 좋은 데이터를 선별하는것이 중요하고, 어느정도 성능을 개선시킨후 마지막에 H/T 적용

*PyTorch Troubleshooting

*OOM이 해결하기 어려운 이유들...

*Solution

GPUUtil 사용하기
- nvidia-smi 처럼 GPU의 상태를 보여주는 모듈
- Colab은 환경에서 GPU상태 보여주기 편함
- iter마다 메모리가 늘어나는지 확인
torch.cuda.empty_cache() 써보기
- 사용되지 않은 GPU상 cache를 정리
- 가용 메모리를 확보
- del 과는 구분이 필요
- reset 대신 쓰기 좋은 함수
training loop에 tensor로 축적 되는 변수는 확인할 것
- tensor로 처리된 변수는 GPU상에 메모리 사용
- 해당 변수 loop 안에 연산에 있을 때 GPU에 computational graph를 생성
- 위 total_loss에 tensor로 된 loss가 축적되면서 메모리를 많이 먹음
- 1-d tensor의 경우 python 기본 객체로 변환 하여 처리 할것
- iter_loss -> iter_loss.item() or float(iter_loss) 활용
del 명령어 적절히 사용하기
- 필요가 없어진 변수는 적절한 삭제가 필요함
- python의 메모리 배치 특성상 loop이 끝나도 메모리를 차지함
- i , intermediate과 같이 메모리에 계속 남아있는것들을 적절히 del 해준다
가능 batch 사이즈 실험해보기
- 학습시 OOM이 발생했다면 batch 사이즈를 1로 해서 실험해보기
torch.no_grad() 사용하기
- Inference 시점에서는 torch.no_grad() 구문을 사용
- backward pass으로 인해 쌓이는 메모리에서 자유로움