*Introduction
Data Augmentation은 일반적으로 학습 데이터가 부족하거나, 데이터를 증강시켜 모델 성능을 개선시킬 때 사용한다.
데이터가 부족한 경우 데이터셋의 특징들을 잘 잡아내지 못할 뿐만 아니라 Overfitting, Underfitting에 빠지기 쉽다.
다음과 같이 원본 이미지에 인위적인 변화를 주고 데이터의 양을 증폭시킬 수 있다.
Q1. Object Detection에선 Data Augmentation이 다른가?
Image classification에서는 이미 Data Augmenation은 필수적이고, 모델의 큰 성능을 가져오는것이 입증되었다.
But, Object Detection에서의 Data Augmenation은 입증된 바가 많지 않음.
Why?
- Object Detection에서는 Image annotation, bounding box 값 변화를 함께 줘야하는 추가적인 연산이 필요
- Classification에 사용되는 데이터셋보다 detection을 위한 데이터셋의 example이 더 적음
*Method
논문에서 Image Classificiation에서 사용하던 이미지 변환 방식(operations)들을 그래도 사용한다.
하지만 Object Detection을 잘 수행하도록 변환하기 위해 3가지 경우의 Operations을 요약함
- Color operations : 이미지의 color 값을 변환하되, bounding box의 위치 좌표값에는 변화를 주지 않음
- ex) Equalize, Contrast, Brightness...
- Geometric operations : 이미지의 위치정보를 바꾸며, bounding box annotation의 위치, 사이즈를 같이 변화시킴
- ex) Rotate, ShearX, TranslationY...
- Bounding box operations : 이미지 내에세 bounding box annotation이 있는 부분의 픽셀만 변화시킴
- ex) BBox_Only_Equalize, BBox_Only_Rotate, BBox_Only_FlipLR ...
위 operation들을 적용하여 train과정에 활용함. 어떤 변환을 어떤 순서로 사용할지는 Search method를 통해 최적화함.
최적의 augmentation 방법을 찾기 위해서 search space를 구성한다. 여러개의 sub-policy를 생성하고, 각 sub-policy에는 2개의 operation이 적용된다.
이 operation에는 다음과 같은 hyper parameter가 존재함.
- L - Magnitude of the operation
- M - Probability parameter
- K - Number of sub-policy
위 조건에서 좋은 sub-policy를 고르는 확률은 다음 식으로 정의된다.
논문에서는 이 확률 중에서 선택하기 위해 PPO(Proximal Policy Optimiation)을 사용하여 각각의 policy를 선정한다.
*Result
5개의 top sub-policy를 찾아내어 dataset에 적용하여 실험. 이 policy들은 learned augmentation policy라고 부름.
good policy에서 가장 흔히 사용한 operation
- Rotate - 이미지 회전
- Equalize - pixel value의 histogram을 flatten
- BBox_only_TranslateY - bbox내의 이미지를 translation한 것
위 그림은 learned augmenation policy가 dataset의 크기가 적은 경우에 큰 효과를 보인다는 실험결과.
mAP75 평가지표에서 효과가 좋음. learned augmentation policy를 적용하면 모델이 정교하게 바운딩 박스를 예측한다.
*Reference
[1] https://arxiv.org/pdf/1906.11172.pdf
[2] https://hellopotatoworld.tistory.com/5
[3] https://deep-learning-study.tistory.com/705
'Paper review' 카테고리의 다른 글
MobileNetV2 : Inverted Residuals and Linear Bottlenecks (0) | 2022.01.18 |
---|