본문 바로가기

분류 전체보기

(57)
[Week9] Object Detection - Neck [Day2] 1. Neck 1.1 Overview History Neck은 무엇인가? 위는 기존 2-stage 방식 backbone의 마지막 feature map을 RPN에 통과시키게 됨 근데 왜 마지막 feature map을 활용해야 할까? => 중간의 feature map들도 활용해보자 Neck은 왜 필요한가? low-level의 feature map은 선, 점, 기울기 등의 정보와 작은 객체를 잘 표현 high-level의 feature map은 object의 semantic한 정보와 큰 객체를 잘 표현 따라서 Neck을 활용하여 두 정보를 다 활용 다양한 크기의 객체를 더 잘 탐지 하게 됨 그렇다면 Neck을 활용하지 않고 여러 level에서의 feature map을 활용하면 되지 않냐? Neck을 활용하여 ..
[Week9] Object Detection - library [Day2] 1. Object Detection을 위한 라이브러리 통합된 라이브러리의 부재 실무 / 캐글에서는 아래 두 라이브러리를 주로 활용 MMDetection Detectron2 2. MMDetection Pytorch 기반의 Object Detection 오픈소스 라이브러리 Pipeline 2 Stage 모델은 크게 Backbone / Neck / DenseHead/ RoIHead 모듈로 나눌 수 있음 각각의 모듈 단위로 커스터마이징 위 시스템은 config 파일을 이용해 통제 Backbone - 입력 이미지를 특징 맵으로 변형 Neck - backbone과 head를 연결, Feature map을 재구성 (FPN) DenseHead - 특징 맵의 dense location을 수행하는 부분 RoIHead - ..
[Week8] 특강 [Day2] *자연어 처리를 위한 언어 모델의 학습과 평가 1.언어 모델링 (Language Modeling) 주어진 문맥을 활용해 다음에 나타날 단어 예측하기 양방향 언어 모델링(Bidirectional Language Modeling) Deep contextualized word representations (NAACL 2018) Embeddings from Language Models (ELMo) Foward LM 에서 문맥의 순방향으로 학습 Backward LM 에서 문맥의 역방향으로 학습 이후 BERT가 등장 BERT: Bidirectional Encoder Representations form Transformers (NAACL 2019) BERT : Pre-training of Deep Bidirecti..
[Week8] 특강 [Day2] 1. Full Stack ML Engineer 1) Full stack ML Engineer란? 1-1) ML Engineer란? Machine learning (Deep learning) 기술을 이해하고, 연구하고, Product 를 만드는 Engineer Deep learning 의 급부상으로 Product 에 Deep learning 을 적용하고자 하는 수요 발생 전통적인 기술의 경우 Research 영역과 Engineering 영역이 구분되지만, Deep learning 의 경우 폭발적 발전속도로 인해 그 경계가 모호함 (연구와 동시에 Product 에 적용) 1-2) Full stack engineer란? Full stack engineer 란 표현은 각 포지션의 개발자들에게 달갑지 않은 표현일..
[Week7] 3D Understanding [Day5] 1. Seeing the world in 3D perspective 1.1 Why is 3D important? AI agents operate in the real world, which is a 3D space 3D applications - AR/VR 3D applications - 3D printing 3D applications - Medical applications 1.2 The way we observe 3D An image is a projection of the 3D world onto a 2D space Triangulation - The way to obtain a 3D point from 2D images 두 같은 지점과 카메라의 위치관계를 알고 있으면 3D 형상화가 가능 1.3 ..
[Week7] Multi-modal Learning [Day4] 1. Overview of multi-modal learning Multi-modal Learning : 다른 특성을 갖는 데이터 타입들을 같이 활용하는 학습법(ex - text, sound) Challenge (1) - Different representations between modalities Audio - 1D Signal Image - 2D Array Text - Embedding vector Challenge (2) - Unbalance between heterogeneous feature spaces Challenge (3) - May a model be biased on a specific modality 명백한 데이터에 편향되고, 까다로운 데이터는 안써버리는 현상 발생 다양한 Chall..
[Week7] Conditional generative model [Day3] 1. Conditional generative model Translating an image given "condition" We can explicitly generate an image corresponding to a given "condition"! sketch of a bag이 주어졌을 때 X인 이미지가 일어날 확률 1.1 Generative model vs. Conditional generative model Generative model은 랜덤 샘플을 생성 Conditional generative model은 조건이 주어졌을 때 랜덤 샘플을 생성 Example of conditional generative model - audio super resolution P (high resoluti..
[Week7] Instance/Panoptic Segmentation and Landmark Localization [Day2] 1.Instance segmentation 1.1 What is instance segmentation? instance들 즉, 개체들까지 구분한 segmentation 1.2 Instance segmenters 기존 Faster R-CNN에서 Mask branch가 추가된 형태 기존 7x7x2048에서 14x14로 upsampling함과 동시에 채널수를 낮추고, 최종적으로 클래스의 갯수(80개) 만큼의 binary mask를 생성함 class단에서 나눈 정보를 참조하여 각 채널에서의 mask를 분류 Summary of the R-CNN family YOLACT (You Only Look At CoefficienTs) Real-time으로 instance segmentation이 가능한 single-st..