11/25(금) 공부정리

YOLO Family

One stage detectors

localization과 Classification 동시에 진행
region proposal단계 x
전체 이미지를 보기때문에 맥락적 이해가 높음

input image → cov layer → feature maps → (multi class classification, bbox regression)

yolov1
- 특징
  1. 첫번째 yolo model
  2. 7x7그리드별 두개의 bbox를 만든다.
  3. 각 bbox별 class와 regression 구한다.
- 장점
  
  빠르고 전체 이미지를 보기 때문에 맥락적 정보를 갖는다.
- 단점
  
  7x7 grid를 사용하기 때문에 작은 객체에 대해 검출 어려움
  
  cnn을 통해 뽑아낸 마지막 feature만 사용
ssd?(yolov1의 단점을 보완)
- 특징
  
  yolov1은 fc_layer가 있는 반면에 1x1 conv layer를 통해 속도 향상
  
  yolov1은 마지막 한개의 feature map만 feature extraction에 사용했지만 ssd는 다른 여러feature maps들도 사용→ high level, low level의 특징을 모두 추출할 수 있음
  
  anchor box사용
yolov2

특징
1. 정확도 향상
  
  batch normalization
  
  high resolution
2. 속도향상
  - fc layer제거
  - anchor box 도입
    
    좌표대신 offset예측(더 단순하고 학습하기 쉬워짐)
  - fine grained features
    
    (26x26x412→13x13x2048)→크기가 작은 feature map에 low level정보를 early feature map가공을 통해 합쳐줌
  - multi scale training(320, 352, 608..) ≠ multi scale feature map
3. 더 많은 class예측
  
  word tree(많은 데이터 사용)
yolov3

특징
- backbone으로 darknet-53사용(더 좋은 구조)
- Multi-scale feature maps(52x52, 26x26, 13x13)
- FPN(high level, low level 합쳐줌)
yolov4

특징
- object detection에 사용되는 최신 방법들을 소개
- 정확도는 높아졌지만 실시간에 부적함
- bof(inference비용을 늘리지 않고 정확도 향상), bof(inference 비용을 높이지만 정확도가 크게 향상하는 방법
- backbone으로 densenet을 발전시긴 cpsnet사용(정확도 유지, 경량화, 메모리cost감소)
yolov5(논문이아님)

특징

크기별로 모델 구성(small, medium, large, xlarge)
yolox

특징
- anchor free
  
  기존의 anchor를 기반에 최적화된 yolov4,v5가 아닌 yolov3를 base로 했음
  
  anchor base는 task에 종속적이므로 general성능이 떨어짐, 개발자들이 tuning해야함→ anchor free방식은 학습을 편하게해주고 hyperparameter들을 tuning해야할 필요가 없다.
  
  hyperparameter없애는게 추세인듯..?
- 유용한 발전기술
  
  decoupled head
  
  yolov3에서는 하나의 head에서 classification과 localization을 함께 진행했는데 classification과 bbox regression은 서로 다른 특성을 가진다는 내용이 연구되었음!
  
  classifiaction에는 fc head를, localization에는 convolution head가 적합하다.
  
  classification에는 BCE loss사용하고 localization에서 BCE loss사용
  
  → 수렴 빠름, AP증가
  
  mosaic, mixup(augmentation)
  
  SimOTA
yolov7

contribution
1. inference cost를 증가시키지 않고 detection의 정확도를 크게 향상
2. re-parameterized module이 original module을 대체하는 방법과 dynamic label assignment strategy가 다른 output layers assignment하는 방법에서 발생하는 문제를 해결할 수 있는 방법 제안
3. parameters와 computation을 효과적으로 활용할 수 있는 real time object detector를 만들기 위해 extend 및 compound scaling 방법을 제안

Untitled