One stage detectors
input image → cov layer → feature maps → (multi class classification, bbox regression)
yolov1
특징
장점
빠르고 전체 이미지를 보기 때문에 맥락적 정보를 갖는다.
단점
7x7 grid를 사용하기 때문에 작은 객체에 대해 검출 어려움
cnn을 통해 뽑아낸 마지막 feature만 사용
ssd?(yolov1의 단점을 보완)
특징
yolov1은 fc_layer가 있는 반면에 1x1 conv layer를 통해 속도 향상
yolov1은 마지막 한개의 feature map만 feature extraction에 사용했지만 ssd는 다른 여러feature maps들도 사용→ high level, low level의 특징을 모두 추출할 수 있음
anchor box사용
yolov2
특징
정확도 향상
batch normalization
high resolution
속도향상
fc layer제거
anchor box 도입
좌표대신 offset예측(더 단순하고 학습하기 쉬워짐)
fine grained features
(26x26x412→13x13x2048)→크기가 작은 feature map에 low level정보를 early feature map가공을 통해 합쳐줌
multi scale training(320, 352, 608..) ≠ multi scale feature map
더 많은 class예측
word tree(많은 데이터 사용)
yolov3
특징
yolov4
특징
yolov5(논문이아님)
특징
크기별로 모델 구성(small, medium, large, xlarge)
yolox
특징
anchor free
기존의 anchor를 기반에 최적화된 yolov4,v5가 아닌 yolov3를 base로 했음
anchor base는 task에 종속적이므로 general성능이 떨어짐, 개발자들이 tuning해야함→ anchor free방식은 학습을 편하게해주고 hyperparameter들을 tuning해야할 필요가 없다.
hyperparameter없애는게 추세인듯..?
유용한 발전기술
decoupled head
yolov3에서는 하나의 head에서 classification과 localization을 함께 진행했는데 classification과 bbox regression은 서로 다른 특성을 가진다는 내용이 연구되었음!
classifiaction에는 fc head를, localization에는 convolution head가 적합하다.
classification에는 BCE loss사용하고 localization에서 BCE loss사용
→ 수렴 빠름, AP증가
mosaic, mixup(augmentation)
SimOTA
yolov7
contribution