-
이미지로부터 한 번에 Class와 Bounding Box를 예측
-
Inference가 굉장히 빠름
-
전체 이미지를 보고 Object detection을 수행하기 때문에 배경 오류가 적음
-
성능은 낮음
-
Architecture
- 첫 20개 conv. layer는 ImageNet을 통해 pre-trained 됨
- Detection을 위해 추가 4개의 conv. layer와 FC layer 2개 추가
-
동작 방법
-
Loss Function
- object가 있는 경우와 object가 없는 경우 10배 차이
- X, y값: grid cell 기준으로 0과 1사이 값으로 정규화
- W와 h는 전체 이미지 기준으로 0과 1사이 값으로 정규화
- 큰 박스와 작은 박스 에러 차이 보정위해 $\sqrt{w_i},\ \sqrt{h_i}$로 사용
- L2 Loss 사용
-
Inference
- 각 cell 마다 두개의 경계 상자 도출
- $P_c$값 비교 후 낮은 값을 갖는 상자 제외
- 각 class에 대해 비-최댓값 억제 실행
-
Experiment
- 다른 real-time detector 보다 월등함
- Faster R-CNN에 비해 성능이 떨어지지만 FPS가 높음
- 속도가 좋음
- Localization에러가 높고, Correct비율 낮음
- Background 에러는 yolo가 낮음
-
Fast R-CNN과 yolo 결합하여 사용한 결과 좋은 성능
-
yolo 일반화 성능 좋음
-
단점
- 각 grid cell 마다 2개의 경계 상자, 1개의 class → 가까운 물체 & 작은 문제 탐지 힘듬