YOLOYou Only Look Once

01. YOLO의 개념

YOLO(You Only Look Once)는 실시간 객체 탐지를 위한 딥러닝 기반 알고리즘으로, 2016년 Joseph Redmon 등에 의해 처음 제안되었다. YOLO의 핵심은 이미지를 한 번만 보고(Look Once) 모든 객체의 위치와 클래스를 동시에 예측한다는 점이다.

기존의 객체 탐지 알고리즘들(R-CNN, Fast R-CNN 등)은 이미지에서 관심 영역을 먼저 찾은 후(Region Proposal), 각 영역을 개별적으로 분류하는 2단계 접근법을 사용했다. 이러한 방식은 정확도는 높지만 속도가 느려 실시간 처리가 어려웠다.

YOLO는 이러한 문제를 해결하기 위해 객체 탐지를 단일 회귀 문제(Single Regression Problem)로 재정의했다. 이미지 전체를 한 번에 보고, 바운딩 박스의 좌표와 클래스 확률을 동시에 예측하는 1단계 접근법을 사용하여 빠른 속도를 달성했다.

YOLO 작동 원리 — YOLO의 객체 탐지 과정 - 단일 신경망으로 전체 이미지 처리
출처: Medium

YOLO의 혁신성

YOLO는 객체 탐지 분야에 패러다임 전환을 가져왔다. 속도와 정확도의 균형을 달성함으로써 자율주행차, 실시간 비디오 분석, 산업 현장의 불량품 검사 등 다양한 실시간 응용 분야에서 활용될 수 있게 되었다. 이전에는 초당 몇 프레임을 처리하는 것이 한계였다면, YOLO는 초당 45프레임 이상을 처리할 수 있어 실시간 객체 탐지의 문을 열었다.

[목차로 돌아가기]

02. YOLO의 주요 특징

YOLO는 다음과 같은 독특한 특징들을 가지고 있어 다른 객체 탐지 알고리즘과 차별화된다.

1) 통합 네트워크 구조 (Unified Architecture)

YOLO는 단일 컨볼루션 신경망(Single Convolutional Neural Network)을 사용하여 객체 탐지의 모든 과정을 처리한다. 이미지에서 특징을 추출하고, 바운딩 박스를 예측하고, 클래스를 분류하는 모든 작업이 하나의 네트워크 내에서 이루어진다. 이러한 통합적 접근은 엔드-투-엔드 학습(End-to-End Learning)을 가능하게 하며, 최적화가 용이하다.

2) 고속 처리 능력

YOLO의 가장 큰 장점은 빠른 속도이다. 초기 YOLOv1은 초당 45프레임(FPS)을 처리할 수 있었고, Fast YOLO는 155 FPS까지 달성했다. 최신 버전인 YOLOv8은 더욱 개선된 속도를 제공한다. 이러한 속도는 실시간 비디오 스트림 처리, 자율주행차의 즉각적인 판단, 로봇의 실시간 인지 등에 필수적이다.

3) 전역적 컨텍스트 이해

YOLO는 이미지 전체를 한 번에 보기 때문에 전역적 컨텍스트(Global Context)를 이해한다. Region Proposal 기반 방법들이 지역적인 패치만 보는 것과 달리, YOLO는 이미지 전체의 맥락을 고려하여 객체를 인식한다. 이는 배경 오류(Background Error)를 줄이는 데 효과적이며, 객체의 전반적인 외관과 주변 환경을 함께 고려할 수 있다.

4) 일반화 능력

YOLO는 강력한 일반화 성능을 보인다. 자연 이미지로 학습된 모델을 예술 작품이나 다른 도메인에 적용했을 때, YOLO는 다른 알고리즘들보다 더 나은 성능을 보였다. 이는 전역적 특징을 학습하기 때문에 새로운 환경이나 예상치 못한 상황에서도 잘 작동한다는 것을 의미한다.

5) 간결한 파이프라인

복잡한 다단계 파이프라인을 가진 다른 알고리즘들과 달리, YOLO는 단순하고 직관적인 구조를 가지고 있다. 이는 구현과 배포가 쉽고, 디버깅과 최적화가 용이하다는 장점을 제공한다.

[목차로 돌아가기]

03. YOLO의 작동 원리

3.1 그리드 시스템

YOLO의 핵심 아이디어는 이미지를 S × S 그리드(Grid)로 분할하는 것이다. 일반적으로 YOLOv1은 7×7 그리드를 사용했고, 최신 버전들은 더 세밀한 그리드를 사용한다.

1) 그리드 셀의 역할

각 그리드 셀은 객체의 중심이 그 셀 안에 위치할 경우, 해당 객체를 탐지할 책임을 갖는다. 각 셀은 다음 정보를 예측한다:

바운딩 박스(Bounding Box):
각 셀은 B개의 바운딩 박스를 예측한다(일반적으로 B=2). 각 바운딩 박스는 5개의 값으로 표현된다: (x, y, w, h, confidence)
- x, y: 바운딩 박스 중심의 좌표 (셀 내부의 상대 위치)
- w, h: 바운딩 박스의 너비와 높이 (전체 이미지 대비 비율)
- confidence: 박스가 객체를 포함할 확신도 = $\text{Pr}(\text{Object}) \times \text{IOU}_{\text{pred}}^{\text{truth}}$
클래스 확률:
각 셀은 C개의 조건부 클래스 확률을 예측한다: $\text{Pr}(\text{Class}_i \mid \text{Object})$. 이는 해당 셀에 객체가 있다고 가정했을 때, 각 클래스일 확률을 나타낸다.

YOLO 그리드 시스템 — YOLO의 그리드 기반 객체 탐지 메커니즘
출처: Medium

2) 출력 텐서의 구조

최종 출력은 $S \times S \times (B \times 5 + C)$ 크기의 텐서이다. 예를 들어 YOLOv1은 7×7 그리드, 2개의 바운딩 박스, 20개의 클래스를 사용하므로 출력 텐서의 크기는 $7 \times 7 \times 30$이다.

[목차로 돌아가기]

3.2 예측 메커니즘

1) 네트워크 구조

YOLOv1은 GoogLeNet에서 영감을 받은 24개의 컨볼루션 레이어와 2개의 완전 연결 레이어로 구성되어 있다. 네트워크는 다음과 같이 동작한다:

특징 추출: 초기 컨볼루션 레이어들이 이미지에서 고수준의 특징을 추출한다.
차원 축소: 1×1 컨볼루션을 사용하여 특징 맵의 차원을 줄인다.
예측: 완전 연결 레이어가 최종 예측값을 출력한다.

2) 비최대 억제 (Non-Maximum Suppression, NMS)

하나의 객체에 대해 여러 그리드 셀이 바운딩 박스를 예측할 수 있다. NMS는 중복된 예측을 제거하는 후처리 과정이다:

동일한 클래스의 바운딩 박스들을 confidence 기준으로 정렬
가장 높은 confidence를 가진 박스를 선택
선택된 박스와 IoU(Intersection over Union)가 임계값 이상인 박스들을 제거
남은 박스들에 대해 과정 반복

IoU (Intersection over Union):
$$\text{IoU} = \frac{\text{Area of Overlap}}{\text{Area of Union}} = \frac{A \cap B}{A \cup B}$$
IoU는 두 바운딩 박스의 겹치는 정도를 0과 1 사이의 값으로 나타낸다.

[목차로 돌아가기]

3.3 손실 함수

YOLO는 다중 부분 손실 함수(Multi-Part Loss Function)를 사용하여 네트워크를 학습한다. 손실 함수는 크게 3가지 구성 요소로 이루어진다:

1) 위치 손실 (Localization Loss)

바운딩 박스의 중심 좌표 (x, y)와 크기 (w, h)에 대한 손실이다. 제곱 오차를 사용하며, 작은 박스에서의 오차가 큰 박스에서의 오차보다 더 중요하므로 너비와 높이는 제곱근을 취한다.

위치 손실:
$$\lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} [(x_i - \hat{x}_i)^2 + (y_i - \hat{y}_i)^2]$$ $$+ \lambda_{\text{coord}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} [(\sqrt{w_i} - \sqrt{\hat{w}_i})^2 + (\sqrt{h_i} - \sqrt{\hat{h}_i})^2]$$
여기서 $\mathbb{1}_{ij}^{\text{obj}}$는 셀 i의 j번째 바운딩 박스가 객체를 담당하는 경우 1, 아니면 0이다.

2) 신뢰도 손실 (Confidence Loss)

객체가 있는 경우와 없는 경우의 신뢰도 예측 오차이다. 대부분의 셀은 객체를 포함하지 않으므로, 객체가 없는 경우의 손실에는 더 작은 가중치($\lambda_{noobj}$)를 적용한다.

신뢰도 손실:
$$\sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{obj}} (C_i - \hat{C}_i)^2 + \lambda_{\text{noobj}} \sum_{i=0}^{S^2} \sum_{j=0}^{B} \mathbb{1}_{ij}^{\text{noobj}} (C_i - \hat{C}_i)^2$$
일반적으로 $\lambda_{\text{coord}} = 5$, $\lambda_{\text{noobj}} = 0.5$를 사용한다.

3) 분류 손실 (Classification Loss)

각 클래스에 대한 조건부 확률의 예측 오차이다. 객체가 있는 셀에 대해서만 계산한다.

분류 손실:
$$\sum_{i=0}^{S^2} \mathbb{1}_i^{\text{obj}} \sum_{c \in \text{classes}} (p_i(c) - \hat{p}_i(c))^2$$
여기서 $p_i(c)$는 셀 i에서 클래스 c의 조건부 확률이다.

[목차로 돌아가기]

04. YOLO의 진화

4.1 YOLOv1 (2016)

Joseph Redmon 등이 CVPR 2016에서 발표한 최초의 YOLO이다. "You Only Look Once: Unified, Real-Time Object Detection"이라는 논문으로 소개되었으며, 객체 탐지를 회귀 문제로 재정의하는 혁신적인 접근을 제시했다.

주요 특징

속도: 45 FPS (Fast YOLO는 155 FPS)
구조: 24개 컨볼루션 레이어 + 2개 FC 레이어
입력 크기: 448×448 픽셀
그리드: 7×7 그리드, 셀당 2개 바운딩 박스

한계점

작은 객체 탐지에 약함 (그리드 해상도 제한)
새로운 종횡비의 객체에 대한 일반화 부족
위치 정확도가 다른 알고리즘에 비해 낮음

[목차로 돌아가기]

4.2 YOLOv2/v3 (2017-2018)

YOLOv2 (YOLO9000) - 2017

"YOLO9000: Better, Faster, Stronger" 논문에서 소개된 개선 버전이다. 9000개 이상의 클래스를 탐지할 수 있어 YOLO9000이라고도 불린다.

주요 개선사항:

Batch Normalization: 모든 컨볼루션 레이어에 배치 정규화 추가 → mAP 2% 향상
고해상도 분류기: 448×448 입력으로 ImageNet 사전 학습
앵커 박스(Anchor Boxes): Faster R-CNN의 개념 도입, 다양한 크기의 객체 탐지 개선
차원 클러스터링: 학습 데이터에서 K-means를 사용해 최적의 앵커 박스 크기 결정
다중 스케일 학습: 320×320 ~ 608×608 사이의 다양한 입력 크기로 학습
Darknet-19: 새로운 백본 네트워크 (19개 컨볼루션 레이어)

YOLOv3 - 2018

"YOLOv3: An Incremental Improvement" 논문에서 소개되었으며, 정확도와 속도를 모두 개선했다.

주요 개선사항:

다중 스케일 예측: 3개의 서로 다른 스케일에서 예측 (작은 객체 탐지 향상)
Darknet-53: ResNet의 잔차 연결을 활용한 53개 레이어 백본
Logistic Regression: 객체성(objectness) 점수에 로지스틱 회귀 사용
독립적 클래스 예측: Softmax 대신 독립적인 로지스틱 분류기 사용 (다중 레이블 지원)
Feature Pyramid Network (FPN): 다양한 크기의 특징 맵 활용

YOLOv3 구조 — YOLOv3의 다중 스케일 예측 구조
출처: Medium

[목차로 돌아가기]

4.3 YOLOv4/v5 (2020)

YOLOv4 - 2020년 4월

Alexey Bochkovskiy 등이 발표한 버전으로, 최신 딥러닝 기법들을 종합적으로 적용하여 성능을 크게 향상시켰다.

주요 혁신:

CSPDarknet53: Cross Stage Partial 연결을 적용한 백본
SPP (Spatial Pyramid Pooling): 다양한 스케일의 특징 추출
PAN (Path Aggregation Network): 상향식 경로로 특징 전파 개선
Mish 활성화 함수: ReLU보다 부드러운 비선형성
Mosaic 데이터 증강: 4개 이미지를 하나로 합쳐 학습
DropBlock 정규화: 과적합 방지
CIoU Loss: 바운딩 박스 회귀를 위한 개선된 손실 함수

YOLOv5 - 2020년 6월

Ultralytics에서 PyTorch로 구현한 버전이다. YOLOv4의 공식 후속작은 아니지만, 실용성과 사용 편의성으로 인기를 얻었다.

주요 특징:

모델 크기 다양화: YOLOv5n, s, m, l, x (nano에서 extra large까지)
Auto Anchor: 데이터셋에 맞는 최적의 앵커 자동 계산
PyTorch 네이티브: 구현과 배포가 쉬움
향상된 데이터 증강: Mosaic, MixUp, Augmentation 정책
경량화: 모바일 및 엣지 디바이스 배포 최적화

**YOLOv4 vs YOLOv5 성능 비교**
모델	mAP@0.5	FPS	파라미터 수
YOLOv4	43.5%	65	64M
YOLOv5s	37.4%	140	7.2M
YOLOv5m	45.4%	100	21M
YOLOv5l	49.0%	70	46M

[목차로 돌아가기]

4.4 YOLOv6-v8 (2022-2023)

YOLOv6 - 2022

Meituan에서 개발한 산업 응용에 최적화된 버전이다.

BiC (Bi-directional Concatenation): 양방향 특징 융합
SimOTA: 동적 레이블 할당 전략
Self-distillation: 자기 증류를 통한 성능 향상
산업 최적화: 실제 배포 환경에 특화

YOLOv7 - 2022

YOLOv4 저자들이 발표한 공식 후속작이다.

Extended ELAN: 효율적인 레이어 집계 네트워크 확장
Model Scaling: 복합 스케일링 방법
Re-parameterization: 추론 시 모델 구조 단순화
Auxiliary Head: 학습 시 보조 헤드 사용

YOLOv8 - 2023

Ultralytics의 최신 버전으로, YOLO 시리즈의 집대성이다.

혁신적 특징:

Anchor-free: 앵커 박스 없이 직접 예측
분리된 헤드: 분류와 위치 예측을 분리
Task Unification: 탐지, 세그멘테이션, 분류, 포즈 추정 통합
C2f 모듈: CSP Bottleneck의 개선 버전
향상된 손실 함수: VFL (Varifocal Loss) + DFL (Distribution Focal Loss) + CIoU
사용자 친화적 API: 간단한 명령어로 학습과 추론 가능

YOLO 진화 — YOLO 버전별 성능 및 속도 비교
출처: Medium

YOLOv8의 다중 작업 능력

YOLOv8은 단순한 객체 탐지를 넘어 인스턴스 세그멘테이션(Instance Segmentation), 이미지 분류(Classification), 자세 추정(Pose Estimation) 등 다양한 컴퓨터 비전 작업을 하나의 프레임워크에서 처리할 수 있다. 이는 실무에서 여러 모델을 관리할 필요 없이 통합된 솔루션을 제공한다는 점에서 큰 의미가 있다.

[목차로 돌아가기]

05. YOLO의 응용 분야

YOLO의 실시간 처리 능력과 높은 정확도는 다양한 산업 분야에서 활용되고 있다.

1) 자율주행 자동차

자율주행차는 주변 환경을 실시간으로 인식해야 한다. YOLO는 차량, 보행자, 신호등, 도로 표지판 등을 빠르게 탐지하여 안전한 주행 판단을 가능하게 한다. Tesla, Waymo 등 주요 자율주행 업체들이 YOLO 기반 기술을 활용하고 있다.

2) 보안 및 감시 시스템

CCTV 영상에서 침입자 감지, 이상 행동 탐지, 군중 분석 등에 활용된다. 실시간으로 수많은 카메라 영상을 분석하여 위험 상황을 즉시 감지할 수 있다.

3) 의료 영상 분석

X-ray, CT, MRI 영상에서 종양, 병변, 이상 부위를 자동으로 탐지한다. 의사의 진단을 보조하여 조기 발견율을 높이고 진단 시간을 단축시킨다.

4) 스마트 제조 및 품질 검사

생산 라인에서 불량품 자동 검출, 부품 위치 확인, 조립 검증 등에 사용된다. 실시간 처리가 가능하여 생산 속도를 늦추지 않으면서도 품질을 보장할 수 있다.

5) 스마트 리테일

무인 매장에서 상품 인식, 재고 관리, 고객 행동 분석 등에 활용된다. Amazon Go와 같은 무인 매장의 핵심 기술이다.

6) 스포츠 분석

경기 영상에서 선수, 공, 라인을 추적하여 전술 분석, 성과 측정, 하이라이트 자동 생성 등에 사용된다.

7) 드론 및 로봇 비전

드론이나 로봇이 환경을 인식하고 장애물을 회피하거나 목표물을 추적하는 데 활용된다. 경량화된 YOLO 모델은 제한된 컴퓨팅 자원에서도 효율적으로 작동한다.

8) 농업 자동화

작물의 성숙도 판단, 병해충 탐지, 잡초 제거, 수확 로봇 등 스마트 농업에서 YOLO가 활용되고 있다.

YOLO 응용 — YOLO의 다양한 실제 응용 사례들
출처: Medium

[목차로 돌아가기]

06. YOLO의 장단점

장점

빠른 속도:
실시간 처리가 가능하여 비디오 스트림, 자율주행 등 즉각적인 반응이 필요한 응용에 적합하다. 최신 버전은 초당 100 프레임 이상을 처리할 수 있다.
통합된 구조:
단일 네트워크로 모든 처리를 수행하므로 최적화가 쉽고 엔드-투-엔드 학습이 가능하다.
전역적 추론:
이미지 전체를 고려하므로 컨텍스트 정보를 활용하여 배경 오류가 적다.
일반화 능력:
새로운 도메인이나 환경에서도 비교적 잘 작동한다.
다양한 모델 크기:
nano부터 extra large까지 응용 환경에 맞는 모델을 선택할 수 있다.
활발한 커뮤니티:
오픈소스로 제공되며, 풍부한 문서와 튜토리얼, 사전 학습 모델이 있다.

단점

작은 객체 탐지:
그리드 기반 접근으로 인해 작은 객체나 밀집된 객체를 탐지하는 데 어려움이 있다. 특히 여러 작은 객체가 같은 그리드 셀에 있을 때 문제가 발생할 수 있다.
새로운 종횡비:
학습 데이터에 없던 특이한 종횡비의 객체에 대해서는 성능이 저하될 수 있다.
위치 정확도:
2단계 방식(Faster R-CNN 등)에 비해 바운딩 박스의 정밀도가 다소 떨어질 수 있다. 특히 객체의 경계가 모호한 경우 문제가 된다.
클래스 불균형:
대부분의 그리드 셀이 배경이므로 클래스 불균형 문제가 발생할 수 있다. 손실 함수의 가중치 조정으로 부분적으로 해결하지만 완벽하지는 않다.

YOLO 선택 가이드

YOLO를 선택할 때는 속도와 정확도의 트레이드오프를 고려해야 한다. 실시간 처리가 중요하다면 작은 모델(YOLOv8n, s)을, 정확도가 중요하다면 큰 모델(YOLOv8l, x)을 선택한다. 또한 작은 객체가 많거나 매우 정밀한 위치 정보가 필요한 경우에는 Faster R-CNN이나 Mask R-CNN 같은 2단계 방식을 고려해야 할 수도 있다. 최근에는 YOLO의 약점을 보완한 YOLO-World, YOLOv9 등 새로운 변형들이 계속 등장하고 있다.