[Home] AI로 돌아가기
Data - 데이터
데이터(Data)는 정보의 기본 단위로, AI 및 머신러닝 모델의 학습과 성능에 중요한 역할을 한다.
(1) 공공데이터 (Public Data)
공공데이터는 정부 및 공공기관이 생산·관리하며, 국민 누구나 자유롭게 활용할 수 있도록 개방된 데이터이다.
(2) FAIR 원칙
미국에서는 공공데이터가 FAIR 원칙을 따라야 한다.
- F (Findable): 검색 가능해야 한다.
- A (Accessible): 접근할 수 있어야 한다.
- I (Interoperable): 호환성이 있어야 하며, 표준을 준수해야 한다.
- R (Reusable): 재사용할 수 있어야 한다.
(3) 대규모 데이터 세트
AI 모델의 학습을 위한 대표적인 대규모 데이터 세트:
- 이미지 데이터: ImageNet, COCO, OpenImages (수십억 개의 이미지)
- 텍스트 데이터: Wikipedia, Common Crawl, LibriSpeech (수천억 개의 단어)
- 코드 데이터: GitHub, Stack Overflow (수십억 개의 코드 라인)
- 오디오 데이터: Freesound, AudioNet (수백만 시간의 오디오)
- 비디오 데이터: YouTube 8M, Kinetics (수백만 시간의 비디오)