인공지능 연대기 (AI Chronicle)

1940s~1950s - AI의 이론적 기초

1943
최초의 뉴런 모델

1943년, 워렌 맥컬록(Warren McCulloch)과 월터 피츠(Walter Pitts)는 역사에 남을 논문 "A Logical Calculus of Ideas Immanent in Nervous Activity"를 발표했다.

핵심 기여: 이들은 생물학적 뉴런을 수학적 모델로 변환하는 데 성공했다. 이 모델은 입력값에 임계값을 적용하여 이진 출력(0 또는 1)을 생성하는 방식으로 작동했다.

맥컬록-피츠 뉴런의 특징:
• 이진 입력과 출력 (0 또는 1)
• 임계값 기반 활성화
• 논리 게이트(AND, OR, NOT) 구현 가능
• 튜링 완전성 증명 - 모든 계산 가능

역사적 의의: 이 연구는 신경과학과 컴퓨터 과학을 최초로 연결한 학제간 연구였으며, 인간의 뇌를 논리적·수학적으로 모델링할 수 있다는 가능성을 제시했다. 이는 현대 인공신경망의 이론적 토대가 되었다.

1950
튜링 테스트 제안

앨런 튜링(Alan Turing)은 논문 "Computing Machinery and Intelligence"에서 튜링 테스트(Turing Test) 또는 모방 게임(Imitation Game)을 제안했다.

테스트 방식: 인간 심사자가 화면을 통해 보이지 않는 대상(인간 또는 기계)과 자연어로 대화한다. 만약 심사자가 대화 상대가 기계인지 인간인지 구분할 수 없다면, 그 기계는 지능을 가진 것으로 판단한다.

튜링 테스트의 핵심 철학:
• "기계가 생각할 수 있는가?"라는 질문을 "기계가 지능적으로 행동할 수 있는가?"로 전환
• 행동주의적 접근 - 내부 메커니즘보다 외부 행동에 초점
• 수행 능력의 비구별성을 지능의 기준으로 제시

현대적 의미: 튜링 테스트는 70년이 넘도록 AI 연구의 중요한 벤치마크로 작용해왔다. ChatGPT와 같은 대화형 AI의 등장으로 이 테스트의 의미는 새롭게 조명받고 있다.

1960s~1990s - 퍼셉트론과 AI 겨울

1958
퍼셉트론의 등장

프랭크 로젠블렛(Frank Rosenblatt)은 최초의 실용적 인공신경망 모델인 퍼셉트론(Perceptron)을 개발했다.

퍼셉트론의 구조:
• 입력층: 여러 개의 입력 신호 (x₁, x₂, ..., xₙ)
• 가중치: 각 입력에 대한 중요도 (w₁, w₂, ..., wₙ)
• 편향(bias): 활성화 임계값 조정
• 활성화 함수: 계단 함수(step function) 사용
• 출력: 이진 분류 결과 (0 또는 1)

수학적 표현: 출력 y = 1 (if Σ(wᵢxᵢ) + b > 0), 0 (otherwise)

퍼셉트론의 혁신:
• 최초로 "학습 가능한" 알고리즘 구현
• 선형 분류 문제를 자동으로 해결
• 실제 하드웨어로 구현됨 (Mark I Perceptron, 1958)
• 이미지 인식에 적용 시도

당시의 낙관론: 로젠블렛은 퍼셉트론이 "걷고, 말하고, 보고, 쓰고, 스스로를 재생산하고, 자신의 존재를 의식할 수 있는" 기계로 발전할 것이라고 예측했다. 이는 과도한 낙관론이었지만, AI 연구에 큰 관심을 불러일으켰다.

1969
퍼셉트론의 한계 - AI 겨울의 시작

마빈 민스키(Marvin Minsky)와 시모어 페퍼트(Seymour Papert)는 저서 『Perceptrons』에서 단층 퍼셉트론의 근본적 한계를 수학적으로 증명했다.

핵심 문제 - XOR 불가능:
XOR(배타적 논리합) 연산은 선형적으로 분리 불가능한 문제다. 단층 퍼셉트론은 데이터를 직선(2D) 또는 평면(3D)으로만 분류할 수 있는데, XOR 문제는 이런 방식으로 해결할 수 없다.

XOR 진리표:
입력 (0,0) → 출력 0
입력 (0,1) → 출력 1
입력 (1,0) → 출력 1
입력 (1,1) → 출력 0

이 패턴은 단일 직선으로 분리할 수 없다!

해결책과 새로운 문제: 민스키와 페퍼트는 다층 퍼셉트론(Multi-Layer Perceptron)을 사용하면 XOR 문제를 해결할 수 있다고 인정했다. 그러나 다층 신경망을 효과적으로 학습시킬 알고리즘이 당시에는 없었다는 점을 지적했다.

AI 겨울의 도래: 이 책의 출간 이후 인공신경망 연구에 대한 투자와 관심이 급격히 감소했다. 많은 연구자들이 다른 분야로 전환했고, 이 시기는 "AI 겨울(AI Winter)"이라 불리게 되었다.

1974
역전파 알고리즘 제안

폴 워보스(Paul Werbos)는 박사 학위 논문 "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences"에서 역전파(Backpropagation) 알고리즘을 제안했다.

역전파의 핵심 아이디어:
기존의 순방향(feedforward) 전파만으로는 다층 신경망의 가중치를 효과적으로 업데이트할 수 없었다. 역전파는 출력층에서 계산된 오차를 입력층 방향으로 거꾸로 전파하면서, 각 층의 가중치가 오차에 기여한 정도를 계산한다.

역전파 알고리즘의 단계:
1. 순전파: 입력 → 은닉층 → 출력층으로 신호 전달
2. 오차 계산: 예측값과 실제값의 차이 계산
3. 역전파: 오차를 출력층에서 입력층 방향으로 전파
4. 가중치 업데이트: 연쇄 법칙(chain rule)을 사용해 각 가중치의 기여도 계산 및 조정
5. 반복: 위 과정을 여러 번 반복하여 오차 최소화

수학적 기반: 역전파는 미적분학의 연쇄 법칙(chain rule)과 경사하강법(gradient descent)을 결합한 알고리즘이다.

초기 반응: 안타깝게도 워보스의 연구는 초기에 큰 주목을 받지 못했다. 당시 AI 겨울의 영향으로 신경망 연구 자체가 위축되어 있었기 때문이다. 이 알고리즘은 1980년대 중반에 재발견되어서야 널리 알려지게 되었다.

1974 ~ 1980
1차 AI 겨울

첫 번째 AI 겨울의 원인:
• 과도한 기대와 현실의 괴리
• 컴퓨팅 성능의 한계 (메모리, 처리 속도)
• 실용적 응용 프로그램 부족
• 연구 자금 지원 중단

이 시기 동안 AI 연구는 크게 위축되었으며, 많은 프로젝트가 중단되었다.

1980 ~ 1987
전문가 시스템의 황금기

전문가 시스템(Expert System)의 등장:
신경망이 주춤한 사이, 규칙 기반 AI가 주목받았다. 전문가 시스템은 특정 도메인의 지식을 "IF-THEN" 규칙으로 코드화하여 전문가 수준의 의사결정을 모방하려는 시스템이다.

대표적인 전문가 시스템:
• MYCIN (1970년대): 혈액 감염 진단 및 항생제 처방
• DENDRAL (1965~): 화학 구조 분석
• XCON (1980년대): DEC 컴퓨터 시스템 구성 최적화
• PROSPECTOR: 광물 탐사

전문가 시스템의 구조:
• 지식 베이스(Knowledge Base): 전문가의 지식을 규칙으로 저장
• 추론 엔진(Inference Engine): 규칙을 적용하여 결론 도출
• 사용자 인터페이스: 질문과 답변 처리

상업적 성공: 1980년대 중반, 전문가 시스템은 수억 달러 규모의 산업으로 성장했다. 많은 기업들이 자체 전문가 시스템을 개발하거나 도입했다.

1987 ~ 1993
2차 AI 겨울

두 번째 AI 겨울의 원인:

전문가 시스템의 한계 노출:
• 지식 획득 병목(Knowledge Acquisition Bottleneck): 전문가의 지식을 규칙으로 변환하는 과정이 매우 어렵고 시간 소모적
• 유지보수의 어려움: 규칙이 수천~수만 개로 늘어나면 관리가 불가능
• 취약성: 학습된 범위를 벗어난 문제에 대처 불가
• 확장성 부족: 새로운 지식 추가 시 기존 규칙과 충돌 가능

하드웨어 문제:
• LISP 머신의 실패: 전문가 시스템 실행용 특수 하드웨어가 상업적으로 실패
• 일반 PC의 발전으로 고가의 전용 하드웨어가 불필요해짐

투자 감소:
• 미국 정부와 기업의 AI 연구 투자 급감
• 많은 AI 전문 기업들이 파산
• "AI"라는 용어 자체가 부정적 의미로 인식됨

1986~2005 - 침체기 속 혁신

1986
RNN의 개념 확립

데이비드 루멜하르트(David Rumelhart)의 연구를 기반으로 RNN(Recurrent Neural Network, 순환 신경망)의 개념이 확립되었다.

RNN이란?
순환 신경망은 시퀀스(sequence) 데이터를 처리하기 위해 설계된 신경망이다. 기존 피드포워드 신경망과 달리, 이전 시점의 정보를 현재 시점의 계산에 활용할 수 있는 "메모리" 기능을 가지고 있다.

RNN의 핵심 특징:
• 은닉 상태(Hidden State): 이전 정보를 저장하는 메모리 역할
• 순환 연결(Recurrent Connection): 출력이 다시 입력으로 피드백
• 가변 길이 시퀀스 처리: 입력 길이에 제약이 없음
• 시간적 의존성 학습: 과거 정보를 현재 예측에 반영

초기 발전:
• 1982년: 존 홉필드(John Hopfield)가 홉필드 네트워크 발명 - RNN의 전신
• 1986년: 마이클 조던(Michael I. Jordan)이 조던 네트워크 제안
• 1990년: 제프리 엘만(Jeffrey Elman)이 엘만 네트워크 제안

응용 분야: 음성 인식, 자연어 처리, 시계열 예측, 필기 인식 등 순차적 데이터를 다루는 모든 분야에서 활용되었다.

1989
CNN의 등장

1989년, 얀 르쿤(Yann LeCun)과 연구팀이 역전파를 활용한 합성곱 신경망(Convolutional Neural Network, CNN)을 제안했다.

CNN의 혁신:
기존에는 이미지를 픽셀 리스트로 평탄화(flatten)하여 피드포워드 신경망에 입력했다. 이 방식은 이미지의 공간적 정보를 버리는 문제가 있었다. CNN은 이미지의 2D 구조를 보존하며 공간적 정보를 처리할 수 있는 능력을 갖추었다.

1989년 최초 CNN의 특징:
• 입력: 16×16 그레이스케일 손글씨 숫자 이미지
• 구조: 2개의 합성곱 층 (12개의 5×5 필터)
• Stride 2를 사용한 다운샘플링
• 활성화 함수: tanh
• 파라미터: 약 9,760개 (현대 모델에 비해 매우 작음)
• 학습: 역전파 알고리즘 사용

생물학적 영감:
• 1959-1968년: 휴벨(Hubel)과 비젤(Wiesel)의 고양이 시각 피질 연구
• 1980년: 후쿠시마(Fukushima)의 네오코그니트론(Neocognitron) - CNN의 원형

LeNet의 발전:
• 1989년: LeNet-1 - 최초의 CNN 모델
• 1998년: LeNet-5 - 7층 구조로 발전, MNIST에서 99.05% 정확도 달성
• 우편번호 자동 인식 시스템에 실제 적용

CNN의 핵심 원리:
• 합성곱(Convolution): 국소적 패턴 감지
• 풀링(Pooling): 공간적 다운샘플링
• 파라미터 공유: 동일한 필터를 이미지 전체에 적용
• 계층적 특징 학습: 단순한 패턴 → 복잡한 패턴

초기 반응: LeNet-5는 MNIST에서 인상적인 성능을 보였지만, Support Vector Machines(SVM)과 비슷하거나 약간 나은 수준이었다. 신경망 학습이 여전히 비용이 많이 들고 복잡했기 때문에 1990년대 후반 신경망에 대한 관심이 다시 줄어들었다.

역사적 의의: CNN은 컴퓨터 비전 연구의 패러다임을 바꾸었다. 수작업 특징 추출 대신 데이터로부터 직접 특징을 학습하는 end-to-end 학습의 가능성을 보여주었다. 2012년 AlexNet의 성공까지 20년 이상이 걸렸지만, CNN의 기본 원리는 그대로 현대 컴퓨터 비전의 핵심으로 남아있다.

1997
LSTM의 등장

Sepp Hochreiter와 Jürgen Schmidhuber가 LSTM(Long Short-Term Memory)을 제안했다.

LSTM이란?
기존 순환 신경망(RNN)의 장기 의존성 문제(Long-term Dependency Problem)를 해결하기 위해 개발된 특수한 RNN 구조다. 일반 RNN은 시퀀스가 길어질수록 초기 정보를 잊어버리는 "기울기 소실(Vanishing Gradient)" 문제가 발생한다.

LSTM의 핵심 구조:
• 셀 상태(Cell State): 정보의 장기 저장소
• 망각 게이트(Forget Gate): 불필요한 정보 제거
• 입력 게이트(Input Gate): 새로운 정보 저장 여부 결정
• 출력 게이트(Output Gate): 현재 상태 출력 제어

이 세 개의 게이트가 정보의 흐름을 제어하여 장기 의존성 학습 가능

응용 분야: 음성 인식, 기계 번역, 시계열 예측, 필기 인식 등 순차 데이터 처리에 혁명을 가져왔다.

2006~2011 - 딥러닝의 부활

2006
딥러닝의 출현

긴 침체기에도 불구하고 일부 연구자들은 신경망 연구를 지속했다. 2006년, 제프리 힌턴(Geoffrey Hinton)은 "A Fast Learning Algorithm for Deep Belief Nets"라는 논문을 통해 획기적인 돌파구를 제시했다.

핵심 발견 - 사전훈련(Pre-training):
힌턴은 깊은 신경망이 학습에 실패하는 이유가 가중치의 초기값이 부적절하기 때문이라는 것을 발견했다. 그는 층별 사전훈련(layer-wise pre-training) 방법을 제안했다.

사전훈련 절차:
1. 비지도 학습으로 각 층을 순차적으로 훈련
2. 첫 번째 은닉층을 먼저 훈련하여 입력 데이터의 특징 학습
3. 다음 층을 훈련하여 더 추상적인 특징 학습
4. 모든 층의 사전훈련 완료 후, 지도 학습으로 미세 조정(fine-tuning)
5. 역전파로 전체 네트워크 최적화

제한 볼츠만 머신(RBM): 힌턴은 사전훈련에 제한 볼츠만 머신이라는 확률적 생성 모델을 사용했다. 이는 데이터의 확률 분포를 학습하여 좋은 초기 가중치를 찾는 데 효과적이었다.

역사적 의의: 이 연구는 "깊은" 신경망도 효과적으로 학습시킬 수 있음을 보여주었고, AI 겨울을 끝내는 신호탄이 되었다.

2007
오토인코더와 딥러닝의 확산

2007년, 요슈아 벤지오(Yoshua Bengio) 연구팀은 "Greedy Layer-Wise Training of Deep Networks"라는 논문에서 더 간단한 사전훈련 방법을 제안했다.

오토인코더(Autoencoder)란?
오토인코더는 입력 데이터를 압축(인코딩)했다가 다시 복원(디코딩)하도록 학습하는 신경망이다. 이 과정에서 데이터의 중요한 특징을 자동으로 학습한다.

오토인코더의 구조:
• 인코더(Encoder): 입력 → 압축된 표현(잠재 공간)
• 디코더(Decoder): 압축된 표현 → 복원된 출력
• 목표: 입력과 출력의 차이 최소화
• 결과: 중간 층이 데이터의 핵심 특징을 학습

사전훈련에서의 활용:
각 층을 오토인코더로 훈련하면, 그 층은 입력 데이터의 유용한 표현을 학습한다. 이는 RBM보다 구현이 간단하면서도 효과적이었다.

"딥러닝"이라는 용어의 탄생:
2006년부터 연구자들은 "신경망(Neural Network)" 대신 "딥러닝(Deep Learning)"이라는 새로운 용어를 사용하기 시작했다.

용어 변경의 이유:
• 1969년 이후 "신경망"이라는 단어에 부정적 인식이 강했음
• 많은 학술지에서 "신경망" 관련 논문을 거부
• 새로운 브랜딩으로 연구의 참신함을 강조
• "Deep"은 깊은 층 구조의 특징을 잘 표현
• 마케팅 효과로 투자와 관심 유도

딥러닝 시대의 개막: 2006~2007년의 이러한 발견들로 인해 AI는 다시 부흥기를 맞이했다. ImageNet 대회(2012)에서의 획기적 성과, 음성인식의 혁신, 그리고 현재의 대규모 언어 모델까지, 모든 현대 AI의 토대가 이 시기에 마련되었다.

2009
ImageNet 데이터셋 공개

페이페이 리(Fei-Fei Li) 교수 팀이 ImageNet 데이터셋을 공개했다. 1,400만 개 이상의 레이블된 이미지로 구성된 대규모 데이터셋으로, 2010년부터 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)가 시작되었다.

역사적 의의: ImageNet은 딥러닝 연구의 벤치마크가 되었으며, 컴퓨터 비전 분야의 급속한 발전을 이끌었다. 이 데이터셋이 없었다면 현대 딥러닝의 발전은 훨씬 더뎠을 것이다.

2012~2017 - 딥러닝의 폭발적 성장

2012
AlexNet - CNN의 부활

Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton이 개발한 AlexNet이 ImageNet 경진대회에서 압도적인 성능으로 우승했다.

획기적인 성과:
• 오류율 15.3%로 2위(26.2%)를 10% 이상 격차로 제치고 우승
• 이는 컴퓨터 비전 역사상 가장 극적인 성능 향상이었음
• CNN(합성곱 신경망)이 이미지 인식에서 기존 방법들을 압도함을 증명

AlexNet의 혁신:
• 8개 층의 깊은 CNN 구조
• ReLU 활성화 함수 사용 (기존의 sigmoid/tanh 대체)
• Dropout 정규화 기법 도입
• GPU 병렬 처리 활용 (2개의 GTX 580 사용)
• 데이터 증강(Data Augmentation) 기법 적용

역사적 의의: AlexNet의 성공은 딥러닝 붐을 촉발시켰다. 이후 VGGNet(2014), GoogLeNet(2014), ResNet(2015) 등 더 깊고 정교한 CNN 구조들이 연이어 등장했다.

2014
GRU의 제안

조경현 교수(뉴욕대학교)가 GRU(Gated Recurrent Unit)를 제안했다.

GRU란?
LSTM을 단순화한 구조로, 더 적은 파라미터로 비슷한 성능을 낼 수 있도록 설계되었다. LSTM의 3개 게이트를 2개로 줄여 계산 효율성을 높였다.

GRU의 구조:
• 리셋 게이트(Reset Gate): 과거 정보를 얼마나 무시할지 결정
• 업데이트 게이트(Update Gate): 과거 정보와 새 정보의 비율 조절

LSTM보다 구조가 간단하여 학습 속도가 빠르고, 작은 데이터셋에서 더 효과적

LSTM vs GRU: 일반적으로 데이터가 많고 복잡한 경우 LSTM이, 데이터가 적거나 빠른 학습이 필요한 경우 GRU가 선호된다. 현재도 두 모델 모두 널리 사용되고 있다.

2014
GAN의 등장

Ian Goodfellow와 동료들이 GAN(Generative Adversarial Networks, 생성적 적대 신경망)을 제안했다.

GAN의 핵심 아이디어:
두 개의 신경망이 서로 경쟁하며 학습한다는 독창적인 개념이다. 마치 위조지폐범(생성자)과 경찰(판별자)이 경쟁하듯이, 생성자는 더 진짜 같은 데이터를 만들려 하고, 판별자는 진짜와 가짜를 구별하려 한다.

GAN의 구조:
• 생성자(Generator): 랜덤 노이즈에서 가짜 데이터 생성
• 판별자(Discriminator): 진짜 데이터와 가짜 데이터 구별
• 적대적 학습: 두 네트워크가 동시에 학습하며 서로를 발전시킴
• 목표: 판별자가 구별할 수 없을 정도로 진짜 같은 데이터 생성

응용 분야:
• 이미지 생성 및 편집 (StyleGAN, DALL-E의 기반)
• 초해상도(Super Resolution)
• 이미지 변환 (낮↔밤, 여름↔겨울 등)
• 데이터 증강
• 예술 작품 생성

역사적 의의: Yann LeCun(얀 르쿤)은 GAN을 "지난 10년간 기계학습에서 가장 흥미로운 아이디어"라고 평가했다. GAN은 생성 AI 분야의 혁명을 이끌었다.

2016
AlphaGo - 인간 챔피언 격파

구글 DeepMind의 AlphaGo가 이세돌 9단을 4:1로 격파하며 전 세계에 충격을 주었다.

바둑 AI의 난제:
바둑은 경우의 수가 10^170개로, 체스(10^50)보다 훨씬 복잡하다. 전통적인 탐색 알고리즘으로는 불가능하다고 여겨졌다.

AlphaGo의 기술:
• 정책 네트워크(Policy Network): 다음 수를 예측
• 가치 네트워크(Value Network): 현재 국면의 승률 평가
• 몬테카를로 트리 탐색(MCTS): 효율적인 수 탐색
• 강화학습(Reinforcement Learning): 자가 대국으로 학습
• 지도학습: 인간 고수들의 기보 학습

후속 발전:
• AlphaGo Zero (2017): 인간 기보 없이 자가 대국만으로 학습, 기존 AlphaGo를 100:0으로 격파
• AlphaZero (2017): 바둑, 체스, 장기 모두 마스터
• MuZero (2019): 게임 규칙조차 모른 채 학습

사회적 영향: AlphaGo의 승리는 AI가 인간의 직관과 창의성이 필요한 영역에서도 뛰어날 수 있음을 보여주었고, AI에 대한 대중의 인식을 크게 변화시켰다.

2017
Transformer - AI의 패러다임 전환

구글 연구팀이 "Attention is All You Need" 논문에서 Transformer 아키텍처를 제안했다.

Transformer의 혁명:
RNN/LSTM 없이 오직 어텐션(Attention) 메커니즘만으로 시퀀스를 처리하는 획기적인 구조다. 이는 자연어 처리의 판도를 완전히 바꾸었다.

Transformer의 핵심 기술:
• Self-Attention: 문장 내 모든 단어 간의 관계를 동시에 파악
• Multi-Head Attention: 여러 관점에서 동시에 어텐션 계산
• 위치 인코딩(Positional Encoding): 단어 순서 정보 반영
• 병렬 처리: RNN과 달리 순차적 처리 불필요, GPU 활용 극대화
• 인코더-디코더 구조: 번역 등에 최적화

RNN/LSTM 대비 장점:
• 병렬 처리 가능 → 학습 속도 획기적 향상
• 장거리 의존성 문제 해결
• 계산 효율성 우수
• 확장성 뛰어남

역사적 의의: Transformer는 현대 AI의 표준 아키텍처가 되었다. BERT, GPT, T5 등 거의 모든 대규모 언어 모델의 기반이 되었으며, 최근에는 컴퓨터 비전(Vision Transformer)에도 적용되고 있다.

2018
BERT - 양방향 언어 이해

구글이 BERT(Bidirectional Encoder Representations from Transformers)를 발표했다.

BERT의 혁신:
기존 언어 모델이 왼쪽에서 오른쪽으로만 읽었다면, BERT는 양방향으로 문맥을 이해한다. "나는 bank에 갔다"에서 'bank'가 은행(bank)인지 강둑(bank)인지 앞뒤 문맥을 모두 보고 판단한다.

BERT의 학습 방법:
• Masked Language Model (MLM): 문장의 일부 단어를 가리고 예측
• Next Sentence Prediction (NSP): 두 문장의 연결 관계 학습
• 사전학습(Pre-training): 대규모 텍스트로 일반 지식 학습
• 미세조정(Fine-tuning): 특정 작업에 맞게 추가 학습

영향: BERT는 11개 자연어 처리 벤치마크에서 최고 성능을 달성하며, NLP 분야의 새로운 기준을 세웠다. 검색 엔진, 챗봇, 번역 등에 널리 활용되고 있다.

2018~현재 - 대규모 언어 모델과 AI의 대중화

2018~현재
GPT 시리즈 - 대규모 언어 모델의 시대

OpenAI가 GPT(Generative Pre-trained Transformer) 시리즈를 발표하며 언어 모델의 규모를 지속적으로 확장했다.

GPT 시리즈의 진화:

GPT-1 (2018):
• 1억 1,700만 개 파라미터
• 비지도 사전학습 + 지도 미세조정 접근법 입증

GPT-2 (2019):
• 15억 개 파라미터
• "악용 우려"로 초기에는 공개 보류 (후에 전면 공개)
• Zero-shot 학습 능력 입증 - 추가 학습 없이도 다양한 작업 수행

GPT-3 (2020):
• 1,750억 개 파라미터
• Few-shot 학습의 놀라운 능력
• API로 공개되어 수많은 응용 프로그램 탄생
• 코드 생성, 창작, 번역 등에서 인간 수준의 성능

GPT-4 (2023):
• 멀티모달 (텍스트 + 이미지 입력)
• 추론 능력 대폭 향상
• 전문 시험(변호사 시험, 의사 시험 등)에서 상위 10% 성적

GPT의 핵심 특징:
• Autoregressive 방식: 이전 단어들을 보고 다음 단어 예측
• 대규모 사전학습: 인터넷의 방대한 텍스트로 학습
• In-context Learning: 예시만 보고 새 작업 수행
• 프롬프트 엔지니어링: 입력 방식에 따라 출력 제어 가능

2019
PINN (Physics-Informed Neural Networks) - 물리정보 신경망

2022
ChatGPT - AI의 대중화

OpenAI가 ChatGPT를 공개하며 AI의 대중화 시대를 열었다.

폭발적 반응:
• 출시 5일 만에 사용자 100만 명 돌파
• 출시 2개월 만에 1억 명 돌파 (역사상 가장 빠른 성장)
• 교육, 비즈니스, 창작 등 모든 분야에 영향

ChatGPT의 기술:
• GPT-3.5 (후에 GPT-4) 기반
• RLHF (Reinforcement Learning from Human Feedback): 인간 피드백으로 학습
• Instruction Tuning: 지시를 따르도록 최적화
• 안전성 강화: 유해 콘텐츠 생성 방지

2023~현재
멀티모달 AI와 새로운 지평

최신 발전 동향:

멀티모달 AI:
• GPT-4V: 이미지 이해 및 분석
• DALL-E 3: 텍스트로 고품질 이미지 생성
• Gemini: 구글의 멀티모달 모델
• Claude 3: 이미지, 문서, 코드 통합 처리

특화 모델들:
• AlphaFold: 단백질 구조 예측으로 노벨 화학상 수상 (2024)
• Stable Diffusion: 오픈소스 이미지 생성
• Whisper: 고성능 음성 인식
• Sora: 텍스트로 비디오 생성

AI 에이전트:
• AutoGPT, BabyAGI: 자율적으로 작업 수행
• 도구 사용 능력: 웹 검색, 계산, 코드 실행 등

현재와 미래:
딥러닝은 이제 컴퓨터 비전, 자연어 처리, 음성 인식, 게임, 자율주행, 의료 진단, 과학 연구, 창작 활동 등 거의 모든 분야에서 혁신을 주도하고 있다.

AGI(인공 일반 지능)를 향한 여정은 계속되고 있으며, AI의 능력과 응용 범위는 날마다 확장되고 있다. 동시에 AI 안전성, 윤리, 규제에 대한 논의도 활발히 진행 중이다.