[Home] AI로 돌아가기

🔗 관련 문서: hyper.ai - Masked Language Model

MLM (Masked Language Modeling)

Masked Language Modeling은 문장 내 일부 단어를 [MASK]로 가린 후, 해당 단어를 예측하는 과제를 통해 문맥 이해 능력을 학습하는 방식이다. 이는 BERT 등 트랜스포머 기반 사전학습 모델의 핵심 학습 전략이다.

(1) 정의와 핵심 개념

MLM은 입력 문장에서 임의의 단어를 [MASK] 토큰으로 치환하고, 모델이 해당 위치에 올 수 있는 적절한 단어를 예측하도록 학습한다. 이 방식을 통해 문맥을 양방향으로 이해할 수 있는 표현 학습이 가능해진다.

(2) 작동 원리

입력 문장에서 약 15%의 단어를 무작위로 선택하여 [MASK]로 대체
모델은 주변 단어의 문맥을 기반으로 가려진 단어를 예측
예제:

입력: "The cat [MASK] on the mat." → 출력: sits

(3) 장점과 활용

장점

문맥 이해 능력 강화: 문장의 앞뒤 관계를 동시에 고려
비지도 사전학습 가능: 별도의 라벨 없이 대규모 학습 가능
다양한 NLP 과제에 유연하게 적용 가능

활용 분야

BERT 및 변형 모델의 사전학습
검색, 질의응답(QA), 요약, 텍스트 생성 등의 downstream task