[Home] AI로 돌아가기
Masking (마스킹 기법)
마스킹(Masking)은 입력 데이터 중 일부를 가리고(hidden), 해당 부분을 모델이 예측하거나 무시하도록 유도하는 기법이다. 자연어 처리에서는 주로 문맥을 학습하거나 주의(attention)를 제한하는 데 활용된다.
(1) 정의와 역할
마스킹은 입력 또는 내부 표현의 일부 요소를 [MASK]
, 0
, -inf
등으로 대체하거나 제외함으로써 모델이 특정 정보에 의존하지 않도록 조정하는 방식이다.
주요 목적은 다음과 같다:
- 예측 학습: 일부를 숨기고 예측하게 하여 표현 학습 유도 (예: MLM)
- 주의 제한: 특정 토큰 간의 attention을 막음 (예: causal mask)
- 패딩 무시: 실제 입력이 아닌 padding token 제외
(2) 주요 종류
- MLM 마스킹: 일부 토큰을
[MASK]
로 대체
- 패딩 마스크 (Padding Mask): 패딩 토큰에 대한 attention 무시
- 어텐션 마스크 (Causal Mask): 미래 단어에 대한 정보 차단 (예: GPT)
(3) 활용 사례
- BERT: 입력의 일부 단어를 [MASK]로 가리고 예측 (MLM)
- GPT: 현재 시점 이전의 단어만 보도록 causal mask 적용
- Transformer: 패딩 토큰 마스크로 loss와 attention에서 제외