arxiv.org/abs/2003.10555 Electra 모델은 어떻게 학습이 되는지 알아보자. ELECTRA? Masked Language Modeling(MLM) pre-training 방법은 입력 일부를 [MASK] 토큰으로 변경해버린 뒤 원래 토큰을 복원하는 식으로 학습을 한다. 그런데 이게 과연 효율적인가? 라는 의문에서 Electra의 아이디어가 나왔다. 마스킹을 할 때 15% 정도의 확률로 선택을 하고, 마스킹 된 것을 원본으로 복원하는 것을 학습하는데, 하나의 Example 당 15% 토큰만 학습에 기여하기 때문에 계산 효율적이지 못하다. Electra에선 Replaced Token Detection (RTD) 방식의 pre-training 방법을 제안한다. 단순히 특정 토큰을 [MASK..