'Electra' 태그의 글 목록

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

arxiv.org/abs/2003.10555 Electra 모델은 어떻게 학습이 되는지 알아보자. ELECTRA? Masked Language Modeling(MLM) pre-training 방법은 입력 일부를 [MASK] 토큰으로 변경해버린 뒤 원래 토큰을 복원하는 식으로 학습을 한다. 그런데 이게 과연 효율적인가? 라는 의문에서 Electra의 아이디어가 나왔다. 마스킹을 할 때 15% 정도의 확률로 선택을 하고, 마스킹 된 것을 원본으로 복원하는 것을 학습하는데, 하나의 Example 당 15% 토큰만 학습에 기여하기 때문에 계산 효율적이지 못하다. Electra에선 Replaced Token Detection (RTD) 방식의 pre-training 방법을 제안한다. 단순히 특정 토큰을 [MASK..

DL&ML/papers 2021.04.16

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

sji

Electra 1

티스토리툴바