sji

  • 홈
  • 태그
  • 방명록

Electra 1

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

arxiv.org/abs/2003.10555 Electra 모델은 어떻게 학습이 되는지 알아보자. ELECTRA? Masked Language Modeling(MLM) pre-training 방법은 입력 일부를 [MASK] 토큰으로 변경해버린 뒤 원래 토큰을 복원하는 식으로 학습을 한다. 그런데 이게 과연 효율적인가? 라는 의문에서 Electra의 아이디어가 나왔다. 마스킹을 할 때 15% 정도의 확률로 선택을 하고, 마스킹 된 것을 원본으로 복원하는 것을 학습하는데, 하나의 Example 당 15% 토큰만 학습에 기여하기 때문에 계산 효율적이지 못하다. Electra에선 Replaced Token Detection (RTD) 방식의 pre-training 방법을 제안한다. 단순히 특정 토큰을 [MASK..

DL&ML/papers 2021.04.16
1
더보기
  • 분류 전체보기 (87)
    • intro. (0)
    • DL&ML (38)
      • concept (19)
      • papers (9)
      • code.data.tips (10)
    • http&server (7)
    • dist. system (6)
    • docker (5)
    • algorithm (24)
    • design pattern (1)
    • architecture (1)
    • trouble shooting (3)
    • better way (1)
    • problems (0)

Tag

gaussian mixture, nginx, string, seq2seq, queue, Zookeeper, dp, MLE, Likelihood, React Native, Graph, stack, summarization, Dynamic Programming, gunicorn, tree, CrossEntropy, flask, docker-compose, Docker,

최근글과 인기글

  • 최근글
  • 인기글
250x250

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Designed by Tistory.

티스토리툴바