DL&ML/papers 9

Knowledge Distillation: A Survey

arxiv.org/pdf/2006.05525.pdf 모델 경량화 방법인 Knowledge Distillation (이하 KD) 서베이 논문. KD가 무엇으로 구성되고 어떻게 학습이 이루어지는지에 관한 것들을 정리해보고자 한다. 딥러닝 모델을 한정된 자원을 가진 모바일 디바이스로 배포하고 싶다면 모델의 경량화는 필수다. 이 때 KD를 이용하면 모델을 압축시킬 수 있을 뿐만 아니라 추론 속도도 가속시킬 수 있다. 딥러닝 기반의 실서비스를 구성할 때도 모델 경량화기법이 유용하게 활용될 수 있다. 모델 Compression / Acceleration 방법 Parameter Pruning / Sharing Low-rank factorization Knowledge Distillation 등등 Knowledge D..

DL&ML/papers 2021.04.28

DistilBERT (a distilled version of BERT: smaller, faster, cheaper and lighter)

arxiv.org/abs/1910.01108 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter As Transfer Learning from large-scale pre-trained models becomes more prevalent in Natural Language Processing (NLP), operating these large models in on-the-edge and/or under constrained computational training or inference budgets remains challenging. In t arxiv.org Knowledge Distillation에 대해 훑..

DL&ML/papers 2021.04.23

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

arxiv.org/abs/2003.10555 Electra 모델은 어떻게 학습이 되는지 알아보자. ELECTRA? Masked Language Modeling(MLM) pre-training 방법은 입력 일부를 [MASK] 토큰으로 변경해버린 뒤 원래 토큰을 복원하는 식으로 학습을 한다. 그런데 이게 과연 효율적인가? 라는 의문에서 Electra의 아이디어가 나왔다. 마스킹을 할 때 15% 정도의 확률로 선택을 하고, 마스킹 된 것을 원본으로 복원하는 것을 학습하는데, 하나의 Example 당 15% 토큰만 학습에 기여하기 때문에 계산 효율적이지 못하다. Electra에선 Replaced Token Detection (RTD) 방식의 pre-training 방법을 제안한다. 단순히 특정 토큰을 [MASK..

DL&ML/papers 2021.04.16

Multi-Sample Dropout for Accelerated Training and Better Generalization

https://arxiv.org/pdf/1905.09788.pdf NLP 관련 캐글 상위권 솔루션들을 보다보면 간혹 등장하는 multi-sample dropout 구조를 이용해 모델의 일반화 능력을 향상 시키는 것을 볼 수 있다. 관련 논문이 있어 아이디어 정도만 정리해본다. Dropout의 효과 리마인드 예를 들어, 랜덤하게 50%의 뉴런을 매 학습 이터레이션 마다 버림 그 결과, 뉴런들이 서로 의존하는 것을 막을 수 있고, better generalization이 가능해짐 inference 시에는 학습 때 처럼 랜덤하게 버리지 않고, 각 뉴런의 출력에 0.5를 곱함. Multi-sample Dropout 이게 전부다. ​ BERT를 fine-tuning할 때를 예를 들면, BERT의 output fe..

DL&ML/papers 2021.04.15

ALBERT: A Lite BERT for self-supervised learning of language representations

arxiv.org/abs/1909.11942 ALBERT: A Lite BERT for Self-supervised Learning of Language Representations Increasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and longer training times. To arxiv.org ALBERT에 대해 갑자기 궁금하여 빠르게 훑어 보았다..

DL&ML/papers 2021.04.14

Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing

논문 링크 ; arxiv.org/pdf/2002.07033.pdf 지금 참여 중인 Kaggle Competition이다. Riiid! Answer Correctness Prediction Track knowledge states of 1M+ students in the wild www.kaggle.com SANTA 앱에서 축적된 유저의 학습 데이터를 가지고, Knowledge Tracing을 하는 대회이고, 유저의 응답 history가 주어졌을 때 다음으로 주어지는 문제를 맞출 확률이 얼마나 되는지 계산해야 한다. 관련 논문을 훑다가, riiid에서 구현한 모델이 있어서 보니 트랜스포머를 사용하고 있었는데, 주어진 데이터를 트랜스포머에 어떻게 입력을 한 것인지 궁금해서 보게 되었다. Knowledge T..

DL&ML/papers 2020.10.30

Siamese Neutral Networks for One-shot Image Recognition

논문 링크 ; www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf (링크 클릭이 안되는 경우 제목으로 검색) 이전에 Extrative Summarization as Text Matching 논문에서 siamese-BERT 아키텍쳐가 제안되었는데, siamese-network가 무엇인지 궁금해서 관련 논문을 찾아보았다. One-shot Image Recognition 딥러닝을 이용해서 특정 태스크의 문제를 해결하기 위한 좋은 피쳐, 표현을 얻기 위해선 양질의 데이터와 비싼 컴퓨팅 자원이 필요하다. 하지만, 사람은 조금 과장해서 A가 그려진 단 한장의 이미지만을 보고도 A의 변형에 대해서 같은 것임을 분류해 낼 수 있다. 여기서, One-shot Image Recognition ..

DL&ML/papers 2020.10.27

Extractive Summarization as Text Matching

논문 링크 ; arxiv.org/pdf/2004.08795v1.pdf 현재 CNN/DM 데이터 셋에 대해서 SOTA를 찍고 있는 모델을 다룬 논문이다. 이전의 뉴럴넷 기반의 추출식 요약 모델은 각 문장 간의 관계를 모델링해서 문장을 추출하는 방식으로 구현이 되어 왔다. (각 문장에 스코어를 매기고, 정렬하여 추출) 본 논문에선 추출식 요약 태스크를 "Semantic text matching" 문제로 해석하여 접근하였다. 문서와, 문서에서 추출된 후보 요약문들을 semantic space 상에서 매칭 시키는 방식으로 기존 접근 방식에서의 paradigm shift라고 표현하고 있다. "Matching-based Summarization Framework" github.com/maszhongming/Matc..

DL&ML/papers 2020.10.22