DL&ML 38

Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing

논문 링크 ; arxiv.org/pdf/2002.07033.pdf 지금 참여 중인 Kaggle Competition이다. Riiid! Answer Correctness Prediction Track knowledge states of 1M+ students in the wild www.kaggle.com SANTA 앱에서 축적된 유저의 학습 데이터를 가지고, Knowledge Tracing을 하는 대회이고, 유저의 응답 history가 주어졌을 때 다음으로 주어지는 문제를 맞출 확률이 얼마나 되는지 계산해야 한다. 관련 논문을 훑다가, riiid에서 구현한 모델이 있어서 보니 트랜스포머를 사용하고 있었는데, 주어진 데이터를 트랜스포머에 어떻게 입력을 한 것인지 궁금해서 보게 되었다. Knowledge T..

DL&ML/papers 2020.10.30

Siamese Neutral Networks for One-shot Image Recognition

논문 링크 ; www.cs.cmu.edu/~rsalakhu/papers/oneshot1.pdf (링크 클릭이 안되는 경우 제목으로 검색) 이전에 Extrative Summarization as Text Matching 논문에서 siamese-BERT 아키텍쳐가 제안되었는데, siamese-network가 무엇인지 궁금해서 관련 논문을 찾아보았다. One-shot Image Recognition 딥러닝을 이용해서 특정 태스크의 문제를 해결하기 위한 좋은 피쳐, 표현을 얻기 위해선 양질의 데이터와 비싼 컴퓨팅 자원이 필요하다. 하지만, 사람은 조금 과장해서 A가 그려진 단 한장의 이미지만을 보고도 A의 변형에 대해서 같은 것임을 분류해 낼 수 있다. 여기서, One-shot Image Recognition ..

DL&ML/papers 2020.10.27

One-shot learning (siamese network)

one-shot learning에 대한 좋은 설명 블로그가 있는데, 평소에 말이 많은 사람인지, 본론이 시작되기 전에 서론을 지나치게 길게 써놔서 번역하여 중요 부분만 간략히 정리해본다. One Shot Learning and Siamese Networks in Keras [Epistemic status: I have no formal training in machine learning or statistics so some of this might be wrong/misleading, but I’ve tried my best.] sorenbouma.github.io 뉴럴넷을 이용하면 고차원의 데이터에 대해 좋은 퍼포먼스를 보인다. 하지만, 일반적으로는 학습데이터가 클 때만 해당되는 말이다. 반면 사람은..

DL&ML/concept 2020.10.23

Extractive Summarization as Text Matching

논문 링크 ; arxiv.org/pdf/2004.08795v1.pdf 현재 CNN/DM 데이터 셋에 대해서 SOTA를 찍고 있는 모델을 다룬 논문이다. 이전의 뉴럴넷 기반의 추출식 요약 모델은 각 문장 간의 관계를 모델링해서 문장을 추출하는 방식으로 구현이 되어 왔다. (각 문장에 스코어를 매기고, 정렬하여 추출) 본 논문에선 추출식 요약 태스크를 "Semantic text matching" 문제로 해석하여 접근하였다. 문서와, 문서에서 추출된 후보 요약문들을 semantic space 상에서 매칭 시키는 방식으로 기존 접근 방식에서의 paradigm shift라고 표현하고 있다. "Matching-based Summarization Framework" github.com/maszhongming/Matc..

DL&ML/papers 2020.10.22

Text Summarization with Pretrained Encoders

논문 링크 ; arxiv.org/pdf/1908.08345.pdf BERT를 이용해서 문서 요약(extractive, abstractive 방식)이 가능한 프레임워크를 제안한 논문. 현재 회사에서 하고 있는 일이 뉴스를 extrative 방식으로 요약하는 것이므로 extractive 부분에 집중해서 정리해보자. 본 논문에선 문장에 대한 표현을 만들어주는 BERT를 기반으로 document-level encoder를 제안했다. BERT의 인코더 위에 몇 개의 inter-sentence 트랜스포머 레이어를 추가하는 식으로 구현이 되었다. (문장 추출을 위한 document-level의 피쳐를 뽑기 위함) 19년 발표 당시에 CNN/DailyMail dataset에 대해 SOTA를 찍은 논문. 약 30만개로 ..

DL&ML/papers 2020.10.21

Transformer

트랜스포머에 대해서 복습. 일단 아래의 글을 보고 이해를 해본다. The Illustrated Transformer Discussions: Hacker News (65 points, 4 comments), Reddit r/MachineLearning (29 points, 3 comments) Translations: Chinese (Simplified), Japanese, Korean, Russian Watch: MIT’s Deep Learning State of the Art lecture referencing this post In the previous pos jalammar.github.io 인코더 부분 self attention layer는 특정 단어를 인코딩 하기 위해서, 특정 단어와 문장 내..

DL&ML/concept 2020.10.21