seq2seq 2

Seq2Seq & Beam Search

앞서 Seq2Seq의 구조와 학습 방법에 대해서 알아봤었다. Seq2Seq, Auto Regressive, Attention, Teacher Forcing, Input Feeding 최근에 번역 모델을 직접 구현해보면서 공부하게 된 구조 seq2seq. 개념만 알고 직접 구현해본 적은 없어서 굳이 호기심을 가지고 해본 것인데, 새롭게 배운 것이 꽤 있다. 이해하기 위해선 RNN이나 aimaster.tistory.com 그러면, 추론은 어떻게 할까? seq2seq을 기준으로 입력 문장(영어)을 컨텍스트 벡터로 인코딩 한 뒤 타겟 문장(한글)으로 디코딩하는 방법에 대해 정리해 본다. 입력/출력 문장을 구성하는 단어 사전의 크기는 3만개라고 가정하자. 디코딩 과정은 곧 매 타임스텝마다 3만 개 단어중 하나를 ..

DL&ML/concept 2021.04.14

Seq2Seq, Auto Regressive, Attention, Teacher Forcing, Input Feeding

최근에 번역 모델을 직접 구현해보면서 공부하게 된 구조 seq2seq. 개념만 알고 직접 구현해본 적은 없어서 굳이 호기심을 가지고 해본 것인데, 새롭게 배운 것이 꽤 있다. 이해하기 위해선 RNN이나, LSTM 등이 대충 어떻게 생겨먹었는지 정도는 알아야 함. seq2seq, *Auto Regressive 뭐, 대략 아래와 같은 구조로 이루어져있다. 인코더 및 디코더 블럭은 RNN 계열의 모델로 구성 되며, 여러 레이어로 쌓아서 쓰기도 한다. 번역 모델을 생각해봤을 때, 인코더에 문장을 구성하는 단어 토큰을 입력으로 넣어 마지막 타임 스텝의 히든 스테이트 값을 뽑으면 문장의 정보가 함축 되어 있을 것이라고 기대할 수 있다. (압축 & 해제, 오토 인코더 느낌 ; latent space 어딘가로 위치 시..

DL&ML/concept 2021.04.07