sji

ec2 혹은 서버에 애플리케이션 서버를 https로 띄워야할 때

식피두 — Sun, 30 May 2021 17:57:58 +0900

가끔 프론트 애플리케이션을 https 페이지에서 테스트하게 될 때가 있는데,

https 페이지에선 보안상의 이유로 https 통신을 지원하지 않는 api 서버에 요청을 보낼 수 없다.

따라서 애플리케이션 서버를 https 지원되는 서버에 띄워서..

https 웹서버로 요청을 받은 다음,

특정 포트에 임시로 띄워놓은 서버 애플리케이션으로 리다이렉트를 해줘야 한다.

더 나은 방법이 있을 수 있지만,

내가 주로 쓰는 방법은 다음과 같다.

애플리케이션 서버가 EC2에서 동작할 때 (ex. express application running on port 8080)

다음과 같은 순서로 작업을 진행...

ec2에 nginx 설치
route53을 통해 도메인 연결 (없으면 가비아에서 구매)
도메인 연결 후 certbot을 이용해서 https 설정을 해준다. (+자동 갱신까지...)
nginx conf 파일에 리다이렉션을 위한 설정을 해준다. (아래 참고)

참고 자료

AWS EC2와 도메인 연결 (가비아)

목표) AWS EC2에서 실행중인 웹 서버를 구매한 도메인과 연결하기 (가비아에서 구매한 도메인) 1. 우선 AWS의 Route53 서비스로 이동합니다. (https://console.aws.amazon.com/route53) 2. 두 버튼 중 아무거나..

sovovy.tistory.com

[Nginx] Let's Encrypt를 통해 Nginx에서 무료로 https 설정하기 - JP-HOSTING

✅일본서버호스팅 · 프록시 · 무제한디도스방어 · 고객센터

jp-hosting.jp

아래와 같이 nginx config를 설정해준다..

server {
    server_name testdomain.com;
        
    ...
        
    location /application_server_address/ {
        proxy_pass http://localhost:8080/;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection 'upgrade';
        proxy_set_header Host $host;
        proxy_cache_bypass $http_upgrade;
    }
    
    ...

ML General 잡질문/답변 (기술면접)

식피두 — Fri, 14 May 2021 15:50:22 +0900

기존 글에도 정리를 해왔지만,

기술 면접 준비하면서 정리 했던 것들 몇 가지 보충해서 정리해봤다.

틀린 내용이 있을 수 있으니 의심하면서 보길...

Backpropagation 계산법 (이상한 곳에서는 간단한 계산 시킬 수도...)

로컬 그래디언트에 업스트림 그래디언트를 곱해줌으로써 구하는 것을 기본 원칙으로 계산 하면 된다

Regression vs. Classification

확률적인 관점에서 설명할 줄 알면 든든...

가정하는 분포가 뭔지 (이산? 연속? / 베르누이? 가우시안?)

가정 분포에 따라 Loss는 어떻게 달라지는지...

Sigmoid 쓰는 이유?

In order to map predicted value to probability

a는 sigmoid의 기울기를 결정, b는 중심 위치를 결정

Convariance vs. Correlation

두 변수가 서로 어떻게 관계를 가지는지를 보여주는 수치 Covariance

0이면 unrelated

+이면 same direction

-이면 opposite direction

Covariance의 nomalized version이 correlation으로

Covariance를 각 변수의 표준편차 곱으로 나눠주면 된다.

멀티 라벨 분류 문제에서 Micro/Macro - Precision/Recall/F-score?

micro는 클래스 구분 없이 글로벌하게 TP, TN, FP, FN를 구해서 계산

macro는 각 클래스별로 구한 뒤 평균

뉴럴넷 학습시 에러가 증가할 경우 뭘 의심 해야 하나?

Gradient
Feature Scaling / Data Shuffling
Learning Rate
버그 ; ex) 값의 일부를 NaN으로 바꿔버리는 지점

Large Weight 은 Overfit의 가능성으로 이어진다

입력이 조금만 변해도 큰 웨잇에 의해 값의 변화 폭이 커질 테니까

이 때는 regularization을 이용해서 weight의 크기를 제한할 수 있어야 함.

BatchNorm 장점?

초기화 기법을 뭘 쓰든 상관 없이 잘 학습 될 여지
fc layer 다음에, non-linear 전에 위치 시켜 사용
activation을 가우시안 분포로 맞춰 줌 (but, 실제론 그렇지 않다는 논문도 있다. 아래 블로그 글 참고)
- 실제 장점은 error surface를 스무스하게 만들어주기 때문에 학습이 원활하고 빠르게...
주어진 배치 속에서 dim. 별로 normalization을 위한 평균/표준편차를 누적해 나가면서 계산
깊은 네트워크여도 Weight이 중첩 되면서 값이 커지는 것을 방지한다.
grad 흐름 원활
- LR을 키울 수
Regularization 효과도 있음

[개념 정리] Batch Normalization in Deep Learning - part 2.

논문에서 저자가 말한 것 처럼 Batch Normalization (BN)는 네트워크 레이어의 Internal Covariate Shift (ICS)문제를 해결하기 위해 나온 기법이다. BN을 이용하면 확실하게 학습 속도가 빨라지고 안정적으로

cvml.tistory.com

Batch size & Learning rate의 관계?

일반적으로는 배치가 커질 수록 LR을 크게 가져갈 수 있다.

배치가 커질 수록 error surface 상에서 내려가는 방향에 대해 좀 더 확신을 가질 수 있기 때문이다.

LR을 고정하고 배치 사이즈를 키울 경우 LR을 줄이는 효과가 있음 + 학습은 더 빨라짐 (메모리만 넉넉하다면야...)
배치사이즈를 줄이면 일반화 효과는 커진다는 소리도 있다. "Revisiting Small Batch Training for Deep Neural Network"

왜 입력을 Normalize 해야할까?

입력을 노말라이즈 하지 않으면, 특정 피쳐와 관련된 웨잇의 그래디언트가 다른 피쳐와 연관된 웨잇의 그래디언트 보다 상대적으로 클 수가 있다. 이렇게 되면, 최적화시 그래디언트 방향이 스무스 하지 못해질 여지가 있고, 지그재그 패턴을 보일 수 있는데 이렇게 되면 수렴이 느려진다.

왜 BatchNorm에 의해 입력 분포가 비슷해지면 학습의 속도가 증가?

Internal Covariate Shift가 보정 되면서(? -> 실제론 그렇지 않다고 함), 달라지는 입력에 의해 Hidden Unit의 분포가 변하는 양이 감소한다. 예를 들어서, A 고양이 이미지를 학습하다가, 종이 다른 B 고양이 이미지가 입력 된다면 입력 분포가 갑자기 달라지기 때문에 hidden Unit도 거기에 대응해서 크게 변해야할 수 있지만, BatchNorm은 그럴 가능성을 줄여 준다. Hidden Unit이 적게 변하게 만들어 줌으로써 일반화 효과로도 이어질 수 있다.

여러 가지 초기화 방법들

Bias 는 0으로 초기화 해도 상관 없음
(https://stackoverflow.com/questions/43498037/why-add-zero-bias-in-neural-networks)
Xavier 초기화
- 이전/다음 노드 개수에 의존
- np.random.randn(in, out) / np.sqrt(in) # 입력의 개수로 스케일링
He 초기화
- ReLU에 좀 더 적합
- ReLU가 입력 분포의 절반은 날려버리니까
- np.random.randn(in, out) / np.sqrt(in/2) # 입력 절반이 날아가는 것 반영

여러 가지 Activation에 대해 살펴두기

sigmoid 같은 경우 양 끝 단에서 saturation 문제가 발생 (기울기가 거의 0에 수렴 -> vanishing gradient 여지)
tanh 도 saturation 문제는 있으나, zero centered 되어 있음
ReLU = max(0, x) ; dead neuron의 여지
Leaky ReLU = max(0.1x, x)
PReLU = max(ax, x)
그 외, Swish등 요즘 다양한 것 나왔던데 추가로 살펴볼 것

Feature Trasnform

뉴럴넷의 레이어를 통과함에 따라 데이터의 분포가 주어진 태스크를 해결하기에 적합한 분포로 변해가는 것
중간에 Non-linear Activation을 통과하면서 Linear 하게 분류할 수 없는 입력 피쳐들이 분류가 용이하도록 분포에 변화가 생기는 것

왜 Activation이 필요할까?

리니어 + 리니어 + 리니어 레이어만 가지고 네트워크를 만들면

리니어 레이어 한 개 쓴 것보다 나아질 게 없다.

즉, 복잡한 패턴을 잡아낼 수가 없다. (capture non-linear relationship)

이 때, non-linear activation을 추가함으로써 입력 피쳐 공간을 구기거나 펼침이 가능해지고(non-linear feature transform), 결국 linearly seperable 한 피쳐를 얻어낼 수 있다.(분류 문제라면)

왜 입력의 범위가 zero-centered 되어야 좋은건지?

(시그모이드를 액티베이션으로 썼을 때를 가정)

시그모이드는 출력 값이 zero-centered가 아니다. 따라서, 그 출력 값이 항상 양수가 되버린다.

이 말은 모든 weight에 대한 그래디언트가 upstream gradient의 부호에 의해 결정 된다는 소리...

따라서 다음 레이어의 그래디언트의 부호에 따라 zig-zag path로 최적화 될 여지가 있다.

*뭔 소린가 싶다면 back-prop 계산 복습 해볼 것

ReLU는 zero-centered이긴 하지만 입력 분포의 절반은 버린다.

초기화를 잘못하거나 LR이 너무 높을 경우 Dead ReLU로 이어질 수 있다고 함.

Kaggle Shopee 대회 top-solution 정리

식피두 — Thu, 13 May 2021 22:58:57 +0900

얼마 전 종료 되었던 Shoppe - Price Match Guarantee 대회

비록 뒤늦게 참여해서 아쉽게 메달은 획득하지 못했지만, 짧은 기간 동안 즐겁게 팀플레이를 할 수 있었던 대회였다.

상품 이미지와 제목이 주어졌을 때 유사한 제품 id를 찾는 멀티모달리티를 이용한 대회였다.

https://www.kaggle.com/c/shopee-product-matching

탑솔루션이 몇 개 공개되어, 상위권 사람들이 보여준 핵심 아이디어 몇 가지를 정리해보았다.

1등 솔루션 (한국인 yoonsoo님, from embeddings to matches)

https://www.kaggle.com/c/shopee-product-matching/discussion/238136
eca_nfnet_l1, xlm-roberta-large, xlm-roberta-base, bert-base-indonesian-1.5G, indobert-large-p1, bert-base-multilingual-uncased (인도네시안을 쓰는게 의미가 있을 까 싶었는데, 많이들 썼다)
Arcface를 이용해 모델 학습
- 충분히 큰 마진을 두는 것이 임베딩의 퀄리티를 결정하는 데 있어 중요했음
- 하지만 convergence 이슈가 있었고 다음의 방법으로 해결
  - 학습이 진행 됨에 따라 margin을 점차적으로 증가 시킴
  - 웜업 스텝을 크게 둠
  - cosine head에는 러닝레잇을 더 크게 둠
  - gradient clipping 적용
- 이미지 모델의 경우 margin 0.8 ~ 1.0이 적합, 텍스트 모델엔 0.6 ~ 0.8이 적합 (마진이 중요한진 몰랐네...)
  - 0.2 부터 시작해서 학습 도중에 점차적으로 끌어 올림
- google landmark recognition 솔루션을 참고(https://arxiv.org/abs/2010.05350)하여 class-size-adaptive margin 기법을 도입함 (비슷했던 컴페티션을 참고하는 것이 중요)
- 임베딩(Gloval Average Pooling 혹은 그냥 Pooling에 의해 생성 된) 이후에 BatchNorm + feature-wise Norm을 적용해주는게 좋았음
이미지와 텍스트 임베딩을 이용해 매칭을 하는 방법. 세 가지를 시도했고, 마지막 방식이 가장 좋았음
- 텍스트 임베딩만 가지고 매칭, 이미지 임베딩만 가지고 매칭 후 그 둘을 union (보통 사람들이 한 것)
- 텍스트 임베딩과 이미지 임베딩을 컨캣해서 combinded match를 수행 (첫 번째 방식보다 훨씬 좋음)
  - 각각을 기준으로 distance가 threshold 이하로 떨어지는 것들을 고르고 (strong suggest)
  - combined distance가 좀 더 루즈한 threshold 이하로 떨어지는 것들을 고름(moderately suggest)
- 세 가지를 union (가장 좋음)
- image + text model을 jointly 학습했을 땐 별로
Iterative Neighbor Blending 방법을 제안 (개별 임베딩을 개선)
- cosine distance = 1 - cosine similarity
- K NNS(Nearest Neighbor Search)을 cosine similarity 메트릭을 이용해서 적용. threshold 이하만 이웃으로 취급.
  (+ 모든 매치는 최소 2개는 갖도록 일부 조정, threshold에 아무것도 안걸릴 경우)
- Neighborhood Blending (다른 솔루션에도 Query Extention이란 이름으로 언급 된 부분)
  - 앞서 구한 이웃 끼리 엣지로 연결, 엣지의 웨잇은 cosine similarity으로 취급하여 그래프화
    - threshold 넘는 애들만 연결 되었다고 가정
  - 특정 노드의 임베딩(Query)을 주변 이웃의 임베딩을 weighted sum 함으로써 업데이트 시켜줌 (Query Extension)
    - 이렇게 함으로써 클러스터를 좀 더 명확히 할 수 있다고 한다
  - 여기에 다시 NNS를 적용해서 새 이웃을 얻을 수 있음.
    - evaluation metric이 개선되는게 멈출 때 까지 반복 (답안 링크의 코드 참고)
그 외에 image 학습시 cutmix (0.1) + horizontal flip only augmentation이 좋았다고 한다.

2등 솔루션

https://www.kaggle.com/c/shopee-product-matching/discussion/238022
2스테이지 모델을 구현해서
- 1 스테이지 ; 이미지, 텍스트, 이미지+텍스트에 대한 임베딩을 얻음
- 2 스테이지 ; meta-model 을 학습 시켜서 각 쌍의 품목이 같은 라벨 그룹에 속하는지 판단하는 모델을 구현함
  - LightGBM & Graph Attention Network
NFNet-F0, ViT embeddings을 이용한 코사인 유사도
CurricularFace loss (Arcface보다 낫다고 함)
SAM 옵티마이저 (공부 필요)
indonesian-BERT, multilingual-BERT, paraphrase-XLM
Text Similarity / Image Similarity / Text + Image Similarity
- 특히 마지막의 multimodal similaritysms NFNet-F0와 Indonesian BERT의 마지막 레이어를 컨캣 시켜서 학습함
1등 솔루션 처럼 graph feature를 사용해서 pagerank를 이용해 특정 위치 노드를 업데이트 한 것 처럼 보임
- + Query Extention ; augmented embedding which weighted averaged neighbors
이웃을 구한 결과 A-B와 B-A가 일치 되도록 후처리 한듯
여러 라벨 그룹에 걸쳐 있는 아이템을 후처리 한듯

* 6등 솔루션

https://www.kaggle.com/c/shopee-product-matching/discussion/238010
multi-modal model을 학습을 시켰는데, 다른 사람과 다른 점은
- 이미지 임베딩 만으로 arcface 학습
- 텍스트 임베딩 만으로 arcface 학습
- 이미지+텍스트 임베딩도 동시에 arcface 학습
  - 우리의 경우엔 이것만 시도하다 학습이 잘 안되서 포기했는데...
- 세 개의 태스크를 동시에 학습!! (링크에 그림 참고)
따라서 하나의 모델 안에 이미지/텍스트 기반의 백본이 있고 출력으로는 3개의 임베딩이 나오는 구조!
이런식으로 멀티모달 모델을 여러개 만들어 앙상블을 시도함.
- 이 때, 유클리디언 or 코사인 유사도 둘 중 하나만 쓴게 아니라 둘 다 씀 (왜 둘 중 하나만 쓸 생각만 했을까...)
  - 각각의 결과(4개 모델이라면 12세트x2의 예측 결과)에 대해 voting을 함
- 모델별 학습 파라미터를 보면 새롭게 추가된 head는 백본 보다 큰 러닝레잇을 부여한 것을 볼 수 있음
- 스케쥴러는 모델별로 다양하게...
  - linaer+warmup
  - ReduceLROnPlateau
  - ConsineAnnealingWarmRestart
라벨 그룹 개수가 최소 2개가 되게 끔 threshold 보정 (다른 답안과 마찬가지)
제품의 단위를 추출해서(200gram, 200gr) 단위가 다르면 매치에서 제거

14등 솔루션

https://www.kaggle.com/c/shopee-product-matching/discussion/238033
정리 예정

모델이 학습 이후에 모든 입력에 대해 동일한 출력을 내는 문제

식피두 — Mon, 3 May 2021 20:53:33 +0900

유사도 판단을 위한 임베딩을 얻기 위해

pretrained model을 가져다 fine-tuning을 통해 태스크에 좀 더 적합한 임베딩을 만들기 위해서

Arcface Loss를 학습을 했는데, 학습 후에 모든 입력에 대해 동일한 출력을 내는 기이한 현상을 겪었다.

Loss는 줄어드는 것을 보고 학습은 되고 있는게 아닌가 싶었는데...

아래 글에서 힌트를 얻어 확인해보니, 결국 Learning Rate이 너무 높은게 문제였다.

아마 이 때, ArcFace에 속한 FC Layer에 높은 LR을 부여하다가,

너무 큰 LR을 할당해버리는 바람에 학습이 이상하게 된 듯 싶다.

https://discuss.pytorch.org/t/outputs-from-a-simple-dnn-are-always-the-same-whatever-the-input-is/14969

Outputs from a simple DNN are always the same whatever the input is

I have built a DNN with only one hidden layer, the following are the parameters: input_size = 100 hidden_size = 20 output_size = 2 def init(): self.linear1 = nn.Linear() self.linear2 = nn.Linear() def forward(): x1 = F.leaky_relu() return F.leaky_relu() #u

discuss.pytorch.org

Knowledge Distillation: A Survey

식피두 — Wed, 28 Apr 2021 01:30:59 +0900

arxiv.org/pdf/2006.05525.pdf

모델 경량화 방법인 Knowledge Distillation (이하 KD) 서베이 논문.

KD가 무엇으로 구성되고 어떻게 학습이 이루어지는지에 관한 것들을 정리해보고자 한다.

딥러닝 모델을 한정된 자원을 가진 모바일 디바이스로 배포하고 싶다면 모델의 경량화는 필수다.

이 때 KD를 이용하면 모델을 압축시킬 수 있을 뿐만 아니라 추론 속도도 가속시킬 수 있다.

딥러닝 기반의 실서비스를 구성할 때도 모델 경량화기법이 유용하게 활용될 수 있다.

모델 Compression / Acceleration 방법

Parameter Pruning / Sharing
Low-rank factorization
Knowledge Distillation
등등

Knowledge Distillation

작은 모델의 Student, 큰 모델의 Teacher 모델로 구성되어 (Capacity Gap)

Teacher의 Knowledge를 Student에게 주입시킨다.

KD는 다음 세 개 요소로 구성 된다.

Knowledge
Distillation Algorithm
Teacher Student Architecture

아래는 바닐라 KD 모델의 구조도이다.

Student 모델은 실제 정답에 대해서 학습하는 동시에

Teacher에 의해 생성된 Soft Targets들에 대해서도 학습한다. (Cross Entropy)

bench mark model of vanilla KD

Knowledge?

KD를 통해서 Student에게 주입 시키고자 하는 Knowledge는 3가지 정도로 구분 된다.

Response/Feature/Relation Based Knowledge

Response-Based Knowledge

Teacher 모델의 마지막 예측 값 (logits)
Teacher 모델의 확률 분포를 soft targets 삼아 Student에게 학습 시킬 수
- 두 분포를 KL-Divergence loss를 이용해 학습

Responsed-Based KD

Feature-Based Knowledge

뉴럴넷의 intermiediate 레이어에 대한 Knowledge를 주입
- hints 라고도 표현함

Feature-Based Knowledge

Relation-Based Knowledge

직관적으로 와닿지는 않는 방법이다. 실험 부분을 참조해봐도 자주 쓰이지는 않는 것 처럼 보인다.

feature들 간의 relation을 Knowledge로서 학습
inner product btw. features from 2 layers

Distillation Scheme

Teacher와 Student를 학습하기 위한 학습 스킴에도 세 가지가 있다.

Offline 방법은 Teacher 모델을 프리트레인 시켜 놓고 Student에게 KD를 적용한다. (2-phase)

Online 방법은 Teacher와 Stduent를 동시에 학습 시키거나, 번갈아 가면서 학습 시킨다. (1-phase?)

Self Distillation은 깊은 레이어의 표현을 얕은 레이어로 주입시킨다.

Teacher-Student Architecture

Student를 Teacher 보다 작게 만들 때에는

depth/width를 작게 할지, 적은 레이어를 쓸지,

precision에 제한을 둘지(quantization) 등의 고민이 필요하다.

여기서 NAS(Network Architecture Search) 기법을 활용하기도...

Distillation Algorithm

가장 간단한 방법은? 이미 언급 된 것 처럼
- Teacher-Student간의 Knowledge를 직접 매치시켜 학습 시키는 방법이다.
  - Reponse를 비교하든, Feature를 비교하든...
  - 분류 문제라면 CE 혹은 KL-divergence Loss를 써서...
그 외에도 다양한 기법이 시도되고 있다.
- GAN을 이용해서 synthetic data를 생성(hard example)해서 학습
- 여러가지 Teacher와 함께 학습
  - 각각의 pair(T_1~N, S)로 학습을 하거나
  - Teacher들의 출력을 평균내어 averaged logits과 비교하여 학습하거나
- Data-Free Distillation이라고 해서, 데이터 없이 KD를 하는 방법
- Quantization Distillation
  - 네트워크의 precision을 낮추기
  - High precision teacher & Low precision student

활용

BERT의 CLS 토큰 임베딩을 hint로 삼아 Student에게 Transfer
- 문장 분류, 매칭, MRC에서 유용할 수
two-stage transformer로 KD
- TinyBERT
BERT => BiLSTM

모델 학습이 잘 되는지 여부를 판단할 수 있는 지표

식피두 — Tue, 27 Apr 2021 01:45:32 +0900

모델 학습이 잘 진행되는지 parameter norm과 gradient norm을 활용할 수 있다. (김기현님 강의를 보다가 알게 됨...)

일반적으로(?)

parameter norm(L2)은 학습이 진행될 수록 커져야 한다.
- 모델이 복잡해 지면서...
gradient norm(L2)는 점점 작아져야 한다.
- grad norm이 크다? 그 만큼 많이 배우고 있다는 뜻. 학습이 진행되면서 점점 작아진다.
- 학습 초반일 수록 틀리는 것이 많고, 많이 틀릴 수록 기울기가 가팔라짐.

@torch.no_grad()
def get_grad_norm(parameters, norm_type=2):
    parameters = list(filter(lambda p: p.grad is not None, parameters))

    total_norm = 0

    try:
        for p in parameters:
            total_norm += (p.grad.data**norm_type).sum()
        total_norm = total_norm ** (1. / norm_type)
    except Exception as e:
        print(e)

    return total_norm


@torch.no_grad()
def get_parameter_norm(parameters, norm_type=2):
    total_norm = 0

    try:
        for p in parameters:
            total_norm += (p.data**norm_type).sum()
        total_norm = total_norm ** (1. / norm_type)
    except Exception as e:
        print(e)

    return total_norm

ArcFace Loss

식피두 — Sun, 25 Apr 2021 01:54:02 +0900

유사 이미지, 유사 텍스트를 찾는 태스크를 건들여보고 있는데,

이 때 입력을 잘 표현하는 임베딩을 학습하는 방법이 필요했다. (클러스터링에 활용할...)

arcface에 대해선 이전에 들어보기는 했지만, 실제로 어떻게 동작하는지도 잘 모르겠고

뭐, 대충 메트릭 러닝이라곤 들었는데, 메트릭 러닝이라고 하면 유일하게 들어 본 것이

triplet loss 정도...? 였다.

아는게 triplet loss이다 보니, arcface도 비슷하게 동작/구현 되지 않을까? 라는

편견에 사로 잡혀 코드를 이해하는데 한참 걸렸다.

아래 코드를 보면 알겠지만, triplet loss처럼 입력으로

여러 비교 대상(anchor, positive, negative)이 들어오지 않고

단일 입력(+정답 라벨)을 기대하기 때문이다.

코드 출처 (github.com/wujiyang/Face_Pytorch/blob/master/margin/ArcMarginProduct.py)

import math
import torch
from torch import nn
from torch.nn import Parameter
import torch.nn.functional as F

class ArcMarginProduct(nn.Module):
    def __init__(self, in_feature=128, out_feature=10575, s=32.0, m=0.50, easy_margin=False):
        super(ArcMarginProduct, self).__init__()
        self.in_feature = in_feature
        self.out_feature = out_feature
        self.s = s
        self.m = m
        self.weight = Parameter(torch.Tensor(out_feature, in_feature))
        nn.init.xavier_uniform_(self.weight)

        self.easy_margin = easy_margin
        self.cos_m = math.cos(m)
        self.sin_m = math.sin(m)

        # make the function cos(theta+m) monotonic decreasing while theta in [0°,180°]
        self.th = math.cos(math.pi - m)
        self.mm = math.sin(math.pi - m) * m

    def forward(self, x, label):
        # cos(theta)
        cosine = F.linear(F.normalize(x), F.normalize(self.weight))
        # cos(theta + m)
        sine = torch.sqrt(1.0 - torch.pow(cosine, 2))
        phi = cosine * self.cos_m - sine * self.sin_m

        if self.easy_margin:
            phi = torch.where(cosine > 0, phi, cosine)
        else:
            phi = torch.where((cosine - self.th) > 0, phi, cosine - self.mm)
        
        one_hot = torch.zeros_like(cosine)
        one_hot.scatter_(1, label.view(-1, 1), 1)
        output = (one_hot * phi) + ((1.0 - one_hot) * cosine)
        output = output * self.s

        return output

결론 부터 말하면

arcface는 분류 문제를 학습할 때 사용(위 코드의 out_feature는 클래스 개수이다)되며,

분류 학습의 부산물로 클래스 간에는 확실한 분별력을, 클래스 내에선 응집력을 갖는 임베딩을 학습할 수 있다.

따라서, arcface를 이용해 사람 얼굴 이미지에 대한 의미 있는 표현(임베딩)을 얻고 싶다면

A, B, C ... Z class(인물명 혹은 아이디) 각각에 대해 여러 개의 이미지를 마련한 뒤

arcface와 softmax를 결합하여 분류 모델을 학습해야 한다.

학습한 뒤에 임베딩만 필요하다면, 분류 레이어는 떼어 내고 임베딩만 활용하면 되는 것이다.

ArcFace의 동작 방식

빠른 이해를 위해 다음 몇 가지를 이해하면 좋다.
(아래 것들을 놓치고 있어서 이해하는데 오래걸림)

특정 클래스를 의미하는 벡터들이 클래스 개수 만큼 있고, 입력이 들어왔을 때 얻어지는 벡터를 내적하여 각도를 구할 것임
- 정답 클래스와의 각도가 최소화 되도록 학습
분류 모델을 학습할 때, softmax를 거쳐 확률 분포로 바꾼 뒤 CrossEntropy와 결합 되어 학습 될 때
- 정답 위치에 해당하는 확률을 최대화 (1.0에 가깝게) 만들려고 한다.
  - 여기서 중요한 것은 softmax에 들어가는 입력이 cosine(theta) 라는 것
    - 각도(theta)가 0(정답과 예측이 완전히 일치) 될 수록 cosine 값은 커진다 (1에 가까워짐)
    - 따라서 CrossEntropy가 정답 위치를 최대화 하는 과정에서
      - 특정 입력의 임베딩이 정답 클래스 임베딩과 각도(theta)는 최소화 되도록 학습
theta에 m(margin)을 더하는 것의 의미
- 특정 입력을 넣었을 때 나오는 임베딩과의 정답 클래스 임베딩의 각도를 현재 계산된 것 보다 조금 더 멀게 설정
  - 어차피 멀어진 각도는 CrossEntropy에 의해 최적화 될 때 최소화 됨

이제 논문에 나오는 그림(figure.2) 설명과 코드를 대조해가며 한줄 한줄 읽어보면 이해가 쉽게 갈 것이다.

self.weight은 (입력 차원 x 클래스 개수)로 이루어진 메트릭스
input과 self.weight을 각각 normalize 해줌으로써 길이 1인 구 위에 위치할 수 있게 함
sine을 구하는 이유?
- 삼각함수의 덧셈 정리 cos(x + y) = cosx * cosy + sinx * siny
- cos(theta + m)을 구하기 위해서 미리 구해놔야함
sine은 어떻게 구함?
- 피타고라스 공식을 이용하면 코사인 제곱 + 사인 제곱 = 1
easy_margin은 뭐임?
- github.com/ronghuaiyang/arcface-pytorch/issues/2 참고
  - the purpose of the easy margin is not to consider the theta + m > pi
참고로 그림에 있는 arccos는 실제 구현 코드엔 등장할 필요가 없다. 왜 cos theta에 cosine의 역함수인 arccos를 적용시켜 theta로 역변환 할 필요가 없는지는 각자 직접 생각해보자.

참고자료

ArcFace: Additive Angular Margin Loss for Deep Face Recognition(2019) review

Face Recognition(얼굴 인식)분야에서 사용되는 Loss인 ArcFace loss에 대한 논문이다. 얼굴 인식 분야를 공부하는 것은 아니나, 다른 논문을 읽다가 loss function으로 ArcFace loss를 활용하는 논문이 있어 해당

cumulu-s.tistory.com

ArcFace: Additive Angular Margin Loss for Deep Face Recognition.

각도의 경우 rotaion-invariant, scale-invarint 속성이 보장된다.

norman3.github.io

Metric Learning 이란 - 학습 방법(Loss)

*크롬으로 보시는 걸 추천드립니다* 본 "Metric Learning 이란 - 학습 방법(Loss)"를 보시기 전에 1) Metric Learning 이란 - 기본 2) [논문요약] Deep Face Recognition : A Survey - ① 탄 순서로 먼저 보시..

kmhana.tistory.com

메트릭러닝 기반 안경 검색 서비스 개발기(2)

본 글은 AI 가상피팅 기반 안경쇼핑앱 ‘라운즈’에 최근 추가된 안경 검색 서비스 ‘Glass Finder’의 개발기를 공유하고자 작성된 글입니다. 지난 1부에서는 메트릭 러닝 기반 안경 검색 프로젝트

blog.est.ai

DistilBERT (a distilled version of BERT: smaller, faster, cheaper and lighter)

식피두 — Fri, 23 Apr 2021 00:31:27 +0900

arxiv.org/abs/1910.01108

DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter

As Transfer Learning from large-scale pre-trained models becomes more prevalent in Natural Language Processing (NLP), operating these large models in on-the-edge and/or under constrained computational training or inference budgets remains challenging. In t

arxiv.org

Knowledge Distillation에 대해 훑어 보고 있는데, KD는 먼 곳에 있지 않았다.

BERT에 KD를 적용한 게 DistilBERT...

KD에 관해서는 서베이 논문을 훑어보고 있는데, 따로 정리할 예정이다.

그 이전에 당장 버트에는 KD가 어떻게 활용되었는지 궁금했다.

여기서 중요한 것은, 특정 태스크 전용으로 KD를 적용하는게 아니라 (QA model, STS, ...)

Pre-Training 단계에서 부터 KD를 적용해서

General Purpose Language Representation Model을 만들 수 있다는 점!

뭐, 이렇게 해서 기존 BERT 대비 사이즈는 40%,

NLU 능력은 97% 유지, 속도는 60% 빨라 졌다고 함.

latency에 민감한 서비스를 구성할 때는 유용하게 활용될 방법이다.

학습 방법 (Knowledge Distillation)

KD는 모델 압축 기술 중 하나이며,

큰 모델(Teacher), 작은 모델(Student)을 두어 학생이 선생의 동작 방식을 배울 수 있도록 한다.

(cf. ALBERT는 embedding을 더 작게 분해하고, layer간의 weight을 공유함으로써 모델을 압축함)

학생은 선생의 'soft target probability'를 배운다.

t_i는 선생의 출력 확률 분포

기존의 CrossEntropy를 이용한 학습은

모델의 예측 확률 분포를 정답 one-hot 분포에 맞추어 (정답 위치 확률 최대화) 학습하게 된다.

학습 셋에 잘 피팅이 된 모델이라면 특정 클래스 확률은 높고 나머지는 거의 zero 에 가까운 확률 분포를 출력하게 된다.

이 때 모델의 일반화(Generalization)능력에 기여하는 부분은 바로 'near-zero' 부분 이라고 논문에서 언급하고 있다.

따라서 BERT를 KD할 때,

선생 모델이 출력하는 확률 분포 자체를 배움으로써

학생 모델이 자신 보다 복잡한 모델들만이 배울 수 있는 signal 또한 함께 배울 수 있다.

softmax-temparature

여기서 T를 도입하면 분포의 smoothness를 조정할 수 있다.

T는 학습 과정에서 학생/선생 모두에게 적용되며 추론시엔 제외 시킨다.

Final Training Objective

위의 내용을 종합하여 최종 Training Objective를 정의하면 다음과 같다.

Final Training Objective = Distillation Loss(CE) + Masked Language Modeling Loss + Cosine Embedding Loss

(마지막 코사인 임베딩 로스는 학생/선생의 히든 벡터가 바라보는 방향을 일치 시켜주는데 도움을 주는 로스다)

Detail

Student 모델은 BERT에서 token-type embedding 및 pooler를 제거 + 레이어 개수 1/2(?) 을 줄인 버전의 모델이다.
Student의 weight 초깃값은 Teacher 모델의 weight을 이용하여 초기화 함
- 레이어 개수를 절반으로 줄였으므로 동일 위치 레이어 + 인접 레이어 중 한 레이어 weight을 취한 듯
배치는 4k 로 구성 되었고, dynamic masking + NSP objective 로 학습 되었다.

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

식피두 — Fri, 16 Apr 2021 01:28:19 +0900

arxiv.org/abs/2003.10555

Electra 모델은 어떻게 학습이 되는지 알아보자.

ELECTRA?

Masked Language Modeling(MLM) pre-training 방법은 입력 일부를 [MASK] 토큰으로 변경해버린 뒤 원래 토큰을 복원하는 식으로 학습을 한다.

그런데 이게 과연 효율적인가? 라는 의문에서 Electra의 아이디어가 나왔다.

마스킹을 할 때 15% 정도의 확률로 선택을 하고, 마스킹 된 것을 원본으로 복원하는 것을 학습하는데, 하나의 Example 당 15% 토큰만 학습에 기여하기 때문에 계산 효율적이지 못하다.

Electra에선 Replaced Token Detection (RTD) 방식의 pre-training 방법을 제안한다.

단순히 특정 토큰을 [MASK]로 마스킹 해버리는 것이 아니라, 그럴듯한 단어로 바꿔버리는 것!

Generator로 작은 크기(작은 크기로 둬야 그럴듯 하게 실수를 하니까?)의 MLM를 두고,

[MASK] 표시가 된 입력을 넣으면 그럴듯한 단어로 바뀌어 출력 되는데

이 출력을 Discriminator에 넣어, '모든 토큰에 대해' 바뀌었는지, 안바뀌었는지 여부를 분류한다.

기존의 MLM은 학습 단계에서 사용하는 [MASK] 토큰이

다운 스트림 태스크에서 fine-tuning 될 때는 등장하지 않아

네트워크 입력의 mis-match가 발생하는 문제가 있었지만, Electra는 그런 문제가 없다.

어쨌든 RTD의 장점은 바로,

모델이 모든 입력 토큰으로 부터 knowledge를 (빠르고, 효율적으로) 배울 수 있다는 것이다.

Generator

제너레이터는 MLM 으로 학습이 되며, 주어진 입력 x=[x1, x2, ... , xn]에 대해

ceil(n*0.15) 개 만큼 [MASK]을 하고, 마스킹 된 토큰이 원래 무엇이었는지를 학습한다.

그리고, 마스킹 된 부분이 원래 뭐였는지 복구된 문장을 currupted example이라고 하자.

Discriminator

generator에 의해 생성된 currupted example을 입력으로 받아 각 토큰이 변형되었는지 아닌지를 학습한다.

각각의 로스 함수는 다음과 같이 정의 된다.

Multi-Sample Dropout for Accelerated Training and Better Generalization

식피두 — Thu, 15 Apr 2021 20:27:25 +0900

https://arxiv.org/pdf/1905.09788.pdf

NLP 관련 캐글 상위권 솔루션들을 보다보면 간혹 등장하는 multi-sample dropout 구조를 이용해

모델의 일반화 능력을 향상 시키는 것을 볼 수 있다.

관련 논문이 있어 아이디어 정도만 정리해본다.

Dropout의 효과 리마인드

예를 들어, 랜덤하게 50%의 뉴런을 매 학습 이터레이션 마다 버림
그 결과, 뉴런들이 서로 의존하는 것을 막을 수 있고, better generalization이 가능해짐
inference 시에는 학습 때 처럼 랜덤하게 버리지 않고, 각 뉴런의 출력에 0.5를 곱함.

Multi-sample Dropout

이게 전부다.

BERT를 fine-tuning할 때를 예를 들면,

BERT의 output feature에 대해서 k 개의 dropout을 적용하고,

각 결과에 down stream task 해결을 위한 head를 붙여 최종 출력 값을 뽑고 각각에 대한 로스를 구한 뒤 평균 내는 것.

그림에서는 2개의 dropout samples 을 보여줬지만,

논문에선 64 samples 까지 시도한다.

Multi-sample dropout은 학습 속도를 가속시켜준다는데

(매 이터레이션 학습 속도는 느려지지만, 전체적으로 보면)

그 이유는, 같은 인풋에 대해서 서로 다른 output을 적용하여 k 개의 sample을 뽑기 때문에

mini-batch의 크기를 k개 만큼 뻥튀기 시키는 효과를 가져온다.

다시 말해, 위의 그림 예시 기준으로 <A, B> 라는 인풋에 대해서 <A, A', B, B'> 샘플로 학습하는 효과.

물론, Dropout이 없어서 <A, A, B, B> 를 학습하게 되면,

즉, sample간의 diversity가 없어지게 되면서 multi-sample dropout 을 적용하는 의미가 없어진다.

직관적으로 보면 Self-Ensemble 효과도 있다고한다.

실험결과 적정 dropout sample size는 8, 16 정도가 합리적이라고 나오는데,

뭐 이건 각자 상황에 따라 다를듯!

예시 코드

outputs = self.roberta(
    input_ids,
    attention_mask=attention_mask,
    token_type_ids=token_type_ids,
    position_ids=position_ids,
    head_mask=head_mask,
    inputs_embeds=inputs_embeds,
)

hidden_layers = outputs[2]

cls_outputs = torch.stack(
    [self.dropout(layer[:, 0, :]) for layer in hidden_layers], dim=2
)
cls_output = (torch.softmax(self.layer_weights, dim=0) * cls_outputs).sum(-1)

# multisample dropout (wut): https://arxiv.org/abs/1905.09788
logits = torch.mean(
    torch.stack(
        [self.classifier(self.high_dropout(cls_output)) for _ in range(5)],
        dim=0,
    ),
    dim=0,
)

github.com/oleg-yaroshevskiy/quest_qa_labeling/blob/master/step5_model3_roberta_code/model.py

oleg-yaroshevskiy/quest_qa_labeling

Google QUEST Q&A Labeling. Improving automated understanding of complex question answer content - oleg-yaroshevskiy/quest_qa_labeling

github.com