유사 이미지, 유사 텍스트를 찾는 태스크를 건들여보고 있는데, 이 때 입력을 잘 표현하는 임베딩을 학습하는 방법이 필요했다. (클러스터링에 활용할...) arcface에 대해선 이전에 들어보기는 했지만, 실제로 어떻게 동작하는지도 잘 모르겠고 뭐, 대충 메트릭 러닝이라곤 들었는데, 메트릭 러닝이라고 하면 유일하게 들어 본 것이 triplet loss 정도...? 였다. 아는게 triplet loss이다 보니, arcface도 비슷하게 동작/구현 되지 않을까? 라는 편견에 사로 잡혀 코드를 이해하는데 한참 걸렸다. 아래 코드를 보면 알겠지만, triplet loss처럼 입력으로 여러 비교 대상(anchor, positive, negative)이 들어오지 않고 단일 입력(+정답 라벨)을 기대하기 때문이다. ..