Distilling the Knowledge in a Neural Network 논문 리뷰

Distilling the Knowledge in a Neural Network 논문 리뷰

Distilling the Knowledge in a Neural Network 논문 리뷰

요약

논문 내에서 소개하고 있는 Knowledge Distillation 방법에는 크게 총 4가지가 존재한다.

  1. 앙상블 네트워크(Parent)로 만들어진 데이터 class를 Single 모델(Child)에의 학습
  2. 앙상블 네트워크(Parent)로 만들어진 데이터 클래스와 더불어 logit 값(Sigmoid)를 Single 모델(Child)에의 학습
  3. 위와 같이 앙상블 네트워크(Parent)로 만들어진 데이터 클래스와 더불어 logit 값(Sigmoid)를 활용하지만, logit 값에 임의의 노이즈값을 더해줌으로써 regularize 해준다는 특징이 있음, 해당 데이터를 Single 모델(Child)에의 학습
  4. 앙상블 네트워크(Parent)로 만들어진 데이터 클래스와 더불어 Prob값(sofmax + 데이터 확률분포 반영을 위해 Temperature 반영 - 보통 2~5의 값)을 Single 모델(Child)에의 학습

    • 논문 저자 Hinton 아저씨가 발안한 방법 - Temperature를 계산하기 위해서는 모든 데이터 경우의 수를 고려해야 하기 때문에 시간적인 비용이 많이 들고, 최근 K.D 논문 동향을 살펴보면 실제 성능이 Sigmoid를 통해 산출한 logit 값을 활용하는 것이 더 좋다는 이야기가 많음.
정아리의 땅끝까지 파헤치는 모바일 머신러닝

Copyright 2020. Jeongah Shin ALL RIGHTS RESERVED.