Model Compression Paper Reading

Last note is a brief overview of model compression and a summary of learning resources.

This note is focus on some specific papers and methods.

Total LIST:

  1. Distilling the Knowledge in a Neural Network 2015 知识蒸馏开山之作

Knowledge Distillation

本部分主要关注Knowledge Distillation(简记为KD).

LIST:

  1. Distilling the Knowledge in a Neural Network 2015

Distilling the Knowledge in a Neural Network

Author: Geoffrey Hinton er al LINK

Conference: CVPR 2015

KEY WORDS: 知识蒸馏(Knowledge Distillation )开山之作

知识蒸馏的目的就是将大模型原有的知识,让一个小模型也学会。

正常我们在训练一个图片分类的任务中最后会使用cross entropy这个损失函数,最后学的模型可以的输出一个概率分布(softmax的结果),真实label出现的概率最大,其他的概率相对很小。这个结果,我们成为soft target,他其中包含了比原始label更多的信息,比如在MNIST上可能不大合适。因此,一个网络训练好之后,对于正确的答案会有一个很高的置信度。例如,在MNIST数据中,对于某个2的输入,对于2的预测概率会很高,而对于2类似的数字,例如3和7的预测概率为1e-6 和 1e-9。显然soft target包含了更多的信息。

但是如果直接学习这个概率分布,其小类别的概率太小了,作者引入了temperature来解决这个问题,直观的来讲,就是可以将小类别的概率输出的结果变大,但仍然小于真实label的概率。

下图就是引入temperature后的softmax. T越大会产生更softer的分布。

image-20201128233002251

如果T接近于0,则最大的值会越近1,其它值会接近0,近似于onehot编码。如果T越大,则输出的结果的分布越平缓,相当于平滑的一个作用,起到保留相似信息的作用。如果T等于无穷,就是一个均匀分布。

整体的过程就是先训练好一个teacher,之后将teacher的softmax换用带temperature的softmax,并将训练数据输入,记录下来训练数据的结果。再使用训练数据训练student网络,student网络也使用相同的temperature。训练好后,在去除temperature,即将temperature设为1。

当soft target具有较高的熵时,与硬目标(真实label)相比,它们在每个训练样本中提供的信息更多,并且训练样本之间的梯度差异较小,因此,相比于原始的繁琐模型,小型模型通常可以在少得多的数据上进行训练,并且使用更高的学习率。

Loss

如果我们也知道训练数据的真实label,只用这种加权和形式的损失函数会有更好的效果。训练小网络时的loss为:

$$L = CE(y,p) + \alpha CE(q,p)$$

在这篇论文中,作者认为可以将模型看成是黑盒子,知识可以看成是输入到输出的映射关系。因此,我们可以先训练好一个teacher网络,然后将teacher的网络的输出结果 q 作为student网络的目标,训练student网络,使得student网络的结果 p 接近 q 。这里CE是交叉熵(Cross Entropy),y是真实标签,对于分类任务就是one-hot编码,q是teacher网络的输出结果,p是student网络的输出结果。

Summary:

知识蒸馏,可以将一个网络的知识转移到另一个网络,两个网络可以是同构或者异构。做法是先训练一个teacher网络,然后使用这个teacher网络的输出和数据的真实标签去训练student网络。知识蒸馏,可以用来将网络从大网络转化成一个小网络,并保留接近于大网络的性能;也可以将多个网络的学到的知识转移到一个网络中,使得单个网络的性能接近ensemble的结果。