最新在看知识蒸馏的文章,主要是现在的深度学习模型越来越大,例如BERT。在线下处理数据,对时间要求不高的话,还能接受,能跑完就好。但是线上运行,对延迟要求高的话,像BERT这样的大模型,就很难满足要求。因此,就找了找模型压缩的方法。 知识蒸馏被广泛的用于模型压缩和迁移学习当中。开山之作应该是”Distilling the Knowledge in a Neural Network“。这篇文章中,作者的motivation是找到一种方法,把多个模型的知识提炼给单个模型。 文章的标题是Distilling the Kn…