让Transformer的推理速度提高4.5倍,这个trick还能给你省十几万
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 最近,NLP明星公司Hugging Face发布了一个叫做Infinity的产品,可以以1ms延时完成Transformer的推理,性能相当高了。 但是,厉害归厉害,还是有点贵——1年至少要十几万块 (2万美元)。 那有没有什么平替的方法呢? 有的!还是开源的、“不费吹灰之力”就可以达到Infi
Transformer
量子位 . 2022-01-12 2005
tansformer的量化实现方案
理论介绍 相比于训练后量化方法,将量化过程插入到训练中可以弥补量化产生的误差,但是带来的问题可能是增加了训练的时间。在tansformer的量化实现中,我们采用了训练中量化的方法,在网络前向传输中,对权重等参数进行线性量化。反向传播中,对scale和权重参数的求导采用Hinton的strait-through estimator的方式。在CPU上训练花费了10天的时间,在这期间又review了最近
cpu
AI加速微信公众号 . 2020-11-03 885
- 1