Transformer-芯查查

让Transformer的推理速度提高4.5倍，这个trick还能给你省十几万

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。最近，NLP明星公司Hugging Face发布了一个叫做Infinity的产品，可以以1ms延时完成Transformer的推理，性能相当高了。但是，厉害归厉害，还是有点贵——1年至少要十几万块（2万美元）。那有没有什么平替的方法呢？有的！还是开源的、“不费吹灰之力”就可以达到Infi

Transformer

量子位 . 2022-01-12 2005
tansformer的量化实现方案

理论介绍相比于训练后量化方法，将量化过程插入到训练中可以弥补量化产生的误差，但是带来的问题可能是增加了训练的时间。在tansformer的量化实现中，我们采用了训练中量化的方法，在网络前向传输中，对权重等参数进行线性量化。反向传播中，对scale和权重参数的求导采用Hinton的strait-through estimator的方式。在CPU上训练花费了10天的时间，在这期间又review了最近

cpu

AI加速微信公众号 . 2020-11-03 885