训练模型-芯查查

1024块TPU在燃烧！将BERT预训练模型的训练时长从3天缩减到了76分钟

“Jeff Dean称赞，TensorFlow官方推特支持，BERT目前工业界最耗时的应用，计算量远高于ImageNet。我们将BERT的训练时间从三天缩短到了一小时多。”UC Berkeley大学在读博士尤洋如是说道。近日，来自Google、UC Berkeley、UCLA研究团队再度合作，成功燃烧1024块TPU，将BERT预训练模型的训练时长从3天缩减到了76分钟。batch size技术

神经网络

lp . 2019-04-04 1170