这个算法让你的GPU老树开新花

发布时间：2021-03-04 16:32:10 所属栏目：外闻来源：互联网

导读：伴都知道，神经网络的参数和中间结果绝大部分都是单精度浮点数（即float32）存储和计算的，当网络变得超级大时，降低浮点数精度，比如使用半精度浮点数，显然是提高计算速度，降低存储开销的一个很直接的办法。然而副作用也很显然，如果我们直接降低浮点数

伴都知道，神经网络的参数和中间结果绝大部分都是单精度浮点数（即float32）存储和计算的，当网络变得超级大时，降低浮点数精度，比如使用半精度浮点数，显然是提高计算速度，降低存储开销的一个很直接的办法。

然而副作用也很显然，如果我们直接降低浮点数的精度直观上必然导致模型训练精度的损失。但是呢，天外有天，这篇文章用了三种机制有效地防止了模型的精度损失。待小夕一一说来o(*￣▽￣*)ブ

权重备份(master weights)

我们知道半精度浮点数（float16）在计算机中的表示分为1bit的符号位，5bits的指数位和10bits的尾数位，所以它能表示的最小的正数即2^-24（也就是精度到此为止了）。当神经网络中的梯度灰常小的时候，网络训练过程中每一步的迭代（灰常小的梯度 ✖ 也黑小的learning rate）会变得更小，小到float16精度无法表示的时候，相应的梯度就无法得到更新。

论文统计了一下在Mandarin数据集上训练DeepSpeech 2模型时产生过的梯度，发现在未乘以learning rate之前，就有接近5%的梯度直接悲剧的变成0（精度比2^-24还要高的梯度会直接变成0），造成重大的损失呀/(ㄒoㄒ)/~~

还有更难的，假设迭代量逃过一劫准备奉献自己的时候。。。由于网络中的权重往往远大于我们要更新的量，当迭代量小于Float16当前区间内能表示的最小间隔的时候，更新也会失败（哭瞎┭┮﹏┭┮我怎么这么难鸭）

（编辑：济宁站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

美国新一代登月火箭再	沙特计划2023年将该国
Maxar携手多领域行业创	欧盟提出针对网络设备