fp16训练的问题

‍

float16的组成分为了三个部分：

FP16/BF16 在计算中的精度问题

关于 FP16 的上下溢出可以参考图 1-3。对于绝对值大于 65504 的数，触发上溢出会舍入到±INF；对于绝对值小于的数，触发下溢出舍入到 0，具体示例可参考下表。

‍

../../_images/overflow.png

FP16 格式的浮点数最多只能表示 3 位有效数字，所以各浮点区间的固定间隔都是 $Interval=Min∗2^{−10}$ ，也就是区间最小值的1/1024。
1. 因此当 $\frac{累加值}{加数}>211$ 时，计算结果超过了 3 位有效数字；这会造成累加值最终无法被有效表示，累加结果会被舍入到累加值本身。
  1. 数值:1+0.0001=1.0001
  2. FP16: 1+0.0001=1.0001
2. FP32 格式拥有 7 位有效数字的表达效果，因此当 FP32 格式向 FP16 格式转化时，也会出现精度的舍入问题。
  1. FP32：0.1234567
  2. FP16：0.1235
BF16 格式的浮点数，在各个区间内的固定间隔是 $Interval=Min*2^{-7}$ ，故 BF16 相较于 FP16 的精度更低，也更容易出现 FP16 中所阐述的计算舍入和转换精度丢失的问题。

‍

下表摘自 wikipedia fp16，表示fp16不同区间的间隔，可见fp16的加法如果直接往param上加，会有很多失效。

‍

损失放大（Loss Scaling） 即使用了混合精度训练，还是会存在无法收敛的情况，原因是激活梯度的值太小，造成了下溢出（Underflow）。损失放大的思路是：

‍

混合精度训练并不意味着所有的模型参数都用fp16训练，例如做layernorm、batchnorm时的参数一般就保持fp32的形式，Loss也保持fp32的形式，主要原因还是这些数值的精度对模型训练过程影响较大，同时它们占据的存储也不大，因此维持原始形式，越高精越好。

loss scale 有两种方式

‍

上溢出可以通过 clip gradient 解决

‍

可以在参数更新时将 fp16 转成fp32，weights, activations, gradients 等数据在训练中都利用FP16来存储，同时拷贝一份FP32的weights，用于更新。参考论文：MIXED PRECISION TRAINING

‍

参考资料：

‍