uber的Horovod 发表在 Horovod: fast and easy distributed deeplearninginTensorFlow。

horovod 提供的各种框架的支持可以让 horovod 比较好的在各个框架的基础上使用，他支持 tensorflow/keras/mxnet/pytorch，MPI 的实现也有很多，比如 OpenMPI 还有 Nvidia 的 NCCL，还有 facebook 的 gloo，他们都实现了一种并行计算的通信和计算方式。

用法

horovod追求以尽可能小的代码侵入性。

在用户已经构建的代码上，只需要插入三段很短的代码即可，Horovod易用性甚好。因为只要用户的代码没问题，Horovod这三段植入不会让你的程序break。

hvd.init()
创建horovod的优化器，即DistributedOptimizer，将旧的优化器封装起来
创建horovod的初始化hook，即BroadcastGlobalVariablesHook，将master的初始化值广播给其他worker

hvd.init()这个函数。用户的这一句话，启动了Horovod的所有轮询进程及资源管理过程，下图描述了hvd.init()的宏观调用栈，核心就是background thread上启动的BackgroundThreadLoop()函数，它将常驻在进程中并不断轮询，直到程序完全结束。

Horovod借助BackgroundThreadLoop()函数对RunLoopOnce()函数做无限循环调用。
若某份gradients已经产生，何时做AllReduce才能不死锁？显然，不可能见到一份gradients就马上做，因为这有概率会陷入死锁。正确答案应该是：

“当该份gradients在所有的worker上均已经产出时，才能统一发动AllReduce”

此时，不会有worker因为在等待其他某个worker没有产出该份gradients而进入无限等待的情况。那么就需要有一种机制，能够观察每份gradients在每个worker上的产出情况。

实际上，上述过程其实就是Horovod的做法。BackgroundThreadLoop为什么一直要轮询？就是要不断地做通知，计数等管理工作。因此，rank 0又被称为——Coordinator。等到真正需要做AllReduce时，RunLoopOnce会调用PerformOperation发动通信过程。

参考资料

horovod 实现分析 | ggaaooppeenngg

Horovod 源码分析 - 知乎

Horovod架构剖析——解密最成功的第三方DL分布式训练框架

dragon

uber的Horovod

用法

参考资料

下一篇：XDL的OP调用