业界CTR深度学习框架的一些新的进展

为了充分利用GPU的能力和高速带宽
英伟达的 hugeCtr https://github.com/NVIDIA/HugeCTR 和脸书的 DLRM
【CoRR2019】Deep Learning Recommendation Model for Personalization and Recommendation Systems
把emb参数分成不同的份放在GPU HMB中，需要需要昂贵的GPU，不实用。

腾讯的DES
Distributed Equivalent Substitution Training for Large-Scale Recommender Systems
和百度的 HierPs
Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads System
使用主存保存emb ，DES采用 field-aware 分片策略来reduce(减少or规约)GPU间的数据通信，但没有进行主存和GPU之间通信优化。
HierPS使用大batch策略来在gpu中缓存使用大参数，以此减少传输延时。

Tensorflow, MxNet 和 PyTorch 并不能很好的支持大规模embedding的训练:

之前写过一篇关于 horovod 的知识总结：uber的Horovod | dragon

dragon