dragon
首页
归档
标签
关于
2025
deepseek R1 的部署性能
2025-02-17
2024
sglang ep 的实现
2024-12-21
sglang dp的实现
2024-12-06
sglang 的 MLA 代码跟踪
2024-09-01
deepseek V2 MLA 的理解
2024-08-10
sglang 的模型执行
2024-07-29
vllm prefill 和 decode 的kernel代码解读
2024-04-10
2023
megetron server精度问题排查记录
2023-10-22
LLM 的参数量与计算量
2023-08-13
2022
fp16训练的问题
2022-07-16
Bert 结构
2022-03-15
Transformer结构
2022-01-27
2021
快手bagua使用教程翻译与摘抄
2021-09-01
快手的八卦:BAGUA: Scaling up Distributed Learning with System Relaxations论文翻译与赏析
2021-08-31
华为的《ScaleFreeCTR:a MixCache-based distributed training system for CTR》
2021-06-15
业界CTR深度学习框架的一些新的进展
2021-03-31
byteps 论文翻译与赏析
2021-02-17
2020
百度的《AIBox: CTR Prediction Model Training on a Single Node》
2020-12-11
seastar教程翻译
2020-07-06
tensorflow2.x 分布式训练
2020-06-24
uber的Horovod
2020-05-14
XDL的OP调用
2020-03-23
2019
XDL 的特征准入与退出机制
2019-11-08
tensorflow 1.x 的分布式训练
2019-09-05
gpu 编程
2019-07-15
TF的OP与Tensor
2019-04-18
分布式架构:ring all-reduce算法
2019-03-22
[转自刘光聪]TensorFlow架构与设计:OP本质论
2019-03-05
TF的session 与graph
2019-01-30
2018
深度学习框架的并行优化方法小结
2018-08-11
基于知识蒸馏的深度神经网络压缩方法研究
2018-05-20
mxnet gluon
2018-03-22
c++ 的关键字回顾
2018-03-03
从编译器的辅助信息看c++对象内存布局
2018-02-17
linux常用脚本
2018-02-13
2017
google tensorflow
2017-11-20
CNN中卷积计算的内存和速度优化
2017-09-20
c++ 的类型回顾
2017-09-10
机器学习算法小结与对比
2017-09-10
面试问题小结
2017-08-15
CI进阶
2017-08-10
神经网络的压缩优化方法总结
2017-08-05
c++使用7年后的经验总结
2017-07-31
mobile_net的模型优化
2017-07-23
squeeze_net的模型优化
2017-07-20
CI从入门到放弃
2017-07-13
深度学习理论问题小结
2017-07-10
神经网络模型演化
2017-07-05
caffe-源码学习——只看一篇就够了
2017-06-12
零门槛玩坏caffe
2017-05-26