主页
归档
标签
关于
Intro💫
Jun 20, 2018 00:00 · 2 words · 1 minute read
Hello, World!
查看更多
Megatron:3D 并行训练 LLM
XPUTimer:诊断 LLM 训练异常
MegaScale:万卡训练 LLM
Kubernetes Patch 小技巧
Kubernetes 节点生命周期控制器
Meta 的生成式 AI 基建
kubelet 镜像拉取问题
用于大规模 AI 训练的 RoCE 网络
kubectl top 命令原理
Uber 是如何优化 LLM 训练的