归档
标签
关于
风与云原生
human after all
Megatron:3D 并行训练 LLM
XPUTimer:诊断 LLM 训练异常
大规模 GPU 集群的快速 LLM 训练异常检测方案
MegaScale:万卡训练 LLM
一个靠谱的框架对训练效率提升巨大,时间就是金钱
Kubernetes Patch 小技巧
Kubernetes 节点生命周期控制器
Meta 的生成式 AI 基建
kubelet 镜像拉取问题
用于大规模 AI 训练的 RoCE 网络
kubectl top 命令原理
Uber 是如何优化 LLM 训练的
下一页