归档 标签 关于

风与云原生

human after all

  • Jul 10
    Megatron:3D 并行训练 LLM

  • Jun 19
    XPUTimer:诊断 LLM 训练异常

    大规模 GPU 集群的快速 LLM 训练异常检测方案

  • Jun 10
    MegaScale:万卡训练 LLM

    一个靠谱的框架对训练效率提升巨大,时间就是金钱

  • May 11
    Kubernetes Patch 小技巧

  • Feb 9
    Kubernetes 节点生命周期控制器

  • Jan 26
    Meta 的生成式 AI 基建

  • Jan 18
    kubelet 镜像拉取问题

  • Jan 8
    用于大规模 AI 训练的 RoCE 网络

  • Dec 28
    kubectl top 命令原理

  • Nov 23
    Uber 是如何优化 LLM 训练的

下一页

with by HF