Skip to content

AIInfra(AI 基础设施)指AI系统从底层芯片等硬件,到上层软件栈支持AI大模型训练和推理。

License

Apache-2.0, MIT licenses found

Licenses found

Apache-2.0
LICENSE
MIT
LICENSE-CODE
Notifications You must be signed in to change notification settings

chenzomi12/AIInfra

Repository files navigation

AIInfra

文字课程内容正在一节节补充更新,尽可能抽空继续更新正在 AIInfra,希望您多多鼓励和参与进来!!!

文字课程开源在 AISys,系列视频托管B 站 ZOMI 酱油管 ZOMI6222,PPT 开源在 AIInfra,欢迎取用!!!

课程背景

这个开源项目英文名字叫做AIInfra,中文名字叫做AI基础设施。大模型是基于 AI 集群的全栈软硬件性能优化,通过最小的每一块 AI 芯片组成的 AI 集群,编译器使能到上层的 AI 框架,训练过程需要分布式并行、集群通信等算法支持,而且在大模型领域最近持续演进如智能体等新技术。

本开源课程主要是跟大家一起探讨和学习人工智能、深度学习的系统设计,而整个系统是围绕着 ZOMI 在工作当中所积累、梳理、构建 AI 大模型系统的基础软硬件栈,因此成为 AI 基础设施。希望跟所有关注 AI 开源课程的好朋友一起探讨研究,共同促进学习讨论。

大模型系统全栈

课程内容大纲

课程主要包括以下模块,内容陆续更新中,欢迎贡献:

序列 教程内容 简介 地址 状态
01 AI 芯片原理 AI 芯片主要介绍 AI 的硬件体系架构,包括从芯片基础到 AI 芯片的原理与架构,芯片设计需要考虑 AI 算法与编程体系,以应对 AI 快速的发展。 [Slides] DONE
02 通信与存储 大模型训练和推理的过程中都严重依赖于网络通信,因此会重点介绍通信原理、网络拓扑、组网方案、高速互联通信的内容。存储则是会从节点内的存储到存储 POD 进行介绍。 [Slides] DONE
03 AI 集群 大模型虽然已经慢慢在端测设备开始落地,但是总体对云端的依赖仍然很重很重,AI 集群会介绍集群运维管理、集群性能、训练推理一体化拓扑流程等内容。 [Slides] 待更
04 大模型训练 大模型训练是通过大量数据和计算资源,利用 Transformer 架构优化模型参数,使其能够理解和生成自然语言、图像等内容,广泛应用于对话系统、文本生成、图像识别等领域。 [Slides] 更新中
05 大模型推理 大模型推理核心工作是优化模型推理,实现推理加速,其中模型推理最核心的部分是Transformer Block。本节会重点探讨大模型推理的算法、调度策略和输出采样等相关算法。 [Slides] 更新中
06 大模型算法 Transformer起源于NLP领域,近期统治了 CV/NLP/多模态的大模型,我们将深入地探讨 Scaling Law 背后的原理。在大模型算法背后数据和算法的评估也是核心的内容之一,如何实现 Prompt 和通过 Prompt 提升模型效果。 [Slides] 更新中
07 热点技术剖析 当前大模型技术已进入快速迭代期。这一时期的显著特点就是技术的更新换代速度极快,新算法、新模型层出不穷。因此本节内容将会紧跟大模型的时事内容,进行深度技术分析。 [Slides] DONE

课程细节

课程设立目的

本课程主要为本科生高年级、硕博研究生、AI 大模型系统从业者设计,帮助大家:

  1. 完整了解 AI 的计算机系统架构,并通过实际问题和案例,来了解 AI 完整生命周期下的系统设计。

  2. 介绍前沿系统架构和 AI 相结合的研究工作,了解主流框架、平台和工具来了解 AI 大模型系统。

课程部分

编号 名称 具体内容 状态
1 AI 计算体系 神经网络等 AI 技术的计算模式和计算体系架构 DONE
2 AI 芯片基础 CPU、GPU、NPU 等芯片体系架构基础原理 DONE
3 图形处理器 GPU GPU 的基本原理,英伟达 GPU 过去 15 年 8 代架构发展 DONE
4 英伟达 GPU 详解 英伟达 GPU 的 Tensor Core、NVLink 深度剖析 DONE
5 国外 AI 处理器 国外在谷歌 TPU、特斯拉 DOJO 等专用 AI 处理器核心原理 DONE
6 国内 AI 处理器 华为昇腾 Ascend、寒武纪、燧原科技等专用 AI 处理器核心原理 DONE
7 AI 芯片黄金 10 年 对 AI 芯片的编程模式(SIMT、SIMD、SPMD、CUDA)和发展进行总结 DONE
编号 名称 具体内容 状态
1 大模型存储 数据存储、CheckPoint 梯度检查点等存储与大模型结合的相关技术 DONE
2 集合通信原理 通信域、通信算法、集合通信原语 DONE
3 集合通信库 深入地剖析 NCCL/HCCL 实现的具体通信领域算法,以及集合通信库对外 API 与使用 DONE
编号 名称 具体内容 状态
1 AI 超节点 Scale Up、SuperPod、万卡集群 DONE
2 集群性能分析 集群性能分析,MFU、线性度等 待更
3 Kubernetes 让集群部署容器化简单且高效 待更
编号 名称 具体内容 状态
1 分布式并行 TP、PP、EP、SP、DP 多维并行 DONE
2 PyTorch 框架 PyTorch 框架原理和昇腾适配架构 待更
3 模型微调与后训练 大模型微调 SFT 与后训练 Post-Training 待更
编号 名称 具体内容 状态
1 大模型推理框架 推理框架整体架构,如 vLLM、SGLang 待更
2 大模型推理加速 待更
3 架构调度与加速 待更
4 长序列推理 待更
5 输出采样 待更
6 大模型量化与蒸馏 待更

大部分待更,欢迎参与,06 根据时事热点不定期更新

编号 名称 具体内容 状态
1 Transformer 架构 Transformer、MoE 的架构原理介绍 待更
2 ChatGPT 解读 GPT 和 ChatGPT 深度解读 DONE
3 大模型新架构 SSM、MMABA、RWKV、Linear Transformer 等新大模型结构 待更
4 MoE 架构 MoE(Mixture of Experts) 模型架构原理与细节 待更
5 向量数据库 向量数据库中核心技术相似性搜索、相似性度量与大模型结合原理 DONE
6 数据工程 数据工程、Prompt Engine、Data2Vec 和 Tokenize 等相关技术 待更
7 新算法解读 Llama3.3、DeepSeek V3/R1、KIMI R1.5 等最新大模型算法的深度解读 持续

基本完结,01 根据时事热点不定期更新

编号 名称 具体内容 状态
1 AI 时事热点 OpenAI o1、WWDC 大会技术洞察 持续
2 AI智能体 AI Agent 智能体的原理、架构 DONE
3 自动驾驶 端到端自动驾驶技术原理解析,萝卜快跑对产业带来的变化 DONE
4 具身智能 关于对具身智能的技术原理、具身架构和产业思考 DONE
5 生成推荐 推荐领域的革命发展历程,大模型迎来了生成式推荐新的增长 DONE
6 AI 安全 隐私计算的发展过程与 Apple 引入隐私计算,到底隐私计算未来发展如何? DONE
7 AI 历史十年 AI 过去十年的重点事件回顾,2012 到 2025 年从模型、算法、芯片硬件的发展 DONE

知识清单

大模型系统全栈

备注

这个仓已经到达疯狂的 10G 啦(ZOMI 把所有制作过程、高清图片都原封不动提供),如果你要 git clone 会非常的慢,因此建议优先到 Releases · chenzomi12/AIInfra 来下载你需要的内容

非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!

欢迎大家使用的过程中发现 bug 或者勘误直接提交代码 PR 到开源社区哦!

请大家尊重开源和 ZOMI 的努力,引用 PPT 的内容请规范转载标明出处哦!

About

AIInfra(AI 基础设施)指AI系统从底层芯片等硬件,到上层软件栈支持AI大模型训练和推理。

Resources

License

Apache-2.0, MIT licenses found

Licenses found

Apache-2.0
LICENSE
MIT
LICENSE-CODE

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published