AI 深度解析

从零开始的 AI 工程深度解析:手动构建 AI 系统的开源课程

AI Engineering From Scratch 是一个采用 MIT 许可的课程和参考手册,旨在从数学和 ML 基础开始,逐步深入深度学习、transformers、LLMs、工具、智能体、MCP、基础设施、安全性和顶点项目,从而从零构建 AI 系统。

更新于 2026 年 6 月
“从零开始的 AI 工程”指南主图,展示了从数学到 LLM、智能体、生产基础设施、提示词、技能及 MCP 服务器的分层课程阶段

此仓库不是一个框架,也不是一个周末教程。它是一个结构化的学习系统:包含课程文件夹、可运行代码、文档、测验、生成的网站数据、智能体技能、提示词、脚本以及供那些想要理解 API 调用底层技术栈的人员使用的贡献规则。

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

编辑说明

本文使用了截至 2026 年 6 月 2 日收集的 GitHub 仓库、README、路线图、需求、脚本、网站构建文件、issues、PRs、网站、Reddit、X 搜索以及第三方文章。由于 README 和网站显示的课程数量可能不同,因此本文侧重于结构而非易变的数量。

1. 一句话解释 ai-engineering-from-scratch

AI Engineering From Scratch 是一个开源的 AI 课程仓库,每节课旨在教授概念、从零实现、与生产级库进行对比,并发布可重用的工件,例如提示词、技能、智能体或 MCP 服务器。

领域细节为什么重要
代码仓库rohitg00/ai-engineering-from-scratchhttps://github.com/rohitg00/ai-engineering-from-scratch
主要语言Python调研时 GitHub 显示的主要语言。
许可证MIT如有相关的打包或二进制许可证,请单独检查。
创建时间2026 年 3 月 18 日研究期间未发现 GitHub 发布版本;main 分支和网站正在积极更新中。

2. 为什么重要

该仓库之所以重要,是因为许多 AI 构建者只会调用 API,却无法解释该调用底层的数学原理、模型行为、检索失败、智能体循环、评估工具或生产权衡。

该课程的前提很简单:先自己构建一个小版本,然后再使用框架。这种模式使 PyTorch、Transformers、LangGraph、MCP 和生产级 RAG 不再那么神秘。

最核心的受众是那些想要长期学习路径而非播放列表的在职工程师。对于试图将 AI 热情转化为持久内部能力的团队来说,它尤为相关。

3. 架构与心智模型

该仓库围绕阶段和课程进行组织。每节课都遵循一致的结构,包含文档、代码、测验和输出,同时脚本负责审计课程、构建目录、安装技能并生成公共网站。

领域细节为什么重要
课程`phases/<phase>/<lesson>/`课程文件夹包含文档、可运行代码、测验 JSON 以及可重用的输出。
路线图`ROADMAP.md`规范的阶段结构、预计时间以及课程覆盖范围。
网站`site/build.js`,网站数据根据仓库内容构建公共阅读体验。
技能助手`.claude/skills/find-your-level`,`check-understanding`智能体辅助的安置与阶段测验。
输出`phases/**/outputs/`课程生成的提示词、技能、Agent 和 MCP 相关工件。
脚本`scripts/build_catalog.py`, `install_skills.py`, `lesson_run.py`, `audit_lessons.py`目录生成、技能安装、代码检查和课程不变性审计。
CI`.github/workflows/curriculum.yml`自动化审计以及站点/README 同步。
贡献者规则`AGENTS.md`, `CONTRIBUTING.md`, `LESSON_TEMPLATE.md`保持课程格式和 AI-agent 贡献的规范性。

4. 最小端到端设置

下面的命令来自仓库文档,并已对照当前调研快照检查。请把它们当作起点,在生产环境安装之前先阅读链接中的 README。

git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

# Run a first lesson implementation
python phases/01-math-foundations/01-linear-algebra-intuition/code/vectors.py

# Install Python dependencies when needed
python -m pip install -r requirements.txt

在连接关键数据或大型工作区之前,先用一个很小的任务证明集成可用。

# Find your starting point inside a supported agent
/find-your-level

# Check a phase after studying
/check-understanding 3

# Inspect the generated catalog
python3 scripts/build_catalog.py --stdout

# Install lesson skills into a target skill directory
python3 scripts/install_skills.py <target-dir> --phase 14

# Validate lesson code without running heavy jobs
python3 scripts/lesson_run.py

5. 技术深度解析

5.1 课程循环即产品。

README 描述了一种重复的模式:问题、概念、构建、使用、发布。这种结构比任何单一的课程数量都更重要,因为它在框架使用之前强制要求对概念的理解。

例如,课程可以用纯 Python 实现一个概念,然后将其与库进行比较,最后导出一个提示词或技能,帮助你在以后使用该概念。

lesson/
  docs/en.md     # explanation
  code/          # runnable implementation
  quiz.json      # check understanding
  outputs/       # prompt, skill, agent, or MCP artifact

5.2 课程体系从基础逐步进阶到 agents。

阶段结构从设置和数学开始,然后依次涵盖 ML、深度学习、视觉、NLP、语音、transformers、生成式 AI、LLMs、多模态系统、工具、agents、生产、安全和毕业项目。

这种广度使其既是一本有用的参考手册,也让人望而生畏。`/find-your-level` 技能是一个实用的答案:如果你的真正差距在于 agent 评估或生产级 RAG,就不要从零阶段开始。

5.3 输出使课程可复用。

一个独特的模式是,课程不仅仅以知识结束。它们会产生工件:提示词、技能、agent 模板或 MCP 相关输出。这意味着学习成果可以反馈到你日常的 coding-agent 工作流中。

当前的顶级输出索引不应被视为全部内容。课程级别的输出和安装脚本才是实用的发现机制。

5.4 智能体工程是核心支柱。

该仓库以智能体为中心的阶段涵盖了智能体循环、ReWOO、Reflexion、思维树 (Tree of Thoughts)、函数调用、记忆、LangGraph、AutoGen、CrewAI、基准测试、可观测性、提示词注入防御、验证门、移交和工作台脚手架。

这非常有价值,因为许多智能体教程跳过了枯燥的部分:状态、评估、安全性、恢复、移交和工具故障。一个将这些部分连接起来的课程比又一个“Hello World”智能体更有用。

5.5 质量仍然是一个不断变化的目标。

问题追踪器显示了快速发展的课程所面临的正常成长烦恼:测验答案位置偏差、渲染错误、数据集路径不匹配、Python/PyTorch 兼容性、表格格式、图表渲染、翻译和语言覆盖范围。

这并不意味着该仓库很弱。这意味着读者应该在学习过程中验证课程,并将该仓库视为一个活跃的开源课程,而不是一本经过润色的教科书。

6. 真实场景:错误 vs 正确

错误做法正确做法原因
将其视为一门证书课程。将其视为一条实用的开源学习路径和参考手册。维护者已明确反对将其定位为证书课程。
跳过基础知识,然后指责后面的课程太难。使用 `/find-your-level` 并遵循依赖项来填补你的空白。课程是刻意堆叠设计的。
假设每个语言轨道都具有相同的深度。在确定学习路径之前,请检查 Python、TypeScript、Rust 或 Julia 的当前课程代码。公开的 issue 讨论了对 Python 的侧重覆盖。
只阅读文档。运行代码,回答测验,并使用生成的输出。该仓库是围绕构建/使用/发布实践设计的。

7. 常见错误和当前问题

Issue tracker 很重要,因为这些仓库还很年轻,而且变化很快。本文把 issues 当作风险信号,而不是项目不可用的证明。

领域细节为什么重要
测验偏差Issue #240 报告称 main 分支中仍然存在答案位置偏差。将测验用作练习,而非正式评估。
图表渲染Issue #233 报告了 Phase 16 通信图表无法渲染的问题。部分网站/文档的渲染可能会滞后于内容更新。
表格Issue #193 报告了表格显示混乱的问题。当网站格式显示异常时,请检查原始 markdown。
Python 3.14Issue #192 指出了 PyTorch CUDA wheel 的可用性问题。在机器学习课程中使用已知稳定的 Python 版本。
数据集路径Issue #179 追踪了一个 Rotten Tomatoes 数据集路径不匹配的问题。预计会出现偶尔的数据源漂移。
语言覆盖范围Issue #168 追踪了在整个课程中添加 Rust 实现的任务。该仓库内容广泛,但并非每个语言轨道都是完整的。

8. 性能、扩展与成本说明

大多数早期课程运行成本较低。涉及 PyTorch、Transformers、多模态模型、本地推理、微调或顶点系统的后期课程可能需要更多的计算资源和 API 访问权限。

实际的设置是分小步运行课程,固定一个稳定的 Python 版本,并在阅读相关文档和依赖项预期之前,避免启动 GPU 密集型或 API 密集型课程。

对于团队而言,该仓库的脚本和技能对于课程管理非常有用。您可以分配阶段、运行审计、安装选定的技能并保持共享的进度,而不是让每个人去浏览数百个文件。

9. 适合谁

适合使用,如果不适合,如果
您可以编写代码,并希望了解 API 层之下的 AI 系统。你是一个完全的编程初学者。
你想要一条从数学到 LLMs、Agent TARS、MCP、基础设施和安全性的长期学习路径。你想要一个简短的周末教程。
你通过实现和发布可复用的产物来学习。你只想要视频或高水平的文章。
你的团队需要一个开源的 AI 技能提升骨干框架。你需要认证证书或正式的评分。

10. 社区信号

网络文章将该仓库描述为一本大型免费的 AI 工程参考手册,常将其比作学位式的学习路径。其中一些文章使用的课程数量已过时,因此数量应被视为动态元数据。

Reddit 上的讨论很有用,因为它既包含兴奋也包含怀疑:关于 AI 辅助创作、初学者不知所措、API 成本以及高级 Agent 课程是否深入处理了可靠性问题的质疑。

GitHub 的 issue 跟踪器展示了一个鲜活的课程体系:翻译 PR、Rust 轨道请求、测验错误、渲染修复、课程连接和网站改进。

11. 结论:值得使用吗?

我们的判断

如果你想走一条从基础到 AI 系统工程的扎实实践之路,请使用 AI Engineering From Scratch。如果你需要的是那种精美的证书课程、各语言轨道成熟度均衡的教程,或是快速构建应用的配方,请跳过它。

12. 更大的图景

本仓库是 AI 教育领域更广泛修正的一部分。在经历了多年的 API 优先演示后,工程师们越来越需要理解数据、数学、模型行为、评估、智能体、协议以及生产环境中的故障模式。

它所教授的最重要的习惯并非任何单一算法,而是在信任大型框架之前,先构建小型机制的模式。

13. 常见问题

问: AI Engineering From Scratch 是一个框架吗?

不是。它是一个包含课程、代码、测验、输出、脚本和公共网站的课程体系与参考仓库。

问: 我应该从哪里开始?

如果你拥有一个已安装相关技能的智能体,请使用 `/find-your-level`。否则,请从你最薄弱的先修知识开始:数学、ML、深度学习、LLMs、智能体或生产环境。

问: 我需要 GPU 吗?

并非所有课程都需要。早期课程比较轻量,而深度学习、本地模型、微调和多模态课程可能会受益于 GPU 或云端计算。

问: 它提供证书吗?

不是。该仓库定位为实用的开源学习资源,而非认证证书项目。

问: 课程只涉及 Python 吗?

Python 是主要的实践路径,但 README 中也提到了 TypeScript、Rust 和 Julia。在假设覆盖范围之前,请检查每节课的代码文件夹。

问: 内置了哪些技能?

顶级技能包括用于放置的 `/find-your-level` 和用于阶段测验的 `/check-understanding <phase>`。课程产出包含更多提示词和技能。

14. 术语表

领域细节为什么重要
从零开始在使用框架之前实现核心机制。课程的核心教学风格。
课程产出物提示词、技能、Agent 或与 MCP 相关的输出。课程结束后可复用的内容。
MCPModel Context Protocol。用于后续的工具和 Agent 阶段。
RAG检索增强生成 (RAG)。一种主要的 LLM 工程模式。
Agent 循环模型、工具调用、观察以及下一步控制循环。核心 Agent 工程概念。
目录生成的阶段、课程、代码和输出的 JSON 视图。基于仓库文件构建。
毕业设计一个结合了多项课程的大型端到端项目。对理解程度的后期验证。

15. 所有来源和链接

内部链接

16. 来源归属表

领域细节为什么重要
README 和路线图课程大纲、设置、理念、阶段结构。主要来源。
脚本和工作流目录、课程检查、技能安装、CI 行为。架构源码。
Issues 和 PR测验、渲染、数据集、Python、翻译以及语言覆盖范围的注意事项。新鲜度信号。
网站公开阅读体验和计数偏差。官方网页来源。
Reddit 和文章社区的兴奋、怀疑以及第三方视角。次要来源。

Related Guides

Sponsored AI assistant. Recommendations may be paid.