AI 应用开发完整学习指南

版本：v2.1 | 更新日期：2026-05-03 | 总学时：约 20-30 周（核心路径）
目标受众：有一定编程基础（Python/JavaScript），希望系统掌握 AI 应用开发全链路的开发者
前置要求：基本的编程能力、命令行操作、Git 使用经验
学完你能：独立开发包含 RAG、Agent、多模态能力的生产级 AI 应用，并完成部署上线

INFO

本大纲分为「核心路径」和「进阶路径」。标注 ⭐ 的章节为核心路径（必修），其余为进阶内容（可按需选学）。核心路径约 14-18 周，完整路径约 20-30 周。

一、基础知识储备

1.1 编程语言

→ [1.1 编程语言](1.1 编程语言)

Python 核心（4-5 周）：变量/控制流/OOP → 装饰器/生成器/async-await → 类型提示
Web 开发（2-3 周）：FastAPI 路由/Pydantic/依赖注入/流式响应/数据库集成
前端基础（2-3 周）：HTML/CSS/JS → React 组件/Hooks → AI 聊天界面实战

1.2 机器学习基础

→ [1.2 机器学习基础](1.2 机器学习基础)

ML 概述（1 周）：监督/无监督/强化学习、应用场景
常见算法（2-3 周）：线性回归、决策树、SVM、神经网络
训练流程（1-2 周）：数据准备 → 特征工程 → 训练 → 评估 → 部署
关键概念（1-2 周）：过拟合/欠拟合、正则化、交叉验证

1.3 深度学习基础

→ [1.3 深度学习基础](1.3 深度学习基础)

神经网络原理（2-3 周）：前向传播/反向传播/优化器/正则化
CNN（2-3 周）：卷积/池化/经典架构（ResNet/EfficientNet）
RNN/LSTM（2 周）：序列模型/门控机制/Bi-LSTM
Transformer ⭐（3-4 周）：Self-Attention/Multi-Head/位置编码 — LLM 的基石
深度学习框架（2-3 周）：PyTorch / TensorFlow

二、大语言模型（LLM）核心

2.1 LLM 基本原理

→ [2.1 LLM 基本原理](2.1 LLM 基本原理)

LLM 概述 ⭐（1 周）：发展历程、核心能力、局限性
Transformer 深入（2-3 周）：编码器/解码器、KV Cache、MoE 架构
预训练与微调（2-3 周）：预训练范式、SFT、RLHF/DPO
Tokenization（1-2 周）：BPE/WordPiece/SentencePiece、词表设计
上下文窗口（1-2 周）：位置编码扩展、长上下文处理策略

2.2 主流大模型

→ [2.2 主流大模型](2.2 主流大模型)

闭源模型 ⭐（1 周）：GPT-5 / Claude Opus 4.6 / Gemini 3 Pro / DeepSeek
开源模型（2 周）：LLaMA / Qwen / DeepSeek-R1 / Phi
模型选型 ⭐（1 周）：按场景选型矩阵（国内 🇨🇳 / 国际 🌍 双方案）
多模型路由：生产环境的动态选型策略

2.3 模型微调

→ [2.3 模型微调](2.3 模型微调)

微调策略（1 周）：全参数 vs LoRA vs QLoRA、选择依据
数据集准备（1-2 周）：标注格式、质量控制、数据增强
微调工具 ⭐（2-3 周）：LLaMA-Factory / Axolotl / HuggingFace PEFT
训练基础设施（1-2 周）：GPU 选择、分布式训练、混合精度
模型评估（1 周）：Benchmark / 人工评估 / LLM-as-Judge

2.4 模型部署与推理

→ [2.4 模型部署与推理](2.4 模型部署与推理) | 模型部署实战教程

推理优化：量化（GPTQ/AWQ/GGUF）、KV Cache、连续批处理
部署框架 ⭐：vLLM / Ollama / llama.cpp / TGI
本地 vs 云端：成本/性能/安全对比
性能监控：吞吐量、延迟、GPU 利用率

三、Prompt 工程

3.1 Prompt 设计原则

→ [3.1 Prompt 设计原则](3.1 Prompt 设计原则)

基础原则 ⭐：角色设定、任务描述、格式要求、上下文提供
System Prompt 设计：系统指令模板、安全边界设定
输出控制：JSON 输出、Structured Output、格式约束
常见错误与最佳实践

3.2 高级 Prompt 技术

→ [3.2 高级 Prompt 技术](3.2 高级 Prompt 技术)

Few-shot Learning ⭐：示例选择策略、动态 Few-shot
Chain-of-Thought ⭐：思维链推理、Zero-shot CoT
Self-Consistency：多路径推理、投票机制
Tree of Thoughts：树状搜索、复杂问题分解
Prompt 模板设计：结构化模板、变量注入
A/B 测试与迭代优化

3.3 结构化输出 ⭐

→ [3.3 结构化输出](3.3 结构化输出)

JSON Mode / Structured Outputs：OpenAI 原生结构化输出
Instructor 库 ⭐：多模型通用、自动重试、Pydantic 校验
高级技巧：枚举约束 / 嵌套结构 / 流式结构化输出
典型场景：信息提取 / 分类 / 内容审核 / Agent 工具参数

四、RAG 检索增强生成

4.1 RAG 核心架构

→ [4.1 RAG 核心架构](4.1 RAG 核心架构)

RAG 原理 ⭐：检索→增强→生成的完整流程
核心组件：文档加载器 / 分块器 / Embedding / 向量数据库 / LLM
评估指标：Recall@K / MRR / Faithfulness / Relevancy
常见问题与优化技巧

4.2 向量数据库

→ [4.2 向量数据库](4.2 向量数据库) | 向量数据库实战（完整教程）

Embedding 模型选型 ⭐：OpenAI / BGE / Cohere、维度与性能
向量数据库选型 ⭐：pgvector vs Chroma vs Milvus
相似度检索：余弦距离 / 欧氏距离 / HNSW / IVFFlat
性能优化：索引调优、批量写入、缓存策略

4.3 文档处理

→ [4.3 文档处理](4.3 文档处理)

文档解析：PDF / Markdown / HTML / 代码文件
分块策略 ⭐：递归字符 / 语义分块 / 按结构分块 / Parent Document
元数据提取：标题/来源/时间戳 → 过滤检索
高级技巧：OCR、表格提取、多模态文档

4.4 高级 RAG 技术

→ [4.4 高级 RAG 技术](4.4 高级 RAG 技术)

查询优化：Query Rewriting / HyDE / 多查询扩展
检索优化：混合检索（Dense + Sparse）/ Reranker
生成优化：引用溯源 / 幻觉检测 / 自适应 RAG
RAG 评估：RAGAS 框架、端到端评测

4.5 数据工程与 ETL

→ [4.5 数据工程与 ETL](4.5 数据工程与 ETL)

数据采集：多源接入（文件 / 数据库 / API / 爬虫）
数据清洗：文本标准化 / PII 脱敏 / 元数据提取
质量检查：空值 / 重复 / 编码 / 长度自动校验
ETL Pipeline 实战：采集 → 清洗 → 质量检查 → 入库

五、AI Agent（智能体）

5.1 Agent 基础概念

→ [5.1 Agent 基础概念](5.1 Agent 基础概念)

什么是 Agent ⭐：LLM + 记忆 + 工具 + 规划
四大核心组件：大脑（LLM）/ 记忆 / 工具 / 规划器
ReAct 模式 ⭐：Thought → Action → Observation 循环
单 Agent vs 多 Agent 协作

5.2 Agent 开发框架

→ [5.2 Agent 开发框架](5.2 Agent 开发框架)

框架对比 ⭐：LangChain / LangGraph / CrewAI / AutoGen / Dify
LangChain Agent ⭐：工具定义 / Agent 创建 / 执行链
LangGraph ⭐：状态图 / 条件分支 / 人机协作（Human-in-the-loop）
CrewAI：角色化多 Agent 协作

5.3 工具使用（Function Calling / MCP）

→ [5.3 工具使用（Function Calling）](5.3 工具使用（Function Calling）)

OpenAI Function Calling ⭐：工具定义 / 参数生成 / 多工具并行
自定义工具开发：API 调用 / 数据库查询 / 文件操作
MCP 协议 ⭐：Server/Client 架构 / mcp SDK / Claude Desktop 集成
Function Calling vs Tool Call vs MCP 辨析
工具设计最佳实践

5.4 记忆与状态管理

→ [5.4 记忆与状态管理](5.4 记忆与状态管理)

记忆类型：短期（对话历史）/ 长期（向量存储）/ 工作记忆
对话历史管理：滑动窗口 / 摘要压缩 / Token 预算控制
持久化存储：Redis / PostgreSQL / 向量数据库
LangGraph 状态管理：TypedDict / Checkpointer

5.5 Agent 规划与执行

→ [5.5 Agent 规划与执行](5.5 Agent 规划与执行)

规划策略：Task Decomposition / Plan-and-Execute / 自适应规划
执行引擎：顺序执行 / 并行执行 / 条件分支
错误恢复：重试机制 / Fallback 策略 / 人工干预
评估与调试：Agent 日志 / 轨迹分析 / 性能基准

5.6 Agent 架构设计

→ [5.6 Agent 架构设计](5.6 Agent 架构设计)

六大架构模式：单 Agent / Supervisor / Hierarchical / Swarm / Map-Reduce / Reflection
架构选型指南：按任务类型选择最佳拓扑
可靠性工程：工具调用防护 / 循环保护 / Human-in-the-Loop
Agentic RAG：Agent 驱动的自适应检索策略

六、多模态应用

6.1 视觉模型

→ [6.1 视觉模型](6.1 视觉模型)

图像理解：GPT-5 Vision / Gemini Pro Vision / Qwen-VL
图像生成：DALL-E / Stable Diffusion / Midjourney API
应用场景：商品识别、文档 OCR、医疗影像分析

6.2 语音模型

→ [6.2 语音模型](6.2 语音模型)

语音识别（ASR）：Whisper / 讯飞 / Azure Speech
语音合成（TTS）：OpenAI TTS / Edge TTS / VITS
实时对话：GPT-5 Realtime API / WebSocket 流式处理

6.3 视频生成

→ [6.3 视频生成](6.3 视频生成)

视频生成模型：Sora / Runway / Pika
视频理解：Gemini 3 Pro（原生视频输入）
应用开发：短视频生成管线、视频内容分析

七、工程化实践与部署

7.1 API 服务设计 ⭐

→ [7.1 API 服务设计](7.1 API 服务设计)

LLM 应用架构模式（同步 / 异步任务 / 流式 SSE）
流式输出（SSE / WebSocket 双向对话）
限流、重试与降级策略（SlowAPI + tenacity + Fallback Chain）
多模型路由与负载均衡（规则路由 + 语义缓存）
综合实战：生产级 LLM 服务（认证 + 限流 + 路由 + 流式 + 监控）

7.2 安全与内容审核 ⭐

→ [7.2 安全与内容审核](7.2 安全与内容审核)

用户数据隐私保护（PII 脱敏、对话隔离）
Prompt 注入防护（多层防御、输入过滤、越狱检测）
内容安全审核（敏感词 + 分类模型 + OpenAI Moderation）
AI 伦理与合规（GDPR、《个人信息保护法》、《生成式 AI 管理办法》）

7.3 性能优化 ⭐

→ [7.3 性能优化](7.3 性能优化)

缓存策略（精确匹配 → 语义缓存 → Prompt 前缀缓存三级架构）
并发与异步处理（asyncio + 信号量 + 批处理）
Token 用量优化与成本控制（Prompt 压缩、模型降级、预算告警）
监控与可观测性（LangSmith / Langfuse / 自定义指标）

7.4 部署上线

→ [7.4 部署上线](7.4 部署上线)

Docker 容器化（Dockerfile 最佳实践、多阶段构建）
Docker Compose 三容器编排（Nginx + FastAPI + PostgreSQL/pgvector）
环境变量与密钥管理（pydantic-settings）
CI/CD 自动部署（GitHub Actions / Webhook）
日志与监控（结构化日志、健康检查）
部署检查清单

7.5 前端交互设计

→ [7.5 前端交互设计](7.5 前端交互设计)

对话式 UI 设计（消息列表 / 气泡 / 头像 / 操作按钮）
流式打字效果实现（SSE 解析 + 逐字渲染）
Markdown 与代码高亮渲染（react-markdown + highlight.js）
文件上传与多模态输入（图片/PDF + 拖拽上传）
综合实战：完整 Chat 应用前端

7.6 AI 应用测试

→ [7.6 AI 应用测试](7.6 AI 应用测试)

测试金字塔：单元测试 / 集成测试 / 端到端测试
LLM 输出评估：DeepEval + LLM-as-Judge
Prompt 回归测试：关键词检查 / 长度约束 / 安全测试
CI/CD 集成：GitHub Actions 自动化评估

7.7 成本控制

→ [7.7 成本控制](7.7 成本控制)

模型选型降本：按任务复杂度自动选模型
Token 优化：Prompt 压缩 / 上下文裁剪
缓存策略：精确缓存 + API 侧前缀缓存
监控预警：日预算 / Token 追踪 / 超支告警

八、实战项目

8.1 AI 聊天应用 ⭐

→ [8.1 AI 聊天应用](8.1 AI 聊天应用)

意图识别 → RAG 知识库 → 工具调用 → 多轮对话 → 流式输出
技术栈：FastAPI + OpenAI + pgvector
完整服务入口代码（可直接运行）

8.2 知识库问答系统（RAG）⭐

→ [8.2 知识库问答系统](8.2 知识库问答系统)

多格式文档解析（PDF/Markdown/HTML/代码）
智能分块 → 混合检索 + Reranker → 引用溯源生成
技术栈：LangChain + pgvector/Milvus + FastAPI
完整系统实现（可直接部署）

8.3 AI Agent 助手

→ [8.3 AI Agent 助手](8.3 AI Agent 助手)

Agent 自动化编码（Plan → Execute → Auto-fix 循环）
数据分析自动化 + 多 Agent 协作 + RPA 集成
技术栈：LangGraph + MCP + FastAPI
统一编排与可观测性

8.4 多模态应用

→ [8.4 多模态应用](8.4 多模态应用)

结构化长文/报告/PPT 生成（大纲→逐章→整合）
多模态内容创作（文本+图像+语音联合生成）
写作风格迁移与一致性控制
FastAPI 流式输出服务

8.5 数据分析 Agent

→ [8.5 数据分析 Agent](8.5 数据分析 Agent)

代码生成与补全 / 代码审查与解释
自然语言转 SQL（Text-to-SQL）
Agent 自动化编码（Plan → Execute → Auto-fix）
FastAPI 完整服务实现

九、前沿方向与持续学习

9.1 MCP 与 A2A 协议

→ [9.1 MCP 与 A2A](9.1 MCP 与 A2A)

MCP：Agent ↔ 工具/数据的标准接口（纵向连接）
A2A：Agent ↔ Agent 的通信协议（横向连接，Google 发起）
MCP Server 开发实战 + Claude Desktop/Cursor 集成
A2A Agent Card + 跨框架 Agent 协作
两者互补，构成 Agent 生态基础设施

9.2 推理模型（Slow Thinking）

→ [9.2 推理模型](9.2 推理模型)

快思考 vs 慢思考对比 + 主流推理模型矩阵
OpenAI o3 / DeepSeek-R1 / Qwen3 混合思考实战代码
生产实践：混合路由策略（按复杂度自动选模型）
对应用开发的 4 大影响（Prompt/成本/超时/流式输出）

9.3 代码生成与 AI IDE

→ [9.3 代码生成与 AI IDE](9.3 代码生成与 AI IDE)

主流工具对比（Cursor / Copilot / Windsurf / Claude Code）
AI-First 开发范式（自然语言驱动 + 对话式迭代）
Cursor 深度指南（Agent 模式 + .cursorrules 规范）
Claude Code CLI Agent + MCP 集成

9.4 AI 搜索

→ [9.4 AI 搜索](9.4 AI 搜索)

AI 搜索 vs 传统搜索 vs RAG 三方对比
主流产品（Perplexity / SearchGPT / Kimi 搜索）
集成方式：OpenAI Web Search / Perplexity API / 自建搜索
RAG + AI 搜索混合检索实战

9.5 个性化与微调生态

→ [9.5 个性化与微调生态](9.5 个性化与微调生态)

合成数据生成（GPT-4o 批量生成 + 质量过滤 + 格式导出）
LoRA 微调实战（LLaMA-Factory 完整配置）
评估与迭代（LLM-as-Judge + 闭环流程）
LoRA 即服务（vLLM 多 LoRA 热切换部署）

9.6 AI 安全与对齐

→ [9.6 AI 安全与对齐](9.6 AI 安全与对齐)

安全四层体系（模型→应用→内容→合规）
模型对齐技术（RLHF / DPO / Constitutional AI）
红队测试自动化（攻击向量 + 自动化脚本）
AI 内容标识与 C2PA 水印
中国 + 国际法规合规清单

9.7 AI 基础设施（LLMOps）

→ [9.7 AI 基础设施](9.7 AI 基础设施)

AI 网关：LiteLLM 统一接口 + Fallback 容错链 + Proxy 部署
可观测性：LangSmith / Langfuse — 调用链路追踪
Prompt Caching：前缀缓存节省 50-90% 成本
评估系统：RAGAS（RAG 评估）+ DeepEval（通用评估）
团队规模选型指南

学习路径建议

⭐ 核心路径（14-18 周）— 快速上手 AI 应用开发

适合有编程基础的开发者，聚焦「会用」，快速产出 AI 应用。

阶段零（1天）：环境搭建 + 5分钟体验 API 调用
    ↓
阶段一（1-2周）：Python 核心 + FastAPI 基础（1.1 精选）
    ↓
阶段二（2-3周）：LLM 概念 + Prompt 工程（2.1 概述 + 3.1-3.2）⭐
    ↓
阶段三（3-4周）：RAG 系统开发（4.1-4.4）⭐
    ↓
阶段四（3-4周）：Agent 开发 + Function Calling + MCP（5.1-5.3）⭐
    ↓
阶段五（2-3周）：工程化实践 + 部署上线（7.1-7.4 精选）⭐
    ↓
阶段六（2-3周）：项目实战（选一个完整项目）

完整路径（20-30 周）— 系统掌握全链路

在核心路径基础上，深入理论和进阶主题：

+ ML/DL 基础（1.2-1.3，重点 Transformer）：2-3 周
+ 模型微调（2.3 LoRA/QLoRA 实战）：2-3 周
+ 模型部署（2.4 vLLM/Ollama）：2-3 周
+ 多模态应用（6.1-6.3）：2-3 周
+ Agent 进阶（5.4-5.6 记忆/规划/架构）：2-3 周
+ 前沿方向（9.x MCP/A2A/推理模型）：持续跟踪

TIP

全程使用 AI 编程工具（Cursor / Copilot）辅助学习和实践，可大幅提升效率。每学完一个章节，用 AI 辅助做一个 Mini 项目巩固所学。

类型	资源	说明
课程	吴恩达 AI 系列	Prompt 工程、LangChain、RAG 等系统课程
课程	李宏毅机器学习	中文深度学习入门首选
文档	OpenAI API 文档	API 调用与最佳实践
文档	LangChain 官方文档	Agent 与链式开发
文档	MCP 官方文档	Agent 工具标准协议
社区	Hugging Face	模型与数据集中心
榜单	Chatbot Arena	模型实力实时对战排名
实战	LLaMA-Factory	开源模型微调一站式平台
平台	Dify	低代码 AI 应用构建
工具	Cursor	AI-native IDE，推荐全程使用
工具	Ollama	本地模型运行，开发必备

AI 应用开发完整学习指南 ​

一、基础知识储备 ​

1.1 编程语言 ​

1.2 机器学习基础 ​

1.3 深度学习基础 ​

二、大语言模型（LLM）核心 ​

2.1 LLM 基本原理 ​

2.2 主流大模型 ​

2.3 模型微调 ​

2.4 模型部署与推理 ​

三、Prompt 工程 ​

3.1 Prompt 设计原则 ​

3.2 高级 Prompt 技术 ​

3.3 结构化输出 ⭐ ​

四、RAG 检索增强生成 ​

4.1 RAG 核心架构 ​

4.2 向量数据库 ​

4.3 文档处理 ​

4.4 高级 RAG 技术 ​

4.5 数据工程与 ETL ​

五、AI Agent（智能体） ​

5.1 Agent 基础概念 ​

5.2 Agent 开发框架 ​

5.3 工具使用（Function Calling / MCP） ​

5.4 记忆与状态管理 ​

5.5 Agent 规划与执行 ​

5.6 Agent 架构设计 ​

六、多模态应用 ​

6.1 视觉模型 ​

6.2 语音模型 ​

6.3 视频生成 ​

七、工程化实践与部署 ​

7.1 API 服务设计 ⭐ ​

7.2 安全与内容审核 ⭐ ​

7.3 性能优化 ⭐ ​

7.4 部署上线 ​

7.5 前端交互设计 ​

7.6 AI 应用测试 ​

7.7 成本控制 ​

八、实战项目 ​

8.1 AI 聊天应用 ⭐ ​

8.2 知识库问答系统（RAG）⭐ ​

8.3 AI Agent 助手 ​

8.4 多模态应用 ​

8.5 数据分析 Agent ​

九、前沿方向与持续学习 ​

9.1 MCP 与 A2A 协议 ​

9.2 推理模型（Slow Thinking） ​

9.3 代码生成与 AI IDE ​

9.4 AI 搜索 ​

9.5 个性化与微调生态 ​

9.6 AI 安全与对齐 ​

9.7 AI 基础设施（LLMOps） ​

学习路径建议 ​

⭐ 核心路径（14-18 周）— 快速上手 AI 应用开发 ​

完整路径（20-30 周）— 系统掌握全链路 ​

推荐资源 ​