Skip to content
Jersey's Blog
搜索文档
K
Main Navigation
首页
知识库
Python
Python 学习路径
异步编程指南
装饰器与元编程
Pydantic V2 指南
类型系统实战
AI 工程化
LangChain 实战
RAG 系统
Agent 记忆系统
语音应用开发
构建 AI 助理
教程系列
FastAPI 入门
LangGraph 实战
MCP 协议开发
Docker 入门
Redis 入门
算法入门
后端工程
FastAPI 生产级实战
API 设计最佳实践
高并发系统设计
分布式系统入门
K8s 入门实战
外观
菜单
返回顶部
目录
AI 应用的流式输出全链路
从 LLM 的第一个 Token 到用户屏幕上的逐字渲染——拆解流式输出的每一层。
1. 为什么流式输出是 AI 应用的标配
1.1 一个对比实验:等待 vs 逐字呈现
1.2 TTFT——衡量流式输出的核心指标
1.3 不只是快:流式输出的产品价值
2. LLM 的 Token 生成机制——流式的起点
2.1 自回归解码:一次只生成一个 Token
2.2 Token 编码:一个汉字可能是 1-3 个 Token
2.3 生成速度的影响因素
3. 流式传输协议——SSE、WebSocket、gRPC
3.1 SSE:最简单的服务器推送
3.2 WebSocket:双向实时通信
3.3 gRPC Streaming:高性能 RPC 流
3.4 三者对比与选型指南
4. LLM 提供商的流式 API——OpenAI / Anthropic / 开源
4.1 OpenAI 流式 API 详解
4.2 Anthropic Claude 流式 API 详解
4.3 开源模型的流式输出(vLLM / Ollama)
4.4 统一封装:多提供商流式适配层
5. 后端流式中转——FastAPI / Node.js 实现
5.1 为什么不能前端直连 LLM API
5.2 FastAPI 流式中转实战(Python)
5.3 Express / Next.js 流式中转实战(Node.js)
5.4 流式中转的错误处理与优雅降级
6. 前端流式渲染——从字节流到用户看到的文字
6.1 Fetch + ReadableStream:手动解析 SSE
6.2 EventSource API:浏览器原生方案
6.3 流式 Markdown 渲染的难点与方案
6.4 React 中的流式状态管理
7. 实战:构建一个完整的流式聊天应用
7.1 项目架构与技术选型
7.2 后端:FastAPI 流式聊天 API
7.3 前端:React 流式聊天界面
7.4 完整运行演示
8. 生产级优化——延迟、错误、成本
8.1 TTFT 优化:从请求到第一个 Token
8.2 断线重连与错误恢复
8.3 并发与背压控制
8.4 成本监控与流式计费
附录
A. 流式输出 API 速查表
B. 常见问题与排查
C. 推荐工具与库