2.2 主流大模型
2026 年,大模型竞争的主轴已经从"谁的参数多"变成了"谁在特定任务上又快又准又便宜"。MoE 架构全面铺开,原生多模态成为标配,而 Agent 能力——即模型自主使用工具、规划步骤、完成复杂任务的能力——正在重新定义"好模型"的标准。
作为开发者,你不需要记住每个模型的 benchmark 分数,但你必须搞清楚三件事:它擅长什么、它要花多少钱、它的上下文能吃多少。本节围绕这三个问题展开。
一、闭源模型:开箱即用的生产力
闭源模型的价值很直接——注册、拿 key、调 API,几分钟内就能跑通一个原型。你不需要操心 GPU、不需要配推理框架,把精力全部放在产品逻辑上。代价是数据经过第三方网络,且定价权不在你手里。
1. OpenAI GPT 系列
GPT-5 Turbo 是 OpenAI 的通用主力。稀疏 MoE 架构让它在保持强大综合能力的同时响应速度很快,文本、图像、音视频原生融合,绝大多数产品场景用它就够了。
o 系列(GPT-5 Pro) 走的是另一条路——慢思考(Slow Thinking)。它不追求响应速度,而是在推理深度上下功夫,适合数学证明、科学计算、多步逻辑链这类需要"想清楚再说"的任务。
ChatGPT Agent 是 OpenAI 的官方 Agent 框架,支持百万级上下文下的工具编排,可以让模型自主完成多步骤的复杂工作流。
from openai import OpenAI
client = OpenAI(api_key="your-api-key")
response = client.chat.completions.create(
model="gpt-5-turbo",
messages=[{"role": "user", "content": "帮我用 asyncio 重构这段代码"}],
temperature=0.7
)
print(response.choices[0].message.content)2. Anthropic Claude 系列
Claude Opus 4.6 是代码能力和长文处理的标杆。1M token 的超长上下文配合上下文压缩技术,让它在大型代码库重构、跨文件 Bug 追踪等工程任务上表现极为突出。如果你的任务需要"一个最聪明的大脑做最终判断",Opus 是首选。
Claude Sonnet 4.6 能力接近 Opus,但在 Agent 场景上做了专门强化——Computer Use(直接操作电脑界面)和自主规划能力全面增强,调用成本却低得多。在需要模型高频执行、反复调用的 Agent 工作流中,Sonnet 的性价比无人能敌。
一句话总结:Opus 做决策,Sonnet 做执行。
3. Google Gemini 系列
Gemini 3 Pro / 3.1 Pro 的核心卖点是上下文窗口——原生支持百万 Token 输入。这意味着你可以把多个完整代码仓库、几小时的视频、或者一整套法律文档一次性喂进去,不需要做分块和检索。内置的 Deep Think 模式在大型系统架构分析上也很有竞争力。
Gemini 3 Flash 是轻量极速版,为高并发批处理而生,适合放在流水线里做高频调用节点。
当你的瓶颈是"上下文装不下"时,Gemini 几乎是唯一的答案。
4. 国内第一梯队
DeepSeek-V3:671B MoE 架构,但单次推理只激活很小一部分参数,所以速度极快。真正的杀手锏是价格——API 成本比国际同级模型低一个数量级,高并发数据处理和清洗场景的性价比之王。
from openai import OpenAI
# DeepSeek 兼容 OpenAI SDK,切换只需改 base_url 和 key
client = OpenAI(
api_key="your-deepseek-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat", # V3 对应的模型名
messages=[{"role": "user", "content": "用 Python 实现一个 LRU 缓存"}],
temperature=0.7
)
print(response.choices[0].message.content)💡 注意:国内大多数模型(DeepSeek、Qwen、Kimi 等)都兼容 OpenAI SDK 的接口格式,只需替换
base_url和api_key,代码几乎零改动。
DeepSeek-R1:纯强化学习训练出来的推理模型,数学和编程逻辑能力对标国际顶尖水平。同时提供基于 LLaMA/Qwen 的蒸馏版本(7B–70B),让不同显存预算的团队都能本地跑起来。
其他值得关注的模型:
- Kimi K2.5-Thinking(月之暗面):超长文本理解 + 实时工具检索
- Qwen-Max 2.5(阿里):中文理解和指令遵循一流
- Grok 4(xAI):实时信息获取与推理兼备
DeepSeek 对行业最大的冲击不是性能本身,而是它证明了一件事:顶级推理能力不必绑定高昂价格。这直接改变了整个市场的定价逻辑。
二、开源模型:可控性是核心价值
开源模型的意义不在于"免费",而在于可控:数据完全物理隔离、可以全参数微调、可以自由量化和剪枝部署。当你的场景涉及商业机密、合规要求、或者需要深度定制模型行为时,开源是唯一的路。
1. DeepSeek-R1(开源版)
首个真正开源的强推理模型。它把思维链和 RLHF 的研究门槛大幅拉低,让中小团队也能在推理能力上做文章。官方蒸馏版覆盖 7B 到 70B,从一张消费级显卡到多卡集群都能跑。
2. Meta LLaMA 系列
开源生态的事实标准。8B 到 400B+ 的完整参数区间,几乎所有主流推理框架(vLLM、Ollama、llama.cpp)都优先为 LLaMA 做深度优化,社区资源最丰富。如果你选开源模型拿不定主意,LLaMA 永远是最安全的起点——不一定最强,但生态支持最好。
3. Qwen(通义千问)系列
中文开源模型的实际领导者。指令遵循、多语言、代码生成(Qwen-Coder)全面能打。32B/72B 尺寸在中等集群上能很好地平衡硬件消耗和输出质量,是国内企业私有化部署的首选方案。
4. 端侧轻量模型
Microsoft Phi 系列用极小的参数量实现了出色的泛化能力,专为手机、机器人、IoT 等边缘设备设计,支持完全离线运行。在 Multi-Agent 架构中,也适合作为轻量级的验证和分发节点。
三、怎么选:一个实用的决策框架
面对这么多模型,选型的核心逻辑其实很简单——回答三个问题:
问题一:闭源还是开源?
| 维度 | 闭源 API | 开源本地部署 |
|---|---|---|
| 部署门槛 | 注册即用 | 需要 GPU + 推理框架 |
| 数据安全 | 数据经第三方网络 | 完全物理隔离 |
| 可定制性 | Prompt / RAG / 有限微调 | 全参数微调、量化、剪枝 |
| 成本模型 | 按量付费,弹性但与并发绑定 | 前置硬件投入 + 持续运维 |
经验法则:先用闭源 API 验证想法,跑通了再评估是否需要迁移到开源自部署。
WARNING
例外情况:如果你的数据涉及医疗记录、金融交易、用户隐私等强合规领域,应从一开始就选择开源本地部署,避免数据经过第三方网络带来的合规风险。
问题二:任务需要什么级别的能力?
- 简单任务(分类、摘要、格式转换)→ 平价模型足矣(GPT-5 Turbo、Gemini Flash、DeepSeek-V3)
- 复杂推理(数学、代码架构、多步逻辑)→ 必须用慢思考模型(o 系列、DeepSeek-R1、Deep Think)
- 超长输入(完整代码库、法律文档、长视频)→ 需要 1M 级上下文(Gemini 3 Pro、Claude Opus 4.6)
问题三:预算怎么分配?
| 层级 | 代表模型 | 适用场景 |
|---|---|---|
| 旗舰层(贵) | Claude Opus 4.6、GPT-5 Pro | 关键决策节点,低频高价值调用 |
| 性价比层 | Claude Sonnet 4.6、GPT-5 Turbo | 日常开发、Agent 执行、产品主力 |
| 成本极致层 | DeepSeek-V3/R1、Gemini Flash | 高并发批处理、数据清洗流水线 |
| 本地部署 | Qwen 72B、DeepSeek-R1 蒸馏版 | 数据合规、私域场景(需自备 GPU) |
显存速查:8B 模型 ≈ 8–12 GB VRAM,70B+ 需多卡并行。
量化部署参考(INT4 量化后):
- 7B–8B → 约 4–6 GB VRAM(单张消费级显卡可跑)
- 14B → 约 8–10 GB VRAM
- 32B → 约 18–20 GB VRAM
- 70B → 约 35–40 GB VRAM(通常需双卡)
- 量化会有约 5%–10% 的精度损失,生产环境建议用 FP16/BF16 + 多卡并行
四、按应用场景选型
三个宏观问题帮你圈定范围,但实际开发时,你需要根据你在做什么和你在哪里部署来选模型。
::: important 国内外差异:OpenAI、Claude、Gemini 的 API 在中国大陆无法直接访问(需代理或中转服务)。如果你的产品面向国内用户或部署在国内服务器,优先选择国内可直连的模型。 :::
RAG(检索增强生成)
| 环节 | 🌍 国际方案 | 🇨🇳 国内方案 |
|---|---|---|
| Embedding | OpenAI text-embedding-3-large | BGE-M3(开源)/ 通义文本向量 |
| Rerank | Cohere Rerank | BGE-Reranker(开源自部署) |
| 生成模型 | Claude Sonnet 4.6 / GPT-5 Turbo | DeepSeek-V3 / Qwen-Max 2.5 |
| 全链路低成本 | Gemini Flash + BGE-M3 | DeepSeek-V3 + BGE-M3 |
Agent / 工具调用
| 需求 | 🌍 国际方案 | 🇨🇳 国内方案 |
|---|---|---|
| 复杂编排(主脑) | Claude Opus 4.6 / GPT-5 Pro | DeepSeek-R1 / Qwen-Max 2.5 |
| 高频执行(工作节点) | Claude Sonnet 4.6 | DeepSeek-V3 / Kimi K2.5 |
| Computer Use | Claude Sonnet 4.6 | 暂无直接替代,需自部署开源方案 |
| 开源自部署 | Qwen-72B / LLaMA 3 | Qwen-72B / DeepSeek-R1 蒸馏 |
代码生成与重构
| 场景 | 🌍 国际方案 | 🇨🇳 国内方案 |
|---|---|---|
| 日常补全 | GPT-5 Turbo / Claude Sonnet 4.6 | DeepSeek-Coder-V3 / Qwen-Coder |
| 大型重构 | Claude Opus(200K)/ Gemini Pro(1M) | DeepSeek-R1(128K) |
| 本地部署 | LLaMA-Code / StarCoder | Qwen-Coder-32B / DeepSeek-Coder |
多模态(图像 / 音视频)
| 场景 | 🌍 国际方案 | 🇨🇳 国内方案 |
|---|---|---|
| 图像理解 | GPT-5 Turbo / Gemini 3 Pro | Qwen-VL-Max / 通义万相 |
| 图像生成 | GPT Image 3 / DALL-E 4 | 通义万相 / 可灵 AI |
| 视频理解 | Gemini 3 Pro(小时级输入) | Kimi 多模态 / Qwen-VL |
| 语音对话 | GPT-5 Turbo Realtime API | 豆包语音大模型 / 讯飞星火 |
批量数据处理
| 场景 | 🌍 国际方案 | 🇨🇳 国内方案 |
|---|---|---|
| 大规模分类 / 清洗 | Gemini Flash / GPT-5 Turbo Batch | DeepSeek-V3(性价比之王) |
| 高质量标注 | Claude Sonnet 4.6 Batch API | Qwen-Max 2.5 |
| 合成训练数据 | GPT-5 + R1 交叉验证 | DeepSeek-R1 + Qwen-Max 交叉验证 |
五、多模型路由:生产环境的最佳实践
真实的生产系统从不只用一个模型——而是根据任务复杂度和部署区域动态路由:
def route_model(task: dict, region: str = "cn") -> str:
"""根据任务特征和部署区域选择最优模型"""
# 国际方案
if region == "global":
if task["requires_reasoning"]:
return "deepseek-r1"
if task["input_tokens"] > 100_000:
return "gemini-3-pro"
if task["needs_tool_calling"]:
return "claude-sonnet-4.6"
return "gpt-5-turbo"
# 国内方案(直连无需代理)
if task["requires_reasoning"]:
return "deepseek-r1"
if task["input_tokens"] > 100_000:
return "kimi-k2.5" # 国内长上下文首选
if task["needs_tool_calling"]:
return "deepseek-v3" # Function Calling 稳定
if task["is_batch_processing"]:
return "deepseek-v3" # 成本最低
return "qwen-max-2.5" # 国内通用主力TIP
成本优化核心策略:用便宜模型做 80% 的简单任务,用贵模型只处理 20% 的关键节点。一个典型的 Agent 系统中,主脑用 R1/Opus 做规划(低频),工作节点用 DeepSeek-V3/Sonnet 做执行(高频),总成本可以降低 60%–80%。
六、场景速查表
🌍 国际部署
| 你要做什么 | 用什么 | 为什么 |
|---|---|---|
| 快速出原型 / 通用对话 | Claude Sonnet 4.6 或 GPT-5 Turbo | 综合能力强,响应快 |
| 啃硬骨头(复杂推理) | Claude Opus 4.6 或 DeepSeek-R1 | 深度推理顶尖 |
| 整个代码库分析 | Gemini 3 Pro | 百万级上下文 |
| 构建 AI Agent | Opus 规划 + Sonnet 执行 | 分层架构,成本可控 |
| 多模态应用 | Gemini 3 Pro 或 GPT-5 Turbo | 原生多模态 |
🇨🇳 国内部署
| 你要做什么 | 用什么 | 为什么 |
|---|---|---|
| 快速出原型 / 通用对话 | DeepSeek-V3 或 Qwen-Max 2.5 | 直连、中文强、价格低 |
| 啃硬骨头(复杂推理) | DeepSeek-R1 | 推理能力对标国际顶尖 |
| 超长文本 / 代码分析 | Kimi K2.5 / DeepSeek-R1(128K) | 国内长上下文最佳 |
| 大批量中文内容处理 | DeepSeek-V3 | 吞吐高、价格极低 |
| 构建 AI Agent | R1 规划 + V3 执行 | 全栈国内直连 |
| 涉及商业机密 | Qwen 72B 本地部署 | 数据不出服务器 |
| 多模态应用 | Qwen-VL-Max / 通义万相 | 国内直连、中文优化 |
| 语音对话 | 豆包语音 / 讯飞星火 | 中文语音识别率高 |