2.2 主流大模型

2026 年，大模型竞争的主轴已经从"谁的参数多"变成了"谁在特定任务上又快又准又便宜"。MoE 架构全面铺开，原生多模态成为标配，而 Agent 能力——即模型自主使用工具、规划步骤、完成复杂任务的能力——正在重新定义"好模型"的标准。

作为开发者，你不需要记住每个模型的 benchmark 分数，但你必须搞清楚三件事：它擅长什么、它要花多少钱、它的上下文能吃多少。本节围绕这三个问题展开。

一、闭源模型：开箱即用的生产力

闭源模型的价值很直接——注册、拿 key、调 API，几分钟内就能跑通一个原型。你不需要操心 GPU、不需要配推理框架，把精力全部放在产品逻辑上。代价是数据经过第三方网络，且定价权不在你手里。

1. OpenAI GPT 系列

GPT-5 Turbo 是 OpenAI 的通用主力。稀疏 MoE 架构让它在保持强大综合能力的同时响应速度很快，文本、图像、音视频原生融合，绝大多数产品场景用它就够了。

o 系列（GPT-5 Pro） 走的是另一条路——慢思考（Slow Thinking）。它不追求响应速度，而是在推理深度上下功夫，适合数学证明、科学计算、多步逻辑链这类需要"想清楚再说"的任务。

ChatGPT Agent 是 OpenAI 的官方 Agent 框架，支持百万级上下文下的工具编排，可以让模型自主完成多步骤的复杂工作流。

python

from openai import OpenAI

client = OpenAI(api_key="your-api-key")

response = client.chat.completions.create(
    model="gpt-5-turbo",
    messages=[{"role": "user", "content": "帮我用 asyncio 重构这段代码"}],
    temperature=0.7
)
print(response.choices[0].message.content)

2. Anthropic Claude 系列

Claude Opus 4.6 是代码能力和长文处理的标杆。1M token 的超长上下文配合上下文压缩技术，让它在大型代码库重构、跨文件 Bug 追踪等工程任务上表现极为突出。如果你的任务需要"一个最聪明的大脑做最终判断"，Opus 是首选。

Claude Sonnet 4.6 能力接近 Opus，但在 Agent 场景上做了专门强化——Computer Use（直接操作电脑界面）和自主规划能力全面增强，调用成本却低得多。在需要模型高频执行、反复调用的 Agent 工作流中，Sonnet 的性价比无人能敌。

一句话总结：Opus 做决策，Sonnet 做执行。

3. Google Gemini 系列

Gemini 3 Pro / 3.1 Pro 的核心卖点是上下文窗口——原生支持百万 Token 输入。这意味着你可以把多个完整代码仓库、几小时的视频、或者一整套法律文档一次性喂进去，不需要做分块和检索。内置的 Deep Think 模式在大型系统架构分析上也很有竞争力。

Gemini 3 Flash 是轻量极速版，为高并发批处理而生，适合放在流水线里做高频调用节点。

当你的瓶颈是"上下文装不下"时，Gemini 几乎是唯一的答案。

4. 国内第一梯队

DeepSeek-V3：671B MoE 架构，但单次推理只激活很小一部分参数，所以速度极快。真正的杀手锏是价格——API 成本比国际同级模型低一个数量级，高并发数据处理和清洗场景的性价比之王。

python

from openai import OpenAI

# DeepSeek 兼容 OpenAI SDK，切换只需改 base_url 和 key
client = OpenAI(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",  # V3 对应的模型名
    messages=[{"role": "user", "content": "用 Python 实现一个 LRU 缓存"}],
    temperature=0.7
)
print(response.choices[0].message.content)

💡 注意：国内大多数模型（DeepSeek、Qwen、Kimi 等）都兼容 OpenAI SDK 的接口格式，只需替换 base_url 和 api_key，代码几乎零改动。

DeepSeek-R1：纯强化学习训练出来的推理模型，数学和编程逻辑能力对标国际顶尖水平。同时提供基于 LLaMA/Qwen 的蒸馏版本（7B–70B），让不同显存预算的团队都能本地跑起来。

其他值得关注的模型：

Kimi K2.5-Thinking（月之暗面）：超长文本理解 + 实时工具检索
Qwen-Max 2.5（阿里）：中文理解和指令遵循一流
Grok 4（xAI）：实时信息获取与推理兼备

DeepSeek 对行业最大的冲击不是性能本身，而是它证明了一件事：顶级推理能力不必绑定高昂价格。这直接改变了整个市场的定价逻辑。

二、开源模型：可控性是核心价值

开源模型的意义不在于"免费"，而在于可控：数据完全物理隔离、可以全参数微调、可以自由量化和剪枝部署。当你的场景涉及商业机密、合规要求、或者需要深度定制模型行为时，开源是唯一的路。

1. DeepSeek-R1（开源版）

首个真正开源的强推理模型。它把思维链和 RLHF 的研究门槛大幅拉低，让中小团队也能在推理能力上做文章。官方蒸馏版覆盖 7B 到 70B，从一张消费级显卡到多卡集群都能跑。

2. Meta LLaMA 系列

开源生态的事实标准。8B 到 400B+ 的完整参数区间，几乎所有主流推理框架（vLLM、Ollama、llama.cpp）都优先为 LLaMA 做深度优化，社区资源最丰富。如果你选开源模型拿不定主意，LLaMA 永远是最安全的起点——不一定最强，但生态支持最好。

3. Qwen（通义千问）系列

中文开源模型的实际领导者。指令遵循、多语言、代码生成（Qwen-Coder）全面能打。32B/72B 尺寸在中等集群上能很好地平衡硬件消耗和输出质量，是国内企业私有化部署的首选方案。

4. 端侧轻量模型

Microsoft Phi 系列用极小的参数量实现了出色的泛化能力，专为手机、机器人、IoT 等边缘设备设计，支持完全离线运行。在 Multi-Agent 架构中，也适合作为轻量级的验证和分发节点。

三、怎么选：一个实用的决策框架

面对这么多模型，选型的核心逻辑其实很简单——回答三个问题：

问题一：闭源还是开源？

维度	闭源 API	开源本地部署
部署门槛	注册即用	需要 GPU + 推理框架
数据安全	数据经第三方网络	完全物理隔离
可定制性	Prompt / RAG / 有限微调	全参数微调、量化、剪枝
成本模型	按量付费，弹性但与并发绑定	前置硬件投入 + 持续运维

经验法则：先用闭源 API 验证想法，跑通了再评估是否需要迁移到开源自部署。

WARNING

例外情况：如果你的数据涉及医疗记录、金融交易、用户隐私等强合规领域，应从一开始就选择开源本地部署，避免数据经过第三方网络带来的合规风险。

问题二：任务需要什么级别的能力？

简单任务（分类、摘要、格式转换）→ 平价模型足矣（GPT-5 Turbo、Gemini Flash、DeepSeek-V3）
复杂推理（数学、代码架构、多步逻辑）→ 必须用慢思考模型（o 系列、DeepSeek-R1、Deep Think）
超长输入（完整代码库、法律文档、长视频）→ 需要 1M 级上下文（Gemini 3 Pro、Claude Opus 4.6）

问题三：预算怎么分配？

层级	代表模型	适用场景
旗舰层（贵）	Claude Opus 4.6、GPT-5 Pro	关键决策节点，低频高价值调用
性价比层	Claude Sonnet 4.6、GPT-5 Turbo	日常开发、Agent 执行、产品主力
成本极致层	DeepSeek-V3/R1、Gemini Flash	高并发批处理、数据清洗流水线
本地部署	Qwen 72B、DeepSeek-R1 蒸馏版	数据合规、私域场景（需自备 GPU）

显存速查：8B 模型 ≈ 8–12 GB VRAM，70B+ 需多卡并行。

量化部署参考（INT4 量化后）：

7B–8B → 约 4–6 GB VRAM（单张消费级显卡可跑）
14B → 约 8–10 GB VRAM
32B → 约 18–20 GB VRAM
70B → 约 35–40 GB VRAM（通常需双卡）
量化会有约 5%–10% 的精度损失，生产环境建议用 FP16/BF16 + 多卡并行

四、按应用场景选型

三个宏观问题帮你圈定范围，但实际开发时，你需要根据你在做什么和你在哪里部署来选模型。

::: important 国内外差异：OpenAI、Claude、Gemini 的 API 在中国大陆无法直接访问（需代理或中转服务）。如果你的产品面向国内用户或部署在国内服务器，优先选择国内可直连的模型。 :::

RAG（检索增强生成）

环节	🌍 国际方案	🇨🇳 国内方案
Embedding	OpenAI text-embedding-3-large	BGE-M3（开源）/ 通义文本向量
Rerank	Cohere Rerank	BGE-Reranker（开源自部署）
生成模型	Claude Sonnet 4.6 / GPT-5 Turbo	DeepSeek-V3 / Qwen-Max 2.5
全链路低成本	Gemini Flash + BGE-M3	DeepSeek-V3 + BGE-M3

Agent / 工具调用

需求	🌍 国际方案	🇨🇳 国内方案
复杂编排（主脑）	Claude Opus 4.6 / GPT-5 Pro	DeepSeek-R1 / Qwen-Max 2.5
高频执行（工作节点）	Claude Sonnet 4.6	DeepSeek-V3 / Kimi K2.5
Computer Use	Claude Sonnet 4.6	暂无直接替代，需自部署开源方案
开源自部署	Qwen-72B / LLaMA 3	Qwen-72B / DeepSeek-R1 蒸馏

代码生成与重构

场景	🌍 国际方案	🇨🇳 国内方案
日常补全	GPT-5 Turbo / Claude Sonnet 4.6	DeepSeek-Coder-V3 / Qwen-Coder
大型重构	Claude Opus（200K）/ Gemini Pro（1M）	DeepSeek-R1（128K）
本地部署	LLaMA-Code / StarCoder	Qwen-Coder-32B / DeepSeek-Coder

多模态（图像 / 音视频）

场景	🌍 国际方案	🇨🇳 国内方案
图像理解	GPT-5 Turbo / Gemini 3 Pro	Qwen-VL-Max / 通义万相
图像生成	GPT Image 3 / DALL-E 4	通义万相 / 可灵 AI
视频理解	Gemini 3 Pro（小时级输入）	Kimi 多模态 / Qwen-VL
语音对话	GPT-5 Turbo Realtime API	豆包语音大模型 / 讯飞星火

批量数据处理

场景	🌍 国际方案	🇨🇳 国内方案
大规模分类 / 清洗	Gemini Flash / GPT-5 Turbo Batch	DeepSeek-V3（性价比之王）
高质量标注	Claude Sonnet 4.6 Batch API	Qwen-Max 2.5
合成训练数据	GPT-5 + R1 交叉验证	DeepSeek-R1 + Qwen-Max 交叉验证

五、多模型路由：生产环境的最佳实践

真实的生产系统从不只用一个模型——而是根据任务复杂度和部署区域动态路由：

python

def route_model(task: dict, region: str = "cn") -> str:
    """根据任务特征和部署区域选择最优模型"""
    
    # 国际方案
    if region == "global":
        if task["requires_reasoning"]:
            return "deepseek-r1"
        if task["input_tokens"] > 100_000:
            return "gemini-3-pro"
        if task["needs_tool_calling"]:
            return "claude-sonnet-4.6"
        return "gpt-5-turbo"
    
    # 国内方案（直连无需代理）
    if task["requires_reasoning"]:
        return "deepseek-r1"
    if task["input_tokens"] > 100_000:
        return "kimi-k2.5"             # 国内长上下文首选
    if task["needs_tool_calling"]:
        return "deepseek-v3"           # Function Calling 稳定
    if task["is_batch_processing"]:
        return "deepseek-v3"           # 成本最低
    return "qwen-max-2.5"             # 国内通用主力

TIP

成本优化核心策略：用便宜模型做 80% 的简单任务，用贵模型只处理 20% 的关键节点。一个典型的 Agent 系统中，主脑用 R1/Opus 做规划（低频），工作节点用 DeepSeek-V3/Sonnet 做执行（高频），总成本可以降低 60%–80%。

六、场景速查表

🌍 国际部署

你要做什么	用什么	为什么
快速出原型 / 通用对话	Claude Sonnet 4.6 或 GPT-5 Turbo	综合能力强，响应快
啃硬骨头（复杂推理）	Claude Opus 4.6 或 DeepSeek-R1	深度推理顶尖
整个代码库分析	Gemini 3 Pro	百万级上下文
构建 AI Agent	Opus 规划 + Sonnet 执行	分层架构，成本可控
多模态应用	Gemini 3 Pro 或 GPT-5 Turbo	原生多模态

🇨🇳 国内部署

你要做什么	用什么	为什么
快速出原型 / 通用对话	DeepSeek-V3 或 Qwen-Max 2.5	直连、中文强、价格低
啃硬骨头（复杂推理）	DeepSeek-R1	推理能力对标国际顶尖
超长文本 / 代码分析	Kimi K2.5 / DeepSeek-R1（128K）	国内长上下文最佳
大批量中文内容处理	DeepSeek-V3	吞吐高、价格极低
构建 AI Agent	R1 规划 + V3 执行	全栈国内直连
涉及商业机密	Qwen 72B 本地部署	数据不出服务器
多模态应用	Qwen-VL-Max / 通义万相	国内直连、中文优化
语音对话	豆包语音 / 讯飞星火	中文语音识别率高

2.2 主流大模型 ​

一、闭源模型：开箱即用的生产力 ​

1. OpenAI GPT 系列 ​

2. Anthropic Claude 系列 ​

3. Google Gemini 系列 ​

4. 国内第一梯队 ​

二、开源模型：可控性是核心价值 ​

1. DeepSeek-R1（开源版） ​

2. Meta LLaMA 系列 ​

3. Qwen（通义千问）系列 ​

4. 端侧轻量模型 ​

三、怎么选：一个实用的决策框架 ​

问题一：闭源还是开源？ ​

问题二：任务需要什么级别的能力？ ​

问题三：预算怎么分配？ ​

四、按应用场景选型 ​

RAG（检索增强生成） ​

Agent / 工具调用 ​

代码生成与重构 ​

多模态（图像 / 音视频） ​

批量数据处理 ​

五、多模型路由：生产环境的最佳实践 ​

六、场景速查表 ​

🌍 国际部署 ​

🇨🇳 国内部署 ​

2.2 主流大模型

一、闭源模型：开箱即用的生产力

1. OpenAI GPT 系列

2. Anthropic Claude 系列

3. Google Gemini 系列

4. 国内第一梯队

二、开源模型：可控性是核心价值

1. DeepSeek-R1（开源版）

2. Meta LLaMA 系列

3. Qwen（通义千问）系列

4. 端侧轻量模型

三、怎么选：一个实用的决策框架

问题一：闭源还是开源？

问题二：任务需要什么级别的能力？

问题三：预算怎么分配？

四、按应用场景选型

RAG（检索增强生成）

Agent / 工具调用

代码生成与重构

多模态（图像 / 音视频）

批量数据处理

五、多模型路由：生产环境的最佳实践

六、场景速查表

🌍 国际部署

🇨🇳 国内部署