Skip to content

2.2 主流大模型

2026 年,大模型竞争的主轴已经从"谁的参数多"变成了"谁在特定任务上又快又准又便宜"。MoE 架构全面铺开,原生多模态成为标配,而 Agent 能力——即模型自主使用工具、规划步骤、完成复杂任务的能力——正在重新定义"好模型"的标准。

作为开发者,你不需要记住每个模型的 benchmark 分数,但你必须搞清楚三件事:它擅长什么、它要花多少钱、它的上下文能吃多少。本节围绕这三个问题展开。


一、闭源模型:开箱即用的生产力

闭源模型的价值很直接——注册、拿 key、调 API,几分钟内就能跑通一个原型。你不需要操心 GPU、不需要配推理框架,把精力全部放在产品逻辑上。代价是数据经过第三方网络,且定价权不在你手里。

1. OpenAI GPT 系列

GPT-5 Turbo 是 OpenAI 的通用主力。稀疏 MoE 架构让它在保持强大综合能力的同时响应速度很快,文本、图像、音视频原生融合,绝大多数产品场景用它就够了。

o 系列(GPT-5 Pro) 走的是另一条路——慢思考(Slow Thinking)。它不追求响应速度,而是在推理深度上下功夫,适合数学证明、科学计算、多步逻辑链这类需要"想清楚再说"的任务。

ChatGPT Agent 是 OpenAI 的官方 Agent 框架,支持百万级上下文下的工具编排,可以让模型自主完成多步骤的复杂工作流。

python
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

response = client.chat.completions.create(
    model="gpt-5-turbo",
    messages=[{"role": "user", "content": "帮我用 asyncio 重构这段代码"}],
    temperature=0.7
)
print(response.choices[0].message.content)

2. Anthropic Claude 系列

Claude Opus 4.6 是代码能力和长文处理的标杆。1M token 的超长上下文配合上下文压缩技术,让它在大型代码库重构、跨文件 Bug 追踪等工程任务上表现极为突出。如果你的任务需要"一个最聪明的大脑做最终判断",Opus 是首选。

Claude Sonnet 4.6 能力接近 Opus,但在 Agent 场景上做了专门强化——Computer Use(直接操作电脑界面)和自主规划能力全面增强,调用成本却低得多。在需要模型高频执行、反复调用的 Agent 工作流中,Sonnet 的性价比无人能敌。

一句话总结:Opus 做决策,Sonnet 做执行。

3. Google Gemini 系列

Gemini 3 Pro / 3.1 Pro 的核心卖点是上下文窗口——原生支持百万 Token 输入。这意味着你可以把多个完整代码仓库、几小时的视频、或者一整套法律文档一次性喂进去,不需要做分块和检索。内置的 Deep Think 模式在大型系统架构分析上也很有竞争力。

Gemini 3 Flash 是轻量极速版,为高并发批处理而生,适合放在流水线里做高频调用节点。

当你的瓶颈是"上下文装不下"时,Gemini 几乎是唯一的答案。

4. 国内第一梯队

DeepSeek-V3:671B MoE 架构,但单次推理只激活很小一部分参数,所以速度极快。真正的杀手锏是价格——API 成本比国际同级模型低一个数量级,高并发数据处理和清洗场景的性价比之王。

python
from openai import OpenAI

# DeepSeek 兼容 OpenAI SDK,切换只需改 base_url 和 key
client = OpenAI(
    api_key="your-deepseek-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-chat",  # V3 对应的模型名
    messages=[{"role": "user", "content": "用 Python 实现一个 LRU 缓存"}],
    temperature=0.7
)
print(response.choices[0].message.content)

💡 注意:国内大多数模型(DeepSeek、Qwen、Kimi 等)都兼容 OpenAI SDK 的接口格式,只需替换 base_urlapi_key,代码几乎零改动。

DeepSeek-R1:纯强化学习训练出来的推理模型,数学和编程逻辑能力对标国际顶尖水平。同时提供基于 LLaMA/Qwen 的蒸馏版本(7B–70B),让不同显存预算的团队都能本地跑起来。

其他值得关注的模型

  • Kimi K2.5-Thinking(月之暗面):超长文本理解 + 实时工具检索
  • Qwen-Max 2.5(阿里):中文理解和指令遵循一流
  • Grok 4(xAI):实时信息获取与推理兼备

DeepSeek 对行业最大的冲击不是性能本身,而是它证明了一件事:顶级推理能力不必绑定高昂价格。这直接改变了整个市场的定价逻辑。


二、开源模型:可控性是核心价值

开源模型的意义不在于"免费",而在于可控:数据完全物理隔离、可以全参数微调、可以自由量化和剪枝部署。当你的场景涉及商业机密、合规要求、或者需要深度定制模型行为时,开源是唯一的路。

1. DeepSeek-R1(开源版)

首个真正开源的强推理模型。它把思维链和 RLHF 的研究门槛大幅拉低,让中小团队也能在推理能力上做文章。官方蒸馏版覆盖 7B 到 70B,从一张消费级显卡到多卡集群都能跑。

2. Meta LLaMA 系列

开源生态的事实标准。8B 到 400B+ 的完整参数区间,几乎所有主流推理框架(vLLM、Ollama、llama.cpp)都优先为 LLaMA 做深度优化,社区资源最丰富。如果你选开源模型拿不定主意,LLaMA 永远是最安全的起点——不一定最强,但生态支持最好。

3. Qwen(通义千问)系列

中文开源模型的实际领导者。指令遵循、多语言、代码生成(Qwen-Coder)全面能打。32B/72B 尺寸在中等集群上能很好地平衡硬件消耗和输出质量,是国内企业私有化部署的首选方案。

4. 端侧轻量模型

Microsoft Phi 系列用极小的参数量实现了出色的泛化能力,专为手机、机器人、IoT 等边缘设备设计,支持完全离线运行。在 Multi-Agent 架构中,也适合作为轻量级的验证和分发节点。


三、怎么选:一个实用的决策框架

面对这么多模型,选型的核心逻辑其实很简单——回答三个问题:

问题一:闭源还是开源?

维度闭源 API开源本地部署
部署门槛注册即用需要 GPU + 推理框架
数据安全数据经第三方网络完全物理隔离
可定制性Prompt / RAG / 有限微调全参数微调、量化、剪枝
成本模型按量付费,弹性但与并发绑定前置硬件投入 + 持续运维

经验法则:先用闭源 API 验证想法,跑通了再评估是否需要迁移到开源自部署。

WARNING

例外情况:如果你的数据涉及医疗记录、金融交易、用户隐私等强合规领域,应从一开始就选择开源本地部署,避免数据经过第三方网络带来的合规风险。

问题二:任务需要什么级别的能力?

  • 简单任务(分类、摘要、格式转换)→ 平价模型足矣(GPT-5 Turbo、Gemini Flash、DeepSeek-V3)
  • 复杂推理(数学、代码架构、多步逻辑)→ 必须用慢思考模型(o 系列、DeepSeek-R1、Deep Think)
  • 超长输入(完整代码库、法律文档、长视频)→ 需要 1M 级上下文(Gemini 3 Pro、Claude Opus 4.6)

问题三:预算怎么分配?

层级代表模型适用场景
旗舰层(贵)Claude Opus 4.6、GPT-5 Pro关键决策节点,低频高价值调用
性价比层Claude Sonnet 4.6、GPT-5 Turbo日常开发、Agent 执行、产品主力
成本极致层DeepSeek-V3/R1、Gemini Flash高并发批处理、数据清洗流水线
本地部署Qwen 72B、DeepSeek-R1 蒸馏版数据合规、私域场景(需自备 GPU)

显存速查:8B 模型 ≈ 8–12 GB VRAM,70B+ 需多卡并行。

量化部署参考(INT4 量化后):

  • 7B–8B → 约 4–6 GB VRAM(单张消费级显卡可跑)
  • 14B → 约 8–10 GB VRAM
  • 32B → 约 18–20 GB VRAM
  • 70B → 约 35–40 GB VRAM(通常需双卡)
  • 量化会有约 5%–10% 的精度损失,生产环境建议用 FP16/BF16 + 多卡并行

四、按应用场景选型

三个宏观问题帮你圈定范围,但实际开发时,你需要根据你在做什么你在哪里部署来选模型。

::: important 国内外差异:OpenAI、Claude、Gemini 的 API 在中国大陆无法直接访问(需代理或中转服务)。如果你的产品面向国内用户或部署在国内服务器,优先选择国内可直连的模型。 :::

RAG(检索增强生成)

环节🌍 国际方案🇨🇳 国内方案
EmbeddingOpenAI text-embedding-3-largeBGE-M3(开源)/ 通义文本向量
RerankCohere RerankBGE-Reranker(开源自部署)
生成模型Claude Sonnet 4.6 / GPT-5 TurboDeepSeek-V3 / Qwen-Max 2.5
全链路低成本Gemini Flash + BGE-M3DeepSeek-V3 + BGE-M3

Agent / 工具调用

需求🌍 国际方案🇨🇳 国内方案
复杂编排(主脑)Claude Opus 4.6 / GPT-5 ProDeepSeek-R1 / Qwen-Max 2.5
高频执行(工作节点)Claude Sonnet 4.6DeepSeek-V3 / Kimi K2.5
Computer UseClaude Sonnet 4.6暂无直接替代,需自部署开源方案
开源自部署Qwen-72B / LLaMA 3Qwen-72B / DeepSeek-R1 蒸馏

代码生成与重构

场景🌍 国际方案🇨🇳 国内方案
日常补全GPT-5 Turbo / Claude Sonnet 4.6DeepSeek-Coder-V3 / Qwen-Coder
大型重构Claude Opus(200K)/ Gemini Pro(1M)DeepSeek-R1(128K)
本地部署LLaMA-Code / StarCoderQwen-Coder-32B / DeepSeek-Coder

多模态(图像 / 音视频)

场景🌍 国际方案🇨🇳 国内方案
图像理解GPT-5 Turbo / Gemini 3 ProQwen-VL-Max / 通义万相
图像生成GPT Image 3 / DALL-E 4通义万相 / 可灵 AI
视频理解Gemini 3 Pro(小时级输入)Kimi 多模态 / Qwen-VL
语音对话GPT-5 Turbo Realtime API豆包语音大模型 / 讯飞星火

批量数据处理

场景🌍 国际方案🇨🇳 国内方案
大规模分类 / 清洗Gemini Flash / GPT-5 Turbo BatchDeepSeek-V3(性价比之王)
高质量标注Claude Sonnet 4.6 Batch APIQwen-Max 2.5
合成训练数据GPT-5 + R1 交叉验证DeepSeek-R1 + Qwen-Max 交叉验证

五、多模型路由:生产环境的最佳实践

真实的生产系统从不只用一个模型——而是根据任务复杂度和部署区域动态路由:

python
def route_model(task: dict, region: str = "cn") -> str:
    """根据任务特征和部署区域选择最优模型"""
    
    # 国际方案
    if region == "global":
        if task["requires_reasoning"]:
            return "deepseek-r1"
        if task["input_tokens"] > 100_000:
            return "gemini-3-pro"
        if task["needs_tool_calling"]:
            return "claude-sonnet-4.6"
        return "gpt-5-turbo"
    
    # 国内方案(直连无需代理)
    if task["requires_reasoning"]:
        return "deepseek-r1"
    if task["input_tokens"] > 100_000:
        return "kimi-k2.5"             # 国内长上下文首选
    if task["needs_tool_calling"]:
        return "deepseek-v3"           # Function Calling 稳定
    if task["is_batch_processing"]:
        return "deepseek-v3"           # 成本最低
    return "qwen-max-2.5"             # 国内通用主力

TIP

成本优化核心策略:用便宜模型做 80% 的简单任务,用贵模型只处理 20% 的关键节点。一个典型的 Agent 系统中,主脑用 R1/Opus 做规划(低频),工作节点用 DeepSeek-V3/Sonnet 做执行(高频),总成本可以降低 60%–80%。


六、场景速查表

🌍 国际部署

你要做什么用什么为什么
快速出原型 / 通用对话Claude Sonnet 4.6 或 GPT-5 Turbo综合能力强,响应快
啃硬骨头(复杂推理)Claude Opus 4.6 或 DeepSeek-R1深度推理顶尖
整个代码库分析Gemini 3 Pro百万级上下文
构建 AI AgentOpus 规划 + Sonnet 执行分层架构,成本可控
多模态应用Gemini 3 Pro 或 GPT-5 Turbo原生多模态

🇨🇳 国内部署

你要做什么用什么为什么
快速出原型 / 通用对话DeepSeek-V3 或 Qwen-Max 2.5直连、中文强、价格低
啃硬骨头(复杂推理)DeepSeek-R1推理能力对标国际顶尖
超长文本 / 代码分析Kimi K2.5 / DeepSeek-R1(128K)国内长上下文最佳
大批量中文内容处理DeepSeek-V3吞吐高、价格极低
构建 AI AgentR1 规划 + V3 执行全栈国内直连
涉及商业机密Qwen 72B 本地部署数据不出服务器
多模态应用Qwen-VL-Max / 通义万相国内直连、中文优化
语音对话豆包语音 / 讯飞星火中文语音识别率高

坚持是一种品格