选模型：一份实用决策指南

你打算买一辆车。

走进 4S 店，销售小哥热情地迎上来：“这辆顶配 SUV，V8 发动机、全时四驱、真皮座椅，旗舰中的旗舰！”

你心动了。但冷静想想：你每天的通勤路程只有 10 公里，路况全是城市平路，停车位还特别窄。买一辆油耗惊人的大 SUV，真的合适吗？

选 AI 模型和买车是一个道理。不是最贵的就最好，而是最适合你需求的才最好。

你需要考虑用途（是日常代步还是越野穿越）、预算（月供能承受多少）、油耗（每次调用的成本）、售后（文档和社区支持）。甚至还要想想：我到底需不需要买车？打车是不是更划算？对应到 AI 领域，就是 “我该调用 API 还是自己部署模型”。

这篇文章就是你的选车指南，不过选的是 AI 模型。读完之后，你会有一套清晰的决策框架，面对任何新模型都能快速判断：它适不适合我。

本文要点#

选模型要看五个维度：能力、成本、接口、部署、风险
闭源模型（GPT-4o、Claude、Gemini）上手快但依赖供应商
开源模型（LLaMA、DeepSeek、Qwen）灵活可控但需要运维能力
用决策树快速缩小候选范围，再用实测确认最终选择
实际案例演示从需求分析到模型落地的完整过程

一、选模型要看哪些维度？#

很多人选模型的方式是看排行榜选第一名。这就像根据《Consumer Reports》评分最高来买车，评分最高的可能是一辆百万级跑车，但你只是想买辆买菜车。

一个靠谱的选型，至少要从五个维度综合考量。

1.1 能力边界与适用场景#

每个模型都有自己的能力画像。有的是全科学霸，有的是偏科天才。选型的第一步，是搞清楚你的任务属于哪一类，再看哪些模型在这类任务上表现好。

下面这张表把常见任务分成了五大类：

任务类型	典型场景	代表模型	说明
理解类	文档摘要、情感分析、信息提取	GPT-4o、Claude 3.5 Sonnet	需要精确理解原文语义
生成类	文案撰写、邮件起草、内容创作	GPT-4o、Claude 3.5 Sonnet	需要流畅自然的语言表达
推理类	数学题、逻辑分析、复杂规划	o1/o3、DeepSeek R1	需要多步思考和链式推理
对话类	智能客服、聊天助手、角色扮演	GPT-4o-mini、Qwen 2.5	需要快速响应和上下文连贯
多模态	图片理解、视频分析、语音交互	GPT-4o、Gemini 2.0 Flash	需要处理文字以外的信息

不同模型的能力侧重差异明显：

Claude 3.5 Sonnet：代码能力顶尖，长文档理解出色，200K 上下文窗口
GPT-4o：综合能力最均衡，多模态支持完善，生态最成熟
DeepSeek V3/R1：推理能力强，性价比极高，中文表现优秀
Gemini 2.0/2.5 Pro：超长上下文（1M+ tokens），多模态原生支持
Qwen 2.5：中文理解和生成能力领先，开源可商用

那怎么评估一个模型到底行不行？两条路并行：

看公开基准。常见的评测基准包括 MMLU（综合知识）、HumanEval（代码能力）、MATH（数学推理）、GPQA（研究级问答）等。它们就像模型的高考成绩单，能快速了解基本水平。

建自测集。公开基准是通用考试，但你的业务场景是专业面试。从真实业务中收集 50～100 个典型问题，让候选模型逐一作答，人工评估结果。这比任何排行榜都可靠。

1.2 成本结构与计算#

能力够用之后，第二个要考虑的就是钱。

大模型的计费方式和手机流量类似：按用量收费。具体来说，是按 Token 数量计费：你输入的文字（输入 Token）和模型回复的文字（输出 Token）分别计价。

为什么输出 Token 比输入 Token 贵？回忆上一篇的内容：模型生成每个输出 Token 都需要跑一遍整个 Transformer 网络，而输入 Token 可以并行处理。生成比理解更费算力，所以更贵。

来看几个主流模型的定价（截至 2026 年 3 月）：

模型	输入价格（$/1M tokens）	输出价格（$/1M tokens）	特点
GPT-4o	$2.50	$10.00	综合旗舰
GPT-4o-mini	$0.15	$0.60	轻量高性价比
o1	$15.00	$60.00	深度推理
o3-mini	$1.10	$4.40	推理性价比
Claude 3.5 Sonnet	$3.00	$15.00	代码与长文
Claude 3.5 Haiku	$0.80	$4.00	快速轻量
Gemini 2.0 Flash	$0.10	$0.40	极致性价比
Gemini 2.5 Pro	$1.25	$10.00	综合旗舰
DeepSeek V3	$0.27	$1.10	开源可自部署
DeepSeek R1	$0.55	$2.19	推理模型

光看单价可能没什么感觉。来算两笔实际账。

案例一：智能客服系统

假设每天处理 3,000 次对话，每次对话平均 1,500 输入 Token + 500 输出 Token。

月输入 Token：3,000 × 1,500 × 30 = 1.35 亿
月输出 Token：3,000 × 500 × 30 = 4,500 万

用 GPT-4o： $2.50 × 135 +$ 10.00 × 45 = $337.50 +$ 450.00 = $787.50/月

用 GPT-4o-mini： $0.15 × 135 +$ 0.60 × 45 = $20.25 +$ 27.00 = $47.25/月

差距超过 16 倍。如果客服场景不需要顶级推理能力，用 mini 版本就够了。

案例二：RAG 知识库问答

假设企业内部知识库，每天 500 次查询。因为需要拼接检索到的文档，每次平均 8,000 输入 Token + 1,500 输出 Token。

月输入 Token：5,000 × 30 × 8,000 ÷ 1,000,000 × 500 ÷ 5,000 = … 简化一下
月输入：500 × 8,000 × 30 = 1.2 亿 Token
月输出：500 × 1,500 × 30 = 2,250 万 Token

用 Claude 3.5 Sonnet： $3.00 × 120 +$ 15.00 × 22.5 = $360 +$ 337.50 = $697.50/月

用 DeepSeek V3（API）： $0.27 × 120 +$ 1.10 × 22.5 = $32.40 +$ 24.75 = $57.15/月

差距超过 12 倍。当然，Claude 的回答质量可能更高，这就需要在质量和成本之间做权衡。

开源 vs 闭源的 TCO（总拥有成本）对比

闭源模型按调用量付费，成本随用量线性增长。开源模型前期投入大（服务器、显卡、运维人力），但边际成本低。

一条粗略的经验法则：当月调用量超过 10 亿 Token 时，自部署开源模型的成本优势开始显现。 低于这个量级，用 API 更省心也更省钱。

还有一个省钱技巧值得了解：Prompt Caching（提示缓存）。如果你的请求中有大量重复的前缀（比如系统提示词、RAG 中的通用指令），很多 API 提供商会自动缓存这部分内容，缓存命中时费用低 50%～90%。用好这个机制，能显著降低成本。

1.3 接口友好度#

模型再强，如果 API 难用、文档混乱、SDK 有 bug，开发体验也会很痛苦。这就像买车不能只看发动机，还得看操控、内饰和车机系统。

评估接口友好度的四个方面：

API 设计与 SDK 质量。OpenAI 的 API 设计已经成为事实标准，大多数模型都兼容其格式。但细节上的差异仍然存在：错误处理是否清晰、重试机制是否完善、并发限制是否合理。

文档完善程度与社区生态。OpenAI 和 Anthropic 的文档质量最高，示例丰富，更新及时。DeepSeek 和 Qwen 的社区在中文世界非常活跃，中文文档和教程很多。

结构化输出支持。当你需要模型返回固定格式的 JSON，而不是自由文本时，结构化输出能力就很重要了。目前主流方案包括：

JSON Mode：强制模型输出合法的 JSON
Tool Use / Function Calling：让模型调用预定义的函数接口
Structured Outputs：OpenAI 提供的更严格的 JSON Schema 约束

这些能力在构建 AI 应用时非常关键。一个不支持结构化输出的模型，你就得自己写大量的解析和容错代码。

流式响应与延迟表现。用户体验不仅取决于回答质量，还取决于等待时间。流式响应（Streaming）让模型像打字一样逐字输出，而不是等全部生成完再一次性返回。首 Token 延迟（Time to First Token，TTFT）是衡量体验的关键指标：用户在按下回车后多久能看到第一个字。

模型	首 Token 延迟（典型值）	流式支持
GPT-4o	0.3～0.8s	完善
GPT-4o-mini	0.2～0.5s	完善
Claude 3.5 Sonnet	0.5～1.2s	完善
Gemini 2.0 Flash	0.2～0.5s	完善
DeepSeek V3	0.3～0.8s	完善

1.4 部署与隐私#

有些场景下，数据不能离开公司。比如医疗机构的患者信息、金融公司的交易数据、政府部门的机密文件。这时候，部署模式就成了选型的核心考量。

四种主要的部署模式：

部署模式	数据位置	成本	运维复杂度	适用场景
API 调用	供应商服务器	按量付费，门槛低	几乎为零	数据不敏感的通用场景
私有云部署	自有服务器	高（硬件 + 运维）	高	强合规要求的企业
混合部署	敏感数据本地，其余云端	中等	中等	需要平衡安全与成本
边缘部署	终端设备（手机、PC）	低（利用端侧算力）	低	离线场景、低延迟需求

如果你选择私有部署，需要关注硬件需求。不同规模的模型对显存的要求差异巨大：

模型规模	FP16 显存需求	INT8 显存需求	INT4 显存需求	推荐 GPU
7B	14 GB	7 GB	4 GB	1× RTX 4090
13B	26 GB	13 GB	7 GB	1× A100 40G
70B	140 GB	70 GB	35 GB	2× A100 80G
405B	810 GB	405 GB	203 GB	8× A100 80G

上一篇讲过，量化就是用更低精度的数字来近似表示模型参数。FP16 → INT8 几乎不损失质量，INT4 在大多数场景下也够用。

主流的推理框架（用来运行模型的软件）有四个：

vLLM：高吞吐量推理框架，支持 PagedAttention，适合大规模在线服务
TensorRT-LLM：NVIDIA 官方优化框架，在 NVIDIA GPU 上性能最佳
llama.cpp：纯 C/C++ 实现，支持 CPU 推理，适合边缘部署和个人使用
Ollama：基于 llama.cpp 的一键部署工具，对个人用户最友好

1.5 风险管理#

选模型不只是技术决策，也是业务决策。你需要像管理供应链一样管理模型依赖。

供应商锁定。如果你的整个系统深度绑定某一家的 API，当它涨价、限流、或者停止服务时怎么办？应对策略：

在代码中设计一个模型抽象层，让上层业务和底层模型解耦
至少准备两家供应商作为备选
避免使用深度绑定特定供应商的非标准功能

可用性风险。任何云服务都可能宕机。建议设计 fallback 机制：主力模型不可用时自动切换到备用模型。比如主力用 Claude 3.5 Sonnet，备用用 GPT-4o，兜底用 GPT-4o-mini。

合规要求。不同行业有不同的数据主权和监管要求：

医疗行业需要符合 HIPAA 标准
金融行业需要满足数据本地化要求
在中国运营需要遵守《生成式人工智能服务管理暂行办法》

安全审计。在生产环境中使用大模型，需要关注提示注入（Prompt Injection）攻击、数据泄露风险、输出内容的安全过滤等。选择有完善安全机制的供应商，或在自部署时加入安全防护层。

二、主流模型一览（截至 2026 年 3 月）#

了解了选型维度，来看看货架上都有什么。

2.1 闭源模型#

闭源模型由商业公司运营，通过 API 提供服务。你不需要操心部署和运维，只管调用就行。

OpenAI

模型	定位	输入价格	输出价格	上下文窗口	亮点
GPT-4o	综合旗舰	$2.50/1M	$10.00/1M	128K	多模态、综合最强
GPT-4o-mini	轻量快速	$0.15/1M	$0.60/1M	128K	性价比极高
o1	深度推理	$15.00/1M	$60.00/1M	200K	复杂推理链
o3-mini	推理性价比	$1.10/1M	$4.40/1M	200K	推理任务的日常之选

OpenAI 是行业标准制定者。它的 API 格式被大量第三方兼容，生态最成熟。o1 和 o3 系列引入了推理时计算（test-time compute）的概念：让模型在回答前多想一会儿，用更多的计算换取更好的推理结果。

Anthropic

模型	定位	输入价格	输出价格	上下文窗口	亮点
Claude 3.5 Sonnet	代码与长文	$3.00/1M	$15.00/1M	200K	代码能力顶尖
Claude 3.5 Haiku	快速轻量	$0.80/1M	$4.00/1M	200K	低延迟、低成本

Claude 的代码能力在多个基准测试中名列前茅，尤其擅长理解大型代码库和生成高质量代码。200K 的上下文窗口意味着你可以把一整个中型项目的代码丢进去让它分析。

Google

模型	定位	输入价格	输出价格	上下文窗口	亮点
Gemini 2.0 Flash	快速多模态	$0.10/1M	$0.40/1M	1M	极致性价比
Gemini 2.5 Pro	综合旗舰	$1.25/1M	$10.00/1M	1M+	超长上下文

Gemini 系列的核心优势是超长上下文。当你需要一次性处理几十万字的文档、分析整个代码仓库、或者理解长达数小时的视频时，Gemini 是目前最好的选择之一。Flash 版本的定价更是极其激进。

2.2 开源模型#

开源模型的代码和权重公开，你可以自由下载、部署、甚至修改。就像买车和租车的区别：买车前期投入大，但长期使用更灵活。

Meta LLaMA 系列

LLaMA 3.1：提供 8B、70B、405B 三个规格。405B 是目前最大的开源模型之一，综合能力接近 GPT-4
LLaMA 3.2：新增多模态能力（支持图像理解），还有 1B 和 3B 的轻量版本，可以在手机上运行

LLaMA 的最大优势是社区生态。全球数以万计的开发者基于 LLaMA 做微调、写工具、搞研究，社区资源极其丰富。

DeepSeek 系列

DeepSeek V3：671B 参数的 MoE（混合专家）架构，但每次推理只激活 37B 参数。训练成本仅 $558 万，不到 GPT-4 训练成本的十分之一。性能却接近 GPT-4o
DeepSeek R1：推理专用模型，采用强化学习训练，在数学和代码推理任务上表现极强

DeepSeek 用极低的成本达到了接近顶尖的性能，重新定义了大模型的性价比天花板。它的 MoE 架构值得单独说一句：想象一个公司有 671 个员工（参数），但每个任务只需要 37 个人协作完成。这样既保持了整体能力，又大幅降低了运行成本。

Qwen（通义千问）系列

Qwen 2.5：提供 7B 和 72B 版本，中文理解和生成能力在开源模型中领先
Qwen 2.5-Coder：代码专用版本，在代码生成、代码补全、代码解释等任务上表现优异

Qwen 的核心优势是中文能力。如果你的应用主要面向中文用户，Qwen 是目前最值得考虑的开源选项。

开源选型速记

中文场景优先 → Qwen 2.5
全球社区和生态 → LLaMA 3.1/3.2
极致性价比 → DeepSeek V3
代码专用 → Qwen 2.5-Coder 或 DeepSeek-Coder

2.3 专用模型#

除了通用大模型，还有一些针对特定任务优化的专科医生。

代码专用模型

Qwen 2.5-Coder：在 HumanEval 等代码基准上表现顶尖
DeepSeek-Coder：深度优化代码生成、补全和调试能力

这些模型在代码任务上往往优于同等规模的通用模型。如果你的场景纯粹是代码相关，选专用模型更划算。

端侧模型

Phi-3/3.5（Microsoft）：3.8B 参数，小巧但聪明，适合端侧部署
Gemma 2（Google）：2B/9B/27B，专为端侧和研究优化
LLaMA 3.2 1B/3B：Meta 的端侧方案，可在手机上运行

端侧模型的应用场景包括：离线使用、低延迟响应、隐私敏感场景。性能自然无法和大模型比，但够用就行。

2.4 选型速查表#

当你快速筛选候选模型时，可以参考这张表：

需求	首选推荐	备选
最强推理	o1/o3、DeepSeek R1	Gemini 2.5 Pro
最强代码	Claude 3.5 Sonnet、Qwen-Coder	DeepSeek-Coder
最长上下文	Gemini 2.5 Pro（1M+）	Claude 3.5 Sonnet（200K）
最佳性价比（闭源）	GPT-4o-mini、Gemini 2.0 Flash	DeepSeek V3 API
最佳性价比（开源）	DeepSeek V3	Qwen 2.5 72B
私有部署首选	LLaMA 3.1 70B、Qwen 2.5 72B	DeepSeek V3
端侧部署	Phi-3.5、LLaMA 3.2 3B	Gemma 2 2B
中文最优	Qwen 2.5	DeepSeek V3
多模态	GPT-4o、Gemini 2.0 Flash	LLaMA 3.2（开源）

三、决策树：五个问题选定模型#

理论讲了一大堆，实际操作中怎么快速决策？我设计了一棵决策树，五个问题帮你锁定方向。

flowchart TD Q1{"Q1: 数据能否 离开本地？"} Q1 -->|不能| OS[开源模型自部署] Q1 -->|能| Q2 Q2{"Q2: 是否需要 深度推理？"} Q2 -->|是| R1["o1/o3 · DeepSeek R1"] Q2 -->|否| Q3 Q3{"Q3: 是否需要处理 超长文档？"} Q3 -->|是| R2["Gemini 2.5 Pro · Claude 200K"] Q3 -->|否| Q4 Q4{"Q4: 是否需要 多模态能力？"} Q4 -->|是| R3["GPT-4o · Gemini 2.0 Flash"] Q4 -->|否| Q5 Q5{"Q5: 预算水平？"} Q5 -->|充裕| R4["GPT-4o · Claude 3.5 Sonnet"] Q5 -->|适中| R5["GPT-4o-mini · DeepSeek V3"] Q5 -->|紧张| R6["Gemini Flash · 开源自部署"] OS --> OS1{"模型规模选择"} OS1 -->|"7B-13B（低资源）"| OS2["Qwen 2.5 7B · LLaMA 3.1 8B"] OS1 -->|"70B+（高性能）"| OS3["Qwen 2.5 72B · LLaMA 3.1 70B · DeepSeek V3"]

这棵树不是唯一正确的路径，而是帮你快速收窄范围。最终选择还需要在候选模型上跑你自己的测试集来验证。

四、五个实战案例#

纸上得来终觉浅。用五个真实场景，走一遍从需求分析到选型落地的全过程。

4.1 案例一：智能客服系统#

需求分析

一家电商公司想搭建智能客服，处理常见的售前咨询和售后问题。

日均对话量：5,000 次
对话特点：问题模式重复度高、需要多轮交互、偶尔需要查询订单系统
响应要求：首 Token 延迟 < 1 秒
预算：月预算 $500 以内

沿着决策树走

Q1：数据能否离开本地？→ 能（非敏感的电商对话）
Q2：需要深度推理？→ 否（大部分是模式化问答）
Q3：需要超长文档？→ 否（单次对话上下文不超过 4K Token）
Q4：需要多模态？→ 否（纯文本交互）
Q5：预算？→ 紧张

选型决策

主力模型：GPT-4o-mini。原因：性价比极高、响应快、对话能力够用。

月成本估算：5,000 × 30 天 × (1,500 输入 + 500 输出) = 月 3 亿 Token。GPT-4o-mini 价格： $0.15 × 225 +$ 0.60 × 75 = $33.75 +$ 45.00 = $78.75/月，远低于预算。

备用方案：Gemini 2.0 Flash（价格更低），兜底方案：预设 FAQ 模板。

架构要点

用 RAG 接入商品知识库和订单系统
设计 Function Calling 让模型查询订单状态
对复杂问题设置转人工规则
实现多模型 fallback：GPT-4o-mini → Gemini Flash → FAQ 模板

4.2 案例二：代码辅助工具#

需求分析

一个开发团队想在内部 IDE 中集成 AI 代码助手。

用户规模：50 名开发者
主要用途：代码补全、代码审查、Bug 定位、重构建议
代码语言：Python、Go、TypeScript 为主
安全要求：源代码不能发送到外部服务

选型决策

因为源代码不能离开本地，只能选开源模型自部署。

主力模型：Qwen 2.5-Coder 32B（INT8 量化）。原因：代码能力顶尖，中文注释和文档支持好。

硬件方案：2× A100 40G 或等效显卡，INT8 量化后约 32 GB 显存。

推理框架：vLLM，支持高并发场景。

备用模型：DeepSeek-Coder 33B，用于 A/B 测试对比效果。

4.3 案例三：企业知识库#

需求分析

一家咨询公司想让员工能自然语言查询内部知识库（数万篇报告和文档）。

文档量：约 50,000 篇，总计超过 1 亿字
查询特点：需要精准引用原文、支持跨文档汇总
安全要求：部分报告涉及客户机密
准确性要求：高（不能胡说八道）

选型决策

采用混合部署策略：

检索层：自建向量数据库（Milvus/Qdrant），文档不离开本地
生成层：调用 Claude 3.5 Sonnet API。原因：长文档理解能力强、回答质量高、200K 上下文支持大段引用

对于涉密报告，使用本地部署的 Qwen 2.5 72B 作为替代。通过路由层根据文档密级自动选择模型。

月成本估算：非涉密查询 300 次/天，Claude 3.5 Sonnet 约 $400/月；涉密查询 200 次/天，自部署成本固定。

4.4 案例四：数据分析 Agent#

需求分析

一家零售公司的数据分析师希望用自然语言查询数据，不用写 SQL。

数据源：MySQL 数据库，十几张核心业务表
典型查询：上个月华东区销售额 top 10 的产品是什么对比 Q3 和 Q4 的退货率变化
输出形式：SQL 查询 + 结果解读 + 可视化建议
准确性要求：SQL 必须正确、不能凭空捏造数据

选型决策

主力模型：GPT-4o。原因：Function Calling 能力成熟，SQL 生成准确率高，综合推理强。

架构设计：模型不直接访问数据库。它通过 Function Calling 生成 SQL，由中间层执行查询，将结果返回给模型做解读。这样既保证了安全性，又给了模型使用工具的能力。

月成本估算：日均 200 次查询，每次约 3,000 输入 + 1,000 输出 Token。月成本约 $60，可接受。

备用模型：o3-mini（遇到复杂推理查询时升级使用）。

4.5 案例五：多模态内容生成#

需求分析

一家自媒体工作室想用 AI 辅助内容创作：根据文章自动生成配图描述、根据图片生成社交媒体文案、从视频中提取关键信息。

输入类型：文本、图片、视频
输出类型：文本（文案、摘要、脚本）
日均处理量：100 个内容任务
预算：月预算 $200

选型决策

主力模型：Gemini 2.0 Flash。原因：原生多模态支持（文本、图片、视频）、价格极低、响应快。

月成本估算：每个任务平均 5,000 输入 + 1,000 输出 Token（图片和视频按等价 Token 计算）。月成本： $0.10 × 15 +$ 0.40 × 3 = $1.50 +$ 1.20 = $2.70/月。预算绰绰有余。

备用方案：对于需要高质量文案的场景，升级使用 GPT-4o。

图解：模型选型全景#

把上面的内容浓缩成一张图。当你站在选型的十字路口时，按这个流程走：

flowchart LR A["明确需求"] --> B["确定约束"] B --> C["初筛候选"] C --> D["成本估算"] D --> E["实测验证"] E --> F["架构设计"] F --> G["上线监控"] A -.- A1["任务类型 性能要求 调用量级"] B -.- B1["数据安全 合规要求 预算上限"] C -.- C1["用决策树 缩小范围 到 2-3 个"] D -.- D1["Token 用量 月度成本 TCO 分析"] E -.- E1["自建测试集 质量评估 延迟测试"] F -.- F1["多模型 fallback 抽象层设计 缓存策略"] G -.- G1["质量监控 成本告警 定期复评"]

FAQ#

4.6 应该用闭源还是开源模型？#

没有绝对的对错，取决于你的具体情况。闭源模型适合：团队没有 GPU 资源、追求快速上线、对运维不想操心。开源模型适合：有数据安全要求、调用量极大（超过 10 亿 Token/月）、需要深度定制（微调）。很多团队的最佳策略是混合使用：主力业务用闭源 API 快速上线，敏感场景用开源模型私有部署。

4.7 DeepSeek V3 真的能媲美 GPT-4 吗？#

在很多基准测试上，DeepSeek V3 的得分确实接近甚至超过 GPT-4。但基准测试和实际体验之间总有差距。DeepSeek V3 在中文理解、代码生成、数学推理上表现优异。但在复杂的多轮对话、细腻的指令遵循、以及英文创意写作上，GPT-4o 和 Claude 仍有优势。建议：别看排行榜下结论，用你自己的真实场景做 A/B 测试。

4.8 如何评估一个模型适不适合我的场景？#

三步走：第一步，从你的真实业务中收集 50～100 个典型输入输出样本，作为测试集。第二步，用这个测试集分别跑候选模型，记录每条结果的质量评分（可以用 1～5 分的人工评分）。第三步，综合质量评分、响应速度、成本三个维度做加权打分。这个过程大约需要 1～2 天，但能省去后续反复换模型的巨大成本。

4.9 用多个模型会不会更好？#

会。这种策略叫做模型路由（Model Routing）。核心思路是：简单任务用便宜的小模型，复杂任务用强大的大模型。比如，80% 的客服对话用 GPT-4o-mini 处理，只有检测到复杂问题时才升级到 GPT-4o。这样既保证了服务质量，又大幅降低了整体成本。实现方式可以是基于规则的路由（关键词匹配、问题长度）或者基于模型的路由（用一个小模型判断问题难度）。

4.10 模型更新很快，选型会不会很快过时？#

确实，大模型领域半年一个样。但好的选型策略本身不会过时。关键是在架构设计上留足灵活性：用模型抽象层解耦业务代码和具体模型、保持标准化的评测流程、定期（每季度）用测试集复评当前模型和新模型。这样当更好的模型出现时，你可以在几天内完成迁移，而不是重写整个系统。把选型当作持续过程而非一次性决策。

小结#

回顾这篇文章的核心内容。

选模型就像买车，关键是合适而不是最好。你需要从五个维度做系统评估：

能力边界：这个模型擅长做什么？用任务矩阵和测试集来验证
成本结构：Token 计费怎么算？月支出能不能接受？
接口友好度：API 好不好用？文档全不全？结构化输出支持如何？
部署与隐私：数据能不能出门？需要什么硬件？
风险管理：供应商挂了怎么办？合规要求满足了吗？

用决策树快速缩小范围，再用实测确认选择。在架构上做好三件事：模型抽象层、多模型 fallback、定期复评。

记住一句话：选型不是一锤子买卖，而是一个持续优化的过程。 今天的最优选择，三个月后可能就不是了。保持灵活性，比选对某个模型更重要。

下篇预告#

模型选好了，接下来的问题是：怎么跟它对话，才能得到最好的回答？

同样一个模型，不同的提问方式，输出质量可能天差地别。有人用 GPT-4o 写出了惊艳的方案，有人用同样的模型只得到了敷衍的回复。区别在哪？在于提示工程（Prompt Engineering）。

参考资料#

API Pricing - OpenAI 官方定价页面
Claude Models Overview - Claude 模型文档
Gemini API Pricing - Gemini 定价与模型能力说明
DeepSeek-V3 Technical Report - DeepSeek, 2024, DeepSeek V3 的技术报告，详细介绍了 MoE 架构
Llama 3.1 Model Card - LLaMA 3.1 官方文档
Qwen2.5 Technical Report - Alibaba, 2024, Qwen 2.5 技术报告
Measuring Massive Multitask Language Understanding - Hendrycks, D. et al, 2020, MMLU 基准测试的原始论文
Evaluating Large Language Models Trained on Code - Chen, M. et al, 2021, HumanEval 代码评测基准
Efficient Memory Management for Large Language Model Serving with PagedAttention - Kwon, W. et al, 2023, vLLM 的核心论文

本文要点#

一、选模型要看哪些维度？#

1.1 能力边界与适用场景#

1.2 成本结构与计算#

1.3 接口友好度#

1.4 部署与隐私#

1.5 风险管理#

二、主流模型一览（截至 2026 年 3 月）#

2.1 闭源模型#

2.2 开源模型#

2.3 专用模型#

2.4 选型速查表#

三、决策树：五个问题选定模型#

四、五个实战案例#

4.1 案例一：智能客服系统#

4.2 案例二：代码辅助工具#

4.3 案例三：企业知识库#

4.4 案例四：数据分析 Agent#

4.5 案例五：多模态内容生成#

图解：模型选型全景#

FAQ#

4.6 应该用闭源还是开源模型？#

4.7 DeepSeek V3 真的能媲美 GPT-4 吗？#

4.8 如何评估一个模型适不适合我的场景？#

4.9 用多个模型会不会更好？#

4.10 模型更新很快，选型会不会很快过时？#

小结#

下篇预告#

参考资料#

支持与分享