算清大模型成本：Token 计费与省钱技巧

小王是个创业者，用 AI 做了个客服机器人。

第一个月，用户反馈很好，他很高兴。第二个月，收到 API 账单——$3000。

他傻眼了：“怎么这么贵？我这 1000 个用户，每人就聊了几分钟啊？”

问题出在哪？他用的是 GPT-4，每次对话塞进去整个知识库文档，输出也很长。同样功能，换成 GPT-4o-mini+Prompt Caching，成本可能只要$50。

这篇文章教你算清大模型成本，以及如何把钱省下来。

本文要点#

Token 计费的两个维度：输入与输出
实际成本计算公式和真实案例
开源 vs 闭源的真实成本对比
六个实用省钱技巧
什么时候该自部署

一、Token 计费：输入和输出不一样贵#

1.1 计费的两个维度#

大模型按 Token 计费，但输入和输出价格不同。

1
输入 Token（Input Tokens）：
2
- 你发给模型的内容
3
- 包括：系统提示词、用户问题、上下文、示例等
4
- 价格：较便宜
5

6
输出 Token（Output Tokens）：
7
- 模型生成的回复
8
- 价格：通常是输入的 2-5 倍

为什么输出更贵？

输入只需要”编码”一次，输出需要逐个 Token”生成”——每生成一个 Token 都要跑一遍模型的前向传播。所以输出成本更高。

1.2 各模型价格对比（2026 年 2 月参考）#

模型	输入价格	输出价格	输出/输入比	特点
GPT-4o	$2.5	$10	4 倍	旗舰多模态
GPT-4o-mini	$0.15	$0.6	4 倍	性价比之选
Claude 3.5 Sonnet	$3	$15	5 倍	代码能力强
Claude 3.5 Haiku	$0.8	$4	5 倍	快速轻量
DeepSeek V3	$0.14	$0.28	2 倍	国产性价比王
DeepSeek R1	$0.55	$2.19	4 倍	推理增强
o3-mini	$1.1	$4.4	4 倍	推理性价比

注意：价格会变动，以上仅供参考。DeepSeek 的输出/输入比更低，性价比突出。

1.3 Token 数量估算#

1
中文字估算：
2
- 1 个中文字 ≈ 1-2 个 Token
3
- 1000 字中文 ≈ 1500 个 Token
4

5
英文估算：
6
- 1 个英文单词 ≈ 1-1.3 个 Token
7
- 1000 英文单词 ≈ 1300 个 Token
8

9
代码更不规则：
10
- 简洁代码：Token 较少
11
- 注释多：Token 翻倍
12
- 复杂表达式：Token 爆炸

快速估算工具：

OpenAI Tokenizer
Tiktokenizer - Tiktokenizer 相关文档

二、成本计算实战#

2.1 案例 1：智能客服#

场景：

日均对话：10,000 次
平均输入：1000 Token（含上下文）
平均输出：500 Token
使用 GPT-4o

计算：

1
每日输入 Token：1000 × 10,000 = 1000 万
2
每日输出 Token：500 × 10,000 = 500 万
3

4
每日成本：
5
- 输入：10 × $2.5 = $25
6
- 输出：5 × $10 = $50
7
- 合计：$75/天 = $2250/月

优化方案对比：

方案	月成本	节省
GPT-4o	$2250	基准
GPT-4o-mini	$135	94%
DeepSeek V3	$42	98%

换 GPT-4o-mini 的计算：

1
输入：10 × $0.15 = $1.5
2
输出：5 × $0.6 = $3
3
合计：$4.5/天 = $135/月
4

5
节省：$2115/月（94%）

2.2 案例 2：RAG 知识库问答#

场景：

每次检索 5000 Token 文档 + 200 Token 问题
输出 500 Token
日均查询 5000 次
使用 Claude 3.5 Sonnet

计算：

1
每日输入：5200 × 5000 = 2600 万
2
每日输出：500 × 5000 = 250 万
3

4
每日成本：
5
- 输入：26 × $3 = $78
6
- 输出：2.5 × $15 = $37.5
7
- 合计：$115.5/天 = $3465/月

优化方案：

方案 1：使用 Prompt Caching

1
Claude 支持缓存：
2
- 文档部分可缓存（5 分钟有效期）
3
- 重复查询只计新增部分
4
- 缓存命中后输入成本降低 90%
5

6
假设 60%命中：
7
- 原输入成本：$78
8
- 缓存后：$78 × 0.4 + $78 × 0.6 × 0.1 = $36.72
9
- 节省：$41.28/天 = $1238/月

方案 2：换成 DeepSeek V3

1
输入：26 × $0.14 = $3.64
2
输出：2.5 × $0.28 = $0.7
3
合计：$4.34/天 = $130/月
4

5
节省：$3335/月（96%）

2.3 案例 3：代码补全服务#

场景：

日均代码补全请求：50,000 次
平均输入：300 Token（代码上下文）
平均输出：100 Token（补全代码）
使用 GPT-4o

计算：

1
每日输入：300 × 50,000 = 1500 万
2
每日输出：100 × 50,000 = 500 万
3

4
每日成本：
5
- 输入：15 × $2.5 = $37.5
6
- 输出：5 × $10 = $50
7
- 合计：$87.5/天 = $2625/月

优化方案：

换成 DeepSeek V3：

1
输入：15 × $0.14 = $2.1
2
输出：5 × $0.28 = $1.4
3
合计：$3.5/天 = $105/月
4

5
节省：$2520/月（96%）

三、开源 vs 闭源：真实成本对比#

3.1 别被”免费”骗了#

开源模型”免费”，但部署要花钱。

1
闭源 API 成本 = API 调用费
2

3
开源自部署成本 = GPU 租赁费 + 运维人力 + 电费 + 带宽费

3.2 盈亏平衡点分析#

场景：月调用 1 亿 Token

方案	月成本	说明
DeepSeek V3 API	~$20	纯 API 费用
自部署 LLaMA 3.1 70B	~$4000+	GPU+运维

结论：调用量小时，闭源 API 更划算。

3.3 什么时候自部署划算？#

flowchart TD N0["月调用 < 1 亿 Token"] N1["用 API 更划算"] N0 --> N1 N2["月调用 1-10 亿 Token"] N3["看情况，需详细计算"] N2 --> N3 N4["月调用 > 10 亿 Token"] N5["考虑自部署"] N4 --> N5

3.4 自部署硬件成本参考#

模型	显存需求	推荐配置	月成本估算
7B (INT4)	4-6GB	RTX 4090	$300-500
7B (FP16)	14-16GB	A100-40G	$800-1200
14B (INT4)	8-10GB	A100-40G	$800-1500
70B (INT4)	35-40GB	2×A100-80G	$3000-5000
70B (FP16)	140GB+	4-8×A100	$8000-15000

省钱技巧：用量化（INT4/INT8）可以降低 50%显存需求，性能损失通常<3%。

四、六个省钱技巧#

4.1 技巧 1：选对模型#

mindmap root((任务复杂度匹配：)) 简单任务（分类、提取、简单问答） GPT-4o-mini：$0.15/1M 输入 DeepSeek V3：$0.14/1M 输入 Claude 3.5 Haiku：$0.8/1M 输入中等任务（代码补全、翻译、摘要） DeepSeek V3：性价比最高 GPT-4o-mini：稳定可靠 Claude 3.5 Haiku：速度快复杂任务（推理、复杂代码、创意写作） GPT-4o：综合最强 Claude 3.5 Sonnet：代码强 DeepSeek R1：推理强且便宜 o3-mini：推理性价比原则：别用大炮打蚊子，也别用小马拉大车

4.2 技巧 2：精简输入#

1
冗余输入（浪费 Token）：
2
"请帮我分析一下这篇文章的主要内容，用简洁的语言总结，
3
不要太长，大概 100 字左右，要抓住重点..."
4

5
精简输入（意思一样，Token 少很多）：
6
"用 100 字总结这篇文章的主要内容"
7

8
对比：
9
- 冗余版本：约 80 个 Token
10
- 精简版本：约 15 个 Token
11
- 节省：80%+

4.3 技巧 3：使用 Prompt Caching#

Claude 和 OpenAI 都支持缓存：

1
原理：
2
- 相同的系统提示词、文档等可以缓存
3
- 后续请求只计算新增部分
4
- 节省 60-90%输入成本
5

6
Claude 缓存规则：
7
- 最小缓存：1024 Token
8
- 缓存有效期：5 分钟
9
- 缓存写入费用：$3.75/百万 Token
10
- 缓存命中费用：$0.30/百万 Token（节省 90%）
11

12
适用场景：
13
RAG（重复检索相同文档）
14
固定系统提示词
15
多轮对话中的上下文
16
Few-shot 示例
17

18
示例代码：

1
import anthropic
2

3
client = anthropic.Anthropic()
4

5
# 使用 Prompt Caching
6
message = client.messages.create(
7
 model="claude-3-5-sonnet-20241022",
8
 max_tokens=1024,
9
 messages=[
10
 {
11
 "role": "user",
12
 "content": [
13
 {
14
 "type": "document",
15
 "source": {
16
 "type": "text",
17
 "media_type": "text/plain",
18
 "data": large_document # 这个会被缓存
19
 },
20
 "caching": {"type": "ephemeral"} # 启用缓存
21
 },
22
 {
23
 "type": "text",
24
 "text": "请总结上面的文档"
25
 }
26
 ]
27
 }
28
 ]
29
)

4.4 技巧 4：控制输出长度#

1
不需要长回复时，明确指定：
2

3
"用一句话回答"
4
"用 3 个要点回答"
5
"输出 JSON 格式，不要解释"
6
"答案不超过 50 字"
7

8
效果：
9
- 减少输出 Token
10
- 输出更精准
11
- 成本降低 30-50%

4.5 技巧 5：批量处理#

1
实时调用 vs 批处理：
2

3
实时调用：
4
- 每次单独请求
5
- 响应快
6
- 成本高
7

8
批处理：
9
- 一次处理多个
10
- 响应慢（几小时内）
11
- 成本低 50%
12

13
OpenAI Batch API：
14
- 价格：实时调用的 50%
15
- 适用场景：
16
 批量翻译
17
 批量分类
18
 批量摘要
19
 数据处理

1
# OpenAI Batch API 示例
2
from openai import OpenAI
3

4
client = OpenAI()
5

6
# 创建批处理任务
7
batch = client.batches.create(
8
 input_file_id="file-xxx", # 上传的 JSONL 文件
9
 endpoint="/v1/chat/completions",
10
 completion_window="24h"
11
)
12

13
# 查询状态
14
status = client.batches.retrieve(batch.id)
15
print(status.status) # validating, in_progress, completed

4.6 技巧 6：缓存常见问题#

mindmap root((建立应用层缓存：)) 用户问题 → 检查缓存命中 → 返回缓存答案（免费）未命中 → 调用 API → 缓存答案适用场景： FAQ 问答（相同问题多次出现）热门查询产品信息查询实现要点： - 问题向量化后检索相似问题 - 设置缓存过期时间 - 监控命中率，优化缓存策略

五、部署模式选择#

5.1 四种模式对比#

模式	成本	隐私	复杂度	适用场景
API 调用	按量付费	数据外传	低	快速验证、中小规模
私有云部署	固定+运维	数据私有	高	金融、医疗、政务
混合部署	中等	部分私有	中	企业应用
边缘部署	硬件成本	完全私有	高	移动端、IoT

5.2 私有化部署框架推荐#

框架	特点	适合场景
vLLM	高吞吐、PagedAttention	高并发 API 服务
llama.cpp	CPU 友好、轻量	边缘设备、低资源
Ollama	一键部署、简单	个人开发、快速体验
TensorRT-LLM	NVIDIA 优化、极致性能	追求性能的生产环境
TGI (Text Generation Inference)	HuggingFace 出品	生产级部署

可视化图解#

5.1 成本计算公式#

1
┌─────────────────────────────────────────────────────────────┐
2
│ 成本计算公式 │
3
├─────────────────────────────────────────────────────────────┤
4
│ │
5
│ 月成本 = (日均输入 Token × 输入单价 │
6
│ + 日均输出 Token × 输出单价) × 30 │
7
│ │
8
│ 其中： │
9
│ 日均输入 Token = 日均调用量 × 平均输入长度 │
10
│ 日均输出 Token = 日均调用量 × 平均输出长度 │
11
│ │
12
│ 示例计算： │
13
│ 日均 10000 次调用，输入 1000，输出 500，用 GPT-4o-mini │
14
│ = (10000×1000×$0.15/1M + 10000×500×$0.6/1M) × 30 │
15
│ = ($1.5 + $3) × 30 │
16
│ = $135/月 │
17
│ │
18
└─────────────────────────────────────────────────────────────┘

5.2 API vs 自部署成本曲线#

mindmap root((成本)) 自部署成本（固定+运维） ┌──────────────────────────── 交叉点 ↓ ┌────────┼──────────────── ┼──┼────────┼──────────────── 调用量 API 成本（按量） ┘ → ↑ 盈亏平衡点结论：调用量小时 API 便宜，大时自部署可能更划算

常见问题 FAQ#

Q1: 如何估算我的应用需要多少 Token？

统计典型对话/查询的输入输出长度
统计日均调用量
计算：日均调用量 × 平均输入长度 = 日输入 Token
用 OpenAI 的 Tokenizer 工具验证
预留 20%缓冲

Q2: Prompt Caching 能省多少钱？

A: 视场景而定：

RAG 场景（重复使用相同文档）：节省 60-90%输入成本
固定系统提示词：节省 10-30%
普通对话场景：节省较少

Q3: 什么时候该考虑自部署？

A: 满足以下条件时考虑：

月调用超过 10 亿 Token
数据隐私要求高，不能出本地
有运维能力
需要深度定制

Q4: 量化会影响模型能力吗？

A: 会有轻微下降：

INT4 量化：通常损失 1-3%性能
INT8 量化：几乎无损
成本却能降低 50%以上
大多数应用场景，量化是划算的

Q5: 有没有免费的模型可以用？

各平台通常有免费额度：
OpenAI：新用户$5 免费额度
Claude：有免费试用
DeepSeek：有免费额度
开源模型”免费”但需要部署成本
一些平台提供免费 API（HuggingFace 免费推理）

Q6: 如何监控和控制成本？

设置 API 调用限额
使用缓存策略
监控每日 Token 消耗
设置成本告警阈值
定期审查账单

小结#

记住这些关键点：

输入输出价格不同，输出通常是输入的 2-5 倍
选对模型是省钱的第一步，简单任务用小模型
Prompt Caching可以大幅降低 RAG 成本
API vs 自部署要看调用量，小量用 API 更划算
监控成本，别等账单来了才惊讶

成本意识应该贯穿 AI 应用的整个生命周期，从设计到运维。

下篇预告#

算清了成本，下一步是学会用好模型。同样的 AI，为什么别人用得好，你用得差？

参考资料#

OpenAI Pricing - OpenAI Pricing 相关文档
Anthropic Pricing - Anthropic Pricing 相关文档
DeepSeek Pricing - DeepSeek Pricing 相关文档
OpenAI Tokenizer - OpenAI Tokenizer 相关文档
Prompt Caching - Prompt Caching 相关文档
OpenAI Batch API - OpenAI Batch API 官方文档