1 USD = 1,000,000 credits(微美元精度)。
按 token / 按次的费率在 价格表 中以美元报价,
每晚从生产网关刷新。
什么花什么钱
| 表面 | 计费模型 |
|---|---|
文本端点(/v1/messages、/v1/chat/completions、/v1/responses、/v1beta/.../generateContent) | 按每 1M 输入 + 每 1M 输出 token。Cache read 有折扣,cache write 大多数模型是 1.0×,Claude 是 1.25×。 |
图像端点(/v1/images/generations、/v1/tasks/submit 用于批量 / 异步) | 按张计费。离散的按次成本。 |
视频端点(/v1/tasks/submit 用于 Sora / Veo / Seedance) | 按输出秒数计费。失败的渲染免费。 |
工具(/v1/models、/v1/balance、/v1/usage、/v1/tasks/{query,cancel}) | 免费。 |
失败不计费
任何非 2xx 响应都是免费的,无论失败的是哪个模型、失败发生在请求多深入的位置。这是一条硬契约 —— 非 2xx 时X-Quota-Remaining-Credits 不变。
唯一的窄例外:如果你在渲染已经开始(status running)之后 取消一个视频任务,已渲染的部分秒数可能按该模型自己的退款政策计费。Cancel 响应里的 credits_used 字段是权威。详见
tasks/cancel。
账目响应头
每次响应都带配额信封(成功和失败都带):| 响应头 | 含义 |
|---|---|
X-RateLimit-Limit | 最接近限制你的那条速率桶的 USD 上限(rate_limit_5h / _1d / _7d 三者中最紧的那条)。 |
X-RateLimit-Remaining | 该桶里剩余预算。 |
X-RateLimit-Reset | 该桶重置的 Unix 时间戳。 |
X-Quota-Remaining-Credits | 该 key 剩余的累计 credits(USD)。0.00 = 触达 key 的 quota 上限。 |
X-Org-Quota-Remaining-Credits | 组织钱包剩余,仅对组织持有的 key 返回。 |
GET /api/v1/usage 查询,
每次调用返回一行,含 prompt_tokens、completion_tokens 和最终计费的 credits。
预估预算
对 “这次大概花 $X,确认吗?” 的流程:- 用 价格表 按
max_tokens× 输出费率 + prompt 大小 × 输入费率算个最坏情况。 - 与上次调用拿到的
X-Quota-Remaining-Credits对比(或直接调/v1/balance—— 免费)。 - 如果估算超出预算,就别发请求。
- 请求之后,通过
/api/v1/usage对账实际成本。
配额悬崖
任一 条件满足时,key 停止服务请求:X-Quota-Remaining-Credits = 0(触达 key 的quota上限)X-RateLimit-Remaining = 0(key 最紧的那条速率桶耗尽)- 组织钱包空了(组织持有的 key)
402 insufficient_balance(OpenAI 信封)或
permission_error(Anthropic 信封)。要抬上限,在
Console → API keys 编辑 key,
或者给组织钱包充值。