四条上限
| 上限 | 默认 | 在哪设 |
|---|---|---|
rate_limit_5h(滚动 5 小时 USD 花费) | 不限 | 按 key,在 Console → API keys 里 |
rate_limit_1d(滚动 24 小时 USD 花费) | 不限 | 按 key |
rate_limit_7d(滚动 7 天 USD 花费) | 不限 | 按 key |
| 并发(in-flight 请求数) | 按档定义 | 按订阅档;见 价格 |
0 = 不限。
它们如何相互作用
每个请求网关计算:Remaining 归零,下一次请求返回 429:
/v1/messages 用 Anthropic 形状;/chat/completions + /responses 用 OpenAI 形状。)
怎么取值
| 用法 | 推荐上限 |
|---|---|
| Dev / 本地笔记本 | rate_limit_5h = 5、_1d = 20、_7d = 50 —— 不挡正常工作,又能挡住后台跑飞的死循环 |
| 生产 API key | _5h = 100、_1d = 500、_7d = 2000 —— 大约期望用量的 10×。能吸收流量峰值,又能兜住跑飞的 bug |
| Per-customer key(多租户) | 三条都设成该客户的额度 —— 一客户一 key,附上他们计费周期的上限 |
| 长跑批任务 | _5h 拉高(让批跑),_1d 和 _7d 较低(防止跑飞循环几天) |
quota(终身上限)和 expires_in_days 与速率限制桶分开 —— 互不影响。见 鉴权。
并发
并发是你账号下任意时刻 in-flight 的请求数(跨所有 key)。按订阅档设:| 档位 | 并发上限 |
|---|---|
| Free | 5 |
| Pro | 25 |
| Max | 100 |
| Enterprise | 自定(通常 500–2000) |
429,附 type: "rate_limit_error", code: "concurrency_limit"。推荐响应跟常规 429 一样 —— 退避 + 重试。
如果你在 Free / Pro 上撞到并发墙、花费上限还远,升级档位而不是多开 key。这条上限是账号级,不是 key 级。
退避策略
网关给的重置时间戳是精确的 —— 用它,而不是用指数退避去猜:X-RateLimit-Reset),用短的抖动退避(例如 1 + random()*2 秒)—— 上限随 in-flight 请求完成而清,可能不到一秒。
不 受速率限制
GET /api/v1/me/*管理类调用 —— 免费,从不限流GET /api/v1/me/usage—— 免费GET /api/v1/me/account—— 免费POST /v1/tasks/query—— 免费,不计入并发POST /v1/tasks/cancel—— 免费,不计入并发- Console 的 dial-test —— 用 cookie 鉴权,不是 key,从不扣费
/v1/messages、/v1/chat/completions、/v1/responses、/v1beta/...、/v1/images/*、/v1/tasks/submit 的请求都计入。
读 usage 日志
要 debug 429 —— 看哪儿在花钱:credits 加起来。响应头里最紧的那条桶告诉你看哪个窗口。
抬上限
| 你想要 | 操作 |
|---|---|
| 抬高 per-key 花费上限 | 在 Console → API keys 编辑 key |
| 抬高账号并发 | 在 Console → Subscriptions 升档 |
| Max 档之外的自定义上限 | 邮件给 enterprise@bytespike.ai |
相关
- 鉴权 —— 完整的 per-key 控制清单
- Credits 与账单 —— 花费如何累计
- 错误处理 —— 错误信封 + 重试语义