https://llm.bytespike.ai/v1/*—— Anthropic + OpenAI 接口https://llm.bytespike.ai/v1beta/*—— Gemini Native 接口https://llm.bytespike.ai/api/v1/*—— 管理端点(keys、usage、billing)
端点家族
Text
Claude Messages、OpenAI Chat Completions、OpenAI Responses、Gemini Native。
Image
Seedream v4 / 4.5 / v5lite、GPT-Image-2、Nano-Banana 家族。
Video
Sora-2 / Pro、Veo-3.1 家族、Seedance 家族。通过
/v1/tasks/* 异步调用。Utility
/v1/models、/v1/usage、/v1/balance、异步 /v1/tasks/{submit,query,cancel}。实时价格
按 token / 按次的费率来自生产网关,每晚刷新。权威表格在 bytespike.ai/pricing —— 直接链接到你需要的 段落:约定
异步 vs 同步。 文本端点是同步的。图像是同步的(单张 ≤30s,大批量 可走异步 tasks API)。视频是异步的 ——POST /v1/tasks/submit 返回
task_id,再 polling /v1/tasks/query(免费)或通过 SSE 订阅
/v1/tasks/stream/{task_id}。完整生命周期见
tasks 参考。
流式。 传 "stream": true(或 Gemini 上的 ?stream=true)。SSE 流
按字节兼容各协议的原生流式格式 —— /v1/messages 用 Anthropic 的事件名,
/v1/chat/completions 和 /v1/responses 用 OpenAI 的事件名,
/v1beta 用 Gemini 的分片 streamGenerateContent。
账目响应头。 每条响应(成功和失败都有)都带网关的 quota envelope:
| Header | 含义 |
|---|---|
X-RateLimit-Limit | 最接近触发限制的速率窗口,单位 USD。 |
X-RateLimit-Remaining | 该窗口剩余预算。 |
X-RateLimit-Reset | 窗口重置时间,Unix 时间戳。 |
X-Quota-Remaining-Credits | 该 key 累计剩余 credits(USD;1 USD = 1M credits)。 |
X-Org-Quota-Remaining-Credits | 组织钱包级别的同一数值,仅对组织持有的 key 返回。 |
GET /api/v1/usage —— 它每条请求
返回一行,含 prompt_tokens、completion_tokens 和已计费的 credits。
非 2xx 响应不计费,所以 X-Quota-Remaining-Credits 在失败时不会变动。