何时使用
- OpenAI Agents SDK —— SDK 默认讲 Responses 形状
- Codex CLI —— 内部用 Responses;ByteSpike 通过
--responses-base-url https://llm.bytespike.ai/v1直接接入 - 多轮 agent + 结构化输出 ——
response_format加 reasoning 块装在同一个信封里 - 跨模型一致 —— 你想要一种客户端形状打通 o-series、GPT-5 和 Claude 家族
/chat/completions。要 Anthropic 原生的
tool_use + cache_control,用 /messages。
请求
请求头
| Header | 是否必填 | 说明 |
|---|---|---|
Authorization | 是 | Bearer sk-byts-… —— Responses 唯一接受的鉴权形式。 |
content-type | 是 | application/json。 |
Body(精选字段)
Responses API 字段众多;ByteSpike 把完整 schema 转发给你请求的model。常用字段:
| 字段 | 类型 | 是否必填 | 说明 |
|---|---|---|---|
model | string | 是 | 目录 slug(gpt-5-5、claude-opus-4-8、gpt-5-4-mini 等)。 |
input | string | array | 是 | 对话内容。string = 单条 user 消息;array = 多轮(role/content 形状按 OpenAI Responses spec)。 |
instructions | string | 否 | 相当于 system prompt 位。 |
tools | array | 否 | Responses 形状的工具定义({type, name, parameters, …})。 |
tool_choice | string | object | 否 | auto / none / required / {type: "function", function: {name}}。 |
temperature | number | 否 | 默认 1.0。 |
top_p | number | 否 | Nucleus sampling。 |
max_output_tokens | integer | 否 | 输出 token 上限。 |
reasoning | object | 否 | {"effort": "low" | "medium" | "high"} —— 用于 o-series 和 GPT-5 reasoning 模型。 |
response_format | object | 否 | {"type": "json_object"} 或 {"type": "json_schema", "json_schema": {...}},用于严格结构化输出。 |
stream | boolean | 否 | SSE 推流。与 OpenAI Responses 规范相同的事件协议。 |
metadata | object | 否 | {"user_id": "..."} —— 转发给模型 + 记录。 |
previous_response_id | string | 否 | 多轮串联;引用前一个 response.id。 |
响应
响应字段
| 字段 | 类型 | 说明 |
|---|---|---|
id | string | 服务端生成的 id,前缀 resp_。用于 previous_response_id 串联。 |
status | string | completed、in_progress、failed。非流式成功恒为 completed。 |
output | array | 输出项数组。每项有 type —— message、reasoning、tool_call 等。 |
usage.input_tokens | integer | 输入计费 token 数。 |
usage.output_tokens | integer | 输出计费 token 数(o-series 包含 reasoning token)。 |
usage.reasoning_tokens | integer | 应用时为隐藏 reasoning 使用的 output_tokens 子集。 |
计费类请求头
与其他端点一致的配额信封:流式
带上"stream": true:
response.created、
response.output_text.delta、response.completed 等。
跨模型路由
同一种 Responses 请求形状可打目录里每个模型。按model 字段选择:
| 模型家族 | 示例 slug | 说明 |
|---|---|---|
| GPT-5 / o-series | gpt-5-5、gpt-5-4、gpt-5-4-mini | 原生 Responses 形状 —— 无需翻译。 |
| Claude | claude-opus-4-8、claude-sonnet-4-6、claude-haiku-4-5 | reasoning 映射到 Claude 的 thinking 块。 |
| Gemini | gemini-3-1-pro、gemini-2-5-flash | 完整支持 Responses 表面。 |
tool_use / tool_calls、结构化输出(response_format)和
reasoning tokens。不论用哪个模型,你拿到的输出形状始终是
Responses-API。
错误
OpenAI 信封(与 OpenAI Responses 规范一致):| HTTP | code | 触发 |
|---|---|---|
| 400 | invalid_request_error | JSON 错误、缺 model、tools 不合法。 |
| 401 | authentication_error | key 缺失 / 已撤销。 |
| 402 | insufficient_balance | 账户 credits 用尽。在 console.bytespike.ai 充值。 |
| 413 | invalid_request_error(body too large) | prompt + 工具 schema 超过 body 上限。 |
| 429 | rate_limit_exceeded | 见速率限制章节。 |
| 502 / 503 | api_error | 瞬时超时或路由分组中暂无可用容量来服务该 model。Console → Models 中的 dial-test 可帮助排查。 |
价格
按 1k token 计费。与该模型在原生端点的价格相同 —— 翻译开销不计费。 价格实时卡片:bytespike.ai/pricing。相关
/chat/completions—— OpenAI Chat Completions 形状/messages—— Anthropic Messages 形状- 使用 ByteSpike 配置 Codex —— 具体的 CLI 配置