跳转到主要内容
厂商: OpenAI Model ID: gpt-5-nano 能力: 128K 上下文 · 工具调用 · 视觉 · 流式 计价: 按 token,nano 档(实时费率 GPT-5-nano 是 5 系列的延迟底线。当方案里需要大量便宜的 LLM 调用 —— 子 LLM 评审、 分类链、每一步是路由决策而非答案的 agent 循环 —— 就该用它。在 prompt 长度可控 的情况下,相对 mini 的质量差距很小,而延迟优势显著。

Request

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gpt-5-nano",
    "messages": [
      {"role": "user", "content": "Route to: support / billing / sales. Input: My card was charged twice."}
    ]
  }'

Body 参数

字段类型必填默认说明
modelstringgpt-5-nano
messagesarrayOpenAI chat 结构。
max_tokensinteger模型上限最大值:8192。
temperaturenumber1.0范围 0.0–2.0。
toolsarray支持 function calling。
response_formatobject支持 JSON 模式 + 结构化输出。
streambooleanfalseSSE 流式。

Response

{
  "id": "chatcmpl-…",
  "object": "chat.completion",
  "model": "gpt-5-nano",
  "choices": [{"index": 0, "message": {"role": "assistant", "content": "billing"}, "finish_reason": "stop"}],
  "usage": {"prompt_tokens": 28, "completion_tokens": 1, "total_tokens": 29}
}

代码示例

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gpt-5-nano",
    "messages": [{"role": "user", "content": "Route to: support / billing / sales. Input: My card was charged twice."}]
  }'

流式与缓存

"stream": true 走 SSE。稳定前缀自动 prompt caching。在 nano 上,缓存命中比 在更大模型上重要性低 —— 输入费率本来就低 —— 但在长 system prompt 时仍有帮助。

Errors

Code触发条件是否计费
400Body 校验
401key 缺失 / 已吊销
402钱包余额不足
422参数不支持
429触发限流
5xx上游问题

何时选用

  • agent pipeline 头部的路由 / 分流 / 分类。
  • 大吞吐子 LLM 评审。
  • 想要更高能力、可接受略高延迟,见 GPT-5-mini
  • 5.4 档的路由,见 GPT-5.4-nano

限制

上下文窗口128K tokens
最大输出8192 tokens
支持工具调用
支持视觉
支持流式
支持 prompt caching自动