gpt-5-4-pro
能力: 128K 上下文 · 工具调用 · 视觉 · 流式 · 结构化输出 · reasoning_effort
计价: 按 token,pro 档(实时费率)
GPT-5.4-pro 在标准 5.4 基础上为 OpenAI 的推理链开放了 reasoning_effort 调节。
在多步问题上用它 —— 在带有惯例的现有代码库里做代码生成、数学/证明任务、跨多个
子目标的规划 —— 第一稿必须组合答案,而不是随手回答。随着推理强度提高,延迟成本
增加,但在硬问题上的答案质量提升幅度比延迟看上去要大得多。
Request
Body 参数
| 字段 | 类型 | 必填 | 默认 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | gpt-5-4-pro |
messages | array | 是 | — | — |
reasoning_effort | string | 否 | "medium" | "low" / "medium" / "high" —— 越高 = 推理链越长、延迟越高、在硬问题上质量越高。 |
max_tokens | integer | 否 | 模型上限 | 最大值:32768。 |
tools | array | 否 | — | 并行 function calling。 |
response_format | object | 否 | — | JSON / 结构化输出。 |
stream | boolean | 否 | false | SSE 流式。 |
Response
reasoning_tokens 按输入 token 费率计费,而非输出费率。
代码示例
reasoning_effort 选择指南
| 设置 | 用于 |
|---|---|
"low" | 快速结构化输出,轻度推理 |
"medium" | 默认 —— 大多数多步任务 |
"high" | 你能等的硬数学 / 证明 / 多目标规划 |
"high" 的边际收益递减。
流式与缓存
"stream": true 走 SSE。开启推理后,第一个响应 chunk 在推理链完成后才到来 ——
相比非推理模型,HTTP TTFB 更长。自动 prompt caching 仍生效。
Errors
| Code | 触发条件 | 是否计费 |
|---|---|---|
| 400 / 401 / 402 / 422 / 429 | 标准 | 否 |
| 5xx | 上游 | 否(自动重试) |
何时选用
限制
| 项 | 值 |
|---|---|
| 上下文窗口 | 128K tokens |
| 最大输出 | 32768 tokens |
| 支持工具调用 | 是(并行) |
| 支持视觉 | 是 |
| 支持流式 | 是 |
| 支持 prompt caching | 自动 |
| 支持 reasoning_effort | 是 |