gpt-4o-image
能力: 1024² – 2048² · 多轮图像生成 · 会话内编辑
价格: 按张计费,会话级 (实时费率)
GPT-4o Image 是会话式图像生成器 —— 不是一次性调用
/images/generations,而是发一个 chat completions 请求,模型在响应里
返回图像内容。在多轮工作流里这点关键:「生成这个」、「把背景改成蓝色」、
「现在加一只狗」。会话记忆保留了底层图像,所以后续轮次是编辑、不是
重新生成。
Request
Body 参数
| Field | Type | Required | Default | Notes |
|---|---|---|---|---|
model | string | yes | — | gpt-4o-image |
messages | array | yes | — | 标准 chat 结构。模型以 image_url 内容块返回图像。 |
image_output.size | string | no | 1024x1024 | 支持:1024x1024、1024x1536、1536x1024、2048x2048。 |
image_output.quality | string | no | "medium" | "low" / "medium" / "high"。 |
image_output.n | integer | no | 1 | 单轮 1–2 张。 |
tools | array | no | — | 图像输出可与 function calling 并用。 |
stream | boolean | no | false | 支持流式的部分图像 delta。 |
Response
messages 即可在后续轮次编辑同一张图。
代码示例
多轮编辑工作流
把 assistant 的响应(连同 image url)原样回传到下一次的messages 数组。
模型把会话上下文里的图作为待编辑的画布:
错误
| Code | 触发条件 | 计费? |
|---|---|---|
| 400 / 401 / 402 / 403 | 标准 | 不计费 |
| 451 | prompt 被上游安全过滤拦截 | 不计费 |
| 5xx | 上游问题 | 不计费(自动重试) |
何时选用
- 多轮图像编辑 —— 会话上下文要紧。
- 把文字推理和图像输出混合的工作流(模型能描述它生成的东西、提澄清问题)。
- 一次性 / 批量图像生成,见 GPT-Image 2。
- 纯写实,见 Nano Banana Pro 或 Nano Banana 2。
限制
| 限制 | 值 |
|---|---|
| 最大输出分辨率 | 2048×2048 |
单轮最大张数(n) | 2 |
| 多轮编辑 | 是 |
支持 quality 修饰 | 是 |
| 同步? | 是(典型 ≤30s) |
| 1024² 平均延迟 | 10-16s |