veo3.1 是 Google 的 Veo 3.1 模型。两阶段任务式协议和其他视频模型一致,但有一个值得了解的差异点:原生在视频轨之外生成音频轨。同一套 submit → poll 流程生成的 MP4 自带模型为场景配的音频层 —— 适合不会再做单独音效设计环节的一次性成片。
价格: $0.40 / 每秒成片(失败不计费)—— Per-second 价格针对生成的视频长度计算;该档音频不单独计费。见费率卡。
Protocols
| Protocol | 路径 | 用途 |
|---|---|---|
| OpenAI Video — submit | POST https://llm.bytespike.ai/v1/videos/generations | 入队;返回 task_id |
| OpenAI Video — poll | GET https://llm.bytespike.ai/v1/videos/tasks/{task_id} | 就绪时返回 status、result_url 与 audio_url |
Quickstart
Capabilities
| 能力 | 支持 |
|---|---|
| 文生视频 | ✅ |
图生视频(带 source_image) | ✅ |
| 原生音频生成 | ✅(设置 audio: true) |
duration_seconds 5 / 10 | ✅ |
size 1280×720 / 1920×1080 | ✅ |
| Modality | video |
| Capability bucket | video_generate |
何时使用
- 一次性成片 —— 片段就是最终产物,不会再有音效设计环节。
- 环境 / 氛围素材 —— 雨声、风声、城市噪声,Veo 的原生音频比给无声片配音更真实。
- Sora 的替代选项 —— Sora 特定的运动风格不合品牌时,Google 的渲染感觉更贴近品牌调性。
- 已经有自己的音效设计 —— 在该流程里音频是浪费的小溢价;降到
veo3.1-fast不含音频。 - 需要 Sora 特有的运动质感 —— 改用
sora2或sora2-pro。
下一步
veo3.1-fast—— 更便宜的一档sora2—— OpenAI 备选- 多模态端点 —— 总览