跳转到主要内容
gemini-3-1-pro 是 Google 当前旗舰 Gemini 模型。原生支持图像与视频双重 vision 输入,1M token 上下文、并行 tool use、JSON mode。在网关上,它是 DOSIA vision 工具默认的 Google 栈落地点 —— 主脑调 analyze_image,或(端点上线后)调 analyze_video 并偏好 Google 时,请求就落到这里。 价格: 输入 2.00/1M,输出2.00 / 1M,输出 12.00 / 1M,缓存读取 $0.20 / 1M,缓存写入按输入费率计费 —— 见费率卡

协议

协议路径
OpenAI Chat Completions(shim)POST https://llm.bytespike.ai/v1/chat/completions

快速开始

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-3-1-pro",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "How many people are in this image?" },
          { "type": "image_url", "image_url": { "url": "https://example.com/scene.jpg" } }
        ]
      }
    ]
  }'
Python 与 TypeScript 调用与 gpt-5-5 一致 —— 换掉 model 字段即可。

能力

能力是否支持
Chat Completions
流式(SSE)
Vision(图像输入)
视频 vision 输入✅(原生,无需单独的 analyze_video 端点)
Tools / function calling✅ 并行
JSON mode
上下文窗口1M tokens
模态chat + vision + video-vision
能力桶vision + external_chat

什么时候用

  • 长上下文 vision —— 分析整套幻灯片、多页截图、塞不进短上下文窗口的视频。
  • Google 栈默认 —— 主脑出于成本或合规偏好 Google 时,这就是 vision 端点。
  • DOSIA analyze_image / analyze_video —— 当被授权且 prompt 偏好 Gemini 时,主脑会路由到这里。
什么时候用:

下一步