跳转到主要内容
gemini-3-5-flash 是 Google 的中档 Gemini —— 快、多模态,并自带让整个 Gemini 家族出众的 1M token 上下文窗口。它位于 gemini-3-flashgemini-3-1-pro 之间:比 Flash 多出推理余量,价格只有 Pro 的一小部分。 价格: 输入 1.50/1M,输出1.50 / 1M,输出 9.00 / 1M —— 见费率卡

协议

协议路径
Gemini NativePOST https://llm.bytespike.ai/v1beta/models/gemini-3-5-flash:generateContent
OpenAI Chat Completions(shim)POST https://llm.bytespike.ai/v1/chat/completions
Anthropic Messages(翻译)POST https://llm.bytespike.ai/v1/messages
走 OpenAI shim 时,网关会在背后把请求体翻译成 Gemini 的 generateContent 结构。客户端这边写标准 openai-SDK 代码即可。

快速开始

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-3-5-flash",
    "messages": [{ "role": "user", "content": "Hello, ByteSpike." }]
  }'

能力

能力是否支持
Chat Completions(shim)
流式(SSE)
Vision(图像输入)
Tools / function calling✅ 并行
JSON mode
Grounding(web search)
长上下文✅ 1M tokens
上下文窗口1M tokens

什么时候用

  • 低成本的中档推理 —— 比 Flash 能扛更难的任务,又不必升到 Pro 价位。
  • 长上下文任务 —— 1M 上下文用于代码库审阅和 200K 装不下的多文档 QA。
  • 新鲜事实任务 —— 支持 grounding(Google 搜索)。
什么时候用:
  • 最便宜的 chat —— gemini-3-flash 处理更简单的任务成本更低。
  • 最硬的推理 —— gemini-3-1-pro 是为此量身的旗舰。

下一步