gemini-3-5-flash - ByteSpike

gemini-3-5-flash 是 Google 的中档 Gemini —— 快、多模态，并自带让整个 Gemini 家族出众的 1M token 上下文窗口。它位于 gemini-3-flash 和 gemini-3-1-pro 之间：比 Flash 多出推理余量，价格只有 Pro 的一小部分。 价格： 输入

1.50 / 1M，输出

9.00 / 1M —— 见费率卡。

协议

协议	路径
Gemini Native	`POST https://llm.bytespike.ai/v1beta/models/gemini-3-5-flash:generateContent`
OpenAI Chat Completions（shim）	`POST https://llm.bytespike.ai/v1/chat/completions`
Anthropic Messages（翻译）	`POST https://llm.bytespike.ai/v1/messages`

走 OpenAI shim 时，网关会在背后把请求体翻译成 Gemini 的 generateContent 结构。客户端这边写标准 openai-SDK 代码即可。

快速开始

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-3-5-flash",
    "messages": [{ "role": "user", "content": "Hello, ByteSpike." }]
  }'

能力

能力	是否支持
Chat Completions（shim）	✅
流式（SSE）	✅
Vision（图像输入）	✅
Tools / function calling	✅ 并行
JSON mode	✅
Grounding（web search）	✅
长上下文	✅ 1M tokens
上下文窗口	1M tokens

什么时候用

低成本的中档推理 —— 比 Flash 能扛更难的任务，又不必升到 Pro 价位。
长上下文任务 —— 1M 上下文用于代码库审阅和 200K 装不下的多文档 QA。
新鲜事实任务 —— 支持 grounding（Google 搜索）。

什么时候不用：

最便宜的 chat —— gemini-3-flash 处理更简单的任务成本更低。
最硬的推理 —— gemini-3-1-pro 是为此量身的旗舰。

下一步

gemini-3-1-pro —— 1M 上下文旗舰
gemini-3-flash —— 快、最低成本档

gemini-3-flash gemini-3-1-pro

​协议

​快速开始

​能力

​什么时候用

​下一步

协议

快速开始

能力

什么时候用

下一步