跳转到主要内容
gemini-3-flash 是 Google 的快速、低成本 Gemini —— 多模态,200K token 上下文窗口。它是 Gemini 3 家族的实惠档:便宜到足以应付高吞吐 chat 和 OCR 类 vision,并带 grounding 抓新鲜事实。 价格: 输入 0.50/1M,输出0.50 / 1M,输出 3.00 / 1M —— 见费率卡

协议

协议路径
Gemini NativePOST https://llm.bytespike.ai/v1beta/models/gemini-3-flash:generateContent
OpenAI Chat Completions(shim)POST https://llm.bytespike.ai/v1/chat/completions
Anthropic Messages(翻译)POST https://llm.bytespike.ai/v1/messages
走 OpenAI shim 时,网关会在背后把请求体翻译成 Gemini 的 generateContent 结构。客户端这边写标准 openai-SDK 代码即可。

快速开始

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-3-flash",
    "messages": [{ "role": "user", "content": "Hello, ByteSpike." }]
  }'

能力

能力是否支持
Chat Completions(shim)
流式(SSE)
Vision(图像输入)
Tools / function calling✅ 并行
JSON mode
Grounding(web search)
上下文窗口200K tokens

什么时候用

  • 高吞吐便宜 chat —— Gemini 3 最低成本档,适合通用问答和起草。
  • 高吞吐 vision —— 小票 / 发票 / 截图的 OCR 类活。
  • 低成本的新鲜事实任务 —— Flash 也支持 grounding(Google 搜索)。
什么时候用:
  • 更难的推理 —— gemini-3-5-flash 以适度的额外成本换来更多余量。
  • 1M 上下文任务 —— gemini-3-5-flashgemini-3-1-pro 才带长上下文窗口。

下一步