跳转到主要内容
gemini-2-5-flash 是 Google 的小中档 Gemini —— 快、多模态,并自带让整个 Gemini 家族出众的 1M token 上下文窗口。多数 benchmark 上和 gpt-5-4-miniclaude-haiku-4-5 同档,且多了长上下文优势。 价格: 输入 0.50/1M,输出0.50 / 1M,输出 3.00 / 1M,缓存读取 $0.05 / 1M —— 见费率卡

协议

协议路径
Gemini NativePOST https://llm.bytespike.ai/v1beta/models/gemini-2-5-flash:generateContent
OpenAI Chat Completions(shim)POST https://llm.bytespike.ai/v1/chat/completions
Anthropic Messages(翻译)POST https://llm.bytespike.ai/v1/messages
走 OpenAI shim 时,网关会在背后把请求体翻译成 Gemini 的 generateContent 结构。客户端这边写标准 openai-SDK 代码即可。

快速开始

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-2-5-flash",
    "messages": [{ "role": "user", "content": "Hello, ByteSpike." }]
  }'

能力

能力是否支持
Chat Completions(shim)
流式(SSE)
Vision(图像输入)
Tools / function calling✅ 并行
JSON mode
Grounding(web search)
长上下文✅ 1M tokens
上下文窗口1M tokens

什么时候用

  • 便宜的长上下文 —— Haiku 价位上拿到 1M 上下文,独一份。代码库审阅、200K 装不下的多文档 QA。
  • 低成本的新鲜事实任务 —— Flash 也支持 grounding(Google 搜索)。
  • 高吞吐 vision —— 小票 / 发票 / 截图的 OCR 类活。
什么时候用:
  • 硬推理 —— gemini-3-1-pro 体量更大;Flash 更偏 chat 档。
  • Anthropic Messages 协议 —— Gemini 当前只讲 OpenAI shim。

下一步