跳转到主要内容
厂商: Google Model ID: gemini-3-flash 能力: 200K context · vision · tool use · streaming · structured output 价格: 按 token,flash 档(实时价格 Gemini 3 Flash 是 Gemini 3 家族的小快版。当你的输入大多是文本、偶尔 夹图像、你宁愿多发几次便宜调用而不是少发几次贵调用时就用它。200K context 也让它适合长文档分类等不需要旗舰推理的任务。

请求

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{
    "model": "gemini-3-flash",
    "messages": [{"role": "user", "content": "Classify the topic of this article."}]
  }'

Body 参数

字段类型是否必填默认说明
modelstringgemini-3-flash
messagesarrayOpenAI chat 形状,视觉用 image_url 块。
max_tokensintegermodel max最大:8192。
temperaturenumber1.0范围 0.0–2.0。
toolsarray支持 function calling。
response_formatobjectJSON mode + 结构化输出。
streambooleanfalseSSE 流式。

响应

{
  "id": "chatcmpl-…",
  "object": "chat.completion",
  "model": "gemini-3-flash",
  "choices": [{"index": 0, "message": {"role": "assistant", "content": "technology / startups"}, "finish_reason": "stop"}],
  "usage": {"prompt_tokens": 412, "completion_tokens": 4, "total_tokens": 416}
}

代码示例

curl https://llm.bytespike.ai/v1/chat/completions \
  -H "Authorization: Bearer $BYTESPIKE_API_KEY" \
  -H "content-type: application/json" \
  -d '{"model": "gemini-3-flash", "messages": [{"role": "user", "content": "Classify the topic."}]}'

流式 + 缓存

"stream": true 走 SSE。稳定前缀自动 prompt caching。

错误

Code触发是否计费
400 / 401 / 402 / 422 / 429标准
5xx上游否(自动重试)

何时使用

  • 长文档输入的高吞吐分类 / 路由(200K context)。
  • flash 档价位的视觉原生任务。
  • 深度推理见 Gemini 3.1 Pro
  • OpenAI 同档对应物见 GPT-5.4 mini

限制

限制
Context window200K tokens
Max output8192 tokens
支持 tool use
支持 vision
支持 streaming
支持 prompt caching自动