claude-haiku-4-5 是小 / 快 / 便宜的 Claude。当 prompt 短、响应短、你宁愿每小时调一万次 API 而不是三百次时,任何大规模运行的活都应该默认选它。Vision 和 tool use 仍然在;让出去的是大模型在硬问题上的推理深度。
价格: 输入 5.00 / 1M,缓存读取 $0.10 / 1M,缓存写入为输入的 1.25× —— 见费率卡。
协议
| 协议 | 路径 |
|---|---|
| Anthropic Messages | POST https://llm.bytespike.ai/v1/messages |
| OpenAI Chat Completions(shim) | POST https://llm.bytespike.ai/v1/chat/completions |
快速开始
能力
| 能力 | 是否支持 |
|---|---|
| Chat completions | ✅ |
| 流式(SSE) | ✅ |
| Vision(图像输入) | ✅ |
| Tool use(function calling) | ✅ 并行 |
| Prompt 缓存(cache_control) | ✅ |
| Extended thinking | — |
| Web search | — |
| JSON / 结构化输出 | ✅ |
| 上下文窗口 | 200K tokens |
什么时候用
- 分类、路由、分诊。 工单 → 类别。邮件 → 优先级。来电 → 下一步动作。
- 大规模结构化抽取。 PII 脱敏、实体抽取、按 schema 解析的高吞吐流。
- 缓存摊销的 agent。 大系统提示 + 多轮短用户回合;给系统提示打 cache_control,第一轮之后每轮成本便宜约 10×。
- 便宜模型上的 Vision OCR。 Haiku 的 vision 已足够处理小票、发票、截图 —— 价格是 Sonnet 的四分之一。
- 硬核推理 —— Haiku 没有 extended thinking;上 Sonnet 或 Opus。
- 长文写作 —— Haiku 的散文档次在 Sonnet 之下。
下一步
- claude-sonnet-4-6 —— 生产中档
- claude-opus-4-8 —— 200K 上下文旗舰