Skip to content

流式响应

流式响应适用于对首字延迟敏感的场景,例如客服对话、实时写作和代码补全。

何时启用

  • 用户需要尽快看到第一段输出
  • 回复内容较长
  • 前端支持增量渲染

请求示例

json
{
  "model": "openai/gpt-5.3-codex",
  "messages": [{ "role": "user", "content": "总结这篇文章" }],
  "stream": true
}

服务端处理建议

  1. 接收分片后立即转发到前端。
  2. 在流结束时写入完整日志与 token 用量。
  3. 客户端中断时及时关闭上游连接。

常见问题

输出被截断

  • 检查客户端是否在超时前关闭连接
  • 检查网关和反向代理超时设置