流式响应

流式响应适用于对首字延迟敏感的场景，例如客服对话、实时写作和代码补全。

何时启用

用户需要尽快看到第一段输出
回复内容较长
前端支持增量渲染

请求示例

json

{
  "model": "openai/gpt-5.3-codex",
  "messages": [{ "role": "user", "content": "总结这篇文章" }],
  "stream": true
}

服务端处理建议

接收分片后立即转发到前端。
在流结束时写入完整日志与 token 用量。
客户端中断时及时关闭上游连接。

常见问题

输出被截断

检查客户端是否在超时前关闭连接
检查网关和反向代理超时设置