跳到主要内容

用量上报

AISIX Cloud 会从托管网关收集用量信息,并将其用于用量视图、面向账单的工作流和托管预算评估。

在托管模式下,网关负责承载 AI 流量,并向 Cloud 发送用量事件。这些事件帮助团队了解消耗情况,也让 AISIX Cloud 能够评估托管预算。

用量流程

这是自托管运行和 Cloud 托管运行的主要差异之一。自托管网关可以在本地处理请求;托管网关还会将用量上报回 AISIX Cloud。

托管网关会通过 /dp/telemetry 将面向用量的数据发送到控制面。

当相关值可用时,用量事件会包含请求结果,以及状态、延迟、token 用量和成本等消耗信号。事件还会区分调用方请求的模型别名与实际处理某次尝试的解析模型,这有助于理解路由和集成模型流量。流式聊天请求还可以报告首 token 时间。

与预算的关系

用量上报为 AISIX Cloud 托管预算工作流提供消耗数据。预算策略本身请参见预算

当硬停止预算被超出时,托管网关可以对受影响请求返回 429。仅告警预算会继续在 Cloud 中可见,但不会阻断流量。

如果调用方收到与预算相关的 429,请先检查已配置的预算策略。如果预算策略看起来正确,但 Cloud 用量不完整,再检查遥测路径。

用量验证

当上报用量与预期流量不一致时,请确认托管网关健康、网关可以访问 /dp/telemetry,并确认请求是真实经过网关的实时流量,而不只是 Cloud UI 检查。

如果用量仍然不完整,请检查预算或遥测错误是否被隐藏在通用代理失败之后。

下一步

继续阅读 Cloud Playground 使用说明,了解什么时候使用 Cloud UI 检查,什么时候需要验证实时托管网关链路。