跳到主要内容
版本:3.10.x

观测 AI 流量并跟踪大模型成本

AI 流量观测不同于传统 API 观测。对于大模型工作负载,除了请求量、错误率和延迟,还需要关注模型归因、令牌消耗、首个令牌返回时间和按业务维度拆分的成本。

API7 AI 网关可以帮助你采集:

  • 请求和响应中的模型元数据。
  • 提示词令牌、生成令牌和总令牌数。
  • 端到端延迟、上游响应时间和错误信息。
  • 可选的请求 / 响应内容日志。

网关不会直接计算账单金额。成本通常通过“令牌用量 x 模型价格表”估算。

启用 AI 日志

ai-proxyai-proxy-multi 支持日志配置:

  • logging.summaries:记录模型、耗时、令牌和上游响应时间等摘要字段。
  • logging.payloads:记录请求消息、流式标记和响应文本内容。

建议默认只打开摘要日志,谨慎开启内容日志,避免敏感数据进入日志系统。

curl "http://127.0.0.1:7080/apisix/admin/routes?gateway_group_id=default" -X PUT \
-H "X-API-KEY: $ADMIN_API_KEY" \
-d '{
"id": "ai-observability",
"service_id": "'"$SERVICE_ID"'",
"paths": ["/ai"],
"plugins": {
"ai-proxy": {
"provider": "openai",
"auth": { "header": { "Authorization": "Bearer '"$OPENAI_API_KEY"'" } },
"options": { "model": "gpt-4o" },
"logging": {
"summaries": true,
"payloads": false
}
}
}
}'

建议观测指标

  • 请求量、错误率和上游状态码。
  • 平均延迟、P95/P99 延迟和首个令牌返回时间。
  • 提示词令牌、生成令牌和总令牌用量。
  • 按模型、消费者、路由和团队拆分的调用分布。
  • 限流命中、故障转移和安全策略命中次数。

成本跟踪方法

  1. 在日志或指标中保留模型名称、消费者、路由和令牌用量。
  2. 维护模型价格表,包括输入令牌和输出令牌价格。
  3. 按小时、天或账期聚合令牌用量。
  4. 将用量映射到业务团队或成本中心。

安全建议

  • 内容日志可能包含用户输入、业务数据或敏感信息,默认不要开启。
  • 如需排障临时开启内容日志,应设置采样率、保留时间和访问权限。
  • 对日志中的密钥、手机号、邮箱等敏感字段进行脱敏。