观测 AI 流量并跟踪大模型成本
AI 流量观测不同于传统 API 观测。对于大模型工作负载,除了请求量、错误率和延迟,还需要关注模型归因、令牌消耗、首个令牌返回时间和按业务维度拆分的成本。
API7 AI 网关可以帮助你采集:
- 请求和响应中的模型元数据。
- 提示词令牌、生成令牌和总令牌数。
- 端到端延迟、上游响应时间和错误信息。
- 可选的请求 / 响应内容日志。
网关不会直接计算账单金额。成本通常通过“令牌用量 x 模型价格表”估算。
启用 AI 日志
ai-proxy 和 ai-proxy-multi 支持日志配置:
logging.summaries:记录模型、耗时、令牌和上游响应时间等摘要字段。logging.payloads:记录请求消息、流式标记和响应文本内容。
建议默认只打开摘要日志,谨慎开启内容日志,避免敏感数据进入日志系统。
- Admin API
- ADC
curl "http://127.0.0.1:7080/apisix/admin/routes?gateway_group_id=default" -X PUT \
-H "X-API-KEY: $ADMIN_API_KEY" \
-d '{
"id": "ai-observability",
"service_id": "'"$SERVICE_ID"'",
"paths": ["/ai"],
"plugins": {
"ai-proxy": {
"provider": "openai",
"auth": { "header": { "Authorization": "Bearer '"$OPENAI_API_KEY"'" } },
"options": { "model": "gpt-4o" },
"logging": {
"summaries": true,
"payloads": false
}
}
}
}'
adc.yaml
services:
- name: AI Observability Service
routes:
- name: ai-observability
uris:
- /ai
plugins:
ai-proxy:
provider: openai
auth:
header:
Authorization: Bearer ${OPENAI_API_KEY}
options:
model: gpt-4o
logging:
summaries: true
payloads: false
建议观测指标
- 请求量、错误率和上游状态码。
- 平均延迟、P95/P99 延迟和首个令牌返回时间。
- 提示词令牌、生成令牌和总令牌用量。
- 按模型、消费者、路由和团队拆分的调用分布。
- 限流命中、故障转移和安全策略命中次数。
成本跟踪方法
- 在日志或指标中保留模型名称、消费者、路由和令牌用量。
- 维护模型价格表,包括输入令牌和输出令牌价格。
- 按小时、天或账期聚合令牌用量。
- 将用量映射到业务团队或成本中心。
安全建议
- 内容日志可能包含用户输入、业务数据或敏感信息,默认不要开启。
- 如需排障临时开启内容日志,应设置采样率、保留时间和访问权限。
- 对日志中的密钥、手机号、邮箱等敏感字段进行脱敏。