指标参考
本页列出 AISIX 的关键指标,帮助你观测请求量、延迟、token 消耗、缓存、安全护栏和上游状态。
AISIX 会通过 observability.metrics.prometheus.addr 配置的专用指标监听端口,在 GET /metrics 暴露 Prometheus 指标。
/metrics 端点设计上不做认证。请确保该监听端口只在监控网络内可访问。
指标族会在首次观测时按需注册。刚启动后,/metrics 可能返回空响应。请先通过代理发送一次请求,再重新抓取指标序列。
请求与延迟
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_requests_total | counter | provider, model, status, outcome | 代理请求总数。outcome 可为 success、client_error、upstream_error 或 rate_limited。 |
aisix_request_duration_seconds | histogram | provider, model, status | 代理请求端到端延迟。 |
aisix_llm_requests_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome | 通过代理进入的 LLM 形态请求数。 |
aisix_llm_request_duration_seconds | histogram | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome | LLM 请求端到端延迟。 |
aisix_llm_api_latency_seconds | histogram | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 仅上游 API 延迟,不包含网关开销。 |
aisix_llm_time_to_first_token_seconds | histogram | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 流式路径中,从请求进入到首个生成 token 分片返回的时间。 |
用量与成本
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_tokens_consumed_total | counter | provider, model | 已完成非流式调用中 usage.total_tokens 的累计值。 |
aisix_llm_input_tokens_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 上游报告的输入 token 数。 |
aisix_llm_output_tokens_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 上游报告的输出 token 数。 |
aisix_llm_total_tokens_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 上游报告的总 token 数。 |
aisix_llm_spend_micro_usd_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id | 以微美元计的预估花费(1 美元 = 1,000,000 微美元)。 |
代理健康状态
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_proxy_requests_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome | 带完整标签粒度的全部代理请求。 |
aisix_proxy_failed_requests_total | counter | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome | aisix_proxy_requests_total 中 outcome 不是 success 的子集。 |
aisix_proxy_request_duration_seconds | histogram | endpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome | 带完整标签粒度的端到端延迟。 |
aisix_proxy_in_flight_requests | gauge | endpoint, inbound_protocol | 当前活跃的代理请求数。 |
限流与预算
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_ratelimit_rejections_total | counter | scope | 按作用域统计的限流拒绝数,例如 requests 或 tokens。 |
aisix_ratelimit_remaining_requests | gauge | api_key_id, model | key/model 组合剩余请求配额。 |
aisix_ratelimit_remaining_tokens | gauge | api_key_id, model | key/model 组合剩余 token 配额。 |
aisix_budget_limit_usd | gauge | api_key_id, team_id, user_id | 以美元计的预算上限。 |
aisix_budget_spent_usd | gauge | api_key_id, team_id, user_id | 以美元计的已花费预算。 |
aisix_budget_remaining_usd | gauge | api_key_id, team_id, user_id | 以美元计的剩余预算。 |
aisix_budget_reset_seconds | gauge | api_key_id, team_id, user_id | 距离预算周期重置的秒 数。 |
aisix_budget_details_present | gauge | api_key_id, team_id, user_id | 预算 gauge 已填充时为 1,清除时为 0。 |
部署与路由
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_deployment_requests_total | counter | provider, model, upstream_model, provider_key_id | 调度到目标模型的请求总数。 |
aisix_deployment_success_responses_total | counter | provider, model, upstream_model, provider_key_id | 目标模型返回的成功上游响应数。 |
aisix_deployment_failure_responses_total | counter | provider, model, upstream_model, provider_key_id | 目标模型返回的失败上游响应数。 |
aisix_deployment_state | gauge | provider, model, upstream_model, provider_key_id | 运行时健康状态:0 表示健康,1 表示部分失败,2 表示不可用。 |
aisix_deployment_cooled_down_total | counter | provider, model, upstream_model, provider_key_id | 目标模型进入冷却的次数。 |
aisix_routing_successful_fallbacks_total | counter | model | 成功故障转移到下一个路由候选的次数。 |
aisix_routing_failed_fallbacks_total | counter | model | 因无可用候选而故障转移失败的次数。 |
安全护栏
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_guardrail_blocks_total | counter | 无 | 被输入或输出安全护栏拒绝的请求数。 |
aisix_guardrail_bypasses_total | counter | reason | 远程安全护栏不可达但 fail_open 允许请求通过的事件数。reason 可包括 bedrock_5xx、bedrock_timeout、bedrock_throttled。 |
用量事件与导出器
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_usage_events_emitted_total | counter | handler, status_code, inbound_protocol | 成功排队等待投递的用量事件数。status_code 会归入 2xx、3xx、4xx、5xx 或 other;handler 是端点名称,例如 chat、embeddings 或 messages。 |
aisix_usage_event_drops_total | counter | reason | 因 sink 已满或关闭而丢弃的用量事件数。 |
aisix_otlp_fanout_drops_total | counter | exporter, reason | 扇出过程中丢弃的 OTLP trace span 数。 |
aisix_otlp_fanout_failures_total | counter | exporter | OTLP trace span 投递失败数。 |
缓存
| 指标 | 类型 | 标签 | 说明 |
|---|---|---|---|
aisix_redis_failures_total | counter | operation | 配置 Redis 后端时,Redis 缓存操作失败次数。 |