跳到主要内容

指标参考

本页列出 AISIX 的关键指标,帮助你观测请求量、延迟、token 消耗、缓存、安全护栏和上游状态。

AISIX 会通过 observability.metrics.prometheus.addr 配置的专用指标监听端口,在 GET /metrics 暴露 Prometheus 指标。

/metrics 端点设计上不做认证。请确保该监听端口只在监控网络内可访问。

指标族会在首次观测时按需注册。刚启动后,/metrics 可能返回空响应。请先通过代理发送一次请求,再重新抓取指标序列。

请求与延迟

指标类型标签说明
aisix_requests_totalcounterprovider, model, status, outcome代理请求总数。outcome 可为 successclient_errorupstream_errorrate_limited
aisix_request_duration_secondshistogramprovider, model, status代理请求端到端延迟。
aisix_llm_requests_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome通过代理进入的 LLM 形态请求数。
aisix_llm_request_duration_secondshistogramendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcomeLLM 请求端到端延迟。
aisix_llm_api_latency_secondshistogramendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id仅上游 API 延迟,不包含网关开销。
aisix_llm_time_to_first_token_secondshistogramendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id流式路径中,从请求进入到首个生成 token 分片返回的时间。

用量与成本

指标类型标签说明
aisix_tokens_consumed_totalcounterprovider, model已完成非流式调用中 usage.total_tokens 的累计值。
aisix_llm_input_tokens_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id上游报告的输入 token 数。
aisix_llm_output_tokens_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id上游报告的输出 token 数。
aisix_llm_total_tokens_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id上游报告的总 token 数。
aisix_llm_spend_micro_usd_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id以微美元计的预估花费(1 美元 = 1,000,000 微美元)。

代理健康状态

指标类型标签说明
aisix_proxy_requests_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome带完整标签粒度的全部代理请求。
aisix_proxy_failed_requests_totalcounterendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcomeaisix_proxy_requests_totaloutcome 不是 success 的子集。
aisix_proxy_request_duration_secondshistogramendpoint, inbound_protocol, provider, model, upstream_model, provider_key_id, api_key_id, team_id, user_id, status, outcome带完整标签粒度的端到端延迟。
aisix_proxy_in_flight_requestsgaugeendpoint, inbound_protocol当前活跃的代理请求数。

限流与预算

指标类型标签说明
aisix_ratelimit_rejections_totalcounterscope按作用域统计的限流拒绝数,例如 requeststokens
aisix_ratelimit_remaining_requestsgaugeapi_key_id, modelkey/model 组合剩余请求配额。
aisix_ratelimit_remaining_tokensgaugeapi_key_id, modelkey/model 组合剩余 token 配额。
aisix_budget_limit_usdgaugeapi_key_id, team_id, user_id以美元计的预算上限。
aisix_budget_spent_usdgaugeapi_key_id, team_id, user_id以美元计的已花费预算。
aisix_budget_remaining_usdgaugeapi_key_id, team_id, user_id以美元计的剩余预算。
aisix_budget_reset_secondsgaugeapi_key_id, team_id, user_id距离预算周期重置的秒数。
aisix_budget_details_presentgaugeapi_key_id, team_id, user_id预算 gauge 已填充时为 1,清除时为 0

部署与路由

指标类型标签说明
aisix_deployment_requests_totalcounterprovider, model, upstream_model, provider_key_id调度到目标模型的请求总数。
aisix_deployment_success_responses_totalcounterprovider, model, upstream_model, provider_key_id目标模型返回的成功上游响应数。
aisix_deployment_failure_responses_totalcounterprovider, model, upstream_model, provider_key_id目标模型返回的失败上游响应数。
aisix_deployment_stategaugeprovider, model, upstream_model, provider_key_id运行时健康状态:0 表示健康,1 表示部分失败,2 表示不可用。
aisix_deployment_cooled_down_totalcounterprovider, model, upstream_model, provider_key_id目标模型进入冷却的次数。
aisix_routing_successful_fallbacks_totalcountermodel成功故障转移到下一个路由候选的次数。
aisix_routing_failed_fallbacks_totalcountermodel因无可用候选而故障转移失败的次数。

安全护栏

指标类型标签说明
aisix_guardrail_blocks_totalcounter被输入或输出安全护栏拒绝的请求数。
aisix_guardrail_bypasses_totalcounterreason远程安全护栏不可达但 fail_open 允许请求通过的事件数。reason 可包括 bedrock_5xxbedrock_timeoutbedrock_throttled

用量事件与导出器

指标类型标签说明
aisix_usage_events_emitted_totalcounterhandler, status_code, inbound_protocol成功排队等待投递的用量事件数。status_code 会归入 2xx3xx4xx5xxotherhandler 是端点名称,例如 chatembeddingsmessages
aisix_usage_event_drops_totalcounterreason因 sink 已满或关闭而丢弃的用量事件数。
aisix_otlp_fanout_drops_totalcounterexporter, reason扇出过程中丢弃的 OTLP trace span 数。
aisix_otlp_fanout_failures_totalcounterexporterOTLP trace span 投递失败数。

缓存

指标类型标签说明
aisix_redis_failures_totalcounteroperation配置 Redis 后端时,Redis 缓存操作失败次数。