集成模型

集成模型让调用方只使用一个模型别名，同时由 AISIX 请求多个 panel 模型生成候选响应，再请求 judge 模型合成最终答案。当应用需要一个综合多个模型尝试结果的答案，而不是单一路由目标的答案时，可以使用集成模型。

集成模型包含两部分：

Panel 模型负责生成候选响应。
Judge 模型接收成功的 panel 响应，并生成返回给调用方的最终响应。

Panel 成员和 judge 必须引用已有的直接模型别名。请在这些直接模型上配置服务提供方凭证、服务提供方模型名称、健康行为、冷却行为和模型级限流。

请先创建 panel 和 judge 模型，再创建集成别名：

{
  "display_name": "research-ensemble",
  "ensemble": {
    "panel": [
      { "model": "gpt-4o-panel" },
      { "model": "claude-panel" },
      { "model": "gemini-panel" }
    ],
    "judge": {
      "model": "gpt-4o-judge"
    },
    "min_responses": 2,
    "timeout_ms": 30000
  }
}

省略 min_responses 时，AISIX 最多要求两个成功的 panel 响应，并受 panel 数量限制。timeout_ms 会作用于每个 panel 调用和 judge 调用。集成模型支持 Chat Completions 请求，包括流式请求。

当服务提供方用量可用时，集成响应的用量会包含 panel 调用和 judge 调用。请求级限制作用于面向调用方的集成别名；当 AISIX 调用被引用的 panel 和 judge 模型时，模型级限制会分别作用于这些模型。

完整的模型资源结构请参见模型别名。