集成模型
集成模型让调用方只使用一个模型别名,同时由 AISIX 请求多个 panel 模型生成候选响应,再请求 judge 模型合成最终答案。当应用需要一个综合多个模型尝试结果的答案,而不是单一路由目标的答案时,可以使用集成模型。
集成模型包含两部分:
- Panel 模型负责生成候选响应。
- Judge 模型 接收成功的 panel 响应,并生成返回给调用方的最终响应。
Panel 成员和 judge 必须引用已有的直接模型别名。请在这些直接模型上配置服务提供方凭证、服务提供方模型名称、健康行为、冷却行为和模型级限流。
请先创建 panel 和 judge 模型,再创建集成别名:
{
"display_name": "research-ensemble",
"ensemble": {
"panel": [
{ "model": "gpt-4o-panel" },
{ "model": "claude-panel" },
{ "model": "gemini-panel" }
],
"judge": {
"model": "gpt-4o-judge"
},
"min_responses": 2,
"timeout_ms": 30000
}
}
省略 min_responses 时,AISIX 最多要求两个成功的 panel 响应,并受 panel 数量限制。timeout_ms 会作用于每个 panel 调用和 judge 调用。集成模型支持 Chat Completions 请求,包括流式请求。
当服务提供方用量可用时,集成响应的用量会包含 panel 调用和 judge 调用。请求级限制作用于面向调用方的集成别名;当 AISIX 调用被引用的 panel 和 judge 模型时,模型级限制会分别作用于这些模型。
完整的模型资源结构请参见模型别名。