管理和保护 AI 流量
API7 AI 网关是 API7 企业版面向 AI 流量的治理能力。它位于业务应用和大模型服务之间,为平台工程、AI 应用、API 安全和云原生团队提供统一控制点,用于集中管理认证鉴权、模型路由、令牌配额、安全策略、成本用量、日志和审计。
你可以在不大幅修改应用代码的情况下,将 OpenAI、Azure OpenAI、Anthropic、DeepSeek、Google Gemini、Vertex AI、OpenRouter 以及兼容 OpenAI 协议的模型接入同一网关入口,并逐步启用限流、故障转移、提示词安全和可观测性策略。
架构
AI 网关通过 API7 数据面的 AI 插件执行流量处理,并由控制面统一下发配置。典型请求链路如下:
每个处理阶段都可以按需启用。你可以先用网关代理一个模型请求,再逐步加入多模型路由、令 牌限流、提示词防护、日志和审计等能力。
核心能力
| 能力 | 说明 | 相关插件 |
|---|---|---|
| 大模型代理 | 通过统一入口访问 OpenAI、DeepSeek、Anthropic、Gemini 以及兼容 OpenAI 协议的模型 | ai-proxy |
| 多模型路由 | 在多个模型、供应商或地域之间执行负载均衡、优先级路由、重试、故障转移和健康检查 | ai-proxy-multi |
| 令牌限流 | 按消费者、路由、模型实例或自定义维度限制令牌用量和请求量,避免成本失控 | ai-rate-limiting |
| 提示词工程 | 在网关层维护提示词模板、系统提示和可复用的提示词装饰策略 | ai-prompt-template, ai-prompt-decorator |
| 内容安全 | 对输入提示词和模型响应执行拦截、内容审核和策略校验 | ai-prompt-guard, ai-aws-content-moderation, ai-aliyun-content-moderation |
| 检索增强生成(RAG) | 在网关层调用检索能力,为大模型请求注入相关上下文 | ai-rag |
| 请求改写 | 使用规则或大模型能力对请求内容进行改写、清洗或补充 | ai-request-rewrite |
| 可观测性 | 记录模型、延迟、令牌用量、首个令牌返回时间、错误和日志,支撑排障、审计和成本分析 | ai-proxy, prometheus |
支持的大模型服务
API7 AI 网关提供多种大模型服务接入方式。你可以优先使用专用驱动,也可以通过兼容 OpenAI 协议的方式接入自托管模型或内部模型服务。
| 服务 | 文档 |
|---|---|
| OpenAI | 接入 OpenAI |
| Azure OpenAI | 接入 Azure OpenAI |
| Anthropic Claude | 接入 Anthropic Claude |
| DeepSeek | 接入 DeepSeek |
| Google Gemini | 接入 Google Gemini |
| Vertex AI | 接入 Vertex AI |
| OpenRouter | 通过 OpenRouter 接入多种大模型 |
| 兼容 OpenAI 协议的模型服务 | 接入兼容 OpenAI 协议的模型服务 |
适用场景
统一 AI 接口入口
将多个大模型服务放在同一个网关入口后,业务团队只需要面对统一的接口地址和认证方式。平台团队可以集中维护模型凭证、调用权限、路由策略和审计规则,降低多团队重复集成不同模型接口的成本。
多模型路由与故障转移
当模型服务出现延迟升高、限额不足或区域故障时,AI 网关可以根据配置执行重试、健康检查和故障转移。对于需要灰度新模型、按成本选择模型或在多个供应商之间做冗余的场景,多模型路由能降低业务侧改造成本。
令牌用量与成本治理
大模型调用通常按令牌计费。通过网关层记录并限制令牌消耗,你可以按消费者、团队、路由或模型设置配额,及时发现异常调用,避免失控请求在账单生成后才被发现。
提示词 / 响应安全治理
AI 网关可以在请求进入模型前检查提示词,在响应返回用户前执行内容治理或日志记录。常见策略包括关键字和正则规则、内容审核、敏感信息脱敏、请求改写和审计留痕。