实施提示词防护栏
在使用 大型语言模型 (LLM) 时,提示词防护栏提供了额外的保障措施,以保护用户隐私、防止意外或有害的模型行为、阻止幻觉反应,并遵守负责任的 AI 道德标准。
在本文档中,你将了解实施提示词防护栏的一些推荐实践,包括定义允许和拒绝模式、审核内容的毒性、编校敏感信息以及阻止意外输出和幻觉。
前置条件
- 了解如何 代理对 LLM 服务的请求。
实施允许和拒绝模式
在 LLM 集成期间,实施允许和拒绝模式是增强安全性并控制用户交互质量的一种做法。通过定义明确的规则来允许或阻止特定类型的输入,组织可以防止机密或不适当的内容到达模型。这种方法不仅可以防止潜在的滥用和有害输出,还可以确符合规性标准和内部政策。此类防护栏对于维护 AI 系统的完整性和可靠性至关重要,尤其是在处理敏感数据或用户生成的内容时。
ai-prompt-guard 插件通过在网关处检查和验证传入的提示词消息来帮助实施这些防护栏。它根据用户定义的允许和拒绝模式检查请求的内容,以确保只有经批准的输入才能转发到上游 LLM。根据其配置,该插件可以检查最新消息或整个对话历史记录,并且可以设置为检查来自所有角色的提示词或仅来自最终用户的提示词。
审核内容的毒性
审核用户提示词中的内容毒性有助于确保为用户提供安全和尊重的环境。鉴于 LLM 可以根据用户输入生成响应,因此在模型处理之前正确处理并过滤掉有害内容(如亵渎、仇恨言论、侮辱、骚扰、暴力和威胁)至关重要。
ai-aws-content-moderation 和 ai-aliyun-content-moderation 插件通过分析输入提示词中的有毒或不安全内容,并根据每个审核类别的可配置阈值对其进行评估,从而实施这些防护栏。如果请求超过任何配置的阈值,则会在网关处被拒绝,而不会转发到上游 LLM。
阻止幻觉和意外输出
幻觉是指模型生成的事实不正确、误导性或完全捏造的信息,即使它听起来可能合理或自信。有不同的方法来减轻幻觉,其中之一是预先设计系统提示词。例如,你可以配置以下系统提示词:
Before you respond to the user message, on a scale of 0 to 10, how confident are you with your response? If your confidence level is lower than 8/10, respond with "Sorry I do not have an answer that I am confident with" and explain the reasoning. If your confidence level is higher or equal to 8/10, you may return the response to the user.
你还可以预先设计系统提示词以阻止意外输出。例如,你可能希望所有回复都不引用受版权保护的内容中的信息,也不引用任何有争议的来源。你可以配置以下系统提示词:
Provide all responses based on factual information, avoiding any quotes from copyrighted materials. Do not reference or include information from controversial or unreliable sources. Ensure that all content is original, non-derivative, and based on widely accepted, publicly available information.
请参阅 配置提示词装饰器 以了解如何配置这些预先设计的提示词。
编校敏感信息 (PII)
编校敏感信息是提示词防护栏的一个关键方面,尤其是在处理用户生成的内容时。通过检测和屏蔽提示词中的个人身份信息 (PII),你可以降低意外数据泄露的风险,支持遵守隐私法规,并防止敏感数据被发送到上游 LLM。
API7 企业版将很快提供对与外部防护栏解决方案集成的支持,例如 Amazon Bedrock Guardrails。
此外,API7 企业版提供 data-mask 插件,当请求被日志插件记录时,它可以屏蔽请求标头、正文和 URL 查询参数中的敏感信息。请注意,此插件不会修改实际的请求或响应流量。此插件在 APISIX 中不可用。
下一步
你现在已经了解了一些实施提示词防护栏的推荐实践,以便在与 LLM 服务提供商集成时提供额外的保障措施。
还存在其他类型的防护栏,例如拒绝的主题、内容过滤器和替代实施策略。查看其他资源并探索不同的方法可以帮助确定最符合你组织要求的策略。