Guardrails for Amazon Bedrock 现已推出新的安全过滤器和隐私控制功能

本文作者 Esra Kayabali 亚马逊云科技 高级解决方案架构师 Guardrails for Amaz…

本文作者 Esra Kayabali
亚马逊云科技 高级解决方案架构师

Guardrails for Amazon Bedrock 功能已正式上线,这项功能于亚马逊云科技 re:Invent 2023 期间首次推出预览版。使用该功能可以根据自身使用场景和负责任 AI 政策,为生成式 AI 应用程序实施保护措施。您可以创建多个定制的 Guardrails 防护机制,用于不同的使用场景,并在多个基础模型(FMs)之间应用,从而改善最终用户体验,并在生成式 AI 应用程序中标准化安全控制。您还可以在 Amazon Bedrock 中的所有大语言模型(LLMs)上使用 Guardrails for Amazon Bedrock,包括经过微调的模型。

Guardrails for Amazon Bedrock 在基础模型原生功能的基础上提供了行业领先的安全防护,可帮助客户比今天 Amazon Bedrock 上某些基础模型原生提供的防护多阻止高达 85% 有害内容。Guardrails for Amazon Bedrock 是顶级云供应商中唯一一款可让客户在单一解决方案中为其生成式 AI 应用程序构建和定制安全与隐私保护的负责任 AI 功能,并且它适用于 Amazon Bedrock 中的所有大型语言模型(LLM)以及经过微调的模型。

Aha! 是一家软件公司,为超过 100 万人提供将产品战略付诸实践的服务。Aha! 联合创始人兼首席技术官 Chris Waters 博士表示:

我们的客户每天都依赖我们来设定目标、收集客户反馈,并创建可视化路线图,这就是为什么我们使用 Amazon Bedrock 来实现许多生成式 AI 功能。Amazon Bedrock 提供负责任 AI 特性,使我们能够通过其数据保护和隐私政策来完全控制我们的信息,并通过 Guardrails for Amazon Bedrock 来阻止有害内容。我们通过分析客户提交的反馈,帮助产品经理发现洞见。这只是个开始,我们将继续建立在先进的亚马逊云科技技术之上,信心十足地帮助全球各地的产品开发团队优先考虑接下来要构建的内容。

在预览文章中,Antje 向您展示了如何使用 Guardrails 功能来配置阈值,以过滤各种有害类别的内容,并定义一组在您的应用程序环境中需要避免的主题。内容过滤器现在新增了两个安全类别:不当行为(用于检测犯罪活动)和提示攻击(用于检测提示注入和逃脱尝试)。我们还添加了一些重要的新功能,包括敏感信息过滤器(用于检测和编辑个人身份信息 PII)和词汇过滤器(用于阻止包含亵渎和自定义词语的输入,例如有害词语、竞争对手名称和产品)。

Guardrails for Amazon Bedrock 位于应用程序和模型之间。它会自动评估从应用程序传入模型和从模型传出应用程序的所有内容,以检测并帮助防止落入受限类别的内容。

您可以回顾预览版发布博客中的步骤,了解如何配置禁止主题和内容过滤器:
https://aws.amazon.com/blogs/aws/guardrails-for-amazon-bedrock-helps-implement-safeguards-customized-to-your-use-cases-and-responsible-ai-policies-preview/

接下来我将演示新功能的工作原理。

要开始使用 Guardrails for Amazon Bedrock,可以进入亚马逊云科技管理控制台的 Amazon Bedrock 部分。在这里可以创建 Guardrails 并配置新功能。在 Amazon Bedrock 控制台的导航窗格中,选择 Guardrails,然后选择创建 Guardrails。

输入 Guardrails 的名称和描述,选择下一步进入添加敏感信息过滤器步骤。

使用敏感信息过滤器来检测用户输入和 FM 输出中的敏感和私人信息。根据使用场景,可以选择一组实体,在输入时阻止(例如基于常见问题的聊天机器人不需要用户特定信息)或在输出时编辑(例如基于聊天记录的对话总结)。敏感信息过滤器支持一组预定义的 PII 类型。我还可以根据特定使用场景和需求定义基于正则表达式的自定义实体。

从列表中添加两种 PII 类型(姓名、电子邮件),并使用订单 ID 作为名称,使用 [0-9a-fA-F]{8} 作为正则表达式模式添加一个正则表达式模式。

选择下一步,并在定义阻止信息步骤中输入自定义信息,当 Guardrails 阻止输入或模型响应时,将显示这些信息。在最后一步审核配置,然后选择创建 Guardrails。

导航至 Guardrails 概览页面,并使用测试部分选择 Anthropic Claude Instant 1.2 模型。在提示字段中输入以下呼叫中心记录,然后选择运行。

请总结以下呼叫中心记录。将姓名、电子邮件和订单 ID 放在顶部:客服:欢迎致电 ABC 公司。我能为您做些什么吗?客户:我想取消酒店预订。客服:好的,我可以帮您办理取消手续。请告诉我您的预订号码。客户:好的,我的预订号码是 550e8408。客服:谢谢。为确认信息,请问可以告诉我您的姓名和电子邮件吗?客户:我的名字是 Jane Doe,我的电子邮件是 jane.doe@gmail.com 客服:谢谢确认。我将为您取消预订。

Guardrails 动作显示 Guardrails 功能生效了三次。我使用查看追踪检查详细信息。我注意到 Guardrails 防护机制检测到姓名、电子邮件和订单 ID,并在最终响应中将它们屏蔽。

我使用词汇过滤器阻止包含亵渎和自定义词语的输入(例如竞争对手名称或冒犯性词语)。我勾选过滤亵渎框。亵渎词语列表基于亵渎的全球定义。此外,我还可以指定最多 10,000 个短语(每个短语最多三个单词),由 Guardrails 防护机制阻止。如果我的输入或模型响应包含这些词语或短语,将显示阻止信息。

现在,我在词汇过滤器下选择自定义词语和短语,然后选择编辑。我使用手动添加词语和短语添加自定义词语 CompetitorY。或者,如果我需要上传一串短语,可以使用从本地文件上传或从 Amazon S3 对象上传。我选择保存并退出返回到我的 Guardrails 页面。

我输入一个包含关于虚构公司及其竞争对手信息的提示,并添加问题 CompetitorY 提供了哪些额外功能。我选择运行。

使用查看追踪检查详细信息。我注意到 Guardrails 防护机制根据我配置的策略进行了干预。

Guardrails for Amazon Bedrock 在美国东部(弗吉尼亚北部)和美国西部(俄勒冈州)地区现已上线。

有关定价信息,请访问 Amazon Bedrock 定价页面:
https://aws.amazon.com/cn/bedrock/pricing/

要开始使用此功能,请访问 Guardrails for Amazon Bedrock 网页:
https://aws.amazon.com/cn/bedrock/guardrails/

如需深入技术内容,并了解我们的开发者如何在解决方案中使用 Amazon Bedrock,请访问我们的亚马逊云科技社区网站:
https://community.aws/generative-ai?trk=e8665609-785f-4bbe-86e8-750a3d3e9e61&sc_channel=el

本篇作者

Esra Kayabali
亚马逊云科技高级解决方案架构师,专门从事分析领域,包括数据仓库、数据湖、大数据分析、批处理和实时数据流以及数据集成。她在软件开发和解决方案架构方面拥有超过 10 年的经验。她对协作学习、知识共享以及指导社区探索云技术充满热情。

关于作者: wow

为您推荐

发表回复