检测到异常高置信度内容过滤器阻止
编辑检测到异常高置信度内容过滤器阻止
编辑检测重复的高置信度阻止操作,并结合特定的内容过滤器策略违规,其代码包括不当行为、仇恨、性、侮辱、提示攻击、暴力,表明持续的滥用或试图探测模型的道德界限。
规则类型: esql
规则索引: 无
严重性: 中
风险评分: 47
运行频率: 10分钟
搜索索引时间范围: now-60m (日期数学格式,另请参阅 附加回溯时间
)
每次执行的最大告警数: 100
参考:
标签:
- 领域: LLM
- 数据源: AWS Bedrock
- 数据源: AWS S3
- 用例: 策略违规
- Mitre Atlas: T0051
- Mitre Atlas: T0054
版本: 5
规则作者:
- Elastic
规则许可证: Elastic License v2
调查指南
编辑分类和分析
调查 Amazon Bedrock Guardrail 高置信度内容过滤器阻止。
Amazon Bedrock Guardrail 是 Amazon Bedrock 中一组旨在帮助企业对其生成式 AI 应用程序应用强大的安全性和隐私控制的功能。
它允许用户设置指导方针和过滤器,以管理内容质量、相关性和对负责任的 AI 实践的遵守情况。
通过 Guardrail,组织可以启用针对仇恨、侮辱、性暴力和不当行为的内容过滤器,以及提示攻击过滤器,以防止模型生成特定不受欢迎的主题的内容,并且可以为有害内容类别建立阈值。
可能的调查步骤
- 确定导致高置信度内容过滤器阻止的用户帐户,以及该帐户是否应该执行此类操作。
- 调查过去 48 小时内与该用户帐户相关的其他告警。
- 考虑一天中的时间。如果用户是人类(而不是程序或脚本),则该活动是否发生在正常的一天中的时间?
- 检查过去 24 小时内该帐户的提示和响应。
- 如果您怀疑该帐户已被盗用,请通过跟踪过去 24 小时内该帐户对 Amazon Bedrock 模型的访问、生成的提示以及对提示的响应,来确定潜在的受损资产范围。
误报分析
- 验证查询被拒绝主题的用户帐户是否未在 Amazon Bedrock guardrails 中测试任何新的模型部署或更新的合规策略。
响应和补救
- 根据分类的结果启动事件响应流程。
- 在调查和响应期间禁用或限制该帐户。
- 确定事件的可能影响并相应地确定优先级;以下操作可以帮助您获得上下文
- 确定该帐户在云环境中的角色。
- 确定攻击者是否正在横向移动并危及其他 Amazon Bedrock 服务。
- 确定与此活动相关的任何监管或法律影响。
- 查看分配给这些请求背后的相关用户组或角色的权限,以确保他们被授权访问 bedrock,并确保遵循最小权限原则。
- 确定攻击者滥用的初始向量,并采取行动以防止通过相同的向量再次感染。
- 使用事件响应数据,更新日志记录和审计策略,以提高平均检测时间 (MTTD) 和平均响应时间 (MTTR)。
设置
编辑设置
此规则要求在 AWS Bedrock 中配置 guardrails。有关更多信息,请参阅 AWS Bedrock 文档
https://docs.aws.amazon.com/bedrock/latest/userguide/guardrails-create.html
规则查询
编辑from logs-aws_bedrock.invocation-* | MV_EXPAND gen_ai.compliance.violation_code | MV_EXPAND gen_ai.policy.confidence | MV_EXPAND gen_ai.policy.name | where gen_ai.policy.action == "BLOCKED" and gen_ai.policy.name == "content_policy" and gen_ai.policy.confidence LIKE "HIGH" and gen_ai.compliance.violation_code IN ("HATE", "MISCONDUCT", "SEXUAL", "INSULTS", "PROMPT_ATTACK", "VIOLENCE") | keep user.id, gen_ai.compliance.violation_code | stats block_count_per_violation = count() by user.id, gen_ai.compliance.violation_code | SORT block_count_per_violation DESC | keep user.id, gen_ai.compliance.violation_code, block_count_per_violation | STATS violation_count = SUM(block_count_per_violation) by user.id | WHERE violation_count > 5 | SORT violation_count DESC