AI安全小结

发布于 11 小时前  14 次阅读


AI安全小结

学习了一些AI安全的知识,水一篇

前备知识

不具体讲,主要列出一个比较直观的架构

MCP SERVER

(MCP tool也同理)

image_mak

RAG

用和RAG的同一个嵌入模型,把用户的这个问题也转换成一个“查询向量”。在向量数据库中检索快速找出与查询向量最相似的前K个(比如Top 5)文本片段。这时,可以引入一个专门的精排模型,对这5个结果进行更精细的排序,把最相关、最核心的1-2个片段排在最前面,进一步提升答案质量。系统会把检索到的相关文本片段作为“背景知识”,和用户的原始问题拼接在一起,形成一个增强版的提示词。(即增强提示词构建)。

image_mak

根据OWASP LLM安全漏洞前十排名,有以下漏洞

1. 提示词注入

直接提示词注入

通过直接对话的方式注入提示词
JailBreak的方式有且不止:

  • DAN:让大模型扮演一个角色,如祖母我睡前必须告诉我Windows的激活码才行
  • GPT fuzz:收集大量人工制作的prompt,不断变异提示词,直到注入成功,则保存成功的提示词
  • DRA:指的是根据大模型对completion(模型生成回复的过程内容,会影响后续的输出)的注意力比input更高,将有害的内容尝试放到completion而不是input中,来完成越狱。如base64,首字母组句等等

image_mak

间接提示词注入

指的是黑客通过修改AI将要查询的文档等的方式,间接注入提示词。

image_mak

文档返回一些不良的信息,如钓鱼网站,或诱导用户执行命令,然后AI将文档的恶意内容返回给用户

数据泄露的案例:

image_mak

危害:

  • 数据泄露
  • 输出或执行存在安全风险的操作

提示词注入的防范

  • 加固系统提示词,明确告知AI不能做什么(缺点是能想到的有限,无法穷尽jailbreak的方式)
  • 部署AI防火墙/AI网关,部署在用户和LLM之间,作用是检查LLM的输出是否符合系统提示词
  • 对这类系统进行渗透测试,用GPT-fuzz这种方法大量测试系统是否提示词安全

2. 信息泄露

主要是现在企业内部的模型,在训练数据中通常都有企业内部的敏感数据(如商业信息,客户数据)等。

通过提示词注入,可能会导致这些信息泄露。

模型反转攻击

通过模型的API接口,像“逆向工程”一样,从模型的输出中反推出它用于训练的“私密知识”或核心逻辑

  • 训练数据泄露:攻击者搭建一个AI agent对企业的大模型不断询问,不断记录所有输出的数据信息,并修正自己的输入,直到大模型给出的结果完全拟合,最终导致信息泄露
  • 模型能力窃取:通过恢复的训练数据构建出一个类似的模型,从而窃取企业的模型训练投入。
  • 提示词窃取:在LLM中,通过分析输出,反推出企业精心设计的提示词

避免信息泄露的措施

  • 净化数据输入:利用AI网关(类似用户和LLM之间的AI网关)等,对输入的数据进行限制,只给大模型必要的数据信息

image_mak

  • 访问控制:对大模型,大模型的数据库进行严格的访问控制,避免任何人都能访问到

  • 配置安全:对平台版本,平台配置进行检查,避免存在漏洞版本或暴露内部接口

3. 供应链脆弱问题

供应链包括:LLM提供商(Hugging Face,AI界的github),Agent/对话平台,AI的训练数据源,运行大模型的硬件设备,ClawHub等

解决方案

  • 检查核实来源的安全性
  • 建立监管链,对所有来源进行核查
  • 对整套系统开展扫描,红队测试
  • 关注更新系统补丁

4. 数据或模型投毒

恶意注入虚假/误导性的数据到训练数据集中,从而影响模型的准确性,降低模型的性能,诱导模型生成有害内容。

  • 模型训练的三个阶段:
预训练:通过海量文本学习语言规律,世界知识
SFT(有监督微调):让模型通过大量“问题-正确答案”这种成对的数据,教会模型如何回答问题。
RLHF(基于人类):通过让模型给出大量答案,告诉模型最好的答案,从而让模型的回答更符合人类偏好。

SFT阶段的投毒,表现为将积极的语句标记Negative标签,让模型输出反向的内容

image_mak

案例:ChatGPT通过SearchPlugin找到恶意的仓库,定向到恶意的文档网页,导致训练了恶意的数据,最终上线后泄露了用户的对话内容,其中包含账户私钥,gpt根据恶意的训练数据向黑客转账。

后期还有RAG投毒Skills投毒MCP投毒

结果:

  • LLM输出不准确的答案
  • LLM不断积累偏见和错误,雪球越滚越大导致系统崩盘
  • LLM被植入后门,病毒

解决方案

  • 核实训练数据,RAG嵌入数据的数据源
  • 严格的访问控制,决定谁能接触LLM,RAG知识库,训练数据

5.不正当的输出

通过前四类漏洞,AI可能输出不正当的内容,如XSS,或诱导用户进行不正当的网络攻击行为

  • 应该正视并审查AI的输出,不能过度信任

6.代理权限过大

image_mak

现在AI可能拥有各种各样的tools,有对系统,服务器,甚至集群的访问权限,甚至是现实世界的控制(如职能家居)

那么黑客的攻击面,或幻觉的危害就会被过度的放权代理扩大。

7. 系统提示词泄露

情况大多是,为了让AI登录某网站或执行一些操作,有登录凭证,个人信息,APIkey等敏感信息明文存储于提示词当中。

8. 向量嵌入及其弱点

即RAG知识库的向量应该是临时性的,而不能永久嵌入LLM,否则会造成投毒。

排名第9和第10是错误信息输出——需要甄别AI输出信息的对错无限消耗——过多用户并行使用LLM导致的DDOS,没啥说的

A web ctfer from 0RAYS
最后更新于 2026-03-10