AI安全小结
学习了一些AI安全的知识,水一篇
前备知识
不具体讲,主要列出一个比较直观的架构
MCP SERVER
(MCP tool也同理)

RAG
用和RAG的同一个嵌入模型,把用户的这个问题也转换成一个“查询向量”。在向量数据库中检索快速找出与查询向量最相似的前K个(比如Top 5)文本片段。这时,可以引入一个专门的精排模型,对这5个结果进行更精细的排序,把最相关、最核心的1-2个片段排在最前面,进一步提升答案质量。系统会把检索到的相关文本片段作为“背景知识”,和用户的原始问题拼接在一起,形成一个增强版的提示词。(即增强提示词构建)。

根据OWASP LLM安全漏洞前十排名,有以下漏洞
1. 提示词注入
直接提示词注入
通过直接对话的方式注入提示词
JailBreak的方式有且不止:
- DAN:让大模型扮演一个角色,如祖母我睡前必须告诉我Windows的激活码才行
- GPT fuzz:收集大量人工制作的prompt,不断变异提示词,直到注入成功,则保存成功的提示词
- DRA:指的是根据大模型对completion(模型生成回复的过程内容,会影响后续的输出)的注意力比input更高,将有害的内容尝试放到completion而不是input中,来完成越狱。如base64,首字母组句等等

间接提示词注入
指的是黑客通过修改AI将要查询的文档等的方式,间接注入提示词。

文档返回一些不良的信息,如钓鱼网站,或诱导用户执行命令,然后AI将文档的恶意内容返回给用户
数据泄露的案例:

危害:
- 数据泄露
- 输出或执行存在安全风险的操作
提示词注入的防范
- 加固系统提示词,明确告知AI不能做什么(缺点是能想到的有限,无法穷尽jailbreak的方式)
- 部署AI防火墙/AI网关,部署在用户和LLM之间,作用是检查LLM的输出是否符合系统提示词
- 对这类系统进行渗透测试,用GPT-fuzz这种方法大量测试系统是否提示词安全
2. 信息泄露
主要是现在企业内部的模型,在训练数据中通常都有企业内部的敏感数据(如商业信息,客户数据)等。
通过提示词注入,可能会导致这些信息泄露。
模型反转攻击
通过模型的API接口,像“逆向工程”一样,从模型的输出中反推出它用于训练的“私密知识”或核心逻辑
- 训练数据泄露:攻击者搭建一个AI agent对企业的大模型不断询问,不断记录所有输出的数据信息,并修正自己的输入,直到大模型给出的结果完全拟合,最终导致信息泄露。
- 模型能力窃取:通过恢复的训练数据构建出一个类似的模型,从而窃取企业的模型训练投入。
- 提示词窃取:在LLM中,通过分析输出,反推出企业精心设计的提示词。
避免信息泄露的措施
- 净化数据输入:利用AI网关(类似用户和LLM之间的AI网关)等,对输入的数据进行限制,只给大模型必要的数据信息

-
访问控制:对大模型,大模型的数据库进行严格的访问控制,避免任何人都能访问到
-
配置安全:对平台版本,平台配置进行检查,避免存在漏洞版本或暴露内部接口
3. 供应链脆弱问题
供应链包括:LLM提供商(Hugging Face,AI界的github),Agent/对话平台,AI的训练数据源,运行大模型的硬件设备,ClawHub等
解决方案
- 检查核实来源的安全性
- 建立监管链,对所有来源进行核查
- 对整套系统开展扫描,红队测试
- 关注更新系统补丁
4. 数据或模型投毒
恶意注入虚假/误导性的数据到训练数据集中,从而影响模型的准确性,降低模型的性能,诱导模型生成有害内容。
- 模型训练的三个阶段:
预训练:通过海量文本学习语言规律,世界知识
SFT(有监督微调):让模型通过大量“问题-正确答案”这种成对的数据,教会模型如何回答问题。
RLHF(基于人类):通过让模型给出大量答案,告诉模型最好的答案,从而让模型的回答更符合人类偏好。
如SFT阶段的投毒,表现为将积极的语句标记Negative标签,让模型输出反向的内容

案例:ChatGPT通过SearchPlugin找到恶意的仓库,定向到恶意的文档网页,导致训练了恶意的数据,最终上线后泄露了用户的对话内容,其中包含账户私钥,gpt根据恶意的训练数据向黑客转账。
后期还有RAG投毒,Skills投毒,MCP投毒等
结果:
- LLM输出不准确的答案
- LLM不断积累偏见和错误,雪球越滚越大导致系统崩盘
- LLM被植入后门,病毒
解决方案
- 核实训练数据,RAG嵌入数据的数据源
- 严格的访问控制,决定谁能接触LLM,RAG知识库,训练数据
5.不正当的输出
通过前四类漏洞,AI可能输出不正当的内容,如XSS,或诱导用户进行不正当的网络攻击行为
- 应该正视并审查AI的输出,不能过度信任
6.代理权限过大

现在AI可能拥有各种各样的tools,有对系统,服务器,甚至集群的访问权限,甚至是现实世界的控制(如职能家居)
那么黑客的攻击面,或幻觉的危害就会被过度的放权代理扩大。
7. 系统提示词泄露
情况大多是,为了让AI登录某网站或执行一些操作,有登录凭证,个人信息,APIkey等敏感信息明文存储于提示词当中。
8. 向量嵌入及其弱点
即RAG知识库的向量应该是临时性的,而不能永久嵌入LLM,否则会造成投毒。
排名第9和第10是错误信息输出——需要甄别AI输出信息的对错和无限消耗——过多用户并行使用LLM导致的DDOS,没啥说的









Comments NOTHING