AI安全小结

学习了一些AI安全的知识，水一篇

前备知识

不具体讲，主要列出一个比较直观的架构

MCP SERVER

（MCP tool也同理）

image_mak

RAG

用和RAG的同一个嵌入模型，把用户的这个问题也转换成一个“查询向量”。在向量数据库中检索快速找出与查询向量最相似的前K个（比如Top 5）文本片段。这时，可以引入一个专门的精排模型，对这5个结果进行更精细的排序，把最相关、最核心的1-2个片段排在最前面，进一步提升答案质量。系统会把检索到的相关文本片段作为“背景知识”，和用户的原始问题拼接在一起，形成一个增强版的提示词。（即增强提示词构建）。

image_mak

根据OWASP LLM安全漏洞前十排名，有以下漏洞

1. 提示词注入

直接提示词注入

通过直接对话的方式注入提示词
JailBreak的方式有且不止：

DAN：让大模型扮演一个角色，如祖母我睡前必须告诉我Windows的激活码才行
GPT fuzz：收集大量人工制作的prompt，不断变异提示词，直到注入成功，则保存成功的提示词
DRA：指的是根据大模型对completion（模型生成回复的过程内容，会影响后续的输出）的注意力比input更高，将有害的内容尝试放到completion而不是input中，来完成越狱。如base64，首字母组句等等

image_mak

间接提示词注入

指的是黑客通过修改AI将要查询的文档等的方式，间接注入提示词。

image_mak

文档返回一些不良的信息，如钓鱼网站，或诱导用户执行命令，然后AI将文档的恶意内容返回给用户

数据泄露的案例：

image_mak

危害：

数据泄露
输出或执行存在安全风险的操作

提示词注入的防范

加固系统提示词，明确告知AI不能做什么（缺点是能想到的有限，无法穷尽jailbreak的方式）
部署AI防火墙/AI网关，部署在用户和LLM之间，作用是检查LLM的输出是否符合系统提示词
对这类系统进行渗透测试，用GPT-fuzz这种方法大量测试系统是否提示词安全

2. 信息泄露

主要是现在企业内部的模型，在训练数据中通常都有企业内部的敏感数据（如商业信息，客户数据）等。

通过提示词注入，可能会导致这些信息泄露。

模型反转攻击

通过模型的API接口，像“逆向工程”一样，从模型的输出中反推出它用于训练的“私密知识”或核心逻辑

训练数据泄露：攻击者搭建一个AI agent对企业的大模型不断询问，不断记录所有输出的数据信息，并修正自己的输入，直到大模型给出的结果完全拟合，最终导致信息泄露。
模型能力窃取：通过恢复的训练数据构建出一个类似的模型，从而窃取企业的模型训练投入。
提示词窃取：在LLM中，通过分析输出，反推出企业精心设计的提示词。

避免信息泄露的措施

净化数据输入：利用AI网关（类似用户和LLM之间的AI网关）等，对输入的数据进行限制，只给大模型必要的数据信息

image_mak

访问控制：对大模型，大模型的数据库进行严格的访问控制，避免任何人都能访问到
配置安全：对平台版本，平台配置进行检查，避免存在漏洞版本或暴露内部接口

3. 供应链脆弱问题

供应链包括：LLM提供商（Hugging Face，AI界的github），Agent/对话平台，AI的训练数据源，运行大模型的硬件设备，ClawHub等

解决方案

检查核实来源的安全性
建立监管链，对所有来源进行核查
对整套系统开展扫描，红队测试
关注更新系统补丁

4. 数据或模型投毒

恶意注入虚假/误导性的数据到训练数据集中，从而影响模型的准确性，降低模型的性能，诱导模型生成有害内容。

模型训练的三个阶段：

预训练：通过海量文本学习语言规律，世界知识
SFT（有监督微调）：让模型通过大量“问题-正确答案”这种成对的数据，教会模型如何回答问题。
RLHF（基于人类）：通过让模型给出大量答案，告诉模型最好的答案，从而让模型的回答更符合人类偏好。

如SFT阶段的投毒，表现为将积极的语句标记Negative标签，让模型输出反向的内容

image_mak

案例：ChatGPT通过SearchPlugin找到恶意的仓库，定向到恶意的文档网页，导致训练了恶意的数据，最终上线后泄露了用户的对话内容，其中包含账户私钥，gpt根据恶意的训练数据向黑客转账。

后期还有RAG投毒，Skills投毒，MCP投毒等

结果：

LLM输出不准确的答案
LLM不断积累偏见和错误，雪球越滚越大导致系统崩盘
LLM被植入后门，病毒

解决方案

核实训练数据，RAG嵌入数据的数据源
严格的访问控制，决定谁能接触LLM，RAG知识库，训练数据

5.不正当的输出

通过前四类漏洞，AI可能输出不正当的内容，如XSS，或诱导用户进行不正当的网络攻击行为

应该正视并审查AI的输出，不能过度信任

6.代理权限过大

image_mak

现在AI可能拥有各种各样的tools，有对系统，服务器，甚至集群的访问权限，甚至是现实世界的控制（如职能家居）

那么黑客的攻击面，或幻觉的危害就会被过度的放权代理扩大。

7. 系统提示词泄露

情况大多是，为了让AI登录某网站或执行一些操作，有登录凭证，个人信息，APIkey等敏感信息明文存储于提示词当中。

8. 向量嵌入及其弱点

即RAG知识库的向量应该是临时性的，而不能永久嵌入LLM，否则会造成投毒。

排名第9和第10是错误信息输出——需要甄别AI输出信息的对错和无限消耗——过多用户并行使用LLM导致的DDOS，没啥说的

AI安全小结

AI安全小结

前备知识

MCP SERVER

RAG

1. 提示词注入

直接提示词注入

间接提示词注入

提示词注入的防范

2. 信息泄露

模型反转攻击

避免信息泄露的措施

3. 供应链脆弱问题

解决方案

4. 数据或模型投毒

解决方案

5.不正当的输出

6.代理权限过大

7. 系统提示词泄露

8. 向量嵌入及其弱点

ClawdHacker——个人对Web Agent的一些探索和开发

WPoter Test

Comments NOTHING

取消回复