可信AI入门

Posted May 10, 2024

By Yuyao Jiang 15 min read

腾讯每日安全

安全大模型-AI时代网络安全之道

大模型为网络安全带来了什么？

OWASP

方向

做大模型的安全防护，方向是内容合规，提示注入，数据泄露等（数据隐私保护、模型防御、内容合规、恶意行为检测）

大模型的安全性和可信度

Generative AI：

移除标注资料的限制，对于没有标注的资料X，自我产生资料中隐藏的信息。对于有标注的资料X，训练过程中可以引入强化学习

Discriminative AI：

训练出好的分辨器classifier，利用有限的资料分布找出映射函数F(X)，对没有标注的X的资料，预测其Y

模型的对抗性样本攻击：

对模型输入进行微小改动，欺骗模型产生错误预测。制造虚假信息

数据安全和隐私问题：

传输截获风险 - 保护数据的机密性和完整性
运营方根据精调和推理时获得的个人身份信息、企业的敏感数据，针对性的广告投放和推销策略。以及将数据泄露给第三方
模型记忆内容泄密的风险 - 输出暴露训练数据的特征分布，构建类似的数据集、还原部分数据 -定期评估更新模型，加密和访问控制
模型的逆向工程 - 能还原部署模型的架构、权重和训练数据 - 知识产权盗窃、模型盗用、安全漏洞的暴露
攻击者通过恶意输入来攻击系统 - 导致安全漏洞
模型更新 - 更新引入新的漏洞和问题 - 版本控制，备份，验证稳定性

大模型的辅助标注

大模型的风险类型

提示注入攻击，对抗攻击，后门攻击、数据污染、软件漏洞、隐私滥用等

预训练模型中存在大量知识；预训练模型本身具有少样本学习能力。

提示注入攻击的定义

prompt injection 通过使用恶意指令作为输入提示一部分通过操纵语言模型的正常输出过程以导致大语言模型产生不适当、有偏见或有害的输出

系统指令和用户输入提示词的模糊性，模型将两者统一当作指令处理，缺乏对提示词严格验证的机制

提示注入是针对llm应用程序的攻击手段，关键将用户的不可信输入和开发者的可信提示结合，区别于越狱（企图绕过大语言模型内置安全过滤机制的攻击方式）

指令注入攻击（Prompt injection）与Prompt Engineering本质上并无区别，甚至算得上是一种更高级的使用技巧，都是使用专业、合理、优化的指令获得期望的输出。只不过Prompt Engineering是用户使用视角的，而 prompt injection 是黑客攻击视角的。如果仅限于文本生成，指令注入攻击的危害其实并不是很大。但如果大语言模型被赋予「执行权」，后果不堪设想链接

提示注入攻击的分类

直接提示注入 - 恶意指令直接输入给模型分为目标劫持（同类型目标劫持、跨类型目标劫持）、提示泄露（系统提示泄露、用户提示泄露）、越狱攻击（模拟对话、角色扮演、对立响应）

间接提示注入 - 恶意指令通过文档、网页、图像等载体给模型检索/摄入

提示注入防御的定义

通过防护策略，使提示注入攻击失效，阻止敏感内容的输出

提示注入防御的分类

输入侧防御：提示过滤（基于规则的输入提示分类、基于模型的输入提示分类），提示增强（语义增强、结构增强、组合增强）

输出侧防御：内容审核过滤（基于规则的输出内容检测、基于模型的输出内容识别）

埋点

为了追踪用户行为，基于业务或产品需求对用户在应用内产生行为的每个事件对应的页面和位置植入相关代码，通过采集工具上报统计数据

Trustworthy AI

可信AI的焦点：可解释性/透明度、公平性、AI 安全和鲁棒性稳健性、隐私保护（基于差分隐私的数据隐私保护、基于密码学的模型隐私保护-同态加密/安全多方计算、联邦学习）、以人为中心的AI

可解释性（给出决策时提供预测依据和思维链解释）

黑盒属性（训练语料、架构）、幻觉 hallucination（对于用户否定的提示信息，模型倾向于否定先前结果迎合用户）

公平性

有偏训练数据，模型会以更高的频率对某种属性进行参数优化，放大偏见知识

鲁棒性

对抗性样本生成、模型修饰和防御、对抗性训练。提高AI 系统的稳定性和安全性，防止其被误导或滥用

隐私保护

差分隐私、多方计算、同态加密。用于保护敏感数据并确保AI 系统符合隐私法规和规定。

基于硬件的可信执行环境（TEE，Trusted Execution Environment）方案、基于密码学的多方安全计算（MPC，Multi-Party Computation）方案和基于多方协同训练的联邦学习（FL，Federated Learning）方案

终端模型相比于服务端模型有优势

可信AI 的评估 - 检测工具

微软公平性的Fairlearn, 鲁棒性adversarial robustness toolbox

RobustBench, 新加坡 A.I. Verify，蚂蚁蚁鉴

目前，OpenAI 已开源Evals 评测框架，伯克利大学推出elo 排行榜；在国内，清华大学发布了大模型安全测评平台，科大讯飞推出人工智能评测体系，中国移动提出AI 大模型可信安全实施框架，中国信通院成立可信人工智能推进计划以及人工智能工程化委员会大模型工作组，共同研制系列标准

构建大模型的核心：pre-training, instruction tuning, supervised fine-tuning, reinforcement learning with human feedback

大模型的参数量使其获得知识涌现的能力：更强的上下文学习能力in-context learning, 理解任务指令来执行新任务的泛化能力instruction following，对于中间步骤的思维链推理能力chain of thought

大模型的问题：训练成本高昂，静态训练数据的时效性，训练结果的真实性，最终走向通用人工智能artificial general intelligence 和超级智能（ASI）

技术点：利用联邦学习LR 逻辑回归、XGB 极端梯度提升联合建模得到高净值客户，AUC曲线下面积和Kolmogorov-Smirnov检验

大模型的生成式攻击

加快虚假内容的制作速度，文本上的虚假信息，图像视频上的人脸替换

大模型的生成式防御

人工标注的数据集，二分类模型人类生成/AI生成

大模型自身的风险隐患

数据泄露：1模型prompt泄露（prompt+llm 替代传统的预训练+微调）2用户敏感数据的隐私泄露 3大模型依赖的软件库 4大模型的伦理道德问题，存在仇恨言论、违法犯罪、敏感话题

违规内容输出的伦理问题。面对输入的敏感问题，现有大模型通常在内容生成后的下游接入内容检测模型，对大模型生成的内容进行有害内容的检测与分类。然而，训练内容检测模型需要人工标注的有害内容数据集，静态且有限规模的人工标注数据集无法完全覆盖日新月异的用户输入，使得总有模型生成的有害内容绕过检测模型的风险，最终使大模型错误地输出了不良内容。究其根本，是有害样本的人工标注难以全面覆盖用户动态更新的敏感话题，致使内容检测模型的无效并使有害内容最终被大模型输出。

价值对齐 和人类的价值、真实意图、伦理原则对齐

为什么要价值对齐 1幻觉/输出错误信息 2算法歧视输出有社会偏见的言论或刻板印象 3涌现的能力不符合人类意义和价值 4被对抗性输入的攻击

如何确保价值对齐 1训练过滤模型识别并管控违规输入和输出 2构造价值对齐的专门数据集，消除带偏见的训练数据 3通过人类反馈数据进行RLHF，纠正模型 4通过对抗测试adversarial testing/红队测试 red teaming 价值对齐