网站 工作室,自己在本地建的网站 别人怎么访问教程,wordpress自动格式化代码,网站建设了解最近#xff0c;将视觉整合到大型语言模型#xff08;LLMs#xff09;中的兴趣显著增加#xff0c;催生了大型视觉语言模型#xff08;LVLMs#xff09;。这些模型结合了视觉和文本信息#xff0c;如LLaVA和Gemini#xff0c;已经在包括图像字幕、视觉问题回答和图像检… 最近将视觉整合到大型语言模型LLMs中的兴趣显著增加催生了大型视觉语言模型LVLMs。这些模型结合了视觉和文本信息如LLaVA和Gemini已经在包括图像字幕、视觉问题回答和图像检索等一系列任务中展示了不错的性能。然而LVLMs表现出的行为很容易与其创造者预期的目标不一致经常生成不真实或可能对用户有害的输出。 为了揭示和减轻这些安全风险越狱攻击已经作为一种红队策略出现以绕过防护措施并评估模型的一致性。越狱攻击后攻击者可以说服模型做任何事情导致严重的安全后果例如生成有害或不道德的内容这些内容通常受到一致性指南的禁止。虽然在LVLMs的背景下已经出现了许多使用越狱攻击的披露和演示但大多数攻击传统上都集中在为越狱攻击扰动视觉模态即图像上。这些包括制作视觉对抗性示例和将攻击意图编码为排版图像。然而对齐的LVLMs同时利用视觉和文本特征进行预测从而限制了目前仅扰动单一模态即视觉的攻击的有效性。例如LLaVA会在没有与文本提示相关联的视觉对抗性图像的情况下拒绝回答导致越狱失败。 为了解决这个问题本文介绍了双模态对抗性提示攻击BAP这是一种新的框架通过同时优化视觉和文本提示来越狱LVLMs。 1 LVLM 的结构和工作原理
LVLMLarge Vision Language Model是一种将视觉信息和文本信息融合在一起的大型语言模型。它通过结合图像和文本信息能够在图像理解、图像生成、图像描述、视觉问答等多个任务中展现出强大的能力。
1.1 LVLM 的结构
LVLM包含三个主要模块
视觉模块 : 该模块负责处理图像信息将其编码为特征向量。常见的视觉模块包括 CLIP 模型的视觉编码器等。文本模块: 该模块是一个大型语言模型例如 LLaMA 或 Vicuna负责处理文本信息并执行文本理解和生成任务。视觉语言连接器: 该模块负责将视觉特征和文本特征进行融合例如通过交叉注意力机制或投影层。
1.2 LVLM 的工作原理
LVLM 的工作流程包括以下几个步骤
输入: 将图像和文本作为输入分别传递给视觉模块和文本模块。编码: 视觉模块将图像编码为特征向量文本模块将文本编码为嵌入向量。融合: 视觉语言连接器将视觉特征和文本特征进行融合生成多模态特征。理解/生成: 文本模块根据多模态特征进行文本理解和生成例如图像描述、视觉问答等。 2 BAP的技术框架及攻击流程
双模态对抗性提示 (BAP) 是一种针对大型视觉语言模型 (LVLM) 的攻击方法它通过同时优化文本和图像提示来绕过模型的安全限制从而诱导模型生成有害内容。
2.1 技术框架 查询不可知的视觉扰动BAP利用一个由LLM构建的查询不可知语料库该语料库包含与肯定前缀和否定抑制相关的句子。通过这个语料库BAP优化视觉对抗性提示使其能够鼓励LVLMs无论文本提示的具体意图如何都给出积极的响应。
意图特定的文本优化在有了查询不可知的视觉对抗性提示后BAP进一步优化文本提示以增强在特定有害意图下的越狱能力。这通常遵循以下三个阶段
初始化给定一个有害意图直接将其作为初始文本提示。反馈使用一个评估函数来确定LVLMs对越狱攻击的反应是否成功。迭代如果越狱未成功LLM将根据CoT策略和有害意图分析失败的原因并重新构思文本提示。
2.2 攻击流程
BAP 的攻击流程如下
构建查询无关的图像扰动: 利用 LLM 生成一个包含肯定前缀和否定抑制的少量样本语料库然后使用 PGD 攻击方法在图像中嵌入对抗性扰动使得 LVLM 对任何有害查询都给出积极的响应。构建意图特定的文本提示: 利用 LLM 和 CoT 推理过程分析 LVLM 的响应并根据具体的攻击意图对文本提示进行优化例如通过语义重写、上下文欺骗等方法使得 LVLM 生成特定类型的有害内容。评估攻击效果: 使用评估函数判断 LVLM 的响应是否成功绕过了安全限制并生成有害内容。 3 实验
3.1 实验设置
模型和数据集:
开源 LVLM: LLaVA, MiniGPT-4, InstructBLIP商业 LVLM: Gemini, ChatGLM, Qwen, ERNIE Bot数据集 SafetyBench, AdvBench
评价指标: 使用攻击成功率Attack Success Rate, ASR作为主要指标来评估方法的有效性。
攻击方法对比: 将BAP与两种最先进的越狱攻击进行了比较Liu等人的方法和Qi等人的方法。Liu等人的方法结合了与攻击意图相关的图像和排版文本作为视觉对抗性提示。Qi等人的方法基于特定场景的语料库优化了视觉对抗性提示。
3.2 白盒攻击
查询相关设置: BAP 在 13 个攻击场景下均取得了最高的 ASR平均超过其他攻击方法 49.30%。查询无关设置: BAP 在 IA 和 HS 场景下取得了高 ASR平均超过其他攻击方法 52.98%展示了其泛化攻击能力。
3.3 黑盒攻击
开源 LVLM: BAP 在 LLaVA 和其他两个模型之间的迁移攻击效果较差可能是由于模型架构差异。商业 LVLM: BAP 对商业 LVLM 也取得了部分攻击效果但成功率低于开源 LVLM可能是由于模型架构、训练方法和防御机制等因素的影响。
3.4 消融实验
对BAP方法的两个组成部分进行了消融研究查询不可知的视觉扰动和意图特定的文本优化。
视觉对抗性提示通过三种方式研究了视觉对抗性提示的作用包括比较有无视觉对抗性提示的BAP、使用不同图像作为视觉提示进行BAP攻击以及使用不同语料库优化视觉对抗性提示。文本对抗性提示从两个方面研究了文本对抗性提示的作用包括比较有无文本对抗性提示的BAP以及比较使用不同文本提示生成方法的BAP。
实验结果表明BAP 在各种 LVLM 和场景下都取得了显著的攻击效果证明了其有效性。BAP 的研究对于提高 LVLM 的安全性具有重要意义。 4 相关资源
4.1 BAP官网代码下载
GitHub - NY1024/BAP-Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt
4.2 SafetyBench数据集
SafetyBench是一个全面的基准测试旨在通过多项选择题来评估LLM的安全性能。该数据集包含11435道多项选择题涵盖7个不同的安全隐患类别并且支持中英文两种语言。SafetyBench的目的是提供一个可靠的评估框架以帮助研究人员和开发者全面了解LLM的安全性。
官网下载地址github.com/thu-coai/SafetyBench
4.3 AdvBench数据集
AdvBench则专注于评估和比较LLM在面对恶意提示和后缀时的安全性和鲁棒性。它包含了一些恶意的提示和后缀可以诱导LLM生成有害或不良的文本如制造炸弹、散布谣言、煽动暴力等。AdvBench的设计旨在提高对LLM攻击的认识和防范以及促进LLM的安全性研究。此外AdvBench还包括一个名为AdvBench Subset的子集包含50个提示要求提供32个类别的有害信息。
官网下载地址github.com/thunlp/Advbench