当前位置: 首页 > news >正文

网站 工作室自己在本地建的网站 别人怎么访问教程

网站 工作室,自己在本地建的网站 别人怎么访问教程,wordpress自动格式化代码,网站建设了解最近#xff0c;将视觉整合到大型语言模型#xff08;LLMs#xff09;中的兴趣显著增加#xff0c;催生了大型视觉语言模型#xff08;LVLMs#xff09;。这些模型结合了视觉和文本信息#xff0c;如LLaVA和Gemini#xff0c;已经在包括图像字幕、视觉问题回答和图像检…        最近将视觉整合到大型语言模型LLMs中的兴趣显著增加催生了大型视觉语言模型LVLMs。这些模型结合了视觉和文本信息如LLaVA和Gemini已经在包括图像字幕、视觉问题回答和图像检索等一系列任务中展示了不错的性能。然而LVLMs表现出的行为很容易与其创造者预期的目标不一致经常生成不真实或可能对用户有害的输出。 为了揭示和减轻这些安全风险越狱攻击已经作为一种红队策略出现以绕过防护措施并评估模型的一致性。越狱攻击后攻击者可以说服模型做任何事情导致严重的安全后果例如生成有害或不道德的内容这些内容通常受到一致性指南的禁止。虽然在LVLMs的背景下已经出现了许多使用越狱攻击的披露和演示但大多数攻击传统上都集中在为越狱攻击扰动视觉模态即图像上。这些包括制作视觉对抗性示例和将攻击意图编码为排版图像。然而对齐的LVLMs同时利用视觉和文本特征进行预测从而限制了目前仅扰动单一模态即视觉的攻击的有效性。例如LLaVA会在没有与文本提示相关联的视觉对抗性图像的情况下拒绝回答导致越狱失败。 为了解决这个问题本文介绍了双模态对抗性提示攻击BAP这是一种新的框架通过同时优化视觉和文本提示来越狱LVLMs。 1  LVLM 的结构和工作原理 LVLMLarge Vision Language Model是一种将视觉信息和文本信息融合在一起的大型语言模型。它通过结合图像和文本信息能够在图像理解、图像生成、图像描述、视觉问答等多个任务中展现出强大的能力。 1.1 LVLM 的结构 LVLM包含三个主要模块 视觉模块 : 该模块负责处理图像信息将其编码为特征向量。常见的视觉模块包括 CLIP 模型的视觉编码器等。文本模块: 该模块是一个大型语言模型例如 LLaMA 或 Vicuna负责处理文本信息并执行文本理解和生成任务。视觉语言连接器: 该模块负责将视觉特征和文本特征进行融合例如通过交叉注意力机制或投影层。 1.2 LVLM 的工作原理 LVLM 的工作流程包括以下几个步骤 输入: 将图像和文本作为输入分别传递给视觉模块和文本模块。编码: 视觉模块将图像编码为特征向量文本模块将文本编码为嵌入向量。融合: 视觉语言连接器将视觉特征和文本特征进行融合生成多模态特征。理解/生成: 文本模块根据多模态特征进行文本理解和生成例如图像描述、视觉问答等。 2 BAP的技术框架及攻击流程 双模态对抗性提示 (BAP) 是一种针对大型视觉语言模型 (LVLM) 的攻击方法它通过同时优化文本和图像提示来绕过模型的安全限制从而诱导模型生成有害内容。 2.1 技术框架 查询不可知的视觉扰动BAP利用一个由LLM构建的查询不可知语料库该语料库包含与肯定前缀和否定抑制相关的句子。通过这个语料库BAP优化视觉对抗性提示使其能够鼓励LVLMs无论文本提示的具体意图如何都给出积极的响应。 意图特定的文本优化在有了查询不可知的视觉对抗性提示后BAP进一步优化文本提示以增强在特定有害意图下的越狱能力。这通常遵循以下三个阶段 初始化给定一个有害意图直接将其作为初始文本提示。反馈使用一个评估函数来确定LVLMs对越狱攻击的反应是否成功。迭代如果越狱未成功LLM将根据CoT策略和有害意图分析失败的原因并重新构思文本提示。 2.2 攻击流程 BAP 的攻击流程如下 构建查询无关的图像扰动: 利用 LLM 生成一个包含肯定前缀和否定抑制的少量样本语料库然后使用 PGD 攻击方法在图像中嵌入对抗性扰动使得 LVLM 对任何有害查询都给出积极的响应。构建意图特定的文本提示: 利用 LLM 和 CoT 推理过程分析 LVLM 的响应并根据具体的攻击意图对文本提示进行优化例如通过语义重写、上下文欺骗等方法使得 LVLM 生成特定类型的有害内容。评估攻击效果: 使用评估函数判断 LVLM 的响应是否成功绕过了安全限制并生成有害内容。 3 实验 3.1 实验设置 模型和数据集: 开源 LVLM: LLaVA, MiniGPT-4, InstructBLIP商业 LVLM: Gemini, ChatGLM, Qwen, ERNIE Bot数据集 SafetyBench, AdvBench 评价指标: 使用攻击成功率Attack Success Rate, ASR作为主要指标来评估方法的有效性。 攻击方法对比: 将BAP与两种最先进的越狱攻击进行了比较Liu等人的方法和Qi等人的方法。Liu等人的方法结合了与攻击意图相关的图像和排版文本作为视觉对抗性提示。Qi等人的方法基于特定场景的语料库优化了视觉对抗性提示。 3.2 白盒攻击 查询相关设置: BAP 在 13 个攻击场景下均取得了最高的 ASR平均超过其他攻击方法 49.30%。查询无关设置: BAP 在 IA 和 HS 场景下取得了高 ASR平均超过其他攻击方法 52.98%展示了其泛化攻击能力。 3.3 黑盒攻击 开源 LVLM: BAP 在 LLaVA 和其他两个模型之间的迁移攻击效果较差可能是由于模型架构差异。商业 LVLM: BAP 对商业 LVLM 也取得了部分攻击效果但成功率低于开源 LVLM可能是由于模型架构、训练方法和防御机制等因素的影响。 3.4 消融实验 对BAP方法的两个组成部分进行了消融研究查询不可知的视觉扰动和意图特定的文本优化。 视觉对抗性提示通过三种方式研究了视觉对抗性提示的作用包括比较有无视觉对抗性提示的BAP、使用不同图像作为视觉提示进行BAP攻击以及使用不同语料库优化视觉对抗性提示。文本对抗性提示从两个方面研究了文本对抗性提示的作用包括比较有无文本对抗性提示的BAP以及比较使用不同文本提示生成方法的BAP。 实验结果表明BAP 在各种 LVLM 和场景下都取得了显著的攻击效果证明了其有效性。BAP 的研究对于提高 LVLM 的安全性具有重要意义。 4 相关资源 4.1 BAP官网代码下载 GitHub - NY1024/BAP-Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt 4.2 SafetyBench数据集 SafetyBench是一个全面的基准测试旨在通过多项选择题来评估LLM的安全性能。该数据集包含11435道多项选择题涵盖7个不同的安全隐患类别并且支持中英文两种语言。SafetyBench的目的是提供一个可靠的评估框架以帮助研究人员和开发者全面了解LLM的安全性。 官网下载地址github.com/thu-coai/SafetyBench 4.3 AdvBench数据集 AdvBench则专注于评估和比较LLM在面对恶意提示和后缀时的安全性和鲁棒性。它包含了一些恶意的提示和后缀可以诱导LLM生成有害或不良的文本如制造炸弹、散布谣言、煽动暴力等。AdvBench的设计旨在提高对LLM攻击的认识和防范以及促进LLM的安全性研究。此外AdvBench还包括一个名为AdvBench Subset的子集包含50个提示要求提供32个类别的有害信息。 官网下载地址github.com/thunlp/Advbench
http://www.pierceye.com/news/608894/

相关文章:

  • 网页版拍图搜题seo的流程是怎么样的
  • 吴中区做网站那个网站可以找人做设计师
  • 光效网站网站建设方案浩森宇特
  • 亚马逊网站入口英文专业的网站设计
  • 赤水市白房建设局网站企业网站如何进行定位
  • 有私人做网站的吗网页界面设计方法
  • 免费 网站模板中国建设银行总行门户网站
  • 网站推广的方式公司组网
  • 推广 网站的优秀文案劳务输送网站建设方案
  • 特色的岑溪网站开发济南响应式网站开发
  • 网站源码官网招聘网站内容建设
  • 网站如何布局wordpress 商城系统
  • 深圳专业设计网站平台网站开发国内外现状研究
  • 哪个建站软件比较好带论坛无锡网站推广优化公司
  • 英文网站建设方案 ppt模板国内代理ip免费网址
  • 城乡建设网站 资料员深圳定制型网站建设
  • 浦江网站建设微信开发手机html编辑器
  • 做网站的个人总结论坛内网站怎么建设
  • 那里有个人做网站的如何建设网页制作的网站
  • 佛山网站建设玲念建站会议管理系统
  • 网站开发需要什么资质天马行空网站建设
  • 猎聘网网站建设目标怎么做网站上的模拟动画
  • 南通制作企业网站福州做网站设计
  • 上什么网站做会计教育wordpress cookies
  • 山东网站备案号四川省建筑信息网
  • 网站开发可以用哪些语言中国十二冶金建设有限公司网站
  • 中药网站模板襄阳seo优化服务
  • 做爰片免费观看网站会展企业网站建设方案
  • 国内空间没备案可以打开网站吗dw做网站 怎么做背景图片
  • host绑定网站国外网站风格