赫章县网站建设,网站建设优惠,张家界网站建设企业,seo快速排名系统大视觉语言模型#xff08;LVLM#xff09;可以解释视觉线索并为用户交互提供简单的答复。这是通过巧妙地将大型语言模型 (LLM) 与大规模视觉指令微调融合来实现的。然而#xff0c;LVLM 只需要手工制作或 LLM 生成的数据集即可通过监督微调 (SFT) 进行对齐。尽管将 LVLM 从…大视觉语言模型LVLM可以解释视觉线索并为用户交互提供简单的答复。这是通过巧妙地将大型语言模型 (LLM) 与大规模视觉指令微调融合来实现的。然而LVLM 只需要手工制作或 LLM 生成的数据集即可通过监督微调 (SFT) 进行对齐。尽管将 LVLM 从标题生成器更改为服从指令的模型效果很好但 LVLM 仍然会生成有害的、恶意的或无用的回复。这表明它们仍然需要更加符合人类的偏好。此外虽然之前的研究鼓励以多轮形式组织视觉指令调整样本但 LVLM 的交互能力受到不同轮之间的弱连接和相互依赖的限制。在这里交互能力评估 LVLM 在多轮交互中使用先验上下文调整其回复的能力。这两个缺点限制了 LVLM 作为视觉助手的实际应用。
来自 SRI International 和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了 DRESS这是一种 LVLM在这项工作中使用法学硕士产生的自然语言反馈 (NLF) 进行独特的教学参见图 1。研究团队指示法学硕士通过为 LVLM 的答复提供具体规则和广泛的照片注释来提供细粒度的反馈。为了与创建以人为本的法学硕士的过程保持一致此反馈注释考虑了三个 H 标准乐于助人、诚实和无害。反馈根据 3H 标准衡量回复的整体质量并提供数字分数和 NLF。研究团队的方法将NLF分为批判和提炼。这是一个新颖的分类。虽然细化 NLF 为 LVLM 提供了关于改进其回复以与地面实况参考保持一致的精确建议但批评 NLF 评估了响应的优点和缺点。这种分类提供了两种 NLF 的自然应用使 LVLM 更适合人类并增强其交互能力。 图1研究人员指导DRESS使用自然语言输入分为批判和细化两类以增强与人类偏好的契合度和交互能力。 研究团队推广了条件强化学习技术来满足 NLF 的不可微分特性并利用这种反馈来训练 LVLM。具体来说研究团队在回复中使用语言建模 (LM) 损失来训练 DRESS以生成基于两个 NLF 的等效回复。研究团队通过分析和解释数值结果来完善 DRESS以更好地匹配用户偏好。通过推理过程中的多轮交互研究团队训练 DRESS 学习通过使用细化 NLF 来细化其原始回复的元技能。
研究团队评估了 DRESS 的多轮交互、对抗性提示的无害性评估、图片说明的诚实性评估以及开放式视觉问题响应的有用性评估。实验结果表明与早期的 LVLM 相比DRESS 可以提供符合人类价值观的回复并具有卓越的交互能力使其能够从反馈中学习并根据需要有效地修改响应。据他们所知研究团队的工作首次解决了 LVLM 的交互能力和所有三个 3H 标准。
研究团队的贡献总结如下
• 研究团队建议使用自然语言反馈NLF可分为批判和提炼NLF来增强LVLM 与人类偏好交互和一致的能力。
• 通过训练模型以提供以 NLF 为条件的匹配响应研究团队推广了条件强化学习方法以成功地适应不可微分的 NLF。与之前的 SOTA 相比研究团队建议的模型 DRESS 基于对乐于助人、诚实和无害对齐的系统评估相对提高了 9.76%、11.52% 和 21.03%。
• 研究小组生成并提供了 63K 个带注释的语言 NLF 示例供公众使用包括 3H 特征。此外研究团队还创建了一个包含 4700 个样本的公开数据集用于无害性比对和 LVLM 评估。
查看 论文和数据集。 这项研究的所有功劳都归功于该项目的研究人员。另外不要忘记加入 我们的 33k ML SubReddit、 41k Facebook 社区、Discord Channel和电子邮件通讯我们在这里分享最新的 AI 研究新闻、酷炫的 AI 项目等等。
如果您喜欢我们的工作您一定会喜欢我们的时事通讯。 大型视觉语言模型LVLM能否从自然语言反馈中学习以提高其对齐和交互能力 很高兴分享 DRESS这是一个通过自然语言反馈训练的 LVLM。 论文https://t.co/UB1pdaN4q1 数据集https://t.co/pUzCcUwyqn pic.twitter.com/Zbc3Cbg097 — 陈杨毅 (YangyiChen6666) 2023 年 11 月 26 日 认识“DRESS”通过自然语言反馈与人类协调和交互的大视觉语言模型 (LVLM) 这篇文章首先出现在MarkTechPost上。