当前位置：首页 > news >正文

网站开发人员的生活建设网站有什么作用是什么

news 2025/11/16 0:26:38

网站开发人员的生活,建设网站有什么作用是什么,wordpress批量文章,重庆住建网站25年3月来自香港中文大学的论文“TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation”。本文也是在解决现有数据集和模型在面向任务的手部-目标交互视频生成方面的关键限制#xff0c;这是为机器人模…25年3月来自香港中文大学的论文“TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation”。本文也是在解决现有数据集和模型在面向任务的手部-目标交互视频生成方面的关键限制这是为机器人模仿学习生成视频演示的关键方法。当前的数据集例如 Ego4D [16]经常受到视角不一致和交互错位的影响导致视频质量下降并限制了它们在精确模仿学习任务中的适用性。为此推出 TASTE-Rob——一个开创性的大规模数据集包含 100,856 个以自我为中心的手部-目标交互视频。每个视频都与语言指令精心对齐并从一致的摄像机视角录制以确保交互清晰度。通过微调 TASTE-Rob 上的视频扩散模型 (VDM)实现逼真的目标交互尽管手部抓握姿势偶尔存在不一致的情况。为了增强真实感引入一个三阶段姿势细化流程可提高生成视频中手势的准确性。所挑选的数据集加上专门的姿势细化框架在生成高质量、面向任务的手部物体交互视频方面提供显著的性能提升从而实现卓越的可通用机器人操作。其收集一个海量且多样化的以自我为中心、面向任务的手-目标交互HOI视频数据集 TASTE-Rob其中包含 100,856 对视频及其对应的语言任务指令。为了服务于 HOI 视频生成TASTE-Rob 需要实现以下目标1每段视频均采用静态摄像机视角录制并包含与任务指令紧密契合的单一动作。2涵盖多样化的环境和任务。3展现不同 HOI 场景中的各种手势。数据收集策略与摄像机设置为了实现第一个目标用多个配备广角镜头的摄像机能够拍摄 1080p 的以自我为中心的视频。在每次录制过程中进行以下改进。首先由于数据收集旨在为 IL 中演示生成面向任务的 HOI 视频而为了实现有效的机器人模仿学习演示通常从固定的摄像机视点录制因此确保在录制过程中不会发生摄像机视角的变化。此外如图所示专门调整摄像机视角以匹配 Ego4D [16] 的头戴式摄像机设置确保与自我中心视角保持一致。第二个目标是确保 TASTE-Rob 中的语言任务指令和视频动作之间精确对齐这是保持生成的 HOI 视频中动作完整性的关键方面。与 Ego4D [16] 通过头戴式摄像机捕获日常活动的扩展记录并分割成更短的片段不同本文采用了更受控制的收集协议1) 每个视频的时长严格限制在 8 秒以内并捕获单个动作。 2采集器遵循结构化的记录流程按下“开始记录”按钮根据提供的指令执行指定的HOI任务并在任务完成后停止记录。这种方法确保了操作和任务指令之间的精确对应。数据多样性环境和任务的分布。为了实现广泛的泛化TASTE-Rob 中的视频录制于不同的环境中涵盖广泛的 HOI 任务。如图所示环境包括厨房、卧室、餐桌、办公桌等地点。收集者需要与各种常用物品进行交互并执行拾取、放置、推动、倾倒等任务。为了进一步确保任务的多样性考虑不同的手部使用模式。具体来说TASTE-Rob 包含 75,389 个单手任务视频和 25,467 个双手任务视频。抓握手的分布。为了确保手势的多样性考虑两个主要因素不同的手掌方向整体姿势和不同的抓握姿势细节姿势。为了展示手势的多样性利用 HaMeR [34] 提取手势参数并分析基于这些参数的分布。如表所示分析 TASTE-Rob 中 HOI 交互过程中手掌方向的分布。分析揭示了以下几点1手掌朝下0° -180°的手势最为常见因为这种方向适合抓握物体。2手掌朝左90° -270°的手势比朝右的手势略多这可能是因为所有收藏家都是右撇子自然更喜欢用右手来操作物体。如下两个图中提供手部抓握姿势分布的分析。鉴于拇指、食指和中指在 HOI 中起主导作用重点研究了这些手指之间的夹角及其各自的曲率分布。如图中的分析显示夹角的广泛分布表明手部方向各异。如下图揭示了两个关键发现1食指和中指的曲率分布呈现出相似的模式反映了它们在 HOI 动作期间的同步弯曲。2数据集捕捉了各种各样的抓握姿势这些姿势是由各种被操纵的物体驱动的。如表所示对 TASTE-Rob 与现有的以自我为中心的 HOI 视频数据集进行比较。 TASTE-Rob 是一个专门为面向任务 HOI 视频生成设计的视频数据集它也可以作为 IL 演示的宝贵资源。鉴于IL视频演示是从固定摄像机视角录制的并且仅包含与任务指令一致的单个动作在相同设置下收集HOI视频这使得TASTE-Rob与其他数据集有所区别。此外为了提高对目标物体的理解在语言任务指令中加入多种物体限定词。借助TASTE-Rob能够生成高质量的HOI视频演示从而实现IL。给定一个环境图像和一段任务描述生成的面向任务的 HOI 视频需要满足1准确的任务理解正确识别要操作的目标以及如何操作它。2可行的 HOI在整个操作过程中保持一致的手部抓握姿势。如图中第一阶段区域所示虽然由单个 VDM (vˆ_c) 生成的视频展现准确的任务理解但在保持一致的抓握姿势方面表现出有限的保真度。为了满足这两个要求提出一个三阶段姿势细化流程如图所示第一阶段采用可学习的图像-到-视频 (I2V) 扩散模型生成满足“准确任务理解”要求的粗略 HOI 视频。第二阶段从该粗略视频中提取手势序列并使用可学习的运动扩散模型 (MDM) 对其进行细化 [45]。第三阶段使用细化的手势序列生成满足两个要求的高保真 HOI 视频。在本研究中探索基于 DynamiCrafter [54]一个强大的 I2V 潜扩散模型的 HOI 视频生成。假设 T 和 v 分别表示任务语言描述、环境图像和真实视频帧。DynamiCrafter 在紧凑的潜空间中学习去噪过程v 通过编码器 E 编码到紧凑的潜在空间中得到潜表示 z E(v)并通过解码器 D 进行解码。在这个潜空间中该模型以 T 和 i 为条件执行前向扩散和引导去噪过程。 MDM [45] 采用独特的 Transformer 编码器架构在生成人体运动序列方面表现出色。MDM 不是通过预测单步噪声而是直接生成干净的运动序列。设 p 表示运动序列M 表示 MDM 网络。其中p_0 ∼ p_data § 和 p_T ∼ N (0, I)。训练结束后MDM 通过 T 步去噪过程生成最终的干净运动序列 pˆ_0。然而在每一步中MDM 不是通过单步去噪直接生成 p_t−1而是首先根据 p_t 预测干净的运动序列 pˆ_0,t。然后重新引入噪声得到 p_t−1通过重复此过程 T 次MDM 生成最终干净的运动序列pˆ_0,0记为pˆ_0。第一阶段粗略动作规划器可学习的粗略动作规划器旨在生成基于任务描述 T 和环境图像 i 的粗略 HOI 视频 vˆ_c。具体来说在 TASTE-Rob 上对 DynamiCrafter [54] 进行微调将其用作粗略动作规划器记为 V。训练。在微调过程中采用与 DynamiCrafter [54] 类似的训练策略。为了充分利用 DynamiCrafter 强大的时间处理能力同时使其适应本文特定的 HOI 视频生成仅对其图像上下文投影器和其去噪 U-Net中的空间层进行微调。训练目标保持一致其中可训练参数 θ_V 表示图像上下文投影器和空间层的参数。手-物体交互不一致问题。生成的粗略 HOI 视频展现准确的任务理解能力例如识别要操作的物体并确定其目标位置。然而如上图 p_c 所示抓取姿势在操作过程中表现出时间上的不一致性表明缺乏运动连贯性。具体而言这些不一致性指的是抓取姿势随时间发生的不良变化表现为手势的不自然变化而理想情况下手与被抓物体之间的相对位置应该保持稳定。如图的 p_c 所示绿色手势展示一种捏的手势这与黄色手势的抓取姿势不一致并且不适合被操作的目标物体。第二阶段修改手势序列为了解决 HOI 不一致问题训练一个图像-到-手势参数的 MDM 模型 M。该模型用于细化从粗略视频 vˆ_c 中提取的手势序列 p_c。具体来说将 p_c 定义为手势关键点序列的归一化坐标其中 L_p 表示序列长度N_h 表示手势关键点的数量。训练可学习模型 M 旨在以任务描述 T 和环境图像 i 作为输入预测精细的人体手势序列。为此扩展原始的 MDM [45] 框架通过一个附加的图像分支引入环境信息。如图所示与 [45] 中的文本条件分支类似新增的图像分支集成环境图像 i 的 CLIP [37] 类特征。当通过 T 步去噪过程直接生成最终的干净姿势序列 pˆ 时pˆ 实现物理上合理的手部运动但表现出有限的空间意识。相反p_c 表现出显著的空间意识。为了解决这个限制用 M 来优化 p_c而不是从高斯噪声生成。具体来说用 p_0,N_rv 初始化 M 的去噪过程将 p_c 设置为 p_0,N_rv。通过 N_rv 步去噪优化 p_c 以获得最终的干净手部姿势序列 pˆ该序列同时满足空间精度和运动可行性。第三阶段基于精细姿态的再生利用精细化的手势序列生成附加姿态条件 pˆ 的细粒度 HOI 视频。受 ToonCrafter [55] 的启发训练一个与帧无关的姿态编码器 S 来控制生成视频中的手势。将 S 设计为一个逐帧适配器它以 pˆ 为条件独立地调整每帧的中间特征F^i S(s^i_inject, z^i, t)其中 s^i 是 pˆ 的可视化图像序列F^i_inject 的处理方法类似于 ControlNet [62]。在训练过程中采用与 ToonCrafter [55] 类似的策略其中 V 的所有参数都被冻结并且只训练 S 的参数表示为 η。最后将生成的优质 HOI 视频 vˆ 作为 IL 的视频演示并使用 Im2Flow2Act 策略模型实现机器人操作 [58]。如图所示以生成的 HOI 视频作为演示展示模仿学习的结果也证实其在实现机器人操作方面的有效性。实施训练过程中在 TASTE-Rob 数据集的训练集上训练模型。第一阶段基于 DynamiCrafter 对粗略动作规划器进行微调步长为 30K批次大小为 16学习率为 5 × 10−5。第二阶段训练 MDM步长为 100K批次大小为 64学习率为 1 × 10−4。第三阶段基于 SD 对姿态编码器进行微调步长为 30K批次大小为 32学习率为 5 × 10−5。在推理过程中用 50 步去噪过程生成视频并使用 Nrv 为 10 来优化姿态序列。基线与比较选择了四种现有的强大的 I2V 扩散模型——DynamiCrafter [54]、consistI2V [38]、Open-Sora Plan [26] 和 CogVideoX [60]——作为基线并对这些基线与本文方法进行了比较实验。图中给出 TASTE-Rob-Test 和真实环境下视频生成性能的定性比较。下表中给出 TASTE-Rob-Test 上的定量比较结果证明本文方法卓越的视频质量和更好的泛化能力。根据以上实验所有现有的强大的通用 VDM 都无法很好地完成操作任务因此不适合生成 HOI 视频演示。鉴于其他两个评估方面侧重于衡量生成视频的细粒度细节在此省略与这些基线方法的进一步比较。

查看全文

http://www.pierceye.com/news/378093/