当前位置: 首页 > news >正文

菠菜彩票网站怎么建设个人网站域名选择

菠菜彩票网站怎么建设,个人网站域名选择,发布做网站需求qq群,大连网站建设方案维护注1:本文系“计算机视觉/三维重建论文速递”系列之一#xff0c;致力于简洁清晰完整地介绍、解读计算机视觉#xff0c;特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论… 注1:本文系“计算机视觉/三维重建论文速递”系列之一致力于简洁清晰完整地介绍、解读计算机视觉特别是三维重建领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介绍的论文是: CVPR 2023 | 用户可控的条件图像到视频生成方法 文章DOI: https://doi.org/10.48550/arXiv.2303.13744 ↗。 CVPR 2023 | 用户可控的条件图像到视频生成方法 1 引言 图像到视频(I2V)生成是计算机视觉领域一个迷人且富有潜力的研究课题。给定一张静态图像 x 0 x_0 x0​和一个文本描述 y y y(例如“微笑”),条件图像到视频(cI2V)生成旨在合成出一个符合条件 y y y的新视频 x ^ _ 1 K \hat{x}\_1^K x^_1K。cI2V生成在艺术创作、娱乐产业以及机器学习的数据增广等方面都有巨大的应用前景。但是,cI2V生成面临的核心挑战在于如何同时生成符合图像 x 0 x_0 x0​的视觉外观以及符合条件 y y y的时域动态。 2 动机 以往的cI2V生成方法可以分为两大类:直接合成法和无扭曲合成法。 直接合成法 直接基于图像 x 0 x_0 x0​和条件 y y y逐帧生成新的视频帧但是这类方法往往难以同时满足视觉细节的保真和时域连贯性。 无扭曲合成法 先生成一系列扭曲场或光流,然后根据它们来扭曲或漂移图像 x 0 x_0 x0​,从而合成新视频但是它们的扭曲场或光流生成往往依赖额外的监督信息,例如人体姿态。对于只给定图像 x 0 x_0 x0​和简单文本条件 y y y的情况,无扭曲合成法效果仍有限。 本文提出一种称为潜在流弥散模型(LFDM)的新型cI2V生成框架,以弥补现有方法的不足。LFDM的核心创新在于,它首先基于条件 y y y在潜在空间中合成一个时域连贯的光流序列,然后用该光流序列来扭曲图像 x 0 x_0 x0​,从而生成新视频。这种基于扭曲的生成方式可以更好地利用图像 x 0 x_0 x0​所包含的视觉细节,同时满足条件 y y y要求的运动动力学。 3 方法 LFDM的生成流程如图1所示。它包含两个阶段的训练。 3.1 阶段一:潜在光流自动编码器 在阶段一中,我们用无标注视频训练一个潜在光流自动编码器(LFAE)。LFAE 包含编码器 Φ \Phi Φ、光流预测器 F F F和解码器 Ω \Omega Ω三个模块。给定一对来自同一视频的参考帧 x r e f x_{ref} xref​和驱动帧 x d r i x_{dri} xdri​,编码器 Φ \Phi Φ先把 x r e f x_{ref} xref​编码为潜在空间的特征图 z z z,然后 F F F估计 x r e f x_{ref} xref​到 x d r i x_{dri} xdri​之间的逆向潜在空间光流 f f f。 f f f用于扭曲 z z z得到 z ~ \tilde{z} z~,最后 Ω \Omega Ω解码 z ~ \tilde{z} z~来重建 x d r i x_{dri} xdri​。LFAE的训练目标是最小化重建损失。 3.2 阶段二:弥散模型 在阶段二中,我们训练一个基于3D U-Net的弥散模型(DM)来生成时域连贯的潜在光流序列。给定一段训练视频 x 0 K x 0 , x 1 , . . . , x K x_0^K{x_0,x_1,...,x_K} x0K​x0​,x1​,...,xK​和对应的标签 y y y,我们用阶段一训练好的 F F F来估计 x 0 x_0 x0​到每个 x k x_k xk​的光流 f k f_k fk​。然后这些 f k f_k fk​被DM以 y y y和 x 0 x_0 x0​为条件,学习生成时域连贯的光流。相比像素空间或潜在特征空间,LFDM的DM只需要学习一个简单的低维光流空间,因此训练更高效。 4 实验和结果 我们在多个人脸表情、人体动作数据集上验证了LFDM的有效性。主要结论如下: LFDM相比现有cI2V生成方法效果更好,可以同时保证视觉质量、时域连贯性和结果多样性。如图2所示,LFDM生成的视频质量明显优于对比方法。 LFDM可以轻松适配新域面部视频,只需要微调阶段一的解码器 O m e g a \\Omega Omega(图3)。这得益于LFDM分阶段的训练策略。 Ablation study表明,LFDM中DM的潜在光流空间维度低,计算量小,这有助于生成效率的提升(表1)。 图2. 不同方法的生成比较 图3. 微调 O m e g a \\Omega Omega后在新域人脸数据集的生成效果提升 表1. 不同方法的生成时间和空间复杂度比较 模型生成一段视频所需时间潜在空间维度VDM112.5s40×64×64×3LFDM36s40×32×32×3 5 不足和未来展望 尽管取得了一定进展,LFDM仍存在一些局限: 当前仅支持单主体视频生成 。未来可以拓展至包含多个主体的光流预测。 输入条件仅为类别标签,期望支持基于文本的控制信号。 采样速度相比GAN慢 。可以探索一些快速采样策略以提升生成效率。 6 总结 本文提出了一种新型的基于潜在空间光流扭曲的条件图像到视频生成方法LFDM。 它可以高质量地生成符合条件要求的新视频。分阶段的训练策略也使LFDM容易迁移到新域。实验结果表明LFDM优于多种先进对比方法。本文为条件视频生成任务提供了一种新的有效思路。
http://www.pierceye.com/news/757904/

相关文章:

  • 一键生成论文的网站做亚马逊有哪些网站可以清货
  • 一屏网站模板下载 迅雷下载 迅雷下载地址网站建设合并但与那个
  • 营销型网站四大功能吉林市网站制作
  • 如何制作钓鱼网站网页制作基础教程9787121095306教案
  • 专业定制网站企业吉林省住房城乡建设厅网站首页
  • 免费高清素材网站方维网络科技有限公司
  • 长春行业网站重庆智能建站模板
  • 北湖区网站建设公司wordpress的cute主题
  • 沈阳网站建设 景乔科技网站制作杭州
  • 网站维护工程师月薪多少精品网站建设公
  • 永久免费企业网站申请网站开发主框架一般用什么布局
  • 网站做非经营性广告需备案python免费看电影的应用
  • 网站分哪些种类自己做网站模版
  • 汪峰做的音乐网站长沙制作公园仿竹护栏实体厂家
  • 深圳专业网站建设公司排名好的h5网站模板
  • h5做网站教程网店营销的推广方法有哪些
  • 网站关键词快速排名工具wordpress子主题
  • 做百度网站那家好google 网站质量问题
  • 网站建设维护书网站资料清单
  • 网站建设公司 深圳信科网站维护计划
  • 做网站用什么语言比较简单网站seo优化总结
  • 四川省工程建设信息网站南京好的网站设计公司
  • 城市建设单招网站合肥哪个公司做网站好
  • 深圳建站模板建站建筑公司对企业未来希望
  • 商丘网站制作电话文库网站建设
  • 新闻发布网站模板医院网站建设原理
  • 网站开发立项报告网页制作视频教程优质课
  • 网站运营分析竞争对手整站采集wordpress
  • 创建一个网站所需的成本厦门礼品网站商城制作案例
  • 南昌建设企业网站公司游戏源码