当前位置: 首页 > news >正文

哔哩哔哩网站开发图片做家装的网站有什么

哔哩哔哩网站开发图片,做家装的网站有什么,曰照网站小程序建设,app开发公司架构目录 1.效果展示和玩法场景 2.GeneFace原理学习 3.数据集准备以及训练的过程 5.遇到的问题与解决方案 6.参考资料 一、效果展示 AI数字人进阶--GeneFace#xff08;1#xff09; AI数字人进阶--GeneFace#xff08;2#xff09; 想象一下#xff0c;一个专为你打造的…目录 1.效果展示和玩法场景 2.GeneFace原理学习 3.数据集准备以及训练的过程 5.遇到的问题与解决方案 6.参考资料 一、效果展示 AI数字人进阶--GeneFace1 AI数字人进阶--GeneFace2 想象一下一个专为你打造的AI数字人不仅可以代表你在屏幕上出现还能带来实实在在的商业价值。之前sadtalker照片说话的应用场景不同定制的视频数字人的应用场景就不仅仅是娱乐而可以带来更多价值自媒体运营短视频带货数字人直播等等现在抖音、视频号中看到的刘润等很多视频都是来自于其数字人。 由于其训练成本比较高现在一般的玩法是提供模板视频任务用户输入自己的文字或者语音使用选择的模板生成对应的视频。也可以允许个人上传视频进行定制单独收费。 二、GeneFace原理学习 实现高嘴形对齐(lip-sync)、高视频真实度(video reality)、高系统效率(system efficiency)的虚拟人视频合成。 整体架构如下 首先处理输入的语音并提取关键特征音高和语音 然后预测说话时面部的动作特别是嘴唇和面部表情 最后这些预测被转换成视频帧 通过一系列图像处理技术确保生成的视频真实和清晰 1. 音频处理 系统首先接收输入的语音有两个关键部分 音高编码器(Pitch Encoder)这个部分捕捉语音中的音高变化因为音高声音的高低对理解说话者的情感和意图很重要。 HuBERTHuBERT是Facebook开发的一种自监督学习模型用于音频表示学习。用于从语音中提取更丰富的特征如语速、重音、语音的节奏等与音高信息结合以预测面部动作。 2. 面部动作预测 音频信息会被用来预测人脸的动作特别是嘴唇和面部表情。这个步骤包括 音高感知音频到动作模型Pitch-Aware Audio2Motion这部分使用前面提取的音频特征来预测面部关键点的动作关键点是面部的重要部位如眼角、嘴角等。 Landmark LLE Proj帮助模型理解不同面部关键点之间的关系并确保预测的动作自然和准确。 3. 视频合成 系统将预测的面部动作转换为实际的视频帧。这一过程包括以下几个部分 即时动作到视频模型Instant Motion2Video把预测的关键点动作转换成连续的视频帧形成一个可以播放的视频。 超分辨率处理为了确保生成的视频质量尽可能高系统会对视频帧进行超分辨率处理提升图像的清晰度和细节。 Volume Renderer用于渲染三维数据以产生真实感的二维图像增强视频的真实性。 三、数据集准备以及训练推理的过程 3.1 训练视频的要求 训练视频的质量直接影响了训练的结果一般有下面几个重要的要求 1. 训练视频最好3-5分钟每一帧都要人脸头部要一直面对镜头不能太偏 2. 需要对录制视频进行预处理降噪、音频重采样为16000HZ视频裁剪为512*512帧率25fps 3. 裁剪后的视频要保证 头部在视频中占据相对较大的区域。 4. 推理的音频尽量和训练的语调保持一致增加真实感 关于预处理部分前面写了篇文章提供了预处理脚本可以直接使用 3.2 数据处理的脚本音频特征提取、截帧、抠图、人脸landmark提取以及3dmm生成、将数据打包为npy export PYTHONPATH./export VIDEO_IDxxxexport CUDA_VISIBLE_DEVICES0 mkdir -p data/processed/videos/${VIDEO_ID} #音频特征提取hubert以及melpython data_gen/utils/process_audio/extract_hubert.py --video_id${VIDEO_ID}python data_gen/utils/process_audio/extract_mel_f0.py --video_id${VIDEO_ID}# 截帧、抠图mkdir -p data/processed/videos/${VIDEO_ID}/gt_imgsffmpeg -i data/raw/videos/${VIDEO_ID}.mp4 -vf fps25,scalew512:h512 -qmin 1 -q:v 1 -start_number 0 -v quiet data/processed/videos/${VIDEO_ID}/gt_imgs/%08d.jpgpython data_gen/utils/process_video/extract_segment_imgs.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --force_single_process # 提取2D landmark用于之后Fit 3DMMpython data_gen/utils/process_video/extract_lm2d.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 # Fit 3DMMpython data_gen/utils/process_video/fit_3dmm_landmark.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --reset --debug --id_modeglobal # 将数据打包python data_gen/runs/binarizer_nerf.py --video_id${VIDEO_ID}3.3 训练模型 需要分为两步训练Head NeRF 头部模型和Torso NeRF躯干模型 # 训练 Head NeRF 模型# 模型与tensorboard会被保存在 checkpoints/exp_nameCUDA_VISIBLE_DEVICES0 python tasks/run.py --configegs/datasets/videoid/lm3d_radnerf_sr.yaml --exp_namemotion2video_nerf/videoid_head --reset # 训练 Torso NeRF 模型CUDA_VISIBLE_DEVICES0 python tasks/run.py --configegs/datasets/videoid/lm3d_radnerf_torso_sr.yaml --exp_namemotion2video_nerf/videoid_torso --hparamshead_model_dircheckpoints/motion2video_nerf/videoid_head --reset 如果从头开始训练加上-reset否则去掉即可实现继续上次step继续训练 训练的过程比较耗时4090显卡两个模型都训练完大概需要十几个小时需要注意训练过程中是否有log报错信息代码中可能会catch如果出现错误继续执行可能存在训练模型异常数据集的准备十分关键如果准备不到位很可能就要来来回回折腾很多次。第四节大家会看到一些由于训练视频数据问题导致的奇葩现象。 3.4 推理 推理就很快了十几秒的视频生成也就十几秒钟的时间 ​​​​​​​ 推理脚本. (输入音频支持mp3,会重采样为16k)CUDA_VISIBLE_DEVICES0 python inference/genefacepp_infer.py --head_ckpt --torso_ckptcheckpoints/motion2video_nerf/videoid_torso --drv_auddata/raw/val_wavs/input.mp3 --out_name output.mp4 四、遇到的问题和解决方案 记录有价值的问题和解决方案避免踩坑 4.1 工程类错误 1Inference ERROR: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! 环境问题按照readme重新创建venv环境 2数据处理环节提取图片时卡住 加上 --force_single_process可以解决 python data_gen/utils/process_video/extract_segment_imgs.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --force_single_process https://github.com/yerfor/GeneFacePlusPlus/issues/98 (3) loss_output[ambient_loss].item() AttributeError ​​​​​​​ Traceback (most recent call last): File tasks/radnerfs/radnerf_sr.py, line 293, in _training_step current_ambient_loss loss_output[ambient_loss].item()AttributeError: int object has no attribute item| WARNING: ERROR calculating ambient loss| WARNING: ERROR calculating ambient loss 修改代码兼容即可 ​​​​​​​ try: current_ambient_loss loss_output[ambient_loss].item()except AttributeError as e: current_ambient_loss loss_output[ambient_loss] 4.2 效果类问题 1推理后的视频人脸直接糊掉了 原因人脸占的区域太小了训练后效果很差我这个视频原始宽高就比较小 544x900的裁剪为512x512后人脸区域就是很小改为256x256就满足要求但是需要对齐进行超分到512x512再进行训练 2推理后画质降低 可以尝试修改lm3d_radnerf_sr.yaml和lm3d_radnerf_torso_sr.yaml中的lambda_lpips_loss 例如从 0.001 到 0.003。 https://github.com/yerfor/GeneFacePlusPlus/issues/29 五、参考资料 GeneFace: Generalized and StableReal-Time 3D Talking Face Generation  https://genefaceplusplus.github.io/ 【AI数字人-论文】GeneFace https://blog.csdn.net/weixin_42111770/article/details/136052069 GeneFacehttps://github.com/yerfor/GeneFacePlusPlus/tree/main GeneFace保姆式训练教程 https://www.bilibili.com/video/BV1xx421f7PV/?spm_id_from333.788.recommend_more_video.1vd_source03a763fa6cf49b01f658f32592f5a6f3AI数字人方案、多种解决方案全解析 https://www.bilibili.com/video/BV1KC4y137TT/?p2spm_id_frompageDriverAI 数字人训练GeneFace https://www.bilibili.com/video/BV1LB421z76c/?vd_source03a763fa6cf49b01f658f32592f5a6f3 感谢你的阅读 接下来我们继续学习输出AIGC相关内容关注公众号“音视频开发之旅”,回复“数字人” 获取资料一起学习成长。 欢迎交流
http://www.pierceye.com/news/532233/

相关文章:

  • 百度竞价培训青岛网站建设和优化
  • 网站建设 收费明细wordpress 动漫 主题下载
  • 物流网站怎么做推广wordpress插件ERP
  • 网站开发市场价手机改ip地址软件免费
  • 上海网站建设zj kt网站开发网络公司
  • 郑州平台网站建设福田欧曼图片
  • 企业网站策划应该怎么做杭州萧山网站建设
  • 南昌网站建设如何网站建设综合训练的实验目的
  • 连锁酒店网站建设软件开发分为哪几个步骤
  • 网站订单模板怎么可以自己做网站被百度收到
  • 网上做物理题赚钱的网站肥城住房和城乡建设局网站
  • 傻瓜式网站源码比较好的网站建设品牌升级
  • 买东西的网站德阳机械加工网
  • 企业网站建设的基本标准是广告公司运作模式
  • 做推广网站的文章电动汽车排名前十名
  • 宜州网站建设服务网页生成长图 iphone
  • 网站关键词seo费用广告设计教学大纲
  • 网站开发视频 百度云自己做网站卖东西
  • 二级网站建设费用品牌广告投放
  • 西宁做网站君博认同门户网站建设实施方案
  • 外贸公司做网站该去哪里找萝岗手机网站建设
  • 网站建设的商业目的惠州网站建设培训
  • 一个网站备案多个域名吗中国建设工程信息网官网入口
  • 广告网站设计哪家快做网站一般注册哪几类商标
  • 学网站建设有前途吗网站对话窗口怎么做
  • 云南昆明做网站wordpress备份文件
  • 连云港市网站建设汕头制作手机网站
  • 印度做网站wordpress 锁定地址
  • 做网站的服务器带宽一般多少游戏开发培训机构
  • 网站设计制作培训微信开放平台文档