当前位置：首页 > news >正文

哔哩哔哩网站开发图片做家装的网站有什么

news 2025/11/20 15:48:37

哔哩哔哩网站开发图片,做家装的网站有什么,曰照网站小程序建设,app开发公司架构目录 1.效果展示和玩法场景 2.GeneFace原理学习 3.数据集准备以及训练的过程 5.遇到的问题与解决方案 6.参考资料一、效果展示 AI数字人进阶--GeneFace#xff08;1#xff09; AI数字人进阶--GeneFace#xff08;2#xff09; 想象一下#xff0c;一个专为你打造的…目录 1.效果展示和玩法场景 2.GeneFace原理学习 3.数据集准备以及训练的过程 5.遇到的问题与解决方案 6.参考资料一、效果展示 AI数字人进阶--GeneFace1 AI数字人进阶--GeneFace2 想象一下一个专为你打造的AI数字人不仅可以代表你在屏幕上出现还能带来实实在在的商业价值。之前sadtalker照片说话的应用场景不同定制的视频数字人的应用场景就不仅仅是娱乐而可以带来更多价值自媒体运营短视频带货数字人直播等等现在抖音、视频号中看到的刘润等很多视频都是来自于其数字人。由于其训练成本比较高现在一般的玩法是提供模板视频任务用户输入自己的文字或者语音使用选择的模板生成对应的视频。也可以允许个人上传视频进行定制单独收费。二、GeneFace原理学习实现高嘴形对齐(lip-sync)、高视频真实度(video reality)、高系统效率(system efficiency)的虚拟人视频合成。整体架构如下首先处理输入的语音并提取关键特征音高和语音然后预测说话时面部的动作特别是嘴唇和面部表情最后这些预测被转换成视频帧通过一系列图像处理技术确保生成的视频真实和清晰 1. 音频处理系统首先接收输入的语音有两个关键部分音高编码器(Pitch Encoder)这个部分捕捉语音中的音高变化因为音高声音的高低对理解说话者的情感和意图很重要。 HuBERTHuBERT是Facebook开发的一种自监督学习模型用于音频表示学习。用于从语音中提取更丰富的特征如语速、重音、语音的节奏等与音高信息结合以预测面部动作。 2. 面部动作预测音频信息会被用来预测人脸的动作特别是嘴唇和面部表情。这个步骤包括音高感知音频到动作模型Pitch-Aware Audio2Motion这部分使用前面提取的音频特征来预测面部关键点的动作关键点是面部的重要部位如眼角、嘴角等。 Landmark LLE Proj帮助模型理解不同面部关键点之间的关系并确保预测的动作自然和准确。 3. 视频合成系统将预测的面部动作转换为实际的视频帧。这一过程包括以下几个部分即时动作到视频模型Instant Motion2Video把预测的关键点动作转换成连续的视频帧形成一个可以播放的视频。超分辨率处理为了确保生成的视频质量尽可能高系统会对视频帧进行超分辨率处理提升图像的清晰度和细节。 Volume Renderer用于渲染三维数据以产生真实感的二维图像增强视频的真实性。三、数据集准备以及训练推理的过程 3.1 训练视频的要求训练视频的质量直接影响了训练的结果一般有下面几个重要的要求 1. 训练视频最好3-5分钟每一帧都要人脸头部要一直面对镜头不能太偏 2. 需要对录制视频进行预处理降噪、音频重采样为16000HZ视频裁剪为512*512帧率25fps 3. 裁剪后的视频要保证头部在视频中占据相对较大的区域。 4. 推理的音频尽量和训练的语调保持一致增加真实感关于预处理部分前面写了篇文章提供了预处理脚本可以直接使用 3.2 数据处理的脚本音频特征提取、截帧、抠图、人脸landmark提取以及3dmm生成、将数据打包为npy export PYTHONPATH./export VIDEO_IDxxxexport CUDA_VISIBLE_DEVICES0 mkdir -p data/processed/videos/${VIDEO_ID} #音频特征提取hubert以及melpython data_gen/utils/process_audio/extract_hubert.py --video_id${VIDEO_ID}python data_gen/utils/process_audio/extract_mel_f0.py --video_id${VIDEO_ID}# 截帧、抠图mkdir -p data/processed/videos/${VIDEO_ID}/gt_imgsffmpeg -i data/raw/videos/${VIDEO_ID}.mp4 -vf fps25,scalew512:h512 -qmin 1 -q:v 1 -start_number 0 -v quiet data/processed/videos/${VIDEO_ID}/gt_imgs/%08d.jpgpython data_gen/utils/process_video/extract_segment_imgs.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --force_single_process # 提取2D landmark用于之后Fit 3DMMpython data_gen/utils/process_video/extract_lm2d.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 # Fit 3DMMpython data_gen/utils/process_video/fit_3dmm_landmark.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --reset --debug --id_modeglobal # 将数据打包python data_gen/runs/binarizer_nerf.py --video_id${VIDEO_ID}3.3 训练模型需要分为两步训练Head NeRF 头部模型和Torso NeRF躯干模型 # 训练 Head NeRF 模型# 模型与tensorboard会被保存在 checkpoints/exp_nameCUDA_VISIBLE_DEVICES0 python tasks/run.py --configegs/datasets/videoid/lm3d_radnerf_sr.yaml --exp_namemotion2video_nerf/videoid_head --reset # 训练 Torso NeRF 模型CUDA_VISIBLE_DEVICES0 python tasks/run.py --configegs/datasets/videoid/lm3d_radnerf_torso_sr.yaml --exp_namemotion2video_nerf/videoid_torso --hparamshead_model_dircheckpoints/motion2video_nerf/videoid_head --reset 如果从头开始训练加上-reset否则去掉即可实现继续上次step继续训练训练的过程比较耗时4090显卡两个模型都训练完大概需要十几个小时需要注意训练过程中是否有log报错信息代码中可能会catch如果出现错误继续执行可能存在训练模型异常数据集的准备十分关键如果准备不到位很可能就要来来回回折腾很多次。第四节大家会看到一些由于训练视频数据问题导致的奇葩现象。 3.4 推理推理就很快了十几秒的视频生成也就十几秒钟的时间推理脚本. (输入音频支持mp3,会重采样为16k)CUDA_VISIBLE_DEVICES0 python inference/genefacepp_infer.py --head_ckpt --torso_ckptcheckpoints/motion2video_nerf/videoid_torso --drv_auddata/raw/val_wavs/input.mp3 --out_name output.mp4 四、遇到的问题和解决方案记录有价值的问题和解决方案避免踩坑 4.1 工程类错误 1Inference ERROR: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu! 环境问题按照readme重新创建venv环境 2数据处理环节提取图片时卡住加上 --force_single_process可以解决 python data_gen/utils/process_video/extract_segment_imgs.py --ds_namenerf --vid_dirdata/raw/videos/${VIDEO_ID}.mp4 --force_single_process https://github.com/yerfor/GeneFacePlusPlus/issues/98 (3) loss_output[ambient_loss].item() AttributeError Traceback (most recent call last): File tasks/radnerfs/radnerf_sr.py, line 293, in _training_step current_ambient_loss loss_output[ambient_loss].item()AttributeError: int object has no attribute item| WARNING: ERROR calculating ambient loss| WARNING: ERROR calculating ambient loss 修改代码兼容即可 try: current_ambient_loss loss_output[ambient_loss].item()except AttributeError as e: current_ambient_loss loss_output[ambient_loss] 4.2 效果类问题 1推理后的视频人脸直接糊掉了原因人脸占的区域太小了训练后效果很差我这个视频原始宽高就比较小 544x900的裁剪为512x512后人脸区域就是很小改为256x256就满足要求但是需要对齐进行超分到512x512再进行训练 2推理后画质降低可以尝试修改lm3d_radnerf_sr.yaml和lm3d_radnerf_torso_sr.yaml中的lambda_lpips_loss 例如从 0.001 到 0.003。 https://github.com/yerfor/GeneFacePlusPlus/issues/29 五、参考资料 GeneFace: Generalized and StableReal-Time 3D Talking Face Generation https://genefaceplusplus.github.io/ 【AI数字人-论文】GeneFace https://blog.csdn.net/weixin_42111770/article/details/136052069 GeneFacehttps://github.com/yerfor/GeneFacePlusPlus/tree/main GeneFace保姆式训练教程 https://www.bilibili.com/video/BV1xx421f7PV/?spm_id_from333.788.recommend_more_video.1vd_source03a763fa6cf49b01f658f32592f5a6f3AI数字人方案、多种解决方案全解析 https://www.bilibili.com/video/BV1KC4y137TT/?p2spm_id_frompageDriverAI 数字人训练GeneFace https://www.bilibili.com/video/BV1LB421z76c/?vd_source03a763fa6cf49b01f658f32592f5a6f3 感谢你的阅读接下来我们继续学习输出AIGC相关内容关注公众号“音视频开发之旅”,回复“数字人” 获取资料一起学习成长。欢迎交流

查看全文

http://www.pierceye.com/news/532233/