商务定制网站,福田网站建设结业论文,经营阅读网站需要怎么做,诚信档案建设网站Aitrainee | 公众号#xff1a;AI进修生 哇#xff0c;今天Github趋势榜第一啊#xff0c;为了重现Sora#xff0c;北大这个Open-Sora-Plan#xff0c;希望通过开源社区力量的复现Sora#xff0c;目前已支持国产AI芯片(华为昇腾#xff09;#xff0c;这回不用被卡脖子… Aitrainee | 公众号AI进修生 哇今天Github趋势榜第一啊为了重现Sora北大这个Open-Sora-Plan希望通过开源社区力量的复现Sora目前已支持国产AI芯片(华为昇腾这回不用被卡脖子了吧这个项目吸引了众多开发者的智慧和热情目前在github上的星标已经高达9.1k不过当前版本离目标差距还很大仍需持续完善和快速迭代团队热烈欢迎志同道合的你加入这是一个汇聚相同技术热忱与求知欲的人们的号召。国产版的Sora还是离我们越来越近了。
下面我们带入开发者我们的视角介绍一下技术报告
VideoGPT和Video VQ-VAE
想象一下你有一堆乐高积木每个积木都是视频的一小部分。Video VQ-VAE的工作就像是找到最少的积木数量同时确保用这些积木还能重建原始视频。这样做可以让视频占用更少的空间而且我们还可以创造新的视频就像用积木搭建新东西一样。VideoGPT则是用来指导如何搭建这些积木以创造新的视频内容。
Open-Sora-Plan v1.0.0的改进
CausalVideoVAE的训练与推理 想象你正在尝试用一张巨大的网捕捉时间的流逝其中网眼代表视频中的每个小片段。我们现在有了一个更大更紧密的网4×8×8的尺寸它可以更有效地捕捉视频的细节无论是在空间上像是画面的广阔景象还是时间上像是动作的连贯性。图片视频联合训练 这就像是训练一只鸟同时在水里游泳和在空中飞翔。我们教会了模型不仅能理解静态的图片还能理解动态的视频。这使得模型能够更好地把握时间和空间的细节从而创造出更高质量的视觉内容。
CausalVideoVAE的架构细节 CausalConv3D 如果说之前我们用2D拼图解决问题现在我们升级到了3D让模型能同时理解图片2D和视频3D。特别地模型会对视频的第一帧给予特别处理因为那是整个视频故事的开头。 初始化方法 我们使用了一种特别的“尾部初始化”方法让模型能够在没有任何额外训练的情况下就能处理图片和视频。
训练与推理技巧 损失曲线 我们展示了两种不同初始化方法的效果。黄色赛车尾部初始化明显跑得更快更稳定这告诉我们它是一个更好的起点。 推理技巧 采用了一种称为tile convolution的技术这样可以大大节省资源。
数据构建 视频数据集 我们收集了大量高质量的视频确保它们没有不相关的水印并且都是单一场景这样数据就更加干净、专注。 文本注释 我们还给这些视频配上了高质量的文字说明有助于模型更好地理解视频内容并在创造新视频时参考这些描述。
✨ AI算法工程师 | AIGC技术实践者 知音难求自我修炼亦艰。 吾生也有涯而知也无涯。 AIGC时代立志成为超级个体 抓住前沿技术的机遇与我们一起成为创新的超级个体。 ✉️ 回复“群聊”就能和大家嗨聊 公众号有最新咨询和AI工具教程