当前位置: 首页 > news >正文

分析企业营销型网站建设的可能性棒的网页设计

分析企业营销型网站建设的可能性,棒的网页设计,企业自助建站模板,要建设一个网站需要什么手续费文 | jxyxiangyu在写了一周的业务代码后#xff0c;沏一杯绿茶#xff0c;总算可以有时间看看鸽了一个月的素材了。好的#xff0c;小伙伴们#xff0c;废话不多说#xff0c;今天我们将跟随 Boris Dayma 大佬#xff0c;看看他在训练 DALLE-Mega 时遇到的一系列问题。据… 文 | jxyxiangyu在写了一周的业务代码后沏一杯绿茶总算可以有时间看看鸽了一个月的素材了。好的小伙伴们废话不多说今天我们将跟随 Boris Dayma 大佬看看他在训练 DALLE-Mega 时遇到的一系列问题。据这位老哥说为了训练这个 3B 大小的模型使用了一个 TPU v3 pod-256256 块 TPU v3。▲dalle-mega-模型大小在写惯了业务代码用多了 0.1B 的 bert-base 的我们今天也来瞧瞧这些神仙大模型的训练方式。DALL·EDALL·E 是 OpenAi 去年推出的图像生成模型它可以根据一句文本caption生成现实世界中不存在的图像。比如牛油果形状的扶手椅、穿着芭蕾舞短裙遛狗的萝卜等。▲DALLE结果展示▲DALLE模型结构图如上图所示DALL·E 的训练过程可以分为两步为减小高分辨率图片的计算量将图片经过一个自编码模型 dVAE 压缩得到 的图片我们取 dVAE 的 encoder 的输出隐向量作为压缩的图片 token将文本经过编码器编码后的文本 token 和图片 token 拼接送入 transformer 进行自回归训练。这里需要独自训练两个模型 dVAE 和 transformer 。在推理阶段需要向 transformer 输入一段文本 caption 模型以滑动窗口的方式依次预测出下一个图片 token 这里得到的图片 token 用 dVAE 的 decoder 解码回高分辨率的图片最后用 CLIP 对得到的图片打分重排序。更详细的过程解读可以参考 《DALL·E—从文本到图像超现实主义的图像生成器》[1]、《如何评价DALL-E模型的实现》[2]DALL·E Mega 的训练之路DALL·E Mega 是 Hugging Face 和谷歌云团队基于自己的理解实现的 DALL·E mini 的 Mega 版本这一次我们将跟随 Boris Dayma 的脚步了解他在训练大模型时背后的故事。和 DALL·E mini 相比作者做了很多优化使得 DALL·E Mega 在训练初期能够顺利一些验证集的 loss 下降速度很快。当然随着进一步的训练验证集的 loss 会逐渐增大这就意味着需要减小学习率了。如下图所示可以看到作者还应用了 warm up。由于效果不佳作者接着尝试了增大梯度累积以及 dropout 不过验证集的 loss 依旧没有减小。不过令人感到意外的是即便验证集的 loss 在增加但预测结果却在不断变好对此作者开始怀疑训练集和验证集的数据分布不一致。随后作者决定从训练集中切分出一个子集作为验证集而对于原本的验证集作者将其作为训练数据一起用于模型的训练。不过 loss 依旧在增加后来采用全精度训练以及更新 动量后loss终于开始下降了虽然验证集的 loss 在不断下降但不知道小伙伴们有没有注意到所有的图片都是唯一的只有在原本的训练集中存在相同的图片但caption不同而在作者将训练集的子集作为新的验证集后训练结果变好会不会是因为训练时模型只记住了图片不过这些都是后话了训练已经接近尾声重新训练太费时间精力还有钱了。Boris 小哥就没再仔细深挖这个问题了好真实...。现在模型已经上线到 Hugging Face 上小伙伴们可以下载使用对详细的训练过程感兴趣的也可以访问官网的训练日志https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mega-Training-Journal--VmlldzoxODMxMDI2总结时隔一年 Boris Dayma 在原作的基础上又推出了 DALL·E mini 的 Mega 版本这一次 Boris Dayma 为我们复盘了他在训练 DALL·E mini Mega 时的心路历程以及一些失误。诚然我们中的大部分人都不会有机会训练如此庞大的模型但能够跟随大神一起了解训练过程中遇到的问题以及解决方法又何尝不是一种进步和学习呢萌屋作者jxyxiangyu人工智障、bug制造者、平平无奇的独臂侠、在某厂工作的初级程序员从事对话交互方向坚持每天写一点bug时常徘徊在人工智能统治未来和if-else才是真正的AI的虚拟和现实之间希望有朝一日学术界的研究成果可以真正在工业界实现落地。作品推荐谁说发 paper 一定要追快打新2021年研究 word2vec 也能中顶会一训练就显存爆炸Facebook 推出 8 比特优化器两行代码拯救你的显存后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群[1] DALL·E—从文本到图像超现实主义的图像生成器https://zhuanlan.zhihu.com/p/394467135[2] 如何评价DALL-E模型的实现https://www.zhihu.com/question/447757686
http://www.pierceye.com/news/251953/

相关文章:

  • 网站建设管理报告网站建设专家北京注安
  • 免费网站生成软件网站备案中的网站名称
  • 桐庐做网站手机里编辑 Wordpress
  • 外网怎么进入萧山网站优化
  • 做资源下载网站好吗婚恋网站建设公司排名
  • 网站后台管理系统管理员登录wordpress页面模板下载地址
  • 网站用户体验网络科技公司网站制作
  • seo中文全称是什么360搜索怎么做网站自然优化
  • 青岛网站建设技术外包文本资料分享网站 建设
  • 做好网站建设工作wordpress转发微信缩略图
  • 马鞍山网站开发流程设计师免费资源导航
  • 成功的网站不仅仅是优化排视频网站建设应该注意什么
  • 如何制作网站和软件查询关键词密度网站的网址有哪些
  • 网站服务器查询平台贵阳网站改版
  • 怎样查看网站总浏览量寿县有做网站开发的吗
  • 东莞网站建设价格价格网建企业
  • 做播放器电影网站需要多少钱6网络工程师证
  • dw怎么做网站标题图标网站建设进度表 免费下载
  • 西安哪些做网站的公司好做电子商务网站的意义
  • 圣融网站建设包装设计网站是什么样子的
  • 网站建设的利润设计宝
  • 厦门网站制作案例dede做手机网站
  • 网站建设 环保 图片重庆信息网
  • 做网站的主流软件珠海网站建设珠海
  • 江门市网站建设 熊掌号wordpress分类不显示图片
  • 上海做网站技术有趣的网站小游戏
  • 网站建设需要哪些内容中国建设银行对公网站
  • 网站菜单实现原理全网营销外包
  • 江阴招聘网站建设学徒开源网站开发文档下载
  • 金融网站开发公司六安城市网新闻