免费建购物网站,网站开发公司官网,北京海淀网站建设,百度网站适配代码源 | 机器之心用数万美元 TPU 算力#xff0c;实现在 CIFAR-10 上 0.03% 的改进#xff0c;创造了新的 SOTA#xff0c;但这一切值得吗#xff1f;「我相信他们得到的数字是准确的#xff0c;他们确实做了工作并得到了结果…… 但这样真的好吗#xff1f;」一名机器学习研… 源 | 机器之心用数万美元 TPU 算力实现在 CIFAR-10 上 0.03% 的改进创造了新的 SOTA但这一切值得吗「我相信他们得到的数字是准确的他们确实做了工作并得到了结果…… 但这样真的好吗」一名机器学习研究者的灵魂发问今天成为了整个社区最热门的话题。事情要从这周四说起谷歌研究员 Andrea Gesmundo 和谷歌 AI 负责人、大牛 Jeff Dean 的论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》被提交到了预印版论文平台 arXiv 上。Jeff Dean 等人提出了一种进化算法可以生成大规模的多任务模型同时也支持新任务的动态和连续添加生成的多任务模型是稀疏激活的并集成了基于任务的路由该路由保证了有限的计算成本并且随着模型的扩展每个任务添加的参数更少。作者表示其提出的新方法依赖于知识划分技术实现了对灾难性遗忘和其他常见缺陷如梯度干扰和负迁移的免疫。实验表明新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果例如对仅在公共数据上训练的模型在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。论文链接https://arxiv.org/abs/2205.12755这看起来是 Jeff Dean 等人朝着他们近期设立的雄伟目标 pathway 通用 AI 架构迈出的重要一步。去年他所带领的团队提出了「下一代通用 AI 架构」Pathways旨在用一个架构同时处理多项任务并且使其拥有快速学习新任务、更好地理解世界的能力。在 5 月 12 日的谷歌 IO 大会上皮查伊还表示研究人员用 Pathways 系统训练了一个 5400 亿参数的大型语言模型 PaLM这是一个只有解码器的密集 Transformer 模型。可以完成的任务包括自动生成代码、解决数学问题、修复 bug解释笑话的梗等等。PaLM 可以区分因果关系理解上下文中的概念组合。PaLM 模型在数学问题上的准确率提升到了 58%接近 60% 的 9 到 12 岁儿童解决问题的水平又可以在没经过对应语料库训练的情况下实现准确的翻译。而这个星期的新论文中作者提出的 µ2Net 模型可以预训练或随机初始化。一次搜索出的单个任务上的最佳模型称为活动任务。在任务的活跃阶段在活跃任务上训练的模型群体会不断进化——随机突变然后测试评分保留高分的淘汰低分的。一个活跃阶段由多代组成其中并行采样和训练多批子模型。在任务活动阶段结束时仅保留其最佳评分模型作为多任务系统的一部分。一个任务可以被多次激活。作者表示 µ2Net 可以在大型任务集上实现最先进的质量并能够将新任务动态地引入正在运行的系统中。学习的任务越多系统中嵌入的知识就越多。同时随着系统的增长参数激活的稀疏性使每个任务的计算量和内存使用量保持不变。通过实验每个任务的平均增加参数量减少了 38%由此产生的多任务系统仅激活了每个任务总参数的 2.3%。对于程序员大神 Jeff Dean人们一直心存敬畏。该研究刚刚提交时人们的看法还是赞赏和期待但在更多的人仔细阅读过论文之后社区的风评突然发生了转变。昨天在 reddit 的机器学习社区上一名 AI 研究者 MrAcurite 表达了愤怒的情绪我相信这些数字是准确的并且他们确实做了工作并得到了结果。在这篇论文中作者使用了非常复杂的进化和多任务学习算法它有 18 页的内容非常有趣解决了一堆问题。但有两个值得注意的地方。首先他们主张的突破性指标数字是 CIFAR-10 上的 99.43而此前的 SOTA 为 99.40所以在宏伟的计划中向前推进了一步「哇哦」。其次论文末尾有一张图表详细说明了仅用于产生最终结果的训练方案的 TPU 核心小时数。总计为 17,810 小时。假设你不是个在谷歌工作的人你必须使用 3.22 美元 / 小时的按需付款。这意味着这些训练好的模型成本为 57,348 美元。严格来说在一个足够通用的遗传算法上投入足够的计算肯定最终会产生好的性能所以虽然你绝对可以阅读这篇论文并收集有关「如何使用遗传算法通过利用已有模型子集部分在每个新任务上学习权重的方式来完成多任务学习」的有趣想法。或者用人话来说本文只是「Jeff Dean 花了足够的钱养活一个四口之家五年的钱以获得 0.03% 在 CIFAR-10 上的改进。」在不断推陈出新的大厂 AI 论文中OpenAI 无疑是最严重的违规者但似乎每个人都在这样做。你在现有数据和现有基准的现有问题上投入了大量的计算和少量的新想法然后如果你的数字远远高于已有的 SOTA 数字你就可以在自己简历上贴上一个小标签。这让人如何相信你的思路不是有害的我甚至无法验证它们无法将它们应用到自己的项目中。这真的是一个研究社区该有的样子吗大量的算力掌握在少数科技巨头的手中。我认为应该有一个新的论文期刊要求其中的论文在单个消费者 GPU 上 8 小时内可以复现其实验结果。MrAcurite 发贴后有多位研究者展开了讨论人们从各个角度附和了她的观点。SupportVectorMachine 认证的研究人员表示我几乎对深度学习失去了兴趣因为作为小型实验室的从业者基本上在计算预算方面不可能比得过科技巨头。即使你有一个很好的理论想法主流环境可能也存在偏见让它难以看到曙光。这酿成了一个不公平的竞争环境。当然这些大规模的研究项目并非没有价值。像 GPT、DALL-E 等都很棒。但如果我不能在我自己的机器上复现这些大模型它们对我来说的意义就不大。gambs 认证的 PhD回复道讲一件真实的事两年前我写了一篇关于流模型的论文一位审稿人给出的评语是「生成的图像看起来不如 GAN 好」。当时我使用的是以前发布的预训练模型并且没有以任何方式对其进行修改这篇论文旨在找到隐空间中采样的部分而不是提出改进模型生成图像质量的模型。fmai 回复道作为 AI 会议的审稿人我认为可以通过规范化帮助改变这种现状。例如我尝试专门查看论文是否符合科学工作的要求是否有完整的研究问题是否有证据充分支持假设等。用所有自变量都不同的新系统击败 SOTA 模型不会创造任何新知识也不是科学研究。JanneJM 则表示用更大的网络击败现有 SOTA 模型并不是推动该领域发展的唯一途径。相反这可能是最无趣的研究。专注于使用小型网络用于物联网设备、实时训练等做更多事情不需要大量计算能力这样的研究不是更有趣吗实际用途也更大。理论结果和概念突破无论是数学证明还是统计证明、新型方法等等这些其实几乎不需要实际计算。预训练大模型的兴起正让越来越多的研究者大呼「先进模型跑不起」、「难以和科技大厂的 AI Lab 竞争」技术的进步似乎把很多人挡在了前沿研究的门槛之外。现在看来情况有着愈演愈烈的趋势最近一段时间在社交网络上刷屏的新研究是 OpenAI 的 DALL-E2 和谷歌的 Imagen这些模型都需要耗费巨大的算力完成训练。不知在人们的呼吁过后未来的研究风向是否会有改变。后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]https://www.reddit.com/r/MachineLearning/comments/uyratt/d_i_dont_really_trust_papers_out_of_top_labs/[2]https://www.reddit.com/r/MachineLearning/comments/uyfmlj/r_an_evolutionary_approach_to_dynamic/