零基础学建网站,《企业宣传片制作》,网站怎样备案,网页设计与网站建设来源#xff1a;AI前线作者#xff1a;Jeff Dean译者#xff1a;核子可乐策划#xff1a;钰莹 在二十年前刚刚加入谷歌时#xff0c;我们关注的问题只有一个——如何面向这么多不同种类的联网计算机提供一整套质量出色且涵盖范围全面的网络信息搜索服务。到如今#xff0… 来源AI前线作者Jeff Dean译者核子可乐策划钰莹 在二十年前刚刚加入谷歌时我们关注的问题只有一个——如何面向这么多不同种类的联网计算机提供一整套质量出色且涵盖范围全面的网络信息搜索服务。到如今尽管我们面临着各种各样的技术挑战但谷歌已经基本达成了组织全球信息并使其具备普遍可访问性的总体目标。到 2020 年随着 COVID-19 肆虐全球我们意识到研发技术能够帮助全球数十亿人更好地交流、了解事态发展并找到新的工作方式。我为我们取得的成就感到自豪也为即将出现的全新可能性感到振奋。谷歌研究院的目标是解决一系列具有广泛意见的长期问题——从预测 COVID-19 疫情的蔓延路径到设计算法、愈发强大的自动翻译服务再到缓解机器学习模型中的偏见问题等。着眼于过去四年来的进展我们将在本次回顾中再次审视 2020 年这不平静的一年。如需了解更多详情请参阅我们在 2020 年内发布的 800 多篇研究文章。本文篇幅较长但明确划分为多个部分您可以跳跃翻看相应内容。COVID-19 与健康随着 COVID-19 疫情给全球民众的日常生活造成巨大损失世界各地的研究人员与开发人员齐心协力开发工具与技术旨在帮助公共卫生官员及政策制定者理解并应对这场突如其来的疾病。苹果与谷歌在 2020 年合作开发的 Exposure Notifications System (ENS) 是一种基于蓝牙的隐私保护技术一旦接触到 COVID-19 检测呈阳性的人员该技术将立即对用户发出提醒。ENS 给传统接触者跟踪方法提供有效补充目前已经被公共卫生部门部署在超过 50 个国家、州 / 省及地区帮助多地遏制疫情的传播势头。在疫情初期公共卫生官员表示需要更全面的数据来对抗病毒的迅猛传播。我们的社区流动性报告中囊括了关于病毒流动趋势的匿名洞见不仅能够帮助研究人员了解居家观察与社交隔离等政策影响同时也有助于做出经济预测。谷歌内部的研究人员还探索了使用这种匿名数据通过图神经网络而非传统基于时间序列的模型来预测 COVID-19 传播。尽管研究社区最初对这种疾病以及继发性的效应知之甚少但我们每天都在接触更多、学习更多。我们的 COVID-19 症状搜索趋势让研究人员得以将不同症状关联起来例如嗅觉丧失症——即因病毒感染导致嗅觉丧失。为了给研究社区提供更广泛的支持我们还推出了 Google Health Studies 应用向民众开放公开研究通道。谷歌团队还在为更广泛的科学界提供工具与资源帮助从业者努力解决由病毒引发的健康与经济影响。准确的信息对于应对公共卫生威胁至关重要。我们与谷歌内部的多个产品团队合作通过支持事实检查以及 YouTube 导流等方式提高谷歌新闻与搜索中关于 COVID-19 的信息质量。另外通过赞助 Nextstrain.org 发布每周本地疫情报告并与 Translators Without Borders 合作开发 COVID-19 开源并发数据集我们还帮助多语言社区平等获取关键 COVID-19 信息。对复杂全球事件进行建模极具挑战性而更全面的流行病学数据集、开发新颖的可解释模型以及基于代理的模拟器帮助公众更从容地应对健康。机器学习技术还通过自然语言理解、快速筛选 COVID-19 科学文献、应用匿名化技术实现隐私保护、提供丰富数据集等多种方式为研究人员提供助力。更重要的是公共卫生部门也在谷歌技术成果的支持下从以下几个方面做出抗疫探索这些只是谷歌开发的诸多工作中的一个侧面也代表着谷歌帮助用户及公共卫生当局更从容地应对 COVID-19。关于更多详细信息请参阅 使用科技成果帮助应对COVID-19。医学诊断领域的机器学习研究我们将继续努力帮助临床医生运用机器学习的力量为更多患者提供更好的护理。今年我们在应用计算机视觉帮助医生诊断及管理癌症病患方面取得了显著进展包括帮助医生在结肠镜检查期间不致错过潜在的癌性息肉。此外我们还证明机器学习系统完全能够实现更高的准确性除了精度堪比病理学家对前列腺组织的格里森分级之外还能帮助放射科医师在检查 X 光片中是否包含乳腺癌迹象时大大降低假阴性与假阳性检查比例。我们还一直在研究可帮助识别皮肤疾病、检测年龄相关黄斑变性已经成为美国及英国民众发生失明病变的首要原因同时也是全球范围内造成失明的第三大原因并尝试探索新的非侵入性诊断方法例如通过视网膜影像检测出贫血迹象。今年我们还带来了令人振奋的示范展示了如何将上述检测技术引入人类基因组当中。谷歌的开源代码工具 DeepVariant 使用卷积神经网络识别出预测数据内的基因组变体并借此在今年的 FDA 挑战赛拿下最高奖项在总计四个类别中的三个类别获得最佳准确性。使用相同的工具由达纳 - 法伯癌症研究所进行的另一项研究成功对 2367 名癌症患者体内导致前列腺癌及黑色素瘤的遗传变异诊断准确率提高了 14%。我们的研究也不止于衡量实验的准确性。最终要真正帮助患者获得更好的护理必须了解机器学习工具如何给现实世界中的人们造成影响。今年我们开始与 Mayo Clinic 合作开发出一套机器学习系统用以协助放射治疗项目并探索如何更好地将技术部署到临床实践当中。通过与泰国合作伙伴的协作我们得以对糖尿病引发的眼病进行筛查测试案例借此了解如何构建起以人为本的系统方案也逐步意识到多样性、公平性以及包容性在提升人类社会整体健康水平的基础性作用。天气、环境与气候变化机器学习可以帮助我们更好地了解环境做出有用的预测借此帮助人们解决日常难题、克服自然灾害。以天气预报和降水为例长期以来以 NOAA 的 HRRR 为代表的计算密集型物理模型一直是行业中的首选方案。但我们已经证明基于机器学习的预测系统能够以更好的空间分辨率来预测当前降水情况回答「我家附近的公园正在下雨吗」而不只是「当前所在城市正在下雨吗」并产生未来 8 小时内准确率远高于 HRR 的短期预报。这套模型不仅预报计算速度更快同时也拥有更高的时空分辨率。我们还开发出一种名为 HydroNets 的改进型技术其使用神经网络对全球范围内的真实河流系统进行建模借此准确分析上游水位与下游泛洪之间的相互作用借此更准确地做出水位预测与洪水预报。使用这些技术我们将印度与孟加拉国的灌水警报覆盖范围扩大了 20 倍为 25 万平方公里内的 2 亿多居民带来更强大的生命安全保护能力。凭借更出色的卫星图像数据分析能力谷歌用户也可以准确把握野火的影响与烈度今年野火给加利福尼亚州及澳大利亚造成了毁灭性的影响。我们证明即使以往的卫星图像数据有限对最新卫星图像的自动分析仍可以有效评估自然灾害带来的损失。此外这项技术还可以评估不同城市当中的树冠覆盖范围并据此设计新植被种植规划以帮助城市对抗自然灾害。我们也展示了如何利用时态背景下的机器学习技术帮助人们改善对生态及野生动植物的监测水平。基于这项工作我们很高兴能够与 NOAA 合作利用 AI 与机器学习通过 Google Cloud 基础设施扩大 NOAA 的环境监测、天气预报与气候研究范围。辅助功能机器学习在改善辅助功能方面同样表现出惊人的能力因为它能够学会将一种感官输入转换为其他感官输入形式。例如我们发布的 Lookout 是一款 Android 应用可以通过识别杂货店与家中厨房橱柜中的食品余量帮助视障用户。Lookout 背后的机器学习系统证明强大且紧凑的机器学习模型完全可以在手机上实时识别出近 200 万种产品。同样的使用手语进行交流的人们很难使用视频会议系统。现有基于音频的发言检测系统往往无法识别出他们的发言动作。为此我们开发出用于视频会议的实时、自动手语检测模型借此将做出手语表达的用户正确识别出活跃发言者。我们还为重要的居家客户提供强大的 Android 无障碍功能包括语音访问与有声通知。Live Caption 也迎来扩展能够支持 Pixel 手机上的呼叫并提供语音与视频通话的字幕生成功能。这项成果源自 Live Relay 研究项目此项目能够帮助聋哑用户在无需帮助的情况下顺利拨打电话。机器学习在其他领域的应用机器学习也不断地在众多重要的科学领域证明着自己的实力。2020 年我们与 HHMI Janelia Research Campus 合作建立了 FlyEM 团队共同发布了果蝇半脑连接组——这是一份表现大脑连接的大型突触分辨率图其中使用大型机器学习模型对高分辨率电子显微镜捕捉到的组织图像进行了重建。该连接组信息将帮助神经科学家们执行各类查询帮助我们更好地了解大脑的运作机理这里建议大家观看这段 3-D UI互动展示。机器学习技术在系统生物学领域的应用也在快速扩张。我们的 Google Accelerated Science 团队与 Calico 的同事们合作将机器学习引入酵母分析借此更好地了解基因在整个生态系统中如同协同工作。我们还一直探索如何使用基于模型的强化技术借此设计出具备医学或工业用途的、拥有特定性质的生物序列——例如 DNA 或蛋白质。基于模型的强化学习能够提高样品效率。在每轮实验中我们都使用适合先前轮次的特征测量模拟器对策略进行离线训练。在设计 DNA 转录因子结合位点、设计抗菌蛋白以及对基于蛋白质结构的 Ising 模型进行能量优化等任务上我们发现基于模型的强化学习已经成为一种极具吸引力的替代性解决方案。在与 X-Chem 制造公司以及 ZebiAI 的合作中我们也一直在开发机器学习技术通过计算对有希望的分子化合物进行“虚拟筛选”。该领域以往的工作倾向于集中处理少量相关化合物而在谷歌的研究中我们尝试使用 DNA 编码的小分子库更准确地概括大范围“命中”区间。这种新方法消除了实体实验室中缓慢、低效的实体流程有望单纯立足理论产出可行的药物配方。我们还看到通过机器学习解决核心计算机科学及计算机系统问题的成功案例这方面趋势也催生出以 MLSys 为代表的会议平台。在基于学习、面向 C Server 工作负载的内存分配用例中基于神经网络的语言模型能够预测出与上下文相关的各分配站点对象生命周期信息并借此组织堆以减少内存碎片。在纯使用大内存页更适合 TLB 行为时这种方法能够将碎片减少达 78%。用于图优化的端到端可转换 Deep RL 则提出一种用于端到端且可转换的图优化计算深度强化学习思路。与 TensorFlow 中的默认优化方法相比其在三项图优化任务上实现了 33% 到 60% 的收敛加速效果全面压倒原有计算图优化方法。正如《采用深度强化学习进行芯片设计》Chip Design with Deep Reinforcement Learning所述我们也一直在利用强化学习技术解决计算机芯片设计中的线路布局问题。长期以来这一直是项费时费力的工作同时也严重制约着芯片产品由设计灵感到建立完整设计、再到压片制造的推进速度。与以往的方法不同我们的新方法能够从过往经验中学习思路并随时间推移不断改进设计效果。具体来讲我们在训练中使用的芯片设计成果越多我们的方法就越是善于通过前所未有的设计方式产出高度优化的布局方案。这套系统能够生成整体优于人类芯片设计专家的布局我们也一直在利用该系统运行在 TPU 上为下一代 TPU 进行主体布局设计。Menger 是我们专为大型分布式强化学习而构建的最新基础设施并在解决芯片设计等强化学习难题中表现出令人振奋的性能水平。负责任的 AI谷歌 AI 的原则引导着我们开发先进技术我们将继续投入负责任 AI 的研究中更新我们在这一领域的技术实践并就实施进度定期发布共享更新——2020 年内发布的各 博文 及 报告 正是其中的重要部分。为了帮助大家更好地理解语言模型的行为我们开发出语言可解释性工具LIT。这套工具包能够提高语言模型的可解释性由此实现交互式探索并分析决策结果。我们还在预训练的语言模型中开发出可衡量性别相关性的技术以及用于减少谷歌翻译中性别偏见问题的可扩展技术。我们使用内核技巧提出了一种简单方法用以估计各训练数据示例对单一预测的影响。为了帮助非专业人士解释机器学习结果我们扩展了 2019 年引入的 TCAV 技术现在已由此建立起一套完整且充分的概念体系。在初步 TCAV 工作中我们可以将“毛茸茸”与“长耳朵”设定为“兔子”这一预测结果的重要前提性概念。通过这项工作我们还可以认定这两项概念足以完全解释预测结果再不需要其他概念的引入。概念瓶颈模型则是另外一种技术旨在通过模型训练降低该模型的解释难度。我们首先将其中一层与预定义的专业概念例如下图中的「骨刺」与「翅膀颜色」相匹配而后再进行建模。如此一来我们不仅能够解释得出最终预测结果的理由还可以即时开启 / 关闭各项概念。通过与其他各机构开展合作我们还对语言模型的记忆效应加以研究证明提取训练数据信息完全有可能成为各类最新大型语言模型的现实威胁。这一发现外加嵌入模型可能泄露出的信息也许会给隐私保护工作产生重大影响尤其是针对私有数据训练而成的模型。在《芝麻街窃贼基于 BERT 的 API 上的模型提取》Thieves of Sesame Street: Model Extraction on BERT-based APIs当中我们证明仅对语言模型进行 API 访问的攻击者即使只对原始模型进行少量 API 查询完全可以建立起输出结果与原始模型具有高度相关性的模型。之后的工作又进一步证明攻击者能够以任意准确性提取较小的模型。以 AI 安全原则为基础我们证明即使是在部署有自适应攻击评估方案的情况下敌对方仍可以绕过 13 种针对对抗性示例的公开防御方法。后续我们的工作重点将放在自适应攻击的方法与手段身上希望能帮助社区在建立更强大的模型方面取得更多进展。对机器学习系统的检查方法本身也是个重要的探索领域。我们与各 AI 伙伴开展合作携手定义出一套框架能够借鉴来自航空航天、医疗设备以及金融行业的经验教训及最佳实践借此审计软件产品中机器学习技术的实际使用情况。通过与多伦多大学及麻省理工学院的合作我们发现在审计人脸识别系统性能时可能出现的一些道德问题。通过与华盛顿大学的合作我们现在确定了在针对多样性及包容性目标评估算法公平性时应遵循哪些标准来选择数据子集。为了让负责任 AI 真正服务于更多乃至全球范围内的用户并帮助行业理解公平概念在世界各地是否具有一致性我们分析并创建了印度算法公平框架其中包含数据集、公平性优化、基础设施与生态系统等多个组成部分。谷歌与多伦多大学于 2019 年合作推出的 Model Cards 项目也在稳步实现影响力增长。事实上众多知名模型例如 OpenAI 的 GPT-2 与 GPT-3、谷歌的 MediaPipe 模型以及多项 Google Cloud API 都采用了 Model Cards借此向机器学习模型用户提供关于该模型的开发信息以及在不同条件下观察到的模型行为。为了让其他人更轻松地将 Model Cards 引入自己的机器学习模型我们还推出了 Model Card Toolkit用以简化模型透明度报告。为了提高机器学习开发实践的透明度我们在整个数据集开发生命周期中展示了一系列最佳实践及具体用例包括数据需求规范与数据接纳测试等。我们与美国国家科学基金会NSF合作发布并资助国家 AI 研究院发起的人与 AI 交互及协作项目。我们还发布了 MinDiff 框架这是 TF 模型修正库中提供的一种新型正则化技术能够高效便捷地缓解机器学习模型训练过程中存在的偏见问题。其同时还提供机器学习公平性训练房功能可通过简单的模拟系统探索机器学习决策系统在部署并长期应用之后可能因社会环境受到的后续影响。除了开发公平框架之外我们还开发出能够识别并改善推荐系统体验与质量的方法包括使用强化学习技术提高建议路线的安全度。我们也致力于提高机器学习系统的可靠性并发现包括生成对抗示例在内的多种方法有助于提升稳健性、进而带来更强大的公平性表现。差别隐私是一种能够明确量化的隐私保护方式我们需要重新思考各类最基本的算法确保其在运作过程中不会泄露任何特定个人的信息。具体来讲差别隐私有助于解决前文提到的记忆效应与信息泄露问题。2020 年行业出现了不少振奋人心的发展让我们能够更有效地计算出如何尽可能降低个人体验风险同时又最大程度提升个人聚类的生成准确率。另外我们还开放了谷歌内部工具核心中的差别隐私库并高度关注如何防止由实数浮点表示引起的泄漏问题。事实上谷歌也在使用这些工具生成差别个人 COVID-19 移动报告这些报告也成为研究人员及政策决定者们手中极具价值的匿名数据来源。为了帮助开发人员评估其分类模型的隐私属性我们在 TensorFlow 中发布了机器学习隐私测试库。我们希望该库能够为其他更为强大的隐私测试套件提供启示目前此套件已经面向全球各地的机器学习开发人员公开开放。除了推动开发隐私算法的最新进展之外我们还努力将隐私因素全面融入到底层产品结构当中。Chrome 提供的“隐私沙箱”功能就是最好的例子它能够改变广告生态系统的基本运作方式有助于系统化保护个人隐私。作为项目的一部分我们发布并评估了多种不同 API包括针对特定目标群体的联邦学习FLoC以及用于差别隐私衡量的聚类 API。诞生于 2017 年的联邦学习技术现已形成一个完整的研究领域仅 2020 年一年就发表了超过 3000 篇关于联邦学习的论文。我们在 2019 年联合其他机构发表的《联邦学习中的进步与开放性问题》Advances and Open Problems in Federated Learning调查论文在过去一年内被引用 367 次其更新版本也将很快发表在《机器学习的基础与趋势》系列文章当中。去年 7 月我们还举办了联邦学习与分析研讨会并公开了 所有研究报告 及 TensorFlow联邦学习教程。我们不断推动联邦学习的发展包括开发出新的联邦优化算法例如自适应学习算法、后验平均算法以及在联邦环境中模拟集中式算法的技术、对互补密码协议的实质性改进等等。我们发布并部署了联合分析方案借此对存储在用户本地设备上的原始数据进行数据科学分析。谷歌产品本身也给联邦学习提供了重要的应用平台包括在 Gboard 中提供上下文表情符号建议以及 Google Health Studies 借此开拓隐私保护医学研究等等。此外在通过随机登记进行隐私放大这一研究中我们还推出了第一种用于联邦学习的隐私财会核算机制。用户安全也是我们高度关注的研究领域。2020 年我们继续部署新的机器学习文档扫描器借此抵御恶意文档的侵袭进一步提高对 Gmail 用户的保护力度。现在我们将日均恶意 Office 文档检测率提高了 10%。凭借着良好的通用性我们这款工具也在阻止其他敌对恶意软件活动方面发挥重要作用并在特定场景下将检测成功率提高达 150%。在账户保护方面我们发布了一款完全开源的安全密钥固件旨在提高双因素身份验证领域的技术应用水平。面对网络钓鱼的一波波冲击安全密钥已经成为保护账户的最佳方法。自然语言理解这一年我们在自然语言理解能力方面取得了长足进步。谷歌及其他各方的大部分自然语言理解项目普遍依赖于 Transformers——一种最初专为语言理解开发而成的特殊神经网络模型目前有更多证据表明其同样适用于图像、视频、语音、蛋白质折叠以及其他多个领域。对话系统领域的一大重要进展在于现在的对话系统能够与用户就感兴趣的内容进行聊天且支持期间进行的多次交互。但迄今为止这一领域中的成功案例大多要求创建专门针对特定主题例如 Duplex因此无法进行通用形式的对话。为了创建出具备更高开放性对话功能的系统我们在 2020 年发布了 Meena。这是一种常识渊博的对话代理愿意与用户就任何话题展开讨论。Meena 还在 SSA 对话系统指标上获得高分意味着其拥有良好的响应敏感性与特异性。根据观察我们发现随着 Meena 模型规模的扩大其适应对话内容的能力越来越强。而且根据 相关论文 的解释适应力越强即对话困惑度越低SSA 得分越高。在生成式语言模型与对话系统存在着一个广为人知的难题——在讨论事实数据时模型容量往往不足以记住与主题相关的每一个具体细节这意味着模型给出的结果虽然合理、但却并不正确。当然这不是机器所特有的问题人类也可能犯下类似的错误。为了在对话系统中解决此类问题我们正尝试允许对话代理访问外部信息源例如大量文档、文档库或者搜索引擎 API以增强对话代理。此外我们还尝试开发新的学习方法以作为附加资源借此生成与检索到的文本相一致的语言。此领域的工作成果包括将检索集成至语言表示模型当中要使其正常起效一项关键底层技术在于 ScaNN 等方案中使用的有效矢量相似度搜索借此将所需信息与文本语料库内的信息进行有效匹配。一旦找到适当的内容我们就可以由神经网络在表内查找答案、并从临时文档中提取结构化数据等方法更好地建立起语义理解。我们在 PEGASUS一套用于对文本摘要进行抽象的最新模型上取得进展能够为任意文本片段自动创建摘要——这项功能将给对话、检索系统以及多种其他用例带来重要助益。2020 年我们的另一大重点在于提升自然语言处理NLP模型的执行效率。迁移学习与多任务学习等技术可以帮助通用 NLP 模型借助少量计算应对种种全新任务。这一领域的工作包括在 T5 中进行迁移学习探索、模型的稀疏激活详见后文中的 Gshard 部分以及使用 ELECTRA 提高模型预训练效率等。我们还着力推进其他几项计划希望在基础 Transformer 架构之上做出改进。以 Reformer 为例它使用局部敏感哈希与可逆计算有效支持更大的注意力窗口在蛋白质建模中探索 Performers使用线性、而非平方方法的应用外加通过全局与稀疏随机连接为大型结构化序列的 ETC 与 BigBird 实现线性缩放等。我们还探索用于创建极轻量级 NLP 模型的技术此模型的大小仅为 BERT 模型的百分之一但在某些任务上拥有几乎相同的性能表现因此非常适合运行在边缘设备之上。在《编码、标记与实现》Encode, Tag and Realize中我们则探索如何使用编辑操作而非完全通用型文本生成方法生成文本模型的新途径。这种方法在较少计算资源消耗、更大的所生成文本控制空间以及较低的训练数据需求等方面具有独特优势。语言翻译高效的语言翻译服务可以帮助使用不同母语的人员彼此顺畅交流进而将整个世界更紧密地联系在一起。截至目前全球已经有超过 10 亿用户使用谷歌翻译。去年开始我们又新增五种新的语言选项卢旺达语、奥里亚语、鞑靼语、土库曼语与维吾尔语目前已经有 7500 万用户使用这些语言。此外我们还通过改进模型架构与训练方式、更好地集中处理数据噪声、多语言传输与多语言处理等技术不断提高翻译质量。从 2019 年 5 月至 2020 年 5 月谷歌翻译提供的 100 多种语言选项整体迎来了 5 BLEU 评分提升同时也能够更好地使用单语数据改进资源匮乏型语言即互联网上相关书面内容较为有限的语种的翻译效果。事实上我们一直强调提高机器学习系统的公平性尽可能为不同群体提供效果相仿的机器学习技术功能。我们坚信不断扩展多语言翻译模型将进一步带来翻译质量改进最终为全球数十亿使用资源匮乏型语言的用户带来更好的实际体验。谷歌研究人员在《GShard通过条件计算与自动分片实现巨型模型伸缩》GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding中证明通过训练稀疏激活型多语种翻译模型其中包含多达 6000 亿个参数能够在 100 种语言的 BLEU 得分层面实现远优于基准水平的翻译质量。文中的图六部分展示了此项工作中的三大趋势具体转载如下通过多语种训练所有语言的 BLEU 分数都有所提高其中资源匮乏型语言的改善效果甚至更好图中右侧线高于左侧。这些语言主要分布在全球各边缘化社群当中但使用者人数仍多达数十亿。图中各个矩形代表使用者达到 10 亿规模的语种。模型越大、层数越多所有语言的 BLEU 得分提高幅度就越明显几乎没有例外。大型稀疏模型还证明与训练大型密集模型相比稀疏模型的训练计算效率提高了 10 到 100 倍此外其 BLEU 得分也等同甚至显著超过了大型密集模型的 BLEU 得分论文也就此对计算效率问题做出讨论。我们一直在积极努力希望将 GShard 研究工作中得出的成果正式引入谷歌翻译并训练出能够涵盖 1000 种语言包括迪维希语与苏丹阿拉伯语的单一模型同时分享期间我们所面临且 有待解决的各项挑战。我们还开发出可为 BERT 模型创建语言中立性句子表示的技术借此开发出更强大的翻译模型。为了高效评估翻译质量我们引入了 BLEURT。这是一种用于评估翻译等语言生成类任务的新型指标其不仅会考虑单词与实际数据间的重叠量同时也能兼顾所生成文本的实际语义具体如下表所示。机器学习算法我们将继续开发新的机器学习算法与训练方法使系统能够使用较少的监督数据更快完成学习。通过在神经网络训练过程中重播中间结果我们发现可以有效填充机器学习加速器上的闲置时间借此加快神经网络训练速度。此外通过在训练过程中动态改变神经元的连通性我们还找到了优于静态连接神经网络的解决方案。我们开发出 SimCLR一种新的自我监督与半监督学习技术不仅能够最大程度提高同一图像在不同变换视图间的一致性同时也让不同图像在变换视图之间的一致性处于最低水平。这种方法显著超越了原有最佳自我监督学习技术的性能水平。我们还将对比学习的概念扩展到监督机制当中当中由此产生的损失函数能够大大改善监督分类问题的交叉熵。强化学习强化学习RL的本质在于以有限的经验中总结并学习制定长期决策的核心依据。强化学习领域的一大重点挑战是如何利用极少量固定数据点做出准确决策并不断通过其余代理进行改进性探索最终显著提高强化学习算法的效率。2020 年我们的关注重点在于离线强化学习。其仅依赖于固定且预先收集完成的数据集例如来自先前实验或人类演示借此将强化学习扩展至无法即时收集训练数据的应用场景当中。我们还在强化学习中引入了对偶方法由此开发出的改进型算法可用于非策略评估、估计置信区间并实现离线策略优化等。此外我们还与广泛的社区开展合作尝试发布开源基准测试数据集以及雅达利 DQN 数据集来解决这些问题。另一项研究则通过学徒学习向其他代理学习经验借此提高样本效率。我们开发出新的方法能够向其他经过训练的代理学习或者从其他代理的分布匹配 / 对抗示例中学习模式。为了改进强化学习中的探索机制我们尝试了基于奖励的探索方法包括如何模仿已经对当前环境拥有先验知识的代理所产生的结构化探索结果。我们在强化学习的数学理论方面同样取得了重大进展。我们的主要研究领域之一在于探索如何将强化学习视为一种优化过程。我们发现了强化学习与 Frank-Wolfe 算法、动量方法、KL 散度正则化、算子理论以及收敛性分析之间的联系这些洞见又推动我们建立起新的算法能够在极具挑战性的强化学习基准测试中达到最佳性能也借此让多项式传递函数回避了强化学习与监督学习中关于 softmax 的收敛问题。我们在安全强化学习这一主题之下同样取得令人振奋的进展包括如何在遵循重要实验约束条件的情况下发现包括安全策略优化框架在在内的各种最佳控制规则。我们还研究出如何通过高效强化学习算法解决所谓平均场博弈问题这种博弈模型能够帮助决策者完成从移动网络布设到电网设计的多种建模需求。我们在新任务与新环境泛化领域取得的突破也让强化学习在面向复杂实际问题的扩展方面迈进了新的一步。2020 年我们的重点研究方向是基于群体的“学会学习”方法即由另一强化学习或进化代理对当前强化学习代理群体进行训练借此建立包含多种复杂紧急情况的学习内容表最终发现新的强化学习算法。这种能够根据训练集内各数据点的重要性做出估计并有选择地注意某些特定视觉输入部分的能力将给我们带来更加强大的强化学习算法。我们在 AttentionAgent 中使用的方法概述与数据处理图示。顶部图: 输入转换——由滑动窗口将输入图像 分割成多个较小的块而后再对结果进行“拉平”降维以备后续处理。中部图: 补丁选举——修改之后的 自我注意模块将对各补丁进行投票借此生成补丁的重要度向量。下部图: 动作生成——AttentionAgent 会选出最重要的补丁 取相应特征并根据这些特征做出决策。此外我们还证明学习预测行为模型能够加速强化学习速度由此在不同团队中实现分散协作式多代理任务进而学习长期行为模型并最终在基于模型的强化学习领域取得新的进展。通过观察那些能够在环境中引发预测变更的 skill我们发现 skill 无需监督。表示形式越精准、强化学习的效果越稳定而分层潜在空间与值改进路径则能带来更好的性能。我们还共享了用户扩展强化学习与生产强化学习的开源工具。为了帮助用户进一步扩大能够应对的场景范围与问题类别我们还推出了 SEED一种大规模并发强化学习代理发布了一套用于衡量强化学习算法可靠性的库同时还推出 TF-Agents 的最新版本其中包含分布式强化学习、TPU 支持以及全套的 Bandit 赌博机算法。此外我们还对强化学习算法进行了大量实证研究希望改善超参数选择与算法设计能力。最后我们还与 Loon 合作训练并部署了能够高效控制平流层气球的强化学习模型希望借此改善各气球联网节点的功耗与导航能力。AutoML使用学习型算法开发新型机器学习技术与解决方案又称元学习代表着非常活跃且令人兴奋的研究领域。在以往的大部分相关工作中我们一直在创建搜索空间借此寻找如何以前所未有的方式将复杂的手工设计组件整合起来。而在《AutoML-Zero具备学习能力的进化型代码》AutoML-Zero: Evolving Code that Learns中我们开始采取不同于以往的方法即由进化算法提供一套由原始运算例如加法、减法、变量赋值以及矩阵乘法组成的搜索空间借此尝试能否从零开始发展出现代机器学习算法。事实上具有实用价值的学习型算法非常稀少但这套系统确实逐步发展出了越来越复杂的机器学习算法。如下图所示该系统重现了过去三十年中诸多最重要的机器学习发现例如线性模型、梯度下降、修正线性单元、高效学习率设置与权重初始化、以及梯度归一化等等。我们还使用元学习方法发现了多种能够从静态图像及视频中检测出各类对象的多种高效架构。过去一年我们使用 EfficientDet 这套高效图像分类架构做出种种探索并发现其图像分类准确性明显提升、计算成本则有所降低。在后续研究中我们发表了《EfficientNet迈向高效可扩展的对象检测之路》EfficientDet: Towards Scalable and Efficient Object Detection中提到EfficientDet 能够派生出新的对象检测与定位架构同时在绝对准确率与计算成本方面实现显著改进。在达到与以往模型相同的准确性水平时新模型的计算成本仅为后者的十三分之一到四十二分之一。我们在 SpineNet 上提出一种元学习架构其不仅能够有效保留空间信息同时也能以更高分辨率进行检测。我们还专注于针对各类视频分类问题自主学习出新的有效架构。《AssembleNet在视频架构中搜索多流神经连通性》AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures《AssembleNet 通过注意力连接组合出模态表示》AssembleNet: Assembling Modality Representations via Attention Connections以及《AttentionNAS用于视频分类的时空注意力单元》AttentionNAS: Spatiotemporal Attention Cell Search for Video Classification具体展示了如何使用进化算法创建出前所未有的新型视频处理机器学习架构。这种方法还可用于开发出有效的模型架构借此进行时序预测。《使用 AutoML 实现时间序列预测》Using AutoML for Time Series Forecasting中描述了一种系统可自动在包含多种底层构建块的搜索空间内自动搜索进而发现新的预测模型。这种方法也在 Kaggle M5 预测竞赛中凭借生成的算法证明了其有效性。该系统在 5558 种参赛方案中排名第 138位列前 2.5%。不同于其他需要耗费数月时间人工构建的竞争性预测模型我们的 AutoML 解决方案能够在很短时间内找到理想模型、计算成本适中500 个 CPU、2 个小时且无需人为干预。更好地理解机器学习算法与模型深入理解机器学习算法与模型对于设计并训练更有效的模型、以及理解模型在哪些情况下无法起效可谓至关重要。一年以来我们专注于围绕表示能力、优化、模型概括与标签噪声等基础问题做出研究。如前文所述Transformer 网络给语言、语音以及视觉问题建模产生了巨大的影响但这些模型所代表的特征类别是什么最近我们证明 transformer 属于一种面向序列到序列函数的通用型逼近器。此外即使稀疏 transformer 仅使用令牌之间的线性交互次数其仍然属于通用逼近器范畴。我们也一直在开发基于分层自适应学习率的新型优化技术希望借此提高 transformer 的收敛速度。例如《用于深度学习的超大批量优化LAMB在 76 分钟内训练出 BERT 模型》Large batch optimization for deep learning (LAMB): Training BERT in 76 minutes。随着神经网络在深度与广度层面的不断拓展相关模型的训练速度得到整体加强泛化能力也有所提升。经典学习理论认为大规模网络应该会出现过度拟合但正是前面这种与经典理论相悖的效果让深度学习在实际应用中牢牢占据着主动。我们也在努力理解过度参数化状态下的神经网络。在不设宽度限制的情况下神经网络能够采用令人惊讶的简单形式并通过神经网络高斯过程NNGP或神经正切核NTK进行描述。我们从理论与实验两个角度出发研究这种现象并公布了 Neural Tangents——一套由 JAX 编写的开源软件库可供研究人员构建并训练无限宽度的神经网络即超宽深度网络。随着有限宽度网络的不断扩大其还会表现出特殊的双重下降现象——随宽度增加其泛化度先是变得更好、之后变得更差、接着又变得更好。我们已经证明这种现象可以通过新的偏差 - 方差分解来解释而且在进一步扩展后有可能表现为三重下降。最后在实际问题中我们往往需要处理明显的标签噪音问题。例如在大规模学习场景中我们往往只能从高噪音标签中获取到弱标签数据。现在我们已经开发出新的技术能够从严重的标签噪音中提取出有效的监督信息借此获取最佳结果。我们还进一步分析了使用随机标签进行神经网络训练的效果证明这种方式能够增强网络参数与输入数据之间的匹配程度与从零开始进行初始化相比新方法还能加快下游训练速度。我们也探讨了标签平滑或梯度裁剪能否减轻标签噪音问题由此给利用有噪声标签实现模型训练带来新的指导性洞见。算法基础与理论2020 年我们在算法基础与理论方面的工作也取得了重大成果先后发表多篇高影响力论文。在优化方面我们探讨边缘加权在线二分匹配的论文提出一种新的在线竞争算法技术解决了三十年来长期困扰人们的边缘加权变量这一开放性问题相关成果已经被应用于在线广告分发当中。除此之外我们还开发出双镜像下降技术其有望应用于带有多样性及公平性约束的多种模型当中。我们还发表了在线调度、在线学习与在线线性优化领域应如何使用机器学习实现在线优化的系列论文。另一项研究结果则让密集图上的经典二分匹配问题取得了五十年来的首次突破。最后我们在另一篇论文中解决了长期存在的、如何在线追踪凸体的开放性问题——这里我们使用的仍然是 The Book中的一种算法。我们还继续在可伸缩图挖掘以及基于图的学习领域开展研究并在 NeurIPS’20 大会上的 Graph Mining Learning at Scale Workshop 研讨中以主持的身份讨论了包括图聚类、图嵌入、因果推理以及图神经网络在内的各种可伸缩图算法成果。在此次研讨中我们展示了如何通过类似于 BigTable 的分布式哈希表对 MapReduce 等标准同步计算框架进行扩展借此在理论与实践层面提升部分基础图问题的处理速度。我们的广泛实证研究还验证了 AMPC 模型的实际应用潜力这套模型的灵感来自我们在面向分层聚类与互连组件的大规模并发算法中使用的分布式哈希表。理论结果表明这种方法能够在恒定的分发轮次中解决多种此类问题由此极大提高计算效率。我们还在 PageRank 与随机游走计算中实现了指数级的加速成绩。在图学习领域我们发布了 Grale我们自主设计的机器学习图框架。此外我们还介绍了如何构建可伸缩性更强的图神经网络模型并证明 PageRank 能够显著加快 GNN 中的推理速度。在作为计算机科学与经济学交叉领域的市场算法中我们继续研究如何对在线市场做出改进例如衡量广告竞拍中的激励属性、双边市场以及优化广告选择中的订单统计等。在重复竞拍领域我们开发出多种框架使得动态机制具有更强的稳健性因此防止对当前市场及或 / 未来市场做出预测或估计错误由此产生更准确且可验证的动态机制。此外我们还描述了何时可以通过几何式标准实现渐近最优目标。我们还比较了实践中使用的一系列预算管理策略的均衡结果证明了这些策略对于收入及买家最佳平衡点产生的影响并阐明了其中的激励属性。再有我们还继续研究最佳拍卖参数并解决了批量学习中的复杂性与收益损失问题。我们还设计出最优反悔机制研究上下文竞拍定价中的组合优化并开发出一套新的竞拍主动学习框架借此改善竞拍标价近似性。最后受到竞价中激励重要性的启发我们希望帮助各广告商深入研究激励属性在竞价活动中的影响并为此推出了一项数据驱动型指标、用以量化特定机制与激励兼容性之间的偏离程度。机器感知感知我们周遭的世界——包括对视觉、听觉及多模输入形式的理解为此建模并采取行动——仍是一个重要的研究领域也具有巨大的发展潜力。相关突破性成果有望显著改善我们的日常生活。2020 年深度学习技术衍生出能够将 3D 计算机视觉与计算机图像紧密结合的全新方法。CvxNet、用于描述 3D 形状的深层隐式函数、神经立体像素渲染与 CoReNet 都是这一领域中的典型成果。此外我们还在研究如何将场景表示为神经辐射场简称 NeRF这也是谷歌研究院通过学术合作促进神经体积渲染技术的又一重要案例。在与加州大学伯克利分校合作的《学习城市分解与照明》Learning to Factorize and Relight a City论文中我们提出一套学习型框架能够将室外场景分解为随时间变化的照明条件与永久性场景因素。以此为基础我们能够任意生成一切“街景”式全景照明效果与场景几何甚至能够借此生成全天延时拍摄视频。我们还着力探索生成式人形与关节姿态模型希望在完全可训练的模块化深度学习框架中引入统计型、支持关节形态的 3D 人体建模管道。此类模型能够通过一张照片对其中的人体进行 3D 姿态与形状重构由此更好地理解画面中的场景。2020 年使用神经网络进行媒体压缩的尝试也在不断升温。除了图像压缩这项技术也开始在视频压缩、深度体积压缩方法以及深度形变中立式图像水印方面取得了不错的性能表现。感知研究中的其他重要主题还包括更好地使用数据资源例如通过有噪声学员进行自我训练从模拟数据中学习从有噪声标签中学习对比学习等。跨模推理例如使用跨模监督、视听语音增强、语言基础、采用本地化特征描述的 Open ImagesV6更新——可将视觉与语言以多模注释方式联系起来。开发执行效率更高的感知方法特别是可运行在边缘设备上的方法例如快速稀疏卷积用于模型压缩的结构化多哈希等。增强对各类对象及场景进行表示与推理的能力例如检测 3D 对象并预测 3D 形状、通过单一 RGB 图像重构 3D 场景、利用时间上下文进行对象检测、学习查看透明对象并通过立体关系估计其姿态。利用 AI 支持人类创造力例如根据网页自动创建视频、智能视频重构、使用 GAN 创造奇幻生物、照亮画像等。我们还通过开源解决方案及数据集同更广泛的研究社区进行互动希望携手推进感知研究的发展。2020 年我们开源了 MediaPipe 中的几种新型感知推理功能及解决方案包括基于设备的人脸、手部与姿态预测实时身体姿态跟踪实时虹膜跟踪与深度估计以及实时 3D 对象检测。在机器学习技术的支持下我们还在不断改善移动设备的使用体验。我们得以在移动设备上运行更复杂、更强大的自然语言处理功能由此实现更自然的对话体验。2020 年我们还扩展了 Call Screen 并新发布 Hold for Me帮助用户更快处理多种日常任务另外我们还在 Recorder 应用中提供基于自然语言的操作与导航功能借此提高用户的工作效率。我们还使用谷歌的 Duplex 技术向各业务部门发起呼叫确认需要临时关闭的功能。以此为基础我们得以在全球范围内对业务信息进行 300 万次更新更新结果已经在地图与搜索内获得超过 200 亿次浏览。我们还使用文本到语音技术借此让谷歌助手通过 42 种语言大声朗读文本借此降低页面的访问难度。我们也在不断对拍摄应用做出改进。我们通过更多创新控件及功能在谷歌相册中提供光照调节、编辑、增强与重现等功能由此帮助用户轻松在 Pixel 上留下珍贵的回忆。从 Pixel 4 与 4a 机型开始我们在拍照应用中引入了 Live HDR 其使用机器学习技术培训在取景器中实时估算 HDR 连拍摄影的动态、曝光与效果均衡。我们还开发出双重曝光控件允许用户在取景器内实时调整场景内暗部与亮部的具体亮度。最近我们还推出了 Portrait Light 肖像光功能这是一种用于 Pixel Camera 与谷歌相处应用的全新后期捕捉功能。此功能可为肖像添加模拟定向光源。此功能同样采用机器学习技术已经在超过 70 位测试人员身上进行训练并配合包含 331 个 LED 灯珠的 Light Stage 计算照明系统中完成了全面的光照效果学习。过去一年中谷歌研究人员还在谷歌产品的具体使用方式层面作出不少探索其中包括通过增强现实轻松获取家庭作业帮助或 3D 概念探索借此增强学习效果。在浏览器内部实现背景模糊借此改善虚拟会议效果。这项功能已被正式引入 Google Meet。提供新的方式可帮助用户在家中虚拟试用新产品。通过视频内的关键帧帮助用户快速找到最相关的内容。通过哼唱帮助用户找到听到的歌曲。帮助 YouTube 识别出有害内容以供进一步人工审核。通过自动声音增强与背景降噪帮助 YouTube 创作者制作出更好的视频。机器人在机器人研究领域我们使用前文介绍过的多项强化学习技术尝试使用更少的数据学习到更复杂、更安全且更健壮的机器人行为并由此取得了长足进步。Transporter Networks 是一种能够将机器人任务表示为空间位移形式的全新学习方法。与环境中的绝对位置相反Transporter Networks 能够以非常高效的方式在表示对象与机器人末端执行器之间建立关联帮助机器人快速学会在当前工作区内行动。在 Grounding Language in Play 中我们展示了如何教导机器人根据自然语言指令支持多个语种执行任务。很明显我们需要一种可扩展的方法用以收集自然语言指令与机器人行为之间的配对数据。通过研究我们发现可以通过呼叫机器人操作器轻松与机器人交互之后再将指令效果整理为标签并加以调整、借此引导机器人逐步学会如何正确执行指令。我们还尝试了完全不经由机器人本体由人类手持配备有摄像头的抓杆以收集更具可伸缩性的数据借此探索怎样更有效地跨越多种机器人类型传递视觉表示。我们还研究了如何从自然界中汲取灵感使用进化型元学习策略、人类演示以及深度强化学习训练数据控制器等方法总结出高度敏捷的机器人运动策略。这一年中人们对于安全性的关注进一步提升我们如何才能在现实世界中安全部署配送无人机我们如何保证机器人在探索世界的同时不至于陷入无法挽回的困境我们要如何证明学习行为的稳定性面对这一关键研究领域我们未来将继续做出积极探索。量子计算我们的 Quantum AI 团队继续致力于探索量子计算技术的实际应用。我们在 Sycamore 处理器上运行了实验算法借此模拟与化学及物理相关的系统。这些模拟场景在规模上已经逼近经典计算机的可行性极限也在实质上验证着费曼当初提出的、使用量子计算机模拟重要量子效应系统的基本思路。我们还发布了新的量子算法例如执行精确的处理器校准、证明量子机器学习优势以及测试量子增强优化效果等。我们还发布了 qsim这是一种高效的仿真工具能够在 Google Cloud 上开发并测试最高使用 40 量子比特的量子算法。我们还在继续探索发展路线图希望构建起通用性质的纠错量子计算机。我们的下一个里程碑在于证明量子纠错能够在实践层面发挥作用。为了达成这个目标我们需要证明尽管量子比特、耦合器或者 I/O 设备等单一组件中存在缺陷但规模更大的量子比特网格仍能够在逻辑信息的存储时长方面实现指数级增长。更令我们兴奋的是现在我们已经拥有自己的无尘室能够大大提高处理器制造工作的速度与质量。支持更广泛的开发人员与研究人员社区2020 年TensorFLow 迎来了五岁生日项目下载量已经走完 1.6 亿次。TensorFlow 社区也一直通过新的特别兴趣小组、TensorFlow 用户群组、TensorFlow 证书、AI 服务合作伙伴以及 #TFCommunitySpotlight 启发性演示保持着惊人的规模增长。我们还通过无缝 TPU 支持、开箱即用高性能在 MLPerf 0.7 上取得了同类最佳性能、数据预处理、分发策略以及新的 NumPy API 给 TF2.x 带来显著改进。我们还向 TensorFlow 生态系统中引入更多新功能希望帮助开发人员与研究人员高效处理工作流程Sounds of India 使用 TFX 进行训练并以 TF.js 的形式部署在浏览器内借此在短短 90 天之内完成了从研究到生产的整个过程。借助 Mesh TensorFlow我们突破了模型并发性的边界得以提供超高分辨率的图像分析能力。我们还开源了新的 TF 运行时用于进行模型性能调试的 TF Profiler以及多种负责任 AI 工具——例如实现模型透明化的 Model Card Toolkit、外加一套 隐私测试库。借助 TensorBoard.dev您可以免费托管、跟踪并共享自己的机器学习实验。此外我们还进一步加大了对 JAX 的投入。JAX 是过去两年以来发展迅猛、主要关注学术研究方向的机器学习系统。谷歌及其他企业的研究人员目前已经在广泛使用 JAX具体场景涵盖差别隐私、神经渲染、遵循物理原理的网络、fast attention、分子动力学、张量网络、神经正切核与神经 ODE 等。JAX 还加快了 DeepMind 的研究进程为不断发展的库生态系统提供劲力同时也给 GAN、元梯度、强化学习等探索注入能量。我们还使用 JAX 与 Flax 神经网络库建立起创纪录的 MLPerf 基准测试性能在 NeurIPS 大会上展示了下一代云 TPU Pod 的强大使用体验。最后我们还努力保证 JAX 能够与各 TF 生态系统工具无缝协作包括 TF.data 数据预处理、TensorBoard 实验可视化以及 TF Profiler 性能调试等等。2021 年我们还将不断推出更多新的功能。算力的不断提升让我们迎来一系列重大突破我们则通过 TFRC 计划向全球研究人员免费提供超过 500 千万亿次的云 TPU 算力资源希望借此帮助学术社群探索机器学习研究议题。截至目前学界已经发表 120 多篇 TFRC 支持下的论文。如果没有该项目提供的海量计算资源相当一部分成果根本不可能达成。例如TFRC 研究人员最近开发了野火蔓延模拟模型、帮助用户分析社交媒体上的 COVID-19 舆情与疫苗关注度变化同时也有助于对博彩假设与神经网络剪枝的整体理解。TFRC 社区的成员们还发表了关于波斯诗歌的实验在 Kaggle 竞赛中赢下细粒度时尚图像分割挑战更重要的所有教程及开源工具均实现了全面共享。2021 年云 TPU 将在 TensorFlow 之外新增对 JAX 及 PyTorch 的支持因此我们有意将 TFRC 计划更名为 TPU 研究云计划更明确地体现其广泛包容的定位。最后2020 年对于 Colab 同样是非常重要的一年。Colab 的使用量增加了一倍我们也推出多项生产级功能以帮助用户高效完成工作——包括改进 Drive 集成以及通过终端访问 Colab 虚拟机。我们还推出了 Colab Pro帮助用户获取更强大的 GPU、延长运行时间并使用更高的内存容量。开放数据集与数据集搜索具有明确且可量化目标的开放数据集一直在机器学习技术的发展当中扮演着至关重要的角色。为了帮助研究社区获得更多有趣的数据集我们将继续通过谷歌数据集搜索功能为不同组织发布的各类开放数据集建立索引。我们还认为更重要的是创建新的数据集以供社区用于开发新型技术同时还应保证以负责任的方式共享这些开放数据。2020 年除了帮助解决新冠疫情危机的开放数据集之外我们还在其他多个不同领域发布了多种开放数据集使用数据集搜索功能分析在线数据集一套囊括多种数据集的元数据集。谷歌计算集群跟踪数据2011 年谷歌在一套内部计算集群上发布了为期 29 天的计算活动跟踪事实证明这一尝试帮助计算机系统社区更好地探索出作业调度策略也帮助各方更深入地理解了集群资源的利用率情况。2020 年我们发布了规模更大的新版本涵盖 8 套内部计算集群提供的信息也更为详尽。发布 Objectron 数据集这套数据集包含 15000 段以对象为中心的短视频素材各视频片段还带有 3D 边界框从多个角度捕捉出一组规模庞大的公共对象。此外数据集还从具有良好地理多样性的样本中收集到 400 万张带有注释的图像涵盖五大洲的 10 个国家 / 地区。Open Images V6——现具有本地化特征描述除了继承 V5 版本中拥有的 9000 万张注释图像、3600 万条图像级标签、1580 万个边界框、280 万条实例分割记录以及 391000 项视觉关系之外新版本还引入了本地化特征描述。这是一种全新的多模注释形式涵盖所描述对象上的同步语音、文本与鼠标轨迹。在 Open Images V6 中本地化特征描述已经覆盖 50 万张图像。为了便于同以往成果进行比较我们还为 COCO 数据集发布了涵盖全部 123000 张图像的本地化特征描述。我们与华盛顿大学以及普林斯顿大学的研究人员合作创办了 Efficient Open-Domain Question Answering 挑战赛与研讨会希望参赛者能够创建出可以回答任何问题的系统。关于竞赛及研讨的更多详细信息请参阅 技术报告。TyDi QA一项多语种问答基准测试旨在探索新的多语种问答效率基准目前这一领域中的大多数基准只支持单一语种我们认为必须扩展出多语种支持能力。Wiki-40B多语种语言模型数据集。这是一种新的多语种模型基准测试包含 40 多种语言且涵盖数个脚本及语言族别。凭借约 400 亿个字符我们希望这一新资源能够加速多语种建模领域的研究进度。我们还在这套数据集上训练并发布了高质量训练语言模型可帮助研究人员轻松比较不同技术在这项基准测试上的差异。XTREME用于评估跨语言泛化效果的大规模多语种多任务基准测试可帮助研究人员评估多任务环境下的跨语言泛化水平。如何提高问题质量How to Ask Better Questions?这是一套面向 Rewriting III-Formed Questions 的大规模多维数据集提供跨 3030 个领域的 427719 个问题 / 答案对可用于训练模型以将存在格式错误的问题重写为质量更高的形式。Open-Sourcing Big Transfer (BiT)一套用于探索大规模计算机视觉预训练效果的开源预训练模型可作为多种图像相关任务的理想起点。与捷克维多利亚大学、捷克科技大学以及 EPFL 合作创办的 2020 图像匹配基准与挑战赛旨在通过一套数据集发起基准挑战借此解决从运动中包括视频或通过多个不同角度捕捉的静态图像捕捉 3D 结构的问题。元数据集用于少量样本学习的数据集的数据集。这是一套囊括多种数据集的数据集。机器学习领域拥有一项长期目标即构建出一套能够在几乎无需额外训练的前提下、将某一任务中的示例推广至另一任务示例的系统。这套元数据集有助于我们衡量这一终极目标的当前达成进度。Google Landmarks Dataset v2——一项用于实例级识别与检索的大型基准测试用于在人造及自然地标场景下进行大规模、细粒度的实例识别与图像检索。GLDv2 是截至目前规模最大的此类数据集其中包含超过 500 万张图像与 20 万个不同的实例标签。其测试集拥有 11 万 8 千张带有真实情况注释的图像可用于各类检索及识别任务。增强研究社区在“真实语言任务”中对街景全景素材的访问权限。这是一套新的开放数据集可向研究人员提供街景全景素材以比较真实语言导航或者其他依赖于此类数据的任务借此比较不同技术方案之间的性能差异。研究社区互动我们热衷于热情支持并广泛参与研究社区的日常运作。2020 年谷歌研究人员在各顶级研究会议上发表了 500 多篇论文同时也担任过项目组委会、研讨会、教程编撰等活动的组织方。关于我们 2020 年在各大型研讨会议中的具体贡献信息请参阅关于 ICLR 2020,CVPR 2020,ACL 2020,ICML 2020,ECCV 2020 以及 NeurIPS 2020 的博文。2020 年我们在外部研究方面投入了 3700 万美元资金其中包括 850 万美元 COVID 研究资金、800 万美元包容性与公平性研究资金以及 200 万美元负责任 AI 研究资金。去年 2 月我们公布了 2019 年谷歌教职员工研究奖获奖名单希望资助来自全球的 150 名教职员工的研究计划。其中有 27% 的获奖者源自历史上技术领域的边缘部分。我们还公布了一项新的研究学者计划计划以不设上限的奖励数额支持当前从事谷歌相关领域研究的年轻学术人才。十多年以来我们还一直鼓励博士生们申请 Google PhD Fellowships 奖学金帮助他们在获得资助的同时申请研究方向指导同时为他们提供与其他 Google PhD Fellows 研究员互动的机会。我们还在不断扩展新的包容性方法希望将更多新的声音带入计算机科学领域。2020 年我们建立了新的包容性研究奖项目旨在帮助传统意义上的低关注度群体提供计算与技术领域的学术研究支持。在首批获奖名单中我们与 25 位主要研究员共同选择了 16 项资助提案重点涵盖多样性与包容性、算法偏见、教育创新、健康工具、辅助功能、性别偏见、社会公益 AI、安全与社会公平等议题。我们还与西班牙裔服务机构计算联盟CAHSI以及教授联盟 CMD-IT 多样化未来领导者项目FLIP开展合作帮助更多处于传统边缘群体的博士生顺利完成最后一学年内的论文发表工作。2019 年谷歌 CS 研究指导计划CSRMP向 37 名本科生提供指导帮助他们深入了解计算机科学的研究过程。结合 2019/2020 学年的成功经验我们决定在 2020/2021 学年积极扩展计划规模组织数百名谷歌研究员为本科生们提供一对一指导鼓励更多来自传统边缘社群的年轻学子迈入计算机科学研究领域。最后去年 10 月我们向全球 50 个机构提供 explorerCSR 奖励用于奖励那些向传统边缘群体本科生举办讲习班的教师引导更多年轻人从事计算机科学研究。展望未来从开发下一代 AI 模型到建立不断壮大的研究人员社区我们对未来的一切始终充满期待。我们将继续以 AI 原则为指导框架高度关注各项技术议题可能引发的广泛社会影响希望确保 AI 技术能够负责任地产生积极影响。前文提及的负责任 AI 论文只是谷歌过去一年中相关研究中的冰山一角。在相关研究当中我们将专注于提高研究完整性确保谷歌继续以适当方式推进广泛研究并针对各种有趣且极具挑战的议题提供全面的科学观点。致力于负责任 AI 的发展我们将继续以应对棘手议题作为工作核心。谷歌也会不断创建新的机器学习算法保证机器学习技术更加高效、易于访问同时找到新的方法以应对语言模型中的不公平偏见设计新方案以保护学习系统内的隐私等等。更重要的是除了殷切期待 AI 技术本身的发展之外我们也将高度关注社区内其他成员在缓解潜在风险方面的努力确保新技术给整个人类社会带来更公平、更积极的影响。促进多样性、公平性与包容性我们深切关注产品与计算系统的构建方法要求保证这些成果能够更好地反映世界各地人群的使用习惯与切身利益。在谷歌研究院乃至更广泛的研究及学术领域我们呼吁各学术及行业合作伙伴共同为此做出努力。就个人而言我在过去几年中已经为这方面目标投入数百个小时同时为伯克利、卡耐基梅隆、康奈尔、佐治亚理工学院、霍华德大学、华盛顿大学以及众多其他组织提供包容性支持。这项工作对我个人、谷歌乃至整个计算机科学界而言都非常重要。最后展望未来我希望能够出现更多对数据规模依赖度更低可以处理多种模式且能够灵活解决新任务的通用型机器学习模型。机器学习领域的进步将给人们带来功能更强大的产品包括给全球数十亿人提供更好的翻译质量、语音识别效果、语言理解以及创作支持。原文链接https://ai.googleblog.com/2021/01/google-research-looking-back-at-2020.html未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”