免费漫画网站,桂城网站建设费用,做网站是先做后台还是前端,wordpress ark 破解编者按#xff1a;如今根基模型#xff08;Foundation Models#xff09;的应用和相关创新正在快速涌现#xff0c;但仍有很大的提升空间#xff0c;目前还无法充分发挥根基模型的潜能、将其高效快速地应用于企业级AI应用中。 根基模型的加速应用和落地#xff0c;带动了… 编者按如今根基模型Foundation Models的应用和相关创新正在快速涌现但仍有很大的提升空间目前还无法充分发挥根基模型的潜能、将其高效快速地应用于企业级AI应用中。 根基模型的加速应用和落地带动了基础设施和工具领域的创新。本期IDP Inspiration我们为大家带来的是创投机构Madrona对于根基模型的发展研判和大家一同从投资人的视角探寻根基模型发展带来的AI Infra新机遇。 以下是译文Enjoy! 人工智能领域目前的活动速度简直令人惊讶。基于根基模型(Foundation model)生成性AI应用程序和应用于数据的复杂推理的更大范畴的应用程序正在快速增多。 这些应用程序从实际的加速代码开发[1]和测试[2]、法律合同[3]和奥斯卡提名电影的生产[4]到有趣的多模态生成说唱对决再到引人深思的在美国医学执照考试中或接近通过水平。而根基模型的能力、模型准确性和基础设施的演变速度至少与之一样快。
如果所有这些感觉都不同那是因为它们确实不同。以前云计算的出现提供了以前不可能的计算能力使得包括变换器(Transformer)模型在内的计算机科学的新领域成为可能。该模型[7]可以让人们使用云计算来构建更大的模型这些模型更好地推广并且能够完成新任务例如文本和图像生成、汇总和分类。这些更大的模型已经显示出复杂推理、知识推理和超出分布稳健性的能力[8]而更小的、更专业化的模型都不具备这些能力。这些大型模型被称为根基模型(Foundation Models)因为开发人员可以在它们的基础上构建应用程序。
然而尽管创新活动和步伐在飞速发展未来仍然显然不够快根基模型和生成式人工智能尚未达到目标。
构建者们面临一个不太令人满意的选择打天下机遇根基模型构建应用容易守天下形成护城河难或者相反。 在前一种情况下根基模型允许开发者在一个周末或几分钟内创建应用程序而此前需要几个月。但是开发人员受到那些专有模型的现成功能的限制其他开发人员也可以使用这意味着开发人员必须富有创造力找到差异化的来源。在第二种选择中开发人员可以扩展开源模型体系结构的功能以构建一些新颖且易于形成护城河的东西。但这需要极高的技术深度仅有极少数的团队具备这种能力。能力集中在少数人手中与一个行业蓬勃发展所需要的恰好相反——我们需要更多的力量分散到更多的人手中而不是更加集中。
但是如果我们将大规模根基模型视为一种新的应用程序平台提取出更广泛的技术栈就会发现那些挑战是创业者的机会。我们去年晚些时候写了一篇文章描述了这个栈并预测工具层的出现。该栈发展如此之快工具层也已经快速形成现在值得再次审视。 纵观当今根基模型栈的状态我们发现了三个创业机会
1开发新颖的应用程序技术最先进的团队面临着广阔的前景。有很多创新可以做特别是在信息检索混合模态和训练/推理效率方面。这个领域的团队可以推动科学的界限创建以前不可能的应用程序。
2寻找差异化具有出色想法但仅有早期技术能力的团队现在可以访问工具使得可以使用更丰富的记忆/上下文更丰富的外部数据源和API以及评估和缝合多个模型的能力来构建更丰富的应用程序。这为创始人提供了更广泛的途径构建新颖且易防御的产品即使他们已经使用了广泛可用的技术。
3开发工具喜欢基础设施的团队现在有一个高效率的机会可以在编排Orchestraction开发人员框架数据源和动作评估 和根基模型操作部署训练和推理的基础设施和优化工具 方面构建工具。更加强大和灵活的工具将加强现有开发者的能力并使根基模型栈能够被更多的新开发者使用。
1 根基模型Foundation Models
开发根基模型的人面临一个不吸引人的权衡——即基于模型构建新的应用程序的难易和对模型保护的难易之间的权衡该权衡源于核心基础模型的建立和开源方式。 开发者今天必须在 iPhone/AndroidWindows/Linux 风格的战争中选择一方在每一方都有痛苦的妥协。
一方面我们看到来自 OpenAI、co:here 和 AI21 等高度复杂、快速演变的专有模型 我们也可以把谷歌加入到这个名单中因为他们在这些模型上花费的时间比任何人都长[9]而且计划将模型外部化[10]。另一方面是开源架构如 Stable Diffusion[11]、Eleuther、GLM130B、OPT、BLOOM、Alexa Teacher Model 等都在 Huggingface[12] 上组织成社区中心。
1.1 专有模型
专有模型是由拥有雄厚资金和技实力的提供商所拥有的这意味着他们可以提供行业领先的模型性能。它们的现成模型也意味着开发人员可以轻松上手。Azure的新OpenAI服务使得入门变得比以往更容易我们预计这将加速开发人员的实验速度。
这些人也在考虑成本——OpenAI 在2022年末将价格降低了60%Azure 也相应的调整了价格。但是这里的成本仍然很高限制了商业模式的可持续性发展。按席位许可证per-seat licenses 和基于使用定价consumption-based pricing等模式在早期很普遍这些可以持续。但是广告支持的业务模型可能不会产生足够的收入来覆盖这一水平的成本。
1.2 开源模型
开源模型的性能不如专有模型但是在过去一年中有了显著改善。更重要的是技术复杂度高的建设者可以拥有扩展这些体系结构的灵活性并建立尚不可能用专有模型实现的差异化功能这是我们喜欢 Runway 的原因之一Runway 是一个下一代内容生成套件提供实时视频编辑、协作等。为了支持所有这些功能Runway 继续对多模态系统和生成模型的科学做出深入贡献以加速 Runway 的客户的特征开发。
专有根基模型和开源根基模型之间的紧张关系已经像iPhone/Android 的战争一样。专有模型的优势是性能和易于上手。开源模型的优势是灵活性和成本效率。 可以肯定的是每个阵营都会加大投资以解决其弱点使 OSS 模型更容易上手并使其有可能更深入地扩展OpenAI模型同时也要充分利用它们的优势。
2 Tooling / Orchestration
强大、灵活的工具能够使现有开发者的能力变得更加强大使更多的新开发者能够使用根基模型技术栈。
我们在2022年10月写道[13]“根基模型并不是’just work’仅运行即可因为它们只是广泛的软件栈中一个组成部分。如今从根基模型中得到最好的推理效果需要应用开发者采取很多辅助措施“。
我们确实看到开发人员在软件栈的这一层次上有密切关注。很多最酷的、回报最高的工作将在未来几个月内发生在软件栈之上特别是在开发者框架、数据源、优化措施以及评估方面。
2.1 开发者框架
过去的经验告诉我们框架dbtRuby对于将大型应用程序的各个部分连接起来是很有用的。根基模型开发框架让开发者很容易地将诸如跨多个调用的Context、提示工程和根基模型的选择或多个模型的顺序 结合起来。研究人员已经开始量化[14]这些使用根基模型构建的应用有多么强大。LangChain[15]、Dust.tt[16]、Fixie.ai[17]、GPT Index[18]和Cognosis[19]是这部分软件栈中最吸引开发者的项目。不好描述上手其中一些框架是多么容易。但是演示起来真的很容易所以我们现在就给大家演示一下。下面是LangChain开发者指南中的四行入门代码 这样的开发者框架使入门使用根基模型变得十分简单甚至几乎成为一种乐趣。敏锐的开发者可能会注意到通过上面的代码如果开发者想要更换已启动的应用程序底层LLM/FM几乎不费吹灰之力。从长远来看使开发变得更容易往往会带来更多的开发者并加速新应用程序的出现。在工具层面的创新速度已经非常快这为工具的开发者和使用工具创建新应用程序的开发者创造了很多机会
2.2 数据源和优化措施
如今根基模型只会推理它们接受训练的那些事实。但这对于需要根据变化极快的现实数据做出决策的应用开发者和终端用户来说是个很大的限制比如天气、金融市场、旅游市场、供应库存等等。因此当我们想进行“hot” information retrieval时这将是一件大事。在这种情况下我们不需要训练或编辑模型而是让模型调用外部数据源并实时推理这些数据。Google Research和Deepmind在这个方向上发表了一些不错的研究论文[20]OpenAI也是如此。所以“hot” information retrieval时代即将到来特别是目前在这个领域的研究成果转商业应用的速度非常快。
上述提到的开发者框架预见到了根基模型科学的演变并开始支持一些外部数据源。按照类似的思路开发者框架也将支持一些”下游“领域的概念比如调用外部API如Salesforce、Zapier、Google Calendar甚至AWS Lambda serverless计算函数。通过这些外部数据和优化措施的整合很多新型根基模型应用将变得可能而这在以前是很难或不可能的特别是对于在专有模型之上构建应用的早期团队。
2.3 评估
我们在2022年10月[13]写道“我们必须小心谨慎对待根基模型因为我们永远不知道它们会说些什么或做些什么。这些模型的提供者以及建立在它们之上的应用开发者必须接受承担这些风险的责任。”可以预见开发人员在这方面很快就会变得更加成熟。Academic benchmarks学术评估基准是评估模型性能的重要步骤。但是即使是像HELM这样最复杂的评估基准也是不完美的因为它们不是面向所有用户群或所有特定使用案例而设计的。
最好的测试集来自于最终用户。生成的建议中有多少被接受chatbot有多少次对话的 “转折”用户在一张特定的图片上停留了多长时间或者他们分享了多少次这些类型的输入总体上描述了一种模式然后开发者可以用它来定制或解释一个模型的行为以达到最大效果。HoneyHive[21]和HumanLoop[22]是两个典型的公司它们帮助开发者迭代根基模型架构修改提prompts过滤和添加新的训练集甚至提炼模型以提高指定用例的推理性能。
3 Tooling / FMOps
计算是根基模型公司的主要成本驱动因素制约了他们可以选择的商业模式。新一代的部署优化、训练工具和基础设施正在帮助开发者解锁新的商业模式。
根基模型对训练和推理有巨大的计算要求需要大量的专业硬件这导致应用开发者面临高成本和运营限制 吞吐量和并发量 。大公司有实力来维持微软在2020年建设了世界前5名的超算基础设施用于支持OpenAI发展。但是即使是巨头公司也面临着供应链和经济上的限制。因此训练、部署和推理优化是投资的关键领域在这里我们看到了大量的创新点和机会。
3.1 训练
现在开源根基模型的修改和再训练比以往要容易。 最大的根基模型foundation models训练费用超过1000万美元而Chinchilla[23]和Beyond Neural Scaling Laws[24]等论文表明根基模型可以用50万美元甚至更少的费用训练这意味着更多的公司可以自己创建根基模型。如今AI从业者可以获取很多大规模的数据集如LAION[25]图像、PILE[26]多样化的语言文本和Common Crawl[27]网络抓取数据。他们可以使用Snorkel[28]、fastdup[29]和xethub[30]等工具来策划、组织和获取这些大型数据集。他们也可以访问HuggingFace获取最新和最强大的开源模型架构。他们还可以使用来自Cerebras[31]、MosaicML[32]等训练基础设施来大规模地训练这些模型。这些资源对于利用最新的模型架构、修改重构这些架构的代码然后在公共和专有数据的基础上训练私人模型是非常强大的。
3.2 部署和推理
持续的推理成本没有像训练成本那样急剧下降。大部分的计算成本将最终用于推理而不是训练。推理成本最终对开发者造成了更大的限制因为它也限制了公司可以选择的商业模式。 Apache TVM[33]等部署框架以及蒸馏和量化[34]等技术都可以帮助降低成本但这些都需要相当的技术深度才能使用。OctoML[35]TVM的开发者提供可以降低成本和部署时间的管理服务并能最大化利用很多算力硬件。这使得更多开发者可以使用这些类型的优化同时也让开发者能够更有效地工作。很多托管推理公司如Modal Labs[36]、Banana[37]、Beam[38]和Saturn Cloud[39]也想要使推理比直接在AWS、Azure或GCP等超级服务器上运行更具成本效益。
4 #HereWeGo
对于大规模foundation models根基模型我们才刚刚开始触及表面。大型科技公司和资本雄厚的初创公司正在大力投资于更大、更好的模型、工具和基础设施。但最好的创新需要无畏的技术和产品灵感。
围绕根基模型相关的创新仍然会源源不断但是其速度和质量将会受到很多限制直到软件栈足够完善能够让仅在某一方面有突出优势的团队也能作出巨大贡献。 这些工作都需要由大科技公司及其创始人、学者、开发者、开源社区和投资者共同完成。同时所有这些创新都需要考虑有没有伦理道德负面影响有没有潜在的意外后果并将必要的防护措施做到位这至少与推进技术本身具有同等重要性。
要让未来AI驱动的高质量应用源源不断的出现这需要我们所有人共同努力。我们期待看到企业家们提出什么新的想法来帮助释放根基模型的真正力量并实现人人期望的广泛创新和影响力。
读者福利如果大家对大模型感兴趣这套大模型学习资料一定对你有用
对于0基础小白入门 如果你是零基础小白想快速入门大模型是可以考虑的。 一方面是学习时间相对较短学习内容更全面更集中。 二方面是可以根据这些资料规划好学习计划和方向。 资源分享 大模型AGI学习包 资料目录
成长路线图学习规划配套视频教程实战LLM人工智能比赛资料AI人工智能必读书单面试题合集
《人工智能\大模型入门学习大礼包》可以扫描下方二维码免费领取 1.成长路线图学习规划
要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。
对于从来没有接触过网络安全的同学我们帮你准备了详细的学习成长路线图学习规划。可以说是最科学最系统的学习路线大家跟着这个大的方向学习准没问题。 2.视频教程
很多朋友都不喜欢晦涩的文字我也为大家准备了视频教程其中一共有21个章节每个章节都是当前板块的精华浓缩。 3.LLM
大家最喜欢也是最关心的LLM大语言模型 《人工智能\大模型入门学习大礼包》可以扫描下方二维码免费领取