品牌网站建设要多少钱,网站建设温州科目一,网页制作教程视频 网盘,南京小程序开发网站制AI Agents是当下大模型领域备受关注的话题#xff0c;用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中#xff0c;Agents之间会进行竞争和协作等多种形式的动态交互#xff0c;进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框…AI Agents是当下大模型领域备受关注的话题用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中Agents之间会进行竞争和协作等多种形式的动态交互进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架“骆驼”CAMEL框架是最早基于ChatGPT的autonomous agents知名项目目前已被顶级人工智能会议NeurIPS 2023录用。 论文题目 CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society 论文链接 https://ghli.org/camel.pdf 代码链接 GitHub - camel-ai/camel: CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society (NeruIPS2023) https://www.camel-ai.org 项目主页 CAMEL-AI “什么神奇的技巧让我们变得聪明 窍门就是没有窍门。智慧的力量源于我们巨大的多样性而不是任何单一的、完美的原则。” ——人工智能先驱 马文·明斯基Marvin Minsky[1]
目前来看在机器通向高级智能的道路上以ChatGPT为代表的大模型LLMs应该是必须经过的里程碑之一它们以聊天对话的人机交互方式在多个领域的复杂任务解决方面取得了非常耀眼的成就。随着LLMs的发展AI AgentsAI智能体之间的交互框架也逐渐兴起尤其是在一些复杂的专业领域以角色扮演等模式预置的智能体完全有能力代替人类用户在任务中扮演的角色同时智能体之间通过以协作和竞争形式的动态交互往往能够带来意想不到的效果这就是被OpenAI人工智能专家Andrej Karpathy等人看作是“下一代提示工程前沿领域”的AI Agents。
该领域发展的时间线如下[2] “CAMEL”骆驼大模型心智交互框架- 发布于2023.3.21 “AutoGPT” - 发布于2023.3.30 “BabyGPT” - 发布于2023.4.3 “Westworld” simulation斯坦福西部世界小镇 — 发布于2023.4.7
作为最早基于ChatGPT的autonomous agents知名项目CAMEL重点探索了一种称为角色扮演role-playing的新型合作代理框架该框架可以有效缓解智能体对话过程中出现的错误现象从而有效引导智能体完成各种复杂的任务人类用户只需要输入一个初步的想法就可以启动整个过程。目前CAMEL已经被国际人工智能顶级会议NeurIPS 2023录用。 作者对CAMEL框架设计了灵活的模块化功能包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等因此CAMEL可以作为一个基础的Agents后端支持AI研究者和开发者更加轻松地开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。具体的作者通过涉及两种角色扮演的合作场景生成了两个大型的指令数据集AI Society和AI Code以及两个单轮问答数据集AI Math和AI Science用于探索LLM涌现能力的研究。
01. CAMEL框架
下图展示了CAMEL中的role-playing框架人类用户需要首先制定一个想要实现的想法或目标例如开发一个用于股票市场的交易机器人。这项任务涉及的角色是AI助理智能体使其扮演Python程序员角色和AI用户智能体使其扮演股票交易员角色。 更多技术细节可以参考我们先前对CAMEL的报道。
02. 实验效果
本文的性能评估主要从三个方面进行并且采用两个gpt-3.5-turbo作为实验智能体实验的数据集使用CAMEL框架生成的四个AI数据集其中AI Society和AI Code侧重于智能体的对话效果而AI Math和AI Science侧重于智能体的问题解决能力。
2.1 Agent评估
在这一部分作者从AI Society和AI Code数据集中分别随机选择 100 个任务进行评估然后使用CAMEL框架和单个gpt-3.5-turbo进行对比实验结果评估方面分为两部分一方面由人类受试者对两种方法给出的解决方案给出453份投票数据来决定哪种方案更加可行。另一方面作者提示GPT4模型对两种方案直接给出评分具体的对比数据如下表所示。 从上表中可以看出CAMEL框架给出的解决方案在人类评估和GPT4评估中均大幅优于gpt-3.5-turbo给出的解决方案其中人类评估和GPT4评估的总体趋势高度一致。
2.2 使用GPT-4对ChatBot评估
在这一部分作者在CAMEL生成的四个数据集上对LLaMA-7B模型进行了逐步的微调通过向LLM中不断注入来自社会、代码、数学和科学等不同领域的知识来观察模型对知识发现的接受效果。作者首先从AI Society数据集开始让模型了解人类的互动常识和社会动态随后AI Code和其他数据集的注入模型获得了编程逻辑和语法的知识同时拓宽了模型对科学理论、经验观察和实验方法的理解。 上表展示了模型在20个Society任务、20个代码编写任务、20个数学任务和60个科学任务上的测试效果可以看到在每次添加数据集时模型在已训练过的任务域上都会表现得更好。
2.3 HumanEval
为了进一步评估CAMEL框架的代码编写任务解决能力作者在HumanEval和HumanEval两个评估基准上进行了实验实验结果如下表所示。 上表中清楚地证明了CAMEL框架的卓越性能它不仅远远超过了LLaMA-7B模型而且还大大超过了Vicuna-7B模型这表明使用CAMEL生成的数据集在增强LLM处理编码相关任务方面有独特的效果。
3.CAMEL AI开源社区 值得一提的是CAMEL作者团队正在构建了一个非常完善的CAMEL AI开源社区社区Github仓库已经得到了3600的star数社区中涵盖了CAMEL中各种智能体的实现、数据生成pipeline、数据分析工具和已生成的数据集以支持AI Agents及其他方面的研究社区目前已吸引了诸多开源爱好者贡献代码。
距离 CAMEL 项目编写第一行代码到现在已有 9 个月http://CAMEL-AI.org开源研究技术社区已经吸引超过 20 名来自KAUST/剑桥/索邦大学/NUS/CMU/芝加哥大学/斯坦福/杜克大学/北大/上交/哈工大/西电/东北大学/成信大以及工业界等独立代码贡献者。社区正在寻找全职/兼职/实习贡献者、工程师和研究人员加入一起学习和探索如何推动构建智能体社会的边界杰出贡献者有机会参与框架和其他研究项目论文的撰写投稿。
如果感兴趣加入http://CAMEL-AI.org的社区可以将简历发送至camel.ai.teamgmail.com或者添加微信号CamelAIOrg进行咨询 参考
[1] Minsky M. Society of mind[M]. Simon and Schuster, 1988.
[2] https://towardsdatascience.com/4-autonomous-ai-agents-you-need-to-know-d612a643fa92 关于TechBeat人工智能社区
▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区