苏州高端企业网站建设,西安建设网站公司,免费logo设计工具,一个网站大概多少页面《Playing repeated games with Large Language Models》- 使用大型语言模型玩重复游戏 论文信息摘要1. 介绍2. 相关工作3. 一般方法4. 分析不同游戏系列的行为5. 囚徒困境5.1 性别之战 6. 讨论 论文信息
题目#xff1a;《Playing repeated games with Large Language Model… 《Playing repeated games with Large Language Models》- 使用大型语言模型玩重复游戏 论文信息摘要1. 介绍2. 相关工作3. 一般方法4. 分析不同游戏系列的行为5. 囚徒困境5.1 性别之战 6. 讨论 论文信息
题目《Playing repeated games with Large Language Models》作者Elif Akata and et al.期刊arXiv发表时间26 May 2023内容概述论文利用行为博弈论来研究 LLMs 的合作与协调行为。
摘要
大型语言模型 (LLMs) 正在改变社会并渗透到各种应用中。因此LLMs 会经常与我们和其他代理互动。因此了解 LLMs 在互动社交环境中的行为具有巨大的社会价值。在这里我们建议利用行为博弈论来研究 LLMs 的合作与协调行为。为此我们让不同的 LLMGPT-3、GPT-3.5 和 GPT-4彼此以及与其他类似人类的策略进行有限重复的游戏。我们的结果表明LLMs 通常在此类任务中表现良好并且还发现了持久的行为特征。在大量两个玩家两个策略的游戏中我们发现 LLMs 特别擅长重视自身利益的游戏例如迭代的囚徒困境系列。然而他们在需要协调的游戏中表现不佳。因此我们进一步关注这些不同系列的两款游戏。在典型的迭代囚徒困境中我们发现 GPT-4 的行为特别无情总是在另一个特工仅叛逃一次后就叛逃。在性别之战中我们发现 GPT-4 无法匹配在选项之间进行交替的简单约定的行为。我们验证这些行为签名在稳健性检查中是稳定的。最后我们展示了如何通过提供有关其他玩家的更多信息以及要求 GPT-4 在做出选择之前预测其他玩家的行为来修改 GPT-4 的行为。这些结果丰富了我们对 LLMs 社会行为的理解并为机器行为博弈论铺平了道路。
1. 介绍
大型语言模型 (LLMs) 是深度学习模型具有在庞大文本语料库上训练的数十亿个参数 [Brants et al., 2007, Devlin et al., 2018, Radford et al., 2018]。虽然它们可以生成人类评估者难以区分的文本和其他人类编写的文本 [Brown et al., 2020]但它们还表现出了其他新兴能力 [Wei et al., 2022a]。例如它们可以解决类比推理任务 [Webb et al., 2022]、对 Web 应用程序进行编程 [Chen et al., 2021]或使用工具来解决多个任务 [Bubeck et al., 2023]。由于这些能力及其日益普及LLMs 正处于改变我们日常生活的风口浪尖因为它们渗透到许多应用中 [Bommasani et al., 2021]。这意味着 LLMs 将与我们和其他代理人LLMs 或其他代理频繁且反复地互动。LLMs 在这些重复的社交互动中表现如何
衡量人们在重复互动中的行为方式例如他们如何合作 [Fudenberg et al., 2012] 和协调 [Mailath and Morris, 2004]是行为经济学子领域的主题称为行为博弈论 [Camerer, 2011]。 虽然传统博弈论假设人们的战略决策是理性的、自私的并且注重效用最大化 [Fudenberg and Tirole, 1991, Von Neumann and Morgenstern, 1944]但行为博弈论表明人类主体偏离了这些原则因此 他们的决定如何受到社会偏好、社会效用和其他心理因素的影响[Camerer, 1997]。 因此行为博弈论非常适合研究不同主体的重复相互作用[Henrich et al., 2001, Rousseau et al., 1998]包括人工主体[Johnson and Obradovich, 2022]。
在本文中我们让 LLMs 玩具有完整信息的有限重复游戏并分析他们在与其他 LLMs 玩时的行为以及简单的、类似人类的策略。有限重复游戏的设计目的是为了了解代理在多次迭代的交互中应该如何表现。因此这些游戏非常适合研究日益重要且臭名昭著的不透明 LLMs 的行为特征。我们专注于具有两个离散动作的两人游戏即所谓的 2 × 2 游戏。
我们首先让三个引擎 GPT-3、GPT-3.5 和 GPT-4 互相玩大量此类游戏。分析它们在不同游戏系列中的表现我们发现它们在重视纯粹自利的游戏中表现非常出色尤其是那些来自囚徒困境系列的游戏。然而他们在涉及协调的游戏中表现不佳。因此我们进一步关注这些家族的游戏特别是目前最大的 LLMsGPT-4 [OpenAI2023]。在评估代理如何合作和叛逃的典型囚徒困境中我们发现 GPT-4 会反复报复即使只经历过一次叛逃。因为这确实可以是均衡的个体层面的策略GPT-4 擅长这些游戏因为它特别无情和自私。然而在评估智能体如何在自己和伴侣的偏好之间权衡的 “性别之战” 中我们发现 GPT-4 无法与简单的类人智能体协调这些智能体在试验中交替选择。因此GPT-4 不擅长这些游戏因为它不协调。我们还验证这些行为并不是由于无法预测其他玩家的行为而导致的并且在多次稳健性检查和收益矩阵更改中持续存在。最后我们指出了改变这些行为的两种方法。通过指出其他玩家可能犯的错误GPT-4 可以表现得更加宽容。此外当 GPT-4 在选择行动之前首先被要求预测他们的行动时GPT-4 会更好地与其他玩家协调。
总而言之我们的结果展示了如何改进 LLMs 的互动行为并更好地符合人类惯例。我们的方法可以丰富我们对受控和可解释的交互环境中的 LLMs 的理解并为机器行为博弈论铺平道路。
2. 相关工作
随着算法变得越来越强大并且其决策变得越来越难以理解行为科学提供了新的工具来仅根据行为观察进行推断[Rahwan et al., 2022, Schulz and Dayan, 2020]。因此行为任务已被用于多个基准测试中 [Bommasani et al., 2021, Kojima et al., 2022]。
算法是否以及如何对其他代理、机器等进行推断是大量借鉴行为科学的研究流 [Rabinowitz et al., 2018; Cuzzolin et al., 2020; Alon et al., 2022]。大多数 LLMs 所嵌入的社交互动特别令人感兴趣的是推理其他代理人的信念、欲望和意图的能力或所谓的心智理论ToM[Frith and Frith2005]。心智理论是各种互动现象的基础从仁慈的教学 [Vélez 和 Gweon2021] 到恶意的欺骗 [Lissek 等人2008Alon 等人2022]并且被认为是许多社会现象的关键和人类互动中的现象 [Hula et al., 2015, Ho et al., 2022]。
LLMs 是否拥有心理理论一直存在争议。例如Kosinski [2023] 认为 GPT-3.5 在许多不同的规范 ToM 任务上表现良好。其他人对这一观点提出质疑认为如此好的表现仅仅是特定提示的函数 [Ullman, 2023, Le et al., 2019]。然而其他研究表明思想链推理显着提高了 LLMs 的 ToM 能力 [Moghaddam 和 Honey2023]。此外有人认为目前最大的 LLM GPT-4 在 ToM 任务中表现良好包括 GPT-3.5 之前陷入困境的变体 [Bubeck et al., 2023]。因此GPT-4 的行为将在我们即将进行的实验中特别令人感兴趣。
取自博弈论的游戏为研究受控环境中的交互行为提供了一个理想的测试平台并且 LLMs 的行为已在此类任务中进行了探讨 [Chan et al., 2023]。例如Horton [2023] 让 GPT-3 作为参与者在独裁者游戏中以及 Aher 等人[2022]对最后通牒游戏使用了相同的方法。两者都显示了模型的行为如何适应不同的提示例如使它们或多或少地自利。然而与我们的工作的一个关键区别是所有这些游戏都依赖于单一的在较少的游戏中进行交互并且不使用迭代游戏。
我们的研究建立在该领域的最新进展的基础上这些进展已将重点从仅仅评估 LLMs 的表现转移到将其与人类行为进行比较。之前的研究工作已经探索了分析 LLMs 的各种方法例如采用认知心理学工具[Binz and Schulz, 2023, Dasgupta et al., 2022]甚至采用计算精神病学视角[Coda-Forno et al., 2023]。
最后交互代理背后的理论对于许多机器学习应用来说非常重要 [Crandall 和 Goodrich2011]特别是在对抗性环境中 [Goodfellow et al., 2020]其中一个代理试图欺骗另一个代理认为生成的输出是好的。
3. 一般方法 图 1在 “性别之战” 示例游戏中重复玩游戏。在步骤1中我们将收益矩阵转化为文本游戏规则。 (2) 游戏规则、当前游戏历史和查询被连接起来并作为提示传递给 LLM。 (3) 在每一轮中每个玩家的历史记录都会更新为两位玩家的答案和分数。步骤 2 和 3 重复 10 轮。 我们利用经济学文献中的全部信息来研究 LLMs 在有限重复博弈中的行为。我们专注于两人游戏在两个选项之间进行离散选择以简化紧急行为的分析。我们让两个 LLM 通过提示链进行交互概览见图 1即所有证据的整合和对过去交互的学习都以上下文学习的方式发生 [Brown et al., 2020, Liu et al., 2023]。这些游戏作为提示提交给 LLM其中描述了相应的游戏包括选择选项。同时我们将同一个游戏作为提示提交给另一个 LLM。一旦两个 LLM 都做出了选择我们将其作为给定文本的完成进行跟踪我们就会使用过去交互的历史记录作为连接文本来更新提示然后将新的提示提交给两个模型以进行下一轮。每场比赛这些互动总共持续 10 轮。为了避免场景特定框架的影响我们仅提供收益矩阵的简单描述参见图 1 中的示例。为了避免特定选择名称或使用的框架造成污染我们在全文中使用中性选项 “F” 和 “J” [Binz and Schulz2023]。
我们首先研究 144 种不同的 2 × 2 游戏其中每个玩家都有两个选择他们的个人奖励是他们共同决策的函数。虽然这些游戏可能看起来很简单但它们提供了一些最强大的方法来探索不同的交互集从纯粹的竞争到混合动机和合作 —— 可以进一步分为 Robinson 和 Goforth [2005] 优雅概述的规范亚族。在这里为了涵盖广泛的可能相互作用我们研究了 GPT-4、GPT-3.5 的行为 和 GPT-3 跨越这些规范系列。我们让所有三个引擎玩系列内游戏的所有变体。然后我们更详细地分析两个游戏因为它们代表了有趣的边缘情况其中 LLM 表现得非常好并且相对而言我们特别关注 GPT-4 的行为因为最近围绕它的心理理论能力展开了争论即它是否能够对其他智能体的意图和目标持有信念这是成功导航重复交互的关键能力 [Bubeck etal., 2023, Kosinski, 2023]。对于所有 LLM我们使用公共 OpenAI Python API 来运行我们的模拟。我们将温度参数设置为 0并且仅要求一个令牌答案来指示代理想要选择哪个选项所有其他参数均保留为默认值。对于另外两个游戏我们还让 LLM 与简单的手动编码策略对战以进一步了解他们的行为。这些简单的策略旨在评估 LLM 在与更像人类的玩家一起玩时的行为。
4. 分析不同游戏系列的行为 图 2所有类型 2 × 2 游戏的实验结果。数字按性能从最好到最差排序。支付矩阵代表每个家庭的一种规范游戏。在双赢的游戏中双方都应该选择相同的选项来获胜即 4/4。在囚徒困境 (PD) 系列游戏中玩家可以选择合作或叛逃。在不公平的游戏中只要玩得正确一名玩家总是可以获胜支付矩阵的底行。在循环游戏中玩家可以循环选择。偏见游戏的一种形式是性别之战玩家需要协调才能选择相同的选项。最后在次优游戏中最好选择次优选项即 3/3。条形代表与 10 轮最大回报相比的标准化表现。误差线代表平均值的 95% 置信区间。 我们通过让三个 LLM 互相玩来自不同系列的游戏来开始我们的模拟。我们专注于双赢、有偏见、次优、循环和不公平博弈系列中所有已知类型的 2 × 2 游戏以及囚徒困境系列中的所有游戏 [Owen2013Robinson 和 Goforth 2005]。双赢博弈是非零和博弈的一种特殊情况只要双方选择相应的最佳选择就会为双方带来互惠互利的结果。简而言之在囚徒困境系列的游戏中两个智能体可以选择共同努力即合作以实现平均互利也可以选择背叛对方即背叛以实现自身利益。在一场不公平的比赛中只要有一个玩家发挥得当总能获胜。在循环游戏中玩家可以循环选择模式。偏见游戏是指代理因选择相同选项而获得更高分数但两个玩家的首选选项不同的游戏。最后次佳游戏是指如果双方共同选择具有次佳效用的选项那么双方都会表现得更好的游戏。我们在图 2 中展示了每种类型游戏的规范形式。
我们让所有引擎与其他引擎包括它们自己一起玩所有游戏重复进行 10 轮以上并且所有引擎都作为玩家 1 或玩家 2。这总共导致 1224 场比赛324 场双赢、63 场囚徒困境、171 场不公平、162 场循环、396 场有偏见、108 场次佳比赛。
为了分析不同引擎的性能我们计算了每场比赛的得分除以理想条件下可能达到的总得分即如果两名玩家都玩的话我们正在分析的玩家将获得最大得分每轮可能的结果。图 2 显示了所有游戏类型的模拟结果。我们可以看到所有引擎的性能都相当不错。此外我们可以观察到较大的 LLM 通常优于较小的 LLM并且 GPT-4 通常总体表现最好。
我们可以利用这些结果来一睹不同 LLM 的优势。LLM 通常在双赢游戏中表现最好并不特别令人惊讶因为在此类游戏中总是存在明显的最佳选择。然而令人惊讶的是是它们在囚徒困境系列游戏中也表现良好众所周知这对人类玩家来说具有挑战性 [Jones, 2008]。因此接下来我们将详细研究 LLM 在典型囚徒困境中的行为。我们可以还使用这些结果来看看不同的 LLM 的弱点。看起来所有的 LLM 在最佳选择与自己的偏好不一致的情况下都表现不佳。因为人类通常通过形成约定来解决此类游戏我们稍后我们将更详细地讨论一种规范的惯例形成游戏即 “性别之战”。
5. 囚徒困境
我们已经看到 LLM 在包含竞争和叛逃元素的游戏中表现良好。在这些游戏中玩家可以与伙伴合作或背叛。当进行多次互动时这些游戏是评估 LLM 在不良互动后如何报复的理想测试平台。 图 3囚徒困境概述。 (A) 收益矩阵。 (B) 左热图显示每个玩家组合中玩家 1 的流失率。右玩家 1 在每场比赛中获得的分数。CGPT-4 和一次背叛然后合作的智能体之间的示例游戏玩法左以及 GPT-4 和 GPT-3.5 之间的示例游戏玩法右。这些游戏也在 B 中以红色突出显示。 在典型的囚徒困境中两个智能体可以选择一起工作即合作以实现平均互利也可以选择互相背叛即缺陷以实现自身的利益和安全参见图 3A 的支付矩阵。至关重要的是游戏的设置使得理性行动的智能体总是更愿意在游戏的单次版本以及我们已知试验次数的有限迭代游戏的情况下进行背叛尽管承诺理论上合作时可以获得更高的回报。这是因为玩家 1 总是冒着玩家 2 背叛的风险导致玩家 1 遭受灾难性损失但玩家 2 会得到更好的结果。然而当游戏无限进行时或者尝试次数未知时代理理论上可以通过以下方式获利采用更动态、半合作的策略[Axelrod 和 Hamilton1981]。
在我们的收益矩阵中我们遵循囚徒困境博弈的一般条件其中收益关系表明相互合作大于相互背叛而背叛仍然是双方参与者的占优策略见图 3A。和之前一样我们让 GPT-4、GPT-3.5 和 GPT-3 相互对战。此外我们还介绍了其他三种更简单的策略。其中两个策略是简单的单例玩家他们要么总是合作要么背叛。最后我们还引入了一个在第一轮中背叛但在接下来的所有轮中都合作的智能体。我们引入这个代理是为了评估不同的 LLM 是否会再次开始与该代理合作这表明潜在的信任建立。
图 3B 显示了所有成对相互作用的结果。 GPT-4 在对抗所有其他代理时总体表现良好。至关重要的是GPT-4 在与一个背叛一次但此后每一轮都合作的智能体进行游戏时再也不会合作。因此GPT-4 在这种设置上似乎相当无情。因此它在这些游戏系列中的优势似乎通常源于这样一个事实它不与代理合作而大多只是选择叛逃尤其是在其他代理叛逃一次之后。 图 4囚徒困境的提示变化F 代表叛逃和 J 代表合作。顶部如果 GPT-4 知道其他代理背叛一次然后在此后的每一轮中合作则 GPT-4 总是会选择背叛。底部被告知其他玩家有时会犯错误GPT-4 在第 3 回合再次开始合作。 为了确保观察到的不宽容不是由于所使用的特定提示引起的我们运行了游戏的多个版本作为稳健性检查修改了所呈现选项的顺序将选项重新标记为数字或其他字母并更改了所呈现的选项公用事业可以用积分、美元或硬币来表示。这些模拟的结果表明不愿宽恕并不是由于提示的任何特定特征造成的参见补充材料。
一个关键问题是 GPT-4 是否不明白另一个智能体想要再次合作或者它是否可以理解该模式但只是没有采取相应的行动。因此我们运行了游戏的另一个版本我们明确告诉 GPT-4另一个特工将叛逃一次但之后会合作。这导致 GPT-4 在所有回合中都选择背叛从而最大化自己的分数。
这些囚徒困境研究的一个问题是即使在重复的版本中在特定情况下叛逃也可以被视为最优的、效用最大化和均衡的选择特别是如果一个人知道另一位参与者总是会选择合作并且当交互次数是已知的。因此我们进行了更多的模拟来评估是否存在 GPT-4 开始原谅并再次合作的场景从而最大化联合利益而不是自身利益。我们实施了受 Fudenberg 等人启发的任务版本 [2012]。在其中我们告诉 GPT-4其他付款人有时会犯错误。事实证明如果人们知道其他参与者也会犯错他们就更有可能原谅并再次合作。如果一个人知道另一个代理有时会犯错误那么一个人可能会认为他们错误地叛逃因此如果这种情况只发生一次就原谅他们。这正是我们在 GPT-4 中观察到的情况因为它在第 3 轮再次开始合作。
5.1 性别之战
在我们的大规模分析中我们发现不同的 LLM 在需要不同玩家之间协调的游戏中表现不佳。在人类中经常发现协调问题可以通过形成约定来解决 [Hawkins and Goldstone, 2016, Young, 1996]。
协调博弈是一种同时博弈其中一个玩家选择与另一个玩家相同的行动方案时将获得更高的回报。通常这些游戏不包含纯粹的冲突即完全相反的利益但可能包含略有不同的奖励。协调博弈通常可以通过多种纯策略或混合纳什均衡来解决其中玩家选择随机匹配策略。在这里为了探讨 LLM 如何平衡协调和自身利益我们研究了一个包含利益冲突的协调博弈。
我们研究了一种古老地被称为 “性别之战” 的游戏这是一款来自偏见游戏家族的游戏。假设一对夫妇想要决定一起做什么。双方都会通过花时间在一起来增加他们的效用。然而而妻子可能更喜欢看足球比赛而丈夫可能更喜欢去看芭蕾舞。由于夫妻俩想花时间在一起所以单独做一项活动并没有什么用处。如果他们一起去看芭蕾舞或者对于一场足球比赛一个人会通过与另一个人在一起获得一些效用但从活动本身获得的效用比另一个人要少。 图 5性别之战概述。 (A) 收益矩阵。 (B) 左玩家 1 选择其首选选项足球的比率。右两位参与者之间的成功合作率。 © GPT-4 和 GPT-3.5 之间的游戏玩法左以及 GPT-4 和在两个选项之间交替的代理右。这些游戏也在 B 中以红色突出显示。 相应的收益矩阵如图 5A 所示。和之前一样参与比赛的代理人都是三个版本的 GPT以及三个更简单的策略。对于简单化策略我们实现了两个代理他们总是只选择一个选项和一个更人性化的策略即从选择的选项开始在不同的选项之间交替。人类在重复玩游戏中表现出的行为模式已被证明遵循这种交替策略 [Andalman and Kemp, 2004, Lau and Mui, 2008, McKelvey and Palfrey, 2001]。
图 5B 显示了所有交互的结果。虽然 GPT-4 能够很好地对抗仅选择一种选项的其他智能体例如 GPT-3 或始终选择足球的智能体但它对于经常选择非首选选项的智能体来说效果不佳。例如在与倾向于频繁选择自己首选选项的 GPT-3.5 对战时GPT-4 会反复选择自己首选选项但偶尔也会屈服并选择其他选项。至关重要的是GPT-4 在使用交替模式时表现不佳。这是因为 GPT-4 似乎并没有根据其他玩家调整其选择而是不断选择其首选选项。因此GPT-4 无法与简单的类人代理协调这是行为缺陷的一个例子。
为了确保观察到的行为缺陷不是由于使用的特定提示造成的我们还重新运行了游戏的多个版本其中我们修改了所显示选项的顺序将选项重新标记为数字或其他字母并且将所提供的实用程序更改为用积分、美元或硬币表示。这些模拟的结果表明无法交替并不是由于所使用的提示的任何特定特征造成的请参阅补充材料。为了确保观察到的行为缺陷不是由于所使用的特定收益矩阵造成的我们还重新运行了游戏的多个版本其中我们逐渐修改了收益矩阵从更喜欢足球到更喜欢芭蕾或者在我们的例子中摘要 F 和 J)。这些模拟的结果表明GPT-4 并未针对任何这些游戏进行交替而只是改变了其对任何特定游戏首选选项的持续响应。因此无法交替并不是由于我们使用的特定支付矩阵造成的。 图 6(A) 顶部在预测场景 1 中GPT-4 是其中一名玩家被要求预测另一名玩家的下一步行动。下图在这种情况下GPT-4 只是玩家 1 和玩家 2 之间游戏的观察者并被要求预测玩家 2 的下一步行动。 (B) 在这里我们要求 GPT-4 首先预测对方的下一步行动上然后才做出自己的行动下。 尽管进行了这些稳健性检查另一个关键问题仍然存在GPT-4 是否根本不理解交替模式或者它可以理解该模式但无法采取相应行动为了回答这个问题我们进行了两次额外的模拟。在第一次模拟中GPT-4 再次被框定为游戏本身的玩家。然而我们现在还要求它根据前几轮预测对方的下一步行动。在此模拟中GPT-4 从第 5 轮开始正确预测交替模式如图 6A 所示。在第二个模拟中我们没有将 GPT-4 本身视为玩家而是简单地通过两个“外部”玩家之间的游戏来提示它并要求它根据前几轮预测一个玩家的下一步行动。
对于显示的历史我们使用了 GPT-4 和交替策略之间的交互。在此模拟中图 6B 中绘制的 GPT-4 从第 3 轮开始更早地开始正确预测交替模式。因此GPT-4 看似可以预测交替模式但实际上并没有按照由此产生的惯例行事。在自闭症儿童中也观察到相同情况的社会和非社会表征之间的类似能力差异[Swettenham1996]。
最后我们想看看 GPT-4 预测其他玩家选择的能力是否可以用来改进自己的行动。这个想法与人们在重复游戏和任务中如何改善对其他智能体信念的推理密切相关 [Westby and Robinson, 2014]。例如用于提高自闭症儿童的社会推理能力的计算机辅助模拟通常包括想象不同行为和结果的问题 [Begeer et al., 2011]。这已成功地用于改善人们的决策。这也符合一般的发现即思维链提示可以提高LLMs 的表现即使是在衡量心理理论的任务中也是如此 [Moghaddam 和 Honey2023]。因此我们通过要求 LLM 在做出决定之前想象可能的行动及其结果通过行动实现了这种推理的一个版本。这样做改善了 GPT-4 的行为并且从第 6 轮开始交替见图 6B。
6. 讨论
LLMs 被誉为有史以来采用速度最快的技术类别之一可在几周内与数百万消费者互动 [Bommasani 等人2021]。因此迫切需要以更有原则的方式了解这些系统如何与我们以及彼此之间相互作用。在这里我们的建议很简单就像行为博弈论学家使用大量严格控制且理论上易于理解的游戏来理解人类互动一样我们使用这些游戏来研究 LLMs 的互动。
因此我们将我们的工作理解为这种方法实用性概念的第一个证明也是梳理社交互动 LLMs 个人失败和成功的首次尝试。我们对所有 2 × 2 游戏的大规模分析强调最新的 LLMs 确实能够在通过他们自己的个人奖励来衡量的各种博弈论任务上表现相对较好特别是当他们不必明确地与他人协调。这增加了广泛的文献展示了 LLMs 中的新兴现象 [Brown et al., 2020, Wei et al., 2022a, Webb et al., 2022, Chen et al., 2021, Bubeck et al., 2023]。然而我们还表明即使面对简单的策略LLMs 在协调游戏中的行为也不是最优的。
为了梳理这些 LLMs 的行为特征我们重点关注了博弈论中两个最经典的游戏囚徒困境和性别之战。在囚徒困境中我们表明 GPT-4 的表现大多是无情的。虽然注意到 GPT-4 的持续背叛确实是这个有限游戏中的均衡政策但这种行为是以两个代理的共同收益为代价的。我们在性别之战中看到 GPT-4 的行为也有类似的倾向它有强烈的倾向顽固地坚持自己喜欢的选择。与囚徒困境相反这种行为不是最理想的甚至会导致个人层面的损失。
目前的 LLMs 通常被认为并接受培训成为人类的仁慈助手 [Ouyang et al., 2022]。尽管在这个方向上取得了许多成功但我们在这里展示他们如何以如此自私和不协调的方式玩迭代游戏的事实揭示了这样一个事实即 LLMs 仍然有很大的基础要成为真正的社交和对齐良好的机器 [Wolf 等人2023]。他们在协调博弈中即使是简单的策略也缺乏适当的反应这也通过强调潜在的失败模式来说明最近围绕 LLMs 心智理论的争论 [Ullman, 2023, Le et al., 2019, Kosinski, 2023] 。
我们广泛的稳健性检查表明这些行为特征不是个人提示的函数而是广泛的认知倾向的函数。我们的干预指出了游戏伙伴的错误——这导致了合作的增加——增加了一项文献指出 LLM 社会行为在任务提示中的可塑性 [Horton, 2023, Aher et al., 2022]。当我们试图了解是什么让 LLM 聊天机器人变得更好、更愉快、互动的合作伙伴时这一点尤其重要。
我们还观察到促使 GPT-4 在做出自己的决定之前对其他玩家做出预测可以减轻行为缺陷以及对简单策略的监督。这代表了一种更明确的方式来迫使 LLM 参与心理理论并且与非社会思维链推理有很多重叠 [Wei et al., 2022b, Moghaddam and Honey, 2023]。就像一些 LLMs 现在默认使用思想链提示来提高非社交推理能力一样我们的工作建议实施类似的社会认知提示来改善人与 LLM 的互动。
作为首次尝试机器行为博弈论我们的工作自然存在局限性。首先尽管涵盖了许多游戏系列但我们的调查仅限于简单的 2 × 2 游戏。然而我们注意到我们的分析明显超出了当前通常仅调查一款游戏的调查范围并且使用单次而不是这些游戏的迭代实例来进行调查。例如我们的迭代方法与人类与 LLM 对话的迭代性质有更多重叠。
我们相信进一步的游戏将进一步阐明博弈论机器行为。例如具有更多连续选择的游戏如信任游戏 [Engle-Warnick 和 Slonim2004] 可能会阐明 LLMs 如何动态发展错误信任。具有两个以上代理的游戏例如公共物品或公地悲剧类型的游戏 [Rankin et al., 2007] 可以探讨 LLMs 的 “社会” 如何行为以及 LLMs 如何合作或相互利用。
鉴于这里使用的新颖方法我们的分析必然是探索性的并且我们以更事后的方式识别了机器行为模式。进一步的工作必须更深入地研究我们以更多假设驱动的方式发现的特征。此外构建能够更好地识别这些缺陷的模型将会很有趣例如通过训练它们来利用它们 [Dezfouli et al., 2020]。
最后我们的结果强调了行为科学对于机器的重要性 [Rahwan et al., 2022, Schulz and Dayan, 2020, Binz and Schulz, 2023, Coda-Forno et al., 2023]。我们相信这些方法将继续有助于阐明 LLMs 认知的许多方面特别是当这些模型变得更加复杂、多模态并嵌入到物理系统中时。