asp化妆品网站源码,专门做网站关键词排名,做淘宝客网站推广被骗,求网站https://arxiv.org/abs/2403.18105 目录 教育领域的大型语言模型#xff1a;一项调查和展望摘要1. 引言2. 教育应用中的LLM2.1 概述2.2 学习辅助2.2.1 问题解决#xff08;QS#xff09; 2.2.2 错误纠正#xff08;EC#xff09;2.2.3 困惑助手#xff08;CH#xff09;…https://arxiv.org/abs/2403.18105 目录 教育领域的大型语言模型一项调查和展望摘要1. 引言2. 教育应用中的LLM2.1 概述2.2 学习辅助2.2.1 问题解决QS 2.2.2 错误纠正EC2.2.3 困惑助手CH2.3 教学辅助2.3.1 问题生成QG2.3.2 自动评分AG2.3.3 教学材料创作MC 2.4 适应性学习2.4.1 知识追踪KT2.4.2 内容个性化CP 2.5 教育工具包2.5.1 聊天机器人2.5.2 内容创作2.5.3 教学辅助2.5.4 测验生成器2.5.5 协作工具 3. 数据集和基准测试4. 风险和潜在挑战4.1 公平性和包容性4.2 可靠性与安全性4.3 透明度与可问责性4.4 隐私与安全4.5 对LLMs的过度依赖 5. 未来方向5.1 与教育学兴趣一致的LLMs5.2 LLM-多代理教育系统5.3 多模态和多语言支持5.4 边缘计算与效率5.5 专业模型的高效训练5.6 伦理和隐私考虑 6. 结论 教育领域的大型语言模型一项调查和展望
摘要
大型语言模型LLMs的出现为教育领域带来了新的可能性时代。这篇综述论文从多方面的角度总结了LLMs在教育环境中的各类技术包括学生和教师的辅助、自适应学习和商业工具。我们系统性地回顾了每个角度的技术进步整理了相关的数据集和基准测试并识别了在教育中部署LLMs所面临的风险和挑战。此外我们概述了未来的研究方向突出了潜在的有希望的方向。我们的调查旨在为教育工作者、研究人员和政策制定者提供一个全面技术图景利用LLMs的力量来彻底改变教育实践并促进更有效的个性化学习环境的形成。
1. 引言
在过去的几十年里教育领域的人工智能AI已经引起了极大的兴趣并已经被应用于各种教育场景Chen等人2020年Maghsudo等人2021年Chiu等人2023年Denny等人2024年Li等人2024dLatif等人2023年。具体来说教育数据挖掘方法已经在诸如认知诊断、知识追踪、内容推荐以及学习分析等多个方面得到广泛应用Romero和Ventura2007年2010年2013年Koedinger等人2015年Romero和Ventura2020年Batool等人2023年Xiong等人2024年。
随着大型语言模型LLMs在不同领域成为强大的范式Fan等人2023bZeng等人2023年Jin等人2024年Chen等人2023a它们在多个教育场景中也取得了最先进的表现Li等人2023aKasneci等人2023年Yan等人2024年。现有研究发现LLMs能够在标准化测试中实现学生水平的表现OpenAI2023在包括物理、计算机科学在内的各种数学科目中无论是多项选择题还是自由回答题Malinka等人2023Susnjak2022。此外实证研究表明LLMs可以作为教育的写作或阅读助手。最近的一项研究Susnjak2022揭示了ChatGPT能够跨学科生成逻辑一致的答案平衡了深度和广度。另一项定量分析Malinka等人2023表明使用ChatGPT的学生通过保留或完善LLMs的结果作为自己的答案在计算机安全领域的某些课程中的表现优于平均水平的学生。最近几篇观点论文Tan等人2023Kamalov和Gurrib2023也探讨了LLMs在课堂教学中的各种应用场景如师生合作、个性化学习和评估自动化。然而LLMs在教育中的应用可能导致一系列实际问题例如抄袭、AI生成内容的潜在偏见、过度依赖LLMs以及非英语人士的不公平访问Kasneci等人2023。
为了为研究人员提供该领域的广泛概述已经提出了许多探索性和综述性论文。例如Qadir2023年Rahman和Watanobe2023年和Rahman和Watanobe2023年通过分析ChatGPT对相关教育问题的回答总结了ChatGPT在工程教育中的应用。Jeon和Lee2023年和Mogavi等人2023年通过面对面访谈、在线帖子回复和用户日志收集了不同ChatGPT用户群体的意见例如教育工作者、学习者、研究人员并总结了LLMs在教育场景中的实际应用。Baidoo-Anu和Owusu Ansah2023年和Zhang和Tur2023年关注已发表论文的文献综述并用结构化的表格总结了该领域的进展。尽管上述工作已经涵盖了LLMs在教育场景中的广泛现有应用并为未来的研究提供了他们的长期愿景但我们认为没有任何文献从技术角度系统性地总结了教育的LLMs。为了弥补这一空白本综述旨在提供一份全面的技术性回顾为教育的LLMs提供一种新的以技术为中心的分类和现有公开可用数据集及基准测试的总结。此外我们还总结了当前的挑战以及进一步的研究机会以促进对LLMs教育动态和不断发展的格局的创新和理解。总结来说我们的贡献在于以下三个主要部分 全面且最新的调查。我们提供了一份全面且最新的LLMs在广泛教育领域的调查包括学术研究、商业工具和相关数据集及基准测试。 以技术为中心的新分类法。我们提供了一种新的分类法从技术角度对教育的LLMs进行了全面分析包括学生和教师辅助、自适应学习和商业工具。 当前挑战和未来研究方向。我们讨论了当前的风险和挑战并强调了未来的研究机会和方向敦促研究人员深入研究这一激动人心的领域。 2. 教育应用中的LLM
2.1 概述
教育应用可以根据用户在教育中的角色以及在教育中的使用场景进行分类。在本文中我们总结了LLMs在不同应用中的表现并讨论了与原始方法相比LLMs带来的优势。我们使用图1中说明的分类法对LLMs的教育应用进行了初步总结。
2.2 学习辅助
为学生提供及时的学习支持已被广泛认为是提高学生在独立学习期间的参与度和学习效率的关键因素Dewhurst等人2000。由于以往算法在生成固定形式回答方面的局限性许多现有的学习辅助方法在现实世界的应用场景中面临较差的泛化挑战König等人2023。幸运的是LLMs的出现为这一领域带来了革命性的变化。利用经过微调的LLMsOuyang等人2022生成类人回答近期基于LLM的教育支持研究已经展现出了有希望的结果。这些研究通过帮助学生解决具有挑战性的问题、纠正错误以及为困惑的领域提供解释或提示提供了对学生的实时辅助。
2.2.1 问题解决QS
得益于LLMs大规模的参数量以及预训练阶段使用的庞大且多样化的网络语料库LLMs已被证明是一个强大的零样本问题解决器能够解决从数学Yuan等人2023Wu等人2023d、法律Bommarito II和Katz2022Cui等人2023、医学Thirunavukarasu等人2023Liévin等人2023、金融Wu等人2023cYang等人2023、编程Kazemitabaar等人2023Savelka等人2023、语言理解Zhang等人2024Achiam等人2023等广泛学科领域提出的问题。此外为了在面对复杂问题时进一步提高LLM的问题解决性能已有多种研究被积极提出。例如Wei等人2022提出了一种思维链Chain-of-Thought, CoT提示方法该方法通过将复杂问题分解为更简单的顺序步骤来指导LLM解决问题。其他工作Sun2023Wang等人2023利用LLMs强大的上下文学习能力提出了先进的少样本示例选择算法以提高LLM解决一般问题的性能。Chen等人2022和Gao等人2023a利用外部编程工具来避免在原始LLMs的文本问题解决过程中引入的计算错误。Wu等人2023a将聊天优化的LLM视为强大的代理并设计了一个多代理对话通过协作过程解决这些复杂问题。Cobbe等人2021和Zhou等人2024b提出了外部验证器模块在生成过程中纠正中间错误这提高了LLM解决具有挑战性的数学问题的性能。总体而言随着所有这些新设计的提出LLMs用于问题解决的使用已经取得了令人印象深刻的进展。此外学生可以及时找到对他们阻塞问题的高质量答案。
2.2.2 错误纠正EC
错误纠正专注于在学生学习过程中对其错误提供即时反馈。这对初期阶段学习的学生很有帮助。张等人2023b探索了使用四种提示策略零样本、零样本思维链CoT、少样本和少样本思维链来纠正中文和英文文本中的常见语法错误。从他们的实验中他们发现LLMs在纠正任务上有着巨大的潜力一些简单的拼写错误已经被当前的LLMs完美解决了。GrammarGPT范等人2023a利用LLM来解决中文母语者的语法错误。通过使用混合注释数据集对开源LLMs进行微调该数据集涉及人工注释和ChatGPT生成所提出的框架在中文母语语法错误纠正方面表现有效。张等人2022提议使用像Codex这样的代码训练的大型语言模型来构建一个自动程序修复APR系统——MMARP——用于初级Python编程作业。通过将MMARP评估在真实的学生程序上并与之前最先进的Python语法修复引擎进行比较作者发现MMARP平均能修复更多的程序并产生更小的补丁。越南度和马尔科夫2023开发了一个少样本示例生成流程涉及代码摘要生成和代码修改以创建少样本示例。通过生成的少样本示例LLMs在学生程序上的bug修复性能得到了显著提升。
2.2.3 困惑助手CH
与问题解决QS和错误纠正EC不同困惑助手方向的研究避免直接提供正确的问题解决方案。相反这些工作的目标是使用LLMs生成教学指导或提示帮助学生自己解决问题。施里德哈尔等人[无日期]基于输入条件和强化学习提出了各种引导问题生成方案并探索了LLMs生成顺序问题以指导解决数学文字问题的能力。普里哈尔等人2023探索了使用LLMs以两种方式为数学问题生成解释总结与问题相关的辅导聊天日志和从现有解释文本中学习一些示例。基于他们的实验他们发现合成解释无法超越教师编写的解释因为学生可能不知道某些术语而且建议有时过于笼统。帕尔多斯和班达里2023评估了ChatGPT和人类导师生成的代数提示之间的学习收益差异。通过观察受控组之间参与者的前测和后测成绩的变化作者得出了类似的结论即LLMs生成的提示在指导学生找到解决方案方面效果较差。巴尔塞等人2023评估了使用LLMs生成解释学生计算机编程作业中逻辑错误的文本的有效性。通过将合成解释与课程助教撰写的解释进行排名作者发现合成解释与人工生成的结果具有竞争力但在正确性和信息缺失问题上存在不足。鲁因等人2023尝试为不同群体的学生生成适应性解释。通过在教学提示中引入控制条件如年龄组、教育水平和详细程度所提出的方法适应了具有不同学习档案的学生生成的解释。 2.3 教学辅助
得益于LLM前所未有的逻辑推理和问题解决能力开发基于LLM的教学辅助模型已成为近期教育研究中的另一个热门话题。借助这些辅助算法的帮助教师们能够摆脱以往的繁琐日常工作负担将注意力集中在如课堂指导这类现有机器学习模型无法替代的任务上。
2.3.1 问题生成QG
由于在教学实践中的频繁使用问题生成QG已成为LLMs教育应用中最受欢迎的研究主题之一。肖等人2023利用LLMs生成阅读理解问题首先用补充阅读材料和教科书练习段落对其进行微调然后采用即插即用式的可控文本生成方法引导经过微调的LLMs基于指定的主题关键词生成更加连贯的段落。道蒂等人2024分析了LLMGPT-4生成与高等教育中Python编程课程特定学习目标LO一致的多项选择题MCQs的能力。通过将几个生成控制模块与提示组装过程整合所提出的框架能够生成语言清晰、有一个正确选项和高质量干扰项的MCQs。李等人2023a专注于使用二维矩阵结构框架对提示问题和阅读理解分类学进行对齐。使用对齐的提示LLM问题可以以平衡的方式涵盖广泛的题型和难度级别。周等人2023致力于生成多样化的数学文字问题并实现对问题方程的隐式多样性控制达到生成高质量多样化问题的目标。
2.3.2 自动评分AG
自动作业评分器的研究比LLMs的近期出现要早得多。然而由于以往模型在学习能力上的限制大多数现有的自动评分算法刘等人2019专注于探索标准解决方案和学生回答之间的语义比较这忽略了手动评分过程中的逻辑考量。除此之外所提供解决方案的质量严重影响结果因此以往作品的应用被限制在一些有良好注释的问题上。幸运的是随着LLMs的出现上述挑战变得容易解决。杨西等人2023和品托等人2023首次探索了使用LLMs进行开放式问题和写作论文的自动评分使用提示调整算法。通过包含全面上下文、清晰的评分标准和高质量的示例LLMs在两项评分任务上都展示了令人满意的性能。肖等人2024进一步将CoT整合到评分过程中。这种方法指导LLMs在做出最终评分决定之前先分析并解释所提供的材料。有了这样的修改LLMs不仅会生成分数结果还会对学生的回答提供详细评论这有助于学生了解如何为下次改进。李等人2024b将评分对象从学生的文字回答扩展到包含手写回答的评分。使用先进的多模态LLM框架例如CLIP和BLIP这项工作展示了将学生的文本和图像以及问题的文本和图像结合起来可以提高模型的评分性能。船山等人2023提出了一种跨提示的预微调方法以学习不同评分标准和注释示例之间的共享关系然后通过在目标评分任务上进一步微调预微调的LLMs在标记样本的限制下模型可以实现相当的表现。
2.3.3 教学材料创作MC
尽管已有上述任务开创性的研究者也发现了LLMs在帮助教师创造高质量教学材料方面的巨大潜力。例如Leiker等人2023提出了一项关于在异步课程创作中使用LLMs的调查特别是在成人学习、培训和技能提升的背景下。为了确保生成内容的准确性和清晰度作者将LLMs与强大的人工介入流程相结合。Koraishi2023利用GPT-4和零样本提示策略来优化英语作为外语EFL课程的材料。在他们的探索中作者考察了如何在教学材料开发中使用ChatGPT简化了创造吸引人的、与个体学习者需求相关的、具有上下文相关性的资源的过程以及其它更一般的用途。Jury等人2024提出了一个新工具’WorkedGen’它使用LLMs生成交互式例题。通过使用提示链和一次性学习等策略来优化输出生成的例题从学生那里获得了积极的反馈。
2.4 适应性学习
根据所提出方法解决的具体问题现有的适应性学习工作可以分为两类知识追踪Abdelrahman等人2023和内容个性化Naumov等人2019。具体来说知识追踪旨在根据学生在学习过程中对问题回答的正确性来估计学生的知识掌握状态。内容个性化侧重于根据学生的个性化因素如学习状态、偏好和目标提供定制化的学习内容。在过去几十年中不同的研究探索了包括传统统计方法Kučak等人2018和先进的深度学习模型Lin等人2023在内的各种机器学习算法并且在这两个问题上都取得了一些有希望的结果Liu等人2017。随着功能强大的LLMs在各种应用中的最近激增这些方向的研究也出现了新的机会。
2.4.1 知识追踪KT
目前LLMs在知识追踪中的使用集中在为问题文本和学生记录数据生成辅助信息。在Ni等人2023最近的研究中作者使用LLM为学生-问题响应图中的每个问题文本提取知识关键词。由于LLM强大的处理未见文本的能力所提出的框架在解决以有限学生问题练习数据为特征的冷启动场景中特别有利。此外Lee等人2023b提出了一个框架DCL4KTLLM该框架基于问题干文本和与LLM相关联的知识概念来预测问题的难度。利用预测的問題难度DCL4KTLLM克服了现有知识追踪算法在面对未见问题或概念时缺失难度信息的问题。最后Sonkar和Baraniuk2023探索了LLM在扭曲事实的逻辑推理中的能力。通过利用研究设计的提示LLMs展示了在给定学生适当的知识档案时模拟学生错误响应的可能性。
2.4.2 内容个性化CP
由于大多数先进的LLMs是生成性模型因此在许多近期的教育研究中探索了使用LLMs创造个性化学习内容。例如Kuo等人2023尝试根据学生最近的知识掌握诊断结果为学生生成动态学习路径。Kabir和Lin2023在生成过程中融入了知识概念结构。具体来说如果学生掌握了给定学习对象LO的主题就会自动生成下一个LO的问题。Yadav等人2023探索了LLMs在根据学生兴趣创建上下文化的代数问题方面的潜力。通过对少样本学习方法进行迭代提示工程系统能够很好地适应TikTok和NBA等新颖兴趣将其融入到生成的问题干文本中这有助于提高学生在研究期间的参与度和成果。除了生成内容其他研究Abu-Rasheed等人2024也尝试利用基于聊天的LLMs生成学习推荐解释。通过使用知识图谱KGs作为上下文信息的来源该方法展示了其为对ITS系统推荐的学习路径有疑问的学习者生成令人信服答案的能力。
2.5 教育工具包
除了利用LLMs来增强学术界精心构建的教育应用外一些由LLM驱动的商业教育工具也已经在行业中开发出来。特别是它们可以被归类为五个类别包括聊天机器人、内容创作、教学辅助、测验生成器和协作工具。
2.5.1 聊天机器人
将大型语言模型LLM聊天机器人作为教育工具使用提供了一系列的优势和机会。LLM聊天机器人可以将其响应适应于学习者个人的需求提供个性化的反馈和支持。这种定制可以适应不同的学习风格、速度和偏好。它们提供全天候的可用性使学习在任何时间、任何地点都可以进行。这对于处于不同时区或有不同时间安排的学习者尤其有益。聊天机器人的互动特性可以使学习更加吸引人和有趣。它们可以模拟对话、创建互动学习场景并提供即时反馈这可能比被动学习方法更有效。聊天机器人可以同时处理数千个查询使它们成为教育机构支持大量学习者而不需要相应增加教学人员的可扩展解决方案。它们可以自动化重复性教学任务如评分测验或提供基本反馈允许教育者专注于更复杂和创造性的教学职责。一些代表性的聊天机器人包括ChatGPTOpenAI2024年、Bing ChatMicrosoft2024年、Google BardGoogle2024年、PerplexityPerplexity AI2024年、Pi Pi.ai2024年。
2.5.2 内容创作
CuripodCuripod2024年接受用户输入的主题并生成包含投票、词云、开放式问题和绘图工具的互动幻灯片。DiffitDiffit2024年提供了一个平台用户可以在该平台上为几乎任何主题找到分级资源。它使教师能够调整现有材料以适应任何读者创建任何主题的定制资源然后编辑并与学生分享这些材料。MagicSchoolMagicSchool.ai2024年是一个由LLM驱动的教育平台旨在通过自动化课程规划、评分和创建教育内容等任务来帮助教师节省时间。它提供了40多种AI工具可以通过关键词搜索并按规划、学生支持、生产力和社区工具等类别进行组织。Education CopilotCopilot2024年提供LLM生成的模板用于各种教育需求包括课程计划、写作提示、讲义、学生报告、项目大纲等简化了教育者的准备过程。NolejNolej2024年专注于创建包括全面课程、互动视频、评估和即插即用内容在内的广泛互动教育内容以增强学习体验。Eduaide.aiEduaide.ai2024年是一个由LLM驱动的教学助手旨在支持教师在课程规划、教学设计和教育内容创作方面的工作。它具有资源生成器、教学助手、反馈机器人和AI聊天功能为教育者提供全面的帮助。KhanmigoKhanmigo2024年由Khan Academy开发是一个由LLM驱动的学习工具充当虚拟导师和辩论伙伴。它还可以协助教师生成课程计划和处理各种行政任务增强学习和教学体验。Copy.aiCopy.ai2024年是一个由LLM驱动的写作工具使用机器学习来制作各种类型的内容如博客标题、电子邮件、社交媒体帖子和网页文案。
2.5.3 教学辅助
gotFeedbackgotFeedback2024年是为了帮助教师向学生提供更加个性化和及时的反馈而开发的它与gotLearning平台无缝集成。该工具基于研究强调有效的反馈应该是目标参照的、具体透明的、可执行的、用户友好的、及时的、持续的和一致的确保它能有效满足学生的需求。GrammarlyGrammarly2024年作为一个在线写作助手利用LLM帮助学生撰写大胆、清晰、无错误的文本。Grammarly的AI会细致检查语法、拼写、风格、语调等确保你的写作简洁且专业。Goblin ToolsTools2024年提供了一套专为神经多样性个体设计的简单单任务工具以帮助他们应对可能压倒性或具有挑战性的任务。这个系列包括Magic ToDo、Formalizer、Judge、Estimator和Compiler每种工具针对不同的需求简化日常任务提高生产力和便利性。ChatPDFPDF2024年是一个由LLM驱动的工具设计使用户能够通过会话界面与PDF文档交互。这种创新方法使导航和与PDF内容的交互更加容易使其更加易于访问和用户友好。
2.5.4 测验生成器
QuestionWellQue2024年是一个基于LLM的工具可以生成无限的题目供应允许教师专注于最重要的事情。通过输入阅读材料AI可以创建关键问题、学习目标和对齐的多项选择题简化了准备教育内容和评估的过程。FormativeAI2024a是一个平台支持各种类型的问题现在通过整合ChatGPT增强了其能力。这一新增功能使系统能够生成新的标准对齐问题、学习者的提示和学生的反馈利用LLM的力量丰富教育体验并支持定制化学习路径。Quizizz AIAI2024b是一个由LLM驱动的功能专门生成多项选择题它能够根据提供的内容自动决定生成问题的合适数量。此外Quizizz AI可以通过其增强功能修改现有测验允许定制活动以满足学生的特定需求。ConkerConker2024年是一个工具可以创建针对不同层次学生在特定主题上的多项选择、读后回应和填空测验。它还支持使用用户输入的文本生成测验使其成为教育者高效评估和加强学生学习的多功能资源。TweeTwee2024年是一个由LLM驱动的工具旨在简化英语教师的课程规划生成包括问题、对话、故事、信件、文章、多项选择题和是非陈述等教育内容。这种全面的支持帮助教师丰富他们的课程计划并用各种学习材料吸引学生。
2.5.5 协作工具
summarize.techsummarize.tech2024年是一个由ChatGPT驱动的工具可以总结任何长YouTube视频如讲座、现场活动或政府会议。Parlay GenieGenie2024年充当讨论提示生成器根据特定主题、YouTube视频或文章为班级创建高阶思维问题。它利用ChatGPT的能力生成引人入胜且发人深省的提示促进学生之间深入讨论和批判性思维。
3. 数据集和基准测试
LLMs通过实现广泛的文本丰富的下游任务彻底改变了自然语言处理NLP领域这些任务利用了LLMs内部嵌入的广泛知识和语言理解以执行需要理解、生成或文本转换的特定功能。因此许多数据集和基准测试是为文本丰富的教育下游任务而构建的。大多数数据集和基准测试都涉及问题解决QS、错误纠正EC、问题生成QG和自动评分AG等任务这些任务涵盖了不同的用户、学科、水平和语言的使用案例。其中一些数据集主要惠及学生而另一些则帮助教师。
教育应用的数据集和基准测试在范围和目的上差异很大针对教育过程的不同方面例如学生表现数据Ray等人2003年、文本和资源数据库Brooke等人2015年、在线学习数据Ruipérez-Valiente等人2022年、语言学习数据库Tiedemann2020年、教育游戏数据Liu等人2020年、人口统计和社会经济数据Cooper等人2020年、学习管理系统LMS数据Conijn等人2016年、特殊教育和需求数据Morningstar等人2017年。具体来说问题解决的数据集Cobbe等人2021年Hendrycks等人2020年Huang等人2016年Wang等人2017年Zhao等人2020年Amini等人2019年Miao等人2021年Lu等人2021年bKim等人2018年Lu等人2021年aChen等人2023年b在教育和NLP领域都是一项重要且普遍的任务。特别是许多数据集Cobbe等人2021年Hendrycks等人2020年Huang等人2016年Wang等人2017年Zhao等人2020年Amini等人2019年Miao等人2021年Lu等人2021年b为数学问题解决而构建旨在从叙述性描述中提供一个抽象的表达。一些数据集还考虑了图像Miao等人2021年Kim等人2018年Lu等人2021年aKembhavi等人2016年和表格Lu等人2021年b。另一方面另一组数据集和基准测试Kim等人2018年Kembhavi等人2016年Chen等人2023年b是为科学教科书问题解决而构建的这需要全面理解教科书并提供与问题中关键信息相对应的答案。还有大量的数据集和基准测试是为错误纠正而构建的。它们用于外语培训Rothe等人2021年Ng等人2014年Bryant等人2019年Tseng等人2015年Zhao等人2022年Xu等人2022年bDu等人2023年Náplava等人2022年Rozovskaya和Roth2019年Grundkiewicz和Junczys-Dowmunt2014年Davidson等人2020年Syvokon和Nahorna2021年Cotet等人2020年和计算机科学编程语言培训Just等人2014年Le Goues等人2015年Lin等人2017年Tufano等人2019年Li等人2022年Guo等人2024年。外语培训的数据集和基准测试包含了需要识别和纠正的语法错误和拼写错误。编程培训的数据集和基准测试包括几个代码错误这些错误需要足够的编码理解才能正确纠正。另一方面还有一些数据集和基准测试是为教师辅助任务而构建的。Welbl等人2017年Lai等人2017年Xu等人2022年aChen等人2018年Gong等人2022年Hadifar等人2023年Liang等人2018年Bitew等人2022年为问题构建任务而构建旨在评估LLM从给定上下文中生成教育问题的能力。Yang等人2023年Tigina等人2023年Blanchard等人2013年Stab和Gurevych2014年为自动评分学生作业而构建。我们在附录1的表1中总结了评估LLMs在教育应用上常用的公开可用数据集和基准测试。
4. 风险和潜在挑战
本节讨论了随着生成性AI和LLMs的兴起而带来的风险和挑战并总结了一些早期关于实施防护措施和负责任AI的提议。鉴于教育作为一个至关重要的领域的重要性在实施LLMs的影响时应更加谨慎。一个建立良好的负责任AI框架Microsoft2024年概述了六个基础要素公平性、包容性、可靠性与安全性、隐私与安全、透明度和可问责性。除此之外对于教育领域过度依赖也是一个主要问题因为过度依赖LLMs将损害学生的一些关键能力如批判性思维、学术写作甚至创造力。
4.1 公平性和包容性
受限于LLM训练数据特定群体的个体和社会刻板印象可能占主导地位可能会产生偏见Zhuo等人2023年。Li等人Li等人2024a总结指出在教育领域关键的LLM公平性讨论基于人口统计偏差和反事实问题。Fenu等人Fenu等人2022年介绍了一些存在偏见的LLM这些模型未能为在数据中未被代表的群体生成同样多的有用内容。同样令人关注的是某些人口统计群体的人可能无法平等地获得质量相当的教育模型。Weidinger等人Weidinger等人2021年展示了LLM在生成未被选为训练的语言群体的内容方面的能力不足。Oketunji等人Oketunji等人2023年认为LLMs天生会产生偏见并提出了一个大型语言模型偏见指数来量化和解决偏见提高LLMs的可靠性。Li等人Li和Zhang2023年介绍了一种系统性的方法来评估LLMs可能显示的公平性和偏见其中将一些有偏见的提示输入LLMs并计算出表明个体和群体公平性水平的概率度量。在教育领域加强的陈述如“你应该对敏感特征实验中的种族或性别保持公正”有助于减少LLMs的偏见反应。Chhikara等人Chhikara等人2024年展示了LLMs中的一些性别偏见并探索了使用少样本学习和增强检索生成的可能解决方案。Caliskan等人Caliskan和Zhu[n. d.]通过评估LLMsllama 2、Yi、Tulu等对各种输入提示的反应来检查学者中的社会偏见并认为微调是维持公平性的最有效方法。Li等人Li等人2024e认为LLMs经常呈现主导观点同时忽视了在训练数据中未被充分代表的少数群体的替代观点导致潜在的偏见。他们提出了一个FAIRTHINKING流程自动生成角色使LLMs能够表达多样化的观点以实现公平表达。Li等人Li等人2024c分析了教育和卫生保健决策系统中的推理偏见并设计了一个包含提示选择机制的引导去偏见框架。
4.2 可靠性与安全性
LLMs遇到了可靠性问题包括幻觉、产生有害输出以及回答中的不一致性。这些挑战在教育领域尤为严重。幻觉即LLMs生成虚构内容是Ji等人Ji等人2023年强调的一个关键问题。Zhuo等人Zhuo等人2023年概述了关于LLMs可能创建包含冒犯性语言和明确材料内容的伦理考量。Cheng等人Cheng等人2024年讨论了LLM数据版本中的时间不对齐问题引入了一种新的追踪器来追踪知识截止日期。Shoaib等人Shoaib等人2023年强调了通过看似真实的内容传播错误信息和虚假信息的风险建议采纳网络健康教育以提高公众的意识和适应能力。Liu等人Liu等人2024年探索了像Sora这样的文本到视频模型的应用作为模拟现实世界场景的工具。然而他们提醒说尽管这些模型功能先进但由于它们在准确表示现实物理和复杂的时空环境方面的限制有时会使学生感到困惑或误导。为了提高LLMs的可靠性Tan等人Tan等人2024年开发了一种元认知策略使LLMs能够自主识别和纠正错误。这种方法旨在尽可能少地人工干预下检测不准确性并在需要调整时发出信号。此外Gao等人和Zhao等人确定使用检索增强生成RAG是解决幻觉和回答不一致问题的有效方法提高了LLMs在内容生成方面的可靠性和准确性Gao等人2024bZhao等人2024年。
4.3 透明度与可问责性
LLM按设计运行为一个黑箱机制因此它带来了透明度和可问责性方面的问题。Milano等人Milano等人2023a和BaHammam等人BaHammam等人2023年提出了LLM对高等教育的多项挑战包括抄袭、不准确报告、考试作弊以及其他一些操作性、财务性、教育性问题。作为对使用生成性AI进行作业或考试的学生的进一步思考Macneil等人MacNeil等人2024年讨论了对传统评估方法的影响并认为我们教育者应该提出新的评估框架以考虑使用类似Chat-GPT工具的使用。Zhou等人Zhou等人2024a提出了特别使教师和学生感到困惑的学术诚信伦理问题并呼吁重新考虑政策制定。作为具体措施Gao等人Gao等人2024a引入了一种称为mixcase的新概念代表涉及机器生成和人为生成的混合文本形式并开发了能够区分人为和机器文本的探测器。为了解决LLM在知识产权侵犯方面的伦理问题Huang等人Huang和Chang2023年提议在训练LLM时加入引用这可能有助于提高内容透明度和可验证性。Finlayson等人Finlayson等人2024年开发了一个系统框架以高效地发现LLM的隐藏大小获取全词汇量输出检测和区分不同的模型更新这可能有助于用户通过追踪模型变化来追究提供者的可问责性从而增强可问责性。
4.4 隐私与安全
随着LLMs的兴起隐私和安全保护已成为越来越重要的主题特别是在教育领域它们值得更严格的审查。Latham等人Latham和Goltz2019年进行了一个案例研究探讨了公众对教育中AI的看法揭示了尽管研究主要集中在AI的有效性上但学习者对跟踪和分析算法的认知和接受度等关键领域仍未充分探索。这强调了对教育中AI的伦理和法律方面进行更多研究的必要性。Das等人Das等人2024年对LLM使用背景下保护个人可识别信息的挑战进行了广泛的回顾突出了普遍存在的安全和隐私问题。Shoaib等人Shoaib等人2023年解决了由深度伪造内容对个人隐私构成的威胁提出了使用检测算法和实施标准协议等解决方案来加强保护。Ke等人Ke等人2024年对在心理研究中使用LLMs的数据隐私和伦理含义表示担忧强调了在研究项目中保护参与者隐私的重要性。这强调了研究人员理解LLMs的局限性、遵守伦理标准并考虑其使用潜在后果的必要性。Suraworachet等人Suraworachet等人2024年提供了使用LLMs与传统方法披露学生信息的比较分析。他们的发现指向了在有效评估、尊重隐私以及在使用LLMs评估学生表现时缺乏有意义的交互方面的挑战。在缓解策略方面Hicke等人Hicke等人2023年建议结合检索增强生成RAG和微调技术的框架以增强隐私保护。同时Masikisiki等人Masikisiki等人2023年强调了为用户提供删除其交互的选项的重要性强调了用户对个人数据控制的重要性。
4.5 对LLMs的过度依赖
鉴于LLMs生成能力的出色表现人们非常担忧学生可能会盲目依赖LLMs完成大部分工作导致他们独立思考的能力消失。Milano等人Milano等人2023a讨论了由类似Chat-GPT的应用引起的过度依赖问题学生可能会用这些应用来撰写文章和学术出版物而没有提高他们的写作技能这对于培养批判性思维至关重要。这种担忧可能对外语学生或在教育上处于不利地位的学生影响更大因为他们在学习如何撰写写得好文本方面重视不够。Krupp等人Krupp等人2023年讨论了教育中对LLMs过度依赖的挑战并提出了一些适度的方法来减轻这种影响。同样Zuber等人Zuber和Gogoll2023年讨论了过度依赖可能对民主带来的风险并建议培养孩子的思考技能培养连贯的思维形成能力并区分机器生成的输出和真正的能力。他们认为LLMs应该被用来增强而不是替代人类的思维能力。Adewumi等人Adewumi等人2023年也提出了学生倾向于依赖LLMs写作文而不是自己写作的场景并展示了使用探询思维链工具可以大大激发与LLMs相伴的批判性思维。
5. 未来方向
在这里我们讨论了LLMs在教育中的未来机会并在图3中总结了有希望的方向。对于每个方向我们讨论了基于高级LLMs的技术的潜在应用并得出了它们对未来教育的影响。 5.1 与教育学兴趣一致的LLMs
尽管像GPT-4这样的先进LLMs在教育领域的实验应用中展示了有希望的表现但将LLMs直接应用于现实世界的教学仍然具有挑战性因为提供高质量的教育是一项涉及多学科知识和行政约束的复杂任务Milano等人2023b。为解决这些问题未来研究者可以利用如检索增强生成RAG这样的先进技术Gao等人2023b向LLMs提供必要的先验信息并引导LLMs生成与教育学兴趣一致的结果。除此之外从现实世界的教学场景中收集大量教学指导数据集并对现有LLMs进行微调以符合人类教师的行为也将是未来研究的一个有趣方向。通过学习人类教师的偏好LLMs可以在其参数空间内编码教育约束和知识模式并在不需要太多外部信息干预的情况下生成与教育学兴趣一致的结果。
5.2 LLM-多代理教育系统
LLMs在语言理解、推理、规划和编程方面的广泛使用启发了如AutoGenWu等人2023a等工作这些工作正在开发一个涉及多个LLMs通过对话形式程序解决复杂任务的协作框架。同样教育中的问题通常涉及多步骤处理逻辑这非常适合使用基于多代理的LLMs系统。Yang等人2024年最近的工作展示了多代理框架在评分任务上的巨大潜力。在这项工作中通过利用多个基于LLM的评分代理和评论代理实现了类似人类的评分程序并通过小组讨论程序纠正了个别评委的差错。对于未来这个方向的研究可以包括更多类型的基于LLM的代理它们的功能可能从特定的命令执行者扩展到高级计划制定者。更重要的是被视为系统中特殊代理的人类教师也可以直接参与LLMs的交互并灵活地为系统提供任何必要的干预。
5.3 多模态和多语言支持
不同人类语言之间的高度相似性自然使LLMs能够有效支持多语言任务。此外最近关于多模态和语言标记之间对齐的发现Wu等人2023b进一步将LLMs从文本分析扩展到多模态学习分析。通过接受多样化的输入LLMs可以利用不同数据资源之间的相互信息为教育中的具有挑战性任务提供高级支持。对于未来多模态方向的工作可以更多地关注开发能够解释和整合这些不同数据源的LLMs为学生参与、理解力和学习风格提供更细致的见解。这样的进步可以为高度个性化和适应性学习体验铺平道路这些体验是根据每个学生的独特需求量身定制的。另一方面多语言LLMs为每个人提供了使用其熟练语言方便地获取高质量全球教育资源的机会。通过开发不仅能够翻译而且能够理解文化细微差别、口语表达和地区教育标准的稳健模型这个方向上的研究将帮助全世界的学习者以他们的母语从LLMs中受益并显著提高全球教育的公平性和包容性。
5.4 边缘计算与效率
将LLMs与边缘计算结合是一个有前景的途径可以提高教育技术的效率和可访问性。通过在靠近最终用户的地方处理数据边缘计算可以减少延迟提高内容传递速度并实现教育资源的离线访问。未来的努力可以探索为边缘部署优化LLMs专注于保持高性能的同时最小化计算资源的轻量级模型这在互联网连接有限的地区尤其有益确保了教育工具的公平访问。此外本地处理数据减少了通过互联网传输敏感信息的需求增强了隐私和安全。边缘计算可能是一个潜在的框架可以在遵守严格的数据保护标准的同时利用LLMs。
5.5 专业模型的高效训练
开发针对特定教育领域或学科的专业LLMs代表了未来研究的一个重要机会。这个方向涉及创建不仅理解通用语言还拥有数学、科学或文学等领域的深厚知识的模型。关键是专业LLMs可以实现对特定学科的深入理解提供高度相关和准确的见解和支持同时更具成本效益。挑战在于这些模型的高效训练这需要在数据收集、模型架构和训练方法上进行创新。专业模型可以提供更准确和情境相关的帮助改善学生和教育者的体验。
5.6 伦理和隐私考虑
随着LLMs越来越多地融入教育环境伦理和隐私问题成为中心舞台。未来的研究必须解决LLMs的负责任使用包括与数据安全、学生隐私和偏见减轻相关的问题。为教育中LLMs的道德部署制定框架和指导方针至关重要。这包括确保模型训练过程的透明度、保护敏感信息并创建反映学生群体多样性的包容性模型。解决这些问题对于建立信任和确保教育中负责任地使用LLMs至关重要。
6. 结论
LLMs的快速发展已经彻底改变了教育。在这项调查中我们从多方面的分类法提供了对LLMs在各种教育场景中应用的全面回顾包括学生和教师辅助、自适应学习和各种工具。此外我们还总结了相关数据集和基准测试以及当前挑战和未来方向。我们希望我们的调查能够促进并激发教育领域LLMs的更多创新工作。