宾馆网站模板,杭州手机建设网站,毕业设计网站建设英文文献,免费移动版wordpress一、介绍
大规模语言模型#xff08;LLM#xff09;在自然语言处理的通用领域已取得了令人瞩目的成功。对于广泛的应用场景#xff0c;这种技术展示了强大的潜力#xff0c;学术界和工业界的兴趣也持续升温。哈工大自然语言处理研究所30余位老师和学生参与开发了通用对话大…一、介绍
大规模语言模型LLM在自然语言处理的通用领域已取得了令人瞩目的成功。对于广泛的应用场景这种技术展示了强大的潜力学术界和工业界的兴趣也持续升温。哈工大自然语言处理研究所30余位老师和学生参与开发了通用对话大模型活字1.0哈工大社会计算与信息检索研究中心(哈工大-SCIR)研发了活字2.0致力于为自然语言处理的研究和实际应用提供更多可能性和选择。 局限性 由于模型参数量较小和自回归生成范式活字仍然可能生成包含事实性错误的误导性回复或包含偏见/歧视的有害内容请谨慎鉴别和使用生成的内容请勿将生成的有害内容传播至互联网。若产生不良后果由传播者自负。
二、模型特色
活字1.0 活字1.0 由哈工大自然语言处理研究所30余位老师和学生研发 在BLOOM-7B基础上通过指令微调后获得更加通用的完成任务的能力 支持中英双语在标准的中/英文基准与主观测评上均取得优异的效果同时支持多语言对话能力 更丰富的指令微调数据人工构造了更多指令微调模板以及一些列的Self-instruction指令构造的SFT数据使得指令微调的数据更加丰富 取得更好的指令遵循能力 支持生成代码以及表格 更高质量的安全数据基于多轮对抗攻击以SFT形式手动设计安全数据强化模型回复的安全性和合规性 安全性指标达到 84.4%在特定测试集上超越了ChatGPT
活字2.0 活字2.0由哈工大社会计算与信息检索研究中心(SCIR)完成研发 在活字1.0基础上通过人类反馈的强化学习 (RLHF)进一步优化了模型回复质量使其更加符合人类偏好 融合多种trick的稳定PPO训练训练更加稳定高效 训练过程中保持数据分布一致 在奖励函数中加入KL-散度罚值 Actor权重滑动平均 多维度标注的中文偏好数据回答更丰富遵从指令的能力更强逻辑更加清晰 针对Instruction标注是否具有诱导性 针对每条回复从有用性、真实性和无害性三个维度打分 综合考虑Instruction类别、回复质量的偏好排序 为了更好地推动中文大模型的技术进展哈工大赛尔实验室对“活字1.0”和“活字2.0”两个版本的大语言模型进行了开源。GitHub地址为 https://github.com/HIT-SCIR/huozi也可点击“阅读全文”进入。
同时我们开源首个用于训练RLHF奖励模型的人工标注中文数据集。
欢迎广大研究人员、开发者和技术爱好者尝试使用并提供宝贵的反馈和建议。
三、模型评测
公开benchmark榜单 C-Eval 数据集:是一个全面的中文基础模型评测数据集涵盖了 52 个学科和四个难度的级别。我们使用该数据集的 dev 集作为 few-shot 的来源在 val 集上进行了 5-shot 测试。 Gaokao 是一个以中国高考题作为评测大语言模型能力的数据集用以评估模型的语言能力和逻辑推理能力。我们只保留了其中的单项选择题随机划分后对所有模型进行统一 zero-shot 测试。 MMLU 是包含 57 个多选任务的英文评测数据集涵盖了初等数学、美国历史、计算机科学、法律等难度覆盖高中水平到专家水平是目前主流的LLM评测数据集。我们采用了 开源 的评测方案最终 5-shot
ModelC-EvalMMLUGAOKAO(理科)GAOKAO(文科)GPT-468.386.4--ChatGPT50.067.3364398LLAMA-7B-27.8--Chinese-Llama-7B6.531.4105126Chinese-Falcon-7B24.521.0113121BLOOM-7B22.425.5114127BLOOMZ-7B-28.7--活字1.021.735.6120138
人工综合评测
我们自己构建了一套综合的双语测试数据集共计525条对模型生成的流畅性、相关性、真实性等指标进行人工综合评价。 综合质量(%)流畅性(%)相关性(%)真实性(%)指令遵循(%)安全性(%)活字1.070.494.691.585.581.184.4ChatGPT86.598.898.192.986.881.9 综合质量人工评估模型生成文本的综合质量。 流畅性语言模型是否能生成流畅的回复 相关性语言模型生成的回复是否与问题相关无论正确与否 真实性模型生成结果是否无明显错误信息是否产生误导性的信息或真实性存疑的信息。 指令遵循是否能够准确地满足人类指定的需求。 安全性诱导模型生成有害回复测试模型生成安全无害回复的比例。
四、交互样例 诗歌创作 文案写作 数学应用题 代码生成 多语言 知识问答 表格能力 安全无害性
五、《ChatGPT 调研报告》
哈工大自然语言处理研究所组织多位老师和同学撰写了本调研报告从技术原理、应用场景、未来发展等方面对ChatGPT进行了尽量详尽的介绍及总结该报告PDF文件已上传至Github。
六、结语
“活字”大语言模型的推出是哈工大自然语言处理研究所在自然语言处理领域的最新努力。该项目的开源性质鼓励了更广泛的参与和尝试有助于推动自然语言处理技术的研究和应用。但是由于模型参数和自回归生成范式活字仍然可能生成有害内容请谨慎鉴别和使用生成的内容请勿将生成的有害内容传播至互联网。最后诚邀您访问我们的GitHub项目页面体验活字大语言模型并共同探讨中文自然语言处理的未来发展。
本期责任编辑张伟男
本期编辑杨 昕