当前位置：首页 > news >正文

网站公众号建设方案网站开发基本流程ppt

news 2025/11/12 13:41:25

网站公众号建设方案,网站开发基本流程ppt,上海网站快速排名优化,房屋在线设计平台1. Introduction 开源llm举例#xff1a;LLaMA 、Qwen 、Mistral 和Deepseek 大型语言模型的发展包括预训练、监督微调#xff08;SFT#xff09;和基于人类反馈的强化学习#xff08;RLHF#xff09;等主要阶段 InternLM2的显著特点采用分组查询注意力#xff08;GQA…1. Introduction 开源llm举例LLaMA 、Qwen 、Mistral 和Deepseek 大型语言模型的发展包括预训练、监督微调SFT和基于人类反馈的强化学习RLHF等主要阶段 InternLM2的显著特点采用分组查询注意力GQA来在推断长序列时减少内存占用预训练4k个上下文文本——高质量的32k文本——位置编码外推监督微调SFT和基于人类反馈的强化学习RLHF条件在线RLHFCOOL RLHF多轮Proximal Policy OptimizationPPO缓解奖励作弊问题 2. Infrastructure 2.1 InternEvo 在预训练、有监督微调和RLFH期间使用的训练框架InternEvo 特点数据、张量、序列和管道并行技术多种Zero Redundancy Optimizer (ZeRO, 2020)策略、FlashAttention技术、混合精度训练Mixed Precision Training MFU模型计算量利用率减少通信开销自适应分片技术如Full-Replica、Full Sharding和Partial-Sharding 通信与计算的重叠长序列训练InternEvo将GPU内存管理分解为四个并行维度数据、张量、序列和管道和三个分片维度参数、梯度和优化器状态容错性异步保存机制、冷存储 2.2 Model Structure LLaMA的结构设计原则在Transformer的基础架构上将LayerNorm替换为RMSNorm采用SwiGLU作为激活函数分组查询注意力GQA 3. Pre-train 详细描述如何为预训练准备文本、代码和长文本数据 3.1 Pre-training Data 文本数据以JSON Lines (jsonl)格式存储处理步骤包括数据格式化、应用启发式统计规则清洗数据、使用局部敏感哈希LSH方法进行数据去重、采用复合安全策略过滤数据代码数据通过训练代码数据有可能提升推理能力数据源分布格式清理转换为markdown格式代码去重质量筛选依赖排序长文本数据数据过滤管道长度选择、统计过滤器、语言模型perplexity过滤器 3.2 Pre-training Settings 分词Tokenization 预训练中超参数设置 AdamW优化器、余弦退火学习率衰减策略 3.3 Pre-training Phases 三个阶段不超过4k长度的预训练语料库——不超过32k长度的预训练数据——特定能力增强数据 4. Alignment 4.1 有监督微调将数据样本转换为 ChatML 格式 4.2 COOL RLFH 用Proximal Policy Optimization (PPO)方法设置reward函数 RLHF存在的问题偏好冲突有益和无害奖励作弊reward hacking的问题条件在线RLHF 整合多个偏好且减少奖励作弊作用机理将不同的系统提示system prompt应用于不同类型的偏好如何减少奖励作弊 RLHF分为两个路径快速路径Fast Path用于立即、有针对性的改进慢速路径Slow Path则用于长期、全面地优化奖励模型 4.3 长上下文微调一类来自书籍的长序列文本另一类是来自GitHub仓库的数据 4.4 工具增加的llm 代码解释器(|interpreter|)和外部插件(|plugin|) 5. 评估和分析 5.1 总体性能使用OpenCompass进行评估 5.2 在下游任务上的表现 (1) 全面测试,(2) 语言和知识,(3) 推理和数学,(4) 多种编程语言编程,(5) 长文本建模,(6) 工具利用 5.3 对齐表现 6. 结论参考资料 InternLM技术报告

查看全文

http://www.pierceye.com/news/502469/