网站的首页面设计,哈尔滨队网站网页美工,dw 做网站图片之间的链接,凤凰军事新闻最新消息一、预训练数据
截止到23年底。
1.网页数据清洗
1.个人身份信息和安全性过滤#xff1a;设计过滤器#xff0c;会删除根据多种Meta安全标准被评定为有害的域名#xff0c;以及已知包含成人内容的域名。 2.文本提取和清洗#xff1a;处理未截断的网页文档的原始HTML内容设计过滤器会删除根据多种Meta安全标准被评定为有害的域名以及已知包含成人内容的域名。 2.文本提取和清洗处理未截断的网页文档的原始HTML内容以提取高质量且多样的文本。 构建了一个自定义解析器提取HTML内容并优化以精确去除样板内容和最大限度地保留正文内容。发现与纯文本相比markdown会对主要训练于网络数据的模型性能产生不利影响因此我们移除了所有的markdown标记。 3.去重处理。我们在URL、文档和行级别进行了多轮去重处理
URL级去重我们在整个数据集上进行URL级去重。对于每个URL对应的页面我们保留最新版本。文档级去重我们在整个数据集上进行全局MinHashBroder, 1997去重以移除近似重复的文档。行级去重我们进行了类似于ccNetWenzek等2019的积极行级去重。在每30M文档的分区中我们移除出现超过6次的行。尽管我们的人工定性分析表明行级去重不仅移除了各种网站的剩余样板内容如导航菜单、Cookie警告还移除了频繁出现的高质量文本但我们的实证评估显示去重带来了显著的改进。
4.启发式过滤。我们开发了一些启发式方法来移除额外的低质量文档、异常值以及含有过多重复内容的文档。以下是一些启发式方法的例子
重复n-gram覆盖率我们使用重复n-gram覆盖率Rae等2021来移除包含重复内容的行例如日志记录或错误消息。这些行可能很长且独特因此无法通过行级去重过滤掉。“脏词”计数我们使用“脏词”计数Raffel等2020来过滤出未被域名阻止列表覆盖的成人网站。令牌分布的Kullback-Leibler散度我们使用令牌分布的Kullback-Leibler散度来过滤掉那些包含过多异常令牌的文档这些文档的令牌分布与训练语料库的分布相比存在显著差异。
5.基于模型的质量过滤。我们还尝试应用各种基于模型的质量分类器来选择高质量的标记。这些分类器包括训练识别给定文本是否会被维基百科引用的快速分类器如fasttextJoulin等2017Touvron等2023a以及更为计算密集的基于Roberta的分类器Liu等2019a这些分类器训练自Llama 2的预测结果。 为了基于Llama 2训练质量分类器我们创建了一个经过清理的网页文档训练集描述质量要求并指示Llama 2的聊天模型判断这些文档是否满足这些要求。出于效率考虑我们使用DistilRobertaSanh等2019为每个文档生成质量评分。我们通过实验评估了各种质量过滤配置的效果。
6.代码和推理数据。类似于DeepSeek-AI等2024我们构建了特定领域的管道来提取与代码和数学相关的网页。具体来说代码和推理分类器都是DistilledRoberta模型训练数据由Llama 2注释的网页数据组成。与上面提到的一般质量分类器不同我们进行了提示调整以目标为包含数学推理、STEM领域推理以及与自然语言交织在一起的代码的网页。 由于代码和数学的令牌分布与自然语言的令牌分布存在显著差异这些管道实施了特定领域的HTML提取、自定义文本特征和启发式过滤。
7.多语言数据。类似于我们前面描述的英文处理管道我们实现了过滤器以移除可能包含个人身份信息PII或不安全内容的网站数据。我们的多语言文本处理管道具有以下几个独特特征
语言识别我们使用基于fasttext的语言识别模型将文档分类为176种语言。去重处理对每种语言的数据进行文档级和行级的去重处理。语言特定过滤应用语言特定的启发式方法和基于模型的过滤器来移除低质量文档。
此外我们使用基于多语言Llama 2的分类器对多语言文档进行质量排序以确保优先处理高质量内容。通过实验确定用于预训练的多语言标记数量平衡模型在英文和多语言基准测试上的性能。
2.数据类型配比
为了获得高质量的语言模型必须仔细确定预训练数据混合中不同数据来源的比例。我们确定这种数据混合的主要工具是知识分类和缩放定律实验。
知识分类。我们开发了一个分类器来分类我们的网络数据中包含的信息类型以更有效地确定数据混合。我们使用这个分类器对在网络上过度代表的数据类别进行降采样例如艺术和娱乐。
数据混合的缩放定律。为了确定最佳的数据混合比例我们进行缩放定律实验在这些实验中我们在数据混合上训练若干小模型并用它来预测大模型在该混合上的表现见第3.2.1节。我们对不同的数据混合重复此过程多次以选择一个新的数据混合候选者。随后我们在这个候选数据混合上训练一个更大的模型并评估该模型在几个关键基准上的表现。
数据混合概述。我们的最终数据混合大约包含50%的通用知识标记25%的数学和推理标记17%的代码标记以及8%的多语言标记。
3.退火数据
在预训练的最后4000万个标记时我们将学习率线性退火至0同时保持上下文长度为128K标记。在这个退火阶段我们还调整了数据混合比例以上采样非常高质量的数据源详见第3.1.3节。最后我们在退火过程中计算模型检查点的平均值Polyak (1991) 平均以生成最终的预训练模型。
二、后训练数据
1.数据清洗
在早期轮次中我们观察到数据中存在一些常见的不良模式例如过度使用表情符号或感叹号。因此我们实施了一系列基于规则的数据移除和修改策略以过滤或清理问题数据。例如为了缓解过度道歉的语调问题我们识别了过度使用的短语如“对不起”或“我道歉”并在数据集中仔细平衡此类样本的比例。
2.数据修剪
我们还应用了一系列基于模型的技术来移除低质量的训练样本并提升整体模型性能 主题分类我们首先将Llama 3 8B微调为一个主题分类器并对所有数据进行推理将其分类为粗粒度的类别如“数学推理”和细粒度的类别如“几何和三角学”。 质量评分我们使用奖励模型和基于Llama的信号来为每个样本获取质量评分。对于基于RM的评分我们将RM评分前四分之一的数据视为高质量。对于基于Llama的评分我们提示Llama 3检查点对每个样本进行评分针对通用英语数据使用三点评分尺度准确性、指令遵循和语气/呈现针对代码数据使用两点评分尺度错误识别和用户意图并将获得最高分的样本视为高质量。RM和基于Llama的评分之间存在较高的不一致率我们发现结合这些信号在内部测试集上能获得最佳的召回率。最终我们选择被RM或基于Llama的过滤器标记为高质量的样本。 难度评分因为我们也希望优先处理对模型而言更复杂的例子我们使用两种难度度量来评分数据InstagLu等2023和基于Llama的评分。对于Instag我们提示Llama 3 70B对SFT提示进行意图标记更多的意图意味着更复杂。我们还提示Llama 3用三点评分尺度来衡量对话的难度Liu等2024c。 语义去重最后我们进行语义去重Abbas等2023Liu等2024c。我们首先使用RoBERTaLiu等2019b对完整对话进行聚类并在每个聚类内按质量分数×难度分数排序。然后通过遍历所有排序后的例子进行贪婪选择仅保留与聚类中已看到的例子的最大余弦相似度小于阈值的例子。