当前位置：首页 > news >正文

公司注册网站源码如何网上赚点零花钱

news 2025/12/21 19:10:25

公司注册网站源码,如何网上赚点零花钱,上海公司车辆怎么查询违章,企业服务中心官网文章目录背景BloombergGPT数据集金融领域数据集通用数据集分词模型模型结构模型相关参数训练配置训练过程模型评估评估任务分布模型对比金融领域评估通用领域评估背景 GPT-3的发布证明了训练非常大的自回归语言模型#xff08;LLM#xff09;的强大优势。GPT-3有1750亿个… 文章目录背景BloombergGPT数据集金融领域数据集通用数据集分词模型模型结构模型相关参数训练配置训练过程模型评估评估任务分布模型对比金融领域评估通用领域评估背景 GPT-3的发布证明了训练非常大的自回归语言模型LLM的强大优势。GPT-3有1750亿个参数比以前的GPT-2模型增加了一百倍并且在现在流行的一系列LLM任务中表现出色包括阅读理解、开放式问答和代码生成。在GPT-3之后模型的规模逐渐增加到2800亿、5400亿和1万亿参数。当然为了实现高性能的LLM还有一些其他的重要方面如不同的训练目标、优化多语言模型、寻找更高效和更小的模型以及寻找数据和参数最优化的训练规模。很多工作几乎完全集中在一般LLM通用LLM上很多模型在涵盖广泛主题和领域的数据集上进行训练虽然有一些数据集包括一些专门领域的数据集例如代码或生物医学文章但模型训练重点仍然是构建具有广泛能力的LLM。最近使用特定领域数据训练模型的工作已经产生了一些成果这些模型虽然小得多但在这些领域内的任务上击败了通用LLM例如科学领域和医学领域。这些发现推动了专注于特定领域的模型的进一步发展。金融科技FinTech是一个庞大且不断发展的领域NLP技术发挥着越来越重要的作用。金融NLP任务包括情绪分析、命名实体识别、新闻分类以及人机问答等。虽然任务范围与一般NLP基准中的任务范围相似但金融领域的复杂性和特定术语需要适用于特定领域的系统。出于所有这些原因将LLM专注于金融领域将是有价值的。 BloombergGPT BloombergGPT来自于彭博社Bloomberg和约翰霍普金斯大学的Shijie Wu等人在2023年3月30日公开在arXiv的一篇文章BloombergGPT: A Large Language Model for Finance全文共76页。彭博社是全球商业、金融信息和财经资讯的领先提供商是一家资讯公司。 BloombergGPT是一个拥有500亿参数的语言模型其训练主要是使用大规模的金融财务数据即基于彭博社的广泛数据源构建了3630亿个标签的特有数据集363 billion token dataset这可能是迄今为止最大的特定领域数据集并增加了3450亿个标签的通用数据集的数据总数据量多达7000亿。数据集 BloombergGPT采用将金融领域数据集和通用数据集混合构建的方式使得模型兼具通用能力和特定领域任务的能力。作者将数据集命名为FinPile其中金融领域的数据是由一系列英文金融信息组成包括新闻、文件、新闻稿、网络爬取的金融文件以及提取到的社交媒体消息。通用数据集包含如The Pile、C4和Wikipedia。FinPile的训练数据集中大约一半是特定领域的文本一半是通用文本。为了提高数据质量每个数据集都进行了去重处理。金融领域数据集金融领域数据集共包含了3630亿个token占总数据集token量的54.2%具体由以下几个部分构成金融领域相关网页2980亿token占比42.01% 金融领域知名新闻源380亿token占比5.31% 公司财报140亿token占比2.04% 金融相关公司的出版物90亿token占比1.21% bloomberg50亿token占比0.7%。因为包含一部分收费和私有数据所以这份数据集不会被公开。通用数据集通用数据集共包含了3450亿个token占总数据集token量的48.73%具体分为如下几个部分 The Pile数据集1840亿token占比25.9%C4数据集1380亿token占比19.48%Wikipedia数据集240亿token占比3.35%。其中The Pile 数据集是一个 825 GiB 多样化的开源语言建模数据集。其构成如下表其中从Pile-CC是从Common Craw获取的网页数据占比约18%高质量数据占比越82%。 Common Crawl 是一个海量的、非结构化的、多语言的网页数据集。它包含了超过 8 年的网络爬虫数据集包含原始网页数据WARC、元数据WAT和文本提取WET拥有PB级规模可从 Amazon S3 上免费获取。下载地址http://commoncrawl.org/the-data/get-started/ Colossal Clean crawl Corpus (C4)是一个用于训练大模型的常用数据集引入支持训练T5。虽然它和Pile-CC有重叠的部分但C4的清洗和处理方式不同因此具有很高的质量。 Wikipedia数据集The Pile和C4都包含一些过时的维基百科的副本所以包含最新维基百科页面的数据对模型的真实性可能是有好处的。因此又选用了包括2022年7月1日起的英文维基百科数据。分词数据集使用Unigram tokenizer对原始文本进行tokenize。作者进行了两点改进在pre tokenization这一步将数字视为单个token并且允许词组的存在以提高信息密度减少句子长度参考了PaLM的处理方式由于在整个Pile数据集上使用Unigram tokenizer进行分词会比较低效因此使用分治的思想先分割处理后进行合并优化Unigram tokenizer在大数据集上的实现将Pile中22个领域分别拆分为256个大小基本相同的块。然后在22个领域的256个(共5632个)块的每一个上训练一个词汇量为65,536 2 16 2^{16} 216 的Unigram tokenizer最后对这些词表进行合并并将最终词表大小控制在13万这个数量级上。常见的分词算法BPE算法WordPiece算法ULM算法SentencePiece算法等。 BPE算法 Byte Pair Encoding字节对编码就是寻找经常出现在一起的Byte对合并成一个新的Byte加入词汇库中。训练过程首先定义所有可能的基本字符abcde… 然后开始循环数出最经常出现的pairs加入到我们的候选字符基本组成单元中去只要确定iteration的次数如30000个iteration词表个数就是30000 原始字母表中的字母数如原始词表如下 {l o w e r : 2, n e w e s t : 6, w i d e s t : 3, l o w : 5} 其中的key是词表的单词拆分成字母再加代表结尾value代表词出现的频率。 WordPiece算法 WordPiece算法可以看作是BPE的变种。**Google的Bert模型在分词的时候使用的是WordPiece算法。**不同点在于如何选择两个子词进行合并BPE选择频数最高的相邻子词合并而WordPiece选择能够提升语言模型概率最大的相邻子词加入词表。准备足够大的训练语料确定期望的subword词表大小将单词拆分成字符序列基于第3步数据训练语言模型从所有可能的subword单元中选择加入语言模型后能最大程度地增加训练数据概率的单元作为新的单元重复第5步直到达到第2步设定的subword词表大小或概率增量低于某一阈值。 Unigram Language Model (ULM) 与WordPiece一样Unigram Language Model(ULM)同样使用语言模型来挑选子词。不同之处在于BPE和WordPiece算法的词表大小都是从小到大变化属于增量法。而Unigram Language Model则是减量法,即先初始化一个大词表根据评估准则不断丢弃词表直到满足限定条件。ULM算法考虑了句子的不同分词可能因而能够输出带概率的多个子词分段。 SentencePiece算法把一个句子看作一个整体再拆分成片段没有保留天然的词语的概念。把空格space当做一种特殊字符来处理再用BPE或者Unigram算法来构造词表。比如XLNetTokenizer就采用了_来代替空格解码的时候会再用空格替换回来。目前Tokenizers库中所有使用了SentencePiece的都是与Unigram算法联合使用的比如ALBERT、XLNet、Marian和T5。模型模型结构模型基于BLOOM模型的自回归结构decoder-only causal language model based on BLOOM具体包含了70层transformer decoder。前馈层FFN中的非线性函数采用GELU位置编码采用ALiBi编码模型在第一层多了一个layer normalization 模型相关参数整个训练过程是在64台8卡的A100 GPU40G显存上进行的模型相关参数如下 transformer decoder的层数70 注意力层多头的头数40 每个头的纬度192 词表大小131072 隐藏层维度7680 模型参数量500亿训练配置作者在每篇文档的最后添加了特殊标记|endoftext|模型训练时选取的句子长度为2048token训练时采用的优化方法是AdamWbeta1、beta2、weight decay取值分别为0.9、0.95、0.1初始学习率为6e-5采用cosine衰减、线性warmup方式模型参数随机初始化为均值0、标准差0.006588的正态分布并对MLP的第二层和注意力层输出进行缩放关于训练的不稳定性文章中没有描述训练BloombergGPT时采用的方法只是介绍了相关进展关于计算使用到的硬件使用了64个AWS的p4d.24xlarge实例每个p4d.24xlarge实例包含了8块40GB的A100GPU 训练过程训练使用AWS提供的AmazonSageMaker来训练和评估BloombergGPT并在总共64个p4d.24xlarge实例上进行训练。每个p4d.24xlarge实例都有8个NVIDIA 40GB A100 GPU这总共产生512个40GB A100 GPU。为了快速访问数据还使用Amazon FSX For Lustre它支持每个TiB存储单元高达1000 MB/s的读写吞吐量。损失函数随训练步数变化曲线如下图模型共训练了139,200步进行了约0.8个epoch训练了53天。一个epoch都没有训练完的原因是这时验证集上的损失函数已经不再继续下降了。具体训练过程如下初始训练的batch size大小为1024warm-up过程持续了7200步随后作者将batch size修改为2048。115,500步之后验证集上的损失不再下降然后作者将学习率缩小为原始的2/3129,900步之后学习率缩小为之前的1/2同时增加dropout137,100步之后学习率再次缩小为之前的1/2最终训练在146,000步结束。作者选取139,200这一步的模型最为最终使用的模型。模型评估评估任务分布对BloombergGPT的评估分成了两部分金融领域任务与通用任务。这样做的目的也比较直观就是验证在特定领域预训练后的模型能够在特定领域表现好同时在通用领域的表现也不会差太多这一观点。金融特定任务有助于检验假设即对高质量金融特定数据进行训练将在金融任务中产生更好的结果。通用任务主要评估模型的性能是否与之前公布的结果直接可比。对于金融相关的任务分别收集了公开可用的金融数据任务我们还包括了从Bloomberg内部高质量评估集中提取的任务如用于情绪分析和命名实体识别等。对于通用任务我们从多个现有的基准和小组结果中得出以下类别BIG bench Hard、知识评估、阅读理解和语言任务。每种类型的任务数量和组的定义如下表所示。模型对比对比了BloombergGPT、GPT-NeoX、OPT、BLOOM、GPT-3在不同任务上的表现。注意这里因为GPT-3模型无法获取故仅在部分通用任务上进行了评测。各个模型使用到的token数量、参数数量、计算量如下作者对每一个模型均独立进行了评测并且在每一个任务中使用相同的标准prompt、相同的样例、不使用任务描述和任何CoT prompt以保证评测结果的公平性。对于有多个答案的任务文章中采用了**基于似然的分类方法likelihood-based classification进行评估对于其他任务文章采用贪心解码greedy decoding**的方式进行评估。 holdout loss 作者首先在FinPile数据集预留的部分样本上对各个模型进行了bits per byte的评估。 bits per byte指标是评估语言模型的一种常见指标类似于perplexity取值越小模型越好。具体计算方法可见**How to compute bits per character (BPC)?** 各个模型在各个类型的数据上的bits per byte值如下可以看出BloombergGPT在金融语料上的bits per byte均好于其他模型并且在财报Filings这个类别上表现尤其突出。这个结果也符合预期。否则可能就没有后面任务对比的必要了。金融领域评估金融领域任务共有6种类型3种判别式任务、3种生成式任务。具体任务的格式如下文章又将金融领域任务分成了外部任务和Bloomberg内部任务。在每个任务上作者除了评估模型在任务上的表现还评估了同一任务下不同模型生成结果之间两两比较的胜率WR。外部任务外部任务主要如下 ConvFinQA数据集是一个针对金融领域的问答数据集包括从新闻文章中提取出的问题和答案旨在测试模型对金融领域相关问题的理解和推理能力。FiQA SA情感分析任务测试英语金融新闻和社交媒体标题中的情感走向。Headline新闻标题在预定义标签下的二分类。数据集包括关于黄金商品领域的英文新闻标题标注了不同的子集。任务是判断新闻标题是否包含特定信息例如价格上涨或价格下跌等。FPB金融短语库数据集包括来自金融新闻的句子情绪分类任务。NER命名实体识别任务针对从提交给SEC的金融协议中收集金融数据进行信用风险评估。对于ConvFinQA来说这个差距尤为显著因为它需要使用对话式输入来对表格进行推理并生成答案具有一定挑战性。从评估结果来看BloombergGPT在五项任务中的四项ConvFinQAFiQA SAFPB和Headline表现最佳在NERNamed Entity Recognition中排名第二。因此BloombergGPT有其优势性。 Bloomberg内部任务之情感分析这个任务中的情感分析均为基于内部特定方面的情感分析数据集aspect-specific。探索性任务NER NERNamed Entity Recognition命名实体识别在很大程度上是生成LLM尚未探索的任务我们研究的LLM论文中没有一篇报告NER性能。因此我们将NER视为一项探索性任务并报告初步结果。对于生成性LLM来说NER可能是一项艰巨的任务这有几个原因。首先NER是一项信息提取任务更适合于编码器-解码器或仅编码器架构。LLM的生成性并没有给NER带来优势。与其他任务相比NER需要大量的即时工程和更多的案例训练才能获得合理的结果。特定于金融的NER有一些微妙之处这使得零次或少次学习变得特别困难。例如如果有这样一个标题“彭博社马斯克为推特和对中国的评论添加了新功能Bloomberg: Mr. Musk adds new features to Twitter and comments on China”。根据说明和下游任务需求 1报道新闻机构“彭博社”是否可以被标记这取决于我们是否想要突出的实体 2“马斯克先生”或“马斯克”是要被标记为PER人物 3“推特”可以被标记为ORG组织或PRD产品因为推特产品中添加了功能而不是组织 4“中国”可能标记为ORG或LOC地区尽管正确的标记可能是ORG。如果没有在提示中添加更详细的说明LLM就不知道预期的标记行为。基于初步测试将要预测的实体类型限制为ORG、PER和LOC以在所有模型的内部NER任务中获得最佳性能。总的来说过滤掉的实体不到1%。因此这里的NER只涉及到ORG、PER、LOC这三类实体。同时探索性任务NERNED是指识别出实体后再将实体链接到上市公司的股票简称。比如“AAPL announced that they will stop using Intel chips in future products.” 这句话NER的结果是“AAPL, Intel”NERNED的结果是 “AAPL, INTC”。这两类任务涉及到的数据集包括了7个数据集分别为BNBloomberg BN wire上内容、BFWBloomberg First Word上的内容、Filings财报内容、HeadlinesBloomberg news内容、PremiumBloogberg收录的第三方新闻内容、Transcripts公司新闻发布会的文字记录、Social Media。最终NER任务下BloombergGPT仅在Headlines这一个数据集上得分最高但在NERNED任务下BloombergGPT在除了Social Media任务的其他任务上均得分第一。具体结果如下通用领域评估作者在BIG-bench HardBIG-bench的一个子集仅包含目前模型表现无法超过人类的任务、常识测试不提供任何背景知识仅可以训练时使用的数据、阅读理解、语言学消歧、语法识别、蕴含判别等等任务上进行了测试。在BIG-bench Hard任务上BloombergGPT得分低于参数量更大的PaLM和BLOOM但是与参数规模类似的GPT-NeoX或OPT66B相比BloombergGPT的性能更接近BLOOM这说明开发金融专用的大语言模型并没有明显牺牲其通用能力。在常识测试任务中BloombergGPT在1个任务上取得了第一名在其余3个任务上取得了第二名这里未考虑GPT-3。在阅读理解任务上GPT-3在所有任务上排名第一BloombergGPT在5/6个任务上排名第二且得分远高于BLOOM模型。在语言学任务上GPT-3在综合排名第一BloombergGPT综合排名第二且综合得分高于BLOOM模型。评测总结在金融领域任务上BloombergGPT综合表现最好在通用任务上BloombergGPT的综合得分优于相同参数量级的其他模型并且在某些任务上的得分要高于参数量更大的模型。这都说明开发金融专用的大语言模型在金融领域取得好效果的同时并没有以牺牲模型通用能力为代价。要点总结 BloombergGPT是Bloomberg训练出来的金融大语言模型LLM for Finance模型参数量为500亿使用了包含3630亿token的金融领域数据集以及3450亿token的通用数据集隐藏层维度为7680多头的头数为40模型采用Unigram tokenizerAdamW优化器模型在64个AWS的p4d.24xlarge实例上训练了53天其中每个p4d.24xlarge实例包含了8块40GB的A100GPU对BloombergGPT的评估包含了两部分金融领域评估与通用领域评估评估对比的其他大语言模型有GPT-NeoX、OPT、BLOOM、GPT-3在金融领域任务上BloombergGPT综合表现最好在通用任务上BloombergGPT的综合得分同样优于相同参数量级的其他模型并且在某些任务上的得分要高于参数量更大的模型BloombergGPT模型在金融领域取得好效果的同时并没有以牺牲模型通用能力为代价对模型定性评估的结果表明BloombergGPT可以提高工作效率出于安全性的考虑BloogbergGPT模型不会被公开但是模型训练和评估的相关经验和思考会被分享出来作者认为对模型效果提升促进最大的三个因素按影响从高到低排序分别为精心清洗的数据集、合理的tokenizer、流行的模型结构

查看全文

http://www.pierceye.com/news/619217/