建设银行网站开通查询密码,网站模块如何添加,接网站建设单子的网站,wordpress的windows1. 前言
开发垂直领域模型的方法有好几种#xff0c;其中医疗、法律等专业是比较能体现模型垂直行业能力的#xff0c;因此也深受各大厂商的重视。
五一小长假的第一天#xff0c;Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.o…1. 前言
开发垂直领域模型的方法有好几种其中医疗、法律等专业是比较能体现模型垂直行业能力的因此也深受各大厂商的重视。
五一小长假的第一天Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.org/abs/2404.18416 ) 的论文。说明了微调Gemini模型在医学领域获得多项任务SoTA的成果和方法。论文全文长达58页作者有30多号人引用的文献列了10页。让人觉得是个大手笔之作难免想一探究竟。一些新闻稿更是冠以《医疗AI的一大步》《Med-Gemini 医学大模型里程碑之作Google今天发布医学航母正式起航》等等标题。 受此吸引花了一天时间认真读了论文。读完之后有些失落总体感觉上是花了很多力气具体的成果是为了体现Gemini模型自身能力而做的Demo。这时候才理解了论文题目的真正意思 。Capabilities of Gemini Models in Medicine 注意Capabilities和Models是复数形式主要研究的是Gemini这一系列模型在医学上的各种能力并非是训练出了一个在医疗领域专门的模型。另外可能是Google在开源方面吃亏吃得比较多这个项目本身没有开源。不过不重要了思路是比较关键的。
下面是对这篇论文的解读。水平所限只能尽力而为。
2. 论文工作概述
论文的大体意思是这样的如果AI想要医学应用中能够表现好有几个方面的关键能力
高级推理能力这不用解释好的医生都是推理专家获取最新的医学知识能力(其实就是RAG)医学知识不断更新需要用新的研究成果应用在诊断上理解复杂的多模态数据因为医学诊断需要很多辅助的多模态数据比如X光片心电图等等长上下文能力因为医学诊断要看很多病史数据因此长文本很关键
恰好, Goolge的Gemini某些模型的长文本(Long Context)和多模态能力很不错所以这个团队就利用这些基础能力加上一些微调和Agent技术开发了一系列针对医学领域应用的模型统称为Med-Gemini。它的能力特点就是上面提到了几条推理、多模态和长文本/网络检索能力。
这些能力是怎么得到检验的呢目前有各种针对医学模型的评测(比如参加医生资格考试)Med-Gemini在14个医学基准测试中有10个基准测试中达到了SoTA并在每个可以直接比较的基准测试中超过了GPT-4模型家族而且强调差的不是一点半点通常领先好几个身位。
除了评测Med-Gemini的还在医学文本总结和转诊信生成等任务中超越人类专家。(感觉这好像没啥值得一提的啊换任何一个模型来都可以做到)。
重点需要说明的是, Med-Gemini不是一个模型是一系列的模型。也就是说不是在一个模型里实现了既有高级推理能力又有多模态能力而是在不同的模型里做到的。是不是一个模型也没那么关键需要的是一个垂直系统不是一个垂直模型。
那么是提升基础Gemini模型的能力让它在医学领域的推理、多模态和长文本能力得到增强呢不同的方面用了不同的方法
推理能力通过自训练和网络搜索集成进行高级推理。这句话有点拗口也是这篇文章为数不多的亮点后面再详细解释。多模态微调用各种医疗X光片等数据进行微调。稍微创新点的地方是加了一个编码器来适应例如心电图啥的其他模态的数据这段基本上可以忽略长上下文这个更让人觉得是灌水提出了一个新的inference-time chain-of-reasoning的提示方式让模型以更好地理解长的电子健康记录EHRs)。
拆解之后这篇论文能看的也就只有推理增强部分。
3. 基础和微调模型的对应关系
因为所有的工作都是基于Google的Gemini基础模型之上的因此先看看Gemini的模型列表。Gemini模型有1.0和1.5两个版本每一个版本的模型里根据参数量的不同又分为UltraPro和Nano三个档次但是目前1.5还只有Pro版本。另外Nano是面向移动设备的。 UltraProNano1.5n/aPreview状态支持语音、图片和文字输入支持文本输出1M token输入上下文n/a1.0文本模型文本输入文本输出30K输入上下文文本模型1.0 Vision多模态模型8k上下文支持图片和文字输入支持文本输出12K输入上下文n/a
下面是论文中的原图说明了Med-Gemini是在Gemini模型的基础上分别通过不同的技术手段增强了高级推理能力多模态和长上下文处理能力而得到的。 但是图上没有说明的是其实是分别对好几个不同的模型进行了微调根据文中描述Med-Gemini和Gemini的对应关系如下:
任务基础模型医学模型技术手段1无需复杂推理的语言任务Gemini 1.0 ProMed-Gemini-M 1.0微调2需要高级推理的任务Gemini 1.0 UltraMed-Gemini-L 1.0自训练及不确定性引导搜索3多模态Gemini 1.5 ProMed-Gemini-M 1.5微调4长上下文Gemini 1.5 ProMed-Gemini-M 1.5提示工程推理时推理链技术)5多模态专用编码器Gemini 1.0 NanoMed-Gemini-S 1.0增加心电图专用编码器
前面提过其实多模态和长上下文部分没什么特别的东西有点价值的地方就是第2条如何把Gemini 1.0 Ultra 训练到Med-Gemini-L 1.0。
3. 如何增加模型专业领域的推理能力
把Gemini 1.0 Ultra训练成为Med-Gemini-L 1.0的方法被作者称为Advanced reasoning via self-training and web search integration 通过自训练及Web搜索的高级推理。
3.1 自训练方法介绍
这里解释一下自训练自训练是一个种模型的训练方法主要用于在标注数据比较少的情况。
假设我们想要训练一个模型来识别猫和狗的图片但是我们只有少量的标注数据例如1000张标注过的猫和狗的图片。我们希望模型能够泛化到更多的数据上但是我们没有足够的资源来手动标注更多的图片。
自训练的过程有点武侠小说里左右脚互相踩然后飞到高处的意思。过程如下
初始训练首先我们使用已有的标注数据来训练我们的模型。这个模型可能是一个简单的卷积神经网络CNN。未标注数据的预测接下来我们使用这个初步训练的模型来处理大量的未标注数据例如10000张未标注的猫和狗的图片。生成伪标签模型会对这些未标注的图片进行预测给出每张图片是猫还是狗的概率。我们可以选择置信度最高的预测作为伪标签。例如如果模型预测某张图片是猫的概率为0.95我们就可以认为这张图片是猫。合并数据集现在我们将这些带有伪标签的未标注图片添加到我们的训练数据集中与原始的标注数据一起形成一个新的、更大的数据集。再次训练最后我们使用这个新的数据集来重新训练我们的模型。这次训练中模型会同时学习来自标注数据和伪标签数据的知识。迭代我们可以重复这个过程每次都使用最新训练的模型来为更多的未标注数据生成伪标签并使用这些数据来进一步训练模型。
在论文中就采用这种方法来解决医学领域数据较少的问题。
3.2 制定训练目标
训练目标是增强基础模型在医学领域的推理能力同时还需要能够在必要时通过网络搜索信息来支持自己的判断(实验中应该是指定了搜索的专业网站)。
因为临床诊断需要大量的复杂的推理过程医生可能会对许多不同的输入进行推理例如患者症状、医疗和活动史、实验室诊断、先前对治疗的反应以及其他更广泛的因素例如流行病学数据。同时由于医学知识不断更新**理想情况下医学大模型不仅需要具有强大的推理能力而且还能够整合最新信息例如来自权威网络的信息。
其实现在模型利用搜索工具已经没什么特别的了大量的模型都能够集成搜索工具关键是让模型准确的模仿医生的决策过程知道什么时候该去搜索搜索之后如何使用搜到的信息来支持决策。这需要进行微调。
3.3 收集和生成训练数据
如果需要微调训练就需要准备数据最好是医生针对病例诊断的思考过程但是收集这些数据非常困难。医生平时写个病历都是用画符的方式更别提让他/她来告诉你诊断是怎么下的了。而且训练大模型需要大量的数据因此训练数据的收集是比较困难的过程。
作者利用MedQA数据集进行了扩展这个数据集里是一些医生资格考试的选择题。先让一些专家针对数据集里的问题写下自己推理的过程和依据然后利用这些数据作为示例(应该就是few shot prompt)让模型模仿着去做题并且要求它把推理过程写下来如果选择题做错了那么就把数据过滤掉如果做对了就保留推理过程。这样就得到了大量可以用于训练的数据。
在生成数据的过程中会提示模型生成两种数据一种是不利用搜索一种是利用搜索两种方法得到了两种数据集MedQA-R 和 MedQA-RS。你可能会疑惑为什么要生成两种数据类型没关系到后面就明白了。 3.4 迭代训练
在生成的数据上微调Med-Gemini-L 1.0之后模型遵循few shot prompt中的推理风格和搜索整合的能力得到提升。然后使用改进的模型重新生成新的合成数据并迭代重复这个自训练过程直到模型的性能达到饱和。
3.5 推理
在推理过程中作者用了一种叫Uncertainty-guided search at inference (不确定性引导搜索的推理)的方法来让模型决定什么时候应该去搜索网络内容来支持推理。 推理过程分成四个步骤
一个问题给出多个推理结果给定一个带有医学问题的输入上下文提示先让模型生成多个推理模型可能每次推理的结果并不一致但是这个不要紧。对于第一次推理结果输入提示仅包含指令和问题。对于后续迭代提示还包括来自下面第4步的搜索结果。决定是否利用搜索给定第1步的多个推理结果会根据结果来计算一个值这个值表示了模型推理结果多大的确定性。这里会设定一个阈值如果模型的输出非常确定那么就直接给出结果如果不确定那么就说明需要启动搜索。不确定性指导的搜索查询生成如果模型对推理结果不是很确定那么就提示Med-Gemini-L 1.0生成三个搜索查询关键词这些查询结果有助于解决不确定性。搜索检索生成的查询关键词提交给网络搜索引擎检索到的结果被整合到Med-Gemini-L 1.0的输入提示中用于下一次迭代从第1步重新开始。通过用搜索结果增强提示使模型能够通过考虑从网络搜索中获得的外部相关见解来完善其响应。
到这里可能你就明白为什么要生成两种推理数据里第一次推理的时候是不用外部搜索引擎的数据的只有生成的答案不确定性比较高的时候才会补充进搜索引擎的额外信息这时候就需要综合搜索引擎的信息进行推理了。
3.6 评估
这种方法是不是有效需要通过测试来决定至少在论文里去刷MedQA和其他题目还是挺有效的达到了SoTA。
4. 有什么参考意义
其他多模态和长上下文的部分就不解释了。说一说对这篇论文的看法。
论文主要是Google为了展现Gemini模型的一些能力从实际医学应用上面来看意义不是那么大至少个人是这么感觉的。但是对于想要自己做垂直大模型的企业来说还是可以有一些可以参考的地方。
首先需要定义好训练任务需要增强模型的哪方面能力至少论文里非常清晰的定义了他们认为医学领域需要的高级推理、多模态和长文本三个方面能力垂直行业系统而不是垂直行业大模型。论文里并没有在一个模型上去实现所有的能力而是分别选择了不同的模型进行微调最后可以通过Agent整合的方式来实现一个系统所以不要指望一个模型解决所有问题数据和评测标准很难得很多论文做的其实是整理数据和评测标准否则微调就没有方向而这两个问题可能比想象中要困难很多成本强如google这种公司投入了几十号人也就整出这么个玩意儿…
总体来看这篇文章学术意义有限绝对不是很多营销号上吹得什么了不得的突破但是有一定的实际参考意义。
如何学习大模型
现在社会上大模型越来越普及了已经有很多人都想往这里面扎但是却找不到适合的方法去学习。
作为一名资深码农初入大模型时也吃了很多亏踩了无数坑。现在我想把我的经验和知识分享给你们帮助你们学习AI大模型能够解决你们学习中的困难。
下面这些都是我当初辛苦整理和花钱购买的资料现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习等录播视频免费分享出来需要的小伙伴可以扫取。 一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向东学一点西学一点像只无头苍蝇乱撞我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。 二、AI大模型视频教程 三、AI大模型各大学习书籍 四、AI大模型各大场景实战案例 五、结束语
学习AI大模型是当前科技发展的趋势它不仅能够为我们提供更多的机会和挑战还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型我们可以深入了解深度学习、神经网络等核心概念并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时掌握AI大模型还能够为我们的职业发展增添竞争力成为未来技术领域的领导者。
再者学习AI大模型也能为我们自己创造更多的价值提供更多的岗位以及副业创收让自己的生活更上一层楼。
因此学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。