海口网站建设策划,网站建设备案多长时间,网站建设捌金手指专业9,网站建设电话邀约话术文 | 快手搜索短视频和直播#xff0c;越来越成为重要的内容供给形式#xff0c;而内容供给侧的改变#xff0c;也在潜移默化地推动着用户搜索习惯的变化。据报道#xff0c;截止今年4月#xff0c;超过50%的用户都在使用快手搜索功能#xff0c;每天搜索达到2.5亿次越来越成为重要的内容供给形式而内容供给侧的改变也在潜移默化地推动着用户搜索习惯的变化。据报道截止今年4月超过50%的用户都在使用快手搜索功能每天搜索达到2.5亿次每天有超百万部作品被用户搜索到截止今年8月快手搜索日均搜索次数超过3亿用户利用快手搜索的习惯似乎在逐步养成。▲图1 快手上的短视频案例区别于传统的网页搜索在快手的短视频搜索场景中的主要挑战为主要内容是短视频网页的主要信息载体为文字往往具备比较丰富的上下文描述而相对来说短视频的表达载体更加多元化一部分上下文信息可以通过视觉或者听觉的方式传递给用户而不再需要额外的文本描述最终导致短视频的文本信息往往相对网页来说更加短小精悍上下文的缺乏就对模型的文本语义刻画能力和多模态理解能力有了更高的要求。较显著的社区特性快手搜索的内容生产者和消费者都带有比较显著的社区特性由于快手更加强调其社交属性用户在日常的相互沟通和讨论中往往会产生一系列这个社区内独有的“黑话”这些社区文化的产生一定程度上就会造成相同的文字在快手社区内和全网范围内表义完全不同的现象例如同样是搜索“礼物”在传统搜索引擎中获取到的往往是例如“礼物如何购买”“礼物推荐”等相关内容而在快手社区内term“礼物”还有另一层含义就是网红“小礼物”这类具有特色的社区文化就会使得一些开源的模型和算法在实际场景中难以发挥出较强的作用。▲图2 快手网红小礼物破圈挑战满足社区内需求的同时也需要不断应对破圈过程中的各种挑战用户规模的不断增加和搜索需求的不断增加就需要相应的搜索算法能够未雨绸缪想办法具备更强的泛化能力能够同时处理社区内in-domain和社区外out-of-domain的不同输入和信息从而达到为整体业务破圈保驾护航的作用。PERKS为了应对上述挑战快手搜索的NLPers针对快手搜索场景打造了一套更加全面的模型评估体系同时涵盖了内部业务数据集和外部公开数据集以此来模拟对in-domain任务和out-of-domain任务的处理能力同时面向快手搜索业务特点打造了一个具有快手搜索特色的预训练语言模型PERKSPre-trained Embedding Representation for Kuai Search相比于其他开源的预训练语言模型PERKS在技术上具有以下特点数据准备层面分别收集了TB级别的内部和外部语料其中内部语料包括视频中文字标题高置信度的视频ocr识别结果和高置信度的视频asr识别结果该视频的相关评论和点击query通过视觉学习到的视频tag等文本内容并通过文字出现的位置和时间等信息将一个视频中的文字组织成一个文档以便于进行训练。外部语料中除了常见的开源百科数据还包括一些开源的新闻网站内容。经过各种预处理过滤掉不置信内容去除冗余信息后一个高质量同时包含内部特色和外部特色的数据集就构造出来了。训练任务层面为了让模型能够同时学习到不同领域不同粒度的语言知识参考MMOE思想设计了一个多阶段多任务的学习模式包括第一阶段pre-pretrain使用百科数据学习Masked Langauge Model采用了dynamic whole-word-masking去学习基础的语言知识。二阶阶段pre-train使用内部语料和外部语料进行混合并且将训练任务扩展为dynamic-whold-word-maskingchar-reorderknowledge-masking通过百科和内部关键实体识别技术对齐到的知识信息进行maskimportant-whole-word-masking等并在这个阶段引入sentence-order-predictionsentence-distance-predictionsentence-source-prediction这段文本是来自于ocrasr网页数据还是其他部分等任务用于刻画句子级知识通过课程学习的方式在训练过程中逐步调整不同任务的配比让模型逐渐学习到更具有挑战的知识。经过第二阶段模型就学习到了一个比较大而全面的通用语言知识。在最终阶段post-pretrainPERKS会针对下游任务的特点对in-domain和out-of-domain的语料进行不同比例的采样并根据当前下游任务是处理word-level还是sentence-level任务的特点对于训练任务进行调整并在一个精选数据上进行微调例如针对ANN召回任务和双塔语义模型PERKS在最终阶段采用了采用对比学习作为主任务并使用其他部分任务作为辅助任务进行最终阶段的学习。▲图3 ERNIE-3中所采用的Knowledge-Text Prediction模型结构层面针对不同下游任务的特点视频内容理解语义相关性query分析等PERKS提供了一系列不同规模和不同特点的模型。同时一些常见的模型结构优化如pre-layer-norm采用相对位置编码和绝对位置编码的混合模式等方式也都在PERKS的训练过程中被验证为有效并融入到模型中。工程优化层面为了让TB级的语料可以更容易被使用以及方便未来可以兼容BM25ANN等hard negatives的生成和训练PERKS在分布式训练过程中抽象了一个分布式的DataSet用于挂载整体训练样本其中不同GPU节点使用ring-all-reduce进行梯度更新在GPU计算和梯度更新过程中异步data-loader不停跟这个分布式data-set进行交互实时获取不同的训练样本从而提升整体训练的迭代速度。此外一些常见的训练trick如fp16recompute梯度累积lamb等也都被作为标配应用于PERKS中。模型评估如何评价 PERKS 在圈外场景的效果展现快手搜索的NLPers把目光投向了公开数据集 CLUE 上因搜索场景与分类的场景更加接近由此选择 CLUE 中的分类任务来验证模型。在模型的迭代过程中PERKS 在 CLUE 1.1分类任务中展现出了较好的表现于11月4日成功登顶 CLUE 1.1分类任务排行榜这也是给快手搜索的NLPers的一次激励▲图4 CLUE1.1分类任务排行榜HUMAN 为人工标注结果不参与模型排名再来看看破圈后的 PERKS 在探针实验上的表现。如图5所示可以惊奇的发现破圈后的模型不仅能够准确预测“小红心”就连“小红书”这样的圈外知识也被模型吸收了进来▲图5 探针Probing实验最后自然语言处理工程师在快手搜索场景中能够施展才华的机会和空间还有很多研究者也欢迎更多的 NLPer 加入进来一起进步一起用生活回答每一种生活后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集