当前位置：首页 > news >正文

电子商务网站功能介绍招商网站建设

news 2025/11/5 9:55:22

电子商务网站功能介绍,招商网站建设,aspcms 你的网站未安装请先安装,logo在线设计软件1. 引言信息流是目前大众点评除搜索之外的第二大用户获取信息的入口#xff0c;以优质内容来辅助用户消费决策并引导发现品质生活。整个大众点评信息流#xff08;下文简称点评信息流#xff09;围绕个性化推荐去连接用户和信息#xff0c;把更好的内容推荐给需要的用户。… 1. 引言信息流是目前大众点评除搜索之外的第二大用户获取信息的入口以优质内容来辅助用户消费决策并引导发现品质生活。整个大众点评信息流下文简称点评信息流围绕个性化推荐去连接用户和信息把更好的内容推荐给需要的用户。信息流推荐系统涉及内容挖掘、召回、精排、重排、创意等多层机制和排序。本文主要围绕创意部分的工作展开并选取其中重要的文本创意优化做介绍分为三个部分第一部分阐述几个重点问题包括创意优化是什么为什么做以及挑战在哪里第二部分讲述领域内的应用及技术进展第三部分介绍我们创意优化的实践最后做个总结。什么是创意优化创意是一个宽泛的概念它作为一种信息载体对受众展现可以是文本、图像、视频等任何单一或多类间的组合如新闻的标题就是经典的创意载体。而创意优化作为一种方法指在原有基础上进一步挖掘和激活资源组合方式进而提升资源的价值。在互联网领域产品中往往表现为通过优化创意载体来提升技术指标、业务目标的过程在信息流中落地重点包括三个方向文本创意在文本方面既包括了面向内容的摘要标题、排版改写等也包括面向商户的推荐文案及内容化聚合页。它们都广泛地应用了文本表示和文本生成等技术也是本文的主要方向。图像创意图像方面涉及到首图或首帧的优选、图像的动态裁剪以及图像的二次生成等。其他创意包括多类展示理由如社交关系等、元素创意在内的额外补充信息。核心目标与推荐问题相似提升包括点击率、转化率在内的通用指标同时需要兼顾考量产品的阅读体验包括内容的导向性等。关于“阅读体验”的部分这里不作展开。为什么要做文本生成首先文本创意本身为重要的业务发展赋能。在互联网下半场大众点评平台下称点评平台通过内容化去提升用户停留时长各类分发内容类型在不停地增加通过优化创意来提升内容的受众价值是必由之路。其次目前很多内容类型还主要依赖运营维护运营内容天然存在覆盖少、成本高的问题无法完全承接需要内容化改造的场景。最后近几年深度学习在NLPNatural Language Processing自然语言处理的不同子领域均取得了重大突破。更重要的是点评平台历经多年积淀了大量可用的内容数据。从技术层面来说我们也有能力提供系统化的文本创意生成的解决方案。对此我们从文本创意面向对象的角度定义了两类应用形态分别是面向内容的摘要标题以及面向商户的推荐文案与内容化聚合页。前者主要应用信息流各主要内容场景后者则主要应用在信息流广告等内容化场景。这里提前做下产品的简单介绍帮助大家建立一个立体化的感知。摘要标题顾名思义就是针对某条分发内容生成摘要作标题展示。点评内容源非常多样但超过95%内容并没有原生标题同时原生标题质量和多样性等差异也极大。商户文案生成有关单个商户核心卖点的描述一般形式为一句话的短文案。内容聚合生成完整的内容页包括标题及多条文案的短篇推荐理由不同于单商户文案的是既需要考虑商户的相关性又要保证理由的多样性。最后需要明确的是我们做文本创意优化最大的初心是希望通过创意这个载体显式地连接用户、商户和内容。我们能够知道用户关注什么知道哪些内容说什么如何引导用户看知道哪些商户好、好在哪里将信息的推荐更进一步。而非为了生成而生成。面临的挑战文本创意优化在业务和技术上分别面临着不同的挑战。首先业务侧启动创意优化需要两个基础前提第一衔接好创意优化与业务目标因为并不是所有的创意都能优化也不是所有创意优化都能带来预期的业务价值方向不对则易蹚坑。第二创意优化转化为最优化问题有一定的Gap。其不同于很多分类排序问题本身相对主观所谓“一千个人眼中有一千个哈姆雷特”创意优化能不能达到预期的业务目标这个转化非常关键。其次在技术层面业界不同的应用都面临不一样的挑战并且尝试和实践对应的解决方案。对文本创意生成来说我们面临的最大的挑战包括以下三点带受限的生成生成一段流畅的文本并非难事关键在于根据不同的场景和目标能控制它说什么、怎么说。这是目前挑战相对较大的一类问题在我们的应用场景中都面临这个挑战。业务导向生成能够提升业务指标、贴合业务目标的内容。为此对内容源、内容表示与建模上提出了更高的要求。高效稳定这里有两层含义第一层是高效即模型训练预测的效果和效率第二层是稳定线上系统应用需要具备很高的准确率和一套完善的质量提升方案。2. 文本生成问题综述我们整体的技术方案演进可以视作近两年NLP领域在深度学习推动下发展的一个缩影。所以在展开之前先谈一谈整个领域的应用及技术进展。 2.1 相关领域应用在学界相关领域文本生成被称为NLG其相关任务目标是根据输入数据生成自然语言的文本。而我们在NLP领域使用更多的一般是NLUNature Language Understanding 自然语言理解类任务如文本分类、命名实体识别等NLU的目标则是将自然语言文本转化成结构化数据。NLU和NLG两者表向上是一对相反的过程但其实是紧密相连的甚至目前很多NLU的任务都受到了生成式模型中表示方法的启发它们更多只在最终任务上有所区别。文本生成也是一个较宽泛的概念如下图所示广义上只要输出是自然语言文本的各类任务都属于这个范畴。但从不同的输入端可以划分出多种领域应用从应用相对成熟的连接人和语言的NMT神经机器翻译到2019年初能续写短篇故事的GPT2都属于Text2Text任务。给定结构化数据比如某些信息事件来生成文本比如赛事新闻的属于Data2Text类任务我们的商户文案也属此类。另外还有Image2Text等这块也逐渐在出现一些具有一定可用性又让人眼前一亮的应用比如各种形式的看图说话。 2.2 相关技术与进展文本生成包含文本表示和文本生成两个关键的部分它们既可以独立建模也可以通过框架完成端到端的训练。文本生成文本生成要解决的一个关键问题是根据给定的信息如何生成一段文本句子。这是一个简单输入复杂输出的任务问题的复杂度太大至今在准确和泛化上都没有兼顾的非常好的方法。2014年提出的Seq2Seq Model是解决这类问题一个非常通用的思路本质是将输入句子或其中的词Token做Embedding后输入循环神经网络中作为源句的表示这一部分称为Encoder另一部分生成端在每一个位置同样通过循环神经网络循环输出对应的Token这一部分称为Decoder。通过两个循环神经网络连接Encoder和Decoder可以将两个平行表示连接起来。另外一个非常重要的就是Attention机制其本质思想是获取两端的某种权重关系即在Decoder端生成的词和Encoder端的某些信息更相关。它也同样可以处理多模态的问题比如Image2Text任务通过CNN等将图片做一个关键特征的向量表示将这个表示输出到类似的Decoder中去解码输出文本视频语音等也使用同样的方式如下图所示。可见Encoder-Decoder是一个非常通用的框架它同样深入应用到了文本生成的三种主流方法分别是规划式、抽取式和生成式下面看下这几类方法各自的优劣势规划式根据结构化的信息通过语法规则、树形规则等方式规划生成进文本中可以抽象为三个阶段。宏观规划解决“说什么内容”微观规划解决“怎么说”包括语法句子粒度的规划以及最后的表层优化对结果进行微调。其优势是控制力极强、准确率较高特别适合新闻播报等模版化场景。而劣势是很难做到端到端的优化损失信息上限也不高。抽取式顾名思义在原文信息中抽取一部分作为输出。可以通过编码端的表征在解码端转化为多种不同的分类任务来实现端到端的优化。其优势在于能降低复杂度较好控制与原文的相关性。而劣势在于容易受原文的束缚泛化能力不强。生成式通过编码端的表征在解码端完成序列生成的任务可以实现完全的端到端优化可以完成多模态的任务。其在泛化能力上具有压倒性优势但劣势是控制难度极大建模复杂度也很高。目前的主流的评估方法主要基于数据和人工评测。基于数据可以从不同角度衡量和训练目标文本的相近程度如基于N-Gram匹配的BLUE和ROUGE等基于字符编辑距离Edit Distance等以及基于内容Coverage率的Jarcard距离等。基于数据的评测在机器翻译等有明确标注的场景下具有很大的意义这也是机器翻译领域最先有所突破的重要原因。但对于我们创意优化的场景来说意义并不大我们更重要的是优化业务目标多以线上的实际效果为导向并辅以人工评测。另外值得一提的是近两年也逐渐涌现了很多利用GANGenerative Adversarial Networks生成对抗网络的相关方法来解决文本生成泛化性多样性的问题。有不少思路非常有趣也值得尝试只是GAN对于NLP的文本生成这类离散输出任务在效果评测指标层面与传统的Seq2Seq模型还存在一定的差距可视为一类具有潜力的技术方向。文本表示前文提到在Encoder端包括有些模型在Decoder端都需要对句子进行建模那如何设计一个比较好的模型做表示既可以让终端任务完成分类、序列生成也可以做语义推理、相似度匹配等等就是非常重要的一个部分。那在表示方面整个2018年有两方面非常重要的工作进展 Contextual Embedding该方向包括一系列工作如最佳论文Elmo(Embeddings from Language Models)OpenAI的GPT(Generative Pre-Training)以及谷歌大力出奇迹的BERT(Bidirectional Encoder Representations from Transformers)。解决的核心问题是如何利用大量的没标注的文本数据学到一个预训练的模型并通过通过这个模型辅助在不同的有标注任务上更好地完成目标。传统NLP任务深度模型往往并不能通过持续增加深度来获取效果的提升但是在表示层面增加深度却往往可以对句子做更好的表征它的核心思想是利用Embedding来表征上下文的的信息。但是这个想法可以通过很多种方式来实现比如ELMo通过双向的LSTM拼接后可以同时得到含上下文信息的Embedding。而Transformer则在Encoder和Decoder两端都将Attention机制都应用到了极致通过序列间全位置的直连可以高效叠加多层12层来完成句子的表征。这类方法可以将不同的终端任务做一个统一的表示大大简化了建模抽象的复杂度。我们的表示也经历了从RNN到拥抱Attention的过程。 Tree-Based Embedding另外一个流派则是通过树形结构进行建模包括很多方式如传统的语法树在语法结构上做Tree Base的RNN用根结点的Embedding即可作为上下文的表征。Tree本身可以通过构造的方式也可以通过学习的方式比如强化学习来进行构建。最终Task效果既和树的结构包括深度有关也受“表示”学习的能力影响调优难度比较大。在我们的场景中人工评测效果并不是很好仍有很大继续探索的空间。3. 探索与实践该部分介绍从2017年底至今我们基于文本生成来进行文本创意优化的一些探索和实践。 3.1 内容源启动文本生成首先要了解内容本身数据的数量和质量对我们的任务重要性无须赘述这是一切模型的基础。目前我们使用到的数据和大致方法包括平台渠道用户评价、用户笔记、Push、攻略、视频内容、榜单、团单等等。第三方渠道合作获取了很多第三方平台的内容来补缺同时运营侧辅助创意撰写和标注了大量内容他们同样贡献了可观的数据量。标注数据最稀缺的永远是标注数据尤其是符合业务目标的标注。为此我们在冷启动阶段设计了EEExplore and Exploit探索与利用机制有意识地积累线上标注同时尽量引入更多第三方的标注源。但这些内容的不同特点也带来了不同的挑战内容多样前面提到的这些内容的结构化程度各不相同长短差异也极大对内容表示提出了很高的要求。质量不一源内容非常丰富但事实上质量、质感远远没有达到理想的标准。尤其是占绝对大头的UGC的内容不做好两端的质控将极大影响业务目标的优化甚至会造成体验问题。聚焦商户平台99%以上的内容都以商户作为核心载体这个对商户的理解和表示同样提出了很高的要求尤其是在内容化升级的场景下。场景差异不同的场景、不同的应用对模型能力的侧重和优化目标不一样。比如内容和商户前者要求要有很高的准确率同时保证优化线上效果后者更多的是要求有较强的泛化性并对质感进行优化。 3.2 基础能力模块所以文本创意优化要在业务侧落地产生效果还需应用到NLP领域诸多方向的技术。下图是抽象的整个文本生成应用的基础能力模块包括用于源和端质量控制的文本质量层构建Context表示的文本表示层以及面向业务优化的端到端模型层其中很多技术应用了公司其他兄弟团队包括内容挖掘组、NLP中心、离线计算组的出色成果。如针对负面内容过滤的情感分析多项针对性的文本分类针对商户表示的标签挖掘等在这里特别向他们表示感谢。 3.3 信息流标题实践双平台的内容需要在信息流分发在创意上最先优化的就是标题这是用户仅能看到两个要素之一另一个为首图而我们超过95%的内容并没有原生标题同时原生标题也存在诸如多样性差非场景导向等问题还有二次优化的空间。但是有两点比较大的挑战在不同任务上具象可能不一样。它们的本质并没有改变部分也是业界难点 1. 两个受限条件第一需要以线上点击率转化率为优化目标线上没效果写的再好意义都不大第二需要与原文强相关并且容错空间极小一出现就是Case。2. 优化评估困难第一模型目标和业务目标间存在天然Gap第二标注数据极度稀缺离线训练和线上实际预测样本数量之间往往差距百倍。对此我们通过抽取式和生成式的相结合互补的方式并在流程和模型结构上着手进行解决。抽取式标题抽取式方法在用户内容上有比较明显的优势首先控制力极强对源内容相关性好改变用户行文较少也不容易造成体验问题可以直接在句子级别做端到端优化。对此我们把整个标题建模转变为一个中短文本分类的问题但也无法规避上文提到两个大挑战具体表现在在优化评估上首先标题创意衡量的主观性很强线上Feeds的标注数据也易受到其他因素的影响比如推荐排序本身其次训练预测数据量差异造成OOV问题非常突出分类任务叠加噪音效果提升非常困难。对此我们重点在语义词级的方向上来对点击/转化率做建模同时辅以线上EE选优的机制来持续获取标注对并提升在线自动纠错的能力。在受限上抽取式虽然能直接在Seq级别对业务目标做优化但有时候也须兼顾阅读体验否则会形成一些“标题党”亦或造成与原文相关性差的问题。对此我们抽象了预处理和质量模型来通用化处理文本创意内容的质控独立了一个召回模块负责体验保障。并在模型结构上来对原文做独立表示后又引入了Topic Feature Context来做针对性控制。整个抽取式的流程可以抽象为四个环节一个在线机制源数据在内容中台完成可分发分析后针对具体内容进行系统化插件式的预处理包括分句拼句、繁简转换、大小写归一等并进行依存分析。而后将所有可选内容作质量评估包括情感过滤、敏感过滤等通用过滤以及规则判别等涉及表情、冗余字符处理与语法改写的二次基础优化。在召回模块中通过实体识别TF-IDF打分等方式来评估候选内容标题基础信息质量并通过阈值召回来保证基础阅读体验从而避免一些极端的Bad Case。最后针对候选标题直接做句子级别的点击/转化率预估负责质感、相关性及最终的业务目标的优化。为此我们先后尝试了诸多模型结构来解决不同问题下面重点在这方面做下介绍。我们第一版Bi-LSTMAttention整个结构并不复杂。我们的输入层是PreTrain的Word Embedding经过双向LSTM给到Attention层Dropout后全连接套一个交叉熵的Sigmod输出判别但它的意义非常明显既可以对整句序列做双向语义的建模同时可以通过注意力矩阵来对词级进行加权。这个在线上来看无论是对体感还是点击转化率都较召回打分的原始版本有了巨大提升。而后我们还在这个Base模型基础上尝试添加过ELMo的Loss在模型的第一层双向LSTM进行基于ELMo Loss的Pre Train作为初始化结果在线上指标也有小幅的提升。但是上述这个结构将中短文本脱离原文独立建模显然无法更好地兼顾原文受限这个条件。一个表现就是容易出现“标题党”、原文不相关等对体验造成影响的问题。对此我们在原文与候选标题结合的表示建模方面做了不少探索其中以CNNBi-LSTMAttention的基模型为代表但其在相关性建模受原文本身长度的影响较大而且训练效率也不理想。经过一段时间的探索分析在原文受限问题上最终既通过深度模型来表征深层的语义也辅以更多的特征工程如属性、Topic等挖掘特征我们统称为Context来表征用户能感知到的浅层信息“两条腿走路”才能被更好的学习这个在文案生成和标题生成的探索中反过来为抽取式提供了借鉴。在效率上我们整体替换了RNN-LSTM的循环结构采用了谷歌那时新提出的自注意力的机制来解决原文表征训练效率和长依赖问题。采用这个结构在效果和效率上又有了较大的提升。主要问题是我们的Context信息如何更好地建模到Self-Attention的结构中。它与生成式模型结构非常类似在下文生成式部分有所介绍。另外需要说明的一点是除非有两个点以上的巨大提升一般我们并不会以离线评测指标来评价模型好坏。因为前面提到我们的标注数据存在不同程度的扰动而且只是线上预测很小的一个子集无法避免的与线上存在一定的Gap所以我们更关注的是模型影响的基础体验人工检测通过率即非Bad Case率效率表现训练预测的时效最重要的还是线上实际的业务效果。在我们这几个版本的迭代中这三个方面都分别获得了不同程度的优化尤其是包括点击率、总点击量等在内的业务指标都累计获得了10%以上的提升。受限生成式标题抽取式标题在包括业务指标和基础体验上都获取了不错的效果但仍有明显的瓶颈。第一没有完全脱离原文尤其在大量质量欠优内容下无法实现创意的二次优化第二更好的通过创意这个载体显式的连接用户、商户和内容这个是生成式标题可以有能力实现的也是必由之路。生成式标题可以抽象描述为在给定上文并在一定受限条件下预估下个词的概率的问题。在信息流标题场景抽取式会面临的问题生成式全部会继承且在受限优化上面临更大的挑战原文受限首先只有表示并学习到原文的语义意图才能更好的控制标题生成这个本身在NLU就是难点在生成式中就更为突出其次标注数据稀缺原文标题对的数据极少而大部分又存在于长文章。为了保证控制和泛化性我们初期将标题剥离原文独立建模通过Context衔接这样能引入更多的非标数据并在逐步完成积累的情况下才开始尝试做原文的深度语义表示。优化评估受限生成式对训练语料的数量和质量要求高很多首先要保证基础的语义学习也要保证生成端的质量其次生成式本质作为语言模型无法在句子层面对业务目标直接做优化这中间还存在一道Gap。在表示上前面已经提到我们经历过目标单独建模和结合原文建模的过程主要原因还是在于仅针对Target的理解去构建Context衔接非常容易出现原文相关性问题。所以我们在描述的泛化性方向也做了不少的尝试比如尽可能地描述广而泛主题。诸如“魔都是轻易俘获人心的聚餐胜地”因为只面向上海的商户内容符合聚餐主题泛化能力很强但仍然不能作为一个普适的方案解决问题。下图为我们一个有初步成效的RNN-Base的Seq2Seq模型的整体结构。Encoder端使用的是包括前面提到的主题包括商户信息表示以及原文的双向语义表示两部分的拼接构成的Context输出给注意力层。Decoder端生成文本时通过注意力机制学习主题和原文表示的权重关系这个结构也完整应用到了文案生成其中控制结构会在文案中展开介绍。在序列建模上我们经历了一个从RNN到自注意力的过程。简单介绍下序列建模一个核心要点是如何建模序列间的长依赖关系。影响它的重要因素是信号在网络正向和反向计算中传递的长度也就是计算次数较长的依赖关系消失越严重。而在自注意力结构中每一层都直接与前一层的所有位置直接连接因此依赖长度均为O(1)最大程度保留了序列间的依赖关系。可以看到Encoder包括两部分一部分是Source原文一部分是基于原文和商户理解的主题Context两者共同组成。为此我们借鉴了NMT的一部分研究思想调整了Transformer的结构在原结构上额外引入了Context Encoder并且在Encoder和Decoder端加入了Context的Attention层来强化模型捕捉Context信息的能力。我们在生成式方向探索过程中对低质内容的标题生成在线上获得了接近10%的效果提升但仍有很多值得进一步的尝试和深挖的空间。抽取与生成Combine 在我们的场景中有两种Combine的思路一个是以业务效果为导向的偏工程化方法另外一个是我们正在探索的一种Copy方法。工程化的思想非常简洁在推荐问题上扩充候选是提升效果的一个可行途径那生成内容即作为新增的候选集之一参与整体的预估排序。这个方法能保证最终线上效果不会是负向的实际上也取得了一定的提升。另一种方法也是学业界研究的子方向之一即Copy机制我们也在做重点探索这里仅作思路的介绍不再进行展开。使用Copy机制的原始目的是为了解决生成式的OOV超出词表范围问题。但对于我们的场景来说大部分的“内容-标题”对数据是来自于抽取式即我们很多标题数据其实参考了原文。那如何继承这个参考机制针对业务目标学习何时Copy以及Copy什么来更优雅地发挥生成式的优势就是我们探索Copy方法的初衷。我们的方向是对Copy和Generate概率做独立建模其中重点解决在受限情况下的“Where To Point”问题。业务指标与生成式目标的Gap 我们知道生成式模型其本质是一个Language Model它的训练目标是最小化Word级别的交叉熵Loss而最终我们的需要评价的其实是业务相关的句子级别点击率这就导致了训练目标和业务指标不一致。解决这个问题在我们的场景中有三个可行的方向第一是在Context中显式地标注抽取式模型的Label让模型学习到两者的差异第二是在预测Decoder的Beam Search计算概率的同时添加一个打分控制函数第三则是在训练的Decoder中建立一个全局损失函数参与训练类似于NMT中增加的Coverage Loss。考虑到稳定性和实现成本我们最终尝试了第一和第二种方式其中第二种方式还是从商户文案迁移过来的也会在下文进行介绍。在线上这个尝试并没有在Combine的基础上取得更好的效果但同样值得更加深入的探索。在线EE机制最后介绍一下前面提到过的标题EEExplore and Exploit探索与利用机制用来持续获取标注数据并提升在线自动纠错的能力。我们采用了一种贪心的Epsilon Greedy策略并做了一点修改类似经典的Epsilon算法区别是引入创意状态根据状态将Epsilon分成多级。目的是将比较好的创意可以分配给较大概率的流量而不是均分差的就淘汰以此来提升效率。在初期优化阶段这种方式发挥了很大的作用。具体我们根据标题和图片的历史表现和默认相比将状态分成7档从上到下效果表现依次递减流量分配比例也依次降低这样可以保证整个系统在样本有噪音的情况下实现线上纠偏。 3.4 商户文案实践文案作为一个常见的创意形式在O2O以商户为主要载体的场景下有三点需要第一赋予商户以内容调性丰富创意第二通过内容化扩展投放的场景最后赋能平台的内容化升级主要业务目标包括点击率、页面穿透率等等。文案生成和标题生成能够通用整体的生成模型框架可以归为Data2Text类任务最大区别是由文案的载体”商户”所决定。不同于内容准确性的要求低很多复杂度也大大降低但同时为泛化能力提出了更高的要求也带来了与内容生成不同的问题。首先在表示上对商户的结构化理解变得尤其关键其次在控制上有D2T任务特有且非常重要的控制要求。前文也提到了生成一段文本从来不是难点重要的是如何按照不同要求控制Seq生成的同时保证很好的泛化性。下文也会分别介绍卖点控制、风格控制、多样性控制控制等几个控制方法。实现这样的控制也有很多不同的思路。商户表示商户的表示抽象为Context如下图中所示主要分两部分。第一部分来源于商户的自身理解一部分则来源于目标文本两部分有一定交集。其中商户理解的数据为卖点或者Topic在初期为了挖掘商户卖点和Topic我们主要使用成本较低、无需标注的LDA。但是它的准确性相对不可控同时对产出的卖点主题仍需要进行人工的选择以便作为新的标注辅助后续扩展有监督的任务。我们通过Key和Value两个Field来对卖点和主题进行共同表达也存在很多只有Value的情况比如下图这个商户“菜品”是个Key“雪蟹”是Value“约会”则仅是Value。随着时间的推移后续我们逐渐利用平台商户标签和图谱信息来扩展商户卖点的覆盖以此丰富我们的输入信息。该部分在内容挖掘和NLP知识图谱的相关介绍中都有涉及这里不再进行展开。第二部分目标文本来源特意添加这部分进入Context主要有三方面原因第一仅仅依靠商户理解的Context在训练过程中Loss下降极慢并且最终预测生成多样性不理想。本质原因是目标文本内容与商户卖点、主题间的相关性远远不够。通过不同商户的集合来学习到这个表示关系非常困难。第二拓宽可用数据范围不受商户评论这类有天然标注对的数据限制从商户衔接扩展到卖点衔接引入更多的泛化描述数据比如各类运营文案等等。第三这也是更为重要的一点能够间接地实现卖点选择的能力这个会在下文进行介绍。控制端实现控制在解码端表现为两类一类我们称之为Hard Constrained强控制即在数据端给定或没有给定的信息一定要在解码端进行或不进行相应描述这个适用于地域类目等不能出错的信息。比如这家商户在上海生成时不能出现除上海以外的地域信息否则容易造成歧义。另一类称之为Soft Constrained弱控制不同于NMT问题在文案生成上即便是完全相同的输入不同的输出都是允许的比如同一商户最终的文案可以选择不同的卖点去描述不同的内容。这类同属受限优化的问题前文提到过有两个思路方向第一通过构建机制来让模型自己学习到目标第二在Decoder的Beam Search阶段动态地加入所需的控制目标。我们使用两者相结合的方法来完成最终的不同控制的实现。两端机制设计在具体机制实现上主要依赖在Input Context和Output Decoder两端同时生效让Context的Hard Constrained来源于Output从而使Model能够自动学习到强受限关系而Soft Constrained则通过贝叶斯采样的方法动态添加进Context从而帮助Model提升泛化能力。Decoder控制简单介绍下Beam Search前面提到过文本生成的预测过程是按Word级进行的每轮预测的候选是整个词汇空间而往往一般的词表都是十万以上的量级。如果生成序列序列长度为N最终候选序列就有十万的N次方种可能这在计算和存储上绝不可行。这时候就需要使用到Beam Search方法每一步保留最优的前KK一般为2个最大概率序列其他则被剪枝本质上可以视作一个压缩版的维特比解码。我们在预测Beam Search阶段除了计算模型概率外额外增加下图中绿色部分的Fuction。输入为之前已生成的序列具体计算逻辑取决于控制目标可以自由实现。下面简单介绍两个重要的控制实现卖点控制这是最重要的一个控制机制我们整理了涉及到Hard Constrained的卖点和实体重要的如地域、品类等在目标理解过程中直接加入Context。对于Soft Constrained我们通过卖点的共现计算一个简单的条件概率并将卖点依此条件概率随机添加进Context中从而让模型通过注意力学习到受限关系。最后在Decoder fuction部分我们新增了一个HardSoft Constrained的匹配打分项参与最终的概率计算。最终的实际结果也非常符合我们的预期。风格控制实现方法和卖点控制非常相似只是这里的风格其实是通过不同内容之间的差异来间接进行实现。比如大众点评头条、PGC类的内容与UGC类的的写作风格就存在极大的差异。那么在文案上比如聚合页标题上可能更需要PGC的风格而聚合页内容上则需要UGC的风格。这样的内容属性即可作为一个Context的控制信号让模型捕获。3.5 内容聚合多样性控制多样性在文案生成上是一个比较重要和普遍的问题尤其对于同一个店铺、同一个卖点或主题同时生成N条内容的聚合页来说更为突出。本质原因是在解码预测Beam Search时永远选择概率最大的序列并不考虑多样性。但是如果预测时采用Decoder概率Random Search的方法则在通顺度上会存在比较大的问题。对此我们直接对全局结果进行优化在预测时把一个聚合页Context放到同一个batch中batch_size即为文案条数对已经生成序列上进行实体重复检测和n-gram重复检测将检测判重的加一个惩罚性打分这个简单的思想已经能非常好的解决多样性问题。 4. 动态创意目前很多搜索推荐等排序优化场景都会将创意信息作为特征工程一部分添加进精排或召回模型。那如果把创意优化近似为一个内容级创意排序问题也可以无缝衔接常用的WideDeep、DNN、FNN等CTR预估模型。但是这之前需要明确一点非常重要的问题即它与推荐精排模型的差异它们之间甚至可能会相互影响对此提供下我们的思考。与精排模型的差异第一精排模型能否一并完成创意的排序答案显然是肯定的。但它的复杂度决定了能Cover候选集的上限性能上往往接受不了叉乘创意带来的倍数增长。但此非问题的关键。第二创意层排序在精排层之前还是之后直接影响了创意模型的复杂度也间接决定了其效果的上限以及它对精排模型可能的影响程度从而可能带来全局的影响。此没有最佳实践视场景权衡。第三精排模型与创意排序业务目标一致但实现方式不同。精排模型通过全局排序的最优化来提升业务指标而创意优化则是通过动态提升内容受众价值来提升业务指标。最后我们回到用户视角当用户在浏览信息流时其实看到的只有创意本身标题、图片、作者等信息但用户却能从中感知到背后的诸多隐含信息也就是CTR预估中的重要内容/商户类特征诸如类目、场景、商户属性等。这个现象背后的本质在于创意可以表征很多高阶的结构化信息。基于这一点在创意优化的特征工程上方向就很明确了强化User/Context弱化Item/POI通过创意表征来间接学习到弱化的信息从而实现创意层面的最优排序。该部分工作不仅仅涉及到文本在本文中不再展开。用户兴趣与文本生成结合的可能性动态创意为文本生成提供了全新的空间也提出了更高的要求。动态创意提升受众价值不仅仅只能通过排序来实现在正篇介绍的最后部分我们抛出一个可能性的问题供各位同行和同学一起思考。也希望能看到更多业界的方案和实践共同进步。 5. 总结与展望整个2018年大众点评信息流在核心指标上取得了显著的突破。创意优化作为其中的一部分在一些方面进行了很多探索也在效果指标上取得了较为显著的收益。不过未来的突破更加任重而道远。 2018年至2019年初NLP的各个子领域涌现了非常多令人惊喜的成果并且这些成果已经落地到业界实践上。这是一个非常好的趋势也预示着在应用层面会有越来越多的突破。比如2019年初能够续写短篇小说的GPT2问世虽然它真实的泛化能力还未可知但让我们真切看到了在内容受限下高质量内容生成的可能性。最后回到初心我们希望通过创意的载体显式地连接用户、商户和内容。我们能了解用户关注什么知道某些内容表达什么获知哪些商户好好在哪里将信息的推荐更进一步。参考资料 [1] Context-aware Natural Language Generation with Recurrent Neural Networks. arXiv preprint arXiv:1611.09900.[2] Attention Is All You Need. arXiv preprint arXiv:1706.03762.[3] Universal Transformers. arXiv preprint arXiv:1807.03819.[4] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.[5] Don’t Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization. arXiv preprint arXiv:1808.08745.[6] Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.[7] ELMODeep contextualized word representations. arXiv preprint arXiv:1802.05365.[8] openAI GPTImproving Language Understanding by Generative Pre-Training.[9] Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.[10] Tensor2Tensor for Neural Machine Translation. arXiv preprint arXiv:1803.07416.[11] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.[12] Sequence-to-Sequence Learning as Beam-Search Optimization. arXiv preprint arXiv:1606.02960.[13] A Deep Reinforced Model For Abstractive Summarization. arXiv preprint arXiv:1705.04304.[14] SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. arXiv preprint arXiv:1609.05473.[15] Generating sequences with recurrent neural networks. CoRR,abs/1308.0850.作者简介忆纯2015年加入美团点评算法专家目前负责点评信息流内容创意工作。杨肖博士2016年加入美团点评高级算法专家点评推荐智能中心内容团队负责人。明海2016年加入美团点评美团点评研究员点评推荐智能中心团队负责人。众一2016年加入美团点评算法研发工程师目前主要负责点评信息流创意相关算法研发工作。扬威2018年初加入美团点评算法研发工程师目前主要负责点评信息流动态创意相关算法研发工作。凤阳2016年加入美团点评算法研发工程师目前主要负责点评信息流内容运营算法优化的工作。

查看全文

http://www.pierceye.com/news/133438/