当前位置：首页 > news >正文

小厂建网站wordpress站群优化

news 2025/12/20 21:07:52

小厂建网站,wordpress站群优化,网页设计公司怎么选,巴楚网站建设二、Fusion 融合不同的多模态信息#xff0c;与bridge相比#xff0c;融合更关注项目之间的多模态内部关系。它可以灵活地融合不同权重和焦点的多模态信息。注意机制是应用最为广泛的特征融合。 2.1 粗粒度注意力。一些模型应用注意力机制在粗粒度级别融合来自多种模式…二、Fusion 融合不同的多模态信息与bridge相比融合更关注项目之间的多模态内部关系。它可以灵活地融合不同权重和焦点的多模态信息。注意机制是应用最为广泛的特征融合。 2.1 粗粒度注意力。一些模型应用注意力机制在粗粒度级别融合来自多种模式的信息。注将多模态信息分为用户侧和项目侧包括各自的id信息和side信息UVCAN、MCPTR。 UVCAN: User-Video Co-Attention Network for Personalized Micro-video Recommendation 2019 UVCAN将多模态信息分为用户侧和物品侧包括各自的id信息和side信息。它利用用户侧的多模态数据通过自注意力生成项目侧的融合权重。协同过滤的插图通过三步推理堆叠了注意力网络框架来探索用户对微视频特征的关注。 MCPTR: Multi-Modal Contrastive Pre-training for Recommendation 2022 MCPTR建议并行合并项目和用户信息。每个模态占据相同的位置自注意力机制决定融合权重。方法包含两个过程预训练和微调。在预训练阶段我们提出了一种基于辅助信息和隐式反馈矩阵 R 的多模态对比表示模型。具体来说我们提出的预训练模型包含两个组成部分用户建模和项目建模。在用户建模部分我们首先使用文本编码器来获取每个评论文本的表示然后使用模内聚合来获取用户的评论嵌入。接下来应用图编码器来捕获齐次图 Gu 的结构信息。对于这两种不同的模态信息我们开发了模态间聚合以获得用户的多模态表示。在项目建模中我们利用文本编码器、图像编码器和图编码器对每个项目的描述文本、图像和齐次图 Gi 进行编码。然后我们应用模间聚合来获得项目的多模态表示。此外由于对于同一项目描述文本和图像信息是互补的因此它们具有相似的语义。我们开发了一种自我监督的对比学习方法来调整它们之间的表示。最后采用基于反馈矩阵R的二元交叉熵损失函数来捕获目标用户u与其对应的目标项目i的潜在相关性。在微调过程中现有的推荐模型利用预先训练的用户/项目嵌入作为初始化并仅基于反馈矩阵 R 微调这些嵌入。注CMBF、MML、MCPTR、HCGCN引入交叉注意力机制来分别共同学习图像和文本模态的语义信息。 CMBF: Cross-Modal-Based Fusion Recommendation Algorithm 2021 CMBF引入交叉注意力机制来分别共同学习图像和文本模态的语义信息然后将它们连接起来。现有的多模态推荐算法都是提取单一模态的特征并简单拼接不同模态的特征来预测推荐结果。这种融合方法不能完全挖掘多模态特征的相关性丢失了不同模态之间的关系影响了预测结果。在本文中我们提出了一种基于跨模态的融合推荐算法CMBF该算法可以捕获单模态特征和跨模态特征。我们的算法使用一种新颖的跨模态融合方法来完全融合多模态特征并学习不同模态之间的交叉信息。基于CMBF的拟议框架概述。图像/文本特征学习层和跨模态融合层的详细信息分别如图2和图3所示。特征学习层的图示。(a)代表图像特征学习层(b)代表文本特征学习层。跨模式融合层的图示。 MML: Multimodal Meta-Learning for Cold-Start Sequential Recommendation 2022 MML基于id信息设计了一个注意力层并辅以视觉和文本信息。在MAML框架下我们提出的MML将多模态信息即相关的文本和图像数据作为一种辅助信息纳入元学习过程中以减少任务发散并提高跨任务知识迁移的有效性。具体来说我们在两个方面利用项目的多模态信息。首先为了尽量减少新老用户顺序特征的差异我们精心设计了一组对应三种不同模态即ID、文本和图像的多模态元学习器这可以通过参考彼此的预测来稳定和改进元训练过程。其次考虑到新项目的特征差异我们设计了一个冷启动项目嵌入生成器它利用多模态信息来预热新项目的 ID 嵌入。 MML的整体架构如图1(a)所示。为了快速适应数据不足的冷启动用户我们将MAML扩展到我们的场景并设计一个三阶段算法来训练元学习器、嵌入生成器和依次预测融合层如图1(b)所示。文章详细介绍了训练算法。 HCGCN: Learning Hybrid Behavior Patterns for Multimedia Recommendation 2022 MCPTR每个模态占据相同的位置自注意力机制决定融合权重。相比之下HCGCN更关注项目本身的视觉和文本信息。 2.1 细粒度注意力。多模态数据包含全局和细粒度特征例如录音的音调或一件衣服上的图案。由于粗粒度融合通常是侵入性和不可逆的它会损坏原始模态的信息并降低推荐性能。细粒度融合选择性地融合不同模态之间的细粒度特征信息注细粒度融合在时尚推荐场景中意义重大。 POG: Personalized Outfit Generation for Fashion Recommendation at Alibaba iFashion 2019 POG是一个基于Transformer架构的大型在线服装推荐系统。在编码器中通过多层注意力挖掘时尚图像中属于搭配方案的深层特征不断实现细粒度的集成。 FOM 的架构。我们一次掩盖一件衣物。例如我们在套装中遮盖一条牛仔裤。模型学会从候选池中选择正确的牛仔裤以完成对套装中其它衣物的搭配。 POG的架构是一个带有Per网络和Gen网络的编码器-解码器架构。套装物品是根据Per网络的用户偏好信号和Gen网络的兼容性信号逐步生成的。 NOR: Explainable Outfit Recommendation with Joint Outfit Matching and Comment Generation 2019 NOR应用了编码器-解码器变压器架构其中包含细粒度的自注意力结构。它可以根据搭配信息生成相应的方案描述。所提出的神经套装推荐 (NOR) 架构的概述。 NOR包含三个部分1顶部和底部图像编码器对应图a2匹配解码器对应图b以及3生成解码器对应于图©)。神经时尚推荐架构 (NOR) 的详细信息。 (a) 顶部和底部图像编码器从图像中提取视觉特征 Ft 和 Fb。 (b) 使用相互注意机制我们将视觉特征转换为潜在表示vt和vb。然后匹配解码器预测匹配指示符rtb。 © 在每个时间戳 τ 处生成解码器采用跨模态注意机制来生成单词 wτ 。 EFRM: Explainable Fashion Recommendation: A Semantic Attribute Region Guided Approach 2019 EFRM还设计了语义提取网络SEN来提取局部特征最后将两个特征与细粒度的注意力偏好融合。大多数先前的时尚推荐模型都以全局内容表示来理解服装图像缺乏对用户语义偏好的详细理解这通常会导致推荐性能较差。传统的a全局视觉空间和我们的b语义属性视觉空间之间的区别。 SAERS包含两个主要组件即语义提取网络SEN和细粒度偏好注意FPA。具体来说利用 SEN我们首先获得语义特征空间中的时尚商品投影。接下来我们设计 FPA 将用户投影到相同的语义特征空间中。然后我们在成对学习框架下共同学习全局视觉空间和语义属性视觉空间中的项目表示。最后通过属性偏好推断我们可以生成可解释的推荐。 VECF: Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention Network 2019 VECF执行图像分割将每个补丁的图像特征与其他模态集成。对于一个时尚图像来说并不是所有的区域对于用户来说都同样重要即人们通常会关心时尚图像的少数部分。为了模拟这种人类感觉我们在许多预先分割的图像区域上学习了一个注意力模型基于该模型我们可以了解用户对图像上的哪些地方真正感兴趣并相应地以更准确的方式表示图像。此外通过发现这种细粒度的视觉偏好我们可以通过突出显示图像的某些区域来直观地解释推荐。为了更好地学习注意力模型我们还引入了用户评论信息作为弱监督信号以收集更全面的用户偏好。在我们的最终框架中视觉和文本特征通过多模态注意力网络无缝耦合。所提出的 VECF 模型。红线表示为时尚形象建模设计的注意力机制。蓝线突出显示了用户评论的建模。 UVCAN: User-Video Co-Attention Network for Personalized Micro-video Recommendation UVCAN像VECF一样对视频截图进行图像分割并通过注意力机制分别将图像块与id信息和文本信息融合。 MM-Rec: Multimodal News Recommendation 2022 MM-Rec首先通过目标检测算法Mask-RCNN从新闻图像中提取感兴趣区域然后利用共同注意力将POI与新闻内容融合。在论文中我们提出了一种名为 MM-Rec 的多模态新闻推荐方法该方法利用文本和视觉新闻信息进行新闻推荐。在我们的方法中我们首先通过预训练的 Mask R-CNN 模型提取新闻图像的兴趣区域 (ROI) 以进行对象检测。然后我们使用预先训练的视觉语言模型对新闻文本和新闻图像 ROI 进行编码并通过共同注意 Transformer 对其固有的跨模态相关性进行建模以学习准确的多模态新闻表示。此外我们还提出了一种跨模态候选新闻感知注意力网络通过评估候选新闻与点击新闻之间的跨模态相关性选择相关的点击新闻进行用户建模这有助于模拟用户对候选新闻的特定兴趣。注有些模型设计了独特的内部结构以实现更好的细粒度融合。 MKGformer: Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion 2023 MKGformer通过共享一些QKV参数和相关的感知融合模块来实现细粒度的融合。大多数多模态知识图谱MKG远未完成不同的任务和模式需要改变模型架构并且并非所有图像/对象都与文本输入相关这阻碍了对不同现实场景的适用性。我们提出了一种具有多级融合的混合变压器来解决这些问题。具体来说我们利用具有统一输入输出的混合变压器架构来完成各种多模态知识图任务。此外我们提出了多级融合它通过粗粒度前缀引导交互和细粒度相关感知融合模块集成了视觉和文本表示。 MKGformer一种用于统一多模态 KGC 的混合 Transformer它实现了跨视觉 Transformer 和文本 Transformer 的最后几层的实体多模态特征的多级融合建模即 M-编码器。之前的工作表明预训练模型PLM可以激活与 Transformer Encoder 中的自注意力层和前馈网络FFN层的输入相关的知识。受此启发我们将视觉信息视为补充知识并在 Transformer 架构中提出多级融合。具体来说我们首先在 M-Encoder 的自注意力部分提出一个粗粒度的前缀引导交互模块以预先减少下一步的模态异质性。其次M-Encoder 的 FFN 部分提出了相关感知融合模块以获得细粒度的图像文本表示从而减轻不相关图像/对象的错误敏感性。特别是除了多模态链接预测之外MKGformer 可以通过对特定任务头的简单修改来更广泛地应用于 MRE 和 MNER 任务如图a所示。 MGAT: Multimodal Graph Attention Network for Recommendation 2020 MGAT使用门控注意力机制来关注用户的本地偏好。 MARIO: Modality-Aware Attention and Modality-Preserving Decoders for Multimedia Recommendation 2022 MARIO通过考虑每种方式对每次交互的个体影响来预测用户偏好。因此模型设计了一种模态感知注意力机制来识别各种模态对每次交互的影响并对不同模态进行点乘。项目对在a视觉模态、b文本模态和c交互模态方面的相似性。每个子图中的放大部分显示了相同项目对之间的相似性。结果表明即使对于相同的项目对它们的视觉模态、文本模态和交互模态的相似性也有很大差异。预训练项目嵌入从每种模态获得的相似性与最终项目嵌入通过 MMGCN 和 LATTICE 获得的相似性之间差异的密度函数。预训练嵌入中的模态特定属性未准确保留在最终嵌入中。 MARIO概述由三个组件组成C1基于交互和多模态信息的编码器 (C2) 基于注意力网络的预测器 (C3) 用于模态保存的解码器。首先MARIO获得每个ui的嵌入ui∈Rd和每个vj的多重模态嵌入 ̄ vVj , ̄ vTj, ̄ vINj ∈ Rd 分别对应视觉、文本和交互模态图 4- A。给定 ui 、 ̄ vVj 、 ̄ vTj 和 ̄ vINj MARIO 使用注意力网络来推断每个模态 m 对 ui 和 vj 之间的每次交互的影响 ̄ amij 。然后MARIO 根据模态特定的影响获得 vj 相对于 ui 的个性化嵌入我们用 vij ∈ Rd 表示图 4-(b)。基于 ui 和 vij MARIO 预测每个用户 ui 对每个项目 vj 的偏好 ˆrij 。同时MARIO 使用解码器在其个性化嵌入 vij 中保留每个 vj 的模态特定属性图 4-©。最后MARIO 更新 ui 、 ̄ vVj 、 ̄ v Tj 和 ̄ vINj 旨在共同最小化两个损失图 4-(d)1贝叶斯个性化排名BPR损失用于保留ui 和 vj 的交互信息以及2模态保留MP损失用于保留 vj 相对于视觉和文本模态的模态特定属性。 2.3 联合注意力。基于细粒度融合一些模型设计了组合融合结构希望细粒度特征的融合也能保留全局信息的聚合。 Non-invasive Self-attention for Side Information Fusion in Sequential Recommendation 2021 NOVA 将辅助信息引入顺序推荐。它指出直接将不同的模态特征与普通注意力融合通常效果很小甚至会降低性能。因此它提出了一种具有两个分支的非侵入式注意力机制将id嵌入到一个单独的分支中以在融合过程中保留交互信息。侵入性和非侵入性方法的图示。侵入式方法不可逆地融合各种信息然后将它们输入顺序模型。对于非侵入式方法边信息仅参与注意力矩阵计算而项目信息保存在独立的向量空间中。 BERT4Rec.项目 ID 和位置分别编码为向量然后加在一起作为集成的项目表示。在训练期间项目 ID 被随机屏蔽显示为 [M]以便模型恢复。用于特征融合的侵入式和非侵入式自注意力方式的比较。两者都通过融合函数融合项目相关和行为相关的辅助信息但 NOVA 仅在 Query Key 中融合它们。 NOVA-BERT。每个 NOVA 层都有两个输入项目表示和辅助信息。 NRPA: Neural Recommendation with Personalized Attention 2019 NRPA提供了一个个性化的注意力网络它考虑了用户评论所代表的用户偏好。它利用个性化的词级注意力为每个用户/项目选择评论中更重要的词并依次通过细粒度和粗粒度的融合传递评论信息注意力层。 NRPA 包含两个组件即用于学习评论表示的评论编码器用于从评论中学习用户/项目表示的用户/项目编码器。在评论编码器中我们利用卷积神经网络CNN从单词中提取评论的语义特征然后使用个性化的单词级注意力来为每个用户/项目选择评论中更重要的单词。在用户/项目编码器中我们应用个性化评论级别的注意力通过根据权重聚合所有评论表示来学习用户/项目表示。此外用户/项目的单词和评论级注意力向量由两个多层神经网络生成并以用户/项目 ID 嵌入作为输入。这两个注意力向量可以看作是分层视图即单词和评论级别下每个用户和项目的指标。最后我们将用户和目标项目的表示结合起来并将它们输入因子分解机层以预测用户对该项目投票的评分。 VLSNR:Vision-Linguistics Coordination Time Sequence-aware News Recommendation 2022 VLSNR是顺序推荐的另一个应用——新闻推荐。它可以对用户的临时和长期兴趣进行建模并通过多头注意力和GRU网络实现细粒度和粗粒度的融合。用户对多模态新闻的动态兴趣。蓝色双向箭头代表外部相关性。红色虚线代表内部相关性。 VLSNR视觉语言协调时间序列感知新闻推荐它利用融合模块来处理时间序列中的跨模态信息。我们通过上述时间感知网络建立用户模型通过历史点击和候选者之间的相关性来评估这有助于理解用户的可变兴趣。在我们的方法中我们将图像和标题传输到 CLIP 编码器以学习新闻的表示。这使得文本和图像的语义能够很好地映射在同一特征空间中。然后我们构建了一系列注意力层这有助于检测图像和文本之间更深层的交互。此外我们提出了一个注意力 GRU 网络来学习用户的时间兴趣。 Multi-Order Attentive Ranking Model for Sequential Recommendation 2019 MARank设计了一个多阶注意力层它将注意力和Resnet结合成一个统一的结构来融合信息。 (a) 所提出模型 MARank 的总体架构。 pu 和 E 分别表示检索到的用户嵌入和 Su t−1,n 中先前项目的嵌入。 (b) 多阶注意力网络的图示。由于用于编码用户和项目的残差网络共享相同的架构我们仅详细阐述 ResN etI 的具体结构。 2.4 其他融合方法。一些简单的方法包括平均池化、连接操作和门控机制。它们很少单独出现并且经常与图和注意力机制结合使用。现有工作表明简单的交互如果使用得当不会损害推荐效果并且可以降低模型的复杂度。一些早期模型采用RNN和LSTM等结构试图通过多模态信息对用户时间偏好进行建模。然而随着注意力机制和CNN等深度学习技术的发展这些年它们的使用已经越来越少。一些模型通过线性和非线性层融合多模态特征。 Interest-Related Item Similarity Model Based on Multimodal Data for Top-N Recommendation 2019 吕等人在该处设置线性层以融合文本和视觉特征。在该框架中利用项目潜在因子进行相似度计算并利用多模态特征通过IRN计算兴趣相关性从而综合用户对目标项目的偏好预测概率。使用图像特征计算项目之间的兴趣相关性。以物品ID作为输入输出是两者之间的兴趣相关性。使用多模态特征计算项目之间的兴趣相关性。以物品ID作为输入输出是两者之间的兴趣相关性。视觉特征和文本特征之间的知识共享单元。 MMT-Net: Transfer learning via contextual invariants for one-to-many cross-domain recommendation. 2020 人工标记餐厅数据的三个上下文不变量并通过三层MLP网络进行交互。参考论文 Multimodal Recommender Systems: A Survey

查看全文

http://www.pierceye.com/news/301917/