手机微网站怎么制作的,威特视频网站建设方案,wordpress 分类目录 层级,wordpress首页调用文章多张图片▐ 摘要 链接预测[1,2]是图学习的一种基础任务#xff0c;用于判断图中的两个节点是否可能相连#xff0c;被广泛应用于药物发现、知识图谱补全和在线问答等实际场景。尽管图神经网络#xff08;Graph Neural Network#xff0c;GNN#xff09;在该问题的性能上取得了显著… ▐ 摘要 链接预测[1,2]是图学习的一种基础任务用于判断图中的两个节点是否可能相连被广泛应用于药物发现、知识图谱补全和在线问答等实际场景。尽管图神经网络Graph Neural NetworkGNN在该问题的性能上取得了显著进步但在图结构噪声下的差强人意的鲁棒性仍是当前深度图模型的实际瓶颈。 在鲁棒图学习方面早期工作探索了通过邻近节点的平滑效果来提高GNN在节点标签噪声下的鲁棒性其他方法通过随机移除边或主动选择有信息量的节点或边来达到类似的效果。然而当将这些抗噪声方法应用于带有噪声的链接预测时只能取得非常有限的增益。其原因在于不同于标签噪声这里的图结构噪声是双向的它会自然地同时扰动输入图的拓扑结构和输出端目标边的标签即同时存在noisy inputs和noisy labels如下图1所示且这种双向噪声在现实世界的图数据中是常见的[3]如点击率预测、商品推荐等场景。 于是我们提出一个新的挑战如何处理双边噪声以实现鲁棒的链接预测 图1. 双边图噪声下的链接预测问题. 首先我们进行了一个实证研究揭示了图结构噪声如何双向干扰输入拓扑结构和目标标签导致性能严重下降和表征坍缩。为此我们提出了一个信息论指导原则即鲁棒图信息瓶颈Robust Graph Information BottleneckRGIB以提取可靠的监督信号并避免表征坍缩。与基本的信息瓶颈GIB[4,5]不同的是RGIB进一步解耦并平衡了图拓扑、图标签和图表征之间的相互依赖性为抵抗双边噪声的鲁棒表征构建了新的学习目标。此外我们探索了两种实例RGIB-SSL和RGIB-REP利用自监督学习和数据重参数化方法的优势分别进行隐式和显式的去噪学习。 图2. 基本GIB和本文提出的RGIB 其中A是图结构Y是边标签H是图表征I为互信息. 简言之在本项工作中 我们发现双边噪声会导致严重的表征坍缩和性能下降并且这种负面影响对常见数据集和图神经网络来说是普遍存在的。据我们所知我们是最早研究在双边噪声下链接预测鲁棒性问题的。我们提出了一个通用学习框架RGIB设计了新的表征学习目标以提高图神经网络的鲁棒性。我们基于不同的方法论提出了两种实现方式即RGIB-SSL和RGIB-REP并提出了适应性的设计和理论的分析。RGIB在不修改GNN架构的情况下在3种常用GNN和6个常见数据集上达到了最有效果各种噪声场景下的AUC提升了高达12.9%模型学到的表征分布显著恢复并且对双边噪声更加鲁棒。 接下来将简要地向大家分享我们近期发表在 NeurIPS 2023 上的有关双边噪声下链接预测鲁棒性的研究结果。 本项研究结果是淘天集团阿里妈妈展示外投团队与香港浸会大学韩波老师研究团队自2022年8月开始通过阿里巴巴创新研究计划AIR共同参与“针对大规模在线广告的可信赖深度学习” 项目的研究工作。 论文标题 Combating Bilateral Edge Noise for Robust Link Prediction 论文下载 https://openreview.net/pdf?idePkLqJh5kw 代码链接 https://github.com/tmlr-group/RGIB 本期话题如何从优化的角度来解决数据噪声呢欢迎评论区留言讨论~ 1. 问题定义 为了定量研究双边图结构噪声的影响我们在一系列GNN基准数据集上合理地模拟不同程度的扰动详细说明见如下定义3.1。需要注意的是目前最常采用的数据划分方式是随机地将部分边分为观测部分和预测目标部分因此在训练集中噪声边会被划分到输入和标签中。 双边噪声的生成定义3.1假设存在一组干净的训练数据即观察到的图以及查询边的标签 。通过向原始邻接矩阵添加边噪声同时保持节点特征不变生成了噪声邻接矩阵。类似地通过向标签添加边噪声生成了噪声标签。具体而言给定噪声比例噪声边 () 通过将 A 中的零元素以概率翻转为一来生成。满足和。类似地可生成噪声标签并添加到原始标签中其中 。 基于此定义我们进行实验并发现双边图结构噪声导致GNN的性能显著下降见图4而更大的噪声比率通常导致更严重的性能退化。这意味着经过标准训练的GNN容易受到双边图结构噪声的影响表现出严重的鲁棒性问题。此外双边噪声带来的性能下降远远大于单边输入噪声或标签噪声的影响。 图3. 双边噪声导致显著的性能下降. 接着我们检查GNN学习得到的表征。从图5的uniformity分布可以看出表征在双边噪声的作用下严重坍缩由原本较为均匀的环状分布逐步退化成了几个单点且更高的噪声率会导致更严重的坍缩程度这反映了噪声对于图学习的负面影响也是最终性能下降的重要原因。 图4. 双边噪声造成严重的表征坍缩. 2. 解决方案 2.1 GIB的固有缺陷 为了增强图表征的鲁棒性并避免严重的表征坍缩我们可以利用图信息瓶颈Graph Information BottleneckGIB[4,5] 的信息约束作为图表征优化的目标即 其中超参数用于限制互信息项以避免表征过多捕获来自的与任务无关的信息。基本的GIB可以有效地防御输入扰动然而它在本质上容易受到标签噪声的影响因为它完全地保留了标签噪声的监督所以基本的GIB不能够解决双边噪声问题。 2.2 RGIB优化目标设计 在本工作中我们尝试对GIB进行分析和改进。注意到基本的GIB通过直接约束来降低以处理输入噪声。同样地标签噪声可以隐藏在中但是简单地约束来正则化并不理想因为它与GIB原始方程冲突并且也无法处理内的噪声。因此进一步解耦、和之间的依赖关系至关重要。 注意到噪声可以存在于、和这几个区域。分析上我们知道 其中是一个常数冗余可以被最小化。因此可以近似拆解为和这三个信息项的平衡可以构成双边图结构噪声问题的解决方案。 基于上述分析我们提出了RGIBRobust Graph Information Bottleneck一个新的表征学习目标来平衡、两方面的监督信息即 其中对的约束鼓励更有信息量的表征以防止坍缩并限制其容量以避免过拟合。另外两个互信息项和相互约束后验信息以减轻双边噪声对的负面影响。 需要注意的是互信息项如通常是难以精确计算的。因此我们基于不同的方法论来给出两种实际的RGIB实现即RGIB-SSL和RGIB-REP。其中RGIB-SSL通过自监督正则化显式地优化表征而RGIB-REP通过重参数化隐式地优化表征详细设计如下。 2.3 RGIB实例化 图5. RGIB及其实例RGIB-SSL、RGIB-REP的示意. RGIB-SSL 图表征在监督学习范式下已经退化自然地我们将其修改为自监督学习的范式通过uniformity项鼓励表征提高信息量来缓解坍缩并配合alignment项隐式地捕捉含噪变量之间的可靠关系见图6b即 其中用于平衡一个监督和两个自监督正则化项当时RGIB-SSL可退化为基本的GIB。和是两个增强图和的表征。 RGIB-REP 另一种实现方式是通过重新参数化拓扑空间和标签空间的信息保留干净的信息并丢弃噪声部分。为此我们通过构建隐变量显式地建模和的可靠性以学习一个抗噪声的见图6c即 其中隐变量和是从含噪的和中提取的干净信号。它们的补充部分和 被视为噪声满足和。当和时RGIB-REP可退化为基本的GIB。此外测量了选择样本的监督信号其中分类器以作为输入而不是原始的即。 更多技术细节请见正文。 3. 实验结果 我们提供了多维度的实验结果以验证和理解所提的RGIB方法。 3.1 主要性能对比 如表1所示RGIB在所有6个数据集上在不同噪声比例下都取得了最佳结果特别是在Cora和Citeseer数据集上与次佳方法相比RGIB带来的AUC提升达12.9%。 表1. 双边噪声下实验结果展示. 表2中展示了单边噪声的实验结果。无论是针对单边输入噪声还是标签噪声RGIB仍然超越了所有的基准方法。实验表明双边图结构噪声可以通过统一的学习框架来建模和解决而此前的去噪方法只能用于特定的噪声模式。 表2. 单边噪声下实验结果展示. 3.2 多方面的消融实验及深入讨论 我们进一步进行了诸多消融实验深入探讨了所提方法在不同角度下的表现。 图6. RGIB能显著改善表征分布降低坍缩程度. 表3. RGIB在不同超参schedule下的表现. 图7. RGIB的超参数搜索结果热力图. 表4. RGIB在对抗扰动下的实验结果. 表5. RGIB的消融实验. 除此以外我们提供了更多的可视化及相关实验结果感兴趣的读者请移步原文与附录部分。 4. 算法落地 本文提出的RGIB-SSL方法在展示外投业务中进行了算法落地。在该业务中商家广告被投放于全域互联网媒体流量上。本技术通过在预训练上对用户广告行为特征构图并约束RGIB增强了对点击行为的预估鲁棒性从而提升精排阶段点击率预估的准确性提升投放广告的精准度与质量与在媒体流量出价上的准确度使得大盘营收获得约5%的提升。该技术全面应用于展示外投的几乎所有媒体流量覆盖数十家媒体、近百个流量资源位和数亿用户。 5. 总结及展望 本文研究了带有双边图结构噪声的链接预测问题并发现在这种双边噪声下GNN学习得到的表征严重坍缩。基于这一观察我们引入了鲁棒图信息瓶颈原则RGIB旨在通过解耦和平衡输入、标签和表征之间的互信息来提取可靠信号以增强表征鲁棒性并避免坍缩。展望未来可将RGIB拓展至节点预测Node Classification、整图预测Graph Classification即知识图谱推理Knowledge Graph Reasoning等任务上。此外正交于本文研究的结构噪声Structural Noise图节点特征上的噪声Feature Noise同样值得关注。 ▐ 参考文献 [1] D. Liben-Nowell and J. Kleinberg. The link-prediction problem for social networks. Journal of the American society for information science and technology, 2007. [2] M. Zhang and Y. Chen. Link prediction based on graph neural networks. In NeurIPS, 2018. [3] B. Wu, J. Li, C. Hou, G. Fu, Y. Bian, L. Chen, and J. Huang. Recent advances in reliable deep graph learning: Adversarial attack, inherent noise, and distribution shift. arXiv, 2022. [4] T. Wu, H. Ren, P. Li, and J. Leskovec. Graph information bottleneck. In NeurIPS, 2020. [5] J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He. Graph information bottleneck for subgraph recognition. arXiv, 2020 ▐ 团队介绍 阿里妈妈展示外投团队 阿里妈妈展示外投团队是阿里妈妈核心广告技术团队之一也是阿里妈妈业务增长最快的团队。依托于集团庞大而真实的营销场景以AI技术驱动实现客户商品营销 并承担集团App用户增长等业务需求。我们持续探索人工智能联邦学习深度学习强化学习知识图谱图学习等前沿技术在外投广告和用增方面的落地应用。在创造业务价值的同时团队近几年在ICML、NIPS、WWW、CIKM、SIGIR、KDD、NAACL等领域知名会议上发表过多篇论文。真诚欢迎对广告算法、推荐系统、NLP等方向感兴趣的同学加入我们 一起成长 ✉️ 简历投递邮箱alimama_techservice.alibaba.com // 点击↓阅读原文了解JD详细详情 香港浸会大学可信机器学习和推理组 香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成课题组隶属于理学院计算机系。课题组专攻可信表征学习、基于因果推理的可信学习、可信基础模型等相关的算法理论和系统设计以及在自然科学上的应用具体研究方向和相关成果详见本组Github (https://github.com/tmlr-group)。课题组由政府科研基金以及工业界科研基金资助如香港研究资助局杰出青年学者计划国家自然科学基金面上项目和青年项目以及国内外企业的科研基金。青年教授和资深研究员手把手带GPU计算资源充足长期招收多名博士后研究员、博士生、研究助理和研究实习生。感兴趣的同学请发送个人简历和初步研究计划到邮箱 bhanmlcomp.hkbu.edu.hk。 本期话题如何从优化的角度来解决数据噪声呢欢迎评论区留言讨论~ END 也许你还想看 丨Memorization Discrepancy利用模型动态信息发现累积性注毒攻击 丨CBRL面向ROI约束竞价问题的课程引导贝叶斯强化学习框架 丨基于对抗梯度的探索模型及其在点击预估中的应用 丨一种用于在线广告自动竞价的协作竞争多智能体框架 丨NAACL22 SIGIR22 | 面向 CTR 的外投广告动态创意优化实践 丨基于图的电商语义相关性弱监督学习框架 关注「阿里妈妈技术」了解更多~ 喜欢要“分享”好看要“点赞”哦ღ~ ↓欢迎留言参与讨论↓