当前位置：首页 > news >正文

wordpress重装主题seo推广优势

news 2025/11/14 8:34:14

wordpress重装主题,seo推广优势,搜索引擎推广,百度投诉中心在线申诉Paper1 MFP: Making Full Use of Probability Maps for Interactive Image Segmentation 摘要小结: 最近的交互式分割算法中#xff0c;将先前的概率图作为网络输入#xff0c;以帮助当前分割轮次的预测。然而#xff0c;尽管使用了先前的掩膜#xff0c;概率图中包含的有…Paper1 MFP: Making Full Use of Probability Maps for Interactive Image Segmentation 摘要小结: 最近的交互式分割算法中将先前的概率图作为网络输入以帮助当前分割轮次的预测。然而尽管使用了先前的掩膜概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中为了克服这一局限性我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP该算法试图充分利用概率图。首先我们调节先前的概率图以增强它们对用户指定对象的表示。然后我们将调节后的概率图作为附加输入送入分割网络。我们基于ResNet-34、HRNet-18和ViT-B骨干网络实现了提出的MFP算法并在各种数据集上广泛评估了其性能。结果显示MFP在相同骨干网络下明显优于现有算法。源代码可在https://github.com/cwlee00/MFP获取。概述主要内容这段话介绍了交互式分割算法中的一个新方法MFP它旨在更好地利用先前的概率图来提高图像分割的准确性。作者提出了一种方法来调节概率图并将它们作为输入然后展示了MFP算法在多个数据集上的性能并指出它优于现有算法。 Paper2 Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person Views 摘要小结: 随着可穿戴摄像头的普及一个重要的问题出现了如何从传统静态摄像头的视角识别出摄像头的佩戴者。第一人称以自我为中心和第三人称以外在为中心的摄像头视角之间的巨大差异使得这一任务颇具挑战性。我们提出了PersonEnvironmentNetPEN框架旨在整合两个视角中个体信息和从背景环境中推断出的几何线索。为了促进这一方向的研究我们还介绍了TF2023这是一个新颖的数据集包含同步的第一人称和第三人称视角以及摄像头佩戴者的掩码和将这些掩码与相应第一人称视角相关联的标签。此外我们提出了一种新颖的定量指标旨在测量模型理解两种视角之间关系的能力。实验结果表明PEN优于现有方法。代码和数据集可在https://github.com/ziweizhao1993/PEN找到。主要内容概述这段话介绍了随着可穿戴摄像头流行的一个挑战如何从静态摄像头视角识别佩戴者。提出了PersonEnvironmentNet框架来解决这一问题并介绍了TF2023数据集来支持研究。还提出了一个定量指标来衡量模型理解视角关系的能力实验显示PEN表现优于现有方法。 Paper3 Bi-level Learning of Task-Specific Decoders for Joint Registration and One-Shot Medical Image Segmentation 摘要小结: 一次性医学图像分割MIS旨在应对昂贵、耗时且固有的人类偏见注释问题。解决一次性MIS的一种流行方法是联合配准和分割JRS该方法使用共享编码器主要探索标记数据和无标记数据之间的体素级对应关系以实现更好的分割。然而这种方法忽略了分割和配准任务特定解码器之间的潜在联系导致训练不稳定。在本文中我们提出了一种新颖的针对一次性MIS的双层次学习任务特定解码器采用预训练的固定共享编码器这被证明比现有没有固定共享编码器范式的JRS更快地适应全新数据集。具体来说我们引入了一种双层次优化训练策略将配准视为主要目标将分割视为通过利用任务间耦合依赖性而可学习到的约束。此外我们设计了一种外观一致性约束策略该策略学习反向变换生成用于执行数据增强的伪标记数据而不是使用标记图像以避免因无标记数据和标记数据之间的不一致风格导致性能下降。在ABIDE、ADNI和PPMI数据集上的大脑MRI任务上的广泛实验表明所提出的Bi-JROS在分割和配准任务上均优于现有的一次性MIS方法。代码将可在https://github.com/Coradlut/Bi-JROS提供。主要内容概述这段话介绍了一种针对一次性医学图像分割MIS的新方法即双层次学习任务特定解码器。该方法使用预训练的固定共享编码器并通过双层次优化训练策略来提高分割和配准的稳定性。此外它还采用了外观一致性约束策略来避免性能下降。实验证明该方法在分割和配准任务上优于现有的一次性MIS方法。 Paper4 PH-Net: Semi-Supervised Breast Lesion Segmentation via Patch-wise Hardness 摘要小结: 我们提出了一种新颖的半监督框架用于乳腺超声BUS图像分割这是一个非常具有挑战性的任务原因包括1乳腺病变的大小和形状变化很大2BUS图像中大量的斑点噪声和伪影导致边界极其模糊。尽管现有模型在这个任务上取得了一定的进展但我们认为目前进一步改进的主要瓶颈是我们仍无法很好地处理困难情况。我们的框架旨在突破这一瓶颈包括两个创新组件一个自适应补丁增强方案和一个困难补丁对比学习模块。我们首先通过计算每个补丁的平均熵来识别困难补丁然后在执行随机补丁cutmix时屏蔽困难补丁以防止它们被裁剪掉。这样的方案能够防止在强增强下困难区域训练不足。我们进一步开发了一种新的困难补丁对比学习算法通过在困难补丁的像素上施加额外对比引导模型关注困难区域从而进一步提高困难情况的分割性能。以下主要内容概述翻译我们提出了一种针对乳腺超声图像分割的新型半监督框架。这是一个挑战性任务因为病变的变化和图像噪声。我们认为当前的瓶颈是无法处理困难案例。我们的框架包括两个创新部分旨在解决这个问题。概述这段话介绍了一种新的半监督学习框架用于分割乳腺超声图像。这个任务很困难框架包括了两个关键部分自适应补丁增强和困难补丁对比学习模块。这些部分帮助提高对困难案例的处理并且在两个知名数据集上展示了优于现有方法的性能。 Paper5 BSNet: Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation 摘要小结: 3D实例分割3DIS是一项关键任务但在全监督设置中点级别的注释工作繁重。因此使用边界框bboxes作为注释显示出巨大的潜力。当前主流的方法是一个两步过程涉及从边界框注释生成伪标签并使用伪标签训练3DIS网络。然而由于边界框之间存在交叉不是每个点都有确定的实例标签特别是在重叠区域。为了生成更高质量的伪标签并实现更精确的弱监督3DIS结果我们提出了Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation (BSNet)该方案设计了一种新颖的伪标签器称为Simulation-assisted Transformer。以下是对主要内容概述翻译 3D实例分割3DIS是一项重要任务但在全监督环境下点级注释非常繁琐。使用边界框bboxes作为注释的方法显示出很大的潜力。目前主流的方法分为两步首先从边界框注释生成伪标签然后使用这些伪标签训练3DIS网络。但是由于边界框之间的交集特别是在重叠区域不是每个点都有明确的实例标签。为了生成更高质量的伪标签并实现更精确的弱监督3DIS结果我们提出了BSNet其中包含了一种新颖的伪标签器。概述主要内容是作者提出了一种新的方法BSNet以应对3DIS中的挑战。这个方法使用边界框作为注释并通过Simulation-assisted Transformer来生成更高质量的伪标签。该方法特别关注重叠区域的问题并通过两个主要组件来实现这一目标包括Simulation-assisted Mean Teacher和Local-Global Aware Attention。实验结果在ScanNetV2和S3DIS数据集上验证了其设计的优越性。 Paper6 Prompt-Driven Referring Image Segmentation with Instance Contrasting 摘要小结: 指代图像分割RIS的目标是对自然语言描述的目标实体进行分割。最近大规模预训练模型如CLIP和SAM已成功应用于许多下游任务但由于任务间的差异它们并不完全适用于RIS任务。在本文中我们提出了一种新的基于提示的框架Prompt-RIS它将CLIP和SAM端到端连接起来并通过提示学习将它们的丰富知识和强大能力转移到RIS任务上。为了使CLIP适应像素级任务我们首先提出了一种跨模态提示方法通过进行双向提示获得更全面的视觉-语言交互和细粒度的文本到像素对齐。然后经过提示调整的CLIP为SAM生成掩膜点和平文提示以生成更准确的掩膜预测。此外我们进一步提出了实例对比学习以提高模型对不同实例的区分能力和对描述同一实例的多种语言的鲁棒性。大量实验表明我们的方法在通用和开放词汇设置下的性能均优于现有最佳方法。主要内容概述本文介绍了一种名为Prompt-RIS的新框架用于指代图像分割任务。该框架将CLIP和SAM模型相结合通过提示学习将它们的能力转移到RIS任务上。文章还提出了一种跨模态提示方法和实例对比学习以提高模型在分割任务中的性能。实验证明该方法在通用和开放词汇设置下均优于现有最佳方法。 Paper7 Diversified and Personalized Multi-rater Medical Image Segmentation 摘要小结: 由于内在数据不确定性如医学扫描中模糊的边界以及不同观察者之间的专业知识和偏好差异注释不确定性已经成为训练基于深度学习的医学图像分割模型的主要障碍。为了解决这个问题常见的做法是从不同专家那里收集多个注释从而设立多评分者医学图像分割。现有工作旨在将不同注释合并为“地面真相”这在许多医学背景下往往是无法实现的或者生成多样化的结果或产生与个人专家评分者相对应的个性化结果。在这里我们为多评分者医学图像分割提出了一个更为雄心勃勃的目标即获得多样化和个性化的结果。具体来说我们提出了一个名为D-Persona的两阶段框架首先是多样化然后是个性化。以下是主要内容概述翻译注释不确定性由于医学扫描中模糊边界等固有数据不确定性以及不同观察者专业知识和偏好的差异已成为训练基于深度学习的医学图像分割模型的主要障碍。为了应对这一问题通常的做法是收集不同专家的多个注释从而进行多评分者医学图像分割。现有研究要么将不同注释合并为“地面真相”这在许多医学情境中难以实现要么生成多样化结果或产生与个人专家评分者的个性化结果。本文提出了一个更为大胆的多评分者医学图像分割目标即同时获得多样化和个性化结果。具体来说主要内容概述文章提出D-Persona两阶段框架。阶段I利用多个给定注释训练一个概率U-Net模型以改善预测多样性。在阶段II设计多个基于注意力的投影头以适应性地查询共享潜在空间中的相应专家提示并进行个性化医学图像分割。文章在内部鼻咽癌数据集和公共肺结节数据集即LIDC-IDRI上评估了模型。实验证明D-Persona可以同时提供多样化和个性化结果并为多评分者医学图像分割实现新的SOTA性能。代码将在GitHub上发布。 Paper8 OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive Learning 摘要小结: 为了全面理解3D场景需要一种通用的3D分割方法该方法能够在不限制对象数量或类别的情况下分割不同对象同时反映固有的层次结构。为此我们提出了OmniSeg3D这是一种全能的分割方法旨在一次性分割3D空间中的所有事物。关键洞察是将多视图不一致的2D分割提升到一个一致性的3D特征场通过一个层次对比学习框架实现这一过程分为两步。首先我们设计了一种新颖的层次表示基于类别无关的2D分割来建模像素之间的多级关系。其次从3D特征场渲染的图像特征在不同层次上进行聚类根据不同层次之间的层次关系可以进一步拉近或推开。这个框架解决了不一致2D分割带来的挑战产生了一个全局一致性的3D特征场进一步实现了层次分割、多对象选择和全局离散化。以下是主要内容概述翻译内容为了实现对3D场景的整体理解我们需要一种通用的3D分割方法能够无限制地分割多种对象并且反映出内在的层次结构。概述文章介绍了OmniSeg3D这是一种新的分割方法能够一次性处理3D空间中的所有分割。它通过层次对比学习框架实现并且有效处理了以下内容新颖的层次表示设计。不同层次上的特征聚类。全局一致性的3D特征场生成。实验证明该方法在高质量的3D分割和精确的层次结构理解方面是有效的且提供了一个图形用户界面便于灵活交互。 Paper9 PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation 摘要小结: 理解肾脏病理学的解剖结构对于推进疾病诊断、治疗评估和临床研究至关重要。复杂的肾脏系统包括多个层面的各种组成部分包括区域皮质、髓质、功能单位肾小球、肾小管和细胞肾小球中的足细胞、系膜细胞。先前的研究大多忽视了临床知识中各对象之间复杂的空间相互关系。在这项研究中我们引入了一种新的通用命题学习方法称为全景肾脏病理分割PrPSeg旨在通过整合肾脏解剖学的广泛知识全面分割肾脏内的全景结构。在本文中我们提出1设计一个全面的通用命题矩阵用于肾脏病理学便于将分类和空间关系融入分割过程2一种基于标记的动态头单网络架构改进了部分标签图像分割并具备未来数据扩展的能力3一个解剖损失函数量化肾脏内各对象之间的关系。主要内容概述这段话强调了理解肾脏病理学解剖结构的重要性并介绍了一项新的研究方法——全景肾脏病理分割PrPSeg。该方法旨在全面分割肾脏结构通过整合肾脏解剖学知识设计了一种通用命题矩阵并提出了新的网络架构和损失函数来改进图像分割和量化肾脏内对象间的关系。 Paper10 USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation 摘要小结: 开放词汇图像分割任务涉及将图像分割成具有语义意义的片段并用灵活的文本定义的类别对它们进行分类。最近的基于视觉的基础模型如Segment Anything Model (SAM)在生成类不可知的图像片段方面表现出卓越的性能。目前开放词汇图像分割的主要挑战在于将这些片段准确分类到文本定义的类别中。在本文中我们介绍了通用片段嵌入USE框架来解决这一挑战。该框架由两个关键组成部分构成1一个数据管道旨在高效地整理大量不同粒度的片段-文本对2一个通用片段嵌入模型能够精确地将片段分类到广泛的文本定义的类别中。USE模型不仅可以帮助开放词汇图像分割还可以促进其他下游任务例如查询和排序。通过在语义分割和部分分割基准上进行全面的实验研究我们证明了USE框架优于现有的开放词汇分割方法。主要内容概述这段话讨论了开放词汇图像分割的任务并指出了当前的主要挑战。随后引入了Universal Segment Embedding (USE)框架来应对这些挑战。框架包括数据管道和片段嵌入模型能够进行精确分类。此外USE模型对其他下游任务也有帮助并通过实验证明了其优越性。 Paper11 OMG-Seg: Is One Model Good Enough For All Segmentation? 摘要小结: 在这项工作中我们解决了各种分割任务这些任务传统上是由不同的或部分统一的模型来处理的。我们提出了OMG-Seg这是一个足够好的单一模型能够高效且有效地处理所有分割任务包括图像语义、实例和全景分割以及它们的视频对应任务还包括开放词汇设置、提示驱动的交互式分割如SAM和视频对象分割。据我们所知这是第一个在一个模型中处理所有这些任务并取得满意性能的模型。我们展示了OMG-Seg一个基于变压器的编码器-解码器架构具有特定任务的查询和输出可以支持超过十个不同的分割任务同时在各种任务和数据集上显著降低计算和参数开销。我们严格评估了共同训练过程中的任务间影响和相关性。代码和模型可在https://github.com/lxtGH/OMG-Seg获取。主要内容概述这段话介绍了OMG-Seg模型这是一个能够处理多种分割任务的单一模型。它包括图像和视频分割的各种任务并且是首个在一个模型中实现这一点的。模型基于变压器架构并能有效减少计算和参数开销。作者还进行了严格的评估并提供了一个链接来获取代码和模型。 Paper12 MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation 摘要小结: 开放词汇的3D实例分割是前沿技术因为它能够在没有预定义类别的情况下分割3D实例。然而由于有限的标注3D数据3D的进展落后于其2D对应物。为了解决这一问题最近的工作首先通过2D模型生成2D开放词汇掩码然后根据相邻两帧之间计算的指标将它们合并成3D实例。与这些局部指标相比我们提出了一种新颖的指标——视图一致性率以提高多视图观测的利用率。关键洞察是如果大量来自不同视图的其他2D掩码同时包含这两个掩码那么两个2D掩码应被视为同一3D实例的一部分。使用这个指标作为边权重我们构建了一个全局掩码图其中每个掩码都是一个节点。通过迭代聚类显示高视图一致性的掩码我们生成了一系列代表不同3D实例的簇。值得注意的是我们的模型是无需训练的。通过对公开数据集包括ScanNet、ScanNet200和MatterPort3D的广泛实验我们证明了我们的方法在开放词汇3D实例分割中达到了最先进的性能。主要内容概述这段话主要讨论了开放词汇3D实例分割的一项新技术。由于3D数据的限制这项技术进展缓慢但研究者提出了一种新方法通过视图一致性率来提高多视图观测的利用。他们使用这一指标构建全局掩码图并通过聚类生成代表不同3D实例的簇。此外该模型无需训练且在多个数据集上展示了最先进的性能。 Paper13 Addressing Background Context Bias in Few-Shot Segmentation through Iterative Modulation 暂无整理 Paper14 pix2gestalt: Amodal Segmentation by Synthesizing Wholes 摘要小结: 我们介绍了pix2gestalt这是一个用于零样本非模态分割的框架它能够学习估计仅在遮挡物后面部分可见的整体对象的形状和外观。通过利用大规模扩散模型并将它们的表示转移到这个任务上我们学习了一个条件扩散模型用于在具有挑战性的零样本情况下重建整个对象包括打破自然和物理先验的例子如艺术。作为训练数据我们使用了一个合成的数据集其中包含遮挡对象及其完整对应物。实验表明我们的方法在既定基准上优于监督基线。此外我们的模型还可以显著提高存在遮挡时现有对象识别和3D重建方法的性能。概述主要内容这段话介绍了名为pix2gestalt的框架该框架用于零样本非模态分割。它通过学习估计部分可见对象的形状和外观来工作。它利用了大规模扩散模型并在合成数据集上进行训练。实验证明该方法在基准测试中表现优异并能提高存在遮挡时的其他方法性能。 Paper15 Mudslide: A Universal Nuclear Instance Segmentation Method 摘要小结: 核实例分割在病理图像分析中起着至关重要的作用。主要挑战来自于精确分割密集重叠实例的困难和精确掩膜级别注释的高成本。现有的全监督核实例分割方法如基于边界的方法在捕捉重叠实例之间的差异方面存在困难因此在密集分布的模糊区域中失败。它们也面临着向点监督过渡的挑战那里的注释简单而有效。受自然泥石流的启发我们提出了一种通用方法称为Mudslide它使用简单的表示来表征不同实例之间的差异并且可以很容易地从全监督扩展到点监督。具体内容如下翻译核实例分割在病理图像分析中起着至关重要的作用。主要的挑战来自于精确分割紧密重叠的实例以及精确掩膜级别注释的高成本。现有的全监督核实例分割方法例如基于边界的方法在捕捉重叠实例之间的差异方面存在困难因此在密集分布的模糊区域中往往失败。它们在过渡到点监督时也面临挑战那里的注释简单而有效。受自然泥石流的启发我们提出了一种名为Mudslide的通用方法它使用简单的表示来区分不同实例并且可以轻松地从全监督扩展到点监督。概述这段话的主要内容是核实例分割在病理图像分析中很重要。面临的主要挑战包括分割重叠实例和注释成本。现有方法在处理这些问题时存在困难。提出了一种名为Mudslide的新方法受泥石流启发能够更好地处理这些挑战并可以从全监督扩展到点监督。 Paper16 COCONut: Modernizing COCO Segmentation 摘要小结: 在近几十年中视觉识别领域取得了显著的进步部分得益于数据集基准的改进。特别是COCO基准的建立推动了现代检测和分割系统的发展。然而COCO分割基准在过去十年中的改进相对较慢。最初它配备了用于事物实例的粗略多边形注释后来逐渐增加了用于物质区域的粗略超像素注释这些注释随后通过启发式方法合并以产生全景分割注释。这些由不同评分小组执行的注释不仅导致了粗略的分割掩模而且导致了不同分割类型之间的不一致性。在这项研究中我们对COCO分割注释进行了全面的重新评估。这段话的主要内容 COCO分割基准改进缓慢存在注释问题。研究对COCO分割注释进行了重新评估。引入了COCONut这是一个新的数据集。以下是翻译在过去几十年中视觉界见证了视觉识别方面的显著进步部分原因是数据集基准的进步。特别是建立的COCO基准推动了现代检测和分割系统的发展。然而COCO分割基准在过去的十年中改进相对较慢。最初它配备了用于事物实例的粗略多边形注释并逐渐增加了用于物质区域的粗略超像素注释这些注释随后被启发式合并以产生全景分割注释。这些由不同评分组执行的解释不仅导致了粗略的分割掩模还导致了分割类型之间的一致性。在这项研究中我们对COCO分割注释进行了全面的重新评估。通过提高注释质量和扩展数据集我们涵盖了383K图像和超过5.18M的全景掩模我们引入了COCONut即COCO Next Universal segmenTation数据集。COCONut统一了语义实例和全景分割的分割注释并通过精心制作的高质量掩模建立了强大的所有分割任务的基准。据我们所知COCONut是首个经人类评分员验证的大规模通用分割数据集。我们预计COCONut的发布将显著提高社区评估新型神经网络进展的能力。 Paper17 MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation 摘要小结: 我们提出了一种新颖的超声心动图视频分割模型通过将SAM适应于医学视频以解决超声视频分割中存在的一些长期挑战包括1大量斑点噪声和伪影2边界极其模糊3目标物体在帧间存在较大变化。我们模型的核心技术是一种时间感知和抗噪声提示方案。具体来说我们使用一个包含空间和时间信息的时空记忆来提示当前帧的分割因此将提出的模型称为MemSAM。在提示记忆时依次提示携带时间线索的视频分割帧逐帧。同时随着记忆提示传播高级特征它避免了由掩膜传播引起误识别的问题并提高了表示一致性。为了解决斑点噪声的挑战我们进一步提出了一种记忆强化机制利用预测的掩膜在存储之前提高记忆的质量。我们在两个公共数据集上广泛评估了我们的方法并与现有模型相比展示了最先进的性能。特别是我们的模型在有限注释的情况下实现了与完全监督方法的可比性能。代码可在 https://github.com/dengxl0520/MemSAM. 获得。概述这段话主要介绍了作者提出的一种新的超声心动图视频分割模型MemSAM。该模型通过适应SAM到医学视频解决了超声视频分割中的几个挑战。模型使用时间感知和抗噪声提示方案以及提出了一种记忆强化机制。研究在公共数据集上展示了优异性能并与完全监督方法相比表现良好。代码已公开。 Paper18 UniVS: Unified and Universal Video Segmentation with Prompts as Queries 摘要小结: 尽管在统一图像分割IS方面取得了最近的进展但开发一个统一的视频分割VS模型仍然是一个挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跟踪它们在连续帧之间而提示引导的VS任务需要在整个视频中用视觉/文本提示重新识别目标这使得用相同的架构处理不同的任务变得困难。我们试图解决这些问题并提出了一种新颖的统一VS架构名为UniVS通过使用提示作为查询。UniVS通过平均目标从前一帧的提示特征作为其初始查询来显式解码掩码并在掩码解码器中引入了一个目标提示交叉注意力层以整合内存池中的提示特征。通过将先前帧中实体的预测掩码作为它们的视觉提示UniVS将不同的VS任务转换为提示引导的目标分割消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务而且自然地实现了通用训练和测试确保在不同情况下都有强大的性能。UniVS在涵盖视频实例、语义、全景、对象和指称分割任务的10个具有挑战性的VS基准上显示了性能和通用性之间的良好平衡。代码可在https://github.com/MinghanLi/UniVS找到。主要内容概述这段话介绍了开发统一视频分割VS模型的挑战并提出了一种新的统一VS架构——UniVS。UniVS使用提示作为查询来处理不同的VS任务通过在掩码解码器中引入目标提示交叉注意力层来提高性能。该方法能够统一不同的VS任务并实现在不同情况下的稳健性能。作者在多个VS基准上验证了UniVS的性能和通用性。 Paper19 Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation 摘要小结: 少量样本分割仍然具有挑战性这是由于未见类别的标签信息存在局限性。大多数以前的方法依赖于从冻结的视觉编码器中提取高级特征图以计算像素级的相似性作为解码器的主要先验指导。然而这种先验表示由于这些高级特征图具有明显的类别偏差因此存在粗糙的粒度和对新类别的泛化能力差的问题。在这项工作中我们提议用视觉-文本对齐能力取代视觉先验表示以捕捉更可靠的指导并增强模型的泛化能力。具体来说我们设计了两类无需训练的先验信息生成策略试图利用对比语言-图像预训练模型CLIP的语义对齐能力来定位目标类别。此外为了获得更准确的先验指导我们构建了注意力图的高阶关系并利用它来细化初始先验信息。在PASCAL-5i和COCO-20i数据集上的实验表明我们的方法获得了明显的实质性改进并达到了新的最先进性能。代码可在项目网站上获取。主要内容概述这段话讨论了少量样本分割的挑战并提出了一种新的方法来提高这一领域的性能。主要挑战是未见类别的标签信息有限。传统方法使用高级特征图作为先验指导但这些方法存在泛化问题。文中提出用视觉-文本对齐能力替代传统方法并设计了两种无需训练的先验信息生成策略。此外通过构建注意力图的高阶关系来细化先验信息。实验结果显示该方法显著提高了性能并达到了新的最先进水平。 Paper20 Mask Grounding for Referring Image Segmentation 摘要小结: 参考图像分割RIS是一项具有挑战性的任务它要求算法对由自由形式语言表达式所指的对象进行分割。尽管近年来取得了显著进展但大多数最先进SOTA的方法在像素和单词级别上仍然存在相当大的语言-图像模态差距。翻译指代图像分割RIS是一项具有挑战性的任务它需要算法对由自由形式语言表达式指代的目标进行分割。尽管近年来取得了显著的进展但大多数最先进SOTA的方法在像素和单词级别上仍然存在相当大的语言-图像模态差距。这些方法通常1依赖于句子级别的语言特征进行语言-图像对齐并且2缺乏对细粒度视觉接地明确的训练监督。因此它们在视觉和语言特征之间表现出较弱的对象级别对应关系。在没有良好接地特征的情况下先前的方法很难理解需要在对多个对象之间的关系进行强烈推理的复杂表达尤其是处理很少使用或模糊的从句时。为了应对这一挑战我们引入了一种新颖的Mask Grounding辅助任务通过显式教导模型学习被遮蔽文本标记与其匹配视觉对象之间的细粒度对应显著提高了语言特征内的视觉接地。Mask Grounding可以直接用于之前的RIS方法并一致带来改进。以下是主要内容概述 RIS任务的挑战和现有方法的不足。引入Mask Grounding和其他技术来解决这些问题。MagNet架构的表现优于先前技术。 Paper21 ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting 摘要小结: 这段话的中文翻译如下在医学图像分析中的长尾分布问题反映了常见病症的高发生率以及罕见病症的低发生率这对开发一个能够识别训练过程中未遇到的罕见或新颖肿瘤类别的统一模型构成了重大挑战。在本文中我们提出了一种新的零样本泛肿瘤分割框架ZePT该框架基于查询解耦和自我提示来分割训练集之外的未见肿瘤类别。ZePT将对象查询解耦为两个子集并分两个阶段对它们进行训练。最初它通过对象感知的特征分组策略学习一组基本查询以进行器官分割该策略收集器官级别的视觉特征。随后它细化了另一组高级查询这些查询专注于针对未见肿瘤分割的自动生成的视觉提示。此外我们在特征层面引入了查询-知识对齐以增强每个查询的判别表示和泛化能力。在各种肿瘤分割任务上的广泛实验证明了ZePT的性能优势其超越了之前的对应技术并证明了在现实世界设置中进行零样本肿瘤分割的潜力。主要内容概述这段话主要讨论了医学图像分析中的长尾分布问题并提出了一个新的解决方案——零样本泛肿瘤分割框架ZePT。ZePT通过查询解耦和自我提示来处理训练集之外的肿瘤类别。它分两个阶段训练查询并通过特征分组策略和查询-知识对齐提高性能。实验表明ZePT在肿瘤分割任务上具有优越的性能。 Paper22 Multi-Space Alignments Towards Universal LiDAR Segmentation 摘要小结: 这段话的中文翻译如下一个具有强大鲁棒性和泛化能力的统一且多功能的激光雷达分割模型对于安全的自主驾驶感知是理想的。本研究提出了M3Net这是一种独一无二的框架能够以通用方式完成多任务、多数据集、多模态激光雷达分割仅使用一组参数。为了更好地利用数据量和多样性我们首先结合了不同类型传感器在不同场景下获取的大规模驾驶数据集然后在训练过程中在数据、特征和标签三个空间中进行对齐。因此M3Net能够驯服异构数据用于训练最先进的激光雷达分割模型。在十二个激光雷达分割数据集上的大量实验验证了我们的有效性。值得注意的是使用共享的一组参数M3Net在SemanticKITTI、nuScenes和Waymo Open的官方基准上分别取得了75.1%、83.1%和72.4%的mIoU分数。主要内容概述这段话介绍了一种名为M3Net的激光雷达分割模型该模型具有统一、多功能、鲁棒性强和泛化能力强的特点。M3Net能够使用一组参数处理多任务、多数据集和多模态的激光雷达分割。通过结合不同传感器和场景的大规模数据集并在训练中进行多空间对齐M3Net能有效处理异构数据。实验证明该模型在多个激光雷达分割数据集上取得了优异的效果。 Paper23 Hierarchical Histogram Threshold Segmentation - Auto-terminating High-detail Oversegmentation 摘要小结: 超级像素在图像处理中起着至关重要的作用它通过将图像分割成具有相似视觉属性的像素聚类来实现。这有助于后续的图像处理任务相比于操纵单个像素它提供了计算上的优势。近年来虽然出现了许多过分割技术但许多技术依赖于预定义的初始化和终止准则。在本文中引入了一种新的自顶向下超级像素分割算法称为层次直方图阈值分割HHTS。它消除了初始化的需求并实现了自动终止优于现有技术的边界回忆。这是通过迭代地将单个像素段分割为前景和背景并在多个颜色通道上应用强度阈值实现的。底层迭代过程构建了一个超级像素层次结构该结构适应局部细节分布直至颜色信息耗尽。实验结果表明在BSDS500和NYUV2数据集上提出的方法在边界附着性方面具有优越性同时保持了有竞争力的运行时间性能。以下是主要内容概述超级像素在图像处理中的作用。现有技术的缺点如依赖预定义初始化和终止准则。介绍了一种新的分割算法HHTS。HHTS如何实现自动终止并优于边界回忆。实验结果证明了HHTS在边界附着性和运行时间性能方面的优势。HHTS在细化基于机器学习的语义分割掩模中的应用。以下是翻译超级像素在将图像分割成具有相似视觉属性的像素聚类方面发挥着关键作用这有助于后续的图像处理任务并提供了比操纵单个像素更优的计算优势。近年来尽管出现了许多过分割技术但许多依赖预定义的初始化和终止准则。本文介绍了一种新的自顶向下超级像素分割算法——层次直方图阈值分割HHTS。它无需初始化并实现自动终止在边界回忆方面优于现有技术。这是通过在多个颜色通道上迭代地将单个像素段分割为前景和背景并应用强度阈值来实现的。迭代过程构建了一个适应局部细节分布的超级像素层次结构直到颜色信息耗尽。实验结果显示在BSDS500和NYUV2数据集上该方法在边界附着性方面具有优势同时保持了竞争性的运行时间性能。此外还介绍了HHTS在细化基于Segment Anything Foundation Model (SAM)的机器学习语义分割掩模中的应用。 Paper24 Rethinking Interactive Image Segmentation with Low Latency High Quality and Diverse Prompts 摘要小结: 互动式图像分割的目标是通过视觉或语言提示来描绘图像中的特定区域。现有的专业模型和通用模型在实现具有多样化提示的低延迟和高质量互动分割方面仍然具有挑战性。专业模型由于其有限的提示和特定任务的设计在每次更新提示时都因图像和视觉提示的联合编码而必须重新计算图像从而体验高延迟。以Segment Anything Model (SAM)为代表的通用模型最近在提示多样性和效率方面取得了显著成果将图像分割提升到了基础模型时代。然而对于高质量分割SAM仍然落后于最先进的专业模型尽管SAM接受了100倍以上的分割掩模训练。在这项工作中我们深入探讨了这两种模型之间的架构差异。我们观察到视觉提示的密集表示和融合是专业模型高分割质量的关键设计选择。因此我们将这种密集设计重新引入通用模型中以促进高质量通用模型的发展。为了密集表示多样化的视觉提示我们提议使用一个密集图来捕捉五种类型点击、框、多边形、涂鸦和掩模。因此我们提出了SegNext这是一种下一代互动分割方法提供低延迟、高质量和多样化的提示支持。我们的方法在HQSeg-44K和DAVIS上定量和定性都超过了当前最先进的方法。主要内容概述这段话主要讨论了互动式图像分割的目标和现有模型的挑战。它指出了专业模型和通用模型之间的差异并提出了一种新的方法SegNext旨在提供低延迟、高质量和多样化的提示支持同时超越了现有的最先进方法。 Paper25 Progress-Aware Online Action Segmentation for Egocentric Procedural Task Videos 摘要小结: 我们解决了以自我为中心的程序性任务视频在线动作分割的问题。尽管之前的研究主要集中在线下动作分割即整个视频在训练和推理阶段都是可用的但向在线动作分割的转变对于AR/VR任务助手等实际应用至关重要。值得注意的是将离线训练的模型直接应用于在线推理会导致性能显著下降这是由于训练和推理之间的不一致性。我们提出了一个在线动作分割框架首先修改现有架构使它们具有因果关系。其次我们开发了一个新颖的动作进度预测模块以动态估计正在进行的动作的进度并使用它们来优化因果关系动作分割的预测。第三我们提议从训练视频中学习任务图并利用它们获得平滑且符合程序一致性的分割。通过结合进度和任务图与因果关系动作分割我们的框架有效地解决了在线动作分割中的预测不确定性和过分割问题并在三个以自我为中心的数据集上取得了显著的改进。主要内容概述这段话主要讨论了作者提出的在线动作分割框架用于处理以自我为中心的程序性任务视频。该框架解决了从离线到在线分割的性能下降问题并通过三个关键点进行了改进1) 修改架构以实现因果关系2) 开发动作进度预测模块3) 学习任务图以获得更一致的分割。最终该框架在多个数据集上取得了显著改进。 Paper26 Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance 摘要小结: 我们介绍了Open3DIS这是一种新颖的解决方案旨在解决3D场景中的开放词汇实例分割问题。3D环境中的物体具有不同的形状、尺度和颜色这使得精确的实例级识别成为一项具有挑战性的任务。在开放词汇场景理解方面的最新进展通过使用类不可知的3D实例提案网络进行物体定位和为每个3D掩模学习可查询特征在这个领域取得了重大突破。尽管这些方法产生了高质量的实例提案但它们在识别小尺度以及几何上模糊的物体方面存在困难。翻译我们引入了Open3DIS这是一种新颖的解决方案旨在应对3D场景中的开放词汇实例分割问题。3D环境中的物体展现出多样的形状、尺度和颜色使得精确的实例级识别变得极具挑战性。最近在开放词汇场景理解方面的进展通过使用类不可知的3D实例提案网络进行物体定位并为每个3D掩模学习可查询特征已在此领域取得了显著进展。然而这些方法在处理小尺度及几何上模糊的物体时仍存在困难。主要内容概述 Open3DIS是一种新的解决方案。解决的问题是3D场景中的开放词汇实例分割。3D物体具有多样性使得实例级识别困难。现有方法在处理小尺度物体时遇到挑战。我们的方法引入了新模块能够提高物体提案质量。这些提案与3D类不可知实例提案结合涵盖现实世界中的广泛物体。实验在三个著名数据集上进行显示了性能的显著提升。 Paper27 ShapeMatcher: Self-Supervised Joint Shape Canonicalization Segmentation Retrieval and Deformation 摘要小结: 在这篇文章中我们介绍了ShapeMatcher一个统一的自监督学习框架用于联合形状规范化、分割、检索和变形。给定一个任意姿态下的部分可观察对象我们首先通过提取点态仿射不变特征来规范化对象将对象的结构与其姿态和大小分离。然后利用这些学习到的特征来预测语义一致的部件分割和相应的部件中心。接下来我们的轻量级检索模块将每个部件内的特征聚合成其检索令牌并将所有令牌与预建立数据库中的源形状进行比较以找到几何上最相似的形状。最后在变形模块中我们通过利用部件中心引导的神经笼变形使检索到的形状紧密拟合输入对象。ShapeMaker的关键见解是同时训练四个高度相关的过程规范化、分割、检索和变形利用跨任务一致性损失进行相互监督。以下主要内容概述翻译内容本文介绍了ShapeMatcher框架。主要内容框架是自监督的用于形状的多个任务包括规范化、分割、检索和变形。它通过实验展示了超越竞争对手的表现。以下是翻译本文中我们提出了ShapeMatcher一个统一的自我监督学习框架用于联合形状规范化、分割、检索和变形。给定一个任意姿态下的部分可观察物体我们首先通过提取点态仿射不变特征来规范化物体将其固有的结构与姿态和大小分离。这些学习到的特征随后被用来预测语义一致的部分分割和相应的部分中心。接着我们的轻量级检索模块将每个部分内的特征聚合成检索令牌并与预建数据库中的源形状比较所有令牌以识别几何上最相似的形状。最后我们在变形模块中对检索到的形状进行变形以紧密拟合输入物体通过利用部分中心引导的神经笼变形。ShapeMaker的关键在于同时训练四个高度关联的过程利用跨任务一致性损失进行相互监督的规范化、分割、检索和变形。在合成数据集PartNet、ComplementMe和真实世界数据集Scan2CAD上的大量实验表明ShapeMatcher大幅超越了竞争对手。代码已发布在 https://github.com/Det1999/ShapeMaker。 Paper28 GraCo: Granularity-Controllable Interactive Segmentation 摘要小结: 交互式分割IS根据用户输入对图像中的特定对象或部分进行分割。当前的IS流程分为两类单粒度输出和多粒度输出。后者旨在缓解前者中存在的空间模糊性。然而多粒度输出流程在交互灵活性方面受限并产生冗余结果。在这项工作中我们介绍了粒度可控交互式分割GraCo这是一种新颖的方法通过引入附加参数到输入允许精确控制预测粒度。这增强了交互式系统的定制性并在解决模糊性的同时消除冗余。然而多粒度掩膜注释的高昂成本以及缺乏带有粒度注释的数据集使得模型难以获得控制输出粒度所需的指导。为了解决这个问题我们设计了一个任意粒度掩膜生成器利用预训练的IS模型的语义属性自动生成丰富的掩膜-粒度对而无需额外的手动注释。段落内容翻译互动分割IS根据用户输入对图像中的特定对象或部分进行分割。目前的IS管道分为两种类型单粒度输出和多粒度输出。后者旨在减轻前者中存在的空间模糊性。然而多粒度输出管道在交互灵活性方面受限并产生冗余结果。概述以下是本文的关键内容 Gaco方法允许控制预测粒度。它通过引入额外参数来增强交互系统。它解决了冗余和模糊性问题。存在的数据集和注释问题本文提出了解决方案。本文进行了大量实验证明GraCo优于之前的方法。关键点 GraCo可能成为一种灵活的注释工具能够适应多样的分割场景。以下是主要内容翻译内容当前的工作引入了GraCo它通过输入额外参数来控制预测粒度解决了冗余问题并提出了针对数据集问题的解决方案。实验证明其优势。以下是项目页面链接。 Paper29 Tyche: Stochastic In-Context Learning for Medical Image Segmentation 摘要小结: 现有的基于学习的医学图像分割解决方案存在两个重要缺陷。首先对于大多数新的分割任务必须训练或微调一个新的模型。这需要大量的资源和机器学习专业知识因此通常对医学研究人员和临床医生来说是不切实际的。其次大多数现有的分割方法为给定的图像生成一个单一的确定性分割掩模。然而在实践中往往存在很大的不确定性即什么是正确的分割不同的专家注释者通常会以不同的方式对同一张图像进行分割。我们通过Tyche框架解决了这两个问题该框架使用上下文集为之前未见过的任务生成随机预测而无需重新训练。Tyche与其他上下文分割方法有两个重要的不同之处。1我们引入了一种新颖的卷积块架构使得预测之间能够互动。2我们引入了上下文测试时增强这是一种新的机制来提供预测的随机性。结合适当的模型设计和损失函数Tyche可以预测一组合理的、多样化的分割候选方案用于新的或未见过的医学图像和分割任务而无需重新训练。以下是主要内容概述翻译内容描述了基于学习的医学图像分割的现有解决方案的缺陷包括需要重新训练模型和产生单一确定性分割的问题。然后介绍了Tyche框架它能够解决这些问题提供随机预测并且不需要重新训练。Tyche的两个关键区别也被提及。以下是翻译当前基于学习的医学图像分割解决方案存在两个重要的不足。首先对于大多数新的分割任务必须训练或微调一个新的模型。这需要大量的资源和机器学习专业知识因此对于医学研究人员和临床医生来说通常是不可行的。其次大多数现有的分割方法为给定的图像生成一个单一的确定性分割掩模。然而实际上对于什么是正确的分割往往存在很大的不确定性不同的专家注释者经常会对同一张图像有不同的分割结果。我们通过Tyche框架解决了这两个问题该框架使用上下文集为之前未见过的任务生成随机预测无需重新训练。Tyche与其他上下文分割方法在两个重要方面有所不同。⑴我们引入了一种新的卷积块架构允许预测之间的互动。⑵我们引入了上下文测试时增强这是一种新的机制来提供预测的随机性。结合适当的模型设计和损失函数Tyche能够为新或未见过的医学图像和分割任务预测一组合理的、多样化的分割候选方案无需重新训练。代码可在以下地址找到https://tyche.csail.mit.edu/… Paper30 Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation 摘要小结: 开放词汇语义分割旨在对以文本形式表达的任意类别进行分割。先前的工作已经在大量的图像-字幕对上进行了训练以强制实现像素级别的多模态对齐。然而字幕提供了关于给定图像语义的全局信息但缺乏对单个概念的直接定位。在大型数据集上进一步训练无疑会带来巨大的计算成本。在本文中我们提出了FreeDA一种无需训练的扩散增强方法用于开放词汇语义分割该方法利用扩散模型在视觉上定位生成概念以及局部-全局相似性以匹配与语义类别无关的区域。我们的方法包括一个离线阶段从大量字幕开始利用视觉和语义上下文收集文本-视觉参考嵌入。在测试时这些嵌入被查询以支持视觉匹配过程该过程是通过同时考虑类无关区域和全局语义相似性来进行的。广泛的分析表明FreeDA在五个数据集上达到了最先进的性能在mIoU方面超过了先前的方法超过7.0平均分且无需任何训练。主要内容概述这段话介绍了一种名为FreeDA的方法这是一种无需训练的扩散增强方法用于开放词汇语义分割。该方法旨在解决传统训练方法中的计算成本问题并通过利用扩散模型来视觉定位概念。FreeDA在离线阶段收集文本-视觉参考嵌入并在测试时使用这些嵌入进行视觉匹配。结果显示FreeDA在多个数据集上取得了最先进的性能。 Paper31 Infer from What You Have Seen Before: Temporally-dependent Classifier for Semi-supervised Video Segmentation 摘要小结: 由于人力劳动成本高昂现实场景中的语义分割面临的一个主要挑战是缺乏足够的像素级标签这在处理视频数据时更为严重。为了利用未标记的数据进行模型训练半监督学习方法试图构建伪标签或各种辅助约束作为监督信号。然而其中大多数方法只是将视频数据作为一组独立图像以逐帧的方式进行处理。丰富的时态关系被忽略了这些关系可以作为表征学习的宝贵线索。此外这种逐帧识别范式与人类的识别方式大相径庭。实际上得益于视频数据内部的时态相关性人类会明智地使用历史帧中独特的语义概念来辅助当前帧的识别。基于这一观察我们提出了一种新颖的时态依赖分类器TDC以模仿类似人类的识别过程。翻译由于人力成本高昂现实世界语义分割的主要挑战是缺乏足够的像素级标签这在处理视频数据时尤为严重。为了利用未标记数据进行模型训练半监督学习方法试图使用伪标签或各种辅助约束作为监督信号。但大多数方法仅将视频数据作为独立图像集逐帧处理忽略了丰富的时态关系。主要内容概述语义分割在现实世界中面临挑战特别是缺乏像素级标签。半监督学习方法被用来处理未标记数据。大多数方法忽略了视频数据中的时态关系。提出了一种新的时态依赖分类器TDC来模仿人类识别过程。TDC在实验中表现出优于先前先进方法代码可用。以下是翻译由于人力成本高昂现实世界中语义分割的一个主要挑战是缺乏足够的像素级标签这在处理视频数据时问题更为严重。为了利用未标记数据进行模型训练半监督学习方法试图构建伪标签或各种辅助约束作为监督信号。然而大多数方法只是将视频数据作为一系列独立图像以逐帧方式处理。这种做法忽略了丰富的时态关系这些关系本可以作为表征学习的宝贵线索。此外这种逐帧识别范式与人类的识别方式有很大不同。实际上人类会利用视频数据内部的时态相关性明智地使用历史帧中的显著语义概念来辅助当前帧的识别。受此启发我们提出了一种新颖的时态依赖分类器TDC以模仿类似人类的识别过程。与传统的分类器相比TDC可以指导模型学习跨帧的一系列时态一致的语义概念这本质上提供了一个隐性和有效的约束。我们在Cityscapes和CamVid上进行了大量实验结果证明了我们提出的方法优于之前的最先进方法。代码可在 https://github.com/jfzhuang/TDC 查找。 Paper32 MRFS: Mutually Reinforcing Image Fusion and Segmentation 摘要小结: 这篇论文提出了一种耦合学习框架称为MRFS旨在突破红外与可见图像融合及分割的性能瓶颈。该框架通过利用视觉与语义之间的内在一致性强调任务之间的相互强化而不是将它们视为独立的问题。以下是翻译和概述翻译本文提出了一个名为MRFS的耦合学习框架用以突破红外-可见图像融合与分割的性能瓶颈。通过利用视觉与语义之间的固有一致性它强调相互强化而不是将这些任务视为独立的问题。首先我们采用基于CNN的交互式门控混合注意力IGM-Att模块进行图像融合任务嵌入弱化信息恢复和显著信息整合以提取高质量的视觉特征。这旨在满足人类视觉感知生成具有丰富纹理、高对比度和鲜艳颜色的融合图像。其次开发了一个基于变压器的渐进循环注意力PC-Att模块以增强语义分割。它建立单模态自增强和跨模态相互补充使机器在语义感知中做出更准确的决策。然后IGM-Att和PC-Att的级联隐式耦合了图像融合和语义分割任务使视觉相关和语义相关的特征更加一致。因此它们相互为对方提供学习先验从而产生视觉上令人满意的融合图像和更准确的分割决策。公共数据集上的大量实验展示了我们方法在视觉满意度和决策准确性方面的优势。代码公开可用地址为https://github.com/HaoZhang1018/MRFS. 概述这段话主要介绍了论文中提出的一种名为MRFS的耦合学习框架该框架通过相互强化图像融合和语义分割任务来提高性能。具体来说它使用CNN和变压器模块来提取高质量特征并确保两者之间的特征更加一致最终导致更好的融合图像和分割决策。实验结果表明该方法在视觉和决策准确性方面具有优势。 Paper33 Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation 摘要小结: 临床成像工作流程的一个主要焦点是疾病诊断和管理这使得医学成像数据集与特定的临床目标紧密相关。这种情况导致了开发特定任务的分割模型的做法盛行而无需从广泛的成像队列中获得见解。受到医学放射科住院医师培训计划的启发我们提出了向通用医学图像分割转变的设想这一范式旨在通过利用临床目标、身体区域和成像方式之间的多样性和共性构建医学图像理解的基础模型。为了实现这一目标我们开发了Hermes这是一种新颖的上下文先验学习方法用于解决医学图像分割中的数据异质性和注释差异的挑战。在跨越五种模态CT、PET、T1、T2和电影MRI和多个身体区域的十一组多样化数据集2438个3D图像中我们证明了通用范式在单个模型内处理多个任务方面优于传统范式。通过利用任务之间的协同作用Hermes在所有测试数据集上均取得了最先进的性能并显示出卓越的模型可扩展性。以下是主要内容概述这段话主要讨论了临床成像工作流程特别是提出了一个新方法——向通用医学图像分割转变。这种方法旨在通过新开发的Hermes解决数据异质性和注释差异问题。Hermes在多个数据集和模态上展示了优越的性能包括转移学习、增量学习和泛化到下游任务的能力。此外Hermes的学习先验能够反映任务和模态之间的复杂关系这与放射学中的解剖学和成像原理相一致。以下是关键点专注于疾病诊断和管理的医学成像数据集。提出通用医学图像分割的新范式。开发了Hermes一种新的上下文先验学习方法。在多个数据集上展示了优越的性能。代码是可用的。 Paper34 Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation 摘要小结: 一致性学习是半监督医学图像分割SSMIS中处理未标记数据的核心策略它迫使模型在扰动下产生一致的预测。然而大多数现有方法仅关注利用特定的单一扰动这只能应对有限的情况而同时使用多个扰动很难保证一致性学习的质量。在本文中我们提出了一种自适应双向位移ABD方法来解决上述挑战。具体来说我们首先设计了一种基于未标记数据的可靠预测置信度的双向块位移以生成新样本这些样本能有效抑制不可控区域并仍保留输入扰动的影响。同时为了使模型学习潜在的不可控内容我们提出了对标记图像进行具有反向置信度的双向位移操作生成具有更多不可靠信息的样本以促进模型学习。大量实验表明ABD显著提高了SSMIS的新状态艺术表现显著改善不同基线。以下是主要内容概述翻译内容上述段落已经翻译成中文。主要内容本文提出了一种新的方法ABD来处理SSMIS中的挑战即一致性学习的问题。该方法通过双向位移来改善单一扰动的限制并在未标记和标记数据上进行了特殊处理最终实现了状态艺术的表现提升。 Paper35 Clustering Propagation for Universal Medical Image Segmentation 摘要小结: 这段话的中文翻译如下针对医学图像分割的突出解决方案通常是为自动或交互式设置量身定制的这使得将一个任务中的进展转移到另一个任务中变得具有挑战性。这也需要为每个任务分别建立模型从而重复训练时间和参数。为了解决上述问题我们引入了S2VNet这是一个通用框架利用切片到体积分割传播将自动/交互式分割统一到单个模型和一次训练过程中。受基于聚类的分割技术的启发S2VNet充分利用了体数据的切片结构通过从上一切片的聚类结果初始化聚类中心。这使得从前一切片获得的知识能够协助当前切片的分割进一步高效地使用仅有的2D网络桥接远距离切片之间的通信。此外这种框架无需改变架构只需从用户输入初始化质心就可以轻松适应交互式分割。主要内容概述 S2VNet是一个通用框架旨在解决医学图像分割中的问题。它通过切片到体积分割传播统一了自动和交互式分割。S2VNet利用聚类技术通过前一切片的结果来初始化聚类中心。它具有快速推理速度和相比主流3D解决方案减少的内存消耗。S2VNet能够处理多类交互且在三个基准测试上的实验显示它超越了特定任务的解决方案。 Paper36 Transferable and Principled Efficiency for Open-Vocabulary Segmentation 摘要小结: 最近预训练的基础视觉-语言模型的成功使得开放词汇分割OVS成为可能。尽管这种方法表现出色但它带来了沉重的计算负担主要面临两个挑战1骨干模型的大尺寸2微调过程中的高昂成本。这些挑战阻碍了OVS策略在现实场景中的广泛应用和可负担性。尽管传统方法如模型压缩和高效微调可以解决这些挑战但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻易转移需要在不同模型上重新训练这会带来成本。以下是主要内容概述这段话讲述了以下内容预训练模型让OVS成为可能但存在计算负担。主要挑战包括模型大小和微调成本。传统方法有局限需要重新训练。作者旨在通过使用更小的模型来实现高效OVS以下是翻译翻译最近的预训练基础视觉-语言模型的成功使得开放词汇分割OVS成为可能。尽管这种方法表现出色但它引入了沉重的计算开销主要因为两个挑战1骨干模型的大尺寸2微调过程中的高昂成本。这些挑战阻碍了这种OVS策略在现实世界场景中的广泛应用和可负担性。尽管传统方法如模型压缩和高效微调可以解决这些挑战但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻易转移需要在不同模型上重新训练这有其成本。在高效OVS的背景下我们目标是通过利用训练成本较低的更小模型实现与甚至优于之前基于大型视觉-语言基础模型的OVS工作的性能。核心策略是使我们的效率原则化从而无需进一步定制即可从一个OVS框架无缝转移到其他框架。在多样化的OVS基准上的全面实验证明了我们在分割准确性和计算成本之间的优越权衡超过了之前的工作。我们的代码可在https://github.com/Xujxyang/OpenTrans上找到。 Paper37 ODIN: A Single Model for 2D and 3D Segmentation 摘要小结: 这段话的中文翻译如下最先进的模型在当代3D分割基准测试如ScanNet上消耗并标记由感测多视角RGB-D图像后处理获得的3D点云数据集。它们通常在领域内进行训练不进行大规模的2D预训练并优于那些特征化所提供的RGB-D多视角图像的替代方法。消耗摆好姿势的图像与处理后3D点云之间的性能差距加剧了人们的信念即2D和3D感知需要不同的模型架构。在本文中我们挑战这一观点并提出了ODIN全维度实例分割这是一种可以使用变压器架构在2D视图内和3D跨视图信息融合之间交替对2D RGB图像和3D点云进行分割和标记的模型。我们的模型通过参与令牌的位置编码来区分2D和3D特征操作这些编码捕获2D补丁令牌的像素坐标和3D特征令牌的3D坐标。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准测试上取得了最先进的性能并在ScanNet、S3DIS和COCO上取得了有竞争力的表现。当使用感测的3D点云代替从3D网格采样的点云时它优于所有之前的工作。当用作可指导的实体代理架构中的3D感知引擎时它在TEACh对话行动基准上设置了新的最先进水平。我们的代码和检查点可以在项目网站上找到https://odin-seg.github.io。主要内容概述这段话介绍了一种名为ODIN的模型该模型能够在2D和3D数据上实现高性能的分割和标记。ODIN使用变压器架构处理2D和3D信息并在多个3D分割基准测试上取得了最先进的性能。此外该模型在替代传统方法时表现优异并挑战了2D与3D感知需要不同模型架构的观点。最后它在实体代理架构中也有显著的应用。

查看全文

http://www.pierceye.com/news/462098/