当前位置：首页 > news >正文

网站建设综合报告威海网站建设兼职

news 2025/11/13 1:13:16

网站建设综合报告,威海网站建设兼职,房管局官网app,wordpress弹幕视频主题欢迎阅读我们的新栏目——“微前沿”#xff01; “微前沿”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里#xff0c;你可以快速浏览研究院的亮点资讯#xff0c;保持对前沿领域的敏锐嗅觉#xff0c;同时也能找到先进实用的开源工具。本期内容速览 01. 强可…欢迎阅读我们的新栏目——“微前沿” “微前沿”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里你可以快速浏览研究院的亮点资讯保持对前沿领域的敏锐嗅觉同时也能找到先进实用的开源工具。本期内容速览 01. 强可控视频生成模型 DragNUWA 02. LLM Retriever通过定制化样本检索器来提高大语言模型的上下文学习效果 03. 解码大脑信号重建视觉感知图像 04. PromptBench首个大语言模型提示鲁棒性的评测基准 arXiv精选强可控视频生成模型 DragNUWA 论文链接https://arxiv.org/abs/2308.08089 项目主页https://www.microsoft.com/en-us/research/project/dragnuwa/ 在人工智能与计算机图形学领域不断取得突破的今天视频生成技术已成为领域内的研究焦点。尽管传统的视频生成模型如 NUWA、Phenaki 和 Gen-2在一定程度上实现了基于文本的视频生成但在细粒度控制方面仍有不足。而在电影制作和短视频创作领域导演和创作者对精细的运镜以及复杂且可控的角色动作都有着极高的要求可是这些需求目前却难以通过现有的视频生成模型实现。为此微软亚洲研究院的研究团队研发了强可控视频生成模型 DragNUWA革新了当前的视觉体验。受到 DragGAN 采用拖拽方式编辑图像的启发DragNUWA 允许用户直接在图像中拖拽物体或背景然后模型会自动将拖拽操作转化为合理的运镜或物体的运动并生成相应的视频。通过融合文本、图像和轨迹三个关键控制因素DragNUWA 在语义、空间和时间三个层面均实现了卓越的可控视频生成能力。图1DragNUWA的两种轨迹控制方式。拖拽背景可以生成各种镜头效果左图拖拽物体可以生成人物复杂轨迹右图。 DragNUWA 支持三个关键控制输入文本p,图像s和轨迹g。为了解决当前仅有视频文本对数据的难题DragNUWA 引入了轨迹采样器Trajectory Sampler, TS从开放领域视频的光流中提取轨迹。所提取的轨迹、初始帧图像和标注文本将通过多尺度融合器Multiscale FusionMF融入到 UNet 的每个 block。而为了解决轨迹稀疏的问题DragNUWA 会通过自适应训练Adaptive TrainingAT逐步从完整的光流切换到稀疏的轨迹以确保视频生成的稳定性。图2DragNUWA 架构图让我们想象一下当你在欣赏一幅美丽的艺术作品时通过 DragNUWA 的力量它能够按照你的意愿展现出生动的画面或者在拍摄一部动作片时让主角在关键时刻“拥有”震撼人心的武艺。这些都将得益于 DragNUWA 强大的可控视频生成能力。DragNUWA 为包括导演、摄影师和视频创作者们在内的整个视觉作品领域打开了全新的可能性可能在未来把视频生成技术带入一个全新的可控时代。图3DragNUWA 生成演示 LLM Retriever通过定制化样本检索器来提高大语言模型的上下文学习效果论文链接https://arxiv.org/pdf/2307.07164 项目链接https://github.com/microsoft/LMOps 如今的大语言模型展现出了惊人的上下文学习能力不需要对语言模型的参数进行微调只需要摆放几个上下文样本语言模型就可以学会执行这个任务。但相关研究表明语言模型上下文学习的效果对于样本的选择非常敏感。因此如何自动从样本池选择合适的样本就成为了一个重要的研究问题。微软亚洲研究院的研究员们在针对这一问题的研究过程中发现语言模型本身的反馈信号可以作为上下文样本选择的可靠依据。不同的样本对于语言模型输出正确答案的影响并不相同那些能提高正确答案概率的样本可以被视为高质量的上下文样本。基于这一观察研究员们利用语言模型的反馈信号来训练定制化的样本检索器 LLM Retriever以提高上下文学习的效果。图4LLM Retriever 模型训练和推理流程具体来说在训练阶段首先用语言模型对每一个候选的上下文样本打分能够使得正确答案概率最大的样本被视为正例其它的被视为负例。然后利用这些自动标注的数据来训练一个奖励模型以捕捉更加细粒度的监督信号再对奖励模型进行知识蒸馏得到一个高效的检索器 LLM Retriever。这一训练流程可以迭代进行从而不断提高检索器的效果。在推理阶段根据训练得到的检索器离线把样本池建成一个方便快速查找的索引。对于每条测试数据在索引中查找最相似的若干个样本然后送给大语言模型做上下文学习输出最终的预测结果。在整个过程中语言模型不进行任何参数微调。实验结果表明在包含30个数据集的评测基准上LLM Retriever 能够检索出与测试数据具有相似模式的样本从而显著提高各种任务的上下文学习效果并且对于训练阶段没有见过的任务和语言模型也具备很好的泛化能力。LLM Retriever 是微软亚洲研究院自然语言计算组关于如何增强语言模型能力的研究的一部分未来研究员们还将继续在这方面进行深入的探索。 “透视”大脑解码大脑信号重建视觉感知图像论文链接https://arxiv.org/abs/2308.02510 是否有可能只根据非侵入式设备获取的大脑信号就完全重建被试主体所看到的视觉内容近年来得益于神经科学和人工智能的最新进展科学家们已经能够记录视觉引发的大脑活动并通过计算方法模拟人类的视觉认知能力。其中有一种大脑活动电生理信号称为脑电Electroencephalograph, EEG信号。EEG 脑电信号是一种通过放置在人类头皮上的便携电极可低成本记录大脑时间动态的电生理信号。这类脑电活动生理信号相比较磁共振成像等技术具备低成本、采集方便的优点但是EEG 脑电信号采集会受到电极放置错误或身体运动的影响进而导致数据中出现严重的伪迹并且其信噪比较低因此使用脑电信号重建视觉感知仍然十分困难。在这篇论文中微软亚洲研究院的研究员提出了 NeuroImagen, 通过多级解码方式可以从 EEG 信号中解码出不同粒度的样本语义信息和像素语义信息最后通过输入已预训练的扩散模型可以重建视觉感知的图像。其中样本级别的语义信息提供了观看图像中主要类别或者总体描述等粗粒度信息这些信息可以比较准确地提取与解码像素级别的语义信息则提供了观看图像的颜色、位置、形状等细粒度信息这些信息较难以提取但对重建图片的细节非常重要。图5NeuroImagen 多级解码大脑信号重建感知图像实验结果表明NeuroImagen 在根据 EEG 信号重建视觉图像的语义准确度、图片质量、结构准确性等方面上均优于其它前沿的重建方法。这项研究初步验证了将人类视觉认知与复杂的脑电信号联系起来的可行性进而有可能帮助那些因为神经系统受损而失去视觉功能的人恢复部分视觉能力。研究员们预期这些发现将推动人工智能、认知科学和神经科学之间的合作探索人类视觉认知过程之谜。开源工具 PromptBench: 首个大语言模型提示鲁棒性的评测基准文章链接https://arxiv.org/abs/2306.04528 代码链接https://github.com/microsoft/promptbench 所有大模型评测的研究汇总llm-eval.github.io 作为连接人类与大模型的桥梁大模型对 “Prompt (提示词)“究竟有多敏感同样的 prompt可能写错个单词、写法不一样都会出现不一样的结果。到底应该如何写合适的提示词为了尝试回答这些问题微软亚洲研究院的研究员们构建了首个大语言模型提示鲁棒性的评测基准 PromptBench以深入探究大模型在处理对抗提示adversarial prompts的鲁棒性。研究还利用 Attention “可视化分析”了对抗提示的输入关注分布并且对不同模型产生的对抗提示进行了“迁移性分析”最后对鲁棒提示和敏感提示的词频进行了分析以帮助终端用户更好地写出 prompt。研究得到了几个关键的结果。首先“不同种类的攻击的有效性差距很大“其中 word-level 的攻击最强导致所有数据集的平均性能下降33%。字符级别的攻击排名第二导致大部分数据集的性能下降20%。UL2 的鲁棒性明显优于其他模型其次是 T5 和 ChatGPTVicuna 的鲁棒性最差。UL2、T5 和 ChatGPT 的鲁棒性在各个数据集中都有所不同UL2 和 T5 在情感分类(SST-2)、大部分 NLI 任务以及阅读理解SQuAD V2的攻击中表现出较好的鲁棒性。少样本提示的鲁棒性在所有数据集上都要优于零样本提示。此外虽然 Task-oriented 的提示在总体鲁棒性上稍微优于 Role-oriented 提示但两者在不同的数据集和任务中各有优势。图6PromptBench 概览左图prompt 攻击示意图右图研究员们还进行了可迁移性分析、词频分析等以全面了解大模型对提示的对抗鲁棒性。最后研究员也提出了一些可能的应对策略 1. 输入预处理直接检测和处理可能的对抗样本如检测错别字、无关的序列并提高提示的清晰度和简洁度。 2. 在预训练中包含低质量数据低质量数据可以作为可能的对抗样本在预训练中包含低质量数据可能会对多样化的输入有更好的理解。 3. 探索改进微调方法研究更佳的微调技术可能会提高鲁棒性。正如研究之前展示的一些情况比如 T5 和 UL2 模型比 ChatGPT 的鲁棒性更好这暗示了大规模监督微调的潜在优势。

查看全文

http://www.pierceye.com/news/591630/