当前位置：首页 > news >正文

免费的企业黄页网站永久免费学手机网站建设

news 2025/12/20 17:00:26

免费的企业黄页网站永久免费,学手机网站建设,阜阳html5网站建设,外贸代运营来源#xff1a;知乎问答作者#xff1a;陀飞轮、Zhifeng、谢凌曦转自#xff1a;极市平台深度学习成为近些年来较为热门的领域#xff0c;算法工程师这一岗位也变得越发的抢手#xff0c;尽管已经踏入了这一领域但对整体的大环境其实是还不能够准确的把握。从研究方向去看… 来源知乎问答作者陀飞轮、Zhifeng、谢凌曦转自极市平台深度学习成为近些年来较为热门的领域算法工程师这一岗位也变得越发的抢手尽管已经踏入了这一领域但对整体的大环境其实是还不能够准确的把握。从研究方向去看2021年的深度学习还有哪些方向还是一片蓝海或者比较有研究的潜力呢本文汇总了知乎三位答主的精华回答希望能给大家带来帮助问题详情本人只对目标检测方向比较了解感觉现在比较成熟和饱和了再突破比较难。想尝试换个方向进行研究但是我对整个深度学习大的趋势还不是很了解。求大佬解答一下谢谢。原问题链接https://www.zhihu.com/question/460500204# 回答一作者Zhifeng来源链接https://www.zhihu.com/question/460500204/answer/1902459141回答几个我最近在研究的方向我主要在做生成模型不过乱七八糟的也有涉猎可解释性feature-based研究的很多了instance-based个人感觉在上升期从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我觉得这里面self influence的概念非常有趣应该很值得研究。当然更意思的方向是跳出influence function本身比如像relatIF 加一些regularization也是水文章的一贯套路(relatIF是好文章)。Influence function for generative models也是很值得做的。Influence function for GAN已经有人做了虽然文章直接优化FID是有点问题的但是框架搭好了换一个evaluation换个setting就可以直接发paper。我最近写了Influence function for VAE, 有不少比较有意思的observation (paper: https://arxiv.org/pdf/2105.14203.pdf; code repo: VAE-TracIn-pytorch)。----------分割线----------无监督生成学习最近的denoising diffusion probabilistic model(DDPM)绝对是热坑效果好但是速度慢没有meaningful latent space限制了很多应用有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用效果很好最近应该能看到这个模型的application井喷比如3D point cloud生成。DDPM的加速最近已经有不少paper了目前来看有几类有的用conditioned on noise level去重新训练有的用jumping step缩短Markov Chain有的在DDPM里面研究更快的solver. 我最近写了FastDPM, 是一种结合noise level和jumping step的快速生成的框架(无需retrain, original DDPM checkpoint拿来直接用)统一并推广了目前的好几种方法给出了不同任务(图像, 语音)的recipe (paper: https//arxiv.org/pdf/2106.00132.pdf; code repo: FastDPM_pytorch)。生成模型里的Normalizing flow模型用可逆网络转化数据分布很fancy 能提供likelihood和比较好的解释性但是效果偏偏做不上去一方面需要在理论上有补充因为可逆或者Lipschitz网络的capacity确实有限。另一方面实际应用中training不稳定可能是效果上不去的原因其中initialization 和training landscape都是有待研究的问题。潜在的突破口augmented dimension或者类似surVAE那种generalized mapping. 除此之外normalizing flow on discrete domain也是很重要的问题潜在突破口是用OT里面的sinkhorn network。我对residual flow这个模型有执念很喜欢这个框架虽然它不火。今年早些时候我写了residual flow的universal approximation in MMD的证明很难做需要比较特殊的假设 (paper: https://arxiv.org/pdf/2103.05793.pdf)。之后可能继续钻研它的capacity和learnability。再补充一个生成模型的overfitting是一个长久的问题但是本身很难定义很大一个原因是mode collapse和copy training data耦合在一起。我们组去年发表了data-copying test用于检测相关性质不过这个idea还停留在比较初级的阶段我觉得这一块需要更多high level的框架。----------分割线----------Meta learning generative model方向个人十分看好meta learning 框架可以直接套loss改成生成模型的loss就可以了。Again, GAN已经被做了不过GAN的paper那么多随便找上一个加上meta learning还是很容易的。类似可以做multitask GAN。# 回答二作者谢凌曦来源链接https://www.zhihu.com/question/460500204/answer/1930151239所有内容均只代表作者本人观点均有可能被推翻二次转载务必连同声明一起转载。我的主要研究方向是计算机视觉所以本文也会比较偏重CV方向。1. 不适合的研究方向首先我要反对两个方向对比学习为代表的自监督学习算法包括BYOL等和Transformer。它们的上限几乎是肉眼可见的在没有非平凡的改进之前很难有本质上的突破。在大量研究者投入精力的情况下只要没有持续的产出就必然会导致其加速衰落。前些年盛极一时的网络架构搜索NAS就是一个非常典型的例子。我们首先分析NAS、对比学习、Transformer的局限性1.原本以NAS为代表的AutoML技术受到了广泛的期待我还主张“自动机器学习之于深度学习就好比深度学习之于传统方法”不过后来发现它的缺陷是明显的。在搜索空间指数级扩大之后算法就必须在精度和速度之间做出选择。后来盛行的权重共享类搜索方法相当于追求搜索空间中的平摊精度而平摊精度与最佳个体的精度往往并不吻合。2.对比学习被广泛引入图像领域作为自监督任务以后前世代的自监督算法如预测旋转、拼图、上色等纷纷被吊打甚至开始在下游任务中超越有监督训练的模型。然而当前的对比学习类方法包括BYOL对于数据扩增data augmentation的依赖过重因而不可避免地陷入了invariance和consistency之间的矛盾强力的augmentation能够促进学习效果但是如果augmentation过强不同view之间的可预测性又无法保证。3.至于Transformer虽然目前还处在比较兴盛的状态然而它的上限也是明显的。除了更快的信息交换似乎这种模型并没有体现出显著的优势。问题是CV任务真的需要频繁而快速的视觉信息交换吗遗憾的是学界依然沉浸在“先将所有任务用Transformer刷一遍”的廉价快乐中鲜有人愿意思考一些更深入的问题。因此我特别希望初学者不要看到一个热门方向就一拥而上而要冷静地思考这个问题如果全世界都知道这个方向火热那么你的研究要想脱颖而出就必然有某些过人之处——比如你有特别多的卡或者你有丰富的PR资源。否则很可能还是捧红了别人的文章浪费了自己的时间。2. 应该关注的方向但未必能够保证产出我认为CV领域还是存在很多本质问题没有解决的。但是这些问题往往非常困难投入长期研究的风险也比较大因而大部分研究者会回避这些问题。然而要从根源上推进CV的发展这些问题就不得不去面对、解决1.是否存在神经网络之外的推理方式当前神经网络成为训练以后的唯一产物而几乎所有算法均假设将输入送给神经网络以后一次性地得到输出结果。然而是否能够设计直接向前传递以外的其他推理方式例如当一个物体处于罕见的视角或者被严重遮挡时能否通过多次迭代式的处理逐渐恢复其缺失的特征最终完成识别任务这就涉及到将强化学习引入训练或者通过类似于image warping的方式找到一条困难样例和简单样例之间的路径。后者可以导向一个非常本质的问题如何以尽可能低的维度刻画语义空间GAN以及相关的方法或许能够提供一些思路但是目前还没有通用的、能够轻易跨越不同domain的方法。2.是否存在更精细的标注方式能够推进视觉的理解我最近提出了一个假想当前所有的视觉识别算法都远远没有达到完整而这很可能是当前不够精细的标注所导致的。那么是否能够在可行的范围内定义一种超越instance segmentation的标注方式进一步推进视觉识别这就涉及到一系列根本问题什么是一个物体如何定义一个物体物体和部件之间有什么联系这些问题不得到解决物体检测和分割将步图像分类的后尘迅速陷入过拟合的困境。3.如何解决大模型和小样本之间的矛盾当前大模型成为AI领域颇有前景的规模化解决方案。然而大模型的本质在于通过预训练阶段大量吸收数据有标签或者无标签均可缓解下游小样本学习的压力。这就带来了一个新的矛盾大模型看到的数据越多模型就越需要适应一个广泛而分散的数据分布因而通过小样本进行局部拟合的难度就越大。这很可能是制约大模型思路落地的一个瓶颈。4.能否通过各种方式生成接近真实的数据生成数据包括虚拟场景或者GAN生成的数据很可能会带来新的学习范式然而这些数据和真实数据之间存在一种难以逾越的domain gap制约了其在识别任务中发挥作用。我们提出问题这种domain gap本质上是不是特定的识别任务带来的learning bias我们希望通过改变学习目标使得这种domain gap得到缓解甚至消失从而能够在有朝一日消灭人工标注真正开启新的学习范式。5.是否存在更高效的人机交互模式目前人机之间的交互效率还很低我就经常因为为做PPT而头疼不已。我认为AI算法或许会深刻地改变人机交互的模式使得以下场景变得更容易多媒体内容设计和排版、跨模态信息检索、游戏微操作等等。多模态算法很可能会在这波“人机交互革命”中发挥重要作用。在我看来上述任何一个问题相比于无止境的烧卡刷点都要有趣且接近本质但是风险也要更大一些。因此大部分研究人员迫于现实压力而选择跟风是再正常不过的事情。只要有人在认真思考这些问题并且稳步推进它们AI就不是一个遥不可及的梦。限于时间无法将上述每个点写得太仔细同时限于水平和视野我也无法囊括所有重要的问题如可解释性——虽然我对深度学习的可解释性感到悲观不过看到有学者在这个领域深耕还是能够感觉到勇气和希望。非常欢迎针对各种问题的讨论也希望这些观点能够引发更多的思考吧。# 回答三作者陀飞轮来源链接https://www.zhihu.com/question/460500204/answer/1902640999先写两个最近火热我比较看好的方向Transformer和Self-Supervised我这里举的例子倾向于计算机视觉方向。最后再补充Zero-Shot和多模态两个方向。1.Transformer自从去年DETR和ViT出来之后计算机视觉领域掀起了Transformer狂潮。目前可以做的主要有两个路径一个是魔改DETR和ViT另一个是不同task迁移算法。魔改DETR和ViT的方法无非是引入local和hierarchical或者魔改算子。不同task迁移算法主要是探究如何针对不同的task做适配设计。其中魔改DETR的可以参考以下工作[Deformable DETR] [TSP-FCOS/TSP-RCNN] [UP-DETR] [SMCA] [Meta-DETR] [DA-DETR]其中魔改ViT的可以参考以下工作魔改算子[LambdaResNets] [DeiT] [VTs] [So-ViT] [LeViT] [CrossViT] [DeepViT] [TNT] [T2T-ViT][BoTNet] [Visformer]引入local或者hierarchical[PVT] [FPT] [PiT] [LocalViT] [SwinT] [MViT] [Twins]Swin Transformer对CNN的降维打击引入卷积:[CPVT] [CvT] [ConViT] [CeiT] [CoaT] [ConTNet]不同task迁移算法的可以参考以下工作ViTSeg [SETR] [TransUNet] [DPT] [U-Transformer]ViTDet [ViT-FRCNN] [ACT]ViTSOT [TransT] [TMT]ViTMOT [TransTrack] [TrackFormer] [TransCenter]ViTVideo [STTN] [VisTR] [VidTr] [ViViT] [TimeSformer] [VTN]ViTGAN [TransGAN] [AOT-GAN] [GANsformer]ViT3D [Group-Free] [Pointformer] [PCT] [PointTransformer] [DTNet] [MLMSPT]以上几个task是重灾区重灾区的意思是听我一句劝你把握不住ViTMultimodal [Fast and Slow] [VATT]ViTPose [TransPose] [TFPose]ViTSR [TTSR]ViTCrowd [TransCrowd]ViTNAS [BossNAS]ViTReID [TransReID]ViTFace [FaceT]想一想算子怎么魔改或者还有什么task没有做的2.Self-SupervisedSelf-Supervised自从何恺明做出MoCo以来再度火热目前仍然是最为火热的方向之一。目前可以做的主要有三个路径一个是探索退化解的充要条件一个是Self-SupervisedTransformer探索上限还有一个是探索非对比学习的方法。探索退化解的充要条件主要是探索无negative pair的时候避免退化解的最优方案是什么。[SimCLR] [BYOL] [SwAV] [SimSiam] [Twins]Self-SupervisedTransformer是MoCov3首次提出的NLP领域强大的预训练模型(BERT和GPT-3)都是Transformer架构的CV可以尝试去复制NLP的路径探究Self-SupervisedTransformer的上限。[MoCov1] [MoCov2] [MoCov3] [SiT]探索非对比学习的方法就是要设计合适的proxy task。基于上下文 [Unsupervised Visual Representation Learning by Context Prediction] [Unsupervised Representation Learning by Predicting Image Rotations] [Self-supervised Label Augmentation via Input Transformations]基于时序 [Time-Contrastive Networks: Self-Supervised Learning from Video] [Unsupervised Learning of Visual Representations using Videos]刚写了基于时序何恺明和Ross Girshick就搞了个时序的A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning3. Zero-Shot最近因为CLIP的出现Zero-Shot可能会引起一波热潮ViLD将CLIP成功应用于目标检测领域相信未来会有越来越多的基于CLIP的Zero-Shot方法。4. 多模态最近的ViLT结合了BERT和ViT来做多模态并且通过增加标志位来巧妙的区分不同模态感觉是一个非常好的做多模态的思路相信未来会有更强大的多模态出现。至于最近火热的MLP架构极其不推荐很沙雕。最后适当灌水有能力还是要做有影响力的工作。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市大脑研究计划构建互联网城市大脑技术和企业图谱为提升企业行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

查看全文

http://www.pierceye.com/news/693794/