网站如何做脚注,网上如何建平台网站,重庆百度关键词优化软件,做公司网站一般多少钱深度学习是当代人工智能的核心#xff0c;计算机视觉、语音、NLP则是当代人工智能落地的热门应用方向。然而#xff0c;机器人、智能agent这种看起来更加“人工智能”的话题却在大众视野出现的越来越少#xff0c;取而代之的热点讨论反而是看似与人工智能关联不是那么直接的…深度学习是当代人工智能的核心计算机视觉、语音、NLP则是当代人工智能落地的热门应用方向。然而机器人、智能agent这种看起来更加“人工智能”的话题却在大众视野出现的越来越少取而代之的热点讨论反而是看似与人工智能关联不是那么直接的“AI赋能搜推广”。做AI就是做搜推广那为什么不直接去做搜推广呢恐怕这也是进入工业界的AI从业者时不时冒出来的困惑。说好的“AI改变世界AI改善生活”呢直到笔者近期入手了科沃斯的新品扫拖机器人X1顿时觉得AI技术就该这样走进人们的生活中用AI技术去解放人们的双手让人与机器的交互更加自然。科沃斯X1传送门YIKO与对话技术“OKYIKO去打扫卧室”这是笔者在得知科沃斯X1内置的对话系统叫“YIKO”时对YIKO发出的第一条指令。收到YIKO的回复时顿时觉得对话技术的成熟着实有现实意义我们知道工业界常用的任务完成式对话框架一般包含语音识别ASR、自然语言理解NLU、对话管理DM、自然语言生成NLG和语音生成TTS模块。如下图所示其中语音识别是系统接收用户信号的第一级模块语音信号接收的质量、信号处理的质量决定了ASR效果的天花板尽管在NLP层面对话系统有诸多难点也是研究热点但在实际的工业界对话产品中ASR识别错误却往往更为致命。因此一个商用的对话系统若要体验好首先要有强大的语音硬件设备和良好的产品设计支撑。在语音硬件设计层面科沃斯X1在机身顶部环形位置配置了三颗环形MIC阵列采用环形麦克风设计——可以更加全方位无死角的拾取用户语音信号使其具备强大的ASR硬件支撑。此外科沃斯X1更是巧妙的结合视觉技术能够在用户召唤后让机器人转向主人更加精确的接收语音指令甚至完成“来我身边打扫”这类高级指令。此外科沃斯X1内置的降噪技术、回声消除等技术也保障了其能够在嘈杂的工作状态下仍然能实现高达96%的语音唤醒成功率 来自科沃斯实验室测试数据。如果说ASR技术是实现流畅对话的可靠性保障那NLU则是关乎对话系统聪明与否的重要模块。传统的内置语音控制的扫地机器人往往仅能支持固定指令而科沃斯X1则实现了将指令泛化成众多语言表述的能力例如无论用户是表达扫一下还是打扫清扫清洁干活儿等YIKO均能准确理解这便是NLU模块的功劳。在有了扎实的ASR和NLU基座之后对话管理模块DM则汇聚各方信息和系统状态扮演了决策中枢的角色。例如“OKYIKO到客厅的沙发进行清扫”YIKO收到该指令并ASR转成文本后NLU模块将理解后的指令发送给DM模块DM结合对家居的理解配合AI视觉导航准确找到客厅及位于客厅的沙发的位置并查询系统位置状态计算出最优通行路径进而一方面让TTS模块合成语音告知用户自己“听懂了”另一方面将路线决策传递给机器人“运动中枢”机器人到达指定位置后X1将开始辛勤工作。对话管理模块的设计强依赖对家居环境的理解以及目标检测、地图建模等技术模块的协同科沃斯X1能够有效将用户指令转化为复杂的系统决策靠的便是这份聪明的对话决策中枢——DM模块这也是YIKO系统的技术壁垒所在。YIKO除了可以流畅与用户进行日常清扫的交互还内置了诸多贴心实用的对话技能。例如OKYIKO耗材到期了吗“——“当前耗材情况良好请放心使用“OKYIKO来找我。”——“好的让我看看你在哪儿请原地稍等”“OKYIKO你会些啥”——我会做的事情可多了试着对我说“OKYIKO播放音乐”我会开始播放音乐。如果想了解更多打开App找到更多的语音指令吧。总之X1成为家庭的一份子后我们就不再需要找遥控器不需要找说明书不需要下载APP在里面点点点直接对话就可以跟YIKO进行日常操作了这不就是最为自然炫酷的人机交互形态吗确实对话系统不一定非要替代人工客服才叫落地也不一定非要成为无所不能无所不知的智能助理智能音箱更不一定能够胜任“虚拟女友”才能叫技术成熟。将目光拉近若复杂家电内置的对话系统普遍像YIKO一样取代说明书和APP用最自然的方式满足用户需求那这标志着人机交互的新时代可能真的来了。如今主打情感聊天的诸多对话产品内置了很多先进的超大模型动辄上亿参数。学术前沿更为夸张似乎模型没个百亿参数都不好意思对外宣传。然而将场景拉近到现实生活的点滴中YIKO扎实的将对话技术与扫地机器人场景进行了深度融合打造出了该场景下扎实的ASR技术、聪明的NLU模块、智慧的DM中枢和逼真有特点的TTS单元做到了在机器人的召唤、操控、查询等诸多维度上非常高的完成度其带给笔者的赞叹度可能丝毫不亚于一个拥有百亿参数的复杂聊天机器人。而这种系统级、业务场景深度定制的优化或许正是大部分“人工智障”产品所欠缺的。X1中的视觉技术桌子、凳子、猫、地毯、玩具、人…无论房间多大总是少不了各种奇奇怪怪的障碍物。因此一个“机灵”的扫地机器人一定离不开强大的计算机视觉能力——物体识别与目标检测技术。经过笔者对科沃斯X1的若干天试用其对障碍物的识别与避障能力大大超出了笔者的预期。出于好奇笔者调研了科沃斯发表的目标检测技术相关论文和博客。挖掘出了科沃斯机器人内置的目标检测模型和系统工作流程如图所示众所周知在目标检测领域有one-stage和two-stage两种思路虽然精度方面前者略逊于后者但前者需要的计算资源开销却远少于后者更加适合电力敏感的场景。科沃斯正是使用了one-stage的方式进行目标检测建模。在模型结构方面科沃斯则沿用了SSD detector的设计思路但是设计了一个计算量显著减少的轻量特征抽取网络以替换SSD中的VGG backbone。为了减少计算量科沃斯设计的轻量级特征抽取网络一方面使用depthwise separable convolutions替换了传统的卷积操作这种方式仅需要1/9的计算量就可以完成3*3的传统卷积。此外科沃斯还使用了ReLU6作为激活函数进一步减少了计算量。还将浅层特征与高层特征进行拼接有效提升了机器人视野中的小型目标的召回率等。可以说这个改进的模型结构更加契合扫地机器人的低功耗、小型物体召回要求高等特点。而在bounding box预测阶段科沃斯同样做了诸多针对扫地机器人的优化工作。例如借助大量的场景数据积累科沃斯借助遗传算法为不同的物体类别学习了不同数量和大小的bounding box从而可以有效召回更多的正样本避免在训练阶段遭遇验证的正负比不均衡问题。下图是优化前后的大小物体的召回数量对比可以说非常显著了在loss层面科沃斯还在focal loss的基础上对物体位置引入了weighting策略从而引导模型对位置相近的物体给予更多的注意力这也更加贴合机器人实际场景的目标检测特点和难点。此外科沃斯还首次突破壁垒将AIVI视觉识别与3D检测融合进一步提升了避障精度。简单来说摄像头组件虽然对于物体识别来说基本够用但对于深度探测方面则表现不佳。对于以上案例机器人若想走出一个“不知道什么东西”的巨大障碍物的包裹显然需要对障碍物的距离信息有足够精确的把握这样在机器人偶然转动到出口方向时才会以比较高的置信度将该方向判别为“正确的发力方向”。尽管原理清晰但毕竟深度探测与摄像头属于两个通道的信息要将双通道信息做到合理的融合和联合决策同样是一个颇具挑战的事情。除了必要的算法支撑外还需要工程层面对现实世界的大量Corner case有较为充分的挖掘和建模这是极端情况下不掉链子的重要保障。科沃斯与AI技术可能读者会疑惑为什么通篇都是科沃斯而不是其他机器人产品呢并不仅仅是因为笔者入手了全球销量第一的科沃斯而且科沃斯机器人还是全球最早的服务机器人研发与生产商之一已经成为了行业标准的制定者且拥有行业规模最大、最权威的机器人实验室超700人的研发团队和超1000项的发明专利。在AI技术层面科沃斯更是一家可圈可点的科技公司• 2013年地宝9开创性地将旋转式LDS雷达放在扫地机器人身上• 2018年将Smart Eye视觉导航用在地宝上科沃斯成为行业内唯一一家同时布局VSLAM和LDS-SLAM双技术路线的公司• 2019年科沃斯行业内第一个推出了AIVI人工智能的产品可以像人一样实现视觉避障• 2020年提出True Detect 3D结构光避障技术第一次将避障技术推到毫米级可以说科沃斯一直在技术层面革新进步引领着行业的一次次突破。期待科沃斯能为我们带来更多“未来感”的黑科技科沃斯X1传送门