vue.js做的网站,网站开发视频教程下载,运河建设集团网站,saascrm国内免费pdf在外界人眼中#xff0c;达摩院人才济济#xff0c;大多是奇人异士#xff0c;做着神秘且高端的研究#xff0c;有如扫地僧一般的存在#xff0c;但是如果有一天#xff0c;当神秘专家不再神秘#xff0c;你发现他们也开始玩抠图#xff0c;且这一切都朝着不受控制的方…在外界人眼中达摩院人才济济大多是奇人异士做着神秘且高端的研究有如扫地僧一般的存在但是如果有一天当神秘专家不再神秘你发现他们也开始玩抠图且这一切都朝着不受控制的方向发展了的时候那么抠图他们能玩出哪些花样
你看看万物接可抠 部分图片来源淘宝商品图
换成视频试试可以 我们为什么要开始研究抠图
这要从阿里巴巴智能设计实验室自主研发的一款设计产品鹿班说起。鹿班的初衷是改变传统的设计模式使其在短时间内完成大量banner图、海报图和会场图的设计提高工作效率。商家上传的宝贝图参差不齐直接投放效果不佳通过鹿班制图可以保证会场风格统一、高质视觉效果传达从而提升商品吸引力和买家视觉体验达到提升商品转化率的目的。
而在制图的过程中我们发现商品抠图是一项不可避免且繁琐的工作一张人像精细抠图平均需要耗费设计师2h以上的时间这样无需创意的纯体力工作亟需被AI所取代我们的抠图算法应运而生。
近几年图像抠图算法逐渐进入人们的视野如腾讯天天P图、百度人像抠图、汽车分割等。而潜藏在其背后的行业泛文娱电商行业、垂直行业诸如在线餐饮、媒体、教育等行业商业价值不容小觑可以满足各种战报、在线课程教师抠图、视频封面制作等不同形式的图片制作需求拓展。市面上的一些抠图算法效果在人像发丝细节处理均不是很好且对一些通用场景电商等支持也不是很好。我们针对这两个问题一方面设计更具有泛化能力的系统、一方面深化发丝和高度镂空相关算法均有更好的效果。
遇到的难题和解决方案
我们最开始在上手鹿班“批量抠图”需求时发现用户上传的图像质量、来源、内容五花八门想用一个模型实现业务效果达到一劳永逸很难。在经过对场景和数据的大量分析后定制整体框架如下 主要涵盖了过滤、分类、检测、分割四个模块
•过滤滤掉差图过暗、过曝、模糊、遮挡等主要用到分类模型和一些基础图像算法
•分类瓶饮美妆等品类商品连通性比较好3C、日用、玩具等品类则反之另外场景如人头、人像、动物需求也是各具差异故而设计不同的分割模型提升效果
•检测在鹿班场景用户数据多来自于商品图很多是经过高度设计的图像一图多商品、多品类、主体占比小也不乏文案、修饰、logo等冗余信息增加一步检测裁剪再做分割效果更精准
•分割先进行一层粗分割得到大致mask再进行精细分割得到精确mask这样一方面可以提速一方面也可以精确到发丝级 如何让效果更精准
目前分类、检测模型相对比较成熟而评估模型则需要根据不同场景做一些定制电商设计图、天然摄影图等分割精度不足是所有模块中最薄弱的一个环节因此成为了我们的主战场。详述如下
•分类模型分类任务往往需要多轮的数据准备模型优化数据清洗才能够落地使用。据此我们设计完成了一个自动分类工具融合最新的优化技术并借鉴autoML的思想在有限GPU资源的情况下做参数和模型搜索简化分类任务中人员的参与加速分类任务落地。
•评估模型直接使用回归做分数拟合训练效果并不好。该场景下作为一个前序过滤任务作为分类问题处理则比较合理。实际我们也采用一些传统算法协助进行过暗、过曝等判断。
•检测模型主要借鉴了FPN检测架构。
1、对特征金字塔每一层featuremap都融合上下相邻层特征这样输出的特征潜在表征能力更强 2、特征金字塔不同层特征分别预测候选anchors可增加对尺度变化的鲁棒性提升小尺度区域召回 3、对候选anchor的设定增加一些可预见的scale在商品尺寸比例比较极端的情况下大幅提升普适性
•分割融合模型 与传统的只需要分别前景、背景的图像分割segmentation问题不同高精度抠图算法需要求出某一像素具体的透明度是多少将一个离散的0-1分类问题变成[0, 1]之间的回归问题。在我们的工作中针对图像中某一个像素p我们使用这样一个式子来进行透明度预测 其中和分别代表了这个像素属于前景和背景的概率是混合权重。我们的网络可整体分为两部分分割网络和融合网络如下图 分割网络我们使用了在图像分割任务中常用的编-解码器结构作为我们的基础结构但与传统结构不同我们的网络中使用了双解码器分别来预测前、背景概率和。如果像素p在图像的实心区域透明度为0或1我们预测像素透明度的真实值如果p在图像的半透明区域透明度值在0到1之间我们预测像素透明度真实值的上下界。通过在半透明区域使用加权的交叉熵损失函数使和的值相应升高即可将透明度的真实值“包裹”!在这一区间中。 右图中红色部分即是被前背景概率包住的像素!
融合网络由数个连续卷积层构成它负责预测混合权重。注意在图像的实心区域像素的前背景预测往往容易满足这一条件此时和求导恒为0这一良好性质令融合网络在训练时可以自动“聚焦”于半透明区域。
应用产品化开放
得以商业应用的基础是我们在应用层单点能力如人像/人头/人脸/头发抠图、商品抠图、动物抠图后续还会逐步支持卡通场景抠图、服饰抠图、全景抠图等。据此我们也做了一些产品化工作如鹿班的批量白底图功能、E应用证件照/战报/人物换背景钉钉-我的-发现-小程序-画蝶等。
原文链接 本文为阿里云原创内容未经允许不得转载