- N +

中戏,视频分割在移动端的算法发展总述,全民枪战

原标题:中戏,视频分割在移动端的算法发展总述,全民枪战

导读:

图2语义分割领域划分基于图片的语义分割经典算法包括FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet...

文章目录 [+]

点击上方“CVer”,挑选加"星标"或“置顶”

重磅干货,榜首时刻送达

作者:陈泰红

https://zhuanlan.zhihu.com/p/60621619

本文已授权,未经答应,不得二次转载


语义切割使命要求给图画上的每一个像素赋予一个带有语义的标签,视频语义切割使命是要求给视频中的每一帧图画上的每一个像素赋予一个带有语义的标签。

视频切割是一项广泛运用的技能,电影电视特效、短视频直播等能够用该技能将场景中的远景从布景中别离出来,经过修正或替换布景,能够将使命设置在实际不存在不存在或不易完结的场景、强化信息的冲击力。传统办法可经过视频图画的手艺逐帧抠图办法(拍摄在带绿幕的专业拍摄棚环境摄勤闲宝下载制,后期特效完结布景移除切换图 1),比方《复仇者联盟》《美国队长》《钢铁侠》等经过专业软件(比方Pr、会声会影)参加各种传神的特效,让影片愈加风趣,愈加震慑。能够幻想2019年北京卫视和浙江卫视有了这样的特技,不需求人工逐帧抠图ps某吴姓闻名大叔,将是多么的调和…

图 1影视特效与绿屏抠图

本文首要总述视频切割的根底,比方视频方针切割的分类,点评方针和数据集,具体介绍Google为youtube app规划的移动端视频切割办法, 以及CVPR2019视频切割范畴获得的最新开展,简略介绍RVOS、要点介绍在切割精度和实时性获得平衡的FEELVOS和SiamMask。

1 视频切割根底

1.1 视频方针切割分类

语义切割分为图画的语义切割和视频语义切割,如所示。

图 2 语义切割范畴区分

依据图片的语义切割经典算法包含FCN,SegNet、Dilated Convolutions、DeepLab (v1 & v2& v3)、RefineNet、PSPNet、Large Ker中戏,视频切割在移动端的算法开展总述,全民枪战nel Matters等。可是,视频方针切割使命和图片的语义切割有两个根本差异:视频方针切割使命切割的对错语义的方针,并且视频方针切割增加了一个时序模块,它的使命是在视频的每一接连帧中寻觅方针的对应像素。直接运用经典的语义切割算法难以到达视频处理的功用,这也是为什么依据时序的MaskTrack算法优于依据视频独立帧独立处理的OSVOS算法。

1.2 视频切割点评方针

视频方针切割点评方针包含概括准确度(Contour Accuracy)和区域相似度(Region Similarity),时序安稳度Temporal stability。

区域相似度(Region Similarity):区域相似度是掩膜 M 和真值 G 之间的 Intersection over Union 函数

概括准确度(Contour Accuracy):将掩膜当作一系列闭合概括的调集,并核算依据概括的 F 衡量,即准确率和召回率的函数。即概括准确度是对依据概括的准确率和召回率的 F 衡量。

直观上,区域相似度衡量标示过错像素的数量,而概括准确度衡量切割鸿沟的准确率。

1.3 视频切割数据集

视频切割范畴的数据集包含DAVIS系列(DAVIS-2016,DAVIS-2017,DAVIS-2018),youtube-VOS,GyGO: E-commerce Video Object Segmentation by Visualead(电商视频方针切割数据集),KITTI MOTS(Multi-Object Tracking and Segmentation)and MOTS Challenge Datase中戏,视频切割在移动端的算法开展总述,全民枪战ts。

2 Google:移动端完结视频切割

2.1 移动终端与视频切割

在移动终端能够完结视频切割,比方华为Mate 20系列其新增的人像留色功用(人像留色或人像切割是视频切割的一部分,切割方针是人类),能够在录像进程中,实时辨认出人物的概括,然后经过AI优化只保存人物身上的色彩,将周边景象全部黑白化,如此一来使人物主体愈加杰出,打造大片既视感。

图 3 人像留色

如图 3所示,图片中的人物主体,衣服的色彩、人体肤色、头发的色彩得以全部保存。反观作为布景的地上、栏杆、台阶以及远方的树木等景象,一致变成了黑中戏,视频切割在移动端的算法开展总述,全民枪战白色。全体看起来,十分具有电影大片的既视感。

本节首要介绍谷歌为手机规划的用摄像头实时发明视频切割的抠图技能[1],文章中完结的视频人像切割的作用十分惊人,并且在iPhone 7上能跑 100+ FPS。

图 4 YouTube stories视频切割

stories 是 YouTube 的轻量视频格式。将视频切割整合stories,给 YouTube app 带来准确、实时、便携的移动视频切割体会(需求翻墙体会)。Google供给的视频切割技能不需求专业设备,让创作者能方便地替换和修正布景,然后轻易地进步视频的制造水准。以移动端神经网络处理语义切割为根底,满意以下条件:

l 移动端的处理方案有必要是轻量级的,关于实时揣度,到达每秒 30 帧的切割速度。

l 视频模型需求运用时刻冗余度(相邻帧看起来相似),和具有时刻一致性(相邻帧得到相似的成果)。

l 高质量的切割成果需求高质量的标示。

2.2 标示数据集

为了完结高质量的数据集,google标示了10w+的图片,这些图片包含丰厚的远景和布景信息。远景标示完结精细化的像素级定位,比方头发、眼睛、颈部、皮肤、嘴唇等,获得98%以上IoU的人工标示质量。现在google没有揭露这部分数据集(图 5),能够运用别的一个开源的数据集Supervisely Person Dataset[2]代替完结模型的练习。

图 5 google标示人像数据集

2.3 网络架构

图 6 网络架构输入通道

谷歌规划的模型参阅[3],网络模型的输入帧是当时帧(t)RGB三通道+上一帧(Prior Mask,t-1邪丐凌仙帧)的二进制掩码。Prior Mask是上一帧的推理成果,假如是视频的首帧,Prior Mask能够是all zero的一个matrix。

在模型练习时没有视频首帧的mask,所以需求运用算法把ground truth mask 转化成或许的Prior Mask。Google运用[3]的办法:

l 直接运用Empty previous mask ,模仿视频的首帧。

l 对 ground truth mask做仿射改换,模仿人对着镜头左右/上下/前后移动。

l 对&n黄子韬被告上法庭bsp;g兰酱直播间round truth mask做thin-plate splines改换,Google的说法是能够模仿摄像头的快速移动和旋转。

图 7 Unet+Hourglass网络架构

Google在移动端选用Unet+Hourglass架构。Hourglass在人体姿势估量常用的一种架构,模型揣度速度很慢,Google做一下改善:

l 选用大卷积核且stride=4以上,提取RGB特征,较少运算杂乱度。

l 运用大标准下采样和Unet跳动衔接,加快在上采样时康复低层次特征。

l 修正ResNet bottleneck。ResNet bottleneck完结信道紧缩4倍(256通道特征紧缩到64通道),而Google紧缩到16通道,且无显着下降特征质量。

l 为了改善人像边际的准确度,在网络的最终接了几层DenseNet Layer(运用了 Deep Image Matting 中的一些idea)。

Google的这些改善办法在移动端设备快镇原刘海龙速运转,在iPhone 7上完结了100+ FPS,在Pixel 2上完结了40+ FPS,在Google自己标示的数据集上完结IoU94.8% 的精度,为YouTube stories完结流通的运转作用。

因为Google发布的技能仅在一篇blog[1],没有发布练习细节和具体的网络架构,为复现增加不少困难。

2.4 优缺点剖析

Google完结的移动端视频切割,完结在一般设备运转特效的可行性。iPhone 7形似也不算低端手机,华为在Mate 汤唯父亲20完结人像留色,AI进入人类日子的方方面面。

Goog麝手le提出许多能够学习的方向山城小岳岳,比方模型紧缩能够运用魔改ResNet bottleneck,大卷积核和大的stride。数据集方面能够选用视频切割常用的Lucid Dreaming(其实是ground truth进行放射改换并随机放在图画上,数据增强的一种办法)。

Google没有开源自家数据集和模型细节,模型的复现增加一层组词些困难。

3 FEELVOS

FEELVOS[5]是德国亚琛工业大学和Google联合提出的视频切割算法,首要处理半监督视频切割中揣度速度慢,网络结构杂乱,神经网络依赖于榜首帧的fine-tuning,依据embedding向量机制、global matching和local matching,完结多方针切割,模型简略,揣度敏捷,端到端完结且较高鲁棒性,在DAVIS2017的验证集上J&F有65%,获得视频切割速度和精度的平衡。

3.1 Motavation

DAVIS Challenge on Video Object Segmentation是CVPR会议之一的workshop,其间semi-supervised video object segmentation使命验证倾向J&F方针,对模型的实时性要求不高,比方2018 DAVIS challenge的冠军模型PReMVOS集成4个不同的神经网络,视频每帧揣度时刻38秒,无法满意实时性的要求。论文规划一个简略(单一神经网络),揣度快速(不需求运用榜首帧做微调),端到端完结且使用于多方针切割,在DAVIS 2017首要较高的鲁棒性。

论文依据Pixel-Wise Metric Learning (PML),提出一种学习embedding向量的办法和附近匹配(包含global matching,local matching)作为神经网络的特征,结合backbone feature,前一帧猜测mask共4个维度特征用于端到端的模型练习。

3.2 网络架构

图 8 FEELVOS模型架构

如图 8所示FEELVOS神经网络的架构,包含backbone feature,pixel-wise embedding,local matching,global matching等Dynamic segmentation head部分。

在视频处理进程中,视频中每一帧的每一个object经过backbone提取根底特征和embedding lay吴绮珊er提取embedding特征。依据embedding向量,当时帧和前一帧之间核算local matching distance map、当时帧和视频榜首帧之间核算global matching distance map。Dynamic segmentation head堆叠4个特征(backbone feature,ocal&nb阮忠元与黄家驹对比照sp;matching distance map,global matching distance map,前一帧mask猜测),运用深度可别离卷积以及softmax猜测当时帧的mask信息。

以上核算进程是针对每一个object核算,跟着object增多,核算时刻线性增加。

论文选用的backbone 是去除最终一层的DeepLabv3+(Xception-65,特征分辨率相关于原RGB图画缩小4倍),再加了一个embedding layer输出embedding向量。backbone的提取特征是同享办法,既每个图画核算一次特征。每一个embedding向量对应stride=4的RGB图画区域。不同帧图画或同一图画的两个像素归于同一类,其embedding向量间隔很近,假如两个像素归于不同类别,其embedsuper少女ding向量间隔较远。

图 9 embedding特征示意图

p,q表明两个像素,ep 和 eq 别离表明对应的embedding向量, 表明embedding空间间隔,其核算办法为:

d(p,q) 取值规模是[0,1]之间。关于相同类别的像素,咱们能够很轻松的求出d的值应该很挨近0或许为0;对弈不同类别的像素,d挨近1或许为1。

embedding layer由深度可别离卷积构成,既3x3卷积层和1x1卷积,提取特征维度是100。在pixel-wise embedding根底上,当时帧和视频榜首帧之间核算global matching distance map。当时帧和前一帧之间核算local matching distance map。

global matching distance map的核算比较消耗时刻。论文中输入图画像素为465x465,embedding layer输出为为(465/4)x(465/4)x100,每一帧都需求和榜首帧核算distance map,比较消耗时刻。

local matching distance map的核算可简化。前一帧和当时帧中方针的移动一般是很小的,没有必要还去用当时embedding feature的一个向量对一切的榜首帧的embedding向量核算间隔仅在一个k邻域的巨细中核算间隔。

图 10 Dynamic segmentation head 网络架构


Dynamic segmentation head网络输入为4类:backbone feaures、global matching&nbs中戏,视频切割在移动端的算法开展总述,全民枪战p;distance map,、local matching distance map和前一帧的mask输出。

Dynamic segmentation head由四个深度别离卷积(7x7卷积核)组成,发生一个一维的feature map(1 x w/4 x h/4)用来猜测类别,关于每一个方针都需求Dynamic segmentation head核算logits。

论文试验环境进行Ablation Study,Dynamic segmentation head网络有四个输入,作者别离disable其间一些输入,做了6个试验。证明了local matching和globa中戏,视频切割在移动端的算法开展总述,全民枪战l matching很重要,丢掉它们会导致网络功用的大幅下降。

图 11 FEELVOS 中戏,视频切割在移动端的算法开展总述,全民枪战在DAVIS2017耗时比照

3.3 优缺点剖析

1、如图 11所示,FEELVOS在功用和耗时完结平衡,耗时在0.6s/帧左右,实时性需求进一步调试。

2、Global matchin方天荫g阶段需求当时帧和首帧的特征图核算一切的匹配联系,论文现已简化为采样首帧的每个object 1024像素,仍然核算量较大。

3、不需求每帧都和首帧核算Global matching,在运动缓慢的视频,比方跳动5帧或10帧核算。只要local matching核算会带来累计差错,而Global matching能够做到纠正累计差错。

4、在核算当时帧的mask时依赖于前一帧的mask,跟着视频序列的增加,mask差错会累计增加,主张增加一个mask监督对齐的进程。

5、模型对首帧ground truth影响较大。比方在论文供给的试验中,首帧是一个猫的切割图,背部区域没有符号,在这以后猜测中猫的背部区域猜测不是很好。

4 RVOS

视频方针切割依赖于时序相关性和空间相关性,而LSTM在处理时刻序列具有天然的优势。在ConvLSTM根底上,来自加泰罗尼亚敞开大学的学者提出依据RNN完结的视频切割算法ROVS,处理one-shot和zero-shot多方针视频切割问题,在P100 GPU到达44ms/帧的揣度处理速度。

4.1 ConvLSTM

LSTM现已在语音辨认、视频剖析、序列建模等范畴获得了十分精彩的开展,传统的LSTM网络由input gate, forget gate, cell, output gate, hidden五个模块组成。

图 12 FC-LSTM与ConvLSTM

LSTM结构咱们也能够称之为FC-LSTM,因其内部分之间是依赖于相似前馈式神经网络来核算的,而这种F777epC-LSTM关于时序数据能够很好地处理,可是关于空间数据来说,将会带来冗余性,原因是空间数据具有很强的部分特征,可是FC-LSTM无法描写此部分特征。ConvLSTM测验处理此问题,做法是将FC-LSTM中input-to-state和state-to-state部分由前馈式核算替换成卷积的方法图 12。

4.2 网络架构

如图 13所示RVOS网络架构,其backbone是典型的Encoder-Encoder,每帧图画中N个方针对应N个RNN。论文提出的模型处理两个问题one-shot and zero-shot VOS。

one-shot VOS既一般的DAVIS使命,给定初始化帧的mask和图画序列,猜测视频序列的mask。关于zero-shot VOS使命,输入仅为RGB图画。

图 13 RVOS网络架构

zero-shot VOS从视频序列中切割没有任何先验常识的方针,模型有必要检测和切割呈现在视频中的方针。YouTube-VOS和DAVIS是为one-shot VOS规划,在视频序列中会呈现初始化帧没有的方针且没有标示信息,给 zero-shot VOS带来很大的困难。论文是在每帧图画中切割10个方针方针,希望5归于猜测方针。

4.3 优缺点剖析

1、多方针实体切割的功用依赖于切割实体的数目。

2、RNN尽管处理时序可空间具有显着优势,ConvLSTM也可用于处理图画,可是对存储空间的依托高,揣度时刻上不易到达实时性的需求。

3、个人认为zero-shot VOS现已脱离了VOS范畴,能够视频分解为序列图形,单独在每个图画上做实体切割,在进行图画之间的匹配。

5 SiamMask

5.1 Motavation

方针盯梢(Tracking)和视频方针切割( video object segmentation,VOS)尽管同属视频剖析范畴,一向是非分明。视觉方针盯梢使命就是在给定某视频序列初始帧的方针巨细与方位的情况下(一般为标示框方法),猜测后续帧中该方针的巨细与方位。前期的盯梢算法运用坐标轴对齐的矩形框,而在VOT2015之后运用旋转矩形框,对盯梢精度要求的进步,实时是mask的近视核算。

VOS是给定初始帧的mask,猜测视频序列的mask。在VOS范畴,一般依据光流法,离线练习且需求初始帧的mask真值做finetune,为了精度而下降实时性,约束了视频切割的使用规模。

中科院自动化所和牛津大学规划的SiamMask[8],将视频方针盯梢和视频切割结合起来,实实际时像素级的方针定位。初始化简略,仅需求在初始帧给出方针的围住框,在这以后的图画序列核算估量的围住框和方针切割mask。

5.2 网络架构

图 14 siammask网络架构

如图 14所示siammask网络架构在 Siamese Net based tracker 的根底上,进一步引进 Mask branch,得到切割成果和盯梢方针信息。这一步,其实相当于必定程度上处理了方针标准改变的问题。

127x127x3是模板patch,来自第0帧。255x255x3是查找区域,来自第n帧的一个部分区域。 表明卷积提取特征,两个分支同享同一个backbone,别离得到15*15*256和31*31*256的特征图,再经过 (depth-wise卷积)得到17*17*256特征图。

Mask分支是在Siamese Net新增,运用一个vector来编码一个RoW的mask。这使得每个prediction方位具有十分高的输出维度(63*63),论文经过depthwise的卷积后级联1x1卷积来升维来完结高效运转。

图 14所示的mask猜测相似于encode-decode模型,在卷积进程不断丢失特征,猜测的Mask分支的精度并不太高。论文提出运用SharpMask语义切割模型,Refine Module用来进步切割的精度。

图 15 siammask网络的Refine Module网络架构

Siammask在视频盯梢范畴(VOT),VOT2016和VOT2018数据集上的功用,咱们的办法现已到到达SOTA的成果,一起坚持了56fps的超实时的功用体现。Siammask在视频方针切割范畴(VOS), DAVIS2017和Youtube-VOS数据集精度体现尚可,可是实时性进步1-2个数量级,56fps的处理速度能够满意移动终端的需求。

5.3 优缺点剖析

1、Siammask的多使命学习办法,一起在VOT和VOS获得精度和实时性的trade off,学术界的研讨比较简单落地工业级。

2、Siammask的mask猜测分支选用SharpMask语义切割模型,精度带进步,代替这部分的模型能够进一步进步mask猜测精度。

3、现在tracking没有专门处理消失问题(object traker假如从当时画面脱离或彻底遮挡),特别的,siammask挺简单遭到具有语义的distractor影响。当遮挡时,它猜测的mask是两个物体的mask。VOS范畴处理遮挡和消失也比较困难。

以上仅为个人阅览论文后的了解、总结和考虑。观念不免误差,望读者以置疑批评情绪阅览,欢迎沟通纠正。

文末附CVer - 图画切割沟通群入群办法

参阅文献

[1] ai.googleblog.com/2018/

[2] supervise.ly

[3] Anna Khoreva,Federico Perazzi1,Rodrigo Benenson. Learning Video Object Segmentation from Static Images. arXiv preprint arXiv: 1612.02646, 2016.

[4] Anna Khoreva  Rodrigo Benenson  Eddy Ilg.Lucid Data Dreaming for Video Object S超级信使商务版egmentation. arXiv preprint arXiv: 1703.09554, 2017.

[5] Paul Voigtlaender, Yuning Chai, Florian Schroff, .FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation. In Proc. of the IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2019.

[6] Xingjian&nb中戏,视频切割在移动端的算法开展总述,全民枪战sp;Shi, Zhourong Chen, Hao Wang.Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting. arXiv preprint arXiv: 1506.04214,&nbs爱Bp;2015.

[7] Carles Ventura, Miriam Bellver, Andreu Girbau.RVOS: End-to-End Recurrent Network for Video Object Segmentation. In Proc. of the IEEE Conference on Computer Vision and程琳老公Pattern Recognition (CVPR), 2019.

[8] Qiang Wang, Li Zhang, Luca Bertinetto.Fast Online Object Tracking and Segmentation: A Unifying Approach.&n芭蕾小女子bsp;In Proc. of the IEEE Conference on Computer Vision andPattern 董子初和将军;Recognition (CVPR), 2019.

CVer图画切割沟通群


扫码增加CVer帮手,可申请参加CVer-图画切割沟通群。必定要补白:图画切割+地址+校园/公司+昵称(如图画切割+上海+上交+卡卡)

▲长按加群


这么硬的总述共享,费事给我一个在看


▲长按重视咱们

费事给我一个在看

有好的文章希望我们帮助分享和推广,猛戳这里我要投稿

返回列表
上一篇:
下一篇: