伊瓢 发自 凹非寺
量子位 报道 | 公众号 QbitAI

商汤最近发了一篇ECCV,搞了一个巨大的电影片段数据库。

别担心,商汤可不是准备拍电影,而是提出了新的视频找人方法——也就是,无论一位电影明星演的是青春少女还是白发老人,无论TA露出了正脸还是侧颜,无论影片的镜头明亮鲜丽还是灰黄暗淡,AI都能精确的找到TA,TA的正脸、身姿和背影

除了统计电影明星的出镜率,视频找人最主要的作用是抓罪犯,比如我国知名除暴安良艺术家张学友老师(的演唱会上的警察用的AI)就十分擅长这个技能。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

像演唱会这种公共场合,无数摄像头采集下了现场几乎所有的场景,而出没在演唱会的犯罪嫌疑人也难逃一拍,如果AI找到视频中犯罪嫌疑人的脸,警察叔叔可以当场迅速出动,拿下这名犯罪嫌疑人。

不过,研究人员并不认得那么多逃犯,也不能从警察叔叔那里要监控视频,于是,他们机智的想到了电影明星——创建了一个名为Cast Search in Movies(CSM)的数据集,其中包含来自192部电影1218个演员12.7万个片段,所有片段的标识都是手动注释的,并且每个演员身份还附带参考照片。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区
△ 请自行辨认CSM数据集里的他们是谁

数据集中包含每位演员在多部电影里出演的角色。如果一部电影的角色太多,就只保留10个最主要的角色。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

整体来看,比较一下其他数据集,CSM至少在数量上十分领先了,还可以执行搜索任务。

不过,由于数据库是电影明星和电影中的角色,现代电影工业复杂的服化道系统可能要把这个AI刁难一下了,毕竟,化妆技术可以把30岁的演员变成16岁的小萝莉,也能变成50岁的老阿姨。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区
△ “坚强女主”VS“恶毒贵妃”竟然是同一个人?

所以,要如何保证AI可以识别出这些和真人相貌差别巨大的角色呢?需要用到竞争共识(Competitive Consensus)的方法。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

上面这张图,展示了竞争共识和传统的现行扩散方法在标签传播上的差异。

图中(左侧)展示了神经网络的四个节点,旁边的数字是它们的概率向量。我们需要从左侧节点向右侧节点传播标签,但是还有两个邻居节点是噪声。

右边是线性扩散和竞争共识的计算过程。可以看到,在噪声很多的图中,以传播最确信信息为目标的竞争共识更健壮。

竞争共识处理的结果不错,已有的跨视频搜索人物的方法,mAP最高为42.16%,而本篇论文中的新方法将mAP提高到了62.27%。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

同一演员扮演的角色,无论正面、侧面还是反面,无论扮靓还是扮酷,该系统都成功的把他们认了出来。

比如,在《复仇》中饰演Victoria Grayson的女演员玛德琳·斯托:

数据集中,不管是正脸:

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

还是挡脸,都可以识别出来。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

甚至背影都能认出来。

凭一张照片找到视频中你所有的镜头,包括背影丨ECCV2018-深度学习中文社区

作者

这篇论文的三位作者中,除了大家熟悉的商汤科技联合创始人林达华大牛之外,一作是林达华的学生,香港中文大学-商汤科技联合实验室的博士生黄青虬;二作是商汤科技研究院高级研究员刘文韬。

传送门

Person Search in Videos with One Portrait Through Visual and Temporal Links
Qingqiu Huang, Wentao Liu, 林达华
arXiv:
arxiv.org/abs/1807.1051
github:
github.com/hqqasw/perso

不过,数据集的链接目前还是“coming soon”的状态。

 

欢迎大家关注我们的专栏:量子位 - 知乎专栏

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI· 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态