视觉“聚焦”——了解视频图像显著性检测

发布时间：2017-12-13 点击：[]

导语：

人类视觉系统（HVS）的研究发现，人们在观察视频图像时，习惯把大部分注意力集中在视觉聚焦点周围的小范围区域内，并赋予这个区域很高的分辨率，而聚焦点外的范围则以较低分辨率呈现，这种预测视觉关注区域的过程就叫显著性检测。北航国际交叉科学研究院、电子信息工程学院徐迈副教授的研究团队开展了视频和图像显著性检测模型的研究，成果现已发表至《IEEE Transactions on Image Processing》、《International Conference on Computer Vision (ICCV)》、《Computer Vision and Pattern Recognition (CVPR)》等国际重要期刊与会议上，并在多媒体通信领域内引起广泛好评。

研究背景：通信道路的“拥堵”

科研是为创造更好的未来，其灵感也源于现实生活的不足。通过智能终端欣赏视频资源，已经成为人们日常生活中必不可少的环节。用户对获取更高清视频需求在日益增长，使得通信行业的热点，聚焦在了如何实现海量高清音像视频数据更高效地传输。

视频通信领域的瓶颈在于随着超高清视频与全景视频的发展，网络需要传输的数据量在不断膨胀，但是传输数据的带宽却是有限的。正如空间有限的公路上行驶的车越来越多，容易引发道路拥堵。当下，有限带宽下的视频高效传输，已成为通信行业亟待解决的问题。

灵感来源：前沿热点的融合

徐迈老师及其课题组的研究兴趣为视频通信与图像处理，他们在研究压缩编码的过程中受人工智能和机器学习的启发，通过研究人类观看视频的用户体验，为视频压缩提供了新的解决思路。人类视网膜相当于以亿为单位像素级别的高清相机，人在观察视频图像时有一种聚焦“Attention（关注点）” 的机能，能够发挥“删繁就简”的功能能力，对于呈现给视觉的场景，只有我们关注的地方会很清楚，而周围则会出现相对模糊的情况。

受到启发的徐迈老师及其课题组大胆提出假设：如果为计算机赋予人的视觉机能，压缩视频数据时在人们视觉关注度高的区域分配更多的编码资源，使得视频压缩后仍能够达成人们视觉体验上高质量的效果，同时在周围节省编码资源。借鉴“Perceptual Video Coding（感知视频编码）”的“感知”技术，徐老师推动这一新的研究方向：建立人在视频图像中的关注区域预测模型，以预测视频图片场景中的视觉关注集中域。

研究拓展：年轻团队的合作

为了探索出人类视觉关注区域的模型，徐迈老师带领团队展开研究。团队中最小的成员为一名大三年级的本科生，徐老师说：“学生的兴趣与个人能力，才是开展科学研究的关键因素”。因此在徐迈老师的团队中，学生年龄呈现年轻化的特点。

研究团队通力合作，从数据出发，利用机器学习方法挖掘人体视觉认知规律。团队邀请多位被试者走进实验室，记录被试者观看视频时关注区域的结果数据，以实际采集到的数据为驱动，运用支持向量机和深度学习方法建立机器学习模型，实现视频关注区域的预测。

徐迈老师团队视频显著性检测的研究成果，不但能应用于视频图像压缩，还能够应用于多种领域，如对网页和展示排版设计领域提供指导，通过合理安放图标、文字，调整配图、配色，可以达到最大程度吸引视觉注意力的目标。而徐迈老师团队的下一步研究重点，将尝试拓展至具有“交互性、沉浸式”特点的全景视频新鲜领域。团队也将商讨与其他科研团队的合作方案，实现多学科之间相互交叉研究。

策划/文案：秦煜瑶、张金星

外文编辑：刘昕睿

设计：秦煜瑶技术：曹嘉辉

鸣谢：国际交叉科学研究院、电子信息工程学院徐迈副教授

编审：门户网站总编总监工作室

投稿：geoos@buaa.edu.cn

上一条：最长的夜

下一条：十二月晨兴——2017年12月晨兴音乐厅演出节目单