首页 >> 研究方向 >> 全息图象解析

全息图象解析

Image Parsing: Unifying Segmentation, Detection, Grouping and Recognition

 

    本项目旨在研究计算机视觉前沿理论和数学模型,结合最新技术发展要求,解决对图像和视频进行全息解析和检索的问题,这是开发下一代智能机器人,自动监控、跟踪系统和实时人机交互界面等项目中的核心技术之一,同时也可以直接应用在卫星图片理解,多媒体信息检索和图像、视频压缩处理等实用领域。项目内容包括:( 1 )建立一个统一多种视觉模式的数理模型,设计通用算法;( 2 )实现全息图像和视频解析的计算机视觉系统样机;( 3 )通过建立世界上最大的百万幅人工标注图像数据库,为建立理论( 1 )和系统( 2 )提供学习和性能评估的科学平台。

    自然景物图像通常出现多种视觉模式,如下图例所示,计算机视觉的主要任务是将每个输入图像自动地、有层次地分解为相应的视觉模式,计算它们的空间关系,恢复其三维场景结构,并跟踪其运动。人脑在完成这些任务时,几乎毫不费神,不加思索,那是因为大脑皮层有很多视觉计算区域(相当于巨量并行运算芯片),大量的神经元(百亿数量级)被投入视觉计算任务。为此,我们必须能从理论上,用严格的数学工具搞清楚视觉计算的机制,这就归结为两个重要问题:

    (1)为各种视觉模式建立一个统一的数学模型。自然界中包含着大量由各种各样的随机过程产生的视觉模式, 如纹理,纹理基元,随机点、直线、曲线,图,区域,以及物体等等。自然图像正是通过这些随机过程按照一定的空间配置而产生的。不同的视觉模式“生活”在不同的维度的子空间里,它们之间又必须能够相互比较和转换。

 

 

  

    (2) 设计高效的、鲁棒的、有全局优化能力的计算算法,如下图2所示,是一个结合自上而下产生式模型和自下而上描述式模型的统一计算框架。算法的根本任务是对表示各种视觉模式的数学模型作比较和选择,从而得出对图像的最佳(合理)解释。

parsing