首页 >> 研究方向

研究方向

Research Directions

油画 刺绣 线描淡彩 幻脸

 

    直观上,计算机视觉就是从图像或视频中学习与推理“什么在哪里(Where is what)”。我们的研究思路是从全局观来看待视觉和信息科学中的问题,寻找统一框架来综合分析和解决问题;具体而言,我们从数据与测试标准(Data and Benchmark)、统计建模(Statistical Modeling)、感知学习(Perceptual Learning)和推理计算(Inferential Computing) 四个方面协同开展:

( 1 ) 数据与测试标准方面,它们是统计建模、感知学习和推理计算算法训练和测试的基石;我们目标是研究建立世界上最大(百万数量级)、标注信息最完整的人工客观(Ground Truth)标注图像和视频数据库与不同等级的测试标准(Benchmark)。

( 2 ) 统计建模方面,我们研究视觉表示性知识(Visual representational knowledge)统一表达的数学框架,出发点是基于客观自然图像中物体的多层次分解与构成特性(Hierarchical decomposition and composition),内容包含两点:各个层次上的视觉字典(Visual vocabulary)和字典基元之间的关系库(Relation set)。目前,研究的核心是建立随机上下文相关图像语法(Stochastic Context Sensitive Image Grammar),它融合了传统基于结构语法方法(Structure or Grammar-based method)和基于外观模型方法(Appearance-based model),数学上统一了随机上下文无关语法 (Stochastic Context Free Grammar, SCFG)、调和分析方法 (Harmonic analysis),如小波 (Wavelets),和马尔可夫随机场(Markov Random Field, MRF),建立与或图表达(And-Or Graph Representation)理论与方法,统一大量视觉模式的表示,尤其是类内(Intra-class)结构变化大的物体,如钟、衣服等。

( 3 ) 感知学习方面,我们研究基于人类感知机理的小样本学习理论和“举一反三”的泛化能力。通过与或图表示显式的表达视觉模式的多层次分解与构成特性,实现基于小样本学习;通过对与或图概率模型进行抽样(Sampling),可以得到训练中没有出现的新的表现形式(Novel configuration),实现“举一反三”。目前,研究的核心是在Kullback-Leibler测度准则下,统一描述式模型(Descriptive model)和产生式模型(Generative model)的学习,数学上,前者对应的是隐式流形(Implicit manifold),后者为显式流形(Explicit manifold),它们之间以熵率(Entropy rate)作为度量,在尺度 (Scale) 维上可以相互转化。

( 4 ) 推理计算方面,我们研究视觉计算性知识(Visual computational knowledge)的统一表达与推理,内容包括两点:各种隐式与显式的特征(Implicit and explicit feature)和自底向上与自顶向下的计算顺序(Computing order),目标是建立高效鲁棒的视觉推理算法,不局限于初始状态,在Bayesian理论框架下达到全局最优。目前,研究的核心是统一并有效调度(Scheduling)自底向上的辨别式模型(Bottom-up discriminative model)计算与自顶向下的产生式模型(Top-down generative model)计算,以及研究产生式模型如何指导辨别式模型,数学上,辨别式模型通过对某些边缘分布的计算来驱动产生式模型在联合分布状态空间进行跳转(Jump)或扩散(Diffusion),反之,产生式模型根据联合分布来指导如何有效的进行辨别式计算;基于与或图表示,研究可适用于大规模计算的递归(Recursive)式构架推理算法,争取率先实现世界上第一个视觉推理计算引擎。

目前,莲花山研究院 (LHI) 共有五个研究实验室:

实验室一:视觉基础理论研究实验室

(请点击各个按钮进入了解对应子课题更多信息)

实验室二:人工客观标注图像和视频数据库

研究方向及目标:

  • 研究自然界中大量视觉模式的客观表达,建立人工客观标注图像和视频数据库的理论、方法和规范。
  • 建立世界上最大、标注信息最全面的百万幅人工标注图像数据库,有体系地逐步建立一个通用的计算机视觉原料库、实验平台以及各类不同难易程度的测试标准(Benchmark)。

LHI

实验室三:大型全局图像语义解译

研究方向及目标:

  • 从事计算机视觉与图象科学中基本的、核心的问题的基础研究。
  • 从事作为视觉计算的通用平台的计算机视觉推理引擎的研制。
  • 数学基础研究,人脑和认知科学研究。

实验室四:视频解析

研究方向及目标:

  • 人工解析视频数据库
  • 复杂运动与事件解析与合成
  • 视频修复、编辑与艺术化
  • 运动分析、信息检索

motion firefirefire

 

实验室五:数字化艺术

     科学和艺术一直在一种微妙的关系下共同发展着。有人说科学的作用是安抚,艺术的作用是颠覆。然而,科学家敏锐的洞察力、严谨的思维力和艺术家非凡的创造力、灵活的表现力之间看似对立,却又在很多细节上统一。事实上,人类的世界是一个离散的、有限的世界,包括科学和艺术,珍宝都在于选择。我们希望用一种科学式的方法,找到挑选人们喜爱的艺术品的方法,并进一步用科学式的语言告诉人们,什么是艺术。

油画 刺绣 线描淡彩 幻脸 插图库项目 十字绣