研究方向

数字文档处理技术

 

数字文档处理技术研究方向面向智能媒体、移动阅读、在线教育等领域的应用需求,开展文档大数据分析、文档图像分析、版面理解、文档检索等关键技术的研究,曾获国家科技进步二等奖1次、信息产业重大技术发明奖1次,已在国内外顶级期刊和会议上发表了论文200余篇,获授权发明专利100余项,其中有3项专利获中国专利优秀奖、1项获北京市发明专利奖二等奖。相关研究成果已经应用于数字出版、企业信息化、在线教育和电子公文等领域,产生了良好的经济与社会效益。

数字文档处理技术研究方向主要研究数字文档的描述、加工、解析、检索、信息抽取、展现及保护等相关问题,当前重点研究数字文档处理与人工智能的交叉融合即文档智能。文档智能是指通过计算机进行自动阅读、 理解以及分析数字文档的过程, 是自然语言处理和计算机视觉交叉领域的一个重要研究方向,主要包括文档版面分析、文档信息抽取、 文档视觉问答以及文档图像分类等关键任务。

主要研究内容:

· 版面理解技术

版面分析:包括版面分割、布局结构分析、版面对象定位与识别、阅读顺序与逻辑层次恢复、元数据自动提取。

- 版面对象识别:包括文字识别,以及数学公式、化学分子式、表格、插图等复杂版面对象的自动定位与结构分析。

· 文档信息检索与问答

- 数学公式/分子式的检索与查重:研究基于LaTeX、MathML、PDF、CML、马库式图像(包括拍照)等格式的公式/分子式数据自动识别、索引、排序、推荐、自动求解等问题,以及在专利检索、文献查重、数学问题自动解答、新药新材料研发等重点领域的应用技术。

- 文档信息抽取与问答:研究如何从大量非结构化富文本文档内容中抽取语义实体及其之间关系,同时基于图像、文字、版面结构等多模态信息,完成文档分类与视觉问答任务。

· 数字版权保护技术

- 面向多模式应用的版权保护技术:研究多模式应用环境下的权利描述与执行、多粒度版权登记与关联、版权检测、版权可信交易、按需授权、以及流转追溯等。

· 复杂场景图像理解技术

- 场景文字检测识别:研究日常工作生活场景图像中文字块的检测与识别的通用方法。

- 金融表格信息抽取:研究电子文档、拍照扫描图像中金融表格的检测与内容解析。

- 立体几何线条图像三维重建:研究基于深度学习的立体几何对象的识别与三维重建等问题。

· 医疗+AI

- 医疗文档智能:研究病例、化验单等医学文档的文字识别、隐私信息检测与保护、信息抽取、语义标注等,实现医疗文档数据的结构化、标准化等数据治理任务。

- 医学影像智能:研究核磁、CT、超声、皮肤镜、X光等医疗影像的图像分割、分类、目标检测、质量评估等,实现辅助阅片等影像智能化应用。

主要科研成果:

· 研制了“基于数字版权保护的电子图书出版及应用系统”,获2009年度国家科技进步二等奖。基于该系统的“中华数字书苑”多次作为国礼被国家领导人在出访时赠送给国外科研机构或大学。

· 版面理解技术的研究成果应用于CEBX开放式文档格式标准,并研制了CEBX数据转换、跨平台阅读等系列软件,实现了小屏幕的移动终端上复杂版式(下图中拼音、图表、公式等)的实时排版,实现了PDF文件到XML文件的智能转换。另外,在财务表格识别、科研项目书管理、病例结构化、地图审核等方面,实现了多个落地应用。

· 公式/分子式识别检索技术的研究成果已经应用于多家智慧教育与在线学习平台。同时基于此技术,研发了多模式文献检索查重系统,实现了文本、公式、分子式、图片等多个模态的文献相似性检测,应用于万方数据文献查重系统和半结构化数据分析系统。

· 表格识别技术已经在多家企业应用。其中,金融表格解析技术在蚂蚁金服线上产品的应用,年均节省人力成本数百万元。