文档智能研究团队参加国际文档分析与识别大会ICDAR2024
2024年8月30日至9月4日,模式识别领域的重要学术会议-国际文档分析与识别大会(International Conference on Document Analysis and Recognition,ICDAR2024)在希腊雅典召开。王选所文档智能研究团队在此次会议上录用了4篇论文,硕士生朱建华代表研究团队参加了此次会议,并进行了相关论文展示和报告。
作为文档识别领域的国际权威会议,ICDAR 2024在全球范围内吸引了广泛关注,共收到263篇会议论文投稿和35篇Journal Track论文投稿。经过严格评审,共有159篇会议论文和17篇Journal论文被录用。录取的会议论文中,66篇被选为口头报告(Oral Presentation,录取率约为25.1%),93篇以海报形式展示(Poster Presentation)。
汤帜研究员和高良才副教授带领的文档智能研究团队在本次会议上共发表4篇论文,包括1篇Oral长文,2篇Poster和1篇Journal Track论文,论文具体信息如下:
[1] Jianhua Zhu, Wenqi Zhao, Liangcai Gao, ICAL: Implicit Character-Aided Learning for Enhanced Handwritten Mathematical Expression Recognition, ICDAR 2024
该论文针对手写数学公式识别中将手写公式图片转换为LaTeX格式的挑战,特别是难以处理的隐式字符如“^”、“_”、“{”和“}”,提出了隐式字符构建模块(ICCM)。这一模块通过预测和整合公式中的隐式字符,改善了传统编码器-解码器模型在字符处理和信息整合方面的限制。ICAL模型显著提高了公式识别的准确性,在CROHME和HME100K数据集上取得了突破性进展。
朱建华做口头报告
[2] Xingjian Hu, Baole Wei, Liangcai Gao, Jun Wang, SegHist: A General Segmentation-Based Framework for Chinese Historical Document Text Line Detection, ICDAR2024
该论文提出了一个用于历史文档文本检测的通用框架(SegHist),使现有基于分割的文本检测方法能够有效应对历史文档中高纵横比的文本行带来的挑战,更准确的定位文本行区域。SegHist通过文本中心拉伸的方式构建文本中心分割图的预测目标,并通过迭代的方式恢复预测的文本中心区域,实现了对于不同纵横比文本均能实现精准的文本检测。
[3] Haochen Wang, Kai Hu, Haoyu Dong, and Liangcai Gao, DocTabQA: Answering Questions from Long Documents Using Tables, ICDAR 2024
这篇论文针对长文档中的问答任务提出了一个名为DocTabQA的新问题设定,旨在通过表格结构回答问题。首先,该方法利用长文档中的相关句子,通过两阶段框架DocTabTalk生成层次化的表格,以此提高信息的组织和清晰度。其核心创新包括AlignLLaMA和TabTalk,前者通过对问题和文档句子的语义对齐来检索相关句子,后者则逐步生成表格的行列标题和表格主体内容。实验结果表明,该方法在DocTabQA任务及表格生成任务中显著提升了GPT-4的性能。
[4] Ziyi Zhu, Zhi Tang, Liangcai Gao, Table image dewarping with key element segmentation, IJDAR2024
该论文提出了一种创新的两阶段模型框架,用于解决表格图像去畸变的任务。通过关键元素分割来聚焦于表格结构特征,增强最终的去畸变效果;同时引入了注意力机制来捕捉全局畸变。实验表明,在基于生成数据训练的条件下,模型在表格图像去畸变的表现大大优于已经提出的方法,并且,对于自然场景下采集的真实图像同样展现出良好的泛化能力,成功提升了表格结构识别的精确度。
上一篇 下一篇