CN104517112A - 一种表格识别方法与*** - Google Patents

一种表格识别方法与*** Download PDF

Info

Publication number
CN104517112A
CN104517112A CN201310455065.0A CN201310455065A CN104517112A CN 104517112 A CN104517112 A CN 104517112A CN 201310455065 A CN201310455065 A CN 201310455065A CN 104517112 A CN104517112 A CN 104517112A
Authority
CN
China
Prior art keywords
cutting plate
table recognition
feature
directed graph
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310455065.0A
Other languages
English (en)
Other versions
CN104517112B (zh
Inventor
许灿辉
汤帜
徐剑波
陶欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangzheng Apapi Technology Co Ltd
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310455065.0A priority Critical patent/CN104517112B/zh
Priority to US14/096,532 priority patent/US9268999B2/en
Publication of CN104517112A publication Critical patent/CN104517112A/zh
Application granted granted Critical
Publication of CN104517112B publication Critical patent/CN104517112B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

一种表格识别方法,包括以下步骤:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;针对所述分割片构造出无向图;抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。本发明所述的表格识别方法,通过特征学习来训练模型,构造出更好的模型,提高了表格的识别效率。

Description

一种表格识别方法与***
技术领域
本发明涉及电子文档格式转换技术领域,具体地说是一种表格识别方法与***。
背景技术
根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结构和逻辑结构。文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑结构之间建立映射关系。在实际应用中,移动设备的可读性需求使物理和逻辑结构的恢复尤为重要。页面内表格的检测及识别是文档理解的重点之一。表格具有其独立的逻辑功能,需要对其进行物理划分和逻辑标签标定。固定版式文档中的表格对象可能由无数的文本图元和操作构成,也可能整体来自一个图像图元。
表格是文档的重要组成部分,如何准确地识别表格及其表格中的内容,对版式文档的分析尤其重要。现有技术中有一些识别并转换版式文档中表格的方法,如将PDF文档中的表格转换成Excel表格的方法,先识别PDF文档中的表格所含的文本块的边界位置坐标,根据文本块的边界位置坐标来对PDF文档中表格进行行划分和列划分,得到多个划分区域,确定各个文本块所属的划分区域,将划分好区域的文本块写入对应的Excel表格中,从而实现不依赖于PDF文档中的表格的边框线,将没有边框线或边框线不完整的PDF文档中的表格转换成Excel表格的目的。该方案的不足在于,表格框线的检测是传统基于规则的表格分割方法,在识别表格所含的文本块的边界位置坐标时,表格外部不能存在其它文本,否则会将外部文本错误地识别为表格中的文本,而在实际应用的版式文档中,表格之外往往存在众多的逻辑区块(如插图、标题、正文),很多表格从视觉上与正文文本段的区分特征并不明显,且表格风格变化多样,采用规则的方法很难识别表格与其它逻辑区块的分界线,容易将表格外的逻辑区块误认为表格内的一部分,难以将实际表格作为一个整体定位出来,识别效果不能满足实际需求。
发明内容
为此,本发明所要解决的技术问题在于现有技术中当表格外部存在其它逻辑区块时,很难识别表格与其它逻辑区块的分界线,从而提出一种可以定位表格的边界线,且将表格与其它逻辑区块组成具有逻辑意义的完整区块的基于概率图模型的表格识别方法。
为解决上述技术问题,本发明的提供一种表格识别方法与***。
一种表格识别方法,包括以下步骤:
对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
针对所述分割片构造出无向图;
抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;
根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;
调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
所述的表格识别方法,所述根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型的过程中,所述学习模型为条件随机场模型,过程包括:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
所述的表格识别方法,所述对所述基本图元进行分割,提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
所述的表格识别方法,所述提取页面内分割文本行时,采用聚类方法。
所述的表格识别方法,在所述针对所述分割片构造出无向图的过程中,根据所述分割片的邻域关系构造无向图。
所述的表格识别方法,在所述构造无向图的过程中,采用最小生成树方法构造无向图。
所述的表格识别方法,所述检测水平和垂直直线的交叉点的过程中,采用基于连通分量的方法检测水平和垂直直线的交叉点。
所述的表格识别方法,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
所述的表格识别方法,所述提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
所述的表格识别方法,所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。
一种表格识别***,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
构造单元:针对所述分割片构造出无向图;
检测单元:抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;
建模单元:根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;
调用单元:调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
所述的表格识别***,所述学习模型为条件随机场模型,所述建模单元中,包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
所述的表格识别***,所述分割单元中,将文本行中连续的文本分割到一个分割片中。
所述的表格识别***,所述提取页面内分割文本行时,采用聚类方法。
所述的表格识别***,所述构造单元中,根据所述分割片的邻域关系构造无向图。
所述的表格识别***,所述构造单元中,在所述构造无向图时,采用最小生成树方法构造无向图。
所述的表格识别***,所述检测单元中,采用基于连通分量的方法检测水平和垂直直线的交叉点。
所述的表格识别***,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
所述的表格识别***,所述第一特征提取子单元中,通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
所述的表格识别***,所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。
本发明的上述技术方案相比现有技术具有以下优点:
(1)本发明所述的表格识别方法及***,方法为对原始版式文档内的元数据信息进行解析和分析,找出页面内的文本、图像以及绘制操作信息,对所述文本、图像以及绘制操作信息进行分割得到分割片,针对所述分割片构造出无向图,抽取页面的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将分割文本行是否落入外包络矩阵作为局部关系特征,提取所述无向图中每个分割片的局部特征,利用邻域关系,训练模型得到模型参数,调整最终表格识别结果。这样可以识别表格与其它逻辑区块的分界线,对表格进行抽取,并根据其逻辑功能进行逻辑标签的标定,最终实现对版式文档的表格的版面分析及理解,即使表格风格变化多样,也能通过对表格逻辑功能的分析进行识别,提高了版式文档中表格识别的准确性。本发明所述的表格识别方法,通过局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征来训练模型,构造出更好的模型,提高了表格的识别效率。
(2)本发明所述的表格识别方法,采用条件随机场模型,根据由分割片局部特征获得一元特征函数、分割片之间的邻域关系特征作为二元特征函数,训练条件随机场模型(CRF),多特征设计分为一元局部特征和二元邻域特征。一元特征主要来自分割片本身的特征,二元特征主要来自无向图的邻居分割片的关系特征。CRF模型的目标函数为负对数自然函数。利用多特征以及各种上下文信息可以极大地减少标注分类的不确定性和模糊性对最终标记的负面影响。
(3)本发明所述的表格识别方法,对文本进行分割时,将文本行中连续的文本分割到一个分割片中,根据文本图元、图像图元一级绘制操作图元来进行分割,获得分割片,将有具有较多相关性的图元分在同一个分割片中,为无向图的构造以及分割片特征的提取奠定基础。
(4)本发明所述的表格识别方法,所述无向图构造步骤中,根据所述分割片的邻域关系构造无向图,这样在无向图中可以体现出分割片的相对位置关系,通过其邻居的位置关系来生成无向图,采用最小生成树方法构造无向图,由于无向图可以很好的表示邻域关系特征,为提取分割片的局部特征和邻域关系特征创造了方便,保证了提取特征的准确性和高效性。
(5)本发明所述的表格识别方法,在所述单元格检测步骤中,采用基于连通分量的方法检测水平和垂直直线的交叉点,可以更好的获取表格的各个单元格的边缘轮廓。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明的表格识别方法的一个实施例的流程图;
图2是本发明的表格识别方法的另一个实施例的流程图;
图3是本发明所述的表格识别方法的一个实施例中表格外包围边界和表格线交叉点检测示意图;
图4是本发明所述的表格识别方法的一个实施例中页面内分割片的MST最小生成树示意图;
图5是本发明所述的表格识别方法的一个实施例中表格单元和表注的逻辑标签示意图。
具体实施方式
实施例1
本实施例提供一种表格识别方法,如图1所示,包括以下步骤:
(1)对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元。此处采用现有技术中的分析工具可以提取并获得页面内的基本图元。所述基本图元中包括了文本图元、图像图元以及绘制操作信息等。
(2)对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。此步骤中,将文本行中连续的文本分割到一个分割片中。根据各个基本图元的属性基于周围图元的关系进行合理的分割,得到分割片。提取页面内分割文本行时,采用聚类方法通过聚类分析的手段获得页面内分割问本行。
(3)针对所述分割片构造出无向图。此时,利用所述分割片的邻域关系,采用最小生成树方法构造无向图。邻域关系也就是与其周围的分割片的邻居关系,位置关系信息等邻域关系信息。
(4)抽取页面内的图像,检测水平和垂直直线的交叉点,采用基于连通分量的方法检测水平和垂直直线的交叉点,并同时检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征。
(5)根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型。此处的训练模型可以选择条件随机场模型,也可以选择结构化的支持向量机模型(structural SVM),或者其他可以学习的模型,通过上述特征进行训练,机器通过自学习的方式,建立表格识别模型。该方法采用一种可学习的模型继续训练,提高了模型的可训练程度,从而可以提高建模的效率和精度,保证了表格识别的准确性。
(6)调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
本发明所述的识别方法,可以识别表格与其它逻辑区块的分界线,对表格进行抽取,并根据其逻辑功能进行逻辑标签的标定,最终实现对版式文档的表格的版面分析及理解,即使表格风格变化多样,也能通过对表格逻辑功能的分析进行识别,提高了版式文档中表格识别的准确性。本发明所述的表格识别方法,通过局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征来训练模型,构造出更好的模型,提高了表格的识别效率。
作为其他可以替换的实时方式,在所述步骤(5)建立表格识别模型的过程中,所述学习模型可以选择条件随机场模型,此处建模的过程为:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数。本实施例中,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征,将这些局部特征通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率,从而获得一元特征函数。
并根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。然后将所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征输入所述条件随机场模型中,然后获得模型参数,并建立了表格识别模型。
实施例2:
本实施例提供一种表格识别***,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元。
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片。所述提取页面内分割文本行时,采用聚类方法。将文本行中连续的文本分割到一个分割片中。
构造单元:针对所述分割片构造出无向图。根据所述分割片的邻域关系,采用最小生成树方法构造无向图。
检测单元:抽取页面内的图像,检测水平和垂直直线的交叉点,采用基于连通分量的方法检测水平和垂直直线的交叉点,并检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征。所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。
建模单元:根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型。
调用单元:调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
作为优选的实施方式,所述建模单元中,所述学习模型为条件随机场模型,所述建模单元还包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数。所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。所述分割片的局部特征通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率
第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
实施例3:
本实施例所述的表格识别***对应的表格识别方法流程图如图2所示,包括以下步骤:
(1)提取步骤:通过解析引擎对原始版式文档内的元数据信息进行解析,提取页面内的基本图元,包括文本图元、图像图元以及绘制操作。所述文本图元包括文本编码、字体类型、字体颜色、字体大小等;所述图像图元包括自然图像和合成图像;所述绘制操作图元信息包括绘制线、绘制图形操作信息。
(2)分割步骤:对所述文本图元、图像图元以及绘制操作图元进行聚类,分割页面内容,并得到分割片。此处采用聚类分析的方法提取页面内分割文本行,如采用XY-cut方法。分割片根据其文本图元、图像图元、绘制操作图元的区域类型获得。
(3)无向图构造步骤:针对所述分割片构造出无向图。根据所述分割片的邻域关系构造,所述邻域关系是指分割片与其周围的分割片的邻居关系,在此采用最小生成树的方法构造无向图。
最小生成树(Minimum Spanning Tree,MST)方法及原理具体为:一个有n个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有n个结点,并且有保持图连通的最少的边。在一给定的无向图G=(V,E)中,(u,v)代表连接顶点u与顶点v的边(即),而w(u,v)代表此边的权重,若存在T为E的子集(即)且为无循环图,使得的w(T)最小,则此T为G的最小生成树。
ω ( t ) = Σ ( u , v ) ∈ t ω ( u , v )
最小生成树其实是最小权重生成树的简称。
因此采用最小生成树的方法将分割片构造出无向图,图4给出了一个页面内分割片的MST最小生成树示意图。
此外,作为其他可以替换的实施方式,还可以采用Delaunay三角剖分方法来构造无向图。Delaunay三角剖分方法,由于其独特性,关于点集的很多种几何图都和Delaunay三角剖分相关,如Voronoi图,EMST树,Gabriel图等。Delaunay三角剖分有最大化最小角,“最接近于规则化的“的三角网和唯一性(任意四点不能共圆)两个特点。因此,采用现有技术中的Delaunay三角剖分方法可以构造无向图。
(4)单元格检测步骤:抽取页面的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将分割文本行是否落入外包络矩阵作为局部关系特征,所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。在此步骤中,采用基于连通分量的方法检测水平和垂直直线的交叉点,此外还可以采用Hough变化检测直线等图像处理方法来检测交叉点,图3给出了一个示意图。
(5)分类步骤:提取所述无向图中每个分割片的局部特征,通过SVM分类器,选择RBF径向基函数,采用Platt方法将基于局部特征的分类得分转化为伪概率,伪概率作为条件随机场模型(CRF)的一元特征函数。根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。。
支持向量机SVM(Support Vector Machine)是一种可训练的机器学习方法,SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。在本步骤中,通过SVM进行分类。所谓径向基函数(Radial Basis Function简称RBF),就是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数,可记作k(||x-xc||),其作用往往是局部的,即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数,形式为k(||x-xc||)=exp{-||x-xc||^2/2*σ^2)}其中xc为核函数中心,σ为函数的宽度参数,控制了函数的径向作用范围。通过选择RBF径向基函数。采用Platt方法将分类得分转化为伪概率。
(6)训练识别步骤:根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型。
概率图模型是一类用图形模式表达基于概率相关关系的模型的总称,它能够以统一概率框架融合利用多特征和上下文信息,本实施例中将页面内分割片的邻域关系表示为无向图结构,将逻辑标注的问题转换为基于无向概率图模型的分割片标记问题。
条件随机域(也称作条件随机场)(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。CRF的算法实现目前已经有多个知名的开源项目,并且已经被广泛应用在学术界研究以及工业界应用当中。具体来说,条件随机场(Conditional RandomField,CRF)模型的优势在于可以更好地利用分割片本身的观察信息(observation)和自适应上下文信息(contextual information)。
本实施例所述的表格识别方法利用多特征以及各种上下文信息可以极大地减少标注分类的不确定性和模糊性对最终标记的负面影响。在本实施例中,多特征设计分为一元局部特征和二元邻域特征。一元特征主要来自分割片本身的特征(即分割片之间的邻域关系特征),二元特征主要来自无向图的邻居分割片的关系特征(即分割片之间的邻域关系特征)。CRF模型的目标函数为负对数自然函数。
本步骤具体的过程如下:根据无向图邻域关系,提取文本行之间二元关系特征,主要包括二个分割片是否左对齐、右对齐或中间对齐;是否具有同样是字体和字体尺寸;是否出现重叠;二个分割片宽度比、高度比、面积比等。构造一元和二元的特征函数,训练条件随机场模型得到模型参数,最终得到表格类别的识别结果。
(7)调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。当需要对文档中的表格进行识别时,则调用已经建立的所述表格识别模型,自动识别,得到识别结果。通过所述表格识别方法对表格进行抽取,并根据其逻辑功能进行逻辑标签的标定,最终实现对版式文档的表格的版面分析及理解,即使表格风格变化多样,也能通过对表格逻辑功能的分析进行识别,提高了版式文档中表格识别的准确性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (20)

1.一种表格识别方法,其特征在于,包括以下步骤:
对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
针对所述分割片构造出无向图;
抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;
根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;
调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
2.根据权利要求1所述的表格识别方法,其特征在于,
所述根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型的过程中,所述学习模型为条件随机场模型,过程包括:
提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
3.根据权利要求1或2所述的表格识别方法,其特征在于,所述对所述基本图元进行分割,提取页面内分割文本行,并得到分割片的过程中,将文本行中连续的文本分割到一个分割片中。
4.根据权利要求1或2或3所述的表格识别方法,其特征在于,所述提取页面内分割文本行时,采用聚类方法。
5.根据权利要求1-4中任一权利要求所述的表格识别方法,其特征在于,在所述针对所述分割片构造出无向图的过程中,利用所述分割片的邻域关系构造无向图。
6.根据权利要求1-5中任一权利要求所述的表格识别方法,其特征在于,在所述构造无向图的过程中,采用最小生成树方法构造无向图。
7.根据权利要求1-6中任一权利要求所述的表格识别方法,其特征在于,所述检测水平和垂直直线的交叉点的过程中,采用基于连通分量的方法检测水平和垂直直线的交叉点。
8.根据权利要求1-7中任一权利要求所述的表格识别方法,其特征在于,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
9.根据权利要求2-8中任一权利要求所述的表格识别方法,其特征在于,所述提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率的过程,包括:通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
10.根据权利要求1-9中任一权利要求所述的表格识别方法,其特征在于,所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。
11.一种表格识别***,其特征在于,包括:
提取单元:对原始版式文档内的元数据信息进行解析和分析,提取页面内基本图元;
分割单元:对所述基本图元进行分割,提取页面内分割文本行,并得到分割片;
构造单元:针对所述分割片构造出无向图;
检测单元:抽取页面内的图像,检测水平和垂直直线的交叉点,检测交叉点的外包络矩阵,将所述分割文本行是否落入外包络矩阵作为局部关系特征;
建模单元:根据所述局部关系特征、所述分割片的局部特征以及分割片之间的邻域关系特征,训练学习模型,获得模型参数,建立表格识别模型;
调用单元:调用所述表格识别模型对所需的文档进行表格识别,得到识别结果。
12.根据权利要求11所述的表格识别***,其特征在于,
所述学习模型为条件随机场模型,所述建模单元中,包括:
第一特征提取子单元:提取所述无向图中每个分割片的局部特征,进行分类,然后将分类得分转化为伪概率,作为条件随机场模型的一元特征函数;
第二特征提取子单元:根据无向图邻域关系,提取分割片之间的邻域关系特征作为二元特征函数。
13.根据权利要求11或12所述的表格识别***,其特征在于,所述分割单元中,将文本行中连续的文本分割到一个分割片中。
14.根据权利要求11或12或13所述的表格识别***,其特征在于,所述提取页面内分割文本行时,采用聚类方法。
15.根据权利要求11-14中任一权利要求所述的表格识别***,其特征在于,所述构造单元中,根据所述分割片的邻域关系构造无向图。
16.根据权利要求11-15中任一权利要求所述的表格识别***,其特征在于,所述构造单元中,在所述构造无向图时,采用最小生成树方法构造无向图。
17.根据权利要求11-16中任一权利要求所述的表格识别***,其特征在于,所述检测单元中,采用基于连通分量的方法检测水平和垂直直线的交叉点。
18.根据权利要求11-17中任一权利要求所述的表格识别***,其特征在于,所述分割片的局部特征包括分割片的长宽比、归一化面积、缩进级别、图像纹理特征。
19.根据权利要求12-18中任一权利要求所述的表格识别***,其特征在于,所述第一特征提取子单元中,通过SVM分类器进行分类,选择RBF径向基核函数,将分类得分转化为伪概率。
20.根据权利要求11-19中任一权利要求所述的表格识别***,其特征在于,所述局部关系特征包括:左对齐,右对齐,中间对齐,是否被外包络包含。
CN201310455065.0A 2013-09-29 2013-09-29 一种表格识别方法与*** Active CN104517112B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310455065.0A CN104517112B (zh) 2013-09-29 2013-09-29 一种表格识别方法与***
US14/096,532 US9268999B2 (en) 2013-09-29 2013-12-04 Table recognizing method and table recognizing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310455065.0A CN104517112B (zh) 2013-09-29 2013-09-29 一种表格识别方法与***

Publications (2)

Publication Number Publication Date
CN104517112A true CN104517112A (zh) 2015-04-15
CN104517112B CN104517112B (zh) 2017-11-28

Family

ID=52740244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310455065.0A Active CN104517112B (zh) 2013-09-29 2013-09-29 一种表格识别方法与***

Country Status (2)

Country Link
US (1) US9268999B2 (zh)
CN (1) CN104517112B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881641A (zh) * 2015-05-18 2015-09-02 上海交通大学 基于移动设备的问卷和表格数字化识别方法及***
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN107066997A (zh) * 2016-12-16 2017-08-18 浙江工业大学 一种基于图像识别的电气元件报价方法
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、***、计算机设备、可读存储介质
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN111104871A (zh) * 2019-11-28 2020-05-05 北京明略软件***有限公司 表格区域识别模型生成方法、装置及表格定位方法、装置
CN111695371A (zh) * 2019-03-12 2020-09-22 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及***
WO2020233379A1 (zh) * 2019-05-17 2020-11-26 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路及介质
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
WO2021124715A1 (ja) * 2019-12-19 2021-06-24 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム
CN113408256A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 一种表格图片的表格重构方法、装置及相关设备
CN113903016A (zh) * 2021-12-09 2022-01-07 深圳佑驾创新科技有限公司 分岔点检测方法、装置、计算机设备和计算机程序产品
JP7418200B2 (ja) 2019-12-19 2024-01-19 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055376A1 (en) * 2014-06-21 2016-02-25 iQG DBA iQGATEWAY LLC Method and system for identification and extraction of data from structured documents
CN106097313B (zh) * 2016-06-02 2020-05-29 甘肃读者动漫科技有限公司 图像分割方法及装置
US9965678B2 (en) 2016-06-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Method for recognizing table and flowchart in document images
US9984471B2 (en) * 2016-07-26 2018-05-29 Intuit Inc. Label and field identification without optical character recognition (OCR)
US10303938B2 (en) * 2016-12-29 2019-05-28 Factset Research Systems Inc Identifying a structure presented in portable document format (PDF)
US20180260389A1 (en) * 2017-03-08 2018-09-13 Fujitsu Limited Electronic document segmentation and relation discovery between elements for natural language processing
US10223585B2 (en) 2017-05-08 2019-03-05 Adobe Systems Incorporated Page segmentation of vector graphics documents
US10339212B2 (en) * 2017-08-14 2019-07-02 Adobe Inc. Detecting the bounds of borderless tables in fixed-format structured documents using machine learning
US10831704B1 (en) * 2017-10-16 2020-11-10 BlueOwl, LLC Systems and methods for automatically serializing and deserializing models
US11379655B1 (en) 2017-10-16 2022-07-05 BlueOwl, LLC Systems and methods for automatically serializing and deserializing models
US11650970B2 (en) 2018-03-09 2023-05-16 International Business Machines Corporation Extracting structure and semantics from tabular data
US10241992B1 (en) * 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models
CN110610495B (zh) * 2018-06-15 2022-06-07 北京京东尚科信息技术有限公司 图像处理方法、***和电子设备
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN109543690B (zh) * 2018-11-27 2020-04-07 北京百度网讯科技有限公司 用于提取信息的方法和装置
US11450125B2 (en) 2018-12-04 2022-09-20 Leverton Holding Llc Methods and systems for automated table detection within documents
CN109902724B (zh) * 2019-01-31 2023-09-01 平安科技(深圳)有限公司 基于支持向量机的文字识别方法、装置和计算机设备
US10614345B1 (en) 2019-04-12 2020-04-07 Ernst & Young U.S. Llp Machine learning based extraction of partition objects from electronic documents
US11062133B2 (en) 2019-06-24 2021-07-13 International Business Machines Corporation Data structure generation for tabular information in scanned images
US11113518B2 (en) * 2019-06-28 2021-09-07 Eygs Llp Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal
US11048933B2 (en) * 2019-07-31 2021-06-29 Intuit Inc. Generating structured representations of forms using machine learning
US11915465B2 (en) 2019-08-21 2024-02-27 Eygs Llp Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks
US11625934B2 (en) 2020-02-04 2023-04-11 Eygs Llp Machine learning based end-to-end extraction of tables from electronic documents
CN111368695B (zh) * 2020-02-28 2023-06-20 上海汇航捷讯网络科技有限公司 一种表格结构提取方法
US11734576B2 (en) 2020-04-14 2023-08-22 International Business Machines Corporation Cooperative neural networks with spatial containment constraints
US11222201B2 (en) 2020-04-14 2022-01-11 International Business Machines Corporation Vision-based cell structure recognition using hierarchical neural networks
CN111709339B (zh) * 2020-06-09 2023-09-19 北京百度网讯科技有限公司 一种票据图像识别方法、装置、设备及存储介质
CN111695517B (zh) * 2020-06-12 2023-08-18 北京百度网讯科技有限公司 图像的表格提取方法、装置、电子设备及存储介质
CN111860502B (zh) * 2020-07-15 2024-07-16 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
US20220147843A1 (en) * 2020-11-12 2022-05-12 Samsung Electronics Co., Ltd. On-device knowledge extraction from visually rich documents
US11688193B2 (en) 2020-11-13 2023-06-27 International Business Machines Corporation Interactive structure annotation with artificial intelligence
CN112257400A (zh) * 2020-11-13 2021-01-22 腾讯科技(深圳)有限公司 表格数据提取方法、装置、计算机设备和存储介质
US11727215B2 (en) 2020-11-16 2023-08-15 SparkCognition, Inc. Searchable data structure for electronic documents
US11599711B2 (en) * 2020-12-03 2023-03-07 International Business Machines Corporation Automatic delineation and extraction of tabular data in portable document format using graph neural networks
US11681734B2 (en) * 2020-12-09 2023-06-20 International Business Machines Corporation Organizing fragments of meaningful text
US11721119B2 (en) * 2020-12-18 2023-08-08 Konica Minolta Business Solutions U.S.A., Inc. Finding natural images in document pages
US20220222284A1 (en) * 2021-01-11 2022-07-14 Tata Consultancy Services Limited System and method for automated information extraction from scanned documents
US11887393B2 (en) * 2021-03-02 2024-01-30 Claritrics Inc. End-to-end system for extracting tabular data present in electronic documents and method thereof
CN112860905A (zh) * 2021-04-08 2021-05-28 深圳壹账通智能科技有限公司 文本信息抽取方法、装置、设备及可读存储介质
EP4099215B1 (en) 2021-06-03 2024-01-10 Telefonica Cibersecurity & Cloud Tech S.L.U. Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144614A1 (en) * 2007-12-03 2009-06-04 Microsoft Corporation Document layout extraction
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及***
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和***
CN102184395A (zh) * 2011-06-08 2011-09-14 天津大学 基于字符串核的手绘草图识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
US7451140B2 (en) * 2005-01-11 2008-11-11 Xerox Corporation System and method for proofing individual documents of variable information document runs using document quality measurements
US8869023B2 (en) * 2007-08-06 2014-10-21 Ricoh Co., Ltd. Conversion of a collection of data to a structured, printable and navigable format
US8645819B2 (en) * 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files
US11631265B2 (en) * 2012-05-24 2023-04-18 Esker, Inc. Automated learning of document data fields
US9224207B2 (en) * 2012-09-17 2015-12-29 Raytheon Bbn Technologies Corp. Segmentation co-clustering
US9443132B2 (en) * 2013-02-05 2016-09-13 Children's National Medical Center Device and method for classifying a condition based on image analysis
US9558396B2 (en) * 2013-10-22 2017-01-31 Samsung Electronics Co., Ltd. Apparatuses and methods for face tracking based on calculated occlusion probabilities
US9324038B2 (en) * 2013-11-15 2016-04-26 Xerox Corporation Method and system for clustering, modeling, and visualizing process models from noisy logs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090144614A1 (en) * 2007-12-03 2009-06-04 Microsoft Corporation Document layout extraction
CN101770446A (zh) * 2008-12-26 2010-07-07 北大方正集团有限公司 一种版式文件中表格识别方法及***
CN101887413A (zh) * 2009-05-14 2010-11-17 北大方正集团有限公司 版式表格的结构处理方法和***
CN102184395A (zh) * 2011-06-08 2011-09-14 天津大学 基于字符串核的手绘草图识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
房婧等: "版式电子文档表格自动检测与性能评估", 《北京大学学报(自然科学版)》 *
贺岩等: "基于加权无向图的表格分割方法", 《计算机应用》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881641A (zh) * 2015-05-18 2015-09-02 上海交通大学 基于移动设备的问卷和表格数字化识别方法及***
CN104881641B (zh) * 2015-05-18 2019-01-25 上海交通大学 基于移动设备的问卷和表格数字化识别方法及***
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN107066997A (zh) * 2016-12-16 2017-08-18 浙江工业大学 一种基于图像识别的电气元件报价方法
CN107066997B (zh) * 2016-12-16 2019-07-30 浙江工业大学 一种基于图像识别的电气元件报价方法
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、***、计算机设备、可读存储介质
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN109284495A (zh) * 2018-11-03 2019-01-29 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109284495B (zh) * 2018-11-03 2023-02-07 上海犀语科技有限公司 一种对文本进行无表格线切表的方法及装置
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109858468A (zh) * 2019-03-04 2019-06-07 汉王科技股份有限公司 一种表格线识别方法及装置
CN111695371B (zh) * 2019-03-12 2024-05-03 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
CN111695371A (zh) * 2019-03-12 2020-09-22 珠海金山办公软件有限公司 一种表格识别的方法、装置、电子设备及存储介质
WO2020233379A1 (zh) * 2019-05-17 2020-11-26 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路及介质
WO2020238054A1 (zh) * 2019-05-30 2020-12-03 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110348294B (zh) * 2019-05-30 2024-04-16 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110472209A (zh) * 2019-07-04 2019-11-19 重庆金融资产交易所有限责任公司 基于深度学习的表格生成方法、装置和计算机设备
CN110472209B (zh) * 2019-07-04 2024-02-06 深圳同奈信息科技有限公司 基于深度学习的表格生成方法、装置和计算机设备
CN111104871B (zh) * 2019-11-28 2023-11-07 北京明略软件***有限公司 表格区域识别模型生成方法、装置及表格定位方法、装置
CN111104871A (zh) * 2019-11-28 2020-05-05 北京明略软件***有限公司 表格区域识别模型生成方法、装置及表格定位方法、装置
JP7418200B2 (ja) 2019-12-19 2024-01-19 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム
WO2021124715A1 (ja) * 2019-12-19 2021-06-24 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム
US11930142B2 (en) 2019-12-19 2024-03-12 Canon Kabushiki Kaisha Identification apparatus, processing apparatus, processing method, and storage medium
JP2021095275A (ja) * 2019-12-19 2021-06-24 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム
JP7361594B2 (ja) 2019-12-19 2023-10-16 キヤノン株式会社 識別装置、処理装置、処理方法、およびプログラム
CN111860257B (zh) * 2020-07-10 2022-11-11 上海交通大学 融合多种文本特征及几何信息的表格识别方法及***
CN111860257A (zh) * 2020-07-10 2020-10-30 上海交通大学 融合多种文本特征及几何信息的表格识别方法及***
CN112380812A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 Pdf不完整框线表格提取方法、装置、设备及存储介质
CN113408256B (zh) * 2021-06-30 2023-12-19 平安科技(深圳)有限公司 一种表格图片的表格重构方法、装置及相关设备
CN113408256A (zh) * 2021-06-30 2021-09-17 平安科技(深圳)有限公司 一种表格图片的表格重构方法、装置及相关设备
CN113903016A (zh) * 2021-12-09 2022-01-07 深圳佑驾创新科技有限公司 分岔点检测方法、装置、计算机设备和计算机程序产品
CN113903016B (zh) * 2021-12-09 2022-05-13 深圳佑驾创新科技有限公司 分岔点检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN104517112B (zh) 2017-11-28
US9268999B2 (en) 2016-02-23
US20150093021A1 (en) 2015-04-02

Similar Documents

Publication Publication Date Title
CN104517112A (zh) 一种表格识别方法与***
CN104517106A (zh) 一种列表识别方法与***
AU2018247340B2 (en) Dvqa: understanding data visualizations through question answering
Kim et al. Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information
CN107169485B (zh) 一种数学公式识别方法和装置
CN111095296A (zh) 使用机器学习对字符串进行分类
Zhao et al. Recognition of building group patterns using graph convolutional network
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN106844481B (zh) 字体相似度及字体替换方法
Deng et al. Recognizing building groups for generalization: a comparative study
US11769341B2 (en) System and method to extract information from unstructured image documents
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN106407392A (zh) 一种基于标记语言的节点映射关系抽取方法及***
US10402484B2 (en) Aligning annotation of fields of documents
US20230138491A1 (en) Continuous learning for document processing and analysis
CN107463624A (zh) 一种基于社交媒体数据进行城市兴趣域识别的方法及***
CN112416992B (zh) 基于大数据和关键词的行业类型识别方法、***及设备
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN111046934B (zh) 一种swift报文软条款识别方法及装置
Chen et al. A deep learning-based method for deep information extraction from multimodal data for geological reports to support geological knowledge graph construction
CN103593062A (zh) 一种数据检测方法及装置
Touya Lessons learned from research on multimedia summarization
Ghaemmaghami et al. Integrated-Block: A New Combination Model to Improve Web Page Segmentation
Wang et al. [Retracted] Deep‐Learning‐Guided Point Cloud Modeling with Applications in Intelligent Manufacturing
Jayawardhana et al. Sketch based database querying system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220629

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Beijing Fangzheng apapi Technology Co., Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Beijing Fangzheng apapi Technology Co., Ltd.

TR01 Transfer of patent right