CN110688998A - 票据识别方法及装置 - Google Patents

票据识别方法及装置 Download PDF

Info

Publication number
CN110688998A
CN110688998A CN201910921362.7A CN201910921362A CN110688998A CN 110688998 A CN110688998 A CN 110688998A CN 201910921362 A CN201910921362 A CN 201910921362A CN 110688998 A CN110688998 A CN 110688998A
Authority
CN
China
Prior art keywords
bill
data
field
similarity
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910921362.7A
Other languages
English (en)
Inventor
丁平
杨春明
郭铸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201910921362.7A priority Critical patent/CN110688998A/zh
Publication of CN110688998A publication Critical patent/CN110688998A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种票据识别方法及装置,该方法包括:获取待识别票据的OCR识别结果,其中,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。本发明能够提高对多样化票据识别的准确率,满足更多应用场景的票据识别要求。

Description

票据识别方法及装置
技术领域
本发明涉及图像处理领域,尤其涉及一种票据识别方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
票据,作为企业财务核算的原始凭据,须进行电子化处理,才能实现数字流动。传统的人工录入方式,企业往往需要投入大量的人力成本和时间成本,不仅增加了运营成本,而且录入速度难以提升,经常容易出现错误。随着光学识别字符(Optical CharacterRecognition,OCR)技术的快速发展和广泛应用,票据识别效率大大提高。OCR识别技术作为一种高效率、低成本的数据采集方案,为企业业务快速发展提供了有力支撑。
由于OCR识别技术无法实现百分之百的识别准确率,一些OCR后处理方法相继出现。现有的OCR后处理方法,以通用语料库为基础,经过N-Gram语言模型、上下文无关模型、N-POS模型和基于决策树的语言模型等技术,对OCR识别后的文字进行后处理。这种基于通用语料库的OCR识别方法,对通用票据的识别准确率能起到一定的提升作用,但难以满足一些专用票据的识别后处理。
例如,银行在办理业务过程中,会产生大量的票据。为了实现将这些数量巨大、种类繁多的纸质票据电子化存储,需要进行票据扫描、数据录入、人工校对等工作,OCR票据识别发挥了巨大的作用。相对于传统的手工录入方式来说,OCR票据识别的智能录入具有强大的优势,其识别速度远快于手工录入,节省了大量人力资源,优化资源配置,使人员分配于更加有意义的工作。但是,由于一些大型银行经营范围较广,在办理业务过程中,会产生种类繁多的票据。票据种类的多样化,不仅会增加OCR的识别难度,而且一些新增票据字段内容可能没有纳入通用语料库中,会导致OCR识别错误。另外,对于某一字段,如果通用语料库中存储的字段内容与银行定义的字段内容不一致,也会导致OCR识别出现错误。
由此,现有技术中急需一种票据识别方法,在提高票据识别效率的同时,能够满足更多应用场景的票据识别要求,提高多样化票据识别准确率。
发明内容
本发明实施例提供一种票据识别方法,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该方法包括:获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果
本发明实施例还提供一种票据识别装置,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该装置包括:票据OCR识别单元,用于获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;数据元组获取单元,用于根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;数据相似度计算单元,用于根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;数据相似度比对单元,用于将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;票据识别结果生成单元,用于根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
本发明实施例还提供一种计算机设备,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的票据识别方法。
本发明实施例还提供一种计算机可读存储介质,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该计算机可读存储介质存储有执上述票据识别方法的计算机程序。
本发明实施例中,在采用OCR技术对待识别票据进行识别,并得到待识别票据的OCR识别结果后,获取OCR识别结果中各个票据元素对应的数据元组,由于每个票据元素的数据元组中包含每个票据元素中相应字段的真实数据,根据每个票据元素中各个字段的数据识别结果与对应数据元组中相应字段的真实数据,计算计算每个票据元素与对应各个数据元组的相似度,进而将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
通过本发明实施例,能够提高基于通用语料库的OCR识别方法对多样化票据识别的准确率,满足更多的应用场景的票据识别要求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种票据识别方法流程图;
图2为本发明实施例中提供的一种票据识别装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如本申请背景技术部分介绍的内容可知,现有基于通用语料库的OCR识别方法,对多样化票据的识别准确率较低。发明人经研究发现,随着银行电子化程度的提升,银行各种票据的相关字段均有电子化存档数据,由此,本发明实施例利用这些票据字段对应的电子化存档数据,对票据OCR识别结果进行后处理,能够提高票据识别的准确率,且能够满足更多应用场景的票据识别要求。
本发明实施例中提供了一种票据识别方法,图1为本发明实施例中提供的一种票据识别方法流程图,如图1所示,该方法包括如下步骤:
S101,获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果。
需要说明的是,上述待识别票据可以是任意一种纸质票据,包括但不限于如下任意一种:专用票据、专用支票、提单等票据;由于票据识别的工作主要是识别票据中包含的各个字段对应的数据,而票据中很多字段之间具有关联关系,因而,本发明实施例中将待识别票据中具有关联关系的字段作为一个票据元素。因而,上述S101中待识别票据中的OCR识别结果中包含待识别票据中每个票据元素包含的各个字段的数据识别结果。
例如,将某一银行票据中付款人的“账户名称和账号”作为一个票据元素,该票据元素包括两个字段,第一字段为账户名称,第二字段为账户名称对应的账号。
作为一种可选的实施方式,上述S101具体可以包括如下步骤:采集待识别票据的票据图像;采用OCR识别算法识别票据图像,得到待识别票据的OCR识别结果。
需要说明的是,上述待识别票据可以是通过各种扫描电子设备(例如,扫描仪或摄像头)扫描纸质票据得到的图像;采用OCR识别算法识别票据图像上的文字或字符,并将其转换为计算机能够处理的文字或字符。
可选地,在采用OCR识别算法识别票据图像之前,可以对待识别票据进行预处理,包括但不限于图像二值化、图像去噪、倾斜较正等处理。
由于待识别票据的票据图像可能是彩色图像,彩色图像中包含的信息量比较大,会影响计算效率。由此,本发明实施例将彩色图像分为前景与背景,并将前景和背景信息分别定义为黑色和白色,得到待识别票据对应的二值化图像。通过图像二值化,能够提高计算机识别文字的速度。
由于采集的待识别票据的票据图像中可能包含噪声信息,因而,在采用OCR识别算法识别票据图像之前,还可以采用各种去燥算法对待识别票据的票据图像进行去噪处理,以提高票据识别准确率。
另外,当用户通过扫描电子设备采集待识别票据图像的时候,由于人为因素可能导致采集的票据图像发生倾斜,因而,在采用OCR识别算法识别票据图像之前,还需要对采集的票据图像进行倾斜校正处理。通过倾斜校正,同样可以提高票据识别准确率。
S102,根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据。
需要说明的是,由于待识别票据中各个票据元素包含的各个字段之间具有关联关系,因而,在通过S101获取到待识别票据的OCR识别结果后,可以从待识别票据的OCR识别结果中,识别出待识别票据中每个票据元素中包含的各个字段,根据这些字段从各种票据电子化***获取相应字段对应的全部真实数据,构建多个包含这些字段的数据元组,每个数据元组中包含相应字段的一个真实数据。
以票据元素“账户名称和账号”为例,该票据元素对应的数据元组可以表示为<(K1,V1),(K2,V2)>,其中,K1为账户名称,V1为账户名称对应的值;K2为账号,V2为账号真实值。例如,该票据元素的一个数据元组为<(“账号名称”,“XX环保公司”),(“账号”,“214234132143284372414”)>。
需要注意的是,对于不同的票据,可以从不同的电子化***中获取相应的元素信息,且这些元素信息对应票据中具有关联关系的一些字段。对于银行票据,可以根据银行***中全部用户的账户名称和账号构建票据元素“账户名称和账号”对应的多个数据元组。
由此,一种可选的实施方式中,在执行S102之前,本发明实施例提供的票据识别方法还可以包括如下步骤:根据OCR识别结果中每个票据元素包含的各个字段,从多个电子化***中采集各个字段对应的多个真实数据;根据各个字段对应的多个真实数据,生成每个票据元素对应的多个数据元组。
具体地,在根据待识别票据的OCR识别结果获取到待识别票据中各个票据元素包含的各个字段后,从各个电子化***中爬取的相关字段的真实数据;为了进一步提高票据识别的速度,本发明实施例可以根据待识别票据的类型,仅爬取与该类型待识别票据关联的电子化***中相应字段的数据。
仍以票据元素“账户名称和账号”为例,如果某一票据是针对企业用户的票据,则仅爬取企业账户名称和账号即可;如果某一票据是针对个人用户的票据,则仅爬取个人账户名称和账号即可。
S103,根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度。
需要说明的是,本发明实施例在计算每个字段数据识别结果与真实数据之间相似度的时候,可以采用两个数据之间的编辑距离来确定两个数据之间的相似度,编辑距离是指一个字符串转换为另一个字符串所需最少编辑操作的次数,编辑操作包括:一个字符替换为另一个字符的替换操作、新增一个字符的新增操作、删除一个字符的删除操作;编辑距离越小,两个数据的相似度越大,具体地,两个数据之间的相似度与编辑距离的关系如下:
Figure BDA0002217672890000061
其中,γ1,2表示第一数据和第二数据的相似度;L1,2表示表示第一数据替换为第二数据所需最少编辑次数;L1表示第一数据的字符串长度;L2表示第二数据的字符串长度;Max{L1,L2}表示L1和L2中较大一个值。
由于每个票据元素包含的各个字段可能具有不同的数据类型,例如,票据元素“账户名称和账号”中“账户名称”字段的值是汉字,“账号”字段的值是数字,因而因而,为了降低计算复杂度,提高计算效率,本发明实施例将每个票据元素包含的各个字段分别进行相似度计算。
由此,作为一种可选的实施方式,上述S103具体可以包括如下步骤:根据每个票据元素包含的每个字段的数据识别结果与对应各个数据元组中相应字段的真实数据,计算每个票据元素包含的每个字段与对应各个数据元组中相应字段的相似度;将每个票据元素包含的各个字段与对应各个数据元组中相应字段的相似度之和,确定为每个票据元素与对应各个数据元组的相似度。
假设票据元素“账户名称和账号”的OCR识别结果为R,在计算数据元组<(K1,V1),(K2,V2)>与识别结果R之间的相似度的时候,可以将R中的账号名称值与V1进行相似度计算,得出相似度为W1;R中的账号取值与V2进行相似度计算,得出相似度为W2;最后对相似度进行求和W=W1+W2,将W作为数据元组<(K1,V1),(K2,V2)>与识别结果R之间的相似度。
优选地,为了进一步提高票据识别准确率,对于每个票据元素的OCR识别结果,在根据各个字段的相似度,确定票据元素与各个数据元组之间相似度的时候,可以根据预先为票据元素中各个字段配置相应的权重,最后将每个票据元素中各个字段数据识别结果与对应各个数据元组中相应字段真实数据的相似度进行加权平均,将各个字段相似度的加权平均值作为票据元素与各个数据元组之间的相似度。
例如,对于票据元素“账户名称和账号”,配置“账户名称”字段的权重为a,“账号”字段的权重为b,a+b=1;在将R中的账号名称值与V1进行相似度计算,得出相似度W1,并将R中的账号取值与V2进行相似度计算,得出相似度W2后;最后对各个字段的相似度进行加权平均,得到W=aW1+bW2,将W作为数据元组<(K1,V1),(K2,V2)>与识别结果R之间的相似度。
S104,将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果。
具体地,计算得到每个票据元素与各个数据元组之间的相似度后,按照相似度从到小的顺序排序,然后将最大相似度的数据元组确定为相应票据元素的识别结果。由于数据元组中各个字段的数据是从票据电子化***中采集的真实数据,其准确率可达到百分之百,因而,将包含真实数据的数据元组确定为待识别票据中各个票据元素的识别结果,可以实现百分之百的票据识别准确率。
S105,根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
具体地,由于待识别票据中包含多个票据元素,根据待识别票据中所有票据元素的识别结果,可以生成待识别票据的识别结果。
由上可知,本发明实施例提供的票据识别方法,在采用OCR技术对待识别票据进行识别,并得到待识别票据的OCR识别结果后,获取OCR识别结果中各个票据元素对应的数据元组,由于每个票据元素的数据元组中包含每个票据元素中相应字段的真实数据,根据每个票据元素中各个字段的数据识别结果与对应数据元组中相应字段的真实数据,计算计算每个票据元素与对应各个数据元组的相似度,进而将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
通过本发明实施例提供的票据识别方法,能够提高基于通用语料库的OCR识别方法对多样化票据识别的准确率,满足更多的应用场景的票据识别要求。
基于同一发明构思,本发明实施例中还提供了一种票据识别装置,如下面的实施例所述。由于该装置实施例解决问题的原理与票据识别方法相似,因此该装置实施例的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例中提供的一种票据识别装置示意图,如图2所示,该装置可以包括:票据OCR识别单元21、数据元组获取单元22、数据相似度计算单元23、数据相似度比对单元24和票据识别结果生成单元25;
其中,票据OCR识别单元21,用于获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;数据元组获取单元22,用于根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;数据相似度计算单元23,用于根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;数据相似度比对单元24,用于将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;票据识别结果生成单元25,用于根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
由上可知,本发明实施例提供的票据识别装置,通过票据OCR识别单元21采用OCR技术对待识别票据进行识别,得到待识别票据的OCR识别结果;通过数据元组获取单元22根据待识别票据的OCR识别结果,获取OCR识别结果中各个票据元素对应的数据元组;由于每个票据元素的数据元组中包含每个票据元素中相应字段的真实数据,通过数据相似度计算单元23根据每个票据元素中各个字段的数据识别结果与对应数据元组中相应字段的真实数据,计算计算每个票据元素与对应各个数据元组的相似度,进而通过数据相似度比对单元24将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;最后通过票据识别结果生成单元25根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。
通过本发明实施例提供的票据识别装置,能够提高基于通用语料库的OCR识别方法对多样化票据识别的准确率,满足更多的应用场景的票据识别要求。
在一种可选的实施例中,本发明实施例提供的票据识别装置中,数据相似度计算单元23可以包括:第一计算模块231,用于根据每个票据元素包含的每个字段的数据识别结果与对应各个数据元组中相应字段的真实数据,计算每个票据元素包含的每个字段与对应各个数据元组中相应字段的相似度;第二计算模块232,用于将每个票据元素包含的各个字段与对应各个数据元组中相应字段的相似度之和,确定为每个票据元素与对应各个数据元组的相似度。
在一种可选的实施例中,本发明实施例提供的票据识别装置还可以包括:票据数据采集单元26,用于根据OCR识别结果中每个票据元素包含的各个字段,从多个电子化***中采集各个字段对应的多个真实数据;票据数据处理单元27,用于根据各个字段对应的多个真实数据,生成每个票据元素对应的多个数据元组。
基于上述任意一种可选的装置实施例,作为一种可选的实施例,本发明实施例提供的票据识别装置中,票据OCR识别单元21可以包括:图像采集模块211,用于采集待识别票据的票据图像;OCR识别模块212,用于采用OCR识别算法识别票据图像,得到待识别票据的OCR识别结果。
综上所述,本发明实施例提供的票据识别方法,利用票据电子化***获取不同票据对应的字段信息,构建针对票据的字段语料库,对票据OCR识别结果进行后处理,最后根据与字段OCR识别结果相似度最大的字段真实数据,生成票据识别结果,可以降低因字段不一致而导致的票据识别出错率,且可以适用于更多应用场景的票据识别。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种票据识别方法,其特征在于,包括:
获取待识别票据的OCR识别结果,其中,所述待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,所述OCR识别结果包含所述待识别票据中每个票据元素包含的各个字段的数据识别结果;
根据所述OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;
根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;
将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;
根据所述待识别票据中各个票据元素的识别结果,生成所述待识别票据的识别结果。
2.如权利要求1所述的方法,其特征在于,根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度,包括:
根据每个票据元素包含的每个字段的数据识别结果与对应各个数据元组中相应字段的真实数据,计算每个票据元素包含的每个字段与对应各个数据元组中相应字段的相似度;
将每个票据元素包含的各个字段与对应各个数据元组中相应字段的相似度之和,确定为每个票据元素与对应各个数据元组的相似度。
3.如权利要求1所述的方法,其特征在于,在根据所述OCR识别结果,获取每个票据元素对应的多个数据元组之前,所述方法还包括:
根据所述OCR识别结果中每个票据元素包含的各个字段,从多个电子化***中采集各个字段对应的多个真实数据;
根据各个字段对应的多个真实数据,生成每个票据元素对应的多个数据元组。
4.如权利要求1至3任一项所述的方法,其特征在于,获取待识别票据的OCR识别结果,包括:
采集所述待识别票据的票据图像;
采用OCR识别算法识别所述票据图像,得到所述待识别票据的OCR识别结果。
5.一种票据识别装置,其特征在于,包括:
票据OCR识别单元,用于获取待识别票据的OCR识别结果,其中,所述待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,所述OCR识别结果包含所述待识别票据中每个票据元素包含的各个字段的数据识别结果;
数据元组获取单元,用于根据所述OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;
数据相似度计算单元,用于根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;
数据相似度比对单元,用于将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;
票据识别结果生成单元,用于根据所述待识别票据中各个票据元素的识别结果,生成所述待识别票据的识别结果。
6.如权利要求5所述的装置,其特征在于,所述数据相似度计算单元包括:
第一计算模块,根据每个票据元素包含的每个字段的数据识别结果与对应各个数据元组中相应字段的真实数据,计算每个票据元素包含的每个字段与对应各个数据元组中相应字段的相似度;
第二计算模块,用于将每个票据元素包含的各个字段与对应各个数据元组中相应字段的相似度之和,确定为每个票据元素与对应各个数据元组的相似度。
7.如权利要求5所述的装置,其特征在于,所述装置还包括:
票据数据采集单元,用于根据所述OCR识别结果中每个票据元素包含的各个字段,从多个电子化***中采集各个字段对应的多个真实数据;
票据数据处理单元,用于根据各个字段对应的多个真实数据,生成每个票据元素对应的多个数据元组。
8.如权利要求5至7任一项所述的装置,其特征在于,所述票据OCR识别单元包括:
图像采集模块,用于采集所述待识别票据的票据图像;
OCR识别模块,用于采用OCR识别算法识别所述票据图像,得到所述待识别票据的OCR识别结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的票据识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一项所述票据识别方法的计算机程序。
CN201910921362.7A 2019-09-27 2019-09-27 票据识别方法及装置 Pending CN110688998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910921362.7A CN110688998A (zh) 2019-09-27 2019-09-27 票据识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910921362.7A CN110688998A (zh) 2019-09-27 2019-09-27 票据识别方法及装置

Publications (1)

Publication Number Publication Date
CN110688998A true CN110688998A (zh) 2020-01-14

Family

ID=69110516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910921362.7A Pending CN110688998A (zh) 2019-09-27 2019-09-27 票据识别方法及装置

Country Status (1)

Country Link
CN (1) CN110688998A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291726A (zh) * 2020-03-12 2020-06-16 泰康保险集团股份有限公司 医疗票据分拣方法、装置、设备和介质
CN113239921A (zh) * 2021-05-10 2021-08-10 上海交大慧谷通用技术有限公司 一种ocr识别服务的任务分级与分发方法及***
CN114495031A (zh) * 2022-03-31 2022-05-13 青岛海信网络科技股份有限公司 一种车牌信息校正方法、设备及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正***
CN107610320A (zh) * 2017-09-06 2018-01-19 深圳怡化电脑股份有限公司 一种票据识别方法和装置
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109784342A (zh) * 2019-01-24 2019-05-21 厦门商集网络科技有限责任公司 一种基于深度学习模型的ocr识别方法及终端
CN109919076A (zh) * 2019-03-04 2019-06-21 厦门商集网络科技有限责任公司 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN111046879A (zh) * 2019-10-15 2020-04-21 平安科技(深圳)有限公司 证件图像分类方法、装置、计算机设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927352A (zh) * 2014-04-10 2014-07-16 江苏唯实科技有限公司 利用知识库海量关联信息的中文名片ocr数据修正***
CN107610320A (zh) * 2017-09-06 2018-01-19 深圳怡化电脑股份有限公司 一种票据识别方法和装置
CN109684440A (zh) * 2018-12-13 2019-04-26 北京惠盈金科技术有限公司 基于层级标注的地址相似度度量方法
CN109784342A (zh) * 2019-01-24 2019-05-21 厦门商集网络科技有限责任公司 一种基于深度学习模型的ocr识别方法及终端
CN109919076A (zh) * 2019-03-04 2019-06-21 厦门商集网络科技有限责任公司 基于深度学习的确认ocr识别结果可靠性的方法及介质
CN111046879A (zh) * 2019-10-15 2020-04-21 平安科技(深圳)有限公司 证件图像分类方法、装置、计算机设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291726A (zh) * 2020-03-12 2020-06-16 泰康保险集团股份有限公司 医疗票据分拣方法、装置、设备和介质
CN111291726B (zh) * 2020-03-12 2023-08-08 泰康保险集团股份有限公司 医疗票据分拣方法、装置、设备和介质
CN113239921A (zh) * 2021-05-10 2021-08-10 上海交大慧谷通用技术有限公司 一种ocr识别服务的任务分级与分发方法及***
CN114495031A (zh) * 2022-03-31 2022-05-13 青岛海信网络科技股份有限公司 一种车牌信息校正方法、设备及装置

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
EP3440591B1 (en) Improving optical character recognition (ocr) accuracy by combining results across video frames
CN109543690B (zh) 用于提取信息的方法和装置
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN111914835A (zh) 票据要素提取方法、装置、电子设备及可读存储介质
US8838657B1 (en) Document fingerprints using block encoding of text
CN105930159A (zh) 一种基于图像的界面代码生成的方法及***
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN110688998A (zh) 票据识别方法及装置
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及***
CN110287125B (zh) 基于图像识别的软件例行化测试方法及装置
WO2000052645A1 (fr) Dispositif de traitement d&#39;image document, procede d&#39;extraction de titre de document et procede d&#39;information d&#39;etiquetage de document
CN112036145A (zh) 财务报表的识别方法、装置、计算机设备与可读存储介质
CN111444795A (zh) 票据数据识别方法、电子设备、存储介质及装置
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN112949455A (zh) 一种增值税***识别***及方法
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN111325207A (zh) 基于预处理的票据识别方法及装置
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN111797922B (zh) 文本图像分类方法及装置
CN114612919A (zh) 一种票据信息处理***及方法、装置
CN112861843A (zh) 基于特征图像识别的选择框解析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200114

RJ01 Rejection of invention patent application after publication