CN107516370A - 一种票据识别的自动化测试及评价方法 - Google Patents

一种票据识别的自动化测试及评价方法 Download PDF

Info

Publication number
CN107516370A
CN107516370A CN201710744296.1A CN201710744296A CN107516370A CN 107516370 A CN107516370 A CN 107516370A CN 201710744296 A CN201710744296 A CN 201710744296A CN 107516370 A CN107516370 A CN 107516370A
Authority
CN
China
Prior art keywords
mrow
msub
bill
field
bank slip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710744296.1A
Other languages
English (en)
Inventor
肖欣庭
牛小明
唐军
张茗
池明辉
周志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710744296.1A priority Critical patent/CN107516370A/zh
Publication of CN107516370A publication Critical patent/CN107516370A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种票据识别的自动化测试及评价方法,A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根据业务方需求识别的字段,将所需要的字段录入xml文件;B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测试票据的识别结果,将识别结果写入xml文件中;C、计算票据识别***的字段识别率Pw和字符识别率Pc:D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结果输出至文本文件。本发明能够在仅制作一次模板的前提条件下,运用计算机自动化实现票据识别***的测试及评估,大大缩短了票据识别***应用产品化所需的时间,节约出人力物力,且具有计算结果速度快,客观性高等优点。

Description

一种票据识别的自动化测试及评价方法
技术领域
本发明涉及图文自动检测技术领域,尤其涉及一种票据识别的自动化测试 及评价方法。
背景技术
图文自动检测技术领域的各种识别***(如身份证识别、指纹识别、票据 识别等),作为图像处理与模式识别领域、计算机领域、人工智能领域的交叉领 域的一个应用,是当前的一个研究热点,也是实际的生活需求。票据识别作为 众多识别***中的一种,由于其需求大、应用范围广,更是得到广泛的研究。
分析票据识别***从开发到产品化应用的成型过程,可以发现,票据识别 ***识别效果的测试在票据识别***应用的迭代升级中耗费了大量人力物力, 因此针对这一问题(目前国内暂无对票据识别***识别效果的测试自动化处 理),本发明公开了一种自动化测试票据识别***识别效果的方法,可有效减少 人力物力,加快票据识别***产品的迭代升级。
所谓测试票据识别***的识别效果,主要是指测试票据识别***针对票据 中的字符字段是否识别正确,一般的定额***有如下内容,有***名称:四川 顺丰速运有限公司绵阳分公司通用定额***,***代码:15107158F003,*** 号码:00004523…..等多个字段,其中每个具体的字段的内容由多个字符组成, 如***号码这个字段由00004523共8个字符组成,其余字段依此类推。测试票 据识别***的识别效果,就是看业务方所需的票据上的字段(通常由业务方提 供一个所需字段的模板供识别***使用,这一模板包含了业务方所需的各个票 据字段)及其字符是否识别正确,正确率有多高。
传统的做法是人工肉眼比对各个字段及字符是否正确,不但耗费大量人力 物力,而且主观性较强,容易出错,
发明内容
针对现有技术存在的不足之处,本发明的目的在于提供一种票据识别的自 动化测试及评价方法,可以有效减少人力物力,加快了票据识别***产品的迭 代升级。
本发明的目的通过下述技术方案实现:
一种票据识别的自动化测试及评价方法,其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根 据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测 试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结 果输出至文本文件。
本发明较现有技术相比,具有以下优点及有益效果:
本发明可以有效减少人力物力,加快了票据识别***产品的迭代升级;本 发明能够在仅制作一次模板的前提条件下,运用计算机自动化实现票据识别系 统的测试及评估,大大缩短了票据识别***应用产品化所需的时间,节约出人 力物力,且具有计算结果速度快,客观性高等优点。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明:
实施例一
如图1所示,一种票据识别的自动化测试及评价方法,其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根 据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测 试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结 果输出至文本文件。
实施例二
本发明对所出现的关键技术术语做出如下定义:
票据类型:现有的大部分票据识别***都是针对特定种类的票据进行识别, 例如根据***的用途分类有定额***,网络通讯机打***等,而网络机打*** 又根据开票单位分为中国电信网络通讯机打***,***网络通讯机打***, ***网络通讯机打***等,细分之下大概目前已知的有200多类。
票据比对模板M:票据比对模板是指由业务方确定的所需要识别的票据中 的部分字段及其在票据中的真实值(通常存放在xml文件中)。业务方所需要的 字段为***名称、***代码、***号码、金额四个字段,票据比对模板包括上 述业务方所需要的字段。
票据字段识别率Pw:票据字段识别率是指票据经过票据识别***输出的各 个字段的值与票据比对模板中各个字段进行比对,正确字段占票据比对模板总 字段的比例。
票据字符识别率Pc:票据字符识别率是指票据经过票据识别***输出的所 有字段中识别正确的字符占票据比对模板中总字符的比例。
票据测试集T:通常一个识别***在产品化后,需要对其识别性能进行测 试,例如票据识别***中,需要对票据识别性能进行测试以评估票据识别***。 票据测试集是指用于检验票据识别***识别性能的一组测试票据,通常这一组 票据未参与票据识别***的训练过程。
如图1所示,图1为票据识别***在整个票据识别***产品化应用中的地 位及其测试流程;一种票据识别的自动化测试及评价方法,其方步骤如下:
步骤1、对票据测试集T中的票据,根据业务方需求制作票据比对模板M。 制作过程为:根据业务方需求识别的字段,将所需要的字段录入xml文件,当 字段较多,测试集票据较多时,采用交叉验证的方法检验录入的正确性。假定 总共有N次制作票据比对模板,记第i制作出的票据比对模板为Mi,一种可行的 交叉验证方法为:
其中,表示连乘符号,如果第i+1检查后发现Mi是对的且第i检查 Mi+1发现也是对的,则cross_validate(Mi,Mi+1)=1,否则 cross_validate(Mi,Mi+1)=0。
当validate_results=1时表明票据比对模板制作完成。
步骤2、依次取票据测试集T中的票据进入票据识别***进行识别,并获得 各测试票据的识别结果,将识别结果写入xml文件中;
步骤3、计算字段识别率和字符识别率。假定单个票据比对模板中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下两个式子计算票据识别***的字段识别率Pw和字符识别率Pc
其中,|T|表示票据测试集中总票据张数。
步骤3中,字符匹配算法计算Nicr的公式为:
其中,find(templateicj,recognitionic)表示在第i个字段的识别结果recognitionic中查找票据对比模板中该字段的templateicj这个字符是否存 在,若存在,则find(templateicj,recognitionic)=1,否则 find(templateicj,recognitionic)=0。
在步骤3中,字段匹配算法计算Nwr的公式为:
其中,如果测试集中的该票据的比对模板的第i个字段(即, templatewi)与票据识别***识别结果的第i个字段(即,recognitionwi)完全一样(字符完全匹配),则 compare(templatewi,recognitionwi)=1,否则 compare(templatewi,recognitionwi)=0。
步骤4、输出有差异字段至文本文件,对比识别结果与票据比对模板,将有 差异的字段结果输出至文本文件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (1)

1.一种票据识别的自动化测试及评价方法,其特征在于:其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别***识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确,则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc
<mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> </munderover> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>template</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>recognition</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
<mrow> <msub> <mi>N</mi> <mrow> <mi>w</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>w</mi> </msub> </munderover> <mi>c</mi> <mi>o</mi> <mi>m</mi> <mi>p</mi> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>template</mi> <mrow> <mi>w</mi> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>recognition</mi> <mrow> <mi>w</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
<mrow> <msub> <mi>P</mi> <mi>w</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> </munderover> <mfrac> <msub> <mi>N</mi> <mrow> <mi>w</mi> <mi>r</mi> </mrow> </msub> <msub> <mi>N</mi> <mi>w</mi> </msub> </mfrac> <mo>;</mo> </mrow>
<mrow> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>w</mi> </msub> </munderover> <mfrac> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>r</mi> </mrow> </msub> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> </mfrac> <mo>;</mo> </mrow>
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结果输出至文本文件。
CN201710744296.1A 2017-08-25 2017-08-25 一种票据识别的自动化测试及评价方法 Pending CN107516370A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710744296.1A CN107516370A (zh) 2017-08-25 2017-08-25 一种票据识别的自动化测试及评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710744296.1A CN107516370A (zh) 2017-08-25 2017-08-25 一种票据识别的自动化测试及评价方法

Publications (1)

Publication Number Publication Date
CN107516370A true CN107516370A (zh) 2017-12-26

Family

ID=60724284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710744296.1A Pending CN107516370A (zh) 2017-08-25 2017-08-25 一种票据识别的自动化测试及评价方法

Country Status (1)

Country Link
CN (1) CN107516370A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109389109A (zh) * 2018-09-11 2019-02-26 厦门商集网络科技有限责任公司 一种ocr全文本识别正确率的自动化测试方法及设备
CN109408807A (zh) * 2018-09-11 2019-03-01 厦门商集网络科技有限责任公司 Ocr识别正确率的自动化测试方法及测试设备
CN109598837A (zh) * 2018-11-29 2019-04-09 深圳怡化电脑股份有限公司 金融机具及其鉴别能力的检测方法、***以及检测服务器
CN111275037A (zh) * 2020-01-09 2020-06-12 上海知达教育科技有限公司 票据识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4197584A (en) * 1978-10-23 1980-04-08 The Perkin-Elmer Corporation Optical inspection system for printing flaw detection
CN101996438A (zh) * 2010-11-30 2011-03-30 包钢 检伪点钞鉴别仪鉴别性能定标测试券
CN103440507A (zh) * 2013-09-03 2013-12-11 北京中电普华信息技术有限公司 一种票据信息验审设备和一种对票据信息进行验审的方法
CN103842991A (zh) * 2011-10-03 2014-06-04 索尼公司 图像处理装置、图像处理方法和程序
CN105574038A (zh) * 2014-10-16 2016-05-11 阿里巴巴集团控股有限公司 基于反识别渲染的文本内容识别率测试方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4197584A (en) * 1978-10-23 1980-04-08 The Perkin-Elmer Corporation Optical inspection system for printing flaw detection
CN101996438A (zh) * 2010-11-30 2011-03-30 包钢 检伪点钞鉴别仪鉴别性能定标测试券
CN103842991A (zh) * 2011-10-03 2014-06-04 索尼公司 图像处理装置、图像处理方法和程序
CN103440507A (zh) * 2013-09-03 2013-12-11 北京中电普华信息技术有限公司 一种票据信息验审设备和一种对票据信息进行验审的方法
CN105574038A (zh) * 2014-10-16 2016-05-11 阿里巴巴集团控股有限公司 基于反识别渲染的文本内容识别率测试方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李翌昕 等: "文本检测算法的发展与挑战", 《信号处理》 *
虞飞: "机打普通商业***识别***研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002768A (zh) * 2018-06-22 2018-12-14 深源恒际科技有限公司 基于神经网络文本检测识别的医疗票据类文字提取方法
CN109389109A (zh) * 2018-09-11 2019-02-26 厦门商集网络科技有限责任公司 一种ocr全文本识别正确率的自动化测试方法及设备
CN109408807A (zh) * 2018-09-11 2019-03-01 厦门商集网络科技有限责任公司 Ocr识别正确率的自动化测试方法及测试设备
CN109389109B (zh) * 2018-09-11 2021-05-28 厦门商集网络科技有限责任公司 一种ocr全文本识别正确率的自动化测试方法及设备
CN109598837A (zh) * 2018-11-29 2019-04-09 深圳怡化电脑股份有限公司 金融机具及其鉴别能力的检测方法、***以及检测服务器
CN111275037A (zh) * 2020-01-09 2020-06-12 上海知达教育科技有限公司 票据识别方法及装置
CN111275037B (zh) * 2020-01-09 2021-06-08 上海知达教育科技有限公司 票据识别方法及装置

Similar Documents

Publication Publication Date Title
CN107516370A (zh) 一种票据识别的自动化测试及评价方法
CN105244029B (zh) 语音识别后处理方法及***
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
Liu et al. Rethinking attention-model explainability through faithfulness violation test
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及***
CN105389486B (zh) 一种基于鼠标行为的认证方法
CN109635105A (zh) 一种中文文本多意图识别方法及***
CN113297051B (zh) 一种日志分析处理方法及装置
CN107885849A (zh) 一种基于文本分类的情绪指数分析***
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN107491536A (zh) 一种试题校验方法、试题校验装置及电子设备
CN100543735C (zh) 基于文档结构的文档相似性度量方法
Argamon Computational forensic authorship analysis: Promises and pitfalls
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN109101483A (zh) 一种针对电力巡检文本的错误识别方法
CN109976308A (zh) 一种基于拉普拉斯分值与ap聚类的故障特征的提取方法
CN106446124A (zh) 一种基于网络关系图的网站分类方法
CN106156120A (zh) 对字符串进行分类的方法和装置
Wu et al. Fine-grained genre classification using structural learning algorithms
Sarkar et al. StRE: Self attentive edit quality prediction in Wikipedia
Tutek et al. Toward practical usage of the attention mechanism as a tool for interpretability
Huynh et al. Towards a benchmark for fact checking with knowledge bases
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关***、设备
CN105912602A (zh) 一种基于实体属性的真值发现方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171226

RJ01 Rejection of invention patent application after publication