CN107516370A - 一种票据识别的自动化测试及评价方法 - Google Patents
一种票据识别的自动化测试及评价方法 Download PDFInfo
- Publication number
- CN107516370A CN107516370A CN201710744296.1A CN201710744296A CN107516370A CN 107516370 A CN107516370 A CN 107516370A CN 201710744296 A CN201710744296 A CN 201710744296A CN 107516370 A CN107516370 A CN 107516370A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- bill
- field
- bank slip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种票据识别的自动化测试及评价方法,A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根据业务方需求识别的字段,将所需要的字段录入xml文件;B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测试票据的识别结果,将识别结果写入xml文件中;C、计算票据识别***的字段识别率Pw和字符识别率Pc:D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结果输出至文本文件。本发明能够在仅制作一次模板的前提条件下,运用计算机自动化实现票据识别***的测试及评估,大大缩短了票据识别***应用产品化所需的时间,节约出人力物力,且具有计算结果速度快,客观性高等优点。
Description
技术领域
本发明涉及图文自动检测技术领域,尤其涉及一种票据识别的自动化测试 及评价方法。
背景技术
图文自动检测技术领域的各种识别***(如身份证识别、指纹识别、票据 识别等),作为图像处理与模式识别领域、计算机领域、人工智能领域的交叉领 域的一个应用,是当前的一个研究热点,也是实际的生活需求。票据识别作为 众多识别***中的一种,由于其需求大、应用范围广,更是得到广泛的研究。
分析票据识别***从开发到产品化应用的成型过程,可以发现,票据识别 ***识别效果的测试在票据识别***应用的迭代升级中耗费了大量人力物力, 因此针对这一问题(目前国内暂无对票据识别***识别效果的测试自动化处 理),本发明公开了一种自动化测试票据识别***识别效果的方法,可有效减少 人力物力,加快票据识别***产品的迭代升级。
所谓测试票据识别***的识别效果,主要是指测试票据识别***针对票据 中的字符字段是否识别正确,一般的定额***有如下内容,有***名称:四川 顺丰速运有限公司绵阳分公司通用定额***,***代码:15107158F003,*** 号码:00004523…..等多个字段,其中每个具体的字段的内容由多个字符组成, 如***号码这个字段由00004523共8个字符组成,其余字段依此类推。测试票 据识别***的识别效果,就是看业务方所需的票据上的字段(通常由业务方提 供一个所需字段的模板供识别***使用,这一模板包含了业务方所需的各个票 据字段)及其字符是否识别正确,正确率有多高。
传统的做法是人工肉眼比对各个字段及字符是否正确,不但耗费大量人力 物力,而且主观性较强,容易出错,
发明内容
针对现有技术存在的不足之处,本发明的目的在于提供一种票据识别的自 动化测试及评价方法,可以有效减少人力物力,加快了票据识别***产品的迭 代升级。
本发明的目的通过下述技术方案实现:
一种票据识别的自动化测试及评价方法,其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根 据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测 试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc:
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结 果输出至文本文件。
本发明较现有技术相比,具有以下优点及有益效果:
本发明可以有效减少人力物力,加快了票据识别***产品的迭代升级;本 发明能够在仅制作一次模板的前提条件下,运用计算机自动化实现票据识别系 统的测试及评估,大大缩短了票据识别***应用产品化所需的时间,节约出人 力物力,且具有计算结果速度快,客观性高等优点。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明:
实施例一
如图1所示,一种票据识别的自动化测试及评价方法,其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根 据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测 试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc:
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结 果输出至文本文件。
实施例二
本发明对所出现的关键技术术语做出如下定义:
票据类型:现有的大部分票据识别***都是针对特定种类的票据进行识别, 例如根据***的用途分类有定额***,网络通讯机打***等,而网络机打*** 又根据开票单位分为中国电信网络通讯机打***,***网络通讯机打***, ***网络通讯机打***等,细分之下大概目前已知的有200多类。
票据比对模板M:票据比对模板是指由业务方确定的所需要识别的票据中 的部分字段及其在票据中的真实值(通常存放在xml文件中)。业务方所需要的 字段为***名称、***代码、***号码、金额四个字段,票据比对模板包括上 述业务方所需要的字段。
票据字段识别率Pw:票据字段识别率是指票据经过票据识别***输出的各 个字段的值与票据比对模板中各个字段进行比对,正确字段占票据比对模板总 字段的比例。
票据字符识别率Pc:票据字符识别率是指票据经过票据识别***输出的所 有字段中识别正确的字符占票据比对模板中总字符的比例。
票据测试集T:通常一个识别***在产品化后,需要对其识别性能进行测 试,例如票据识别***中,需要对票据识别性能进行测试以评估票据识别***。 票据测试集是指用于检验票据识别***识别性能的一组测试票据,通常这一组 票据未参与票据识别***的训练过程。
如图1所示,图1为票据识别***在整个票据识别***产品化应用中的地 位及其测试流程;一种票据识别的自动化测试及评价方法,其方步骤如下:
步骤1、对票据测试集T中的票据,根据业务方需求制作票据比对模板M。 制作过程为:根据业务方需求识别的字段,将所需要的字段录入xml文件,当 字段较多,测试集票据较多时,采用交叉验证的方法检验录入的正确性。假定 总共有N次制作票据比对模板,记第i制作出的票据比对模板为Mi,一种可行的 交叉验证方法为:
其中,表示连乘符号,如果第i+1检查后发现Mi是对的且第i检查 Mi+1发现也是对的,则cross_validate(Mi,Mi+1)=1,否则 cross_validate(Mi,Mi+1)=0。
当validate_results=1时表明票据比对模板制作完成。
步骤2、依次取票据测试集T中的票据进入票据识别***进行识别,并获得 各测试票据的识别结果,将识别结果写入xml文件中;
步骤3、计算字段识别率和字符识别率。假定单个票据比对模板中共有Nw个 字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别*** 识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确, 则可通过以下两个式子计算票据识别***的字段识别率Pw和字符识别率Pc。
其中,|T|表示票据测试集中总票据张数。
步骤3中,字符匹配算法计算Nicr的公式为:
其中,find(templateicj,recognitionic)表示在第i个字段的识别结果recognitionic中查找票据对比模板中该字段的templateicj这个字符是否存 在,若存在,则find(templateicj,recognitionic)=1,否则 find(templateicj,recognitionic)=0。
在步骤3中,字段匹配算法计算Nwr的公式为:
其中,如果测试集中的该票据的比对模板的第i个字段(即, templatewi)与票据识别***识别结果的第i个字段(即,recognitionwi)完全一样(字符完全匹配),则 compare(templatewi,recognitionwi)=1,否则 compare(templatewi,recognitionwi)=0。
步骤4、输出有差异字段至文本文件,对比识别结果与票据比对模板,将有 差异的字段结果输出至文本文件。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。
Claims (1)
1.一种票据识别的自动化测试及评价方法,其特征在于:其方法步骤如下:
A、对票据测试集T中的票据根据业务方需求制作票据比对模板M;并根据业务方需求识别的字段,将所需要的字段录入xml文件;
B、依次取票据测试集T中的票据进入票据识别***进行识别,并获得各测试票据的识别结果,将识别结果写入xml文件中;
C、计算字段识别率和字符识别率:假定单个票据比对模板M中共有Nw个字段,第i个字段共有Nic个字符,通过字符及字段匹配算法得到票据识别***识别后的结果,共有Nwr个字段识别正确,第i个字段共有Nicr个字符识别正确,则可通过以下四个公式计算票据识别***的字段识别率Pw和字符识别率Pc:
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mi>r</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
</munderover>
<mi>f</mi>
<mi>i</mi>
<mi>n</mi>
<mi>d</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>template</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>recognition</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<msub>
<mi>N</mi>
<mrow>
<mi>w</mi>
<mi>r</mi>
</mrow>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>N</mi>
<mi>w</mi>
</msub>
</munderover>
<mi>c</mi>
<mi>o</mi>
<mi>m</mi>
<mi>p</mi>
<mi>a</mi>
<mi>r</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>template</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>recognition</mi>
<mrow>
<mi>w</mi>
<mi>i</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>;</mo>
</mrow>
<mrow>
<msub>
<mi>P</mi>
<mi>w</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>T</mi>
<mo>|</mo>
</mrow>
</munderover>
<mfrac>
<msub>
<mi>N</mi>
<mrow>
<mi>w</mi>
<mi>r</mi>
</mrow>
</msub>
<msub>
<mi>N</mi>
<mi>w</mi>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
<mrow>
<msub>
<mi>P</mi>
<mi>c</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mrow>
<mo>|</mo>
<mi>T</mi>
<mo>|</mo>
</mrow>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>N</mi>
<mi>w</mi>
</msub>
</munderover>
<mfrac>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mi>r</mi>
</mrow>
</msub>
<msub>
<mi>N</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
</mfrac>
<mo>;</mo>
</mrow>
D、将步骤C的结果与票据比对模板M进行对比识别,将有差异的字段结果输出至文本文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710744296.1A CN107516370A (zh) | 2017-08-25 | 2017-08-25 | 一种票据识别的自动化测试及评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710744296.1A CN107516370A (zh) | 2017-08-25 | 2017-08-25 | 一种票据识别的自动化测试及评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107516370A true CN107516370A (zh) | 2017-12-26 |
Family
ID=60724284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710744296.1A Pending CN107516370A (zh) | 2017-08-25 | 2017-08-25 | 一种票据识别的自动化测试及评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107516370A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109598837A (zh) * | 2018-11-29 | 2019-04-09 | 深圳怡化电脑股份有限公司 | 金融机具及其鉴别能力的检测方法、***以及检测服务器 |
CN111275037A (zh) * | 2020-01-09 | 2020-06-12 | 上海知达教育科技有限公司 | 票据识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4197584A (en) * | 1978-10-23 | 1980-04-08 | The Perkin-Elmer Corporation | Optical inspection system for printing flaw detection |
CN101996438A (zh) * | 2010-11-30 | 2011-03-30 | 包钢 | 检伪点钞鉴别仪鉴别性能定标测试券 |
CN103440507A (zh) * | 2013-09-03 | 2013-12-11 | 北京中电普华信息技术有限公司 | 一种票据信息验审设备和一种对票据信息进行验审的方法 |
CN103842991A (zh) * | 2011-10-03 | 2014-06-04 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
CN105574038A (zh) * | 2014-10-16 | 2016-05-11 | 阿里巴巴集团控股有限公司 | 基于反识别渲染的文本内容识别率测试方法及装置 |
-
2017
- 2017-08-25 CN CN201710744296.1A patent/CN107516370A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4197584A (en) * | 1978-10-23 | 1980-04-08 | The Perkin-Elmer Corporation | Optical inspection system for printing flaw detection |
CN101996438A (zh) * | 2010-11-30 | 2011-03-30 | 包钢 | 检伪点钞鉴别仪鉴别性能定标测试券 |
CN103842991A (zh) * | 2011-10-03 | 2014-06-04 | 索尼公司 | 图像处理装置、图像处理方法和程序 |
CN103440507A (zh) * | 2013-09-03 | 2013-12-11 | 北京中电普华信息技术有限公司 | 一种票据信息验审设备和一种对票据信息进行验审的方法 |
CN105574038A (zh) * | 2014-10-16 | 2016-05-11 | 阿里巴巴集团控股有限公司 | 基于反识别渲染的文本内容识别率测试方法及装置 |
Non-Patent Citations (2)
Title |
---|
李翌昕 等: "文本检测算法的发展与挑战", 《信号处理》 * |
虞飞: "机打普通商业***识别***研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002768A (zh) * | 2018-06-22 | 2018-12-14 | 深源恒际科技有限公司 | 基于神经网络文本检测识别的医疗票据类文字提取方法 |
CN109389109A (zh) * | 2018-09-11 | 2019-02-26 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109389109B (zh) * | 2018-09-11 | 2021-05-28 | 厦门商集网络科技有限责任公司 | 一种ocr全文本识别正确率的自动化测试方法及设备 |
CN109598837A (zh) * | 2018-11-29 | 2019-04-09 | 深圳怡化电脑股份有限公司 | 金融机具及其鉴别能力的检测方法、***以及检测服务器 |
CN111275037A (zh) * | 2020-01-09 | 2020-06-12 | 上海知达教育科技有限公司 | 票据识别方法及装置 |
CN111275037B (zh) * | 2020-01-09 | 2021-06-08 | 上海知达教育科技有限公司 | 票据识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516370A (zh) | 一种票据识别的自动化测试及评价方法 | |
CN105244029B (zh) | 语音识别后处理方法及*** | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
Liu et al. | Rethinking attention-model explainability through faithfulness violation test | |
CN109886284B (zh) | 基于层次化聚类的欺诈检测方法及*** | |
CN105389486B (zh) | 一种基于鼠标行为的认证方法 | |
CN109635105A (zh) | 一种中文文本多意图识别方法及*** | |
CN113297051B (zh) | 一种日志分析处理方法及装置 | |
CN107885849A (zh) | 一种基于文本分类的情绪指数分析*** | |
CN109492219A (zh) | 一种基于特征分类和情感语义分析的诈骗网站识别方法 | |
CN107491536A (zh) | 一种试题校验方法、试题校验装置及电子设备 | |
CN100543735C (zh) | 基于文档结构的文档相似性度量方法 | |
Argamon | Computational forensic authorship analysis: Promises and pitfalls | |
CN109255012A (zh) | 一种机器阅读理解的实现方法以及装置 | |
CN109101483A (zh) | 一种针对电力巡检文本的错误识别方法 | |
CN109976308A (zh) | 一种基于拉普拉斯分值与ap聚类的故障特征的提取方法 | |
CN106446124A (zh) | 一种基于网络关系图的网站分类方法 | |
CN106156120A (zh) | 对字符串进行分类的方法和装置 | |
Wu et al. | Fine-grained genre classification using structural learning algorithms | |
Sarkar et al. | StRE: Self attentive edit quality prediction in Wikipedia | |
Tutek et al. | Toward practical usage of the attention mechanism as a tool for interpretability | |
Huynh et al. | Towards a benchmark for fact checking with knowledge bases | |
CN116467141A (zh) | 日志识别模型训练、日志聚类方法和相关***、设备 | |
CN105912602A (zh) | 一种基于实体属性的真值发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171226 |
|
RJ01 | Rejection of invention patent application after publication |