CN107516370A

CN107516370A - 一种票据识别的自动化测试及评价方法

Info

Publication number: CN107516370A
Application number: CN201710744296.1A
Authority: CN
Inventors: 肖欣庭; 牛小明; 唐军; 张茗; 池明辉; 周志
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-12-26

Abstract

本发明公开了一种票据识别的自动化测试及评价方法，A、对票据测试集T中的票据根据业务方需求制作票据比对模板M；并根据业务方需求识别的字段，将所需要的字段录入xml文件；B、依次取票据测试集T中的票据进入票据识别***进行识别，并获得各测试票据的识别结果，将识别结果写入xml文件中；C、计算票据识别***的字段识别率P_w和字符识别率P_c：D、将步骤C的结果与票据比对模板M进行对比识别，将有差异的字段结果输出至文本文件。本发明能够在仅制作一次模板的前提条件下，运用计算机自动化实现票据识别***的测试及评估，大大缩短了票据识别***应用产品化所需的时间，节约出人力物力，且具有计算结果速度快，客观性高等优点。

Description

一种票据识别的自动化测试及评价方法

技术领域

本发明涉及图文自动检测技术领域，尤其涉及一种票据识别的自动化测试及评价方法。

背景技术

图文自动检测技术领域的各种识别***(如身份证识别、指纹识别、票据识别等)，作为图像处理与模式识别领域、计算机领域、人工智能领域的交叉领域的一个应用，是当前的一个研究热点，也是实际的生活需求。票据识别作为众多识别***中的一种，由于其需求大、应用范围广，更是得到广泛的研究。

分析票据识别***从开发到产品化应用的成型过程，可以发现，票据识别 ***识别效果的测试在票据识别***应用的迭代升级中耗费了大量人力物力，因此针对这一问题(目前国内暂无对票据识别***识别效果的测试自动化处理)，本发明公开了一种自动化测试票据识别***识别效果的方法，可有效减少人力物力，加快票据识别***产品的迭代升级。

所谓测试票据识别***的识别效果，主要是指测试票据识别***针对票据中的字符字段是否识别正确，一般的定额***有如下内容，有***名称：四川顺丰速运有限公司绵阳分公司通用定额***，***代码：15107158F003，*** 号码：00004523…..等多个字段，其中每个具体的字段的内容由多个字符组成，如***号码这个字段由00004523共8个字符组成，其余字段依此类推。测试票据识别***的识别效果，就是看业务方所需的票据上的字段(通常由业务方提供一个所需字段的模板供识别***使用，这一模板包含了业务方所需的各个票据字段)及其字符是否识别正确，正确率有多高。

传统的做法是人工肉眼比对各个字段及字符是否正确，不但耗费大量人力物力，而且主观性较强，容易出错，

发明内容

针对现有技术存在的不足之处，本发明的目的在于提供一种票据识别的自动化测试及评价方法，可以有效减少人力物力，加快了票据识别***产品的迭代升级。

本发明的目的通过下述技术方案实现：

一种票据识别的自动化测试及评价方法，其方法步骤如下：

A、对票据测试集T中的票据根据业务方需求制作票据比对模板M；并根据业务方需求识别的字段，将所需要的字段录入xml文件；

B、依次取票据测试集T中的票据进入票据识别***进行识别，并获得各测试票据的识别结果，将识别结果写入xml文件中；

C、计算字段识别率和字符识别率：假定单个票据比对模板M中共有N_w个字段，第i个字段共有N_ic个字符，通过字符及字段匹配算法得到票据识别*** 识别后的结果，共有N_wr个字段识别正确，第i个字段共有N_icr个字符识别正确，则可通过以下四个公式计算票据识别***的字段识别率P_w和字符识别率P_c：

D、将步骤C的结果与票据比对模板M进行对比识别，将有差异的字段结果输出至文本文件。

本发明较现有技术相比，具有以下优点及有益效果：

本发明可以有效减少人力物力，加快了票据识别***产品的迭代升级；本发明能够在仅制作一次模板的前提条件下，运用计算机自动化实现票据识别系统的测试及评估，大大缩短了票据识别***应用产品化所需的时间，节约出人力物力，且具有计算结果速度快，客观性高等优点。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明：

实施例一

如图1所示，一种票据识别的自动化测试及评价方法，其方法步骤如下：

实施例二

本发明对所出现的关键技术术语做出如下定义：

票据类型：现有的大部分票据识别***都是针对特定种类的票据进行识别，例如根据***的用途分类有定额***，网络通讯机打***等，而网络机打*** 又根据开票单位分为中国电信网络通讯机打***，***网络通讯机打***， ***网络通讯机打***等，细分之下大概目前已知的有200多类。

票据比对模板M：票据比对模板是指由业务方确定的所需要识别的票据中的部分字段及其在票据中的真实值(通常存放在xml文件中)。业务方所需要的字段为***名称、***代码、***号码、金额四个字段，票据比对模板包括上述业务方所需要的字段。

票据字段识别率P_w：票据字段识别率是指票据经过票据识别***输出的各个字段的值与票据比对模板中各个字段进行比对，正确字段占票据比对模板总字段的比例。

票据字符识别率P_c：票据字符识别率是指票据经过票据识别***输出的所有字段中识别正确的字符占票据比对模板中总字符的比例。

票据测试集T：通常一个识别***在产品化后，需要对其识别性能进行测试，例如票据识别***中，需要对票据识别性能进行测试以评估票据识别***。票据测试集是指用于检验票据识别***识别性能的一组测试票据，通常这一组票据未参与票据识别***的训练过程。

如图1所示，图1为票据识别***在整个票据识别***产品化应用中的地位及其测试流程；一种票据识别的自动化测试及评价方法，其方步骤如下：

步骤1、对票据测试集_T中的票据，根据业务方需求制作票据比对模板_M。制作过程为：根据业务方需求识别的字段，将所需要的字段录入xml文件，当字段较多，测试集票据较多时，采用交叉验证的方法检验录入的正确性。假定总共有N次制作票据比对模板，记第_i制作出的票据比对模板为_Mi,一种可行的交叉验证方法为：

其中，表示连乘符号，如果第i+1检查后发现M_i是对的且第i检查 M_i+1发现也是对的，则cross_validate(M_i,M_i+1)＝1，否则 cross_validate(M_i,M_i+1)＝0。

当validate_results＝1时表明票据比对模板制作完成。

步骤2、依次取票据测试集_T中的票据进入票据识别***进行识别，并获得各测试票据的识别结果，将识别结果写入xml文件中；

步骤3、计算字段识别率和字符识别率。假定单个票据比对模板中共有N_w个字段，第i个字段共有N_ic个字符，通过字符及字段匹配算法得到票据识别*** 识别后的结果，共有N_wr个字段识别正确，第_i个字段共有N_icr个字符识别正确，则可通过以下两个式子计算票据识别***的字段识别率P_w和字符识别率P_c。

其中，|T|表示票据测试集中总票据张数。

步骤3中，字符匹配算法计算_Nicr的公式为：

其中，find(template_icj，recognition_ic)表示在第i个字段的识别结果recognition_ic中查找票据对比模板中该字段的template_icj这个字符是否存在，若存在，则find(template_icj，recognition_ic)＝1，否则 find(template_icj，recognition_ic)＝0。

在步骤3中，字段匹配算法计算N_wr的公式为：

其中，如果测试集中的该票据的比对模板的第i个字段(即， template_wi)与票据识别***识别结果的第i个字段(即，recognition_wi)完全一样(字符完全匹配)，则 compare(template_wi，recognition_wi)＝1，否则 compare(template_wi，recognition_wi)＝0。

步骤4、输出有差异字段至文本文件，对比识别结果与票据比对模板，将有差异的字段结果输出至文本文件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种票据识别的自动化测试及评价方法，其特征在于：其方法步骤如下：

C、计算字段识别率和字符识别率：假定单个票据比对模板M中共有N_w个字段，第i个字段共有N_ic个字符，通过字符及字段匹配算法得到票据识别***识别后的结果，共有N_wr个字段识别正确，第i个字段共有N_icr个字符识别正确，则可通过以下四个公式计算票据识别***的字段识别率P_w和字符识别率P_c：

<mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> </munderover> <mi>f</mi> <mi>i</mi> <mi>n</mi> <mi>d</mi> <mrow> <mo>(</mo> <msub> <mi>template</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>recognition</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>N</mi> <mrow> <mi>w</mi> <mi>r</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>w</mi> </msub> </munderover> <mi>c</mi> <mi>o</mi> <mi>m</mi> <mi>p</mi> <mi>a</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>template</mi> <mrow> <mi>w</mi> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>recognition</mi> <mrow> <mi>w</mi> <mi>i</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <msub> <mi>P</mi> <mi>w</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> </munderover> <mfrac> <msub> <mi>N</mi> <mrow> <mi>w</mi> <mi>r</mi> </mrow> </msub> <msub> <mi>N</mi> <mi>w</mi> </msub> </mfrac> <mo>;</mo> </mrow>

<mrow> <msub> <mi>P</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mi>T</mi> <mo>|</mo> </mrow> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>w</mi> </msub> </munderover> <mfrac> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> <mi>r</mi> </mrow> </msub> <msub> <mi>N</mi> <mrow> <mi>i</mi> <mi>c</mi> </mrow> </msub> </mfrac> <mo>;</mo> </mrow>