CN112990035A

CN112990035A - 一种文本识别的方法、装置、设备以及存储介质

Info

Publication number: CN112990035A
Application number: CN202110310267.0A
Authority: CN
Inventors: 陈禹燊; 韩光耀; 姜泽青
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-18
Anticipated expiration: 2041-03-23
Also published as: CN112990035B

Abstract

本公开提供了一种文本识别的方法、装置、设备以及存储介质，涉及图像识别、自然语言处理、深度学习、云计算等人工智能领域。具体实现方案为：获取待识别对象的机器识别结果；基于机器识别结果和待识别对象的语义特征，通过置信度生成模型，得到机器识别结果的置信度；对机器识别结果的置信度和置信度阈值进行比较，确定待识别对象的最终识别结果，其中，置信度阈值为预先根据置信度生成模型所确定的。根据本公开的技术，可以减少文本审核过程中人工审核的工作量，并且提高识别效率。

Description

一种文本识别的方法、装置、设备以及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及图像识别、自然语言处理、深度学习、云计算等人工智能领域。

背景技术

在文本识别技术中，针对票据审核场景下，可以实现对票据的识别，进而对票据的用途等信息进行分类。相关技术中通常采用OCR(Optical Character Recognition,光学字符识别)和NLP(Natural Language Processing，自然语言处理)相结合的方式对票据进行机器识别，但由于机器识别结果存在误差，因此还需审核人员对全部的机器识别结果进行人工审核，存在人力成本高、识别效率低等缺陷。

发明内容

本公开提供了一种文本识别的方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种文本识别的方法，包括：

获取待识别对象的机器识别结果；

基于机器识别结果和待识别对象的语义特征，通过置信度生成模型，得到机器识别结果的置信度；

对机器识别结果的置信度和置信度阈值进行比较，确定待识别对象的最终识别结果，其中，置信度阈值为预先根据置信度生成模型所确定的。

根据本公开的另一方面，提供了一种置信度生成模型的训练方法，包括：

利用待识别对象的机器识别结果样本，确定初始化的目标置信度；

将待识别对象的机器识别结果样本和机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和目标置信度的差异；

根据差异对待训练的置信度生成模型进行训练，直至差异在允许范围内。

根据本公开的另一方面，提供了一种文本识别的装置，包括：

机器识别结果获取模块，用于获取待识别对象的机器识别结果；

置信度生成模块，用于基于机器识别结果和待识别对象的语义特征，通过置信度生成模型，得到机器识别结果的置信度；

最终识别结果确定模块，用于对机器识别结果的置信度和置信度阈值进行比较，确定待识别对象的最终识别结果，其中，置信度阈值为预先根据置信度生成模型所确定的。

根据本公开的另一方面，提供了一种置信度生成模型的训练装置，包括：

目标置信度确定模块，用于利用待识别对象的机器识别结果样本，确定初始化的目标置信度；

差异生成模块，用于将待识别对象的机器识别结果样本和机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和目标置信度的差异；

训练模块，用于根据差异对待训练的置信度生成模型进行训练，直至差异在允许范围内。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，可以减少文本审核过程中人工审核的工作量，并且提高识别效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出根据本公开实施例的文本识别的方法的流程图；

图2示出根据本公开实施例的确定置信度阈值的具体流程图；

图3示出根据本公开实施例的根据准确率和召回率确定置信度阈值的具体流程图；

图4示出根据本公开实施例的获取待识别对象的机器识别结果的具体流程图；

图5示出根据本公开实施例的得到机器识别结果的具体流程图；

图6示出根据本公开实施例的构建用途特征的具体流程图；

图7示出根据本公开实施例的得到机器识别结果的置信度的具体流程图；

图8示出根据本公开实施例的确定待识别对象的最终识别结果的具体流程图；

图9示出根据本公开实施例的确定待识别对象的最终识别结果的具体流程图；

图10示出召回率与候选阈值以及准确率与候选阈值的关系曲线图；

图11示出根据本公开实施例的置信度生成模型的训练方法的流程图；

图12示出根据本公开实施例的文本识别的装置的示意图；

图13示出根据本公开实施例的置信度生成模型的训练装置的示意图；

图14是用来实现本公开实施例的文本识别的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人机协同技术，作为大幅提升生产效率以及品质，丰富人类社会创造力的人工智能核心技术，作为实现全社会的产业创新的关键因素，被给予了高度的重视。人机协同旨在将可自动化的工作交由机器完成。

相关技术中，人机协同技术在贷后票据审核的应用场景下，通常采用OCR+NLP技术，并结构化得到相关字段作为机器识别结果。然后审核人员就不需要一一录入每张票据各个字段的信息，而是需要人工进行比对机器识别结果和票据图片，针对个别错误的字段，参照票据做一些修改。这种传统的人机协同方式，确实实现了一定程度上的流程自动化，节省了审核人员大部分的录入时间。但由于机器识别结果存在误差，无法达到100％的准确率，审核人员无法确定其中哪些机器识别结果是准确的，哪些结果是不准确的，从而导致审核人员，仍然需要耗费大量时间去一一审核机器识别结果。

因此，相关技术中的人机协同技术在贷后票据审核的应用场景下，存在人力成本高、校验效率低等缺陷。

针对相关技术中存在的以上技术问题，本公开实施例提供了一种文本识别的方法。根据本公开实施例的方法，通过对机器识别结果生成置信度，基于置信度判断机器识别结果是否准确，从而可以针对性地对其中的部分机器识别结果进行人工审核，进而降低了人工比对的工作量及工作时间。

图1示出根据本公开实施例的文本识别的方法的流程图。

如图1所示，该方法包括：

步骤S101：获取待识别对象的机器识别结果；

步骤S102：基于机器识别结果和待识别对象的语义特征，通过置信度生成模型，得到机器识别结果的置信度；

步骤S103：对机器识别结果的置信度和置信度阈值进行比较，确定待识别对象的最终识别结果，其中，置信度阈值为预先根据置信度生成模型所确定的。

在本公开实施例中，待识别对象可以为包含待识别文字的图像等。例如，针对票据审核场景，待识别对象可以为待识别票据的图像。

示例性地，在步骤S101中，获取待识别对象的机器识别结果，可以通过各种字符识别技术对待识别对象进行字符识别处理，以得到待识别对象的机器识别结果。

例如，可以通过OCR技术对待识别对象进行识别处理，得到待识别对象中包含的多个字符，并从中抽取关键字符进行结构化得到关键字段，以作为机器识别结果。可以理解的是，OCR技术采用分类模型，会对每个字符有分类概率值，这个可以反映识别结果的准确率。并且，使用OCR识别并提取机器识别结果，并不只是简单的识别，还涉及到检测处理以及相关的结构化处理。

其中，机器识别结果可以包括待识别对象中包含的关键字段。例如，针对票据审核场景，关键字段可以为金额、日期、姓名、用途等字段，其中的金额、日期、信息等字段可以直接利用OCR技术所得到的相应字符并进行结构化生成，而其中的用途关键字段信息则可以通过NLP技术等方式获得。

示例性地，在步骤S102中，待识别对象的语义特征，用于反映待识别对象中关键字段的真实语义信息。例如针对待识别对象中的用途字段，通过提取待识别对象中用途字段的语义特征，可以更好地反映出待识别对象的真实用途。

其中，置信度生成模型通过对机器识别结果和待识别对象中关键字段的真实语义信息进行比较，从而得到机器识别结果的置信度。置信度用于反映机器识别结果和待识别对象中关键字段的真实语义信息的相似度。也就是说，置信度越大，说明机器识别结果和待识别对象中关键字段的真实语义信息越接近，即机器识别结果的准确度越高；置信度越小，说明机器识别结果和待识别对象中关键字段的真实语义信息的差距越大，即机器识别结果的准确度越低。

示例性地，在步骤S103中，对机器识别结果的置信度和置信度阈值进行比较，在置信度大于或等于置信度阈值的情况下，说明机器识别结果的准确度较高，则将机器识别结果作为待识别对象的最终识别结果；在置信度小于置信度阈值的情况下，说明机器识别结果的准确度较低，则将机器识别结果发送至人工审核通道进行人工审核，并将最终人工审核后的识别结果作为最终识别结果。

其中，置信度阈值可以通过训练好的置信度生成模型确定。

例如，将一定数量的样本输入置信度生成模型，以得到各个样本对应的置信度。根据各个样本对应的置信度，计算一定数量的样本在不同的候选阈值下的准确率和召回率，并从中选取满足预期准确率且召回率较高的候选阈值作为置信度阈值。

候选阈值可以根据设定的阈值范围，并通过预设步长得到多个参考值。例如，阈值范围可以为0.50-1.00，预设步长可以为0.01，从而得到0.50,0.51,0.52……0.99,1.00共计51个候选阈值。其中，阈值范围以及步长可以根据实际情况进行设定。

可以理解的是，通过置信度生成模型所确定得到的置信度阈值，有利于使根据机器识别结果的置信度和置信度阈值的比较结果所得到的最终识别结果，在具有较高准确率的前提下，尽可能地提高召回率，从而降低人工审核的工作量，提高识别效率。

根据本公开实施例的方法，通过利用置信度生成模型，可以对机器识别结果生成置信度，以作为判断机器识别结果是否准确的依据，从而在确定最终识别结果的过程中，根据置信度与置信度阈值的比较结果判断机器识别结果是否可以作为最终识别结果。由此，对于大批量的待识别对象，无需对机器识别结果一一进行人工审核，可以仅针对置信度小于置信度阈值的机器识别结果进行人工审核，从而减少了人工审核的工作量，提高了识别效率。

再者，通过置信度生成模型确定置信度阈值，有利于在确定最终识别结果的过程中，在保证可以作为最终识别结果的机器识别结果的准确率满足预期准确率的前提下，尽可能地提高召回率，从而进一步减少人工审核的工作量、以及提高识别效率。

如图2所示，在一种实施方式中，预先根据置信度生成模型确定置信度阈值，包括：

步骤S201：将样本集输入至置信度生成模型得到置信度集合；

步骤S202：根据置信度集合与不同的候选阈值的比较结果，计算置信度集合在不同的候选阈值下的准确率和召回率；

步骤S203：基于准确率和召回率，从不同的候选阈值中确定出置信度阈值。

示例性地，样本可以为待识别对象的机器识别结果，通过获取一定数量的待识别对象的机器识别结果，构建样本集。其中，待识别对象可以为购物小票。然后通过人工的方式对各个待识别对象的机器识别结果进行审核，以判断各个机器识别结果是否准确，并进行标记。

将样本集中的各个样本分别输入置信度生成模型，得到各个样本对应的置信度，并将多个置信度构建为置信度集合。

将置信度集合中的多个置信度与候选阈值进行比较，得到置信度大于或等于候选阈值的样本数量，然后根据各个样本的人工标记，计算置信度大于或等于候选阈值的样本数量中实际准确的样本数量。

其中，准确率的具体计算公式为：准确率＝置信度大于或等于候选阈值的票据中实际正确的样本数量/置信度大于等于候选阈值的样本数量。换而言之，通过计算置信度大于或等于候选阈值的样本数量中实际准确的样本数量与置信度大于或等于候选阈值的样本数量的比值，即可得到置信度集合在该候选阈值下的准确率。

召回率的具体计算公式为：召回率＝置信度大于或等于候选阈值的票据中实际正确的样本数量/样本总数量。换而言之，通过计算置信度大于或等于候选阈值的样本数量中实际准确的样本数量与样本总数量的比值，即可得到置信度集合在该候选阈值下的召回率。

通过上述方式，可以得到置信度集合在不同候选阈值下准确率和召回率，并依此构建置信度集合的准确率与候选阈值的关系曲线、以及置信度集合的召回率与候选阈值的关系曲线，如图10所示，其中，横坐标为候选阈值的具体数值，纵坐标为准确率或召回率的具体数值。

通过置信度集合的准确率与候选阈值的关系曲线、以及置信度集合的召回率与候选阈值的关系曲线，有利于选取满足预期准确率和预期召回率的候选阈值作为置信度阈值。

如图3所示，在一种实施方式中，步骤S203可以包括：

步骤S301：根据置信度集合在不同的候选阈值下对应的准确率，从不同的候选阈值中选取满足预定条件的候选阈值，作为参考阈值；

步骤S302：根据置信度集合在参考阈值下对应的召回率，从参考阈值中选取召回率最大的参考阈值，作为置信度阈值。

示例性地，在步骤S301中，满足预定条件指的是，大于或等于预期准确率，也就是说，根据置信度集合在不同的候选阈值下的准确率，从不同的候选阈值中选取大于或等于预期准确率的候选阈值，作为参考阈值。其中，预期准确率可以根据实际需要设定，例如，预期准确率可以参照人工识别的准确率进行设定。

可以理解的是，满足预定条件的候选阈值的数量可以为一个或多个。在参考阈值的数量为一个的情况下，在步骤S302中则可以直接将该参考阈值确定为置信度阈值；在参考阈值的数量为多个的情况下，则需要根据置信度集合在不同的参考阈值下对应的召回率，从多个参考阈值中选取召回率最大的参考阈值，确定为置信度阈值。

举例而言，如图10所示，假设预期准确率为0.96，根据置信度集合在不同的候选阈值下对应的准确率，从不同的候选阈值中选取准确率大于或等于0.96的候选阈值作为参考阈值，即将图示中数值为0.92、0.93、0.94、0.95、0.96、0.97、0.98和0.99的候选阈值作为参考阈值。然后，根据置信度集合在不同的参考阈值下对应的召回率，从数值为0.92、0.93、0.94、0.95、0.96、0.97、0.98和0.99的参考阈值中，选取召回率最大的参考阈值作为置信度阈值，结合图10可知，其中数值为0.92的参考阈值对应的召回率最大且数值为0.37。

可以理解的是，在数值为0.92的置信度阈值下，最终确定的可以作为最终识别结果的机器识别结果中，准确率可以达到96％，且召回率可以达到37％。也就是说，针对一定数量的待识别对象的机器识别结果，其中37％的机器识别结果可以作为最终识别结果，无需进行人工审核；其中63％的机器识别结果则需要发送至人工审核终端进行人工审核。

通过上述实施方式，可以选取出合适的置信度阈值，从而确保在该置信度阈值下，使可以作为最终识别结果的机器识别结果在具有较高准确率的同时，尽可能地提高机器识别结果的召回率，从而尽可能地减少机器识别结果中不能作为最终识别结果的数量，进而降低人工审核的工作、提高识别效率。

如图4所示，在一种实施方式中，步骤S101包括：

步骤S401：利用光学字符识别技术处理待识别对象，得到待识别对象的多个字符特征；

步骤S402：对多个字符特征进行过滤处理，得到待识别对象的关键字符特征；

步骤S403：对关键字符特征进行特征提取处理，得到待识别对象的机器识别结果。

示例性地，在步骤S401中，光学字符识别技术是指通过电子设备检查待识别对象中所打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字，以得到待识别对象的多个字符特征。

示例性地，在步骤S402中，可以通过各种文本过滤方式对多个字符特征进行过滤处理。例如，可以通过计算各个字符特征的逆向文件频率(inverse document frequency，IDF)，以对各个字符特征的词语普遍性进行度量，从而过滤掉多个字符特征中的高频词。可以理解的是，IDF值越高，则说明该字符特征的普遍性较高；IDF值越低，则说明该字符特征的普遍性较低。经过对多个字符特征进行过滤后，得到待识别对象的关键字符特征。

示例性地，在步骤S402中，还可以利用预设的停用词词典，对多个字符特征进行过滤。例如，针对购物票据，可以将其中的“小票”、“欢迎”、“光临”、“金额”等词汇进行过滤。

示例性地，在步骤S403中，提取到的特征可以包括用于表征待识别对象的实际信息的多维特征，例如可以包括用于表征待识别对象的折叠、翻转或清晰度特征、用于表征待识别对象的实际用途的关键字段特征、用于表征待识别对象的金额特征以及用于表征待识别对象的所属类别的编码特征等。

通过上述实施方式，有利于提高机器识别结果的精准度，以使机器识别结果更精准地反映待识别对象的实际信息，从而提高最终识别结果的准确率和召回率。

如图5所示，在一种实施方式中，机器识别结果包括清晰度特征、金额特征和用途特征中的至少一个，步骤S403可以包括以下中的至少一项：

步骤S501：针对关键字符特征，提取位于待识别对象的预定位置处的关键字符特征并计算平均识别概率，构建清晰度特征；

步骤S502：针对关键字符特征，提取用于表征金额的关键字符特征，构建金额特征；

步骤S503：针对关键字符特征，提取用于表征用途的关键字符特征并生成用途字段，基于用途字段，构建用途特征。

示例性地，在步骤S501中，针对票据审核场景，待识别对象的预定位置可以为票据的第一行文字的位置以及最后一行文字的位置，通过提取位于票据第一行文字的位置以及位于最后一行文字的位置的关键字符特征，并计算这些关键字符特征的平均识别概率，从而得到清晰度特征。其中，平均识别概率可以根据光学字符识别过程中所返回的每一个字符特征的识别概率，求平均值得到。需要说明的是，清晰度特征可以反映待识别对象是否存在折叠、翻转的情况。

示例性地，在步骤S502中，基于金额特征，通过预设的不同用途的待识别对象关于金额的分布概率，可以在一定程度上反映出待识别对象的实际用途的概率。例如，在待识别对象为购物票据的情况下，针对分布于1元至3000元的金额区间的购物票据，其实际用途大概率为日用品。

示例性地，在步骤S503中，基于提取到的用于保证用途的关键字符特征，将这些关键字符特征进行拼接处理，以得到用途字段，通过光学字符识别过程中返回的每个字符特征的识别概率求平均值，从而得到用途字段的平均识别概率，并将用途字段的平均识别概率作为用途特征。

根据上述实施方式，可以得到用于表征待识别对象多个维度的关键信息，从而提高机器识别结果的精准度，尤其是针对待识别对象的用途特征，可以更贴合待识别对象的实际用途。

如图6所示，在一种实施方式中，用途特征包括索引位置子特征和分类编码子特征，步骤S403可以包括：

步骤S601：根据用途字段在关键词词典中对应的索引位置，构建索引位置子特征；

步骤S602：根据用途字段在分类库中对应的编码，构建分类编码子特征。

示例性地，在步骤S601中，基于不同用途的关键词词典，判断用途字段是否被关键词词典命中。例如，针对用途类别为“医疗&美容”的关键词词典为[“纱布”、“绷带”、“口罩”...]，在用途字段中包括与“口罩”相匹配的关键词的情况下，将“口罩”在关键词词典中的索引位置，构建索引位置子特征。其中，关键词词典可以根据不同的用途类别下对应的常见词汇进行预先设置。

示例性地，在步骤S602中，获取用途字段在分类库中的分类编码，并将分类编码作为分类编码子特征。例如，分类库包括[“日用品”，“家用电器”。“医疗美容”…]中，用途字段所对应的类别为“日用品”，且“日用品”对应的编码为“索引0”，则将“索引0”作为分类编码子特征。其中，分类库可以根据不同的分类预先设置相应的编码，根据编码可以得知该用途字段的类别信息。

根据上述实施方式，可以对待识别对象的用途特征进行精细化，通过索引位置子特征和分类编码子特征，可以更准确地表征待识别对象的用途，有利于提高后续生成的置信度的准确度。

如图7所示，在一种实施方式中，步骤S102包括：

步骤S701：提取待识别对象的语义特征；

步骤S702：基于语义特征和机器识别结果，通过训练好的置信度生成模型，得到机器识别结果的置信度。

示例性地，在步骤S701中，语义特征即，用于表征待识别对象的关键字符特征语义的特征。

例如，通过对待识别对象的关键字符特征进行预处理，可以得到embedding向量作为待识别对象的语义特征。可以理解的是，Embedding向量为一种低维向量，基于Embedding向量可以用于表征待识别对象的真实用途。

示例性地，在步骤S702中，置信度生成模型可以采用各种相关性分析模型。例如，置信度生成模型可以采用XGBoost模型。

可以理解的是，XGBoost的全称是Extreme Gradient Boosting，是经过优化的分布式梯度提升库，具有高效、灵活且可移植的优点。XGBoost是大规模并行boosting tree的工具，它是目前最快最好的开源boosting tree工具包。通过采用XGboost模型作为置信度生成模型，通过计算机器识别结果与语义特征之间的相关性分数，有利于提高置信度的计算精准度。其中，相关性分数可以为用于表征及其识别结果与语义特征之间的相似度值，且相似度值即为机器识别结果的置信度。

根据上述实施方式，通过利用置信度生成模型，比较待识别对象的机器识别结果和待识别对象的语义特征的相似性，其中，语义特征用于表征待识别对象的真实用途，由此，可以将二者之间的相关性分数作为机器识别结果的置信度。

如图8所示，在一种实施方式中，步骤S103包括：

步骤S801：在机器识别结果的置信度大于或等于置信度阈值的情况下，将机器识别结果确定为待识别对象的最终识别结果。

可以理解的是，在机器识别结果的置信度大于或等于置信度阈值的情况下，则说明机器识别结果的准确度较高，可以作为最终识别结果并无需人工审核或校验。

基于此，针对满足置信度阈值的机器识别结果，无需人工再次进行审核，从而降低了人工审核的工作量，并且节约了人工成本。

如图9所示，在一种实施方式中，步骤S103包括：

步骤S901：在机器识别结果的置信度小于置信度阈值的情况下，将待识别对象发送至识别终端；

步骤S902：将识别终端的识别结果确定为识别对象的最终识别结果。

可以理解的是，在机器识别结果的置信度小于置信度阈值的情况下，则说明机器识别结果的准确度较低，因此还需人工进行审核或校验。

示例性地，识别终端用于将待识别对象和/或待识别对象的机器识别结果展示给审核人员，以供审核人员对待识别对象和/或待识别对象的机器识别结果进行人工审核。最后，将人工审核的识别结果作为最终识别结果。

根据本公开的实施例，本公开还提供了一种置信度生成模型的训练方法。

如图11所示，该方法包括：

步骤S1101：利用待识别对象的机器识别结果样本，确定初始化的目标置信度；

步骤S1102：将待识别对象的机器识别结果样本和机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和目标置信度的差异；

步骤S1103：根据差异对待训练的置信度生成模型进行训练，直至差异在允许范围内。

在一个具体示例中，以购物票据的识别场景为例，置信度生成模型的训练方法可以包括如下具体步骤：

示例性地，步骤S1101可以包括以下具体步骤：

(1)构建数据集，选用1850张购物票据，构建数据集，对数据集进行切割，以得到训练数据集、验证数据集和测试数据集，其中，训练数据集、验证数据集以及测试数据集的数据量的比值为1450:200:200。

(2)对数据集进行预处理，对于数据集中的每张票据，经过OCR技术得到用于表征购物票据文字信息的字符特征，并对字符特征进行过滤，得到关键字符特征。

(3)对训练数据集进行特征提取处理，并将提取到的多维特征作为机器识别结果样本。其中，提取到的多维特征包括：

票据折叠、翻转、清晰度特征，计算购物票据中第一行文字和最后一行文字的平均识别概率，作为票据折叠、翻转、清晰度特征；

实际用途的识别及结构化信息特征，计算用于表征实际用途的关键字段的平均识别概率，以及，提取关键字段特征在关键词词典命中的命中情况，以及，关键字段在关键词词典中的索引位置，得到实际用途的识别及结构化信息特征；

金额特征，将票据中用于反映金额的关键字段特征，作为金额特征；

用途归类编码特征，将关键字段特征对应的归类编码，作为用途归类编码特征。

示例性地，在步骤S1102中，通过在训练过程中，基于置信度生成模型输出的预测置信度，得到预测置信度与目标置信度之间的差异。

示例性地，在步骤S1103中，根据预测置信度与目标置信度之间的差异不断的对置信度生成模型进行训练，直至差异在允许范围内时，得到训练好的置信度生成模型。

根据本公开实施例的训练方法训练得到的置信度生成模型，可以用于生成机器识别结果的置信度，以作为判断机器识别结果是否准确的依据，从而在确定最终识别结果的过程中，根据置信度与置信度阈值的比较结果判断机器识别结果是否可以作为最终识别结果。由此，对于大批量的待识别对象，无需对机器识别结果一一进行人工审核，可以仅针对置信度小于置信度阈值的机器识别结果进行人工审核，从而减少了人工审核的工作量，提高了识别效率。

根据本公开的实施例，本公开还提供了一种文本识别的装置。

如图12所示，该装置包括：

机器识别结果获取模块1201，用于获取待识别对象的机器识别结果；

置信度生成模块1202，用于基于机器识别结果和待识别对象的语义特征，通过置信度生成模型，得到机器识别结果的置信度；

最终识别结果确定模块1203，用于对机器识别结果的置信度和置信度阈值进行比较，确定待识别对象的最终识别结果，其中，置信度阈值为预先根据置信度生成模型所确定的。

在一种实施方式中，该装置还包括：

置信度集合生成模块，用于将样本集输入至置信度生成模型得到置信度集合；

准确率和召回率计算模块，用于根据置信度集合与不同的候选阈值的比较结果，计算置信度集合在不同的候选阈值下的准确率和召回率；

置信度阈值确定模块，用于基于准确率和召回率，从不同的候选阈值中确定出置信度阈值。

在一种实施方式中，置信度阈值确定模块包括：

参考阈值确定子模块，用于根据置信度集合在不同的候选阈值下对应的准确率，从不同的候选阈值中选取满足预定条件的候选阈值，作为参考阈值；

置信度阈值确定子模块，用于根据置信度集合在参考阈值下对应的召回率，从参考阈值中选取召回率最大的参考阈值，作为置信度阈值。

在一种实施方式中，机器识别结果获取模块1201包括：

字符特征生成子模块，用于利用光学字符识别技术处理待识别对象，得到待识别对象的多个字符特征；

过滤模块子模块，用于对多个字符特征进行过滤处理，得到待识别对象的关键字符特征；

特征提取子模块，用于对关键字符特征进行特征提取处理，得到待识别对象的机器识别结果。

在一种实施方式中，机器识别结果包括清晰度特征、金额特征和用途特征中的至少一个，特征提取子模块包括以下中的至少一个：

清晰度特征构建单元，用于针对关键字符特征，提取位于待识别对象的预定位置处的关键字符特征并计算平均识别概率，构建清晰度特征；

金额特征构建单元，用于针对关键字符特征，提取用于表征金额的关键字符特征，构建金额特征；

用途特征构建单元，用于针对关键字符特征，提取用于表征用途的关键字符特征并生成用途字段，基于用途字段，构建用途特征。

在一种实施方式中，用途特征包括索引位置子特征和分类编码子特征，用途特征构建单元还用于：

根据用途字段在关键词词典中对应的索引位置，构建索引位置子特征；

根据用途字段在分类库中对应的编码，构建分类编码子特征。

在一种实施方式中，置信度生成模块1202包括：

语义特征提取子模块，用于提取待识别对象的语义特征；

置信度生成子模块，用于基于语义特征和机器识别结果，通过训练好的置信度生成，得到机器识别结果的置信度。

在一种实施方式中，最终识别结果确定模块1203还用于：

在机器识别结果的置信度大于或等于置信度阈值的情况下，将机器识别结果确定为待识别对象的最终识别结果。

在一种实施方式中，最终识别结果确定模块1203还用于：

在机器识别结果的置信度小于置信度阈值的情况下，将待识别对象发送至识别终端；

将识别终端的识别结果确定为识别对象的最终识别结果。

根据本公开的实施例，还提供了一种置信度生成模型的训练装置。

如图13所示，该装置包括：

目标置信度确定模块1301，用于利用待识别对象的机器识别结果样本，确定初始化的目标置信度；

差异生成模块1302，用于将待识别对象的机器识别结果样本和机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和目标置信度的差异；

训练模块1303，用于根据差异对待训练的置信度生成模型进行训练，直至差异在允许范围内。

本公开实施例各装置中的各单元、模块或子模块的功能可以参见上述方法实施例中的对应描述，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或要求的本公开的实现。

如图14所示，电子设备1400包括计算单元1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序来执行各种适当的动作和处理。在RAM 1403中，还可存储电子设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入输出(I/O)接口1405也连接至总线1404。

电子设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调制解调器、无线通信收发机等。通信单元1409允许电子设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理，例如文本识别的方法和/或置信度生成模型的训练方法。例如，在一些实施例中，文本识别的方法和/或置信度生成模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到电子设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时，可以执行上文描述的文本识别的方法和/或置信度生成模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别的方法和/或置信度生成模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别的方法，包括：

获取待识别对象的机器识别结果；

基于所述机器识别结果和所述待识别对象的语义特征，通过置信度生成模型，得到所述机器识别结果的置信度；

对所述机器识别结果的置信度和置信度阈值进行比较，确定所述待识别对象的最终识别结果，其中，所述置信度阈值为预先根据所述置信度生成模型所确定的。

2.根据权利要求1所述的方法，其中，预先根据置信度生成模型确定所述置信度阈值，包括：

将样本集输入至所述置信度生成模型得到置信度集合；

根据所述置信度集合与不同的候选阈值的比较结果，计算所述置信度集合在所述不同的候选阈值下的准确率和召回率；

基于所述准确率和所述召回率，从所述不同的候选阈值中确定出所述置信度阈值。

3.根据权利要求2所述的方法，其中，基于所述准确率和所述召回率，从所述不同的候选阈值中确定出所述置信度阈值，包括：

根据所述置信度集合在所述不同的候选阈值下对应的准确率，从所述不同的候选阈值中选取满足预定条件的候选阈值，作为参考阈值；

根据所述置信度集合在所述参考阈值下对应的召回率，从所述参考阈值中选取召回率最大的参考阈值，作为所述置信度阈值。

4.根据权利要求1所述的方法，其中，获取待识别对象的机器识别结果，包括：

利用光学字符识别技术处理所述待识别对象，得到所述待识别对象的多个字符特征；

对所述多个字符特征进行过滤处理，得到所述待识别对象的关键字符特征；

对所述关键字符特征进行特征提取处理，得到所述待识别对象的机器识别结果。

5.根据权利要求4所述的方法，所述机器识别结果包括清晰度特征、金额特征和用途特征中的至少一个，其中，对所述关键字符特征进行特征提取处理，得到所述机器识别结果，包括以下中的至少一项：

针对所述关键字符特征，提取位于所述待识别对象的预定位置处的关键字符特征并计算平均识别概率，构建清晰度特征；

针对所述关键字符特征，提取用于表征金额的关键字符特征，构建金额特征；

针对所述关键字符特征，提取用于表征用途的关键字符特征并生成用途字段，基于所述用途字段，构建用途特征。

6.根据权利要求5所述的方法，所述用途特征包括索引位置子特征和分类编码子特征，其中，构建用途特征，包括：

根据所述用途字段在关键词词典中对应的索引位置，构建所述索引位置子特征；

根据所述用途字段在分类库中对应的编码，构建所述分类编码子特征。

7.根据权利要求1所述的方法，其中，基于所述机器识别结果和所述待识别对象的语义特征，通过置信度生成模型，得到所述机器识别结果的置信度，包括：

提取所述待识别对象的语义特征；

基于所述语义特征和所述机器识别结果，通过训练好的置信度生成模型，得到所述机器识别结果的置信度。

8.根据权利要求1-7中任一项所述的方法，其中，对所述机器识别结果的置信度和置信度阈值进行比较，确定所述待识别对象的最终识别结果，包括：

在所述机器识别结果的置信度大于或等于所述置信度阈值的情况下，将所述机器识别结果确定为所述待识别对象的最终识别结果。

9.根据权利要求1-7中任一项所述的方法，其中，对所述机器识别结果的置信度和置信度阈值进行比较，确定所述待识别对象的最终识别结果，包括：

在所述机器识别结果的置信度小于所述置信度阈值的情况下，将所述待识别对象发送至识别终端；

将所述识别终端的识别结果确定为所述识别对象的最终识别结果。

10.一种置信度生成模型的训练方法，包括：

将所述待识别对象的机器识别结果样本和所述机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和所述目标置信度的差异；

根据所述差异对所述待训练的置信度生成模型进行训练，直至所述差异在允许范围内。

11.一种文本识别的装置，包括：

置信度生成模块，用于基于所述机器识别结果和所述待识别对象的语义特征，通过置信度生成模型，得到所述机器识别结果的置信度；

最终识别结果确定模块，用于对所述机器识别结果的置信度和置信度阈值进行比较，确定所述待识别对象的最终识别结果，其中，所述置信度阈值为预先根据所述置信度生成模型所确定的。

12.根据权利要求11所述的装置，还包括：

置信度集合生成模块，用于将样本集输入至所述置信度生成模型得到置信度集合；

准确率和召回率计算模块，用于根据所述置信度集合与不同的候选阈值的比较结果，计算所述置信度集合在所述不同的候选阈值下的准确率和召回率；

置信度阈值确定模块，用于基于所述准确率和所述召回率，从所述不同的候选阈值中确定出所述置信度阈值。

13.根据权利要求12所述的装置，其中，所述置信度阈值确定模块包括：

参考阈值确定子模块，用于根据所述置信度集合在所述不同的候选阈值下对应的准确率，从所述不同的候选阈值中选取满足预定条件的候选阈值，作为参考阈值；

置信度阈值确定子模块，用于根据所述置信度集合在所述参考阈值下对应的召回率，从所述参考阈值中选取召回率最大的参考阈值，作为所述置信度阈值。

14.根据权利要求11所述的装置，其中，所述机器识别结果获取模块包括：

字符特征生成子模块，用于利用光学字符识别技术处理所述待识别对象，得到所述待识别对象的多个字符特征；

过滤子模块，用于对所述多个字符特征进行过滤处理，得到所述待识别对象的关键字符特征；

特征提取子模块，用于对所述关键字符特征进行特征提取处理，得到所述待识别对象的机器识别结果。

15.根据权利要求14所述的装置，所述机器识别结果包括清晰度特征、金额特征和用途特征中的至少一个，所述特征提取模块包括以下中的至少一个：

清晰度特征构建单元，用于针对所述关键字符特征，提取位于所述待识别对象的预定位置处的关键字符特征并计算平均识别概率，构建清晰度特征；

金额特征构建单元，用于针对所述关键字符特征，提取用于表征金额的关键字符特征，构建金额特征；

用途特征构建单元，用于针对所述关键字符特征，提取用于表征用途的关键字符特征并生成用途字段，基于所述用途字段，构建用途特征。

16.根据权利要求15所述的装置，所述用途特征包括索引位置子特征和分类编码子特征，所述用途特征构建单元还用于：

17.根据权利要求11所述的装置，其中，所述置信度生成模块包括：

语义特征提取子模块，用于提取所述待识别对象的语义特征；

置信度生成子模块，用于基于所述语义特征和所述机器识别结果，通过训练好的置信度生成，得到所述机器识别结果的置信度。

18.根据权利要求11-17中任一项所述的装置，其中，所述最终识别结果确定模块还用于：

19.根据权利要求11-17中任一项所述的装置，其中，所述最终识别结果确定模块还用于：

20.一种置信度生成模型的训练装置，包括：

差异生成模块，用于将所述待识别对象的机器识别结果样本和所述机器识别结果样本的语义特征输入待训练的置信度生成模型，得到预测置信度和所述目标置信度的差异；

训练模块，用于根据所述差异对所述待训练的置信度生成模型进行训练，直至所述差异在允许范围内。

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。