CN113011246A

CN113011246A - 票据分类方法、装置、设备及存储介质

Info

Publication number: CN113011246A
Application number: CN202110134428.5A
Authority: CN
Inventors: 李金龙; 文俊杰; 钱学成; 张佳炜; 曹晓欢; 陈洁彦
Original assignee: China Merchants Bank Co Ltd
Current assignee: China Merchants Bank Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-22

Abstract

本申请公开了一种票据分类方法、装置、设备和存储介质，该方法包括：获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据；将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果；基于各所述候选结果的大小，得到所述待处理票据数据的分类结果；其中，所述预设票据识别模型是基于具有预设分类标签的预设特征数据，并基于预设注意力机制，对预设基础模型进行迭代训练得到的。本实施例基于预设票据识别模型可以自动准确进行目标格式数据的处理，实现准确得到待处理票据数据的分类结果。

Description

票据分类方法、装置、设备及存储介质

技术领域

本申请涉及金融科技(Fintech)的人工智能技术领域，尤其涉及一种票据分类方法、装置、设备及存储介质。

背景技术

随着金融科技，尤其是互联网科技金融的不断发展，越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域，但金融业也对技术提出了更高的要求，如金融业对票据分类也有更高的要求。

即随着金融监管力度和跨境贸易热度的加大，如何更快、更准地完成外汇业务的审核流程，成为约束银行提升服务性能的重要瓶颈之一，其中，准确识别外汇票据图片是外汇审核流程中首要的一环，目前，要依靠人工对票据进行外汇审核，受限于票据类型过多、结构繁杂，识别外汇票据的准确率不高。

发明内容

本申请的主要目的在于提供一种票据分类方法、装置、设备和存储介质，旨在解决现有技术中，外汇票据识别准确率不高的技术问题。

为实现上述目的，本申请提供一种票据分类方法，所述票据分类方法包括：

获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据；

将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果；

基于各所述候选结果的大小，得到所述待处理票据数据的分类结果；

其中，所述预设票据识别模型是基于具有预设分类标签的预设特征数据，并基于预设注意力机制，对预设基础模型进行迭代训练得到的。

可选地，所述获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据的步骤，包括：

获取待处理票据数据，对所述待处理票据数据进行图像灰度化、降噪、二值化、字符切分操作，得到预处理图像；

对所述预处理图像执行结构特征和文本特征的预设特征提取操作，得到包括所述预处理图像的布局特征和文本特征的目标格式数据。

可选地，所述注意力机制包括预设乘性注意力机制，所述将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果的步骤，包括：

将所述目标格式数据输入至预设票据识别模型中；

对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据；

基于预设乘性注意力机制所确定的嵌入向量数据对应的各嵌入权重，对所述嵌入向量数据进行预设语义特征提取处理，得到各候选结果。

可选地，所述对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据的步骤，包括：

对所述布局特征和文本特征分别进行矩阵形式的编码以及降维处理，得到布局编码数据和文本编码数据；

对所述布局编码数据和文本编码数据进行矩阵融合和向量化处理，得到嵌入向量数据。

可选地，所述预设基础模型为BERT模型；

所述将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果的步骤之前，所述方法还包括：

获取具有预设分类标签的预设特征数据，其中，所述预设特征数据基于预设票据通过OCR识别处理得到；

基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型；

将所述目标模型设置为所述预设票据识别模型。

可选地，所述基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型的步骤之后，所述方法包括：

通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估；

若所述目标模型通过模型评估时，将所述目标模型设置为所述预设票据识别模型。

可选地，所述通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估的步骤，包括：

通过预设评估数据中的扰动数据，对所述目标模型进行模型扰动，并确定扰动后得到的第一预测结果与第一预设结果之间的第一模型误差；

若所述第一模型误差小于第一预设值时，确定所述目标模型通过稳定性的评估；

通过预设评估数据中的准确性评估数据，对所述目标模型进行模型准确度验证，并确定验证后得到的第二预测结果与第二预设结果之间的第二模型误差；

若所述第二模型误差小于第二预设值时，确定所述目标模型通过准确性的评估。

本申请还提供一种票据分类装置，所述票据分类装置包括：

第一获取模块，用于获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据；

语义计算模块，用于将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果；

第二获取模块，用于基于各所述候选结果的大小，得到所述待处理票据数据的分类结果；

可选地，所述第一获取模块：

第一获取单元，用于获取待处理票据数据，对所述待处理票据数据进行图像灰度化、降噪、二值化、字符切分操作，得到预处理图像；

特征提取单元，用于对所述预处理图像执行结构特征和文本特征的预设特征提取操作，得到包括所述预处理图像的布局特征和文本特征的目标格式数据。

可选地，所述语义计算模块包括：

输入单元，用于将所述目标格式数据输入至预设票据识别模型中；

融合单元，用于对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据；

第二获取单元，用于基于预设乘性注意力机制所确定的嵌入向量数据对应的各嵌入权重，对所述嵌入向量数据进行预设语义特征提取处理，得到各候选结果。

可选地，所述融合单元包括：

编码子单元，用于对所述布局特征和文本特征分别进行矩阵形式的编码以及降维处理，得到布局编码数据和文本编码数据；

获取子单元，用于对所述布局编码数据和文本编码数据进行矩阵融合和向量化处理，得到嵌入向量数据。

可选地，所述预设基础模型为BERT模型；

所述票据分类装置还包括：

第三获取模块，用于获取具有预设分类标签的预设特征数据，其中，所述预设特征数据基于预设票据通过OCR识别处理得到；

迭代训练模块，用于基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型；

第一设置模块，用于将所述目标模型设置为所述预设票据识别模型。

可选地，所述票据分类装置还包括：

评估模块，用于通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估；

第二设置模块，用于若所述目标模型通过模型评估时，将所述目标模型设置为所述预设票据识别模型。

可选地，所述评估模块包括：

扰动单元，用于通过预设评估数据中的扰动数据，对所述目标模型进行模型扰动，并确定扰动后得到的第一预测结果与第一预设结果之间的第一模型误差；

第一确定单元，用于若所述第一模型误差小于第一预设值时，确定所述目标模型通过稳定性的评估；

评估单元，用于通过预设评估数据中的准确性评估数据，对所述目标模型进行模型准确度验证，并确定验证后得到的第二预测结果与第二预设结果之间的第二模型误差；

第二确定单元，用于若所述第二模型误差小于第二预设值时，确定所述目标模型通过准确性的评估。

本申请还提供一种票据分类设备，所述票据分类设备为实体设备，所述票据分类设备包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述票据分类方法的程序，所述票据分类方法的程序被处理器执行时可实现如上述的票据分类方法的步骤。

本申请还提供一种存储介质，所述存储介质上存储有实现上述票据分类方法的程序，所述票据分类方法的程序被处理器执行时实现如上述的票据分类方法的步骤。

本申请还提供一种计算机程序产品、包括计算机程序，该计算机程序被处理器执行时实现上述的票据分类方法的步骤。

本申请提供一种票据分类方法、装置、设备及存储介质，与现有票据类型过多、结构繁杂，只基于人工方式进行审核，致使外汇票据识别准确率不高相比，本申请通过获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据；将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果；基于各所述候选结果的大小，得到所述待处理票据数据的分类结果；其中，所述预设票据识别模型是基于具有预设分类标签的预设特征数据，并基于预设注意力机制，对预设基础模型进行迭代训练得到的。由于在本申请中，得到待处理票据数据后，首先进行OCR识别处理，得到目标格式数据，并基于所述预设票据识别模型对目标格式数据自动进行基于预设注意力机制的语义计算，并进一步自动得到所述待处理票据数据的分类结果，且预设票据识别模型迭代训练得到的，也即，基于预设票据识别模型可以自动准确进行目标格式数据的处理，实现准确得到待处理票据数据的分类结果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请票据分类方法第一实施例的流程示意图；

图2为本申请票据分类方法第一实施例中步骤S10的步骤细化流程示意图；

图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种票据分类方法，在本申请票据分类方法的第一实施例中，参照图1，所述票据分类方法包括：

步骤S10，获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据；

步骤S20，将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果；

步骤S30，基于各所述候选结果的大小，得到所述待处理票据数据的分类结果；

具体步骤如下：

在本实施例中，需要说明的是，所述票据分类方法应用于票据分类装置，该票据分类装置属于票据分类设备，具体地，所述票据分类方法的应用场景在于：外汇业务的审核场景，具体地，是外汇审核流程中外汇票据图片的审核场景，即随着金融监管力度加大和跨境贸易热度加大，外汇审核岗位的专业化要求、业务压力逐步提高，需要更快、更准地完成外汇业务的审核流程，即外汇业务的审核流程成为约束银行提升服务性能的重要瓶颈之一，准确识别外汇票据图片是外汇审核流程中首要的一环，但受限于票据类型过多、结构繁杂，当前图像自动识别技术的准确率不高，主要依靠人工处理，花费大量人力物力。且随着外汇业务不断拓展，票据类型和样式随之不断增多，当前技术无法满足票据识别类别的可扩展性，即一旦扩充类型，算法模型需经过大量的修改调优才可满足新类别范围的识别目的，造成了人力物力资源的浪费。

在本实施例中，实现自动化地对票据类型进行识别，具体地，在获取待处理票据数据后，首先对所述待处理票据数据进行OCR识别处理，得到目标格式数据，具体过程可以是：

方式一：获取待处理票据数据，通过票据分类装置中的OCR识别模块对所述待处理票据数据进行OCR识别处理，得到目标格式数据；

方式二：获取待处理票据数据，通过外接的OCR识别装置对所述待处理票据数据进行OCR识别处理，得到目标格式数据，并将目标格式数据发送给票据分类装置。

其中，参照图2，所述获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据的步骤，包括：

步骤S11，获取待处理票据数据，对所述待处理票据数据进行图像灰度化、降噪、二值化、字符切分操作，得到预处理图像；

步骤S12，对所述预处理图像执行结构特征和文本特征的预设特征提取操作，得到包括所述预处理图像的布局特征和文本特征的目标格式数据。

也即，在本实施例中，阐述具体的OCR识别处理过程。

具体地，票据分类装置在通过传感器(或者是其它的检测手段)检测到识别区域存在票据时，将启动票据分类装置中OCR模块的扫描功能，对识别区域的票据进行扫描，获得该票据的原始票据图像；然后将对该原始票据图像进行票据信息采集；这个信息采集的过程包括图像灰度化、降噪、二值化、字符切分操作等预处理过程。

对于预处理，主要是为了减少图像的无用信息，获得有效图像，方便后续的处理。本实施例中，具体地，在对原始票据图像进行预处理时，首先对原始票据图像进行区域划分(区域划分的主要方式是识别票据表格中的线条信息)，划分出包括有效票据信息的有效区域，得到布局特征，其中，该有效区域的图像可称为有效图像，然后再针对该有效图像进行后续的字符特征提取和识别，得到文字识别特征，例如，对某一票据而言，首先，识别表格的线条规律特征，基于该线条规律特征，可对票据进行划分，从而得到布局特征，然后获取出有效图像，再对该部分的有效图像进行针对性的处理，得到文字识别特征，从而减少了数据计算和处理量，提高识别效率。

当然，图像预处理还可以其它步骤，例如图像二值化、降噪、字符切分等操作。其中，二值化是指将原始票据图像转化为只含两种黑白颜色的二值图像，这是由于彩色图像所含信息量巨大，对其进行后续处理时计算量也会随之增大，花费的时间也会边长，因此为提高处理和识别的效率，可先对彩色图进行二值化处理；降噪则是通过滤波器获取其它方式解决实际图像由于噪声干扰而导致图像质量下降的问题；而字符切分则是指将一连串的字符分成单个具有确定含义的字(或是单词、数字)，再对其进行识别。

在获得有效图像时，即可对有效图像中进行字符特征提取。字符特征可说是识别的主要依据，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了；而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征。

在获取到票据信息的字符特征，即可配合对应的比对方法，将该字符特征与字符库中的备选特征进行匹配，从而找到最接近的特征，并根据该最接近特征的字符含义确定该票据信息的含义。

进一步的，对于该布局特征识别和字符特征提取匹配的过程，可以通过神经网络识别模型完成；即将有效图像输入到训练好的神经网络识别模型，由模型根据训练过程总结的逻辑经验进行布局特征识别和字符特征提取，从而获取目标格式数据。

在本实施例中，目标格式数据可以是HTML格式数据，保留有票据的文字信息和位置、表格布局和区域等等图片信息。

在本实施例中，在得到目标格式数据后，将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果。具体地，把票据HTML数据，输入到预设票据识别模型如票据NLP分类模型中，经过深度模型计算出票据从属每个票据类型的概率，取最大概率的票据类型为输出判别类型。

其中，基于预设注意力机制的语义计算指的是对关注的数据特征进行权重的注意力确定，比如，数据是图片，图片的特征可以包括：图片的颜色特征，图片的布局特征，图片的文本特征，图片的背景特征，图片的前景特征等，基于注意力机制可以是将注意力置于如图片的布局特征，图片的文本特征上。在本实施例中，基于预设注意力机制进行语义计算，因而，可以在模型训练的过程中，主动选择参与或者调整训练过程。

将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果，注意力机制是预设的，是经过预先训练后得到的机制，因而，直接基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算即可得到各候选结果。

其中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算的过程包括：

一：基于所述预设票据识别模型对所述目标格式数据先进行矩阵化或者向量化处理，得到初始处理结果

二：基于所述预设票据识别模型对所述初始处理结果进行降维处理，后得到降维结果；

方式三：基于所述预设票据识别模型对所述降维结果进行向量运算或者矩阵运算处理，得到目标结果。

具体地，所述注意力机制包括预设乘性注意力机制，所述将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果的步骤，包括：

步骤S21，将所述目标格式数据输入至预设票据识别模型中；

在本实施例中，首先将HTML格式数据输入至预设票据识别模型中。

步骤S22，对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据；

对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据，具体地，调用预设编码模块对所述目标格式数据进行矩阵特征编码处理，如像素矩阵特征编码处理，文本矩阵特征编码处理，在特征编码后，进行特征融合处理，其中，特征融合可以是：直接衔接融合，比如，特征分别为(a)(b),(c)，则融合后的特征为(a,b,c)。

其中，所述对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据的步骤，包括：

步骤S221，对所述布局特征和文本特征分别进行矩阵形式的编码以及降维处理，得到布局编码数据和文本编码数据；

在本实施例中，目标格式数据细分为布局特征和文本特征，因而对所述布局特征和文本特征分别进行矩阵形式的编码处理，对所述布局特征和文本特征分别进行矩阵形式的编码处理过程中，可以是基于one-hot编码方式，在基于one-hot编码方式编码后，对编码后的布局特征和文本特征分别进行降维处理，降维处理的目的在于减少数据计算量，其中，可以是基于K均值算法或者K最近邻算法等进行降维处理，在降维的过程中，布局特征和文本特征的实质不会改变。

步骤S222，对所述布局编码数据和文本编码数据进行矩阵融合和向量化处理，得到嵌入向量数据。

在得到布局编码数据和文本编码数据后，对所述布局编码数据和文本编码数据进行矩阵融合和向量化处理，得到嵌入向量数据，其中，矩阵融合可以是直接衔接融合，比如，特征分别为(a)(b),(c)，则融合后的特征为(a,b,c)。在矩阵融合后，调用预设向量化模块对矩阵融合后的布局编码数据和文本编码数据进行向量化处理，得到嵌入向量数据。

步骤S23，基于预设乘性注意力机制所确定的嵌入向量数据对应的各嵌入权重，对所述嵌入向量数据进行预设语义特征提取处理，得到各候选结果。

基于预设乘性注意力机制所确定的嵌入向量数据对应的各嵌入权重，对所述嵌入向量数据进行预设语义特征提取处理，得到各候选结果。具体地，基于各嵌入权重和对应嵌入向量数据进行相乘，并进行后续的全连接处理，得到各候选结果(概率)，即得到待处理票据数据属于某一具体类型票据的概率。

在得到各所述候选结果的大小后，获取所述待处理票据数据的分类结果，具体地，选取概率最高的候选结果对应的票据类型作为所述待处理票据数据的分类结果。

本申请实施例提供一种票据分类方法，并提供本申请票据分类方法的另一实施例，该实施例基于本申请中第一实施例，在该另一实施例中，所述预设基础模型为BERT模型；

步骤A1，获取具有预设分类标签的预设特征数据，其中，所述预设特征数据基于预设票据通过OCR识别处理得到；

步骤A2，基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型；

步骤A3，将所述目标模型设置为所述预设票据识别模型。

在本实施例中，预设票据识别模型是经过一定次数的训练后，能够准确进行类型判断的目标模型，具体地，首先获取具有预设分类标签的预设特征数据，其中，所述预设特征数据基于预设票据通过OCR识别处理得到的，基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型，其中，预设训练完成条件可以是预设损失函数收敛，或者训练达到预设次数，或者是识别准确率达到预设准确率。

本申请实施例获取具有预设分类标签的预设特征数据，其中，所述预设特征数据基于预设票据通过OCR识别处理得到；基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型；将所述目标模型设置为所述预设票据识别模型。在本实施例中，准确构建预设票据识别模型，进而为准确识别票据奠定了基础。

本申请实施例提供一种票据分类方法，并提供本申请票据分类方法的另一实施例，该实施例基于本申请中第一实施例和第二实施例，在该另一实施例中，

所述基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型的步骤之后，所述方法包括：

步骤B1，通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估；

步骤B2，若所述目标模型通过模型评估时，将所述目标模型设置为所述预设票据识别模型。

在本实施例中，得到目标模型后，通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估，具体地，通过预设评估数据中的准确性评估数据，对所述目标模型进行模型稳定性的评估，并确定所述目标模型是否通过模型稳定性评估，通过预设评估数据中的扰动数据，对所述目标模型进行模型准确性的评估，并确定所述目标模型是否通过模型准确性评估，若所述目标模型通过模型准确性评估和模型稳定性评估，确定所述目标模型通过模型评估。

其中，所述通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估的步骤，包括：

在本实施例中，具体通过预设评估数据中的扰动数据，对所述目标模型进行模型扰动，并基于扰动后得到的扰动模型对扰动验证数据进行处理，并确定扰动模型对扰动验证数据进行预测后得到的第一预测结果，获取扰动验证数据的第一预设结果，确定第一预测结果与第一预设结果之间的第一模型误差，若所述第一模型误差小于等于第一预设值时，确定所述目标模型通过稳定性的评估，若所述第一模型误差大于第一预设值时，确定所述目标模型未通过稳定性的评估。

在本实施例中，具体通过预设评估数据中的准确性评估数据，对所述目标模型进行模型准确度验证，并确定验证后得到的第二预测结果与第二预设结果之间的第二模型误差，若所述第二模型误差小于等于第二预设值时，确定所述目标模型通过准确性的评估，若所述第二模型误差大于第二预设值时，确定所述目标模型未通过准确性的评估。

在本实施例中，对目标模型进行稳定性和准确性进行评估后，再进行数据的预测，确保模型长期有效和准确。

本申请实施例通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估；若所述目标模型通过模型评估时，将所述目标模型设置为所述预设票据识别模型。在本实施例中，为提升预设票据识别模型的识别准确性和识别稳定性奠定基础。

参照图3，图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。

如图3所示，该票据分类设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该票据分类设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard)，可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图3中示出的票据分类设备结构并不构成对票据分类设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及票据分类程序。操作***是管理和控制票据分类设备硬件和软件资源的程序，支持票据分类程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与票据分类***中其它硬件和软件之间通信。

在图3所示的票据分类设备中，处理器1001用于执行存储器1005中存储的票据分类程序，实现上述任一项所述的票据分类方法的步骤。

本申请票据分类设备具体实施方式与上述票据分类方法各实施例基本相同，在此不再赘述。

本申请还提供一种票据分类装置，所述票据分类装置包括：

可选地，所述第一获取模块：

可选地，所述语义计算模块包括：

可选地，所述融合单元包括：

可选地，所述预设基础模型为BERT模型；

所述票据分类装置还包括：

可选地，所述票据分类装置还包括：

可选地，所述评估模块包括：

本申请票据分类装置的具体实施方式与上述票据分类方法各实施例基本相同，在此不再赘述。

本申请实施例提供了一种存储介质，且所述存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的票据分类方法的步骤。

本申请存储介质具体实施方式与上述票据分类方法各实施例基本相同，在此不再赘述。

本申请计算机程序产品的具体实施方式与上述票据分类方法各实施例基本相同，在此不再赘述。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围内。

Claims

1.一种票据分类方法，其特征在于，所述票据分类方法包括：

2.如权利要求1所述的票据分类方法，其特征在于，所述获取待处理票据数据，对所述待处理票据数据进行OCR识别处理，得到目标格式数据的步骤，包括：

3.如权利要求2所述的票据分类方法，其特征在于，所述注意力机制包括预设乘性注意力机制，所述将所述目标格式数据输入至预设票据识别模型中，基于所述预设票据识别模型对所述目标格式数据进行基于预设注意力机制的语义计算，得到各候选结果的步骤，包括：

将所述目标格式数据输入至预设票据识别模型中；

4.如权利要求3所述票据分类方法，其特征在于，所述对所述目标格式数据进行特征编码和特征融合处理，得到嵌入向量数据的步骤，包括：

5.如权利要求1-4任一项所述的票据分类方法，其特征在于，所述预设基础模型为BERT模型；

将所述目标模型设置为所述预设票据识别模型。

6.如权利要求5所述的票据分类方法，其特征在于，所述基于预设注意力机制，对预设基础模型进行迭代训练，直至达到预设训练完成条件，以得到目标模型的步骤之后，所述方法包括：

7.如权利要求6所述的票据分类方法，其特征在于，所述通过预设评估数据，对所述目标模型进行模型稳定性和准确性的评估，并确定所述目标模型是否通过模型评估的步骤，包括：

8.一种票据分类装置，其特征在于，所述票据分类装置包括：

9.一种票据分类设备，其特征在于，所述票据分类设备包括：存储器、处理器以及存储在存储器上的用于实现所述票据分类方法的程序，

所述存储器用于存储实现票据分类方法的程序；

所述处理器用于执行实现所述票据分类方法的程序，以实现如权利要求1至7中任一项所述票据分类方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有实现票据分类方法的程序，所述实现票据分类方法的程序被处理器执行以实现如权利要求1至7中任一项所述票据分类方法的步骤。