CN112686263A

CN112686263A - 文字识别方法、装置、电子设备及存储介质

Info

Publication number: CN112686263A
Application number: CN202011591142.1A
Authority: CN
Inventors: 陈明军; 何春江
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20
Anticipated expiration: 2040-12-29
Also published as: CN112686263B

Abstract

本发明提供一种文字识别方法、装置、电子设备及存储介质，该方法首先获取待批改题目的作答图像以及待批改题目的题目信息，题目信息包括题干文本、答案文本和解析文本中的至少一种；然后根据作答图像以及题目信息，得到作答图像中作答文本的识别结果。将作答图像与题目信息相结合，可以利用题目信息辅助作答图像中作答文字的识别，提高识别准确率。

Description

文字识别方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种文字识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的高速发展，越来越多的工作被机器取代，机器自动批改试卷的技术也应运而生。通过机器实现自动批改试卷，不仅可以极大的减少老师和家长的工作，还可以通过批改的情况对学生的学习情况进行分析总结，以便向推荐学生掌握得不好的知识点的相关题目，让学生脱离题海战术，只做薄弱项，为学生减负。

现如今的学生作答场景，无论是扫描、拍照还是通过平板在线实现输入，都离不开作答文字识别，而作答文字识别是自动批改的入口，其识别效果也直接影响了最终自动批改的效果，若某些关键作答识别错误，则会直接造成最终批改的错误。

为此，如何提升自动批改场景下的作答文字识别至关重要。

发明内容

本发明提供一种文字识别方法、装置、电子设备及存储介质，用以解决现有技术中存在的缺陷。

本发明提供一种文字识别方法，包括：

获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；

基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

根据本发明提供的一种文字识别方法，所述基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果，具体包括：

对所述作答图像进行视觉特征提取，得到所述作答图像的视觉特征编码；

对所述题目信息进行文本特征提取，得到所述题目信息的文本特征编码；

基于所述视觉特征编码和所述文本特征编码，确定所述作答图像中作答文本的识别结果。

根据本发明提供的一种文字识别方法，所述基于所述视觉特征编码和所述文本特征编码，确定所述作答图像中作答文本的识别结果，具体包括：

基于所述视觉特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述视觉特征编码对应的视觉上下文特征编码；

基于所述文本特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码；

基于当前解码时刻所述视觉特征编码对应的视觉上下文特征编码、所述文本特征编码对应文本上下文特征编码，以及上一解码时刻的解码状态和解码结果，确定当前解码时刻的解码结果；

其中，所述作答图像中作答文本的识别结果为最终解码时刻的解码结果。

根据本发明提供的一种文字识别方法，所述基于所述文本特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码，具体包括：

基于所述文本特征编码、上一解码时刻的解码状态以及当前解码时刻所述视觉特征编码对应的视觉上下文特征编码，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码。

根据本发明提供的一种文字识别方法，所述对所述题目信息进行文本特征提取，得到所述题目信息的文本特征编码，具体包括：

对所述题目信息中的每个词、每个词在所述题目信息中的位置以及每个词的类型进行嵌入编码，并对嵌入编码的结果进行自注意力交互，得到所述文本特征编码；

其中，每个词的类型为题干、答案或解析。

将所述作答图像以及所述题目信息输入至作答文字识别模型，得到由所述作答文字识别模型输出的所述作答图像中作答文本的识别结果；

其中，所述作答文字识别模型通过如下方法训练得到：

基于携带有文字标签的文字图像样本，对所述作答文字识别模型中对所述作答图像进行处理的相关结构进行第一步预训练；

基于预设题目信息样本，对所述作答文字识别模型中对所述题目信息进行处理的相关结构进行第二步预训练；

基于作答图像样本以及所述作答图像样本对应的题目信息，对第二步预训练得到的预训练模型进行微调，得到所述作答文字识别模型。

根据本发明提供的一种文字识别方法，所述作答图像中作答文本为手写文本，所述题目信息中的题干文本为印刷文本；相应地，所述获取待批改题目的作答图像，具体包括：

获取包含有待批改题目以及所述待批改题目的题干文本的题目图像；

将所述题目图像输入至字体分离检测模型，得到由所述字体分离检测模型输出的所述题目图像中的作答图像；

所述字体分离检测模型基于携带有字体标签的文字图像样本训练得到。

本发明还提供一种文字识别装置，包括：获取模块和识别模块；

获取模块用于获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；

识别模块用于基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述文字识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文字识别方法的步骤。

本发明提供的文字识别方法、装置、电子设备及存储介质，该方法首先获取待批改题目的作答图像以及待批改题目的题目信息，题目信息包括题干文本、答案文本和解析文本中的至少一种；然后根据作答图像以及题目信息，得到作答图像中作答文本的识别结果。将作答图像与题目信息相结合，可以利用题目信息辅助作答图像中作答文字的识别，提高识别准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文字识别方法的流程示意图；

图2是本发明提供的作答文本为手写文本时文字识别方法的完整流程示意图；

图3是本发明提供的采用题干文本识别模型获取题干图像中的题干文本时的流程示意图；

图4是本发明提供的文字识别方法中采用的作答文字识别模型的原理示意图；

图5为本发明提供的文字识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现如今的学生作答场景，无论是扫描、拍照还是通过平板在线实现输入，都离不开作答文字识别，而作答文字识别是自动批改的入口，其识别效果也直接影响了最终自动批改的效果，倘若某些关键作答识别错误，会直接造成最终批改的错误，为此，如何提升自动批改场景下关键作答的作答文字识别至关重要。当前作答文字识别技术仅限于利用作答文字区域范围内的信息，可是若当前作答文字为手写文字，且该手写文字形近、潦草时，识别效果就会出现大幅下降。

以拍照场景下的自动批改技术举例，现有的作答文字识别技术方案主要是基于注意力(Attention)机制的编码器-解码器(Encoder-Decoder)方案；具体而言，先通过常规的文本检测方案检测出作答区域，然后将作答区域切分后再送入基于注意力机制的编码器-解码器模型中，该模型的编码器主要由卷积神经网络(Convolutional Neural Networks，CNN)构成，再通过注意力机制从视觉特征中提取与当前时刻待解码符号相关的视觉特征，最后，利用视觉特征和历史已经解码过的信息对当前时刻待解码的符号进行识别。

现有的面向自动批改任务的作答文字识别方案与通用场景下的文字识别方案并无显著差异，仅仅利用了作答图像特征，而并未利用这个任务潜在的其他信息，例如题干、答案、解析等信息，而这些信息中通常又包含了作答中直接影响批改结果的关键内容。例如，对于试卷中的客观题，在填空题识别场景下，某道判断大小的数学题干为“0.5___1/2”，学生手写的作答是“＝”，但写得潦草了一些，上边的“一横”比下边的“一横”要短，而现有的作答文字识别模型仅仅接收作答区域作为输入，因此该模型很可能会将该文字误识别成了汉字“二”，而老师之所以会正确判断为“＝”，是因为老师从题干的语义中理解了这是一道判断大小的题。为此，本发明实施例中提供了一种文字识别方法，以解决现有技术中作答文字识别时存在的技术问题。

图1为本发明实施例中提供的一种文字识别方法的流程示意图，如图1所示，该方法包括：

S1，获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；

S2，基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

可以理解的是，本发明实施例中提供的文字识别方法，其执行主体为服务器，既可以是本地服务器，也可以是云端服务器，本地服务器可以是计算机、平板电脑以及智能手机等，本发明实施例中对此不作具体限定。

首先，执行步骤S1。其中，待批改题目可以是某一张待批改试卷中的任一道需要批改的题目，待批改题目的题型可以是客观题或者主观题，客观题可以包括填空题、匹配题等，主观题可以包括简答题、论述题、应用题、作文题等，本发明实施例中对此不作具体限定。待批改题目的作答图像可以是指包含有待批改题目的作答的图像，可以是从包含有待批改题目以及其作答的完整图像中分割得到的作答区域。待批改题目的作答图像中包含的作答文本可以是手写文本，也可以是印刷文本，本发明实施例中对此不作具体限定。

待批改题目的题目信息可以包括题干文本、答案文本和解析文本中的至少一种，即题目信息中可以是题干文本、答案文本和解析文本中的任一项，也可以是题干文本、答案文本和解析文本中的任意两项的组合，还可以是题干文本、答案文本和解析文本三项的组合。题干文本是指待批改题目的题干的文本表示，可以从包含有待批改题目的题干图像中识别得到，待批改题目的题干图像可以是从包含有待批改题目以及其作答的完整图像中分割得到的题干区域。答案文本和解析文本可以是题库中存储的与待批改题目匹配的标准题目的答案和解析的文本表示。此处，题库中可以存储有包含有待批改题目的大量标准题目及每道标准题目对应的答案和解析。

然后执行步骤S2。其中，根据题目信息对作答图像进行文字识别，即在对作答图像进行文字识别时，引入题目信息作为辅助信息，可以使文字识别过程中有所参考，可以提高作答图像中作答文本的识别结果的准确性。

在对作答图像进行文字识别时，由于作答图像中包含有视觉信息，题目信息包含有文本信息，二者所属的类别并不相同，因此可以通过视觉注意力(Visual Attention)机制从作答图像中提取视觉信息，通过文本注意力(Textual Attention)机制从题干文本、答案文本、解析文本中提取关键词特征。然后对这两个注意力机制提取的特征进行拼接，从而实现关键作答的高精度识别。需要说明的是，视觉注意力机制和文本注意力机制均可以通过投影的方式实现特征提取。

在对作答图像进行文字识别时，具体可以采用作答文字识别模型实现。具体可以将所述作答图像以及所述题目信息输入至作答文字识别模型，得到由所述作答文字识别模型输出的所述作答图像中作答文本的识别结果；其中，所述作答文字识别模型基于携带有文字标签的作答图像样本以及所述作答图像样本对应的题目信息训练得到。

采用的作答文字识别模型可以是基于卷积神经网络构建，并通过携带有文字标签的作答图像样本以及作答图像样本对应的题目信息训练得到。具体而言，可以通过卷积神经网络构建作答文字识别模型，然后通过携带有文字标签的作答图像样本以及作答图像样本对应的题目信息对作答文字识别模型进行训练，得到训练后的作答文字识别模型。作答图像样本是指包含有作答文本的图像样本，且该作答图像样本中携带有文字标签，即作答文本中每个文字的标识信息。作答图像样本对应的题目信息是指作答图像样本中作答文本对应的题目信息。

采用的作答文字识别模型具体可以是基于注意力机制的编码器和解码器模型，又由于作答文字识别模型具体两项输入，即分别为作答图像以及题目信息，作答文字识别模型中可以同时具有视觉注意力机制和文本注意力机制，通过基于视觉注意力机制的编码器和解码器实现对作答图像进行视觉特征提取，通过基于文本注意力机制的编码器和解码器实现对题目信息进行文本特征提取，然后将提取到的视觉特征以及文本特征进行融合，最终得到并输出得到作答图像中作答文本的识别结果，即识别得到作答图像中的作答文本。

本发明实施例中提供的文字识别方法，首先获取待批改题目的作答图像以及待批改题目的题目信息，题目信息包括题干文本、答案文本和解析文本中的至少一种；然后根据作答图像以及题目信息，得到由作答文字识别模型输出的作答图像中作答文本的识别结果。将作答图像与题目信息相结合，可以利用题目信息辅助作答图像中作答文字的识别，提高识别准确率。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，在得到作答图像中作答文本的识别结果之后，可以通过计算该识别结果与待批改题目的答案之间的相似度，根据计算得到的相似度对待批改题目的作答进行打分，相似度越大，得分越高。

本发明实施例中，可以通过作答图像中作答文本的识别结果，可以实现自动阅卷，不需要人工阅卷，增加的考试的客观性，节省了人力资源劳动；而且，可以大大减少阅卷时间，减少了购买阅卷机带来的成本损失。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果，具体包括：

具体而言，本发明实施例中，首先提取作答图像中的视觉特征，得到作答图像的视觉特征编码；然后提取题目信息中的文本特征，得到题目信息的文本特征编码；最后根据视觉特征编码以及文本特征编码确定出作答文本的识别结果。提取特征的过程可以通过作答文字识别模型中的功能层实现，例如采用的作答文字识别模型包括视觉特征编码层、文本特征编码层以及编解码层。视觉特征编码层以及文本特征编码层均实现编码器的作用，编解码层共同实现编码器和解码器的作用，视觉特征编码层和文本特征编码层分别与编解码层连接。此时，将所述作答图像以及所述题目信息输入至作答文字识别模型，得到由所述作答文字识别模型输出的所述作答图像中作答文本的识别结果，具体包括：

将所述作答图像输入至所述作答文字识别模型的视觉特征编码层，得到由所述视觉特征编码层输出的视觉特征编码；

将所述题目信息输入至所述作答文字识别模型的文本特征编码层，得到由所述文本特征编码层输出的文本特征编码；

将所述视觉特征编码和所述文本特征编码输入至所述作答文字识别模型的编解码层，得到所述作答图像中作答文本的识别结果。

在将作答图像以及题目信息输入至作答文字识别模型后，作答图像输入至视觉特征编码层，通过视觉特征编码层对作答图像中的视觉特征进行编码，得到视觉特征编码；题目信息输入至文本特征编码层，通过文本特征编码层对题目信息中的文本特征进行编码，得到文本特征编码。

视觉特征编码层主要包括卷积层和池化层，视觉特征编码层具体可以用函数CNN(·)表示：

其中，X^Vision为作答图像，

为视觉特征编码层的网络参数，x^Vision为视觉特征编码。

文本特征编码层可以基于Transformer的编码端实现，本发明实施例中对此不作具体限定。

然后，将视觉特征编码层得到的视觉特征编码和文本特征编码层得到的文本特征编码输入至编解码层，由编解码层根据视觉特征编码和文本特征编码继续进行编码，并进行融合解码，最终得到作答图像中作答文本的识别结果。

本发明实施例中，将作答图像以及题目信息分别进行编码，然后进行融合解码，使得对作答图像中作答文本进行文字识别时结合题目信息作为辅助信息，使得文字识别结果更准确。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述基于所述视觉特征编码和所述文本特征编码，确定所述作答图像中作答文本的识别结果，具体包括：

具体而言，本发明实施例中，将视觉特征编码和文本特征编码相结合以确定作答图像中作答文本的识别结果时，需要分别确定出当前时刻视觉特征编码对应的视觉上下文特征编码以及当前解码时刻文本特征编码对应的文本上下文特征编码，然后再结合上一解码时刻的解码状态和解码结果，确定当前解码时刻的解码结果，并将最终解码时刻的解码结果作为作答图像中作答文本的识别结果。视觉上下文特征编码可以通过视觉注意力机制确定，文本上下文特征编码可以通过文本注意力机制确定。

视觉上下文特征编码、文本上下文特征编码以及当前解码时刻的解码结果均可以通过作答文字识别模型中的编解码层实现，例如作答文字识别模型的编解码层具体包括视觉上下文特征编码层、文本上下文特征编码层以及解码层，视觉上下文特征编码层和文本上下文特征编码层均与解码层连接。视觉上下文特征编码层与解码层、文本上下文特征编码层与解码层均配合工作，可以理解为视觉上下文特征编码层与文本上下文特征编码层这两个编码层共用同一个解码层。

此时，将所述视觉特征编码和所述文本特征编码输入至所述作答文字识别模型的编解码层，得到所述作答图像中作答文本的识别结果，具体包括：

将所述视觉特征编码以及上一解码时刻的解码状态输入至所述编解码层的视觉上下文特征编码层，得到所述视觉上下文特征编码层输出的当前解码时刻所述视觉特征编码对应的视觉上下文特征编码；

将所述文本特征编码以及上一解码时刻的解码状态输入至所述编解码层的文本上下文特征编码层，得到所述文本上下文特征编码层输出的当前解码时刻所述文本特征编码对应的文本上下文特征编码；

将当前解码时刻所述视觉特征编码对应的视觉上下文特征编码、所述文本特征编码对应的文本上下文特征编码，以及上一解码时刻的解码状态和解码结果输入至所述编解码层的解码层，得到所述解码层输出的当前解码时刻的解码结果；

在将视觉特征编码和文本特征编码输入至作答文字识别模型的编解码层时，可以将视觉特征编码以及上一解码时刻的解码状态输入至视觉上下文特征编码层，得到视觉上下文特征编码层输出的当前解码时刻的视觉上下文特征编码。视觉上下文特征编码层通过视觉注意力机制实现，其计算公式如下：

其中，

表示当前解码时刻t作答图像中第i个位置处的视觉上下文特征编码，

以及

均表示视觉上下文特征编码层的网络参数，

表示作答图像中第i个位置处的视觉特征编码，h_t-1表示上一解码时刻的解码状态，

表示当前解码时刻t的视觉上下文特征编码，h为作答图像的特征图的高度，w为作答图像的特征图的宽度，h*w为作答图像的视觉特征编码的总长度。

将文本特征编码以及上一解码时刻的解码状态输入至文本上下文特征编码层，得到文本上下文特征编码层输出的当前解码时刻的文本上下文特征编码。文本上下文特征编码层通过文本注意力机制实现，文本注意力机制的计算公式可以与视觉注意力机制相同。

视觉特征编码和文本特征编码的输入时机是相互独立的，输入顺序互不影响，即可以先将视觉特征编码以及上一解码时刻的解码状态输入至视觉上下文特征编码层，然后再将文本特征编码以及上一解码时刻的解码状态输入至文本上下文特征编码层，也可以先将文本特征编码以及上一解码时刻的解码状态输入至文本上下文特征编码层，然后再将视觉特征编码以及上一解码时刻的解码状态输入至视觉上下文特征编码层，还可以同时将视觉特征编码以及上一解码时刻的解码状态、文本特征编码以及上一解码时刻的解码状态分别输入至视觉上下文特征编码层、文本上下文特征编码层，本发明实施例中对此不作具体限定。

将当前解码时刻的视觉上下文特征编码、文本上下文特征编码，以及上一解码时刻的解码状态和解码结果输入至解码层，解码层可以先根据输入的信息确定出当前解码时刻的解码状态，然后根据当前解码时刻的解码状态，得到并输出当前解码时刻的解码结果。在解码层中可以包含有GRU层和分类层，将当前解码时刻的视觉上下文特征编码、文本上下文特征编码，以及上一解码时刻的解码状态和解码结果可以先输入至GRU层内，由GRU层中的GRU单元更新解码状态，得到当前解码时刻的解码状态，如下公式所示：

其中，h_t表示当前解码时刻t的解码状态，GRU为GRU层的操作，

表示当前解码时刻t的视觉上下文特征编码，

表示当前解码时刻t的文本上下文特征编码，y_t-1表示上一解码时刻t-1的解码结果，θ_y表示解码结果对应的网络参数，h_t-1表示上一解码时刻t-1的解码状态，θ_G表示GRU单元的其他网络参数。θ_y与θ_G均为作答文字识别模型在训练过程中确定的定值。

将由GRU层中的GRU单元更新得到的当前解码时刻的解码状态输入至分类层，分类层通过softmax函数进行分类处理，得到当前解码时刻的解码结果，如下公式所示：

y_t＝softmax(θ_Ch_t)

其中，y_t表示当前解码时刻t的解码结果，θ_C表示分类层的投影参数。θ_C为作答文字识别模型在训练过程中确定的定值。

从t＝1开始顺序执行编码和解码过程，执行后t的数值增1，直至解码结果为结束符号eos为止。当所有的视觉上下文特征编码以及文本上下文特征编码均解码完成，则当前解码时刻t为最终解码时刻，最终解码时刻的解码结果即为作答文字识别模型识别得到的作答图像中作答文本的识别结果。

本发明实施例中，通过视觉特征编码和文本特征编码，基于视觉注意力机制得到当前解码时刻的视觉上下文特征编码，基于文本注意力机制得到当前解码时刻的文本上下文特征编码，最后根据视觉上下文特征编码以及文本上下文特征编码得到当前解码时刻的解码结果，并将最后解码时刻的解码结果作为作答图像中作答文本的识别结果，提高了解码的准确性，从而提高了文字识别的准确性。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述基于所述文本特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码，具体包括：

具体而言，确定文本上下文特征编码采用的文本注意力机制的计算方法可以与确定视觉上下文特征编码采用的视觉注意力机制的计算方法不同，文本注意力机制在计算时不仅需要历史的解码状态信息，还需要当前解码时刻的视觉特征，因为作答不可能全部与题干、答案、解析丝毫不差，特别是在主观题，题干、答案、解析与作答无论是在阅读顺序、还是文本内容上都存在明显的差异。因此，此时文本特征的选取并非按照文本固定的阅读顺序，而是跳跃式的顺序，而提取到文本特征的关键是使用与其最相关的视觉信息作为条件，即在当前解码时刻通过视觉注意力机制所提取到的视觉特征。

基于此，文本注意力机制的计算公式表示如下：

其中，

表示当前解码时刻t题目信息中第i个位置处的文本上下文特征编码，

以及

均表示文本上下文特征编码层的网络参数，L是题目信息中的文本特征编码的总长度，

是当前解码时刻t的文本上下文特征编码，

表示当前解码时刻t题目信息中第i个位置处的文本特征编码。

当文本上下文特征编码是通过编解码层的文本上下文特征编码层得到时，将所述文本特征编码以及上一解码时刻的解码状态输入至所述编解码层的文本上下文特征编码层，得到所述文本上下文特征编码层输出的当前解码时刻的文本上下文特征编码，具体包括：

将所述文本特征编码、上一解码时刻的解码状态以及当前解码时刻的视觉上下文特征编码输入至所述上下文特征编码层的文本上下文特征编码层，得到所述文本上下文特征编码层输出的当前解码时刻的文本上下文特征编码。

本发明实施例中，确定当前解码时刻的文本上下文特征编码时，考虑了当前解码时刻的视觉上下文特征编码，可以使得到的文本上下文特征编码更准确，进而提高了文字识别的准确性。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述对所述题目信息进行文本特征提取，得到所述题目信息的文本特征编码，具体包括：

其中，每个词的类型为题干、答案或解析。

具体而言，本发明实施例中，在对题目信息进行文本特征提取时，可以先对题目信息中的每个词、每个词在所述题目信息中的位置以及每个词的类型进行嵌入编码，然后对嵌入编码的结果进行自注意力交互，得到文本特征编码。

当文本特征编码是通过作答文字识别模型的文本特征编码层得到时，将所述题目信息输入至所述作答文字识别模型的文本特征编码层，得到由所述文本特征编码层输出的文本特征编码，具体包括：

将所述题目信息输入至所述特征编码层的文本特征编码层，由所述文本特征编码层对所述题目信息中的每个词、每个词在所述题目信息中的位置以及每个词的类型进行嵌入编码，并对嵌入编码的结果进行自注意力交互，得到并输出所述文本特征编码；

其中，每个词的类型为题干、答案或解析。

文本特征编码层具体可以包括嵌入层和Transformer的编码端，嵌入层与Transformer的编码端连接。因此，将题目信息输入至特征编码层的文本特征编码层时，具体是将题目信息依次输入至嵌入层和Transformer的编码端。通过嵌入层对题目信息中的每个词、每个词在题目信息中的位置以及每个词的类型进行嵌入编码，通过Transformer的编码端将嵌入编码的结果进行自注意力交互，得到并输出文本特征编码。

以题目信息同时包括题干文本、答案文本以及解析文本为例，可以将题目信息按题干文本、答案文本以及解析文本的顺序首尾拼接，中间使用分隔符[SEG]隔开，形成序列串。序列串中每个词用相应的词嵌入编码(Word Embedding)表示，每个词在整个序列串中所处的位置使用位置嵌入编码(Positional Embedding)表示，每个词的类型(题干、答案或解析)使用类型嵌入编码(Type Embedding)表示，将这些嵌入编码相加输入到Transformer的编码端中。

Transformer的核心结构是自注意力机制(Self-Attention)，可以使得网络具有全局的视野，可以在提取题干、答案、解析的文本特征时互相参考，而之所以将题干、答案、解析三者拼接成一个序列串输入，是因为配对的题干、答案、解析本身就是高度相关的，题干文本、答案文本以及解析文本通过自注意力机制实现互相访问，会使得文本特征编码提取的更加准确，若使用函数Trans(·)表示文本特征编码提取过程，则前述过程可表示为：

其中，X^S,X^R,X^A分别表示题干文本、答案文本、解析文本，x^Text表示文本特征编码，x^S,x^R,x^A分别表示文本特征编码中的题干文本特征编码、答案文本特征编码、解析文本特征编码，

是Transformer的编码端的网络参数。

本发明实施例中，通过对题目信息中不同词、不同词在题目信息中的位置以及所属类型进行嵌入编码，并对嵌入编码的结果进行自注意力交互，得到并输出文本特征编码，可以提高编码的准确性，从而提高了文字识别的准确性。

其中，所述作答文字识别模型具体通过如下方法训练得到：

具体而言，本发明实施例中在确定作答图像中作答文本的识别结果时，具体可以通过作答文字识别模型实现。由于实际情况中手写图像和题目信息的配对数据量相对较少，即并不是所有学生都可以对每道题目进行作答，但图像或者文本孤立的数据很多。因此，本发明实施例中在对作答文字识别模型进行训练时，首先使用携带有文字标签的文字图像样本单独训练作答文字识别模型中对作答图像进行处理的相关结构，即视觉相关部分，也即作答文字识别模型中的视觉特征编码层、视觉上下文特征编码层以及解码层中的视觉相关部分，实现第一步预训练；然后使用预设题目信息样本预训练无监督的作答文字识别模型中对所述题目信息进行处理的相关结构，即文本特征编码层，也即预训练文本特征编码层中的Transformer的编码端，实现第二步预训练；最后，将第二步预训练得到的预训练模型整体通过少量的作答图像样本以及作答图像样本对应的题目信息进行联合微调。

首先，使用携带有文字标签的文字图像样本单独训练作答文字识别模型中视觉特征编码层、视觉上下文特征编码层以及解码层中的视觉相关部分等，训练方式主要是使得

的计算公式中

和

全部固定为0，Transformer的编码端的网络参数以及文本注意力机制的相关部分不参与训练，其他部分与常规模型训练方式一样，此处不再介绍。特别地，当作答图像中作答文本为手写文本，则文字图像样本可以是手写图片，文字图像样本携带的文字标签为在文字图像样本中标注的手写文本。

其次，使用题干文本、答案文本、解析文本中至少一个作为预设题目信息样本，将预设题目信息样本构成序列串预训练无监督的文本特征编码层中的Transformer的编码端。在训练之前，需要固定第一步预训练中参与训练的网络参数，仅训练第一步预训练中未参与训练的网络参数，训练方式与一般的无监督预训练方式一致，训练阶段需要有预设题目信息样本中15％的词随机用[MASK]符号替换，训练目标即预测被替换掉的词，训练至损失函数完全收敛即可。

最后，将第一步预训练以及第二步预训练后得到的预训练模型在少量配对数据中联合微调。微调时采用的学习率较低，配对数据即作答图像样本以及作答图像样本对应的题目信息，训练方式需要训练预训练模型中的所有参数，训练至损失函数完全收敛为止。

本发明实施例中，在对作答文字识别模型进行训练时，采用预训练-微调的方式进行，并分别对视觉相关部分以及文本相关部分分别进行训练，可以保证训练得到的文本识别模型的识别准确率。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述作答图像中作答文本为手写文本，所述题目信息中的题干文本为印刷文本；相应地，所述获取待批改题目的作答图像，具体包括：

将所述题目图像输入至字体分离检测模型，得到由所述字体分离检测模型输出的所述题目图像中的作答图像。

具体地，本发明实施例中，作答图像中作答文本为手写文本，题目信息中的题干文本为印刷文本。因此获取待批改题目的作答图像时，可以先获取包含有待批改题目以及待批改题目的题干文本的题目图像。题目图像中默认印刷体区域为题干文字区域，手写体区域为作答文字区域，该题目图像可以是拍摄设备拍摄得到的图片，拍摄设备可以是智能手机、摄像头、平板电脑等。然后将题目图像输入至字体分离检测模型，得到由字体分离检测模型输出的题目图像中的作答图像。

本发明实施例中采用的字体分离检测模型可以通过携带有字体标签的文字图像样本训练得到，文字图像样本可以是包含有手写文字和印刷文字的图像，字体标签可以包括手写体或印刷体。

本发明实施例中，将文字识别方法应用于手写作答的自动批改任务中，并给出了作答图像的获取方式，可以使作答图像可以通过字体的差异实现快速地确定。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，所述待批改题目的题目信息，基于如下方法确定：

获取所述待批改题目的题干图像中的题干文本；

确定题库中与所述题干文本匹配的标准题目以及所述标准题目对应的答案文本和解析文本，并将所述标准题目对应的答案文本和解析文本作为所述待批改题目的答案文本和解析文本。

具体而言，本发明实施例中，待批改题目的题干图像可以是指包含有待批改题目的题干的图像，可以是从包含有待批改题目以及其作答的完整图像中分割得到的题干区域。待批改题目的题干图像中包含的题干文本可以是手写文本，也可以是印刷文本，本发明实施例中对此不作具体限定。作为优选方案，可以在由字体分离检测模型输出题目图像中的作答图像的同时，还可以输出题干图像。此时题干图像中包含的题干文本为印刷文本。

如图2所示，为本发明实施例中提供的作答文本为手写文本时文字识别方法的完整流程示意图，首先获取包含有待批改题目以及待批改题目的题干文本的题目图像1，然后通过字体分离检测模型，分别得到作答图像2以及题干图像3。

对于作答图像2，经过作答文字识别模型，得到作答图像中作答文本的识别结果4。对于题干图像3，在获取题干图像3中的题干文本时，既可以通过OCR技术实现，也可以通过题干文本识别模型5实现，本发明实施例中对此不作具体限定。得到题干文本后，与题库6中的标准题目进行题目匹配，得到待批改题目的题干、答案以及解析。并将得到的题干、答案以及解析的文本输入至作答文字识别模型，作为辅助信息辅助作答文字识别模型得到识别结果4。

当采用题干文本识别模型获取题干图像3中的题干文本时，本发明实施例中采用的题干文本识别模型可以基于注意力机制的编码器-解码器实现，即如图3所示，印刷文本识别模型具体可以包括编码层(Encoder)和解码层(Decoder)，编码层的主要作用是采用卷积神经网络(Convolutional Neural Networks，CNN)提取题干图像3的视觉特征编码，而解码器的作用是根据编码层提取的视觉特征编码按照文字的阅读顺序逐个解码，每个解码时刻都需要利用视觉注意力(Visual Attention)机制提取与当前解码时刻的解码结果相关的视觉上下文特征编码，具体如下：

第一步，将题干图像输入到编码层中，提取题干图像的视觉特征编码，编码层可以包括卷积层和池化层，编码层可以用函数CNN(·)表示：

x＝CNN(X；θ_C)

其中，X为题干图像，θ_C为编码层的网络参数，x为编码层提取得到的视觉特征编码。

第二步，将视觉特征编码输入至解码层，解码层通过视觉注意力机制选取与当前解码时刻相关的视觉上下文特征编码，视觉注意力机制的计算方式为基于投影的方式，其计算公式如下：

其中，α_ti表示当前解码时刻t题干图像中第i个位置处的视觉上下文特征编码，θ_x以及θ_h均为编码层的网络参数，x_i表示题干图像中第i个位置处的视觉特征编码，h_t-1表示上一解码时刻的解码状态，c_t表示当前解码时刻t的视觉上下文特征编码，h为题干图像的特征图的高度，w为题干图像的特征图的宽度，h*w为题干图像的视觉特征编码的总长度。

第三步，将视觉上下文特征编码送入解码层的GRU单元中更新解码状态，然后将更新后的解码状态和上一解码时刻的解码结果送入解码层的分类层中进行分类。GRU为循环神经网络(Recurrent Neural Network，RNN)中常用的单元，其作用是整合历史信息和当前时刻提取的视觉特征，最后通过分类层进行分类，公式如下：

h_t＝GRU([c_t,θ_yy_t-1],h_t-1；θ_G)

y_t＝softmax(θ_Ch_t)

其中，y_t-1为上一解码时刻t-1的解码结果，θ_y、θ_G以及θ_C为解码层的网络参数，y_t为当前解码时刻t的解码结果。

第四步，从t＝1开始顺序执行第二步和第三步，执行后当前解码时刻t的数值增1，直至解码结果为结束符号eos为止。

在确定题库中与题干文本匹配的标准题目时，可以采用模糊匹配算法，只需要大部分题干文本都能匹配到即可。在确定出标准题目之后，即可确定出题库中存储的与标准题目对应的答案文本和解析文本，进而可以将标准题目对应的答案文本和解析文本作为待批改题目的答案文本和解析文本。

在上述实施例的基础上，本发明实施例中提供的文字识别方法，采用的作答文字识别模型如图4所示，包括编码层(Encoder)和解码层(Decoder)，编码层包括视觉特征编码层以及文本特征编码层，视觉特征编码层的主要作用是采用CNN提取作答图像的视觉特征编码，文本特征编码层通过嵌入层对题干文本、答案文本以及解析文本进行类型嵌入编码(Type Embedding)、位置嵌入编码(Positional Embedding)以及词嵌入编码(WordEmbedding)，并将得到的嵌入编码结果输入至Transformer的编码端(TransformerEncoder)，由Transformer Encoder对输入的嵌入编码结果进行注意力交互，进而得到文本特征编码。解码层的作用是利用视觉注意力(Visual Attention)机制以及文本注意力(Textual Attention)机制分别对编码层提取的视觉特征编码以及文本特征编码逐个解码，并通过GRU层进行融合，由分类层最终得到并输出作答图像中作答文本的识别结果。

如图5所示，在上述实施例的基础上，本发明实施例中提供了一种文字识别装置，包括：获取模块51和识别模块52。其中，

获取模块51用于获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；

识别模块52用于基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述识别模块，具体包括：

视觉特征编码单元，用于对所述作答图像进行视觉特征提取，得到所述作答图像的视觉特征编码；

文本特征编码单元，用于对所述题目信息进行文本特征提取，得到所述题目信息的文本特征编码；

编解码单元，用于基于所述视觉特征编码和所述文本特征编码，确定所述作答图像中作答文本的识别结果。

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述编解码单元，具体包括：

视觉上下文特征编码子单元，用于基于所述视觉特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述视觉特征编码对应的视觉上下文特征编码；

文本上下文特征编码子单元，用于基于所述文本特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码；

解码子单元，用于基于当前解码时刻所述视觉特征编码对应的视觉上下文特征编码、所述文本特征编码对应文本上下文特征编码，以及上一解码时刻的解码状态和解码结果，确定当前解码时刻的解码结果；

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述文本上下文特征编码子单元，具体用于：

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述文本特征编码单元，具体用于：

其中，每个词的类型为题干、答案或解析。

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述识别模块，还用于：

相应地，所述文字识别装置还包括训练模块，用于：

在上述实施例的基础上，本发明实施例中提供的文字识别装置，所述作答图像中作答文本为手写文本，所述题目信息中的题干文本为印刷文本；相应地，所述获取模块，具体用于：

具体而言，本发明实施例中提供的文字识别装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的，实现的效果也是一致的，具体参见上述实施例，本发明实施例中对此不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行文字识别方法，该方法包括：获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文字识别方法，该方法包括：获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文字识别方法，该方法包括：获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述的文字识别方法，其特征在于，所述基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果，具体包括：

3.根据权利要求2所述的文字识别方法，其特征在于，所述基于所述视觉特征编码和所述文本特征编码，确定所述作答图像中作答文本的识别结果，具体包括：

4.根据权利要求3所述的文字识别方法，其特征在于，所述基于所述文本特征编码以及上一解码时刻的解码状态，确定当前解码时刻所述文本特征编码对应的文本上下文特征编码，具体包括：

5.根据权利要求2所述的文字识别方法，其特征在于，所述对所述题目信息进行文本特征提取，得到所述题目信息的文本特征编码，具体包括：

其中，每个词的类型为题干、答案或解析。

6.根据权利要求3所述的文字识别方法，其特征在于，所述基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果，具体包括：

其中，所述作答文字识别模型通过如下方法训练得到：

7.根据权利要求1-6中任一项所述的文字识别方法，其特征在于，所述作答图像中作答文本为手写文本，所述题目信息中的题干文本为印刷文本；相应地，所述获取待批改题目的作答图像，具体包括：

8.一种文字识别装置，其特征在于，包括：

获取模块，用于获取待批改题目的作答图像以及所述待批改题目的题目信息，所述题目信息包括题干文本、答案文本和解析文本中的至少一种；

识别模块，用于基于所述题目信息，对所述作答图像进行文字识别，得到所述作答图像中作答文本的识别结果。

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述文字识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文字识别方法的步骤。