CN111626383B

CN111626383B - 字体识别方法及装置、电子设备、存储介质

Info

Publication number: CN111626383B
Application number: CN202010478196.0A
Authority: CN
Inventors: 尚太章
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-11-07
Anticipated expiration: 2040-05-29
Also published as: CN111626383A

Abstract

本申请实施例公开了一种字体识别方法，所述方法包括：获取待识别图像；利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；对所述至少一个文本进行内容识别，得到至少一个内容信息；基于所述至少一个字体类型和所述至少一个文本位置，在电子设备的显示界面显示所述至少一个内容信息。本申请实施例同时公开了一种字体识别装置、电子设备、存储介质。

Description

字体识别方法及装置、电子设备、存储介质

技术领域

本申请涉及计算机领域中的图像处理技术，尤其涉及一种字体识别方法及装置、电子设备、存储介质。

背景技术

字体，是文字的外在形式特征，是信息传递的主要载体，是具有实用价值的工具。实际应用中，在对图像进行实时光学字符识别(Optical Character Recognition，OCR)的时候，得到的文本识别的结果都会以某一种特定的字体在显示界面中展示；通常情况下，识别后显示的字体和原始图像中的字体并不一样；这样，无法体现原始字体信息，造成信息流失。因此，电子设备有必要对图像中的文字进行自动化的字体识别。

发明内容

本申请实施例提供了一种字体识别方法及装置、电子设备、存储介质，能够对图像中的字体类型进行识别，提高了信息显示的完整性。

第一方面，提供一种字体识别方法，应用于电子设备，所述方法包括：

获取待识别图像；

利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；

对所述至少一个文本进行内容识别，得到至少一个内容信息；

基于所述至少一个字体类型和所述至少一个文本位置，在电子设备的显示界面显示所述至少一个内容信息。

可选地，所述预训练识别模型的训练过程，包括：

获取样本图像和样本标签；所述样本标签包括文本位置标签和所述字体类型标签；

基于待训练识别模型对所述样本图像进行处理，得到第一输出结果；所述第一输出结果用于表征所述样本图像中的第一文本位置和所述第一文本位置对应的第一字体类型；

通过目标损失函数，确定所述样本标签和所述第一输出结果之间的第一差异值；

基于所述第一差异值对所述待训练识别模型进行训练，直到满足训练结束条件时，得到所述预训练识别模型。

可选地，所述目标损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数用于计算文本位置的差异值，所述第二损失函数用于计算字体类型的差异值；

所述通过目标损失函数，确定所述样本标签和所述第一输出结果之间的第一差异值，包括：

基于所述第一损失函数，确定所述文本位置标签和所述第一文本位置信息的文本位置差异值；

基于所述第二损失函数，确定所述字体类型标签和所述第一字体类型的字体类型差异值；

对所述文本位置差异值和所述字体类型差异值进行加权处理，得到所述第一差异值。

可选地，所述对所述至少一个文本进行内容识别，得到至少一个内容信息，包括：

利用预设的文本内容识别模型，对所述待识别图像中所述至少一个文本位置对应的至少一个文本进行识别，得到所述至少一个文本内容信息；文本位置和文本内容信息一一对应；其中，所述文本内容识别模型用于确定文本图像中的内容信息。

可选地，所述基于所述至少一个字体类型和所述至少一个文本位置，在所述电子设备的显示界面显示所述至少一个内容信息，包括：

获取所述至少一个字体类型对应的字体文件；

根据所述字体文件，在所述显示界面上显示所述至少一个文本位置的至少一个内容信息。

可选地，所述获取所述至少一个字体类型对应的字体文件，包括：

根据预设字体库，对所述至少一个字体类型进行匹配；

若所述至少一个字体类型中存在与预设字体库匹配的第一目标字体类型，则从所述预设字体库中，确定与所述第一目标字体类型匹配的目标字体文件；所述第一目标字体类型为所述至少一个字体类型中的任意一个；

若所述至少一个字体类型中不存在与预设字体库匹配的第二目标字体类型，则获取预设字体文件；所述第二目标字体类型为所述至少一个字体类型中的除第一目标字体类型外的任意一个字体类型；

当所述至少一个字体类型均匹配完成时，将获取的所述预设字体文件和所述目标字体文件，作为所述至少一个字体类型对应的字体文件。

可选地，所述获取预设字体文件，包括：

向目标服务器发送字体文件请求；

响应所述字体文件请求，接收来自所述目标服务器的所述预设字体文件。

可选地，所述根据所述字体文件，在所述显示界面上显示所述至少一个文本位置的至少一个内容信息，包括：

根据所述字体文件，在所述显示界面上的至少一个目标位置处显示所述至少一个文本内容信息；其中，所述至少一个目标位置与所述至少一个文本位置一一对应。

可选地，所述在所述电子设备的显示界面上显示所述至少一个文本位置的至少一个内容信息之前，包括：

获取所述至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息；

所述在所述显示界面上显示所述至少一个文本位置的至少一个内容信息，包括：

基于所述至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息，以及所述字体文件，在所述显示界面上显示所述至少一个文本位置的至少一个内容信息。

可选地，所述对所述至少一个文本进行内容识别，得到至少一个内容信息之后，所述方法还包括：

对所述至少一个内容信息进行翻译，得到至少一个翻译信息；

基于所述至少一个字体类型和所述至少一个文本位置，在显示界面显示所述至少一个翻译信息。

第二方面，提供一种字体识别装置，其特征在于，应用于电子设备，所述装置包括：

获取单元，用于获取待识别图像；

第一识别单元，用于利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；

第二识别单元，用于对所述至少一个文本进行内容识别，得到至少一个内容信息；

显示单元，用于基于所述至少一个字体类型和所述至少一个文本位置，在电子设备的显示界面显示所述至少一个内容信息。

第三方面，提供一种电子设备，所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行第一方面所述字体识别方法的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现第一方面所述的字体识别方法的步骤。

本申请实施例提供的字体识别方法及装置、电子设备、存储介质，首先，获取待识别图像；接着利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；对所述至少一个文本进行内容识别，得到至少一个内容信息；基于所述至少一个字体类型和所述至少一个文本位置，在电子设备的显示界面显示所述至少一个内容信息。这样，通过对文本位置和文本位置处文本的字体类型进行识别，并将识别出内容信息按照识别出来的字体类型进行显示；如此，可以按照原始图像中文本的样式对文本的所有信息进行显示，提高了信息显示的完整性。

附图说明

图1为本申请实施例提供的一种字体识别方法的流程示意图；

图2为本申请实施例提供的一种示例性的识别模型架构示意图；

图3为本申请实施例提供的一种预训练识别模型训练的流程示意图；

图4为本申请实施例提供的一种示例性样本图像示意图；

图5为本申请实施例提供的一种示例性的预训练识别模型的训练流程示意图；

图6为本申请实施例提供的一种示例性应用的示意图；

图7为本申请实施例提供的一种字体识别装置的结构组成示意图；

图8为本申请实施例提供的一种电子设备的硬件结构组成示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明实施例。

如果申请文件中出现“第一\第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本发明。

实际应用中，OCR技术是指电子设备通过检测印在或写在纸上的文字的形状，通过字符识别方法将识别的形状翻译成机器文字的过程。OCR技术在改变着我们的生活，例如停车场、收费站通过ORC技术识别车牌信息；智能手机通过ORC技术扫描名片、身份证，并将名片和身份证中的信息转换为文字进行存储等。可见OCR技术已经广泛的应用于我们的生活中。

在进行实时OCR识别的时候，例如在对PPT中的英文文本进行识别并翻译的过程中，得到的文本识别的结果都会以某一种特定的字体在显示界面中显示。但是，显示界面中的字体和原始图像中的字体是不一样的。例如在电子设备中的OCR应用软件中，可能采用的默认的显示字体是宋体，但是在实际图像中的字体可能是楷体。实际应用中，用户更希望看到的是，按照原始图像中文本字体，对识别出来的文本内容进行显示。

为解决相关技术中存在的问题，本申请实施例提供一种字体识别方法，该字体识别方法的执行主体可以是本申请实施提供的字体识别装置，或者集成了该字体识别模装置的电子设备，这里的字体识别装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、个人计算器、服务器或者工业计算器等。

请参考图1，图1为本申请实施例提供的字体识别方法的流程示意图，如图1所示，所述字体识别方法包括以下步骤：

步骤110、获取待识别图像。

在本申请提供的实施例中，待识别图像可以是包含文本的图像。这里，待识别图像可以是电子设备通过采集装置采集的图像，例如，用户拍摄的身份证件的图像。待识别图像可以是从视频文件中截取的视频帧；例如，用户从直播视频中截屏得到的图像。待识别图像还可以是用户从网站上下载的包含文本的图像。本申请实施例这里对待识别图像的来源不做限定。

步骤120、利用预训练识别模型，对待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，预训练识别模型用于确定图像中文本位置，以及文本位置处文本的字体类型。

在本申请提供的实施中，预训练识别模型是预先训练好的图像处理模型。这里，预设识别模型可以是电子设备对样本数据进行训练得到的，也可以是电子设备从其他提供模型的服务器获取的。

这里，预训练识别模型用于确定图像中文本位置，以及文本位置处文本的字体类型。可以理解的是，预训练识别模型可以是一个多任务处理模型，即预训练识别模型可以对同一个待识别图像进行处理，得到待识别图像中两种类型不同的处理结果，即文本位置和文本位置处的字体类型。

这里，至少一个文本位置和至少一个字体类型一一对应。也就是说，每个文本位置处都对应有一个字体类型。

请参考图2所示的一种示例性的预训练识别模型架构；图2中，将包含文本的图像21输入至预训练识别模型22中；这里，预训练识别模型为神经网络模型。进一步，通过预训练识别模型22的处理，可以得到两个输出结果，一个是图像中的文本位置23，一个是文本的字体类型24。

可以理解的是，本申请实施例中预训练识别模型是多任务处理模型，电子设备通过预训练识别模型对一个待识别图像进行一次运算，即可以确定待识别图像中的文本位置，以及文本位置处的字体类型，如此，可以在字体类型识别过程中降低图像处理过程中的计算量，提高图像处理速度。

步骤130、对至少一个文本进行内容识别，得到至少一个内容信息。

在本申请提供的实施例中，电子设备可以对待识别图像中至少一个文本位置的每个文本位置处的文本进行内容识别，得到每个文本位置处的内容信息。

这里，电子设备可以使用任意一种识别方式对文本位置处的文本进行内容识别。例如，使用神经网络模型对文本位置处的文本进行内容识别，也可以使用扫描识别方式对文本位置处的文本进行内容识别，本申请实施例这里对文本的内容识别方式不进行限定。

这里，至少一个文本与至少一个内容信息一一对应，即一个文本对应一个内容信息。

步骤140、基于至少一个字体类型和至少一个文本位置，在电子设备的显示界面显示至少一个内容信息。

在本申请提供的实施例中，电子设备可以对识别出的内容信息进行显示。具体地，电子设备可以在显示界面中显示至少一个内容信息，并按照内容信息对应的字体类型，将至少一个内容信息显示为对应的字体。

在一可能的实现方式中，电子设备还可以按照文本位置，在显示界面的预设位置处显示每个文本位置处对应的内容信息。这里，预设位置是与文本在待识别图像中的文本处置对应。并且，在对内容信息进行显示时，是按照识别出来的字体类型进行显示的。

由此可见，本申请实施例提供的字体识别方法中，通过对文本位置和文本位置处文本的字体类型进行识别，并将识别出内容信息按照识别出来的字体类型进行显示；如此，可以按照原始图像中文本的样式对文本的所有信息进行显示，提高了信息显示的完整性。

下面详细介绍预训练识别模型的训练过程。

目前，采用人工智能模型进行图像中文本的字体识别，字体识别技术需要首先检测图像中文本所在的位置，然后对文本位置处的文本进行字体识别。现有技术中，需要分别且单独地训练用于检测文本位置的模型，以及用于识别文本字体的模型；这就需要将同一个训练样本分别输入至上述两个模型中进行多次计算；造成训练模型的效率低下，训练速度慢的问题；并且通过上述模型进行字体识别的识别速度也比较慢。

在此基础上，请参考图3，图3为本申请实施例提供的一种预训练识别模型训练的流程示意图，如图3所示，包括以下步骤：

步骤310、获取样本图像和样本标签；样本标签包括文本位置标签和字体类型标签。

在本申请提供的实施例中，为了实现对文档图像或包含文本的图像中字体的识别，可以提前训练用于检测图像中的文本位置，以及识别文本位置处的文本字体的模型。在对模型开始训练之前，需要获取样本数据。

这里，样本数据包括样本图像和样本标签。其中，样本图像是指包含多个文本区域，并且文本区域中包含多种字号、形状、字体、语言的文本的图像，可以使训练出的预训练识别模型能够检测出图像中文本所处的位置，以及文本所处位置处文本的字体类型。

另外，样本标签可以包括样本图像中文本位置的标签，以及文本的字体类型的标签；可以理解的是，对于一个样本图像，其样本标签能够包括两种类型不同的标签，分别是文本位置标签以及字体类型标签。

需要说明的是，样本图像可以包括多个不同的文本区域，并且不同的文本区域位于样本图像不同的位置。可以理解的是，样本图像中每个文本区域可以对应一个文本位置标签和字体类型标签。并且，文本位置标签是指样本图像实际的文本位置；字体类型标签是指样本图像中文本实际的字体类型。

在本申请提供的实施例中，样本标签可以是人工标注的，或者通过其他方式获取的。这里，可以将样本图像中文本所在区域的左上角和右下角的坐标信息作为为文本位置标签，或者将样本图像中文本所在区域左下角和右上角的坐标信息作为文本位置标签，还可以将样本图像中文本所在区域的坐标集合作为文本位置标签，本申请实施例这里不做限定。

另外，如果某个文本位置处文本的所有的文字采用一样的字体，那么将该文本采用的字体作为该文本的字体类型标签；如果某个文本位置处的文本中包含的文字采用的字体不一样，在将该文本中大多数文字采用的字体，作为为该文本的字体类型标签。

示例性的，参考如图4所示的一种示例性样本图像示意图，在该样本图像中，包括两个个文本行，第一文本行41中所有的文字为宋体，则将宋体设置为第一文本行41的字体类型标签。第二文本行42中多半的字体为楷体，只有少部分的字体为黑体，则可以将楷体设置为第二文本行42的字体类型标签。

步骤320、基于待训练识别模型对样本图像进行处理，得到第一输出结果；第一输出结果用于表征样本图像中的第一文本位置和第一文本位置对应的第一字体类型。

在本申请提供的实施例中，在进行训练时，还需要采用深度学习技术，搭建待训练识别模型；其中，待训练识别模型可以是基于backbone搭建的神经网络模型，也可以是通过其他方式搭建的，本申请实施例这里不做限定。这里，可以将步骤310获取的样本图像输入至待训练识别模型中，通过待训练识别模型对样本图像进行处理，得到样本图像的第一输出结果。这里，第一输出结果可以包括样本图像中文本行所处的位置，以及样本图像中文本行的字体类型，即第一文本位置和第一字体类型。

可以理解的是，待训练识别模型是通过深度学习技术，搭建的初始的用于检测文本位置和识别文本的字体类型的模型架构。例如，待训练识别模型可以是基于多层卷积层的神经网络模型。

步骤330、通过目标损失函数，确定样本标签和第一输出结果之间的第一差异值。

在本申请提供的实施例中，由于待训练识别模型为搭建的初始模型，因此，通过待训练识别模型对样本数据进行处理后，得到的第一输出结果中的第一文本位置和第一字体类型，并不是样本图像中实际的文本位置和字体类型。而样本标签指示的目标文本位置和目标字体类型是样本图像中真实的文本位置和字体类型。因此，样本标签和第一输出结果之间存在差异。

这里，可以通过目标损失函数，量化样本标签和第一输出结果之间的差异；也就是说，目标损失函数可以是估量待训练识别模型的预测值与真实值不一致程度的函数。通常样本标签和第一输出结果之间的差异越大，计算得到的第一差异值也越大。第一差异值可以在一定程度上表征待训练识别模型的识别效果。

步骤340、基于第一差异值对待训练识别模型进行训练，直到满足训练结束条件时，得到预训练识别模型。

在本申请提供的实施例中，在确定了第一差异值之后，能够根据第一差异值和样本图像，对待训练识别模型进行迭代训练，最终训练得到预训练识别模型。

具体地，电子设备可以根据第一差异值，对待训练识别模型中的参数进行调整；即，电子设备在利用第一损失函数对待训练识别模型进行训练时，通过第一差异值进行反向传播，调整待训练识别模型的模型参数。进一步，电子设备基于调整后的待训练识别模型对样本图像进行处理，得到第二输出结果；第二输出结果表征样本图形中第二文本位置和第二文本位置对应的第二字体类型。接着，电子设备再次利用调整后的待训练识别模型对样本图像进行处理，提取样本图像中的文本位置以及字体类型，得到第二输出结果。这里，调整后的待训练识别模型相比于未调整的待训练识别模型，在确定文本位置和文本位置处的字体类型的效果更好，从而第二输出结果中的第二文本位置和第二字体类型，相比于第一文本位置和第二字体类型的准确度更高。

进一步，电子设备继续基于目标损失函数，确定样本标签和第二输出结果之间的第二差异值；并且，基于第二差异值对调整后的待训练识别模型进行训练，直到满足训练结束条件时，将训练的调整后的待训练识别模型作为最终训练好的预训练识别模型。

预训练识别模型的训练过程是通过迭代训练得到的；迭代过程为通过第一差异值、第二差异值……不停的调整模型的模型参数，直到调整后的待训练识别模型收敛，或者得到的第N差异值在预设阈值范围内，确定满足训练结束条件；这里，N为大于等于1的整数。此时得到的调整后的待训练识别模型为最终的预训练识别模型。

简单来说，电子设备可以初始化待训练识别模型的模型参数，之后将样本图像输入至待训练识别模型中，即将样本图像和模型参数代入至待训练识别模型中进行计算，得到一个输出结果；对待训练识别模型进行训练的目的是为了使得识别模型的输出结果能够与样本图像对应的标签数据无限接近。初始训练时，由于模型参数是人为初始化得到的，输出结果与标签数据相差较大，因此每次得到输出结果后，可以将输出结果和标签数据代入预先设定好的目标损失函数计算得到一个差异值，之后再利用差异值对模型参数进行更新，在利用大量的样本数据重复迭代上述过程后，最终会得到能够使得识别模型的输出结果与标签很接近的一组模型参数。

在本申请提供的实施例中，预训练识别模型能够对输入的图像进行处理，输出图像中的文本位置，以及文本位置处文本的字体类型。也就是说，本申请实施训练得到的预训练识别模型是一个多任务处理模型，该预训练识别模型能够得到不同处理任务(即文本位置检测处理任务和字体识别处理任务)的处理结果。

可以理解的是，本申请实施例在对待训练识别模型的训练过程中，将待训练识别模型中实现文本位置检测和字体识别任务的参数一起进行训练，能够降低图像处理的计算量，提高训练效率和速度。

在一可能的实现方式中，目标损失函数可以包括第一损失函数和第二损失函数；第一损失函数用于计算文本位置的差异值，第二损失函数用于计算字体类型的差异值。

可以理解的是，第一损失函数用于估量待训练识别模型中预测的文本位置与真实文本位置之间的差异，第二损失函数用于估量待训练识别模型中预测的字体类型与真实字体类型之间的差异。

在本申请提供的实施例中，第一损失函数和第二损失函数包括但不限于对数损失函数、平方损失函数、指数损失函数以及绝对值损失函数等。第一损失函数和第二损失函数可以相同也可以不同，本申请实施例这里不做限定。

进一步地，在本申请提供的实施例中，步骤330通过目标损失函数，确定样本标签和第一输出结果之间的第一差异值，可以通过步骤3301至步骤3303实现；其中，

步骤3301、基于第一损失函数，确定目标文本位置和第一文本位置信息的文本位置差异值；

步骤3302、基于第二损失函数，确定目标字体类型和第一字体类型的字体类型差异值；

步骤3303、对文本位置差异值和字体类型差异值进行加权处理，得到第一差异值。

在本申请提供的实施例中，在得到第一输出结果后，根据待训练识别模型的第一输出结果与样本图像的每个标注信息分别计算差异值；即基于第一损失函数计算样本图像中真实的文本位置(即文本位置标签)和第一输出结果中第一文本位置之间的文本位置差异值，基于第二损失函数计算样本图像中真实的字体类型(即字体类型标签)和第一输出结果中第一字体类型之间的字体类型差异值。

进一步地，第一电子设备可以基于文本位置差异值和字体类型差异值，确定第一差异值；也就是说，第一电子设备可以综合文本位置差异值和字体类型差异值，确定第一差异值。这样，通过两个不同差异值综合后的得到的第一差异值，对待训练识别模型进行训练，即通过第一差异值对待训练识别模型中的模型参数进行调整和优化。

可以理解的是，本申请实施例可以综合不同的维度的差异值，通过该差异值对模型参数进行调整，仅需要对模型参数进行一次调整，不需要根据每个差异值分别对模型参数进行调整，如此，加快目标损失函数的收敛速度，同时加快了预训练识别模型的训练速度。

在一种可能的实现方式中，目标损失函数可以通过公式(1)表示：

L＝L_location+L_front (1)

其中，L_location为第一损失函数，L_front为第二损失函数。

对应的，步骤3303对文本位置差异值和字体类型差异值进行加权处理，得到第一差异值可以通过以下方式实现：

计算文本位置差异值和字体类型差异值之和，将文本位置差异值和字体类型差异值之和作为第一差异值。

在本申请提供的实施例中，可以通过L_location计算文本位置差异值，通过L_front计算字体类型差异值；并将文本位置差异值和字体类型差异值进行累积，得到第一差异值。

在另一种可能的实现方式中，目标损失函数还包括字体类型对应的权重值；权重值用于指示字体类型在所述目标损失函数中所占的比重。具体地，目标损失函数还可以通过公式(2)表示：

L＝L_location+λL_front (2)

其中，L_location为第一损失函数，L_front为第二损失函数，λ为权重值。这里，λ取值可以是任意的实数。

计算权重值和字体类型差异值之间的第一乘积，并将第一乘积与文本位置差异值之间的和作为第一差异值。

在本申请提供的实施例中，权重值λ可以理解为是调和系数，用于指示字体类型差异值占目标损失函数比重，可以理解的是，λ越大，则字体类型差异值对待训练识别模型的模型参数的调整影响越大；同样地，λ越小，则字体类型差异值对待训练识别模型的模型参数的调整影响越小。

需要说明的是，权重值λ是超参数，是在对待训练识别模型进行训练之前设置的参数，而不是通过训练得到的参数数据。

示例性的，参考图5所示的一种示例性的预训练识别模型的训练流程示意图；如图5所示，电子设备获取了样本图像5-1之后，将样本图像5-1输入至待训练识别模型5-2中，得到文本位置对应的输出结果5-3，以及字体类型对应的输出结果5-4。进一步地，电子设备将文本位置标签5-5和文本位置对应输出结果5-3，作为目标损失函数5-6中第一损失函数5-61的输入，得到文本位置差异值5-63；并且，电子设备将字体类型标签5-7和字体类型对应的输出结果5-4，作为目标损失函数5-6中第二损失函数5-62的输入，得到字体类型差异值5-64。接着，电子设备通过目标损失函数5-6，对文本位置差异值5-63和字体类型差异值5-64进行运算处理5-65，得到差异值5-7。最后，电子设备判断差异值5-7是否小于预设阈值，若差异值5-7小于预设阈值，则表明满足训练结束条件，将当前的待训练识别模型作为最终的预训练识别模型5-8。若差异值5-7大于预设阈值，则表明未满足训练结束条件，则根据差异值对待训练识别模型5-2中的模型参数进行调整，并且，电子设备继续根据调整后的待训练模型对样本图像5-1进行处理，处理方式与上文中的方式相同，直到差异值5-7小于与预设阈值为止。

可见，本申请实施例可以综合不同的维度的差异值，通过该差异值对模型参数进行调整，仅需要对模型参数进行一次调整，不需要根据每个差异值分别对模型参数进行调整，如此，加快目标损失函数的收敛速度，同时加快了识别模型的训练速度。

在一可能的实现方式中，步骤130对所述至少一个文本进行内容识别，得到至少一个内容信息，具体包括以下步骤：

步骤1301、利用预设的文本内容识别模型，对待识别图像中至少一个文本位置对应的至少一个文本进行内容识别，得到至少一个文本内容信息；文本位置和文本内容信息一一对应；文本内容识别模型用于确定文本图像中的内容信息。

这里预设的文本内容识别模型可以预先训练好的内容识别模型。这里，预设的文本内容识别模型可以是电子设备对样本数据进行训练得到的，也可以是电子设备从其他提供模型的服务器获取的。

在本申请提供的实施例中，电子设备可以将待识别图像中每个文本位置对应的局部图像输入至预设的文本内容识别模型中，对每个文本位置处的文本内容进行识别，得到每个文本位置处的文本的内容信息。

具体地，步骤140基于至少一个字体类型和至少一个文本位置，在电子设备的显示界面显示至少一个内容信息，可以通过以下步骤实现：

步骤1401、获取至少一个字体类型对应的字体文件；

步骤1402、根据字体文件，在显示界面上显示至少一个文本位置的至少一个文本内容信息。

在本申请提供的实施例中，电子设备可以在本地存储空间存储不同字体类型对应的字体文件。这样，电子设备得到文本的字体类型之后，可以根据获取到的字体文件，在电子设备的显示界面上将文本的内容信息，并将文本的内容信息显示为对应的字体。

如此，电子设备可以按照原始图像中的样式对文本内容进行显示，保证了显示过程中文本信息的完整性，同时还提高了用户的体验。

在一种可能的实现方式中，步骤1401获取至少一个字体类型对应的字体文件，可以通过以下步骤实现：

步骤1401a、根据预设字体库，对至少一个字体类型进行匹配.

实际应用中，电子设备并不会存储所有字体类型对应的字体文件。当电子设备对识别到的文本的内容信息进行显示之前，还可以检测电子设备本地的预设字体库中是否存储有识别到的至少一个字体类型对应的字体文件。

具体地，电子设备可以在识别到至少一个字体类型后，根据该字体类型与预设字体库中的每个字体进行匹配，查看本体的预设字体库中是否存储了识别到的至少一个字体类型对应的字体文件。

步骤1401b、若至少一个字体类型中存在与预设字体库匹配的第一目标字体类型，则从预设字体库中，确定与第一目标字体类型匹配的目标字体文件；第一目标字体类型为所述至少一个字体类型中的任意一个。

可以理解的是，电子设备检测到本地预设字体库中存储了第一目标字体类型的字体文件，则直接从预设字体库中获取该第一目标字体类型对应的字体文件，并根据获取到的字体文件，将第一目标字体类型对应的文本的内容信息显示为第一目标字体。

步骤1401c、若至少一个字体类型中不存在与预设字体库匹配的第二目标字体类型，则获取预设字体文件；第二目标字体类型为所述至少一个字体类型中的除第一目标字体类型外的任意一个字体类型。

这里，当电子设备检测到存预设字体库中未存储第二目标字体类型对应的字体文件时，可以从获取预设的字体文件，将第二目标字体类型对应的文本的内容信息显示为预设的字体文件。

在一种可能的实现方式中，预设字体文件可以是提前设置好的字体文件，可以理解为是默认字体文件。

在另一种可能的实现方式中，预设字体文件可以是与第二目标字体类型相似度高于预设相似度阈值的字体类型对应的字体文件。

这里，电子设备可以获取字体识别过程中，提取的关于第二目标字体类型的特征向量，并计算该特征向量与预设字体库中每个字体对应的特征向量之间的欧氏距离，确定第二目标字体类型和预设字体库中每个字体的相似度。并根据相似度确定预设字体文件。

在又一种可能的实现方式中，电子设备还可以向目标服务器发送字体文件请求；并响应字体文件请求，接收来自目标服务器的预设字体文件。

可以理解的是，电子设备还可以在检测到存储空间中未存储第二目标字体类型对应的字体文件时，从目标服务器下载该第二目标字体类型对应的字体文件到本地字体库。

这样，在电子设备预设字体库中未存储某个字体类型对应的字体文件时，可以从目标服务器下载对应的字体文件，使得显示的文本与原始图像中的文本样式一致，保证文本信息的完整性，及大地提升了用户的使用体验。

步骤1401d、当至少一个字体类型均匹配完成时，将获取的预设字体文件和目标字体文件，作为至少一个字体类型对应的字体文件。

这里，电子设备可以针对至少一个字体类型中每个字体类型，查找匹配的字体文件，直到查找出至少一个字体类型中最后一个字体类型匹配的字体文件。这样，可以将获取的预设字体文件和目标字体文件，作为至少一个字体类型对应的字体文件。

在一种可能的实现方式中，步骤1402根据字体文件，在显示界面上显示至少一个文本位置的至少一个内容信息，可以通过以下方式实现：

根据字体文件，在显示界面上的至少一个目标位置处显示所述至少一个文本内容信息；其中，至少一个目标位置与至少一个文本位置一一对应。

可以理解的是，电子设备在确定了文本位置处文本的字体类型，以及文本位置处文本的内容信息后，电子设备可以按照原始图像中文本所在的位置，在显示界面相应的位置将内容信息进行显示，并以对应的字体对内容信息进行显示。也就是说，根据待处理图像中文本位置和字体类型，在显示界面响应的位置显示相应的字体。示例性的，文本位置位于待识别图像的右上方，且字体类型为宋体；对待识别图像进行识别处理后，在显示界面显示时，在显示界面的右上方以宋体显示文本的内容信息。

在另一种可能的实现方式中，在电子设备的显示界面上显示至少一个文本位置的至少一个内容信息之前，还可以执行以下步骤：

获取至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息；

相应的，在显示界面上显示至少一个文本位置的至少一个内容信息，可以通过以下方式实现：

基于至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息，以及字体文件，在显示界面上显示至少一个文本位置的至少一个内容信息。

这里，电子设备可以通过上述预训练模型，获取待识别图像中每个文本位置处的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息。电子设备还可以通过对待识别图像中每个文本位置处的局部图像进行测量处理，得到每个文本位置处的体大小信息，文本行之间的行间距信息，和字体之间的字间距信息。本申请实施例这里，对获取文本位置处的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息的方式不做限定。

在本申请提供的实施例中，电子设备可以根据用户的需求，选取字体大小信息，行间距信息，和字间距信息中的至少一个，同时结合文本的字体类型，对每个文本位置处的内容信息进行显示。

这样，显示界面显示的内容信息，与原始图像中文本的字体类型一致；同时，显示界面中显示的字体大小，行间距，或者字间距也能够与原始图像中文本的字体大小、行间距、或者字间距保持一致。如此，电子设备可以按照原始图像中的样式对文本内容进行显示，保证了显示过程中文本信息的完整性，同时还提高了用户的体验。

在另一可能的实现方式中，步骤130对至少一个文本进行内容识别，得到至少一个内容信息之后，还可以包括以下步骤：

步骤131、对至少一个内容信息进行翻译，得到至少一个翻译信息；

步骤132、基于至少一个字体类型和至少一个文本，在显示界面显示至少一个翻译信息。

在本申请提供的实施中，电子设备还可以对识别出文本的内容信息进行翻译处理，得到每个文本的内容信息对应的翻译信息。进一步，将翻译信息同样通过原始的字体进行显示。

在一种应用场景中，电子设备可以接收用户发出的针对图片的翻译指令，这里，翻译指令可以包括目标翻译语言。这样，电子设备响应翻译指令，对图片进行文本位置识别和字体识别，得到文本位置和字体类型，另外，电子设备对识别出的文本位置处的文本进行内容识别得到文本的内容信息。得到内容信息之后，电子设备对文本的内容信息进行翻译，得到翻译信息。最后，电子设备在显示界面，按照识别出的字体类型将翻译信息进行显示。

如此，在文本翻译场景中，电子设备可以实时的以相同的字体在显示界面上以不同的语言显示相同字体的文本，可以极大的提升用户的使用体验。

下面，将说明本申请实施例在实际的应用场景中的示例性应用。

参见图6，图6是本申请实施例提供的一种示例性应用的示意图；如图6所示，第二电子设备响应用户的拍摄指令，启动摄像头进行拍摄，得到原始图像6-1；第二电子设备从第一电子设备中获得识别模型来对原始图像6-1进行处理，得到原始图像6-1中文本位置6-2和文本位置处的字体类型6-3；通过预设的文本内容识别模型对原始图像6-1中文本位置处的文字进行识别，得到文本内容6-4。进一步，第二电子设备判断本地存储空间中是否存储有与字体类型6-3对应的字体文件，若本地存储空间中存储有与字体类型6-3对应的字体文件，则根据该字体文件将文本内容6-4显示为原始图像中的字体；若本地存储空间中存储未存储与字体类型6-3对应的字体文件，则将文本内容6-4显示为默认字体。

基于前述实施例，本申请实施例提供一种字体识别装置，该字体识别装置可以应用于上文所述的电子设备中，如图7所示，字体识别装置包括：

获取单元71，用于获取待识别图像；

第一识别单元72，用于利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；

第二识别单元73，用于对所述至少一个文本进行内容识别，得到至少一个内容信息；

显示单元74，用于基于所述至少一个字体类型和所述至少一个文本位置，在电子设备的显示界面显示所述至少一个内容信息。

在本申请提供的实施例中，所述字体识别装置还包括训练单元：其中，

所述训练单元，用于获取样本图像和样本标签；所述样本标签包括文本位置标签和所述字体类型标签；基于待训练识别模型对所述样本图像进行处理，得到第一输出结果；所述第一输出结果用于表征所述样本图像中的第一文本位置和所述第一文本位置对应的第一字体类型；通过目标损失函数，确定所述样本标签和所述第一输出结果之间的第一差异值；基于所述第一差异值对所述待训练识别模型进行训练，直到满足训练结束条件时，得到所述预训练识别模型。

在本申请提供的实施例中，所述目标损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数用于计算文本位置的差异值，所述第二损失函数用于计算字体类型的差异值；

所述训练单元，用于基于所述第一损失函数，确定所述文本位置标签和所述第一文本位置信息的文本位置差异值；基于所述第二损失函数，确定所述字体类型标签和所述第一字体类型的字体类型差异值；对所述文本位置差异值和所述字体类型差异值进行加权处理，得到所述第一差异值。

在本申请提供的实施例中，第二识别单元73，用于利用预设的文本内容识别模型，对所述待识别图像中所述至少一个文本位置对应的至少一个文本进行识别，得到所述至少一个文本内容信息；文本位置和文本内容信息一一对应；其中，所述文本内容识别模型用于确定文本图像中的内容信息。

在本申请提供的实施例中，获取单元71，用于获取所述至少一个字体类型对应的字体文件；

显示单元74，用于根据所述字体文件，在显示界面上显示所述至少一个文本位置的至少一个文本内容信息。

在本申请提供的实施例中，获取单元71，具体用于根据预设字体库，对所述至少一个字体类型进行匹配；若所述至少一个字体类型中存在与预设字体库匹配的第一目标字体类型，则从所述预设字体库中，确定与所述第一目标字体类型匹配的目标字体文件；所述第一目标字体类型为所述至少一个字体类型中的任意一个；若所述至少一个字体类型中不存在与预设字体库匹配的第二目标字体类型，则获取预设字体文件；所述第二目标字体类型为所述至少一个字体类型中的除第一目标字体类型外的任意一个字体类型；当所述至少一个字体类型均匹配完成时，将获取的所述预设字体文件和所述目标字体文件，作为所述至少一个字体类型对应的字体文件。

在本申请提供的实施例中，获取单元71，还用于向目标服务器发送字体文件请求；

在本申请提供的实施例中，显示单元74，具体用于根据所述字体文件，在所述显示界面上的至少一个目标位置处显示所述至少一个文本内容信息；其中，所述至少一个目标位置与所述至少一个文本位置一一对应。

在本申请提供的实施例中，获取单元71，用于获取所述至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息；

显示单元74，还用于基于所述至少一个文本位置处文本的字体大小信息，文本行之间的行间距信息，和字体之间的字间距信息中的至少一个信息，以及所述字体文件，在所述显示界面上显示所述至少一个文本位置的至少一个内容信息。

在本申请提供的实施例中，所述字体识别装置还包括翻译单元，所述翻译单元用于对所述至少一个内容信息进行翻译，得到至少一个翻译信息；

所述显示单元74，用于基于所述至少一个字体类型和所述至少一个文本，在显示界面显示所述至少一个翻译信息。

可以理解的是，本申请实施例提供的字体识别装置，通过对输入的待识别图像进行一次运算，即可以确定待识别图像中的文本位置，以及文本位置处的字体类型，如此，降低图像处理过程中的计算量，提高图像处理速度。

基于前述实施例，本申请实施例还提供了一种电子设备，对应于一种应用于上述字体识别方法；图8为本申请实施例的电子设备的硬件组成结构示意图，如图8所示，电子设备包括处理器81，以及存储有计算机程序的存储器82。

其中，所述处理器81配置为运行所述计算机程序时，执行前述图1对应的实施例中的方法步骤。

当然，实际应用时，如图8所示，该电子设备中的各个组件通过总线***83耦合在一起。可理解，总线***83用于实现这些组件之间的连接通信。总线***83除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8将各种总线都标为总线***83。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read OnlyMemory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(Random AccessMemory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static Random Access Memory，SRAM)、同步静态随机存取存储器(Synchronous Static Random Access Memory，SSRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、同步动态随机存取存储器(Synchronous Dynamic RandomAccess Memory，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSynchronous Dynamic Random Access Memory，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced Synchronous Dynamic Random Access Memory，ESDRAM)、同步连接动态随机存取存储器(SyncLink Dynamic Random Access Memory，SLDRAM)、直接内存总线随机存取存储器(Direct Rambus Random Access Memory，DRRAM)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

本申请实施例还提供了一种计算机存储介质，具体为计算机可读存储介质。其上存储有计算机指令，作为第一种实施方式，在计算机存储介质位于终端时，该计算机指令被处理器执行时实现本申请实施例上述数据处理方法中的任意步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以至少两个单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种字体识别方法，其特征在于，应用于电子设备，所述方法包括：

获取待识别图像；

利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；所述预训练识别模型为多任务处理模型，所述预训练识别模型用于对待识别图像进行处理，一次性输出所述待识别图像的所述至少一个文本位置，以及所述至少一个文本位置处对应文本的字体类型；

基于所述至少一个字体类型和所述至少一个文本位置，在所述电子设备的显示界面显示所述至少一个内容信息；

所述基于所述至少一个字体类型和所述至少一个文本位置，在所述电子设备的显示界面显示所述至少一个内容信息，包括：

获取所述至少一个字体类型对应的字体文件；

2.根据权利要求1所述的方法，其特征在于，所述预训练识别模型的训练过程，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标损失函数包括第一损失函数和第二损失函数；其中，所述第一损失函数用于计算文本位置的差异值，所述第二损失函数用于计算字体类型的差异值；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述至少一个文本进行内容识别，得到至少一个内容信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述字体文件，在所述显示界面上显示所述至少一个文本位置的至少一个内容信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述在所述电子设备的显示界面上显示所述至少一个文本位置的至少一个内容信息之前，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述至少一个文本进行内容识别，得到至少一个内容信息之后，所述方法还包括：

8.一种字体识别装置，其特征在于，应用于电子设备，所述装置包括：

获取单元，用于获取待识别图像；

第一识别单元，用于利用预训练识别模型，对所述待识别图像进行文本位置识别和字体识别，得到至少一个文本位置处的至少一个文本对应的至少一个字体类型；其中，所述预训练识别模型用于确定图像中文本位置，以及所述文本位置处文本的字体类型；所述预训练识别模型为多任务处理模型，所述预训练识别模型用于对待识别图像进行处理，一次性输出所述待识别图像的所述至少一个文本位置，以及所述至少一个文本位置处对应文本的字体类型；

显示单元，用于基于所述至少一个字体类型和所述至少一个文本位置，在所述电子设备的显示界面显示所述至少一个内容信息；

所述获取单元，还用于获取所述至少一个字体类型对应的字体文件；

所述显示单元，还用于根据所述字体文件，在显示界面上显示所述至少一个文本位置的至少一个文本内容信息。

9.一种电子设备，其特征在于，所述电子设备包括处理器和用于存储能够在第处理器上运行的计算机程序的存储器；

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行实现权利要求1至7任一项所述方法的步骤。