WO2021098490A1

WO2021098490A1 - 语种识别方法、装置、终端设备及计算机可读存储介质

Info

Publication number: WO2021098490A1
Application number: PCT/CN2020/125591
Authority: WO
Inventors: 蒲勇飞; 罗俊颜; 朱丽飞; 王志远; 施烈航; 黄健超
Original assignee: 华为技术有限公司
Priority date: 2019-11-22
Filing date: 2020-10-30
Publication date: 2021-05-27
Also published as: CN111027528A; CN111027528B

Abstract

本申请适用于终端人工智能领域以及对应的计算机视觉技术领域，提供了一种语种识别方法、装置、终端设备及计算机可读存储介质，所述方法包括：获取待识别文本行图像，所述待识别文本行图像包括待识别文本；将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，所述语种识别模型用于根据所述待识别文本行图像，确定所述待识别文本的语种，若所述语种为包括多种语种的语系语种，则根据所述待识别文本的语言规律，将所述语系语种中与所述语言规律对应的语种作为所述待识别文本的语种。基于语言规律识别语种，避免了相同或相似字符的二义性导致识别不准确的问题，提高了语种识别的准确率。

Description

语种识别方法、装置、终端设备及计算机可读存储介质

本申请要求于2019年11月22日提交国家知识产权局、申请号为2019111583571、申请名称为“语种识别方法、装置、终端设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请属于人工智能(Artificial Intelligence，AI)及计算机视觉技术领域，尤其涉及一种语种识别方法、装置、终端设备及计算机可读存储介质。

背景技术

随着文字识别技术的不断发展，在对文字进行识别的过程中，不但可以对中文进行识别，还可以对其他语种的文字进行识别。为了提高对不同语种的文字识别的准确度，可以先对待识别文字对应的语种进行识别。

相关技术中，可以通过滑窗的方式对文本行图像进行采样，得到多个图像块，并将多个图像块输入卷积神经网络进行识别，得到多个图像块对应的语种，最后识别得到的数量最多的语种作为文本行图像所对应的语种。

然而，对于使用相同或相似字符的语种，采用上述方式进行识别会得到大量的二义性图像，影响语种识别的准确率。

发明内容

本申请实施例提供了一种语种识别方法、装置、终端设备及计算机可读存储介质，可以提高文本行图像中语种识别的准确率。

第一方面，本申请实施例提供了一种语种识别方法，包括：

获取待识别文本行图像，所述待识别文本行图像包括待识别文本；

将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，所述语种识别模型用于根据所述待识别文本行图像，确定所述待识别文本的语种，若所述语种为包括多种语种的语系语种，则根据所述待识别文本的语言规律，将所述语系语种中与所述语言规律对应的语种作为所述待识别文本的语种。

在第一方面的第一种可能的实现方式中，所述语种识别模型包括语种分类网络和卷积网络；

所述将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，包括：

将所述待识别文本行图像输入所述语种分类网络，得到所述待识别文本的特征信息，所述特征信息用于指示所述待识别文本的语种；

若所述语种为包括多种语种的语系语种，将所述特征信息输入所述卷积网络，确定所述待识别文本的语言规律，并从所述语系语种中选取与所述语言规律相匹配的语种作为所述待识别文本的语种。

在第一方面的第二种可能的实现方式中，在所述将所述待识别文本行图像输入训练后的语种识别模型之前，所述方法还包括：

将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息，所述样本特征信息用于指示所述样本文本的语种；

若所述样本文本的语种不是语系语种，根据预设的第一损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

若所述样本文本的语种是语系语种，将所述样本特征信息输入所述初始语种识别模型的初始卷积网络，从所述语系语种中选取与所述样本文本的语言规律相匹配的语种，作为所述样本文本的语种；

根据预设的第二损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值；

当所述第一损失值或所述第二损失值不满足预设条件时，调整所述初始语种识别模型的模型参数，并返回执行将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息的步骤以及后续步骤；

当所述第一损失值和所述第二损失值均满足所述预设条件时，停止训练所述初始语种识别模型，并将所述第一损失值和所述第二损失值均满足所述预设条件时的初始语种识别模型作为所述语种识别模型。

基于第一方面的第二种可能的实现方式，在第三种可能的实现方式中，在所述将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络之前，所述方法还包括：

获取历史样本集合，所述历史样本集合包括所述样本文本行图像和与每个所述样本文本行图像对应的文本标识；

根据预设码表将各个所述文本标识转换为语种编码，得到由所述样本文本行图像和与每个所述样本文本行图像对应的语种编码所组成的样本集合，所述码表包括多个语种，每个所述语种中的每个字符对应至少一个语种编码。

基于第一方面的第二种可能的实现方式，在第四种可能的实现方式中，所述根据预设的第一损失函数计算所述样本文本的语种类别包括的语种和所述样本文本的实际语种之间的第一损失值，包括：

根据连续时序分类损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

相应的，所述根据预设的第二损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值，包括：

根据归一化指数损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值。

在第一方面的第五种可能的实现方式中，所述语种识别模型的语种分类网络用于识别所述待识别文本中每个所述字符的语种，并将数量最多的语种作为所述待识别文本的语种。

第二方面，本申请实施例提供了一种语种识别装置，包括：

图像获取模块，用于获取待识别文本行图像，所述待识别文本行图像包括待识别文本；

识别模块，用于将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，所述语种识别模型用于根据所述待识别文本行图像，确定所述待识别文本的语种，若所述语种为包括多种语种的语系语种，则根据所述待识别文本的语言规律，将所述语系语种中与所述语言规律对应的语种作为所述待识别文本的语种。

在第二方面的第一种可能的实现方式中，所述语种识别模型包括语种分类网络和卷积网络；

所述识别模块，还用于将所述待识别文本行图像输入所述语种分类网络，得到所述待识别文本的特征信息，所述特征信息用于指示所述待识别文本的语种；若所述语种为包括多种语种的语系语种，将所述特征信息输入所述卷积网络，确定所述待识别文本的语言规律，并从所述语系语种中选取与所述语言规律相匹配的语种作为所述待识别文本的语种。

在第二方面的第二种可能的实现方式中，所述装置还包括：

第一训练模块，用于将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息，所述样本特征信息用于指示所述样本文本的语种；

第一计算模块，用于若所述样本文本的语种不是语系语种，根据预设的第一损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

第二训练模块，用于若所述样本文本的语种是语系语种，将所述样本特征信息输入所述初始语种识别模型的初始卷积网络，从所述语系语种中选取与所述样本文本的语言规律相匹配的语种，作为所述样本文本的语种；

第二计算模块，用于根据预设的第二损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值；

调整模块，用于当所述第一损失值或所述第二损失值不满足预设条件时，调整所述初始语种识别模型的模型参数，并返回执行将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息的步骤以及后续步骤；

确定模块，用于当所述第一损失值和所述第二损失值均满足所述预设条件时，停止训练所述初始语种识别模型，并将所述第一损失值和所述第二损失值均满足所述预设条件时的初始语种识别模型作为所述语种识别模型。

基于第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述装置还包括：

样本获取模块，用于获取历史样本集合，所述历史样本集合包括样本文本行图像和与每个所述样本文本行图像对应的文本标识；

样本生成模块，用于根据预设码表将各个所述文本标识转换为语种编码，得到由所述样本文本行图像和与每个所述样本文本行图像对应的语种编码所组成的样本集合，所述码表包括多个语种，每个所述语种中的每个字符对应至少一个语种编码。

基于第二方面的第二种可能的实现方式，在第四种可能的实现方式中，所述第一计算模块，还用于根据连续时序分类损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

相应的，所述第二计算模块，还用于根据归一化指数损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值。

在第二方面的第五种可能的实现方式中，所述语种识别模型的语种分类网络用于识别所述待识别文本中每个所述字符的语种，并将数量最多的语种作为所述待识别文本的语种。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的语种识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的语种识别方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的语种识别方法。

本申请实施例与现有技术相比存在的有益效果是：

本申请实施例通过获取包括待识别文本的待识别文本行图像，并将待识别文本行图像输入训练后的语种识别模型，通过该语种识别模型确定待识别文本的语种，若该语种为包括多种语种的语系语种，则语种识别模型可以再根据待识别文本的语言规律，将语系语种中与语言规律对应的语种作为待识别文本的语种。基于语言规律识别语种，避免了相同或相似字符的二义性导致识别不准确的问题，提高了语种识别的准确率。

附图说明

图1是本申请提供的语种识别方法所涉及的场景示意图；

图2是本申请实施例提供的手机的部分结构的框图；

图3是本申请提供的一种语种识别方法的示意性流程图；

图4是本申请提供的另一种语种识别方法的示意性流程图；

图5是本申请提供的一种训练语种识别模型的方法的示意性流程图；

图6是本申请实施例提供的一种语种识别装置的结构框图；

图7是本申请实施例提供的另一种语种识别装置的结构框图；

图8是本申请实施例提供的又一种语种识别装置的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请实施例中，“一个或多个”是指一个、两个或两个以上；“和/或”，描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。

本申请实施例提供的语种识别方法可以应用于手机、平板电脑、可穿戴设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

例如，所述终端设备可以是WLAN中的站点(STAION，ST)，可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol，SIP)电话、无线本地环路(Wireless Local Loop，WLL)站、个人数字处理(Personal Digital Assistant，PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡、用户驻地设备(customer premise equipment，CPE)和/或用于在无线***上进行通信的其它设备以及下一代通信***，例如，5G网络中的移动终端或者未来演进的公共陆地移动网络(Public Land Mobile Network，PLMN)网络中的移动终端等。

作为示例而非限定，当所述终端设备为可穿戴设备时，该可穿戴设备还可以是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称，如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上，或是整合到用户的衣服或配件的一种便携式设备。可穿戴设备不仅仅是一种硬件设备，更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能，如智能手表或智能眼镜等。

图1是本申请提供的语种识别方法所涉及的场景示意图，如图1所示，该场景包括：终端设备110和待拍摄物品120。

其中，待拍摄物品120可以包括待识别文本，终端设备110可以对该待拍摄物品120进行拍摄，得到包括待识别文本的待识别文本行图像。

而且，终端设备110在运行过程中，可以运行预先训练的得到的语种识别模型，则终端设备110可以通过语种识别模型对待识别图像中的待识别文本进行识别，从而确定待识别文本对应的语种。

另外，待识别图像不但可以是终端设备110拍摄的包括待识别文本的图像，也可以是终端设备110预先存储的包括待识别文本的图像，还可以是通过无线传输获取的图像，本申请实施例对获取待识别图像的方式不做限定。

在一种可能的实现方式中，终端设备110可以获取待识别图像，并将待识别图像输入预先训练的语种识别模型，并通过语种识别模型对待识别文本的各个字符进行识别，从而可以根据多个字符对应的语种，确定待识别文本对应的语种。

需要说明的是，语种识别模型中可以包括语种分类网络和卷积网络，而语种分类网络用于识别待识别文本对应的语种，但是，当语种为包括多种语种的语系语种时，则语种分类网络无法确定待识别文本的语种是语系语种中的哪个语种，则可以通过卷积网络对待识别文本的语言规律进行学习，并根据语言规律确定待识别文本对应的语种。

另外，本申请实施例中的终端设备110可以为终端人工智能领域的终端设备110，应用于计算机技术领域，终端设备110可以对场景中的文本进行识别，确定文本的语种以及文本对应的内容。例如，终端设备110可以对场景中的英文语句进行识别，确定该文本属于英文，并对该文本进行翻译，得到该英文语句对应的中文语句。

以所述终端设备110为手机为例。图2是本申请实施例提供的手机的部分结构的框图。参考图2，手机包括：射频(Radio Frequency，RF)电路210、存储器220、输入单元230、显示单元240、传感器250、音频电路260、无线保真(wireless fidelity，WiFi)模块270、处理器280、以及电源290等部件。本领域技术人员可以理解，图2中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图2对手机的各个构成部件进行具体的介绍：

RF电路210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器280处理；另外，将设计上行的数据发送给基站。通常，RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，RF电路210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，GSM)、通用分组无线服务(General Packet Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器220可用于存储软件程序以及模块，处理器280通过运行存储在存储器220的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元230可包括触控面板231以及其他输入设备232。触控面板231，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板231上或在触控面板231附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器280，并能接收处理器280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板231。除了触控面板231，输入单元230还可以包括其他输入设备232。具体地，其他输入设备232可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元240可包括显示面板241，可选的，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板241。进一步的，触控面板231可覆盖显示面板241，当触控面板231检测到在其上或附近的触摸操作后，传送给处理器280以确定触摸事件的类型，随后处理器280根据触摸事件的类型在显示面板241上提供相应的视觉输出。虽然在图2中，触控面板231与显示面板241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板231与显示面板241集成而实现手机的输入和输出功能。

处理器280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器220内的软件程序和/或模块，以及调用存储在存储器220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器280可包括一个或多个处理单元；优选的，处理器280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器280中。

手机还包括给各个部件供电的电源290(比如电池)，优选的，电源可以通过电源管理***与处理器280逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头。可选地，摄像头在手机的上的位置可以为前置的，也可以为后置的，本申请实施例对此不作限定。

可选地，手机可以包括单摄像头、双摄像头或三摄像头等，本申请实施例对此不作限定。

例如，手机可以包括三摄像头，其中，一个为主摄像头、一个为广角摄像头、一个为长焦摄像头。

可选地，当手机包括多个摄像头时，这多个摄像头可以全部前置，或者全部后置，或者一部分前置、另一部分后置，本申请实施例对此不作限定。

另外，尽管未示出，手机还可以包括蓝牙模块等，在此不再赘述。

图3是本申请提供的一种语种识别方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备110中，如图3所示，该方法可以包括：

S301、获取待识别文本行图像，该待识别文本行图像包括待识别文本。

终端设备可以获取包括待识别文本的图像，得到待识别文本行图像，并对待识别文本行图像中的待识别文本进行检测，从而可以根据待识别文本中各个字符所属的语种，确定待识别文本的语种。

在一种可能的实现方式中，终端设备可以根据预先设置的拍摄功能对待识别文本进行拍摄，得到包括待识别文本的待识别文本行图像。例如，在检测到用户触发的开启拍摄功能的操作后，可以显示拍摄界面，并在该拍摄界面中显示拍摄的待识别文本，若检测到用户触发的拍摄操作，则可以对拍摄界面显示的图像进行存储，得到待检测图像。

当然，还可以通过其他方式获取待识别文本行图像，例如，可以根据用户触发的操作，从终端设备的存储空间中，选取待识别文本行图像，本申请实施例对获取待识别文本行图像的方式不做限定。

S302、将待识别文本行图像输入训练后的语种识别模型，得到待识别文本的语种。

其中，该语种识别模型可以用于根据待识别文本行图像，确定待识别文本的语种，若该语种为包括多种语种的语系语种，则根据待识别文本的语言规律，将语系语种中与语言规律对应的语种作为待识别文本的语种。

在得到待识别文本行图像之后，即可将该待识别文本行图像输入训练后的语种识别模型，从而通过该语种识别模型对待识别文本行图像中的待识别文本进行识别，确定待识别文本的语种，以便在确定待识别文本的语种后，可以根据识别的语种，准确的识别待识别文本中各个字符所对应的文字。

在一种可能的实现方式中，终端设备在获取待识别文本行图像后，可以通过预设的中央处理器或专用神经运算单元，运行该语种识别模型，并将该待识别文本行图像输入语种识别模型，通过语种识别模型中的神经网络对待识别文本行图像中的待识别文本进行检测分析，确定待识别文本的语种。

而且，在确定待识别文本的语种后，终端设备可以在显示屏上显示识别得到的语种。例如，可以在移动终端的显示屏上显示待识别文本行图像，并在待识别文本行图像中，通过框选等方式标识待识别文本，同时，在框选区域附近显示待识别文本的语种。

综上所述，本申请实施例提供的语种识别方法，通过获取包括待识别文本的待识别文本行图像，并将待识别文本行图像输入训练后的语种识别模型，通过该语种识别模型确定待识别文本的语种，若该语种为包括多种语种的语系语种，则语种识别模型可以再根据待识别文本的语言规律，将语系语种中与语言规律对应的语种作为待识别文本的语种。基于语言规律识别语种，避免了相同或相似字符的二义性导致识别不准确的问题，提高了语种识别的准确率。

图4是本申请提供的另一种语种识别方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备110中，如图4所示，该方法可以包括：

S401、获取待识别文本行图像，该待识别文本行图像包括待识别文本。

S402、将待识别文本行图像输入语种分类网络，得到待识别文本的特征信息。

其中，该特征信息用于指示待识别文本的语种。例如，若待识别文本的特征信息为多个字母，则表示待识别文本的语种可以为包括英德意法等多个语种的拉丁语系的语系语种。但是，若待识别文本的特征信息为中文语种中的各个方块字，或者日文语种中的片假文，则表示待识别文本的语种为中文语种或日文语种。

预先训练的语种识别模型可以包括语种分类网络和卷积网络，而语种分类网络和卷积网络在语种识别的过程中，分别起到不同的作用，则在获取待识别文本行图像之后，可以先将待识别文本行图像输入语种分类网络，确定待识别文本的语种。

在一种可能的实现方式中，可以将待识别文本行图像输入语种分类网络，通过该语种分类网络对待识别文本行图像进行去噪和特征提取等操作，即可根据提取得到待识别文本行图像的特征信息，确定待识别文本中每个字符的语种，并根据每个字符的语种，确定待识别文本的语种。

若识别得到的语种不是语系语种，则可以将该识别得到的语种作为待识别文本的语种。但是，若识别得到的语种是包括多种语种的语系语种，则可以执行S403，通过卷积网络进行进一步地识别，从语系语种包括的多种语种内确定待识别文本的语种。

需要说明的是，语种识别模型的语种分类网络可以用于识别待识别文本中每个字符的语种，并将数量最多的语种作为待识别文本的语种。

相应的，在识别语种的过程中，语种分类网络在确定待识别文本中各个字符的语种后，可以对各个字符的语种进行统计，确定待识别文本中出现的数目最多的语种，也即是，在各个字符的语种中所占比例最大的语种，并将该语种作为待识别文本的语种。

另外，若待识别文本中包括多个语种对应的字符，也可以按照上述方式，将各个字符的语种中所占比例最大的语种，作为待识别文本的语种。

例如，若待识别文本为“瓷器对应的英文单词是china”，待识别文本中10个字符对应的语种为中文语种，5个字符对应的语种为拉丁语系的语系语种，则可以确定该待识别文本的语种为中文语种。

S403、若语种为包括多种语种的语系语种，将特征信息输入卷积网络，确定待识别文本的语言规律，并从语系语种中选取与语言规律相匹配的语种作为待识别文本的语种。

若识别得到的语种为包括多种语种的语系语种，则可以通过语种识别模型的卷积网络对语种分类网络输出的特征信息进行进一步识别，确定待识别文本的语言规律，从而可以根据该语言规律确定待识别文本的语种。

在一种可能的实现方式中，可以将语种分类网络输出的特征信息输入卷积网络中，对于特征信息所指示的每个字符，可以通过卷积网络对该字符和与该字符相邻的其他字符的时序进行学习，得到待识别文本的语言规律，再根据该语言规律对应的语种，从待识别文本的语系语种所包括的多种语种中，选取与该语言规律相匹配的语种作为待识别文本的语种。

例如，若待识别文本为“my name is Zhang San”，则语种分类网络输出的特征信息可以为“m”、“y”、“n”、“a”、“m”、“e”、“i”、“s”、“Z”、“h”、“a”、“n”、“g”、“S”、“a”和“n”，则上述各个字符对应的语种可以为拉丁语系的语系语种。相应的，则可以通过卷积网络对上述各个字符进行卷积操作，识别得到单词“my”、“name”和“is”，并且结合各个单词的语序可以确定该待识别文本的语种为拉丁语系中的英语。

需要说明的是，在实际应用中，本申请实施例中语种识别模型的语种分类网络可以为全卷积网络(Fully Convolutional Networks，FCN)，而卷积网络则可以为一维卷积网络。

进一步地，由全卷积网络构成的语种分类网络，可以快速对待识别文本行图像进行识别，并且可以充分利用待识别文本行图像的行序列信息，减少了识别语种的所花费的时间，提高了识别语种的准确度。

进一步地，由一维卷积网络组成的卷积网络，可以对待识别文本的语言规律进行学习，从而可以根据学习的语言规律从语系语种包括的多个语种中，选取待识别文本的语种，避免了相同或相似字符导致无法准确识别语种的问题，提高了语种识别的准确度。

上述实施例是基于终端设备中的语种识别模型实现的，而语种识别模型可以根据大量的样本文本行图像进行训练得到，参见图5，图5是本申请提供的一种训练语种识别模型的方法的示意性流程图，作为示例而非限定，该方法可以应用于上述终端设备110，或与终端设备110链路连接的服务器中，该方法可以包括：

S501、获取历史样本集合，该历史样本集合包括样本文本行图像和与每个样本文本行图像对应的文本标识。

在训练语种识别模型的过程中，需要根据大量样本数据对建立的初始语种识别模型进行训练，而在获取样本数据的过程中，可以获取历史样本集合，并根据历史样本集合，生成与初始语种识别模型相匹配的样本集合。

其中，历史样本集合可以包括大量的样本文本行图像，而每个样本文本行图像可以对应有文本标识，该文本标识用于指示样本文本行图像中的样本文本。

例如，若样本文本行图像中包括中文文本，则该样本文本行图像对应的文本标识可以指示样本文本行图像中的各个中文字符；若样本文本行图像中包括英文文本，则该样本文本行图像对应的文本标识可以指示样本文本行图像中的各个英文字符。

S502、根据预设码表将各个文本标识转换为语种编码，得到由样本文本行图像和与每个样本文本行图像对应的语种编码所组成的样本集合。

其中，该码表可以包括多个语种，每个语种中的每个字符对应至少一个语种编码。

例如，对于中文、日文和韩文等多个语种，每个语种均包括大量的字符，且各个字符与其他语种的字符区别较大，则可以根据每个语种所包括的大量字符组成字符集合，并建立该字符集合与所属语种之间的对应关系，得到如表1所示的码表，该码表中展示了中文、日文和韩文分别对应的编码cn、ja和ko，且每个编码对应有相应语种的各个字符。

表1

但是，对于英文、德文和法文等多个语种，每个语种对应的字符数目较少，但是与其他语种的字符类似，则可以将英文、德文和法文等多个语种作为语系语种，并对各个语种的字符进行统一编码。例如，不同语种之间相同的字符均可以与一个语种编码相对应，得到如表2所示的码表，该码表展示了语系语种中俄文和拉丁文之间相同字符和不同字符的编码方式，如表2所示，俄文和拉丁文的字符“A”、“B”和“y”分别可以同时与语种编码中的“A”、“B”和“y”相对应，而俄文中的字符“Б”和“Я”可以单独与语种编码“Б”和“Я”相对应，类似的，拉丁文中的“R”则可以单独与语种编码“R”相对应。

俄文	拉丁文	语种编码
А	А	A
Б		Б
В	B	B
У	y	y
Я		Я
	R	R

表2

在S501获取历史样本集合之后，在S502中可以根据预先设置的码表，对历史样本集合中每个样本文本行图像对应的文本标识进行转换，从而可以得到样本文本中每个字符对应的语种编码，进而生成由样本文本行图像和对应的语种编码所组成的样本集合。

S503、将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到样本文本行图像中样本文本的样本特征信息。

其中，样本特征信息用于指示样本文本的语种。

S503的过程与S402的过程类似，在此不再赘述。

S504、若样本文本的语种不是语系语种，根据预设的第一损失函数计算样本文本的语种和样本文本的实际语种之间的第一损失值。

若识别得到的样本文本的语种不是语系语种，则说明识别得到的语种仅包括一种语种，则可以将样本文本的语种确定为识别得到的语种，无需再根据初始卷积网络对样本文本的语种进行进一步确认。

相应的，可以根据确定的样本文本的语种、以及与样本文本行图像对应的语种编码所指示的实际语种，并结合预先设置的第一损失函数进行计算，得到两个语种之间的第一损失值，以便在后续步骤中，可以根据该第一损失值确定是否需要再次对初始语种识别模型进行训练。也即是，在计算得到第一损失值之后，可以执行S507确定是否需要继续对初始语种识别模型进行训练。

进一步地，在实际应用中，可以根据连续时序分类损失函数(Connectionist Temporal Classification Loss，CTCLoss)计算样本文本的语种和样本文本的实际语种之间的第一损失值。

但是，需要说明的是，若识别得到的样本文本的语种为语系语种，则可以执行S505，以通过初始卷积网络对样本文本的语种进行进一步识别。

S505、若样本文本的语种是语系语种，将样本特征信息输入初始语种识别模型的初始卷积网络，从语系语种中选取与样本文本的语言规律相匹配的语种，作为样本文本的语种。

S505的过程与S403的过程类似，在此不再赘述。

S506、根据预设的第二损失函数计算样本文本的语种和样本文本的实际语种之间的第二损失值。

S506的过程与S504的过程类似，在此不再赘述。

需要说明的是，第二损失函数可以为归一化指数损失函数(SoftMaxLoss)，则可以根据归一化指数损失函数计算样本文本的语种和样本文本的实际语种之间的第二损失值。

S507、当第一损失值或第二损失值不满足预设条件时，调整初始语种识别模型的模型参数，并返回执行将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到样本文本行图像中样本文本的样本特征信息的步骤以及后续步骤。

在计算得到第一损失值或第二损失值之后，可以判断第一损失值或第二损失值是否满足预先设置的预设条件，若不满足预设条件，则说明初始语种识别模型并未收敛，需要再次对初始语种识别模型进行训练，直至满足预设条件。

在一种可能的实现方式中，可以将第一损失值或第二损失值，与预先设定的与第一损失函数或第二损失函数相匹配的损失阈值进行比较，判断第一损失值或第二损失值是否小于或等于相对应的损失阈值。

若第一损失值或第二损失值大于相对应的损失阈值时，说明第一损失值或第二损失值不满足预设条件，则可以根据第一损失值或第二损失值对初始语种识别模型的参数进行调整，并再次执行S503、S504和S507，或者再次执行S503和S505至S507，也即是，将样本文本行图像输入调整模型参数后的初始语种识别模型中，从而根据计算再次得到的第一损失值或第二损失值对初始语种识别模型进行调整训练，直至第一损失值和第二损失值均满足预设条件。

S508、当第一损失值和第二损失值均满足预设条件时，停止训练初始语种识别模型，并将第一损失值和第二损失值均满足该预设条件时的初始语种识别模型作为语种识别模型。

若第一损失值和第二损失值均满足预设条件，则说明初始语种识别模型开始收敛，可以停止对初始语种识别模型进行训练，并将当前第一损失值和第二损失值均满足预设条件的初始语种识别模型作为语种识别模型。

在一种可能的实现方式中，若计算得到第一损失值，且该第一损失值满足预设条件，则可以再次执行S503和S505至S507，若此次计算得到的第二损失值也满足预设条件，则可以停止对初始语种识别模型的训练，并将当前的初始语种识别模型作为语种识别模型。

需要说明的是，在实际应用中，在确定第一损失值满足预设条件后，再次训练确定第二损失值是否满足预设条件的过程中，可能会再次得到第一损失值，而在确定第二损失值满足预设条件之前计算得到的每个第一损失值均满足预设条件，则可以确定第一损失值和第二损失值均满足预设条件。

但是，若在确定第二损失值满足预设条件之前计算得到的任一第一损失值不满足预设条件，则不能确定第一损失值和第二损失值均满足预设条件。

类似的，若计算得到的第二损失值先满足预设条件，则可以再执行S503、S504和S507，确定再次计算的第一损失值是否满足预设条件，若满足预设条件，则可以停止对初始语种识别模型的训练，并将当前的初始语种识别模型作为语种识别模型。

而且，在确定第一损失值满足预设条件之前，若每次得到的第二损失值均满足预设条件，则可以确定第一损失值和第二损失值均满足预设条件。但是，若在确定第一损失值满足预设条件之前，计算得到的任一第二损失值不满足预设条件，则不能确定第一损失值和第二损失值均满足预设条件。

综上所述，本申请实施例提供的训练语种识别模型的方法，通过获取历史样本集合，并根据预先设置的码表对历史样本集合中的文本标识进行转换，得到样本集合，再通过样本集合对初始语种识别模型进行训练，得到第一损失值和第二损失值均满足预设条件的语种识别模型，通过语种识别模型对待识别文本行图像中的待识别文本进行识别，可以基于语言规律识别语种，避免了相同或相似字符的二义性导致识别不准确的问题，提高了识别语种的准确度。

进一步地，通过各个语种的字符之间的相似度设置码表，可以避免相同或相似字符的二义性问题，并减少语种识别模型最后一层神经网络的参数量，可以得到占用存储空间更小、识别速度更快的语种识别模型。

进一步地，采用历史样本集合获取训练初始语种识别模型的样本集合，无需生成样本数据，减少了训练初始语种识别模型的成本。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的语种识别方法，图6是本申请实施例提供的一种语种识别装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图6，该装置包括：

图像获取模块601，用于获取待识别文本行图像，该待识别文本行图像包括待识别文本；

识别模块602，用于将该待识别文本行图像输入训练后的语种识别模型，得到该待识别文本的语种，该语种识别模型用于根据该待识别文本行图像，确定该待识别文本的语种，若该语种为包括多种语种的语系语种，则根据该待识别文本的语言规律，将该语系语种中与该语言规律对应的语种作为该待识别文本的语种。

可选的，该语种识别模型包括语种分类网络和卷积网络；

该识别模块602，还用于将该待识别文本行图像输入该语种分类网络，得到该待识别文本的特征信息，该特征信息用于指示该待识别文本的语种；若该语种为包括多种语种的语系语种，将该特征信息输入该卷积网络，确定该待识别文本的语言规律，并从该语系语种中选取与该语言规律相匹配的语种作为该待识别文本的语种。

可选的，参见图7，该装置还包括：

第一训练模块603，用于将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到该样本文本行图像中样本文本的样本特征信息，该样本特征信息用于指示该样本文本的语种；

第一计算模块604，用于若该样本文本的语种不是语系语种，根据预设的第一损失函数计算该样本文本的语种和该样本文本的实际语种之间的第一损失值；

第二训练模块605，用于若该样本文本的语种是语系语种，将该样本特征信息输入该初始语种识别模型的初始卷积网络，从该语系语种中选取与该样本文本的语言规律相匹配的语种，作为该样本文本的语种；

第二计算模块606，用于根据预设的第二损失函数计算该样本文本的语种和该样本文本的实际语种之间的第二损失值；

调整模块607，用于当该第一损失值或该第二损失值不满足预设条件时，调整该初始语种识别模型的模型参数，并返回执行将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到该样本文本行图像中样本文本的样本特征信息的步骤以及后续步骤；

确定模块608，用于当该第一损失值和该第二损失值均满足该预设条件时，停止训练该初始语种识别模型，并将该第一损失值和该第二损失值均满足该预设条件时的初始语种识别模型作为该语种识别模型。

可选的，参见图8，该装置还包括：

样本获取模块609，用于获取历史样本集合，该历史样本集合包括样本文本行图像和与每个该样本文本行图像对应的文本标识；

样本生成模块610，用于根据预设码表将各个该文本标识转换为语种编码，得到由该样本文本行图像和与每个该样本文本行图像对应的语种编码所组成的样本集合，该码表包括多个语种，每个该语种中的每个字符对应至少一个语种编码。

可选的，该第一计算模块604，还用于根据连续时序分类损失函数计算该样本文本的语种和该样本文本的实际语种之间的第一损失值；

相应的，该第二计算模块606，还用于根据归一化指数损失函数计算该样本文本的语种和该样本文本的实际语种之间的第二损失值。

可选的，该语种识别模型的语种分类网络用于识别该待识别文本中每个该字符的语种，并将数量最多的语种作为该待识别文本的语种。

综上所述，本申请实施例提供的语种识别装置，通过获取包括待识别文本的待识别文本行图像，并将待识别文本行图像输入训练后的语种识别模型，通过该语种识别模型确定待识别文本的语种，若该语种为包括多种语种的语系语种，则语种识别模型可以再根据待识别文本的语言规律，将语系语种中与语言规律对应的语种作为待识别文本的语种。基于语言规律识别语种，避免了相同或相似字符的二义性导致识别不准确的问题，提高了语种识别的准确率。

本申请实施例还提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如图3至图5对应的实施例中任一项所述的语种识别方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如图3至图5对应的实施例中任一项所述的语种识别方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种语种识别方法，其特征在于，包括：

获取待识别文本行图像，所述待识别文本行图像包括待识别文本；

将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，所述语种识别模型用于根据所述待识别文本行图像，确定所述待识别文本的语种，若所述语种为包括多种语种的语系语种，则根据所述待识别文本的语言规律，将所述语系语种中与所述语言规律对应的语种作为所述待识别文本的语种。
如权利要求1所述的方法，其特征在于，所述语种识别模型包括语种分类网络和卷积网络；

所述将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，包括：

将所述待识别文本行图像输入所述语种分类网络，得到所述待识别文本的特征信息，所述特征信息用于指示所述待识别文本的语种；

若所述语种为包括多种语种的语系语种，将所述特征信息输入所述卷积网络，确定所述待识别文本的语言规律，并从所述语系语种中选取与所述语言规律相匹配的语种作为所述待识别文本的语种。
如权利要求1所述的方法，其特征在于，在所述将所述待识别文本行图像输入训练后的语种识别模型之前，所述方法还包括：

将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息，所述样本特征信息用于指示所述样本文本的语种；

若所述样本文本的语种不是语系语种，根据预设的第一损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

若所述样本文本的语种是语系语种，将所述样本特征信息输入所述初始语种识别模型的初始卷积网络，从所述语系语种中选取与所述样本文本的语言规律相匹配的语种，作为所述样本文本的语种；

根据预设的第二损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值；

当所述第一损失值或所述第二损失值不满足预设条件时，调整所述初始语种识别模型的模型参数，并返回执行将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络，得到所述样本文本行图像中样本文本的样本特征信息的步骤以及后续步骤；

当所述第一损失值和所述第二损失值均满足所述预设条件时，停止训练所述初始语种识别模型，并将所述第一损失值和所述第二损失值均满足所述预设条件时的初始语种识别模型作为所述语种识别模型。
如权利要求3所述的方法，其特征在于，在所述将样本集合中的样本文本行图像输入初始语种识别模型的初始语种分类网络之前，所述方法还包括：

获取历史样本集合，所述历史样本集合包括所述样本文本行图像和与每个所述样本文本行图像对应的文本标识；

根据预设码表将各个所述文本标识转换为语种编码，得到由所述样本文本行图像和与每个所述样本文本行图像对应的语种编码所组成的样本集合，所述码表包括多个语种，每个所述语种中的每个字符对应至少一个语种编码。
如权利要求3所述的方法，其特征在于，所述根据预设的第一损失函数计算所述样本文本的语种类别包括的语种和所述样本文本的实际语种之间的第一损失值，包括：

根据连续时序分类损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第一损失值；

相应的，所述根据预设的第二损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值，包括：

根据归一化指数损失函数计算所述样本文本的语种和所述样本文本的实际语种之间的第二损失值。
如权利要求1至5任一所述的方法，其特征在于，所述语种识别模型的语种分类网络用于识别所述待识别文本中每个所述字符的语种，并将数量最多的语种作为所述待识别文本的语种。
一种语种识别装置，其特征在于，包括：

图像获取模块，用于获取待识别文本行图像，所述待识别文本行图像包括待识别文本；

识别模块，用于将所述待识别文本行图像输入训练后的语种识别模型，得到所述待识别文本的语种，所述语种识别模型用于根据所述待识别文本行图像，确定所述待识别文本的语种，若所述语种为包括多种语种的语系语种，则根据所述待识别文本的语言规律，将所述语系语种中与所述语言规律对应的语种作为所述待识别文本的语种。
如权利要求7所述的装置，其特征在于，所述语种识别模型包括语种分类网络和卷积网络；

所述识别模块，还用于将所述待识别文本行图像输入所述语种分类网络，得到所述待识别文本的特征信息，所述特征信息用于指示所述待识别文本的语种；若所述语种为包括多种语种的语系语种，将所述特征信息输入所述卷积网络，确定所述待识别文本的语言规律，并从所述语系语种中选取与所述语言规律相匹配的语种作为所述待识别文本的语种。
一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。