CN112016308A

CN112016308A - 语种识别方法

Info

Publication number: CN112016308A
Application number: CN202010891340.3A
Authority: CN
Inventors: 崔炜
Original assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Current assignee: Shanghai Squirrel Classroom Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-30
Filing date: 2020-08-30
Publication date: 2020-12-01

Abstract

本发明公开了一种语种识别方法，所述语种识别方法包括：接收输入的需进行语种识别的待识别语种信息；根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息；根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率；根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种；在确保语种识别正确率的同时，减少了数据运算量，提高了语种识别的速度。

Description

语种识别方法

技术领域

本发明涉及计算机技术领域，特别涉及一种语种识别方法。

背景技术

语种识别是指计算机根据输入的语音数据，自动判断该语音数据所属的语言种类，例如汉语、德语、英语、法语或日语等。近年来，语种识别越来越显示出其应用价值，在信息服务、军事、网络社交等领域得到了广泛的应用。

目前，现有技术中所使用的语种识别的方案，大部分需要利用拉普拉斯变换模型进行滤波，或者使用高斯变换模型等复杂算法进行语种识别。现有技术中所采用的语种识别方案在大数据集上无法实际使用，算法复杂，需要较长的识别处理时间，因此识别速度慢，而且识别的准确率低，不能满足当前语种识别的需求。

发明内容

本发明提供一种语种识别方法，用以确保语种识别准确率的前提下，减少数据运算量，提高语种识别速度。

本发明提供了一种语种识别方法，所述语种识别方法包括：

接收输入的需进行语种识别的待识别语种信息；

根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息；

根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率；

根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种。

进一步地，所述根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息，包括：

根据接收到的所述待识别语种信息，统计所述待识别语种信息中各词语的出现频率；

根据所述词语对应的所述出现频率，按照所述出现频率对所述词语进行排序，得到每一个词语对应的所述出现频率在所述待识别语种信息中出现次数的排列顺序所对应的排行信息；

其中，将所述出现频率和排行信息分别记为f(m)和r(m)，m表示所述待识别语种信息中的词语的序号，m取值为1、2、3，…，M，M为所述词语的序号对应的最大值，m为1时表示第一个词语，m为2时表示第二个词语，m取值M时表示第M个词语。

进一步地，所述根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率，包括：

根据已知语种的语种数据，统计并记录所述待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序；

根据所述出现频率和排行信息，并结合所述已知频率和已知排序，计算得到所述待识别语种信息为对应语种的语种概率。

进一步地，所述根据已知语种的语种数据，统计并记录各词语在对应的已知语种中出现的已知频率和已知排序，包括：

收集已知语种的语种数据，得到每个语种分别对应的已知语种数据库；其中，y_i表示语种，i取1，2，…，Y；y₁表示第一个语种，y₂表示第二个语种，以此类推；Y表示所述已知语种数据库中语种编号对应的最大值；

基于所述已知语种数据库，统计并记录所述待识别语种信息中包含的第m个词语c_m在对应的第i个已知语种y_i中出现的已知频率f(y_i，c_m)和已知排序r(y_i，c_m)；其中，m取1，2，…，M；f(y_i，c_m)表示第m个词语c_m在语种i中对应出现的已知频率，r(y_i，c_m)表示所述第m个词语c_m在语种i中出现频率的排列顺序对应的已知排序。

进一步地，所述根据所述出现频率和排行信息，并结合所述已知频率和已知排序，计算所述待识别语种信息为对应语种的语种概率，包括：

获取所述第m个词语c_m在不同语种i中的出现频率f(y_i，c_m)及排行信息r(y_i，c_m)；

根据所述出现频率f(m)和排行信息r(m)，以及所述出现频率f(y_i，c_m)及排行信息r(y_i，c_m)，计算所述待识别语种信息与语种i的频率特征距离以及排行特征距离；

根据计算得到的所述频率特征距离以及排行特征距离，计算得到所述待识别语种信息为语种i的语种概率。

进一步地，所述根据所述出现频率f(m)和排行信息r(m)，以及所述出现频率f(y_i，c_m)及排行信息r(y_i，c_m)，计算所述待识别语种信息与语种i的频率特征距离以及排行特征距离，包括：

根据所述出现频率f(m)和出现频率f(y_i，c_m)，利用公式(1)，计算所述待识别语种信息与语种i的频率特征距离F(i)，则有：

根据所述排行信息r(m)以及排行信息r(y_i，c_m)，利用公式(2)，计算所述待识别语种信息与语种i的排行特征距离R(i)，则有：

公式(1)和公式(2)中，m表示所述待识别语种信息中的词语的序号，m取值为1、2、3，…，M，M为所述词语序号对应的最大值，m为1时表示第一个词语，m为2时表示第二个词语，m取值M时表示第M个词语。

进一步地，所述根据计算得到的所述频率特征距离以及排行特征距离，计算得到所述待识别语种信息为语种i的语种概率，包括：

根据计算得到的所述频率特征距离F(i)以及排行特征距离R(i)，利用公式(3)，计算得到所述待识别语种信息为语种i的语种概率P(i)，则有：

进一步地，所述根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种，包括：

根据计算得到的所述待识别语种信息为对应的不同语种的语种概率，从所述语种概率中找出所述语种概率对应的概率最大值；

将所述语种概率中的概率最大值对应的语种，作为所述待识别语种信息对应的语种。

进一步地，所述将所述语种概率中的概率最大值对应的语种，作为所述待识别语种信息对应的语种，包括：

判断所述语种概率对应的概率最大值是否达到预设语种概率阈值；

若所述概率最大值达到所述预设语种概率阈值，则将所述概率最大值对应的语种，作为所述待识别语种信息对应的语种，并输出识别结果对应的语种信息；

若所述概率最大值没有达到所述预设语种概率阈值，则将所述概率最大值以及所述概率最大值对应的语种一并反馈至用户终端，供用户确认，获取用户确认后的所述待识别语种信息对应的语种，并输出对应的语种信息。

进一步地，所述获取用户确认后的所述待识别语种信息对应的语种，并输出对应的语种信息，包括：

获取用户确认将所述概率最大值对应的语种作为所述待识别信息对应的语种，并输出确认后的语种信息；

或者，

获取用户基于所述待识别信息进行人工判断得到的语种，并输出人工确定的语种所对应的语种信息。

本发明语种识别方法，通过接收输入的需进行语种识别的待识别语种信息；根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息；根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率；根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种；在确保语种识别正确率的同时，减少了数据运算量，提高了语种识别的速度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明语种识别方法的一种实施方式的工作流程示意图。

图2是本发明语种识别方法中，图1所述实施例的步骤S40的一种实施方式的工作流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种语种识别方法，在确保语种识别准确率的前提下，没有使用拉普拉斯变换模型和高斯变换模型等复杂的数学计算模型，减少了数据的运算量，提高了语种识别速度。

如图1所示，图1是本发明语种识别方法的一种实施方式的工作流程示意图；在图1所述实施例中，本发明一种语种识别方法可以实施为如下描述的步骤S10-S40。

步骤S10、接收输入的需进行语种识别的待识别语种信息。

本发明实施例中，当检测到语种识别指令触发时，响应触发的所述语种识别指令，接收输入的需进行语种识别的待识别语种信息；其中，所述待识别语种信息包括但不限于：文本信息、音频信息等。本发明实施例对所述待识别语种信息的具体表现形式不进行限定。

步骤S20、根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息。

根据接收到的所述待识别语种信息，获取所述待识别语种信息中包含的词语，统计所述词语，获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息。

进一步地，在一个实施例中，***根据接收到的所述待识别语种信息，统计所述待识别语种信息中各词语的出现频率；根据所述词语对应的所述出现频率(词语对应的出现频率等于预设数量的文字中出现该词语的次数，预设数量可以是每千字、每百字或者每万字)，按照所述出现频率从大到小的顺序对所述词语进行排序，得到每一个词语对应的所述出现频率在所述待识别语种信息中出现次数的排列顺序所对应的排行信息；

步骤S30、根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率。

步骤S40、根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种。

本发明实施例中，根据所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息，计算所述待识别语种信息的语种概率时，针对已知的所有语种，分别逐一计算所述待识别语种信息为各语种的语种概率。

进一步地，在一个实施例中，为了减少数据运算量，也可以针对实际情况和具体的应用场景，筛选出目前全球常见的主流语种，在计算所述待识别语种信息的语种概率时，针对筛选出的全球主流语种，分别逐一计算所述待识别语种信息为上述全球主流语种的语种概率。

根据计算得到的语种概率的具体数值，即可识别得到所述待识别语种信息对应的语种；比如，直接将语种概率最大值对应的语种作为所述待识别语种信息对应的语种。

进一步地，在一个实施例中，图1所述实施例中的“步骤S30、根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率”，可以按照如下方式实施：

根据已知语种的语种数据，统计并记录待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序；

其中，所述根据已知语种的语种数据，统计并记录所述待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序，可具体实施为：

从各个语种对应的文章数据库中，获取各个语种各自对应的N个文章，其中，每个语种对应的N个文章中每个文章均用相应语种撰写；所述N等于或大于100；每个文章的词语数量不少于50；

针对每个语种对应的N个文章，执行如下操作：统计当前语种对应的每个文章中每个词语的出现频率；将同一词语在当前语种对应的N个文章中出现频率的平均值作为该同一词语在该当前语种中出现的已知频率；

将所有词语在该当前语种中出现的已知频率按照从大到小的顺序排序，获得每个词语在该当前语种中的已知排序。

本发明实施例中，***根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率时，为了提高语种概率计算的准确性，参照已知语种对应的语种数据；比如，可以调用所述已知语种对应的已知语种数据库。根据已知语种对应的语种数据，统计所述已知语种的语种数据中各词语在对应的所述已知语种数据库中出现的概率即已知概率。本发明实施例中，为了提高语种识别的准确率，参照的所述已知语种对应的语种数据的数据量要足够大；统计的所述词语在对应的已知语种中出现的所述已知概率的统计依据，是该词语在调用的所述已知语种数据库中出现的已知概率。对计算得到的所述词语的已知概率进行排序，得到排序信息对应的所述已知排序。

***计算所述待识别语种信息为对应语种的语种概率时，根据已知语种的语种数据，统计并记录各词语在对应的已知语种中出现的已知频率和已知排序；根据所述出现频率和排行信息，并结合所述已知频率和已知排序，计算得到所述待识别语种信息为对应语种的语种概率。

进一步地，在一个实施例中，所述根据已知语种的语种数据，统计并记录各词语在对应的已知语种中出现的已知频率和已知排序，可以按照如下方式实施：

收集已知语种的语种数据，得到每个语种分别对应的已知语种数据库；其中，y_i表示语种，i取1，2，…，Y；y₁表示第一个语种，比如是中文，y₂表示第二个语种，比如是英文，以此类推；Y表示所述已知语种数据库中语种编号对应的最大值；

进一步地，在一个实施例中，所述根据所述出现频率和排行信息，并结合所述已知频率和已知排序，计算所述待识别语种信息为对应语种的语种概率，可以按照如下方式实施：

进一步地，在一个实施例中，所述根据所述出现频率f(m)和排行信息r(m)，以及所述出现频率f(y_ic_m)及排行信息r(y_ic_m)，计算所述待识别语种信息与语种i的频率特征距离以及排行特征距离，可以按照如下方式实施：

进一步地，在一个实施例中，所述根据计算得到的所述频率特征距离F(i)以及排行特征距离R(i)，计算得到所述待识别语种信息为语种i的语种概率，可以按照如下方式实施：

本发明实施例中，利用上述计算方式，计算得到所述待识别语种信息为语种i的语种概率，与传统语种识别方式相比，该算法在保证语种识别正确率的前提下，大幅度地减少了数据计算量，由于不需要拉普拉斯变换或者高斯变换等复杂算法，因此，本发明实施例的这种算法提升了语种识别的速度，使得能够更快响应用户需求。

基于上述实施例的描述，如图2所示，图2是本发明语种识别方法中，图1所述实施例的步骤S40的一种实施方式的工作流程示意图。图2所述实施例中，图1实施例中的“步骤S40、根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种”，可以实施为如下描述的步骤S41-S42。

步骤S41、根据计算得到的所述待识别语种信息为对应的不同语种的语种概率，从所述语种概率中找出所述语种概率对应的概率最大值。

步骤S42、将所述语种概率中的概率最大值对应的语种，作为所述待识别语种信息对应的语种。

本发明实施例中，直接将语种概率中概率最大值所对应的语种，作为待识别信息对应的语种。

进一步地，所述将所述语种概率中的概率最大值对应的语种，作为所述待识别语种信息对应的语种，还可以按照如下技术手段实施：

***在找出所述语种概率中的概率最大值时，需要判断所述语种概率对应的概率最大值是否达到预设语种概率阈值。

若所述概率最大值达到所述预设语种概率阈值，则将所述概率最大值对应的语种，作为所述待识别语种信息对应的语种，并输出识别结果对应的语种信息。

进一步地，针对根据用户确认，输出用户确认后的语种信息的方式，即所述获取用户确认后的所述待识别语种信息对应的语种，并输出对应的语种信息，可以按照如下方式实施：

获取用户确认将所述概率最大值对应的语种作为所述待识别信息对应的语种，并输出确认后的语种信息；也就是说，为了确保识别出来的语种的正确性，当***自动将所述概率最大值对应的语种作为所述待识别信息对应的语种时，在输出确认的语种信息之前，需要用户进行人工复核，当人工复核确认识别出的语种信息后，***直接输出用户确认后的语种信息。

或者，在另一种实施方式中，***获取用户基于所述待识别信息进行人工判断得到的语种，并输出人工确定的语种所对应的语种信息。也就是说，针对小语种或者相对偏僻使用的人非常少的语种，***的识别率有可能没有主流语种的识别率那么高，此时，***将所述概率最大值对应的语种作为所述待识别信息对应的语种时，若用户人工判断所述待识别语种信息对应的语种不是***计算匹配的语种，则由用户进行人工判断并确认所述待识别语种信息对应的语种，进而根据用户进行人工判断和识别的结果，***输出人工确定的语种所对应的语种信息。

本发明实施例中，通过加入用户进行人工复核和识别判断的方式，针对稀有的小语种或者不常见的小语种，进一步提高了***判断的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语种识别方法，其特征在于，所述语种识别方法包括：

接收输入的需进行语种识别的待识别语种信息；

2.如权利要求1所述的语种识别方法，其特征在于，所述根据接收的所述待识别语种信息，统计并获取所述待识别语种信息中包含的词语在对应语种中的出现频率和排行信息，包括：

3.如权利要求2所述的语种识别方法，其特征在于，所述根据所述出现频率和排行信息，计算所述待识别语种信息为对应语种的语种概率，包括：

4.如权利要求3所述的语种识别方法，其特征在于，所述根据已知语种的语种数据，统计并记录待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序，包括：

5.如权利要求4所述的语种识别方法，其特征在于，所述根据所述出现频率和排行信息，并结合所述已知频率和已知排序，计算所述待识别语种信息为对应语种的语种概率，包括：

6.如权利要求5所述的语种识别方法，其特征在于，所述根据所述出现频率f(m)和排行信息r(m)，以及所述出现频率f(y_i，c_m)及排行信息r(y_i，c_m)，计算所述待识别语种信息与语种i的频率特征距离以及排行特征距离，包括：

7.如权利要求6所述的语种识别方法，其特征在于，所述根据计算得到的所述频率特征距离以及排行特征距离，计算得到所述待识别语种信息为语种i的语种概率，包括：

8.如权利要求1至7任一项所述的语种识别方法，其特征在于，所述根据计算得到的所述语种概率，确定所述待识别语种信息对应的语种，包括：

9.如权利要求8所述的语种识别方法，其特征在于，所述将所述语种概率中的概率最大值对应的语种，作为所述待识别语种信息对应的语种，包括：

若所述概率最大值没有达到所述预设语种概率阈值，则将所述概率最大值以及所述概率最大值对应的语种一并反馈至用户终端，供用户确认，获取用户确认后的所述待识别语种信息对应的语种，并输出对应的语种信息；

其中，所述获取用户确认后的所述待识别语种信息对应的语种，并输出对应的语种信息，包括：

或者，

10.如权利要求3所述的语种识别方法，其特征在于，所述根据已知语种的语种数据，统计并记录所述待识别语种信息中各词语在对应的已知语种中出现的已知频率和已知排序，包括：