CN108172212A

CN108172212A - 一种基于置信度的语音语种识别方法及***

Info

Publication number: CN108172212A
Application number: CN201711425644.5A
Authority: CN
Inventors: 季节; 徐爽
Original assignee: International Intellectual Property Trading Center Co Ltd
Current assignee: HENGQIN INTERNATIONAL INTELLECTUAL PROPERTY EXCHANGE CO.,LTD.
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-15
Anticipated expiration: 2037-12-25
Also published as: CN108172212B

Abstract

本发明提供了一种基于置信度的语音语种识别方法及***，用以解决现有语音识别中，语种识别效率较低的问题。该方法包括：S1：从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息；S2：根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种；S3：若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至步骤S1。采用本发明，提高了语音识别效率，同时还提高了多语种语音信息的识别精确度。

Description

一种基于置信度的语音语种识别方法及***

技术领域

本发明涉及语音识别领域，尤其涉及一种基于置信度的语音语种识别方法及***。

背景技术

语音识别技术，也被称为自动语音识别，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有技术中，在进行语音识别之前需要先进行语种识别，现有技术中，客户端将用户输入的语音信号分成若干语音片段后，依次将语音片段发送到服务器进行语种识别的，服务器在接收到属于同一语音的所有语音片段之后，才开始进行语种识别，语种识别的效率很低，而且当用户输入的语音信息包含多种语种时，还会存在语种的错误识别，导致语音识别伴随着出现错误。

发明内容

本发明要解决的技术问题目的在于提供一种基于置信度的语音识别方法及***，用以解决现有的语音识别效率低，对于包含多语种的语音信息，会出现错误识别的问题。

为了实现上述目的，本发明采用的技术方案为：

一种基于置信度的语音语种识别方法，包括步骤：

S1：从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息；

S2：根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种；

S3：若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至步骤S1。

进一步的，所述步骤S1之前还包括步骤：

接收输入的语音信息；

根据预设分段时长，将所述语音信息按预设分段时长分为各个语音片段。

进一步的，所述步骤S1还包括步骤：

获取各个语音片段的输入时间信息，通过输入时间先后顺序标记所述各个语音片段；

提取所述输入时间最早的语音片段作为预设语音片段。

进一步的，所述步骤S2还包括步骤：

将所述预设语音片段的语种信息作为预设语种；

通过所述各个语音片段与所述预设语种进行对比，获取各个语音片段的语种置信度。

进一步的，所述步骤S3还包括：

获取各个语音片段的当前语种置信度；

将所述各个语种置信度进行对比，将所述语种置信度最小的语音片段进行筛除。

一种基于置信度的语音语种识别***，包括：

语种匹配模块：用于从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息；

语种识别模块：用于根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种；

筛选模块：用于若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至所述语种匹配模块。

进一步的，还包括：

语音输入模块：用于接收输入的语音信息；

语音分段模块：用于根据预设分段时长，将所述语音信息按预设分段时长分为各个语音片段。

进一步的，所述语种匹配模块还包括：

标记单元：用于获取各个语音片段的输入时间信息，通过输入时间先后顺序标记所述各个语音片段；

提取单元：用于提取所述输入时间最早的语音片段作为预设语音片段。

进一步的，所述语种识别模块还包括：

预设语种单元：用于将所述预设语音片段的语种信息作为预设语种；

语种对比单元：用于通过所述各个语音片段与所述预设语种进行对比，获取各个语音片段的语种置信度。

进一步的，所述筛选模块还包括：

置信度获取单元：用于获取各个语音片段的当前语种置信度；

语音片段筛选单元：用于将所述各个语种置信度进行对比，将所述语种置信度最小的语音片段进行筛除。

采用本发明，通过对语音片段的置信度进行筛选，将不同语种的语音片段进行区分，提高了对于包含多语种的语音信息识别的准确性，将语音信息分成不同片段进行识别，同时提高了语音识别效率。

附图说明

图1是本实施例提供的一种基于置信度的语音语种识别方法流程图；

图2是本实施例提供的一种基于置信度的语音语种识别***结构图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

置信度，又称为置信水平、置信系数、可靠度，在统计学中，一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计，置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概率”，这个概率被称为置信水平。

实施例一

本实施例提供了一种基于置信度的语音语种识别方法，如图1所示，包括步骤：

S11：从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息；

S12：根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种；

S13：若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至步骤S11。

本实施例中，在步骤S11之前还包括：

步骤S101：接收输入的语音信息；

步骤S102：根据预设分段时长，将所述语音信息按预设分段时长分为各个语音片段。

具体地，

对于用户输入的语音信息，服务器对语音信息进行识别之前，先将其按照预设分段时长分成各个语音片段单元，例如，以100ms为一个语音片段单元，将当前接收到的语音信息分割成以100ms长的多个语音片段单元。

本实施例中，步骤S11为从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息。

具体地，

先从各个语音片段中提取一个语音片段，该语音片段应为时间顺序最靠前的语音片段即用户输入的语音信息中最开始输入的语音片段，先确定该语音片段的语种信息，再将后续的语音片段与该语种进行对比，得到各个语音片段的语种置信度。

其中，步骤S11还包括：

步骤S111：获取各个语音片段的输入时间信息，通过输入时间先后顺序标记所述各个语音片段；

步骤S112：提取所述输入时间最早的语音片段作为预设语音片段。

用户输入的语音信息必定存在一个时间先后顺序，在将语音信息分成各个语音片段时，也会有不同的时间先后顺序，将其中时间顺序最靠前的语音片段提取出来作为预设语音片段。

本实施例中，步骤S12为根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种。

具体地，

在各个语音片段与预设语种进行对比后，可以得到语种置信度，计算各个语音片段的语种置信度总和并得到置信度均值，若置信度均值大于预设置信度阈值，表示后续的各个语音片段的语种与预设语种相同，则将预设语种作为此段语音信息的默认语种。

本实施例中，步骤S12还包括：

步骤121：将所述预设语音片段的语种信息作为预设语种；

步骤122：通过所述各个语音片段与所述预设语种进行对比，获取各个语音片段的语种置信度。

其中，从各个语音片段中提取出一个语音片段，识别该语音片段的语种信息，直接作为各个语音片段的预设语种，减少了需要对后续语音片段的语种进行识别的步骤。

本实施例中，步骤S13为若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至步骤S11。

具体地，

将当前各个语音片段的语种置信度均值与预设置信度阈值对比后，若发现语种置信度均值小于预设置信度阈值，表示各个语音片段中的存在有语音片段对预设语种的语种置信度不高，该语音片段可能是其它的语种，筛选出置信度较低的语音片段，然后转至步骤S11，直到识别完所有的语音片段语种。

本实施例中，步骤S13还包括：

S131：获取各个语音片段的当前语种置信度；

S132：将所述各个语种置信度进行对比，将所述语种置信度最小的语音片段进行筛除。

其中，对于与预设语种置信度不高的语音片段，该语音片段可能是其它的语种，将其筛选出来，同时满足筛选后的语音片段语种置信度均值大于预设语种置信度阈值。对筛选出来的语音片段进行整合，转到步骤S12。

通过对语音片段的语种置信度进行筛选，对于包含多语种的语音信息，能够根据语种置信度进行区分，提高了语音识别的效率及保证了语种识别的准确度。

实施例二

本实施例提供了一种基于置信度的语音语种识别***，如图2所示，包括：

语种匹配模块22：用于从各个语音片段中提取一个语音片段作为预设语音片段，与预设语种数据库进行对比，获取与所述预设语音片段匹配的语种信息。

语种识别模块23：用于根据所述语种信息，获取各个语音片段的语种置信度及置信度均值，判断所述置信度均值是否大于预设置信度阈值，若是，则将当前语种作为所述语音信息默认语种，

筛选模块24：用于若否，则通过预设筛选条件，对所述各个语音片段进行筛选，直到所述语种置信度均值大于所述预设阈值，并获取所述筛选得到的语音片段，转至语种匹配模块。

本实施例中，还包括：

语音输入模块20：用于接收输入的语音信息；

语音分段模块21：用于根据预设分段时长，将所述语音信息按预设分段时长分为各个语音片段。

本实施例中，语种匹配模块22还包括：

标记单元221：用于获取各个语音片段的输入时间信息，通过输入时间先后顺序标记所述各个语音片段；

提取单元222：用于提取所述输入时间最早的语音片段作为预设语音片段。

本实施例中，语种识别模块23还包括：

预设语种单元231：用于将所述预设语音片段的语种信息作为预设语种；

语种对比单元232：用于通过所述各个语音片段与所述预设语种进行对比，获取各个语音片段的语种置信度。

本实施例中，筛选模块24还包括：

置信度获取单元241：用于获取各个语音片段的当前语种置信度；

语音片段筛选单元242：用于将所述各个语种置信度进行对比，将所述语种置信度最小的语音片段进行筛除。

对于用户输入的语音信息，设置预设分段时长，对语音信息进行分段，多个分段可以同时进行语音语种的识别，进一步提高了语音识别效率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于置信度的语音语种识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种基于置信度的语音语种识别方法，其特征在于，所述步骤S1之前还包括步骤：

接收输入的语音信息；

3.根据权利要求1所述的一种基于置信度的语音语种识别方法，其特征在于，所述步骤S1还包括步骤：

提取所述输入时间最早的语音片段作为预设语音片段。

4.根据权利要求1所述的一种基于置信度的语音语种识别方法，其特征在于，所述步骤S2还包括步骤：

将所述预设语音片段的语种信息作为预设语种；

5.根据权利要求1所述的一种基于置信度的语音语种识别方法，其特征在于，所述步骤S3还包括：

获取各个语音片段的当前语种置信度；

6.一种基于置信度的语音语种识别***，其特征在于，包括：

7.根据权利要求6所述的一种基于置信度的语音语种识别***，其特征在于，还包括：

语音输入模块：用于接收输入的语音信息；

8.根据权利要求6所述的一种基于置信度的语音语种识别***，其特征在于，所述语种匹配模块还包括：

9.根据权利要求6所述的一种基于置信度的语音语种识别***，其特征在于，所述语种识别模块还包括：

10.根据权利要求6所述的一种基于置信度的语音语种识别***，其特征在于，所述筛选模块还包括：

置信度获取单元：用于获取各个语音片段的当前语种置信度；语音片段筛选单元：用于将所述各个语种置信度进行对比，将所述语种置信度最小的语音片段进行筛除。