CN114067787A

CN114067787A - 一种语音语速自适应识别***

Info

Publication number: CN114067787A
Application number: CN202111547185.4A
Authority: CN
Inventors: 邹月荣; 李�权; 汪张龙; 郭清霞; 李艳; 许东生; 杜平
Original assignee: Guangdong Xunfei Qiming Technology Development Co ltd
Current assignee: Guangdong Xunfei Qiming Technology Development Co ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-02-18
Anticipated expiration: 2041-12-17
Also published as: CN114067787B

Abstract

本发明提供一种语音语速自适应识别***，所述识别***包括用户输入模块以及自适应处理模块；所述用户输入模块用于用户输入语音信息，所述自适应处理模块包括语音转换单元、文字划分单元、分析单元以及自适应处理单元；所述语音转换单元用于将用户输入的语音信息转换成文字信息；所述文字划分单元用于将转换后的文字信息进行独立文字的划分；所述分析单元基于划分后的独立文字进行分析处理，得到划分后文字信息的参数。本发明能够基于不同用户的语速进行自适应识别，从而提高对不同用户的语音转换的全面有效性，以解决现有的语音识别对于语速的自适应存在不足的问题。

Description

一种语音语速自适应识别***

技术领域

本发明涉及语音语速识别技术领域，尤其涉及一种语音语速自适应识别***。

背景技术

语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别比做为“机器的听觉***”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

现有的技术中，由于每个人的说话习惯不同，每个人每句话的停顿点不同，且每个人的语速也不同，通过现有的语音识别***不能基于上述特征进行精准的语音识别转换，因此在识别转换过程中会出现漏字的现象，导致最终语音呈现的文字语义出现错误。

发明内容

针对现有技术存在的不足，本发明目的是提供一种语音语速自适应识别***，能够基于不同用户的语速进行自适应识别，从而提高对不同用户的语音转换的全面有效性，以解决现有的语音识别对于语速的自适应存在不足的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：一种语音语速自适应识别***，所述识别***包括用户输入模块以及自适应处理模块；所述用户输入模块用于用户输入语音信息；

所述自适应处理模块包括语音转换单元、文字划分单元、分析单元以及自适应处理单元；

所述语音转换单元用于将用户输入的语音信息转换成文字信息；

所述文字划分单元用于将转换后的文字信息进行独立文字的划分；

所述分析单元基于划分后的独立文字进行分析处理，得到划分后文字信息的参数；

所述自适应处理单元用于根据划分后的文字信息的参数对用户的语速进行自适应识别处理。

进一步地，所述文字划分单元配置有文字划分策略，所述文字划分策略包括：对文字信息中的文字依次进行标定，再将语音输入以输入的开始时间至结束时间进行时长划定，将标定后的文字依次对应到输入语音的时长中，并将该时长作为该文字的时间标记，用时间标记作为每个文字的划定界限。

进一步地，所述分析单元配置有语速分析策略，所述语速分析策略包括：获取每两个文字之间的间隔时长，间隔时长通过后一个文字的时间标记减去前一个文字的时间标记，然后将间隔时长放入一个时间间隔数集中；

将间隔时长小于等于一倍的间隔阈值归集到第一时长数集中，将间隔时长大于一倍的间隔阈值且小于等于两倍的间隔阈值归集到第二时长数集中，将间隔时长大于两倍的间隔阈值归集到第三时长数集中；

选取第一时长数集、第二时长数集以及第三时长数集中间隔时长数量最多的一个数集作为语速鉴定数集；

将语速鉴定数集中的若干间隔时长带入语速公式中求得语速值。

进一步地，所述语速公式配置为：

其中，Vys为语速值，T1到Tn分别表示为语速鉴定数集中的若干间隔时长，n为语速鉴定数集中的若干间隔时长的数量，a1为语速值的转换比，且a1大于零。

进一步地，所述间隔阈值通过间隔阈值公式计算得到，所述间隔阈值公式配置为：

Yjg为间隔阈值，Sz为文字信息中的文字数量， Tz为语音信息的时长，b1为间隔阈值的对应系数，且a1大于零。

进一步地，所述分析单元还配置有语句习惯分析策略，所述语句习惯分析策略包括：获取第三时长数集中的间隔时长，将第三时长数集中的间隔时长作为每段语句的分隔点，然后以分隔点将文字信息进行分句，分别统计每段语句中的文字数量；

将文字数量小于等于一倍的文字阈值的归集到第一文字数集中；

将文字数量大于一倍的文字阈值且小于等于两倍的文字阈值的归集到第二文字数集中；

将文字数量大于两倍的文字阈值的归集到第三文字数集中；

选取第一文字数集、第二文字数集以及第三文字数集中数据最多的一个作为语句习惯参考数集；将语句习惯参考数集中的若干文字数量带入到语句习惯公式中求得语句习惯数值。

进一步地，所述语句习惯公式配置为：

其中，Pyx 为语句习惯数值，SI1到Slm分别表示语句习惯参考数集中的若干文字数量，m表示语句习惯参考数集中的数据数量，c1为语句转换参考值，且c1 大于零。

进一步地，所述文字阈值通过文字阈值公式计算得到，所述文字阈值公式配置为：

其中，Ywz为文字阈值，Wz为文字信息的文字总数，Yz为断句后的文字信息的语句总数，d1为文字阈值转换比例，且 d1大于零。

进一步地，所述自适应处理单元配置有自适应处理策略，所述自适应处理策略包括：将用户的语速值和语句习惯数值带入自适应处理公式中求得语音输入相似值；

当输入的语音的语音输入相似值大于两倍的语音阈值时，将该语音标记为其他快速语音；

当输入的语音的语音输入相似值小于一倍的语音阈值时，将该语音标记为其他低速语音；

当输入的语音的语音输入相似值大于等于一倍的语音阈值且小于等于两倍的语音阈值时，将该语音标记为正常识别语音。

进一步地，所述自适应处理公式配置为：Pxs＝k1×Vys+k2×Pyx；其中， Pxs为语音输入相似值，k1为语速转换值，k2为语句习惯转换值，且k1 和k2均大于零。

本发明的有益效果：本发明的自适应处理模块包括语音转换单元、文字划分单元、分析单元以及自适应处理单元，通过语音转换单元能够将用户输入的语音信息先转换成文字信息，通过文字划分单元能够将转换后的文字信息进行独立文字的划分，通过分析单元能够将划分后的独立文字进行分析处理，得到划分后文字信息的参数，最后通过自适应处理单元能够根据划分后的文字信息的参数对用户的语速进行自适应识别处理，从而能够根据不同用户的语速和说话语句习惯进行语音识别，提高识别的精准度，保障语音语义转换的准确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的***与用户端的连接示意图；

图2为本发明的模块原理框图。

图中：1、识别***；11、用户输入模块；12、自适应处理模块；121、语音转换单元；122、文字划分单元；123、分析单元；124、自适应处理单元。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

请参阅图1和图2，一种语音语速自适应识别***，所述识别***1 包括用户输入模块11以及自适应处理模块12；所述用户输入模块11用于用户输入语音信息，用户输入模块11与用户端2通信连接，用户可以通过用户端2输入语音信息；

所述自适应处理模块12包括语音转换单元121、文字划分单元122、分析单元123以及自适应处理单元124；

所述语音转换单元121用于将用户输入的语音信息转换成文字信息；

所述文字划分单元122用于将转换后的文字信息进行独立文字的划分；所述文字划分单元122配置有文字划分策略，所述文字划分策略包括：对文字信息中的文字依次进行标定，再将语音输入以输入的开始时间至结束时间进行时长划定，将标定后的文字依次对应到输入语音的时长中，并将该时长作为该文字的时间标记，用时间标记作为每个文字的划定界限。通过将文字与时间轨迹进行对应，能够便于后续的文字时长的划分处理。

所述分析单元123基于划分后的独立文字进行分析处理，得到划分后文字信息的参数；所述分析单元123配置有语速分析策略，所述语速分析策略包括：获取每两个文字之间的间隔时长，间隔时长通过后一个文字的时间标记减去前一个文字的时间标记，然后将间隔时长放入一个时间间隔数集中；

选取第一时长数集、第二时长数集以及第三时长数集中间隔时长数量最多的一个数集作为语速鉴定数集；语速鉴定数集中的间隔时长的数量最多，也最能代表该用户正常衔接的两个文字之间的语速，因此选取这一数集中的数据进行语速值的计算最为合理。

所述语速公式配置为：

通过对语速鉴定数集中的若干间隔时长进行计算得到语速值能够更加准确的代表该用户的语速状况，表示该用户正常衔接的两个文字之间的时长，其中，Vys为语速值，T1到 Tn分别表示为语速鉴定数集中的若干间隔时长，n为语速鉴定数集中的若干间隔时长的数量，a1为语速值的转换比，且a1大于零。

所述间隔阈值通过间隔阈值公式计算得到，所述间隔阈值公式配置为：

Yjg为间隔阈值，Sz为文字信息中的文字数量，Tz为语音信息的时长，b1为间隔阈值的对应系数，且a1大于零。通过对间隔阈值进行处理计算，间隔阈值基于用户的文字信息中的文字数量和语音信息的时长计算得到，因此间隔阈值的设定并不是一个固定的数值，是根据每个用户不同的特征得到的，因此通过间隔阈值进行划定时更能凸出每个用户的语速特点。

所述分析单元123还配置有语句习惯分析策略，所述语句习惯分析策略包括：获取第三时长数集中的间隔时长，将第三时长数集中的间隔时长作为每段语句的分隔点，然后以分隔点将文字信息进行分句，分别统计每段语句中的文字数量；

将文字数量大于两倍的文字阈值的归集到第三文字数集中；

选取第一文字数集、第二文字数集以及第三文字数集中数据最多的一个作为语句习惯参考数集；语句习惯参考数集中的数据能够更加准确的代表该用户的说话习惯，有些用户习惯说很长一句话后进行停顿没有写用户习惯说几个字就停顿一下，因此这一语速特征也是对该用户进行语音识别的重要参考数据。将语句习惯参考数集中的若干文字数量带入到语句习惯公式中求得语句习惯数值。

所述语句习惯公式配置为：

其中，Pyx为语句习惯数值，Sl1到Slm分别表示语句习惯参考数集中的若干文字数量，m表示语句习惯参考数集中的数据数量，c1为语句转换参考值，且c1大于零。选取语句习惯参考数集的文字数量进行处理计算能够更加精准的代表该用户的语句说话习惯。

所述文字阈值通过文字阈值公式计算得到，所述文字阈值公式配置为：

其中，Ywz为文字阈值，Wz为文字信息的文字总数，Yz为断句后的文字信息的语句总数，d1为文字阈值转换比例，且d1大于零。通过对文字阈值的处理计算，文字阈值基于文字信息的文字总数和断句后的文字信息的语句总数计算得到，该设计能够保证文字阈值是根据每个用户的语句习惯特征得到的，并不是一个固定的数值，因此通过文字阈值进行划分时更能保证划分后的准确性。

所述自适应处理单元124用于根据划分后的文字信息的参数对用户的语速进行自适应识别处理。所述自适应处理单元124配置有自适应处理策略，所述自适应处理策略包括：将用户的语速值和语句习惯数值带入自适应处理公式中求得语音输入相似值；

所述自适应处理公式配置为：Pxs＝k1×Vys+k2×Pyx；其中，Pxs为语音输入相似值，k1为语速转换值，k2为语句习惯转换值，且k1和k2均大于零。语音输入相似值是基于用户的语速值和语句习惯数值计算得到，其中k1表示语速值在语音输入相似值中所占的权重，k2表示语句习惯数值在语音输入相似值中所占的权重，通过对这两个数值的综合考量，能够更加精准的识别该用户的语音，从而提高对该用户语音识别的精准度。

工作原理：用户通过用户输入语音信息将语音进行输入，然后将输入的语音传输至处理模块进行处理，通过语音转换单元121能够将输入的语音信息先转换成文字信息，通过文字划分单元122能够将转换后的文字信息进行独立文字的划分，通过分析单元123能够将划分后的独立文字进行分析处理，得到划分后文字信息的参数，最后通过自适应处理单元124能够根据划分后的文字信息的参数对用户的语速进行自适应识别处理，从而能够根据不同用户的语速和说话语句习惯进行语音识别，提高识别的精准度。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音语速自适应识别***，其特征在于，所述识别***(1)包括用户输入模块(11)以及自适应处理模块(12)；所述用户输入模块(11)用于用户输入语音信息；

所述自适应处理模块(12)包括语音转换单元(121)、文字划分单元(122)、分析单元(123)以及自适应处理单元(124)；

所述语音转换单元(121)用于将用户输入的语音信息转换成文字信息；

所述文字划分单元(122)用于将转换后的文字信息进行独立文字的划分；

所述分析单元(123)基于划分后的独立文字进行分析处理，得到划分后文字信息的参数；

所述自适应处理单元(124)用于根据划分后的文字信息的参数对用户的语速进行自适应识别处理。

2.根据权利要求1所述的一种语音语速自适应识别***，其特征在于，所述文字划分单元(122)配置有文字划分策略，所述文字划分策略包括：对文字信息中的文字依次进行标定，再将语音输入以输入的开始时间至结束时间进行时长划定，将标定后的文字依次对应到输入语音的时长中，并将该时长作为该文字的时间标记，用时间标记作为每个文字的划定界限。

3.根据权利要求2所述的一种语音语速自适应识别***，其特征在于，所述分析单元(123)配置有语速分析策略，所述语速分析策略包括：获取每两个文字之间的间隔时长，间隔时长通过后一个文字的时间标记减去前一个文字的时间标记，然后将间隔时长放入一个时间间隔数集中；

4.根据权利要求3所述的一种语音语速自适应识别***，其特征在于，所述语速公式配置为：

5.根据权利要求3所述的一种语音语速自适应识别***，其特征在于，所述间隔阈值通过间隔阈值公式计算得到，所述间隔阈值公式配置为：

Yjg为间隔阈值，Sz为文字信息中的文字数量，Tz为语音信息的时长，b1为间隔阈值的对应系数，且a1大于零。

6.根据权利要求3所述的一种语音语速自适应识别***，其特征在于，所述分析单元(123)还配置有语句习惯分析策略，所述语句习惯分析策略包括：获取第三时长数集中的间隔时长，将第三时长数集中的间隔时长作为每段语句的分隔点，然后以分隔点将文字信息进行分句，分别统计每段语句中的文字数量；

将文字数量大于两倍的文字阈值的归集到第三文字数集中；

7.根据权利要求6所述的一种语音语速自适应识别***，其特征在于，所述语句习惯公式配置为：

其中，Pyx为语句习惯数值，Sl1到Slm分别表示语句习惯参考数集中的若干文字数量，m表示语句习惯参考数集中的数据数量，c1为语句转换参考值，且c1大于零。

8.根据权利要求6所述的一种语音语速自适应识别***，其特征在于，所述文字阈值通过文字阈值公式计算得到，所述文字阈值公式配置为：

其中，Ywz为文字阈值，Wz为文字信息的文字总数，Yz为断句后的文字信息的语句总数，d1为文字阈值转换比例，且d1大于零。

9.根据权利要求6所述的一种语音语速自适应识别***，其特征在于，所述自适应处理单元(124)配置有自适应处理策略，所述自适应处理策略包括：将用户的语速值和语句习惯数值带入自适应处理公式中求得语音输入相似值；

10.根据权利要求9所述的一种语音语速自适应识别***，其特征在于，所述自适应处理公式配置为：Pxs＝k1×Vys+k2×Pyx；其中，Pxs为语音输入相似值，k1为语速转换值，k2为语句习惯转换值，且k1和k2均大于零。