CN111341300A

CN111341300A - 一种获取语音比对音素的方法、装置和设备

Info

Publication number: CN111341300A
Application number: CN202010130582.0A
Authority: CN
Inventors: 郑琳琳
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26
Anticipated expiration: 2040-02-28
Also published as: CN111341300B

Abstract

本申请公开了一种获取语音比对音素的方法、装置和设备，包括：获取检材语音和样本语音；将检材语音转换为第一文字语句，将样本语音转换为第二文字语句；获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法，利用文字语句语法的方式来获取优质比对音素，省去了使用语音图谱或声纹特征比对来寻在同一音素的过程，比对过程简单化，提高了效率，解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂，效率低下的技术问题。

Description

一种获取语音比对音素的方法、装置和设备

技术领域

本申请涉及语音鉴定技术领域，尤其涉及一种获取语音比对音素的方法、装置和设备。

背景技术

在进行语音鉴定的时候，判断是同一人的一个重要标准就是找到10对可供比对的音素，每对音素需要有3条以上的共振峰，且整体符合率超过90％，在比对一组音素的时候，主要看共振峰的中心频率，若两个音素的4条共振峰频率满足F1小于12％，F2小于9％，F3在5～6％之间，F4在5～6％之间，则可认为该音素是同一人发音。目前用于获取比对音素的方法是找出与目标语音的声纹图谱或声纹特征最接近的待比对语音的音素作为比对音素，比对音素的获取过程复杂，效率低下。

发明内容

本申请提供了一种获取语音比对音素的方法、装置和设备，用于解决现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂，效率低下的技术问题。

有鉴于此，本申请第一方面提供了一种获取语音比对音素的方法，包括：

获取检材语音和样本语音；

将所述检材语音转换为第一文字语句，将所述样本语音转换为第二文字语句；

获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。

可选地，所述获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素，包括：

根据预置排列优先级排列出所述第一文字语句和所述第二文字语句的可供比对音素，将优先级最高的相同音素作为优质比对音素。

可选地，所述预置排列优先级为：

第一级：同一语句的同一词组的同一音节的同一音素；

第二级：不同语句的同一词组的同一音节的同一音素；

第三级：不同语句的不同词组的同一音节的同一音素；

第四级：不同语句的不同词组的不同音节的同一音素；

第五级：不同语句的不同词组的不同音节的同一音素。

可选地，所述将所述检材语音转换为第一文字语句，将所述样本语音转换为第二文字语句，包括：

通过ASR将所述检材语音转换为第一文字语句，将所述样本语音转换为第二文字语句。

本申请第二方面提供了一种获取语音比对音素的装置，包括：

语音获取单元，用于获取检材语音和样本语音；

转换单元，用于将所述检材语音转换为第一文字语句，将所述样本语音转换为第二文字语句；

音素获取单元，用于获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素。

可选地，所述音素获取单元，具体用于：

可选地，所述预置排列优先级为：

第一级：同一语句的同一词组的同一音节的同一音素；

第二级：不同语句的同一词组的同一音节的同一音素；

第三级：不同语句的不同词组的同一音节的同一音素；

第四级：不同语句的不同词组的不同音节的同一音素；

第五级：不同语句的不同词组的不同音节的同一音素。

可选地，所述转换单元具体用于：

本申请第三方面提供了一种获取语音比对音素的设备，所述设备包括处理器和存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的获取语音比对音素的方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一种所述的获取语音比对音素的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种获取语音比对音素的方法，包括：获取检材语音和样本语音；将检材语音转换为第一文字语句，将样本语音转换为第二文字语句；获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法，利用文字语句语法的方式来获取优质比对音素，省去了使用语音图谱或声纹特征比对来寻在同一音素的过程，比对过程简单化，提高了效率，解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂，效率低下的技术问题。

附图说明

图1为本申请实施例中提供的一种获取语音比对音素的方法的一个流程示意图；

图2为本申请实施例中提供的一种获取语音比对音素的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供了一种获取语音比对音素的方法的一个实施例，包括：

步骤101、获取检材语音和样本语音。

需要说明的是，本申请实施例中，首先需要获取到检材语音和样本语音，检材语音可以是嫌疑人的语音，样本语音可以是通过办案人员要求或者引导嫌疑人说出的语音材料，若是和检材语音一模一样的语音材料，则是比对样本，由于内容一致，所以比对样本是最好的比对材料；若嫌疑人不配合，则引导嫌疑人说出相同的重点词组，所得到的语音样本为自由样本。

步骤102、将检材语音转换为第一文字语句，将样本语音转换为第二文字语句。

步骤103、获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。

需要说明的是，ASR(Automatic Speech Recognition，自动语音识别)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，本申请实施例中利用ASR语音识别技术将检材语音转换为第一文字语句，将样本语音转换为第二文字语句。例如，找出检查语音中的“我去吃饭了”，找出样本语音中的“我去吃饭了”，定位到检材语音中的【吃饭】和样本语音中的【吃饭】，【an】来自检材语音与样本语音中相同语句中的相同词组中的【饭】，所以【an】是最优质的比对音素。

本申请实施例中提供的一种获取语音比对音素的方法，包括：获取检材语音和样本语音；将检材语音转换为第一文字语句，将样本语音转换为第二文字语句；获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。本申请中提供的获取语音比对音素的方法，利用文字语句语法的方式来获取优质比对音素，省去了使用语音图谱或声纹特征比对来寻在同一音素的过程，比对过程简单化，提高了效率，解决了现有的通过找出语音图谱或声纹特征最接近的音素的方式获取过程复杂，效率低下的技术问题。

需要说明的是，本申请实施例中的获取第一文字语句和第二文字语句中的相同音素作为优质比对音素的一个具体的实施方式可以是，根据预置排列优先级排列出第一文字语句和第二文字语句的可供比对音素，将优先级最高的相同音素作为优质比对音素，优先级的排列顺序可以为：同一语句的同一词组的同一音素>同一词组的同一音素>同一字的同一音素>同一音节的同一音素>不同音节的同一音素>不同音节的同一音素(不同的国际音标)，即：

第一级：同一语句的同一词组的同一音节的同一音素(相同发音位置)；

第二级：不同语句的同一词组的同一音节的同一音素(相同发音位置)；

第三级：不同语句的不同词组的同一音节的同一音素(相同发音位置)；

第四级：不同语句的不同词组的不同音节的同一音素(相同发音位置)；

第五级：不同语句的不同词组的不同音节的同一音素(不同发音位置，由于发音位置不同，音素的国际音标就不一样)。

以音素【i】为例：

第一级：同一语句的同一词组的同一音节的同一音素(相同发音位置)

检材：他很机[i]智

样本：他很机[i]智

第二级：不同语句的同一词组的同一音节的同一音素(相同发音位置)

检材：他很机[i]智

样本：幸亏我机[i]智

第三级：不同语句的不同词组的同一音节的同一音素(相同发音位置)

检材：他很机[i]智

样本：我使用手机[i]

检材：他很机[i]智

样本：很多人欺[i]负他

第五级：不同语句的不同词组的不同音节的同一音素(不同发音位置，由于发音位置不同，音素的国际音标就不一样)

检材：他很机[i]智

样本：学到很多知[i]识。

为了便于理解，请参阅图2，本申请中提供了一种获取语音比对音素的装置的实施例，包括：

语音获取单元，用于获取检材语音和样本语音；

转换单元，用于将检材语音转换为第一文字语句，将样本语音转换为第二文字语句；

音素获取单元，用于获取第一文字语句和第二文字语句中的相同音素作为优质比对音素。

进一步地，音素获取单元，具体用于：

根据预置排列优先级排列出第一文字语句和第二文字语句的可供比对音素，将优先级最高的相同音素作为优质比对音素。

进一步地，预置排列优先级为：

第一级：同一语句的同一词组的同一音节的同一音素；

第二级：不同语句的同一词组的同一音节的同一音素；

第三级：不同语句的不同词组的同一音节的同一音素；

第四级：不同语句的不同词组的不同音节的同一音素；

第五级：不同语句的不同词组的不同音节的同一音素。

进一步地，转换单元具体用于：

通过ASR将检材语音转换为第一文字语句，将样本语音转换为第二文字语句。

本申请中提供了一种获取语音比对音素的设备的实施例，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述的获取语音比对音素的方法实施例中的获取语音比对音素的方法。

本申请中提供了一种计算机可读存储介质的实施例，计算机可读存储介质用于存储程序代码，程序代码用于执行前述的获取语音比对音素的方法实施例中的获取语音比对音素的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机***(可以是个人计算机，服务器，或者网络***等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种获取语音比对音素的方法，其特征在于，包括：

获取检材语音和样本语音；

2.根据权利要求1所述的获取语音比对音素的方法，其特征在于，所述获取所述第一文字语句和所述第二文字语句中的相同音素作为优质比对音素，包括：

3.根据权利要求2所述的获取语音比对音素的方法，其特征在于，所述预置排列优先级为：

第一级：同一语句的同一词组的同一音节的同一音素；

第二级：不同语句的同一词组的同一音节的同一音素；

第三级：不同语句的不同词组的同一音节的同一音素；

第四级：不同语句的不同词组的不同音节的同一音素；

第五级：不同语句的不同词组的不同音节的同一音素。

4.根据权利要求1所述的获取语音比对音素的方法，其特征在于，所述将所述检材语音转换为第一文字语句，将所述样本语音转换为第二文字语句，包括：

5.一种获取语音比对音素的装置，其特征在于，包括：

语音获取单元，用于获取检材语音和样本语音；

6.根据权利要求5所述的获取语音比对音素的装置，其特征在于，所述音素获取单元，具体用于：

7.根据权利要求6所述的获取语音比对音素的装置，其特征在于，所述预置排列优先级为：

第一级：同一语句的同一词组的同一音节的同一音素；

第二级：不同语句的同一词组的同一音节的同一音素；

第三级：不同语句的不同词组的同一音节的同一音素；

第四级：不同语句的不同词组的不同音节的同一音素；

第五级：不同语句的不同词组的不同音节的同一音素。

8.根据权利要求7所述的获取语音比对音素的装置，其特征在于，所述转换单元具体用于：

9.一种获取语音比对音素的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的获取语音比对音素的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的获取语音比对音素的方法。