CN112397072B

CN112397072B - 语音检测方法、装置、电子设备及存储介质

Info

Publication number: CN112397072B
Application number: CN202110059175.XA
Authority: CN
Inventors: 彭子娇
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-30
Anticipated expiration: 2041-01-18
Also published as: CN112397072A

Abstract

本申请公开了一种语音检测方法、装置、电子设备以及存储介质。该方法包括：获取待检测语音，所述待检测语音为对播放的引导语音进行跟读得到的语音，对所述待检测语音的语音特征以及所述引导语音的语音特征进行相似度计算，得到所述待检测语音的相似度计算结果，所述语音特征包括时域特征和频域特征中的至少一种，对所述待检测语音进行活体检测，得到所述待检测语音的活体检测结果，根据所述相似度计算结果以及所述活体检测结果，确定所述待检测语音是否异常。该方法可以提高语音检测的准确性。

Description

语音检测方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体地，涉及一种语音检测方法、装置、电子设备及存储介质。

背景技术

在生物识别过程中，为提高整体流程的安全性能，很多场景下都需要对语音进行检测，其中，防录音攻击检测是语音检测中的一个重要检测项，然而相关技术中，对语音进行防录音攻击检测的方法存在检测准确度低的问题。

发明内容

鉴于上述问题，本发明提出了一种语音检测方法、装置、电子设备以及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种语音检测方法，该方法包括：获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音；对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种；对待检测语音进行活体检测，得到待检测语音的活体检测结果；根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

第二方面，本申请实施例提供了一种语音检测装置，该装置包括：待检测语音获取模块、相似度计算模块、活体检测模块以及异常检测模块。其中，待检测语音获取模块，用于获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音；相似度计算模块，用于对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种；活体检测模块，用于对待检测语音进行活体检测，得到待检测语音的活体检测结果；异常检测模块，用于根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。

本申请提供的一种语音检测方法、装置、电子设备以及存储介质，通过获取对播放的引导语音进行跟读得到待检测语音，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，以及对待检测语音进行活体检测，得到待检测语音的活体检测结果，语音特征包括时域特征和频域特征中的至少一种，根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。由于在待检测语音的活体检测结果的基础上，结合待检测语音的相似度计算结果，且待检测语音的相似度计算结果是对待检测语音的语音特征以及引导语音的语音特征进行相似度计算得到的，而语音特征包括时域特征和频域特征中的至少一种，与传统的活体检测方法不同，因此可以从多个角度对语音检测结果进行综合判断，避免仅由单一活体检测结果判断语音是否异常，可以改善录制音频接近人声的音频设备对语音检测结果的影响，进而提高了语音检测判断的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提出的语音检测方法流程图。

图2示出了本申请另一个实施例提出的语音检测方法流程图。

图3示出了图2所示实施例提出的一种语音检测方法中S220的一种实施方式的流程图。

图4示出了图3所示实施例提出的一种语音检测方法中S222的一种实施方式的流程图。

图5示出了图2所示实施例提出的一种语音检测方法中S240的一种实施方式的流程图。

图6示出了本申请另一个实施例提出的语音检测方法流程图。

图7示出了本申请另一个实施例提出的语音检测方法流程图。

图8示出了本申请一个实施例提出的语音检测装置的框图。

图9是本申请实施例的用于执行根据本申请实施例的语音检测方法的电子设备的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的语音检测方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在一些安全级别较高的场景中，例如银行软件登录、公积金账户登录等场景中，为提高整体流程的安全性能，逐渐采用语音验证的方式来代替文字密码或者手势密码验证。相较于传统的文字密码或者手势密码，语音能够反映更多的验证信息。对语音进行验证的过程实质上是对语音进行异常检测的过程。

由于语音能够反映更多的验证信息，因此就需要对语音进行多项检测，其中，常见的检测项例如声纹识别、防录音攻击识别、语音内容识别等。

相关技术中，通常采用活体检测的方式来进行防录音攻击识别。随着科技的发展，现在市面上的录音采集设备质量从低到高都有。一般录音设备播放出来的录音受限于扬声器的质量及频响特性，与真人声音有一定的差异，因此活体检测相对容易一些，准确度也比较高。但是例如人工嘴这类设备，其具有低失真、高稳定性的特点，这类设备录制的音频更接近人声。

在一些可能的场景中，不法分子可以通过电话或者面对面的方式引诱用户说出特殊文字或者数字，然后采用上述设备对这些数字进行录制，接着再选择录制的文字或者数字进行任意组合合成以及平滑处理，即可以模仿得到该用户的其他语音。这些语音与用户真人说出的语音差异特别小。这无疑增加了对语音进行活体检测的检测难度，在语音检测的防录音攻击识别这一检测项中不能准确识别语音是否异常，降低了对语音进行防录音攻击检测的准确度。

为了改善上述问题，发明人提出了本申请提供的语音检测方法、装置、电子设备及存储介质，先获取对播放的引导语音进行跟读得到待检测语音，接着对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，以及对待检测语音进行活体检测，得到待检测语音的活体检测结果，语音特征包括时域特征和频域特征中的至少一种，最后便可以根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

从而通过前述方式，可以在待检测语音的活体检测结果的基础上，结合待检测语音的相似度计算结果，由于待检测语音的相似度计算结果是对待检测语音的语音特征以及引导语音的语音特征进行相似度计算得到的，并且本申请中的语音特征包括时域特征和频域特征中的至少一种，与传统的活体检测过程中获取的特征不同，因此可以从多个角度对语音检测结果进行综合判断，避免仅由单一活体检测结果判断语音是否异常，可以改善录制音频接近人声的音频设备对语音检测结果的影响，进而提高了语音检测判断的准确性。

下面针对本发明实施提供的语音检测方法的应用环境进行介绍：

本发明实施提供的语音检测方法可以单独由终端设备执行，也可以单独由服务器执行，当然，也可以部分由终端执行，部分由服务器执行。

需要说明的是，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN( Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以为智能手机外、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

此外，当该语音检测方法部分由终端执行，部分由服务器执行时，终端和服务器可以基于有线网络或者无线网络通信连接。

下面将结合附图具体描述本申请的各实施例。

请参阅图1，图1所示为本申请一实施例提出的一种语音检测方法的流程图，该方法包括：

S110，获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音。

待检测语音为后续将进行语音是否异常检测的语音。因此，为了后续能够对待检测语音进行检测，首先需要获取到待检测语音。其中，待检测语音可以包括多种情况。

在语音验证过程中，通常包括语音采集流程以及语音验证流程，其中，正常情况下的语音采集流程的步骤是终端设备先向用户播放一段音频，该音频用于引导用户进行跟读，该音频即可以理解为引导语音。用户在听到引导语音之后，重复出与引导语音相同内容的语音，被终端采集，至此完成语音采集流程，该被采集的语音即为待检测语音，进而再将待检测语音进行后续的语音验证流程。

然而在实际中，由于存在不法分子代替语音验证的情况，因此，终端设备在向用户播放引导语音之后，该用户为不法分子，不法分子可以使用录音设备提前录制并合成的语音代替真实用户重复出与引导语音相同内容的语音，此时，终端设备采集到的语音即为录制的语音，该被采集的语音也为待检测语音。

需要说明的是，当本发明实施提供的语音检测方法单独由终端设备执行时，终端设备获取的待检测语音是终端设备自身在播放引导语音之后采集得到的语音。当本发明实施提供的语音检测方法单独由服务器执行或者部分由终端执行，部分由服务器执行时，服务器获取的待检测语音均是终端设备在播放引导语音并采集得到待检测语音之后，发送到服务器的。

其中，客户端播放的引导语音可以有多种获取方式。

作为一种方式，可以预先设置一个引导语音集合，该集合中存储有多种提前设置好的引导语音，并且每种引导语音的语音特征是随机设置的，当客户端需要播放引导语音的时候，可以从引导语音集合中随机选择一种引导语音进行播放。其中，该引导语音集合可以存储于客户端，也可以存储于服务器。通过在引导语音集合中设置多种引导语音，并在语音验证时随机选择一种进行播放，可以使得客户端播放的引导语音具有多样性，避免使用单一引导语音而存在易于被不法分子重复的问题，提高了非法用户利用录音设备模仿的难度。

作为另外一种方式，引导语音也可以是临时生成的，即客户端每次需要播放引导语音的时候，都临时生成一条引导语音。其中，生成引导语音的过程可以在客户端执行，也可以在服务器执行。

作为一种方式，引导语音的语音特征基于特征选择规则以及语音特征集合得到，语音特征集合包括时域特征以及频域特征。

本实施例中，语音特征集合中包括了多种语音固有的语音特征。例如，语速、两个发音字之间的静音时间、音量、频率等语音特征。特征选择规则是用于选择语音特征的规则。

可以理解的是，传统的语音验证功能中的引导语音在多次语音验证中，其对应的语音特征均是相同的，不会发生改变，这就使得不法分子容易合成模仿，增加了语音检测的难度，同时降低了语音检测的准确度。而本实施例中的引导语音是基于特征选择规则以及语音特征集合得到，由于存在语音特征集合，这就使得基于特征选择规则可以从语音特征集合中获取到不同的语音特征，来改变每条引导语音的语音特征，从而使得各条引导语音之间的语音特征不同，使得引导语音是变化的，不法分子不能提前合成引导语音，增加了不法分子模仿的难度，不法分子很难模仿出与引导语音相似的语音，对应的就增加了语音检测的准确性。

S120，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种。

在获取到待检测语音后，便可以基于待检测语音获取待检测语音的语音特征，以及基于引导语音获取引导语音的语音特征。

具体地，可以对待检测语音以及引导语音分别进行语音特征提取的方式获得各自的语音特征。作为一种方式，可以将待检测语音以及引导语音分别以时域以及频域的方式进行分析，然后再基于时域以及频域得到待检测语音的语音特征以及引导语音的语音特征。其中，可以基于时域分析得到的语音特征即为时域特征，例如，语速、两个发音字之间的静音时间等，而可以基于频域分析得到的语音特征即为频域特征，例如音量、频率等。

其中，由于时域特征以及频域特征均各自包括多种语音特征，因此，语音特征包括时域特征和频域特征中的至少一种是指时域特征包括的多种语音特征以及频域特征包括的多种语音特征组成的整体中的至少一种。即语音特征包括语速、两个发音字之间的静音时间、音量、频率等中的至少一种。

在获取到待检测语音以及引导语音各自的语音特征之后，便可以对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果。

需要注意的是，该相似度计算过程中，是将同一类型的语音特征进行相似度计算，例如，当语音特征仅包括语速时，是将待检测语音的语速这个语音特征与引导语音的语速这个语音特征进行相似度计算。又例如，当语音特征包括语速和音量时，是分别将待检测语音的语速这个语音特征与引导语音的语速这个语音特征进行相似度得到一个计算结果，将待检测语音的音量这个语音特征与引导语音的音量这个语音特征进行相似度得到另一个计算结果，然后再根据这两个计算结果得到待检测语音的相似度计算结果。可选地，可以将两个计算结果直接进行求平均处理，从而将平均值作为待检测语音的相似度计算结果；可选地，也可以直接两个计算结果根据预设的权重系数进行加权求平均处理，从而将平均值作为待检测语音的相似度计算结果，加权求平均处理能够进一步考虑到各类语音特征对于待检测语音的相似度计算结果的影响程度。提高相似度计算的准确度。例如，对于相对较容易被模仿的语音特征的类型，可以设置相对较低的权重系数，使得即使被模仿出来，也可以降低对待检测语音的相似度计算结果的影响，而对于相对较难被模仿的语音特征的类型，则可以设置相对较高的权重系数。示例地，以语音特征包括语速和音量为例，相较于语速，音量是更容易被模仿的，因此，可以设置音量对应的权重系数为0.45，语速对应的权重系数为0.55。

S130，对待检测语音进行活体检测，得到待检测语音的活体检测结果。

本实施例中，为了进一步提高语音检测的准确度，除了待检测语音的相似度计算结果之外，还可以结合待检测语音的活体检测结果。

作为一种方式，可以采用神经网络模型来对待检测语音进行活体检测。具体地，可以利用一个二分类的活体检测模型来对待检测语音进行活体检测，将待检测语音输入至活体检测模型，得到活体检测模型的输出结果，即待检测语音是否为活体，若是活体，则表明待检测语音在活体检测这一项中检测为正常语音，即不是音频设备录制合成并发出的语音，若不是活体，则表明待检测语音在活体检测这一项中检测为异常语音，即为音频设备录制合成并发出的语音。作为一种方式，活体检测模型输出的结果还可以包括该结果对应的活体检测分数。该活体检测分数表征待检测语音在活体检测这一项是否是异常的概率。

S140，根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

在获得相似度计算结果以及活体检测结果之后，便可以综合根据两种结果确定待检测语音的防录音攻击检测这一项是否异常。

作为一种方式，可以预先设置相似度计算结果以及活体检测结果分别对于待检测语音的影响程度的大小，然后根据两种结果各自的影响程度的大小分配权重，进而根据权重、相似度计算结果以及活体检测结果，确定待检测语音是否异常。

本申请提供的一种语音检测方法，通过获取对播放的引导语音进行跟读得到待检测语音，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，以及对待检测语音进行活体检测，得到待检测语音的活体检测结果，语音特征包括时域特征和频域特征中的至少一种，根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。由于在待检测语音的活体检测结果的基础上，结合待检测语音的相似度计算结果，且待检测语音的相似度计算结果是对待检测语音的语音特征以及引导语音的语音特征进行相似度计算得到的，而语音特征包括时域特征和频域特征中的至少一种，与传统的活体检测方法不同，因此可以从多个角度对语音检测结果进行综合判断，避免仅由单一活体检测结果判断语音是否异常，可以改善录制音频接近人声的音频设备对语音检测结果的影响，进而提高了语音检测判断的准确性。

请参阅图2，本申请另一实施例提出的一种语音检测方法，该方法可以包括：

S210，响应于语音验证请求，获取验证文本。

实际中，用户在语音验证开始之前，通常会发起语音验证请求。例如点击终端上显示的“开始语音验证”控件，从而发起语音验证请求。终端在接收到语音验证请求之后，便可以响应于该语音验证请求，获取用于用户进行跟读的引导语音，以便用户进行跟读，并在用户跟读之后，采集到待检测语音。

若该步骤在服务器执行，终端在接收到语音验证请求之后，可以将该语音验证请求发送到服务器，再由服务器进行响应，并获取验证文本。

本实施例中，引导语音是临时生成的。而验证文本可以理解为引导语音实际表达的内容所对应的文本。因此，为了生成引导语音，可以先获取验证文本，然后再根据验证文本合成引导语音。

在一些实施方式中，验证文本可以是固定不变的。在另一些实施方式中，验证文本也可以是随机生成的，随机生成验证文本可以增加引导语音在语音内容上的丰富性，提高非法用户利用录音设备模仿的难度。

此外，为了进一步提高不法分子利用录音设备模仿的难度，在一些实施方式中，验证文本还可以由一些生活中不常用的词汇组成。这是因为，不法分子在引诱正常用户说出特殊文字的时候，不容易引诱正常用户说出不常用的词汇，使得不法分子录音难度增加，进而提高非法用户利用音频设备模仿的难度。

S220，对验证文本进行语音转换处理，生成引导语音。

在获得了验证文本之后，为了生成引导语音，可以对验证文本进行语音转换处理，从而生成引导语音。该过程主要经过语言分析***以及声学***两个部分处理。其中，语言分析***主要用于对验证文本进行分析，分析验证文本的原始发音，声学***主要用于对原始发音进行语音特征的处理，得到具有不同语音特征的引导语音。其中，验证文本的原始发音可以理解为对验证文本对应的语音特征进行初始化数据后的得到的语音的发音，例如传统语音验证功能中的平滑、规律性的发音。

作为一种方式，如图3所示，对验证文本进行语音转换处理，生成引导语音，包括：

S221，对验证文本进行分词处理，得到验证文本包括的各个文本片段。

在获取到验证文本之后，可以将验证文本拆分成多个部分，而其中每一个部分被作为一个文本片段。其中，一个文本片段可以是单独的一个字，也可以是一个词语。

S222，基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征。

可以理解的是，传统的语音验证功能中的引导语音，是平滑、匀速、规律性且念读变化性小的语音，也就是说传统的语音验证功能中的同一引导语音的各个文本片段的发音之间不具备语音特征多样性的特点，各个文本片段的语音特征对应的数据相同，从而易于被不法分子合成模仿。而本实施例中，可以基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征，这就使得不同的文本片段可以从语音特征集合中获取到不同的语音特征，从而使得同一条引导语音的各个文本片段之间的语音特征不同，使得同一条引导语音不再是平滑、匀速、规律性的，具有念读变化性大的特点，进而不易被不法分子直接通过对真实用户说出的特殊文字或者数字进行录制，再选择录制的文字或者数字进行任意组合合成以及平滑处理合成得到，即不易被不法分子合成模仿。

由于语音特征是语音的固有属性，因此，每条引导语音均具有所有的语音特征，只不过这些语音特征均被初始化，本申请从语音特征集合中获取的目标语音特征可以理解为对初始化的语音特征进行修改的语音特征。例如，某条引导语音对应的验证文本为“1234”，其中1、2、3以及4分别是一个文本片段，每个文本片段均具有语速、两个发音字之间的静音时间、音量、频率等语音特征，这些特征均被初始化，且每个文本片段均被初始化为相同的数据。假设基于特征选择规则以及语音特征集合得到了文本片段1的语音特征为两个发音字之间的静音时间，文本片段2的语音特征为两个发音字之间的静音时间，文本片段3的语音特征为音量，文本片段4的语音特征为音量，那么就修改文本片段1对应的两个发音字之间的静音时间这个语音特征，文本片段2对应的两个发音字之间的静音时间这个语音特征，文本片段3对应的音量这个语音特征，以及文本片段4对应的音量这个语音特征，从而得到的同一条引导语音中具有不同的语音特征，以使后续生成的同一条引导语音可以不是平滑、匀速、规律性的，进而生成念读变化性大的引导语音。

某个文本片段对应的语音特征的具体数值可以通过随机的方式确定。

通过基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征。由于是从语音特征集合，确定各个文本片段对应的目标语音特征，增加了同一条引导语音的各个文本片段的语音特征的丰富性，如此，使得最终得到的引导语音中的各个文字或者数字的读音之间具有较大差异，不法分子很难合成。如果待检测语音是不法分子合成的语音，由于合成语音的特点，将待检测语音的语音特征与引导语音的语音特征进行相似度计算，得到的相似度计算结果较小，容易区分出待检测语音为异常语音，也提高了语音检测的准确性。

作为一种方式，如图4所示，基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征，包括：

S2221，在验证文本的内容包括数字时，基于各个数字之间的排列顺序或者各个数字的发音类型，从语音特征集合中确定各个数字对应的目标语音特征。

在实际中，考虑到数字与数字之间在发音时，容易出现吞音或者发音能量低等情况，从而造成语音信息不明确，使得用户跟读困难，进而可能造成即使是真实用户的语音，最终的待检测语音也与引导语音相似度较小。因此，可以在验证文本的内容为纯数字时，基于各个数字之间的排列顺序或者各个数字的发音类型，从语音特征集合中确定各个数字对应的目标语音特征。在确定各个数字对应的目标语音特征为语速之后，便可以根据需要改变各个数字的语音特征的具体大小。

可选地，当数字的发音类型为单韵母以及复韵母发音时，着重拉长音，即考虑变慢该数字发音时的语速。因此，可以确定发音类型为单韵母以及复韵母发音的数字对应的目标语音特征为语速。在确定各个数字对应的目标语音特征为语速之后，便可以根据需要增加各个数字的语速。

可选地，当数字5出现在2、9、6三个数字后面的相邻位时。加长前位数字与数字5之间的静音时间，并且着重加强5的发音时间与语调。因此，可以确定当各个数字之间的排列顺序为：5排列在2、9或者6三个数字后面的相邻位时，数字5的目标语音特征为两个发音字之间的静音时间、语速以及语调。在这种情况下，确定数字5对应的目标语音特征为语速之后，便可以根据需要增加数字5与数字2、9或者6之间的静音时间，降低数字5的语速，以及增加数字5的语调。

可选地，当数字2出现在数字8或5后面的相邻位，加长前位数字与数字2之间的静音时间，并且着重加强数字2的发音时间与语调。因此，可以确定当各个数字之间的排列顺序为：2排列在8或者5两个数字后面的相邻位时，数字2的目标语音特征为两个发音字之间的静音时间、语速以及语调。在这种情况下，确定数字2对应的目标语音特征为语速之后，便可以根据需要增加数字2与数字8或者5之间的静音时间，降低数字2的语速，以及增加数字2的语调。

可选地，当数字1出现在数字0或7后面的相邻位时，加长前位数字与数字1之间的静音时间，并且着重加强1的发音时间与语调。因此，可以确定当各个数字之间的排列顺序为：1排列在0或者7两个数字后面的相邻位时，数字1的目标语音特征为两个发音字之间的静音时间、语速以及语调。在这种情况下，确定数字1对应的目标语音特征为语速之后，便可以根据需要增加数字1与数字0或者7之间的静音时间，降低数字1的语速，以及增加数字1的语调。

S2222，在验证文本的内容不包括数字时，从语音特征集合中随机确定各个文本片段对应的目标语音特征。

若验证文本的内容不包括数字，则不会出现吞音或者发音能量低等情况，因此，此时，可以从语音特征集合中随机确定各个文本片段对应的目标语音特征。

由于文本片段对应的目标语音特征是从语音特征集合中随机确定的，因此，生成的引导语音也是随机生成的，这就使得引导语音可以具备非匀速、念读变化性大等特点，可以降低规律性产生的语音可能存在攻击漏洞。

本实施例中，通过对验证文本的内容进行区分，并且在验证文本的内容包括数字以及不包括数字时，分别采用不同的特征选择规则，确定验证文本包括的各个文本片段的目标语音特征，能够充分考虑数字发音之间可能出现的吞音或者发音能量低等情况，避免造成引导语音表达的信息不明确，造成用户跟读困难，影响待检测语音与引导语音相似度的问题。此外，由于是从语音特征集合，确定各个文本片段对应的目标语音特征，增加了语音特征的丰富性，如此，使得最终得到的引导语音中的各个文字或者数字的读音之间具有较大差异，不法分子很难合成，降低了语音检测的难度，同时也提高了语音检测的准确性。

S223，根据文本片段以及对应的目标语音特征，生成引导语音。

在得到文本片段对应的目标语音特征之后，便可以修改文本片段对应的这项目标语音特征，从而增加文本片段发音多样性，使得生成的引导语音具有非匀速、念读变化性大等特点，提高了引导语音与不法分子合成的语音之间的差异性，使得更加容易区分出待检测语音为异常语音，也提高了语音检测的准确性。

S230，获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音。

S240，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种。

结合前述内容可知，对验证文本进行分词处理后，可以得到验证文本包括的各个文本片段，在这种情况下，作为一种方式，如图5所示，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，包括：

S241，获取待检测语音包括的各个待检测文本片段对应的待检测语音特征。

S242，获取引导语音包括的各个引导文本片段对应的引导语音特征。

可以理解的是，每段语音均是由多个文本片段的音频构成的。因此，在考虑每段语音的语音特征的时候，可以进一步考虑每段语音片段中各个文本片段对应的语音特征。其中，待检测语音特征可以理解为待检测语音包括的各个文本片段各自对应的语音特征。引导语音特征可以理解为引导语音包括的各个文本片段各自对应的语音特征。

可以理解的是，语音特征只是表明了文本片段在哪个语音特征中进行了修改，为了能够计算语音特征之间的相似度，作为一种实施方式，可以获取到各个语音特征对应具体数据。例如，音量这个语音特征对应的具体音量大小，或者语速这个语音特征对应的具体语速快慢等。因此，在获取到待检测语音以及引导语音之后，可以进一步获取待检测语音包括的各个待检测文本片段对应的待检测语音特征的数据，以及引导语音包括的各个引导文本片段对应的引导语音特征数值。

作为一种方式，可以通过将待检测语音特征以及引导语音特征分别以时域以及频域的方式进行分析，然后从时域图或者频域图中获取待检测语音特征的数据以及引导语音特征的数据。例如，对于待检测语音特征为待检测语音中的两个发音字之间的静音时间这个语音特征，可以从时域波形出发，对待检测语音与引导语音进行比对，即获取每个文本片段的时间点对齐结果，根据时间点对齐结果确定各个文本片段之间的静音时间。

S243，对待检测文本片段对应的待检测语音特征，以及匹配的引导文本片段对应的引导语音特征进行相似度计算，得到各个待检测文本片段的语音特征的相似度。

可以理解的是，为了尽可能的通过语音验证，不管是非法分子合成的待检测语音，还是真实用户实际说出的待检测语音，这两种情况下的待检测语音的包括的文本的内容与引导语音包括的文本内容是相同的，例如，引导语音为123321，那么待检测语音也应该是123321。

本实施例中，在对待检测文本片段对应的待检测语音特征以及引导文本片段对应的引导语音特征进行相似度计算的时候，需要采用相互匹配的文本片段，因为不同的文本片段其拥有的语音特征原本就可能是不相同的，且语音特征也是不相同的，这样即使是真实用户说出的语音，也不能通过语音验证。其中，相互匹配可以理解为用于相似度计算的两个文本片段的内容相同，且两个文本片段在待检测语音中的位置以及引导语音中的位置也相同。

例如，假设引导语音为123321，待检测语音为123321，在将待检测语音中的文本片段与引导语音中的文本片段进行相似度计算的时候，引导语音中的第一个文本片段“1”只能与待检测语音中的第一个文本片段“1”进行相似度计算，而不能与待检测语音中的第六个文本片段“1”进行相似度计算。

经过相似度计算之后，可以得到各个待检测文本片段与匹配的引导文本片段的相似度，即得到各个待检测文本片段的语音特征的相似度。

S244，基于各个待检测文本片段的语音特征的相似度，得到待检测语音的相似度计算结果。

可以理解的是，前述步骤得到的仅仅是各个待检测文本片段的语音特征的相似度，为了后续能够根据待检测语音的相似度计算结果以及活体检测结果，确定待检测语音是否异常，还需要基于各个待检测文本片段的语音特征的相似度，得到待检测语音的相似度计算结果。

其中，基于各个待检测文本片段的语音特征的相似度，得到待检测语音的相似度计算结果，可以有多种方式。

作为一种方式，可以从所有待检测文本片段的语音特征的相似度中选择相似度最小的一个，作为待检测语音的相似度计算结果。

作为另外一种方式，可以将所有待检测文本片段的语音特征的相似度的平均值，作为待检测语音的相似度计算结果。

S250，对待检测语音进行活体检测，得到待检测语音的活体检测结果。

S260，根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

本实施例提供的一种语音检测方法，通过基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征，再根据文本片段以及对应的目标语音特征，生成引导语音。由于是从语音特征集合，确定各个文本片段对应的目标语音特征，增加了同一条引导语音的各个文本片段的语音特征的丰富性，如此，使得最终得到的引导语音中的各个文字或者数字的读音之间具有较大差异，不法分子很难合成。如果待检测语音是不法分子合成的语音，由于合成语音的特点，将待检测语音的语音特征与引导语音的语音特征进行相似度计算，得到的相似度计算结果较小，容易区分出待检测语音为异常语音，也提高了语音检测的准确性。

请参阅图6，本申请另一实施例提出的一种语音检测方法，该方法可以包括：

S310，获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音。

S320，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种。

S330，对待检测语音进行活体检测，得到待检测语音的活体检测结果。

S340，获取待检测语音的相似度计算结果包括的相似度分数以及活体检测结果包括的活体检测分数。

作为一种实施方式，待检测语音的相似度计算结果可以以相似度分数的形式表示，相似度分数越高，表明在相似度检测这一项中，待检测语音为正常语音的可能性越大，而待检测语音的活体检测结果可以以活体检测分数的形式进行表示，同样地，活体检测分数越高，表明在活体检测这一项中，待检测语音为正常语音的可能性越大。在这种情况下，为了后续得到综合检测分数，可以获取待检测语音的相似度计算结果包括的相似度分数以及活体检测结果包括的活体检测分数。

S350，在相似度分数大于第一分数阈值，且活体检测分数大于第二分数阈值的情况下，按照第二预设权重系数，对相似度分数以及活体检测分数进行加权计算，得到待检测语音的综合检测分数。

本实施例中，为了提高语音检测的准确性，以及简化计算过程，可以针对相似度分数设置第一分数阈值，以及针对活体检测分数设置第二分数阈值，并且只有在相似度分数大于第一分数阈值，且活体检测分数大于第二分数阈值的情况下才按照第二预设权重系数，对相似度分数以及活体检测分数进行加权计算，得到待检测语音的综合检测分数。如此，可以避免单个分数过高或者过低，而影响综合检测分数。例如，当不法分子使用的录音设备录音播放效果太接近真实用户说话语音时，使得活体检测分数过高，这样，即使相似度检测分数较低，最终的到的综合检测分数也是一个较大的数值。

作为另外一种实施方式，在相似度分数低于第一分数阈值，或者活体检测分数低于第二分数阈值，或者相似度分数低于第一分数阈值且活体检测分数低于第二分数阈值的情况下，可以直接确定待检测语音为异常语音。

这是因为相似度分数或者活体检测分数可以体现是否待检测语音是否为正常语音的可能性，如果相似度分数或者活体检测分数中的至少一个分数过低，则表示待检测语音不是正常语音，这种情况下，便可以直接判断待检测语音为异常语音。

其中，第一分数阈值以及第二分数阈值可以根据经验设置，也可以经过是神经网络预测得到的。

S360，基于综合检测分数以及第三分数阈值，确定待检测语音的异常检测结果。

在得到综合检测分数之后，便可以将综合检测分数与第三分数阈值进行比较，从而确定待检测语音是否为异常语音。

作为一种方式，若综合检测分数大于第三分数阈值，则说明待检测语音是正常语音，即真实用户对引导语音进行跟读得到的语音。若综合检测分数小于或者等于第三分数阈值，则说明待检测语音是异常语音，即不法分子使用录音设备合成的语音。

其中，第三分数阈值可以根据经验设置，也可以经过是神经网络预测得到的。

本实施例提供的一种语音检测方法，通过获取待检测语音的相似度计算结果包括的相似度分数以及活体检测结果包括的活体检测分数，在相似度分数大于第一分数阈值，且活体检测分数大于第二分数阈值的情况下，按照第二预设权重系数，对相似度分数以及活体检测分数进行加权计算，得到待检测语音的综合检测分数，最后基于综合检测分数以及第三分数阈值，确定待检测语音的异常检测结果，可以提高语音检测的准确性，以及简化计算过程。

请参阅图7，图7所示为本申请一实施例提出的一种语音检测方法的流程图，该方法应用于客户端，该方法包括：

S410，响应于语音验证请求，获取验证文本。

S420，对验证文本进行语音转换处理，生成引导语音。

S430，播放引导语音，并采集对播放的引导语音进行跟读得到的待检测语音。

本实施例中，客户端在生成引导语音之后，可以直接播放引导语音，以使用户进行跟读，在用户跟读完成之后，可以采集用户跟读的语音，即采集得到待检测语音。其中，用户跟读可能是真实用户跟读，也可能是不法分子利用录音设备合成的语音进行跟读。

S440，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果。

S450，对待检测语音进行活体检测，得到待检测语音的活体检测结果。

S460，获取待检测语音的相似度计算结果包括的相似度分数以及活体检测结果包括的活体检测分数。

S470，在相似度分数大于第一分数阈值，且活体检测分数大于第二分数阈值的情况下，按照第二预设权重系数，对相似度分数以及活体检测分数进行加权计算，得到待检测语音的综合检测分数。

S480，判断待检测语音的综合检测分数是否大于第三分数阈值。

S490，若综合检测分数大于第三分数阈值，确定为录音语音，若综合检测分数小于或者等于第三分数阈值，确定为非录音语音。

需要说明的是，本申请提供以上一些具体可实施方式的示例，在互不抵触的前提下，各个实施例示例之间可任意组合，以形成新一种语音检测方法。应当理解的，对于由任意示例所组合形成的新一种语音检测方法，均应落入本申请的保护范围。

另外需要说明的是，在有些作为替换的实现方式中，本发明实施例中部分流程的执行顺序也可以以不同于前述具体实施例中所记载的执行顺序进行执行。例如，两个连续的流程实际上可以并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

请参阅图8，其示出了本发明一个实施例提供的语音检测装置，该语音检测装置500包括：待检测语音获取模块510、相似度计算模块520、活体检测模块530以及异常检测模块540。其中：

待检测语音获取模块510，用于获取待检测语音，待检测语音为对播放的引导语音进行跟读得到的语音；

相似度计算模块520，用于对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，语音特征包括时域特征和频域特征中的至少一种；

活体检测模块530，用于对待检测语音进行活体检测，得到待检测语音的活体检测结果；

异常检测模块540，用于根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。

作为一种方式，装置500还包括：

验证文本获取模块，用于响应于语音验证请求，获取验证文本；

引导语音生成模块，用于对验证文本进行语音转换处理，生成引导语音。

作为一种方式，引导语音生成模块，包括：

分词子模块，用于对验证文本进行分词处理，得到验证文本包括的各个文本片段；

目标语音特征确定子模块，用于基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征；

引导语音生成子模块，用于根据文本片段以及对应的目标语音特征，生成引导语音。

作为一种方式，目标语音特征确定子模块，包括：

第一确定单元，用于在验证文本的类型包括数字时，基于各个数字之间的排列顺序或者各个数字的发音类型，从语音特征集合中确定各个数字对应的目标语音特征；

第二确定单元，用于在验证文本的类型不包括数字时，从语音特征集合中随机确定各个文本片段对应的目标语音特征。

作为一种方式，相似度计算模块520，包括：

待检测语音特征获取子模块，用于获取待检测语音包括的各个待检测文本片段对应的待检测语音特征；

引导语音特征获取子模块，用于获取引导语音包括的各个引导文本片段对应的引导语音特征；

相似度计算子模块，用于对待检测文本片段对应的待检测语音特征，以及匹配的引导文本片段对应的引导语音特征进行相似度计算，得到各个待检测文本片段的语音特征的相似度；

相似度计算结果获得子模块，用于基于各个待检测文本片段的语音特征的相似度，得到待检测语音的相似度计算结果。

作为一种方式，异常检测模块540，包括：

分数获取子模块，用于获取待检测语音的相似度计算结果包括的相似度分数以及活体检测结果包括的活体检测分数；

综合检测分数获得子模块，用于在相似度分数大于第一分数阈值，且活体检测分数大于第二分数阈值的情况下，按照第二预设权重系数，对相似度分数以及活体检测分数进行加权计算，得到待检测语音的综合检测分数；

异常检测子模块，用于基于综合检测分数以及第三分数阈值，确定待检测语音是否异常。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置、模块、子模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图9，基于上述的语音检测方法，本申请实施例还提供的另一种包括可以执行前述语音检测方法的处理器604的电子设备600，电子设备600还包括存储器604、网络模块606。其中，该存储器604中存储有可以执行前述实施例中内容的程序，而处理器602可以执行该存储器604中存储的程序。

其中，处理器602可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器602利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器604内的指令、程序、代码集或指令集，以及调用存储在存储器604内的数据，执行电子设备600的各种功能和处理数据。可选地，处理器602可以采用数字信号处理（DigitalSignal Processing，DSP）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器602可集成中央处理器（Central Processing Unit，CPU）、图像处理器（GraphicsProcessing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器602中，单独通过一块通信芯片进行实现。

存储器604可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。存储器604可用于存储指令、程序、代码、代码集或指令集。存储器604可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端在使用中所创建的数据（比如电话本、音视频数据、聊天记录数据）等。

网络模块606用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。网络模块606可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块（SIM）卡、存储器等等。网络模块606可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。例如，网络模块606可以与基站进行信息交互。

请参考图9，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质700中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM（电可擦除可编程只读存储器）、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非易失性计算机可读介质（non-transitory computer-readable storage medium）。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

综上，本申请提供的一种语音检测方法、装置、电子设备以及存储介质，通过获取对播放的引导语音进行跟读得到待检测语音，对待检测语音的语音特征以及引导语音的语音特征进行相似度计算，得到待检测语音的相似度计算结果，以及对待检测语音进行活体检测，得到待检测语音的活体检测结果，语音特征包括时域特征和频域特征中的至少一种，根据相似度计算结果以及活体检测结果，确定待检测语音是否异常。由于在待检测语音的活体检测结果的基础上，结合待检测语音的相似度计算结果，且待检测语音的相似度计算结果是对待检测语音的语音特征以及引导语音的语音特征进行相似度计算得到的，而语音特征包括时域特征和频域特征中的至少一种，与传统的活体检测方法不同，因此可以从多个角度对语音检测结果进行综合判断，避免仅由单一活体检测结果判断语音是否异常，可以改善录制音频接近人声的音频设备对语音检测结果的影响，进而提高了语音检测判断的准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音检测方法，其特征在于，所述方法包括：

获取待检测语音，所述待检测语音为对播放的引导语音进行跟读得到的语音；

对所述待检测语音包括的语音特征以及所述引导语音包括的语音特征中的同类型语音特征分别进行相似度计算，得到各个类型的语音特征分别对应的相似度计算结果，根据预设权重系数以及各个类型的语音特征分别对应的相似度计算结果，得到所述待检测语音的相似度计算结果，所述语音特征包括时域特征和频域特征中的至少一种；

对所述待检测语音进行活体检测，得到所述待检测语音的活体检测结果；

根据所述相似度计算结果以及所述活体检测结果，确定所述待检测语音是否异常。

2.根据权利要求1所述的方法，其特征在于，所述引导语音的语音特征基于特征选择规则以及语音特征集合得到，所述语音特征集合包括所述时域特征以及所述频域特征。

3.根据权利要求1或2所述的方法，其特征在于，所述获取待检测语音之前，所述方法还包括：

响应于语音验证请求，获取验证文本；

对所述验证文本进行语音转换处理，生成所述引导语音。

4.根据权利要求3所述的方法，其特征在于，所述对所述验证文本进行语音转换处理，生成所述引导语音，包括：

对所述验证文本进行分词处理，得到所述验证文本包括的各个文本片段；

基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征；

根据所述文本片段以及对应的目标语音特征，生成所述引导语音。

5.根据权利要求4所述的方法，其特征在于，所述基于特征选择规则以及语音特征集合，确定各个文本片段对应的目标语音特征，包括：

在所述验证文本的类型包括数字时，基于各个数字之间的排列顺序或者各个数字的发音类型，从所述语音特征集合中确定各个数字对应的目标语音特征；

在所述验证文本的类型不包括数字时，从所述语音特征集合中随机确定所述各个文本片段对应的目标语音特征。

6.根据权利要求1或2所述的方法，其特征在于，所述根据所述相似度计算结果以及所述活体检测结果，确定所述待检测语音是否异常，包括：

获取所述待检测语音的相似度计算结果包括的相似度分数以及所述活体检测结果包括的活体检测分数；

在所述相似度分数大于第一分数阈值，且所述活体检测分数大于第二分数阈值的情况下，按照第二预设权重系数，对所述相似度分数以及所述活体检测分数进行加权计算，得到所述待检测语音的综合检测分数；

基于所述综合检测分数以及第三分数阈值，确定所述待检测语音是否异常。

7.一种语音检测装置，其特征在于，所述装置包括：

待检测语音获取模块，用于获取待检测语音，所述待检测语音为对播放的引导语音进行跟读得到的语音；

相似度计算模块，用于对所述待检测语音包括的语音特征以及所述引导语音包括的语音特征中的同类型语音特征分别进行相似度计算，得到各个类型的语音特征分别对应的相似度计算结果，根据预设权重系数以及各个类型的语音特征分别对应的相似度计算结果，得到所述待检测语音的相似度计算结果，所述语音特征包括时域特征和频域特征中的至少一种；

活体检测模块，用于对所述待检测语音进行活体检测，得到所述待检测语音的活体检测结果；

异常检测模块，用于根据所述相似度计算结果以及所述活体检测结果，确定所述待检测语音是否异常。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。

9.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。