CN110148402A

CN110148402A - 语音处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110148402A
Application number: CN201910374806.XA
Authority: CN
Inventors: 王涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-20
Also published as: WO2020224217A1

Abstract

本申请实施例提供了一种语音处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于语音识别技术领域，本申请实施例实现语音识别时，通过非流的方式，让人一次性录制完所有语音后，获取非流方式的语音，先判断语音中是否包含异常声音信号，异常声音信号包括静音期信号，若语音中包含异常声音信号，通过语音活动检测异常声音信号，然后对语音进行裁剪，删除异常声音信号，得到多个语音片段，将多个语音片段按照各自在语音中的原有顺序进行语音合成以得到新语音，然后再通过语音识别服务器对新语音进行整句识别的方式进行语音识别，以使整句形式的新语音可以有效利用语音识别中的声学模型和语言模型，有效提升语音的识别准确性和效率。

Description

语音处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音处理方法、装置、计算机设备及计算机可读存储介质。

背景技术

在进行语音识别录制语音时，尤其当录制的语音较长时，录制语音的过程中会存在停顿的情况从而导致录制的语音中间存在空白期，获得的语音信号是不连续的，在语音识别时不能有效的利用语音识别的声学模型和语音模型，从而降低了语音识别的效率。比如，在一些业务场景中，经常需要验证身份证号，通过语音识别的方式提交身份证号是便利快捷的方式，但是由于身份证号长度较长，通常用户在读身份证号码的时候中间会出现间断，如果采集的音频以流的方式直接上传服务器识别，虽然可以实时出结果，但是却无法充分利用基于身份证号的声学模型和语言模型，并且容易出错，降低了身份证号码的语音识别效率。

发明内容

本申请实施例提供了一种语音处理方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中语音识别时效率低的问题。

第一方面，本申请实施例提供了一种语音处理方法，所述方法包括：通过输入设备获取非流方式的语音；判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；对所述新语音进行语音识别。

第二方面，本申请实施例还提供了一种语音处理装置，包括：获取单元，用于通过输入设备获取非流方式的语音；判断单元，用于判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；裁剪单元，用于若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；合成单元，用于将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；识别单元，用于对所述新语音进行语音识别。

第三方面，本申请实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述语音处理方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述语音处理方法。

本申请实施例提供了一种语音处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例实现语音识别时，通过非流的方式，让人一次性录制完所有语音后，获取非流方式的语音，先判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号，若所述语音中包含所述异常声音信号，通过语音活动检测所述异常声音信号，然后对语音进行裁剪，删除所述异常声音信号，得到多个语音片段，将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音，然后再通过语音识别服务器对新语音进行整句识别的方式进行语音识别，以使整句形式的新语音可以有效利用语音识别中的声学模型和语言模型，有效提升语音的识别准确性和效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音处理方法的应用场景示意图；

图2为本申请实施例提供的语音处理方法的流程示意图；

图3为本申请实施例提供的语音处理方法中一个语音的波形图；

图4为本申请实施例提供的语音处理方法中语音识别原理流程图；

图5为本申请实施例提供的语音处理装置的示意性框图；

图6为本申请实施例提供的语音处理装置的另一个示意性框图；以及

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本申请实施例提供的语音处理方法的应用场景示意图。

所述应用场景包括：

(1)终端，终端也可以称为前端，终端上安装有麦克风等输入语音的组件以接收用户输入的语音，所述终端可以为笔记本电脑、智能手表、平板电脑或者台式电脑等电子设备，图1中的终端与服务器连接。

(2)服务器，服务器主要进行语音识别，服务器可以为单台服务器、服务器集群或者云服务器，服务器若为服务器集群还可以包括主服务器和从服务器。

请继续参阅图1，如图1所示，在本申请实施例中，主要以服务器端执行语音处理方法的步骤为例来解释本申请语音处理方法的技术方案，图1中的各个主体工作过程如下：终端通过语音输入设备接收用户输入的完整语音，并将语音发送至服务器以使服务器获取非流方式的语音；服务器判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号，若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段，将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音，最后服务器对所述新语音进行语音识别以得到语音识别结果。

需要说明的是，本申请实施例中的语音处理方法可以应用于终端，也可以应用于服务器，只要在服务器对语音进行识别前对语音进行处理即可。同时，本申请实施例中的语音处理方法的应用环境并不局限于图1所示的应用环境，也可以将语音处理方法及语音识别一起应用在终端等计算机设备中，只要在计算机设备进行语音识别前进行即可，上述语音处理方法的应用场景仅仅用于说明本申请技术方案，并不用于限定本申请技术方案，上述连接关系还可以有其他形式。

图2为本申请实施例提供的语音处理方法的示意性流程图。该语音处理方法应用于图1中前端的计算机设备中，以完成语音处理方法的全部或者部分功能。

请参阅图2，图2是本申请实施例提供的语音处理方法的流程示意图。如图2所示，该方法包括以下步骤S210-S250：

S210、通过输入设备获取非流方式的语音。

其中，流的方式是指语音识别设备实时获取语音所属的音频流，边获取所述音频流边进行语音识别。

非流的方式，是指语音识别设备获取预设时间内的语音或者预设大小语音后，以整句或者整段语音的形式集中进行完整的语音识别。

具体地，所述输入设备可以为终端，也可以为麦克风等语音输入组件，用户通过输入设备输入语音后，将整句或者整段的语音上传至服务器，从而服务器通过输入设备获取非流方式的语音。比如，在一些业务场景中，经常需要验证身份证号，通过语音识别的方式提交身份证号是便利快捷的方式，如果采集的音频以流的方式直接上传语音识别服务器进行识别，是语音识别服务器实时获取身份证号码的语音，语音识别服务器遍获取身份证号码的语音遍进行识别，可以实时出身份证号码的语音识别结果。比如，语音识别服务器识别身份证号码包含“ABCDEFGH”的语音，语音识别服务器接收到“A”的语音后，进行“A”的识别，接收到“B”的语音后，进行“B”的识别，接收到“C”的语音后，进行“C”的识别等，是将“A”、“B”、“C”等身份证号码的语音分别上传，将实时接收到的音频逐一进行识别，可以实时出身份证号码的语音识别结果，进行“A”的识别实时出“A”的识别结果，进行“B”的识别实时出“B”的识别结果等。

如果采集的音频以非流的方式上传语音识别服务器进行识别，是语音识别服务器一次性获取完整身份证号码的语音，语音识别服务器再进行身份证号码的语音识别，获取完整的身份证号码的语音识别结果。具体地，是让人一次性录制完所有身份证号的语音后，集中将完整身份证号码的语音再上传。然后对上传的身份证语音进行裁剪，保留语音段并拼接在一起，然后再传给语音识别服务器进行识别，获取完整的身份证号码的语音识别结果。比如，语音识别服务器识别身份证号码包含“ABCDEFGH”的语音，是语音识别服务器一次性获取完整身份证号码“ABCDEFGH”的语音，语音识别服务器再进行身份证号码的语音识别，获取完整的身份号码“ABCDEFGH”的语音识别结果。具体来说，是让人一次性录制完所有身份证号“ABCDEFGH”的语音后，将身份证号码“ABCDEFGH”的语音集中上传语音识别服务器，而不是将“A”、“B”、“C”等分别上传。然后对上传的身份证语音“ABCDEFGH”进行裁剪，保留语音段并拼接在一起，然后再传给语音识别服务器进行识别，获取完整的身份证号码“ABCDEFGH”的语音识别结果。

S220、判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号。

其中，异常声音信号是指音频波形中变化陡峭的波形片段，包括静音期信号。静音期，是指语音中处于静默的时间。产生静默的情形包括：一是正在听交互中的对方说话；二是由于思考或者稍事休息等原因引起的一段话之间的停顿；三是说话中间的停顿，如犹豫，呼吸，口吃等。第一种情况下停顿间隙长而出现频率低；第三种情况停顿间隙短而出现频率高；第二种情况介于一、三种情况之间。语音源的这种特性叫做开关特性，有时也叫话音/静默特性。请参阅图3，图3为本申请实施例提供的语音处理方法中一个语音的波形图，如图3所示，比如有一音频波形L，波形中L2位置就是静音期。

具体地，波形声音，是最常用的Windows多媒体特性，波形声音设备可以通过麦克风捕捉声音，并将其转换为数值，然后把它们储存到内存或者磁盘上的波形文件中。声音就是振动。当声音改变了鼓膜上空气的压力时，我们就感觉到了声音。麦克风可以感应这些振动，并且将它们转换为电流。同样，电流再经过放大器和扩音器，就又变成了声音。传统上，声音以模拟方式储存(例如录音磁带和唱片)，这些振动储存在磁气脉冲或者轮廓凹槽中。当声音转换为电流时，就可以用随时间振动的波形来表示，振动最自然的形式可以用正弦波表示。正弦波有两个参数，一个为振幅，也就是一个周期中的最大振幅，另一个为频率。振幅就是音量，频率就是音调。一般来说人耳可感受的正弦波的范围是从20Hz(每秒周期)的低频声音到20000Hz的高频声，可以通过检测振幅也就是音量的大小来判断所述语音中是否包含异常声音信号，表现在语音的波形中也就是音频波形中变化陡峭的波形片段，也就是判断所述语音中是否包含静音的时间段，或者明显超出正常语音的音量的冲击波的刺耳高音量的语音，由于语音的特性，语音中包含的静音期信号会更多，因此，检测异常信号主要是检测语音中的静音期信号。

进一步地，在一个实施例中，所述判断所述语音中是否包含异常声音信号的步骤包括：

检测所述语音的音频波形中是否包含音频振幅小于第一预设阈值的波形；

若所述音频波形中包含所述音频振幅小于所述第一预设阈值的波形，判定所述语音中包含所述异常声音信号。

其中，第一预设阈值为低于人正常听力的音量，音频振幅小于第一预设阈值的音频波形描述的声音为低音或者称为静音。

具体地，由于人的耳朵听力的音量范围为振幅20～20000赫兹(赫兹，英文为HZ)的音量，对于人一般的语音沟通来说，低于20赫兹为没有声音的静音期，高于20000赫兹的为超出人听力的音量，所以一般情况下，低于20赫兹或者高于20000赫兹的音量在音频波形中表现为变化陡峭的波形片段，也就是所述语音中包含的异常声音信号。可以通过检测所述语音的音频波形中是否包含音频振幅小于第一预设阈值的波形来判断所述语音中是否包含静音期信号，若所述音频波形中包含所述音频振幅小于所述第一预设阈值的波形，判定所述语音中包含所述异常声音信号为静音期信号的声音信号。

进一步地，所述异常声音信号还包括冲击波信号，冲击波，英文为Shock Wave，是一种不连续峰在介质中的传播，这个不连续峰导致介质的压强、温度及密度等物理性质跳跃式改变，任何波源，当运动速度超过了其波的传播速度时，这种波动形式都可以称为冲击波，或者称为激波，请继续参阅图3，如图3所示，比如有一音频波形L，波形中L1位置就是冲击波。

在一个实施例中，所述判断所述语音中是否包含异常声音信号的步骤包括：

还可以检测所述语音的音频波形中是否包含音频振幅大于第二预设阈值的波形。

其中，第二预设阈值为超出人正常听力的音量，音频振幅大于第二预设阈值的音频波形描述的声音为冲击波或者称为高音。

具体地，高于20000赫兹的音量在音频波形中也表现为变化陡峭的波形片段，也就是所述语音中包含的异常声音信号。可以通过检测所述语音的音频波形中是否包含音频振幅大于第二预设阈值的波形来判断所述语音中是否包含冲击波信号，若所述音频波形中包含所述音频振幅大于所述第二预设阈值的波形，判定所述语音中包含所述异常声音信号，以进一步过滤掉语音中的杂音，提高语音识别的准确性。

S230、若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段。

其中，语音活动检测，英文为VoiceActivity Detection，缩写为VAD，又称语音端点检测，语音边界检测，能够从声音信号流里识别和消除长时间的静音期。

裁剪波形段类似于删除波形段，不同之处是，删除波形段是把选中的波形删除，而裁剪波形段是把未选中的波形删除，两者的作用是相反的，比如，使用GoldWave进行裁剪，GoldWave是数码录音及编辑软件，裁剪波形段所使用的按钮是Trim，裁剪以后，GoldWave会自动把剩下的波形放大显示。

具体地，由于裁剪是波形拼接技术领域的专用术语，表述的意思特指把未选中的波形删除，通过语音活动检测出异常声音信号后，将异常声音信号不选中，将异常声音信号之外的正常声音信号选中，从而将未选中的异常声音信号的波形通过裁剪的方式进行删除，或者称之为剪切掉，留下的是选中的非异常声音信号，也就是正常声音信号。服务器获取非流方式的语音，通过语音活动检测识别所述语音中的异常声音信号，比如识别出所述语音中是否包含有静音期信号和冲击波信号，若所述语音中包含有静音期信号和冲击波信号等异常声音信号，将所述静音期信号和冲击波信号等异常声音信号不选中，将所述静音期信号和冲击波信号等异常声音信号之外的正常声音信号选中，然后对所述语音进行裁剪以删除所述语音中的静音期信号和冲击信号等异常声音信号，得到多个正常声音信号的语音片段，若所述语音中未包含有静音期信号和冲击波信号等异常声音信号，则所述语音是连续的。请继续参阅图3，若图3中L为身份证号码“ABCDEFGH”的音频波形，获取身份证号码的语音L后，检测L中是否包含有异常声音信号L1和L2，若所述语音中包含有L1和L2，比如L为ABCL1DEFL2GH，通过语音活动检测识别出L中的异常声音信号L1和L2，通过裁剪的方式裁剪波形段时，L1和L2不选中，将L1和L2之外的正常声音信号“ABCDEFGH”选中，进行语音波形裁剪时将未选中的异常声音信号波形L1和L2删除，留下的是选中的正常声音信号“ABCDEFGH”的音频波形，从而删除所述语音中的异常声音信号L1和L2，获取多个正常声音信号的语音段ABC、DEF及GH。

S240、将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音。

其中，语音合成，包括参数合成及语音拼接。语音以波形的方式呈现，就为波形拼接，波形拼接是指在语音波形片段之间进行拼接以输出连续语流，PSOLA算法是波形拼接技术的一种。

具体地，将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音，可以是将多个所述语音片段按照各自在所述语音中的原有顺序进行语音的波形拼接以得到新语音，也就是将获得的多个所述语音片段按照各自在所述语音中的原来顺序拼接在一起以进行语音识别。请继续参阅图3，通过语音活动检测对所述语音进行裁剪，以剪切掉所述语音中的L1和L2两个异常声音信号，获取多个语音片段ABC、DEF及GH，将语音片段ABC、DEF及GH拼接在一起，获取语音ABCDEFGH，即为身份证号码“ABCDEFGH”完整而又连续的音频，从而可以充分的有效利用基于身份证号的声学模型和语言模型，本申请实施例中对身份证语音进行整句识别的方式，可以有效利用语音识别中的声学模型和语言模型，有效提升身份证语音的识别准确性。

进一步地，波形拼接语音合成技术是直接把语音波形数据库中的波形级联，输出连续语流，这些语音波形取自然语音的词和句子，隐含了声调、重音、发音速度影响，合成的语音清晰自然。波形拼接语音合成技术包括PSOLA算法和时频插值方法。其中，时频插值方法，又称为时频域插值方法，英文为Time Frequency Interpolation，简称为TFI，来实现波形拼接，这种方法将语音信号通过LPC逆滤波器得到激励源，进一步对其进行基音标注，将其变换到频域，称之为原型，将原型进行存储，再合成时，将原型取出进行相应的分析和韵律调整，然后将其变换回时域信号，经过LPC合成滤波器得到合成语音。

PSOLA算法是波形拼接技术的一种，又称为基因同步叠加技术PSOLA，主要采用在语音波形片段拼接之间，首先根据语义，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既能保持原始语音基元的主要音段特征，又使拼接单元的韵律特征符合语义，从而获得很高的可懂度和自然度。对拼接单元的韵律特征进行调整时，以基音周期为单位进行波形的修改，把基音周期的完整性作为保证波形及频谱的平滑连续的基本前提。PSOLA算法包括TD-PSOLA和FD-PSOLA。其中，TD-PSOLA包括以下步骤：

1)基音同步叠加分析。对原始语音信号做准确的基音同步标注，并将原始语音信号与一系列基音同步的窗函数相乘，得到一些列有重叠的短时分析信号。窗函数采用标准汉宁窗或汉明窗，窗长为两个基音周期，相邻的短时分析信号之间有50％的重叠部分。基音周期的准确性和起始位置非常重要，它将对合成语音的质量有很大的影响。

2)对中间表示进行修改。首先根据原始语音波形的基音曲线和超音段特征与目标基音曲线和超音段特征修正的要求，建立合成波形与原始波形之间的基音周期的映射关系，再由此映射关系确定合成所需要的短时合成信号序列。

3)基音同步叠加处理。将合成的短时信号序列与目标基音周期同步排列，并重叠相加得到合成波形，此时，合成的语音波形具有所期望的超音段特征。

FD-PSOLA算法和TD-PSOLA算法类似，大致非为基音同步叠加分析、对中间表示进行修改和基音同步叠加处理3个过程。TD-PSOLA中，变化时基于时域的，较适合于音长的改变；但当涉及基频的改变，特别是当幅度改变较大时，容易造成叠加单元的混叠，而在FD-PSOLA算法中，不仅可以改变时间标尺，还可以对信号在频域上做适当调整，具体步骤如下：

1)对短时分析信号做离散傅里叶变换，得到该信号的分析傅里叶频谱。

2)用同态滤波得到短时分析傅里叶频谱的谱包络和分离激励源频谱。

3)对频谱进行压缩和拉伸。用线性插值对激励源谱进行压缩和拉伸，但这种处理方法容易在线性插值中丢失信息。借鉴正弦模型方法，通过激励源谱和谱包络在新的频率点采样来实现对激励源谱的压缩和拉伸，得到新的傅里叶频谱。避免对频谱复数值的插值，而通过修改频率轴坐标和谱包络插值达到修改傅里叶频谱的目的。

4)得到短时合成信号。

S250、对所述新语音进行语音识别。

其中，语音识别，英文为Automatic Speech Recognition，一般简称ASR，是将声音转化为文字的过程。

具体地，请参阅图4，图4为本申请实施例提供的语音处理方法中语音识别原理流程图，语音识别原理流程包括：

1)语音输入，也就是获取语音，比如，获取经过语音合成后的新语音；

2)编码，也就是对输入的语音进行编码，通过编码对语音进行特征提取，比如，对新语音进行编码提取，也就是对新语音进行特征提取；

3)解码。通过声学模型和语言模型对提取的语音特征进行解码，所述声学模型经训练数据1训练以达到满足要求的效果，所述语言模型经训练数据2训练以达到满足要求的效果，语音识别是把语音声波转换成文字，给定目标语音的训练数据，可以训练一个识别的统计模型，比如，所述对新语音进行解码；

4)文字输出。将声学模型和语言模型解码的语音特征转换为文字输出，比如，将新语音转为文字以实现语音识别，从而实现将语音转换为文字的语音识别。

本申请实施例实现语音识别时，通过非流的方式，让人一次性录制完所有语音后，获取非流方式的语音，先判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号，若所述语音中包含所述异常声音信号，通过语音活动检测所述异常声音信号，然后对语音进行裁剪，剪切掉所述异常声音信号，得到多个语音片段，将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音，然后再通过语音识别服务器对新语音进行整句识别的方式进行语音识别，以使整句形式的新语音可以有效利用语音识别中的声学模型和语言模型，有效提升语音的识别准确性和效率。

在一个实施例中，所述判断所述语音中是否包含异常声音信号的步骤之前，还包括：

通过检测所述语音的音量大小以检测所述语音中是否包含声音；

若所述语音中包含声音，判断所述语音中是否包含异常声音信号；

若所述语音中未包含声音，输出重新输入语音的提示。

具体地，在进行语音识别时，可能已经开始录制语音了，但是由于种种原因没有发出声音，但录制时长若超过一定时长，该段空白语音也会作为录制的语音进行语音识别，但是该段语音实际没有任何内容且没有任何意义，因此，可以先检测获得的语音中是否包含声音，若是语音中未包含声音，也就是没有发出声音的语音，是空白音，就不需要对该段语音进行异常声音信号检测，以避免后续在正常的语音中进行异常声音信号的检测以消除语音中的异常声音信号的步骤。可以通过判断所述语音中的音量大小来判断所述语音中是否有声音，若所述语音中的音量低于人能听到的音量，也就是所述语音的音频波形中的音频振幅均小于第一预设阈值，判断所述语音为没有声音的静音，无需进一步进行语音活动检测以从所述语音中检测异常声音信号，更无需进行语音识别，若判断所述语音中未包含声音，输出重新输入语音的提示，让用户重新录制语音，以缩短语音识别的过程，提高语音识别的效率和准确性，若所述语音中包含声音，进一步判断所述语音中是否包含异常声音信号，若所述语音中包含异常声音信号，进行对语音识别的处理以获得新语音，再进行语音识别，从而实现语音识别的准确性。通过首先判断所述语音中是否包含声音，可以尽早发现没有声音的异常情形，提高对异常语音情形的识别，从而提高语音识别的效率。

进一步地，还可以：检测所述语音中是否包含自然语言。

其中，自然语言，也就是人的声音。

具体地，可以通过将梅尔频率倒谱系数应用于隐马尔可夫模型中来判断语音是否是声音信号。其中，MFCCs，英文为Mel Frequency Cepstral Coefficents，简称为MFCCs，又可以简写为MFCC，是一种在自动语音和说话人识别中广泛使用的特征，HMM，英文为HiddenMarkov Model，简称为HMM，是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。MFCCs用于HMM的训练(和识别)过程中，因为HMM中针对每一帧语音(或者每一个音素)有特征向量，可以选用MFCC以判断语音中是否有声音信号。若所述语音中没有声音信号，无需进一步进行语音活动检测以从所述语音中检测异常声音信号，更无需进行语音识别，若所述语音中包含声音信号，进一步判断所述语音中是否包含异常声音信号，若所述语音中包含异常声音信号，进行对语音处理以获得新语音，再进行语音识别。通过首先判断所述语音中是否包含自然语言，可以尽早发现没有人的声音的异常情形，进一步提高对异常语音情形的识别，从而提高语音识别的效率。

在一个实施例中，所述语音包含身份证号码，所述对所述新语音进行语音识别的步骤包括：

对包含身份证号码的新语音进行语音识别；

所述对所述新语音进行语音识别的步骤之后，还包括：

根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误；

若所述身份证号码包含错误，对错误的所述身份证号码进行提示。

其中，身份证号码，又称居民身份证号码，或者称为公民身份号码，英文为People's Republic ofChinaresidentidentity card，公民身份号码是特征组合码。

预设的身份证号码编码规则，是在GB11643-1999《公民身份号码》中做了明确的规定的。

具体地，通过输入设备获取包含身份证号码的非流方式的语音，若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号以得到多个语音片段，将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到包含身份证号码的新语音，对所述新语音进行语音识别，以识别出语音中包含的身份证号码。比如，在一些业务场景中，经常需要验证身份证号，由于身份证号长度较长，通常人在通过语音输入身份证号码的时候中间会出现间断，如果采集的音频以流的方式直接上传服务器识别，虽然可以实时出结果，但是却无法充分利用基于身份证号的声学模型和语言模型，并容易出错。而使用本申请实施例提供的语音处理方法对获得的包含身份证号码的语音进行语音识别，在获得识别出的身份证号码后，还可以根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误，若所述身份证号码未包含错误，表明对身份证号码的语音识别是准确的，若所述识别出的所述身份证号码包含错误，还可以对错误的所述身份证号码进行提示，以让用户重新提供包含身份证号码的语音，重新识别身份证号码，以提高对包含身份证号码的语音识别的效率和准确性。

进一步地，所述根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误的步骤包括：

判断所述身份证号码是否包含预设位数的数字以校验所述身份证号码的位数是否正确；

根据预设语音特征识别所述语音对应的发音者的性别以校验所述身份证号码中的顺序位与所述发音者的性别是否匹配；

判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码是否一致以校验所识别出的所述身份证号码包含的校验码是否正确；

若所述身份证号码的位数正确，及所述身份证号码中的顺序位与所述发音者的性别匹配，且所述身份证号码的校验码正确，判定所识别出的身份证号码未包含错误。

具体地，标准《公民身份号码》规定了公民身份号码的编码对象、号码的结构和表现形式，使每个编码对象获得一个唯一的、不变的法定号码，比如，公民身份号码是特征组合码，由十七位数字本体码和一位校验码组成。排列顺序从左至右依次为：六位数字地址码，八位数字出生日期码，三位数字顺序码和一位数字校验码。由于身份证号码编码具有相应的规则和结构形式，因此可以根据身份证号码的编码规则校验所识别出的身份证号码是否包含错误，可以包括以下内容：

1)判断所述身份证号码是否包含预设位数的数字以校验所述身份证号码的位数是否正确。

具体地，若所述身份证号码包含所述预设位数的数字，判定所识别出的身份证号码的位数正确，若所述身份证号码未包含所述预设位数的数字，判定所识别出的身份证号码的位数包含错误。由于身份证号码总共十八位数字，因此可以通过判断所述身份证号码是否包含预设位数的数字以校验所述身份证号码的位数是否正确，也就是判断识别出的身份证号码是否包含十八位数字，以首先从数字位数上判断识别出的身份证号码是否正确，若识别出的身份证号码不是十八位数字，可以直接判断语音识别出的身份证号码是存在错误的，就无需进行后续的判断，从而提高语音识别的效率，若识别出的身份证号码是十八位数字，可以初步判断识别出的身份证号码从数字位数上判断是正确的。

2)根据预设语音特征识别所述语音对应的发音者的性别以校验所述身份证号码中的顺序位与所述发音者的性别是否匹配。

其中，所述预设语音特征包括基音频率、频谱、声音频率及振幅等语音特征来区分男声还是女声。其中，基音顾名思义就是声音的基础，声带振动的频率称为基音频率，基音频率与个人的声带的结构有很大的关系，所以基因频率也能用于识别发音源，一般来说，男性说话者的基音频率较低，而女性说话者的基音频率相对较高，由于男女声的基音频率存在较大差异，因此可以基于基音频率惊醒男女声识别。

具体地，若所述身份证号码中的顺序位与所述发音者的性别匹配，判定所识别出的身份证号码的顺序位未包含错误，若所述身份证号码中的顺序位与所述发音者的性别不匹配，判定所识别出的身份证号码的顺序位包含错误。由于身份证号码第十五位到十七位的地址码所标识的区域范围内，对同年、月、日出生的人员编定的顺序号，其中第十七位奇数分给男性，偶数分给女性，因此可以通过识别语音中的声音为男性声音或者女性声音以根据预设语音特征识别所述语音对应的发音者的性别以校验所述身份证号码中的顺序位与所述发音者的性别是否匹配。若识别出的声音为女性，顺序位为偶数，或者若识别出的声音为男性，顺序位为奇数，判断所述语音对应的发音者的性别与所述身份证号码中的顺序位匹配，是一致的，可以进一步判断所述身份证号码对顺序位的识别是准确的；若识别出的声音为女性，顺序位为奇数，或者若识别出的声音为男性，顺序位为偶数，判断所述语音对应的发音者的性别与所述身份证号码中的顺序位不匹配，是不一致的，可能是对身份证号码的语音识别过程中出现了错误，也可能是男性使用女性的身份证号码进行语音识别，也可能是女性使用男性的身份证号码进行语音识别，通过顺序位的校验，既可以判断语音识别的正确性，提高身份证号码语音识别的效率，也可以在一定程度上起到身份证号码防伪的作用，以防止异性使用身份证号码进行身份验证或者识别。

进一步地，一般情况下，由于男性声音和女性声音的显著不同特征，可以通过训练数据训练相应的神经网络模型以判断声音是男声还是女声，也就是通过神经网络分类实例，以提高男声和女声识别的效率。

3)判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所述身份证号码包含的校验码是否一致以校验识别出的所述身份证号码是否正确。

其中，校验码是由号码编制单位根据标准《公民身份号码》按照统一的公式计算出来的，是根据身份证号码前面十七位数字码，按照ISO 7064:1983.MOD11-2校验码计算出来的检验码。

具体地，由于作为尾号的校验码，是由号码编制单位按统一的公式计算出来的，因此根据校验码计算公式计算识别出的所述身份证号码的校验码与所述身份证号码包含的校验码是否一致以校验识别出的所述身份证号码是否正确。若判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出来的所述身份证号码包含的校验码一致，判定所识别出的所述身份证号码包含的校验码正确，若判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码不一致，判定所识别出的身份证号码包含的校验码包含错误。

若所述身份证号码包含所述预设位数的数字，及所述身份证号码中的顺序位与所述发音者的性别匹配，且判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码一致，也就是若所述身份证号码的位数正确，及所述身份证号码中的顺序位与所述发音者的性别匹配，且所述身份证号码的校验码正确，判定所识别出的身份证号码未包含错误，判定所识别出的身份证号码未包含错误

若识别出的上述身份证号码未包含上述错误，可以判定所述身份证号码的识别是准确的，若识别出的上述身份证号码包含上述错误，说明语音识别存在不准确，需要提示用户重新输入包含身份证号码的语音以重新进行语音识别，依此来尽可能提高对包含身份证号码的语音识别的准确性。也就是若所述身份证号码包含所述预设位数的数字，及所述身份证号码中的顺序位与所述发音者的性别匹配，且判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码一致，判定所识别出的身份证号码未包含错误；若所述身份证号码未包含所述预设位数的数字，或者所述身份证号码中的顺序位与所述发音者的性别不匹配，或者判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码不一致，判定所识别出的身份证号码包含错误。

更进一步地，所述对错误的所述身份证号码进行提示的步骤包括：

对错误的所述身份证号码提示错误对应的具体问题。

具体地，对识别出来的身份证号码的错误进行具体提示，比如，若检测所述身份证号码的位数不正确，对所述身份证号码的位数错误进行提示，以使用户注意身份证号码的位数通过语音输入时是否输入错误，若根据预设语音特征识别所述语音对应的发音者的性别以校验所述身份证号码中的顺序位与所述发音者的性别是否匹配，由于身份证号码中第十七位奇数分给男性，偶数分给女性，可以让用户注意是否是身份证号码的第十七位输入错误，若检测所述身份证号码的校验码不正确，可以让用户注意是否是身份证号码的最后一位的校验位是否输入错误，通过针对性的提示，可以提高用户输入语音的准确性，进而提高语音识别的效率和准确性。

需要说明的是，上述各个实施例所述的语音处理方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图5，图5为本申请实施例提供的语音处理装置的示意性框图。对应于上述语音处理方法，本申请实施例还提供一种语音处理装置。如图5所示，该语音处理装置包括用于执行上述语音处理方法的单元，该装置可以被配置于服务器等计算机设备中。具体地，请参阅图5，该语音处理装置500包括获取单元501、判断单元502、裁剪单元503、合成单元504及识别单元505。

其中，获取单元501，用于通过输入设备获取非流方式的语音；

判断单元502，用于判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；

裁剪单元503，用于若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；

合成单元504，用于将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；

识别单元505，用于对所述新语音进行语音识别。

请参阅图6，图6为本申请实施例提供的语音处理装置的另一个示意性框图。如图6所示，在该实施例中，所述语音处理装置500还包括：

检测单元506，用于通过检测所述语音的音量大小以检测所述语音中是否包含声音，若所述语音中包含声音，判断所述语音中是否包含异常声音信号，若所述语音中未包含声音，输出重新输入语音的提示。

请继续参阅图6，所述判断单元502包括：

检测子单元5021，用于检测所述语音的音频波形中是否包含音频振幅小于第一预设阈值的波形；

第一判定子单元5022，用于若所述音频波形中包含所述音频振幅小于所述第一预设阈值的波形，判定所述语音中包含所述异常声音信号。

在一个实施例中，所述合成单元504，用于将多个所述语音片段按照各自在所述语音中的原有顺序进行语音的波形拼接以得到新语音。

请继续参阅图6，如图6所示，所述语音包含身份证号码，所述识别单元505，用于对包含身份证号码的新语音进行语音识别；

所述语音处理装置500还包括：

校验单元507，用于根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误；

提示单元508，用于若所述身份证号码包含错误，对错误的所述身份证号码进行提示。

请继续参阅图6，如图6所示，所述校验单元507包括：

第一校验子单元5071，用于判断所述身份证号码是否包含预设位数的数字以校验所述身份证号码的位数是否正确；

第二校验子单元5072，用于根据预设语音特征识别所述语音对应的发音者的性别以校验所述身份证号码中的顺序位与所述发音者的性别是否匹配；

第三校验子单元5073，用于判断根据校验码计算公式计算识别出的所述身份证号码的校验码与所识别出的所述身份证号码包含的校验码是否一致以校验所识别出的所述身份证号码包含的校验码是否正确；

第二判定子单元5074，用于若所述身份证号码的位数正确，及所述身份证号码中的顺序位与所述发音者的性别匹配，且所述身份证号码的校验码正确，判定所识别出的身份证号码未包含错误。

在一个实施例中，所述提示单元508，用于对错误的所述身份证号码提示错误对应的具体问题。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述语音处理装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述语音处理装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将语音处理装置按照需要划分为不同的单元，也可将语音处理装置中各单元采取不同的连接顺序和方式，以完成上述语音处理装置的全部或部分功能。

上述语音处理装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图7，该计算机设备700包括通过***总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作***7031和计算机程序7032。该计算机程序7032被执行时，可使得处理器702执行一种上述语音处理方法。

该处理器702用于提供计算和控制能力，以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行一种上述语音处理方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图7所示实施例一致，在此不再赘述。

其中，所述处理器702用于运行存储在存储器中的计算机程序7032，以实现如下步骤：通过输入设备获取非流方式的语音；判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；对所述新语音进行语音识别。

在一实施例中，所述处理器702在实现所述判断所述语音中是否包含异常声音信号的步骤之前，还实现以下步骤：

若所述语音中未包含声音，输出重新输入语音的提示。

在一实施例中，所述处理器702在实现所述判断所述语音中是否包含异常声音信号的步骤时，具体实现以下步骤：

在一实施例中，所述处理器702在实现所述将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音的步骤时，具体实现以下步骤：

将多个所述语音片段按照各自在所述语音中的原有顺序进行语音的波形拼接以得到新语音。

在一实施例中，所述语音包含身份证号码，所述处理器702在实现所述对所述新语音进行语音识别的步骤时，具体实现以下步骤：

对包含身份证号码的新语音进行语音识别；

所述处理器702在实现所述对所述新语音进行语音识别的步骤之后，还实现以下步骤：

在一实施例中，所述处理器702在实现所述根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误的步骤时，具体实现以下步骤：

在一实施例中，所述处理器702在实现所述对错误的所述身份证号码进行提示的步骤时，具体实现以下步骤：

对错误的所述身份证号码提示错误对应的具体问题。

应当理解，在本申请实施例中，处理器702可以是中央处理单元(CentralProcessingUnit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行如下步骤：

一种计算机程序产品，当其在计算机上运行时，使得计算机执行以上各实施例中所描述的语音处理方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

通过输入设备获取非流方式的语音；

判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；

若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；

将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；

对所述新语音进行语音识别。

2.根据权利要求1所述语音处理方法，其特征在于，所述判断所述语音中是否包含异常声音信号的步骤之前，还包括：

若所述语音中未包含声音，输出重新输入语音的提示。

3.根据权利要求1或者2所述语音处理方法，其特征在于，所述判断所述语音中是否包含异常声音信号的步骤包括：

4.根据权利要求1所述语音处理方法，其特征在于，所述将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音的步骤包括：

5.根据权利要求1所述语音处理方法，其特征在于，所述语音包含身份证号码，所述对所述新语音进行语音识别的步骤包括：

对包含身份证号码的新语音进行语音识别；

所述对所述新语音进行语音识别的步骤之后，还包括：

6.根据权利要求5所述语音处理方法，其特征在于，所述根据预设的身份证号码编码规则校验所识别出的身份证号码是否包含错误的步骤包括：

7.根据权利要求5或者6所述语音处理方法，其特征在于，所述对错误的所述身份证号码进行提示的步骤包括：

对错误的所述身份证号码提示错误对应的具体问题。

8.一种语音处理装置，其特征在于，包括：

获取单元，用于通过输入设备获取非流方式的语音；

判断单元，用于判断所述语音中是否包含异常声音信号，所述异常声音信号包括静音期信号；

裁剪单元，用于若所述语音中包含所述异常声音信号，通过语音活动检测对所述语音进行裁剪以删除所述异常声音信号，得到多个语音片段；

合成单元，用于将多个所述语音片段按照各自在所述语音中的原有顺序进行语音合成以得到新语音；

识别单元，用于对所述新语音进行语音识别。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器以及与所述存储器相连的处理器；所述存储器用于存储计算机程序；所述处理器用于运行所述存储器中存储的计算机程序，以执行如权利要求1-7任一项所述语音处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行如权利要求1-7中任一项所述语音处理方法的步骤。