CN109300474A - 一种语音信号处理方法及装置 - Google Patents
一种语音信号处理方法及装置 Download PDFInfo
- Publication number
- CN109300474A CN109300474A CN201811075158.XA CN201811075158A CN109300474A CN 109300474 A CN109300474 A CN 109300474A CN 201811075158 A CN201811075158 A CN 201811075158A CN 109300474 A CN109300474 A CN 109300474A
- Authority
- CN
- China
- Prior art keywords
- sound bite
- voice signal
- measured
- prompt text
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 16
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 230000015654 memory Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明提供了一种语音信号处理方法及装置,其中,该方法包括:获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。通过本发明,解决了相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音信号处理方法及装置。
背景技术
语音信号处理技术是语音处理和语音识别领域中的一个重要分支,也是现今语音识别和语音评价***的主要核心技术。随着科技的发展,语音信号处理技术已深入到各个领域,包括语言学习以及语音自动评分,而在语言学习和自动评分中,运用语音信号处理的目的是将最新的语音技术于当前的教学和学习方法结合,建立辅助语言学习的***或者语音智能评分***。
针对在有随机提示文本的情况下,朗读者是否按照文本进行朗读来进行检测,在这种场景下,相关技术中无法检测出恶意的朗读者存在不按照文本进行朗读的动机,比如说用他人声音来冒充。
针对相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种语音信号处理方法及装置,以至少解决相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题。
根据本发明的一个实施例,提供了一种语音信号处理方法,包括:
获取朗读提示文本的待测语音信号;
将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:
基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况包括:
确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;
根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;
在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
可选地,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,所述方法还包括:
获取所述待测语音信号中与所述提示文本不匹配的语音片段;
确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,在所述获取朗读所述提示文本的待测语音信号之前,所述方法还包括:
基于所述提示文本生成所述参照语音信号;
将所述参照语音信号分割为M个语音片段。
可选地,所述获取朗读所述提示文本的待测语音信号包括:
将所述提示文本推送给移动终端;
通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述将所述待测语音信号分割为N个语音片段包括:
获取所述待测语音信号中的静音段;
去除所述静音段;
根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;
通过端点检测将所述长语音片段分割成所述N个语音片段。
根据本发明的另一个实施例,还提供了一种语音信号处理装置,包括:
获取模块,用于获取朗读提示文本的待测语音信号;
第一分割模块,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,所述第一确定模块包括:
计算单元,用于基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
第一确定单元,用于根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述第二确定模块包括:
第二确定单元,用于确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断单元,用于判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
第三确定单元,用于在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
可选地,所述装置还包括:
第一获取单元,用于获取所述待测语音信号中与所述提示文本不匹配的语音片段;
显示单元,用于确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,所述装置还包括:
生成模块,用于基于所述提示文本生成所述参照语音信号;
第二分割模块,用于将所述参照语音信号分割为M个语音片段。
可选地,所述获取模块包括:
推送单元,用于将所述提示文本推送给移动终端;
采集单元,用于通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述第一分割模块包括:
获取单元,用于获取所述待测语音信号中的静音段;
去除单元,用于去除所述静音段;
分割单元,用于根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况,解决了无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音信号处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种语音信号处理方法的流程图;
图3是根据本发明实施例的语音信号处理装置的框图;
图4是根据本发明优选实施例的语音信号处理装置的框图一;
图5是根据本发明优选实施例的语音信号处理装置的框图二;
图6是根据本发明优选实施例的语音信号处理装置的框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音信号处理方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的语音信号处理方法,图2是根据本发明实施例的一种语音信号处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取朗读提示文本的待测语音信号;
步骤S204,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
步骤S206,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
步骤S208,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
通过上述步骤,获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况,解决了无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。
本发明实施例,为了确定朗读者朗读的内容是否与提供的提示文本匹配,在所述获取朗读所述提示文本的待测语音信号之前,基于所述提示文本生成所述参照语音信号,将所述参照语音信号分割为M个语音片段,以便将朗读的语音信号进行比对。
本发明实施例中,通过服务器向移动终端推送提示文本,在移动终端的应用中显示,便于用户照着提示文本朗读,具体地,所述获取朗读所述提示文本的待测语音信号可以包括:将所述提示文本推送给移动终端,通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
本发明实施例中,将所述待测语音信号分割为N个语音片段具体可以包括:获取所述待测语音信号中的静音段;去除所述静音段;根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。其中,端点检测是语音识别和语音处理的一个基本环节,也是语音识别研究的一个热点领域。技术的主要目的是从输入的语音中对语音和非语音进行区分,可以去掉语音中的静音成分,获取输入语音中有效语音。
本发明实施例中,可以通过两个语音片段之间的距离确定相似度,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况具体可以包括:确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
本发明实施例中,若朗读者朗读的内容与提示文本不完全匹配,便通过移动终端向用户反馈不匹配的文本内容,具体地,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,获取所述待测语音信号中与所述提示文本不匹配的语音片段;确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
本发明实施例可以检测朗读内容与提示文本的一致性,并保证实时性。选用DTW方法,并重点改进DTW的使用方法,使其适用于长语音。动态时间归整(Dynamic TimeWarping,简称为DTW)算法,基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。包括以下步骤:
后台基于提示文本生成参照语音R,比如通过语音合成(Text To Speech,简称为TTS)。
后台将提示文本推送给Rpp,供朗读者跟读。
Rpp录制朗读者语音,推送给后台作为比较语音T。
后台通过语音切割软件将语音R和语音T切割为R1,...Rm,T1,...,Tn,并保证每个语音切片的时长在一个合理范围内,不至于相差太远。
考虑到每个人语速不一样,并且很难保证每个人严格按照提示文本朗读,DTW的阈值需要设置得宽松些,这样的后果就是不能立即判断两个语音判断的DTW意义下的相似度,即无法立即准确判断。
以R1,...Rm为参照,依次将T1,...Tn与上述参照语音分片做DTW意义下的相似度计算,记录与每个Ti相似的Rj的集合Ci,注意一个Ti可能对应多个Rj,即Ci中有多个元素。
依据Ci,计算其时间可达性,即存在Ci中某一种组合,从该组合中取一个元素,是存在严格时间上的先后顺序的。根据时间先后顺序便可确定Ci中与Ti最匹配的Rj。
这样就保证了朗读者可以少错读,但基本按照提示朗读。
无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。以存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。
假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。
若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与{R(1),R(2),……,R(M)}之间的距离。但是这样的计算没有考虑到语音中各个段在不同情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因此更多的是采用动态规划的方法。
若把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。动态规划算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。
为了描述这条路径,假设路径通过的所有格点依次为(n1,m1),……,(ni,mj),……,(nN,mM),其中(n1,m1)=(1,1),(nN,mM)=(N,M)。为了使路径不至于过倾斜,可以约束斜率在0.5~2的范围内,如果路径已经通过了格点(n,m),那么下一个通过的格点(n,m)只可能是下列三种情况之一:
(n,m)=(n+1,m)
(n,m)=(n+1,m+1)
(n,m)=(n,m+1)
用r表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件r时,求最佳路径,使得沿路径的积累距离达到最小值,即:
搜索该路径的方法如下:搜索从(n,m)点出发,可以展开若干条满足η的路径,假设可计算每条路径达到(n,m)点时的总的积累距离,具有最小累积距离者即为最佳路径。易于证明,限定范围的任一格点(n,m)只可能有一条搜索路径通过。对于(n,m),其可达到该格点的前一个格点只可能是(n-1,m)、(n-1,m-1)和(n,m-1),那么(n,m)一定选择这3个距离之路径延伸而通过(n,m),这时此路径的积累距离为:
D[(n,m)]=d[T(n),R(m)]+min{D(n-1,m),D(n-1,m-1),D(n,m-1)}
这样可以从(n,m)=(1,1)出发搜索(n,m),对每一个(n,m)都存储相应的距离,这个距离是当前格点的匹配距离与前一个累计距离最小的格点(按照设定的斜率在三个格点中进行比较)。搜索到(n,m)时,只保留一条最佳路径。如果有必要的话,通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。
DTW算法可以直接按上面描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。
实施例2
在本实施例中还提供了一种语音信号处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的语音信号处理装置的框图,如图3所示,包括:
获取模块32,用于获取朗读提示文本的待测语音信号;
第一分割模块34,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块36,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块38,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
图4是根据本发明优选实施例的语音信号处理装置的框图一,如图4所示,所述第一确定模块36包括:
计算单元42,用于基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
第一确定单元44,用于根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
图5是根据本发明优选实施例的语音信号处理装置的框图二,如图5所示,所述第二确定模块38包括:
第二确定单元52,用于确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断单元54,用于判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
第三确定单元56,用于在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
图6是根据本发明优选实施例的语音信号处理装置的框图三,如图6所示,所述装置还包括:
第一获取单元62,用于获取所述待测语音信号中与所述提示文本不匹配的语音片段;
显示单元64,用于确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,所述装置还包括:
生成模块,用于基于所述提示文本生成所述参照语音信号;
第二分割模块,用于将所述参照语音信号分割为M个语音片段。
可选地,所述获取模块32包括:
推送单元,用于将所述提示文本推送给移动终端;
采集单元,用于通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述第一分割模块34包括:
第二获取单元,用于获取所述待测语音信号中的静音段;
去除单元,用于去除所述静音段;
分割单元,用于根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,获取朗读提示文本的待测语音信号;
S12,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
S13,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
S14,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,获取朗读提示文本的待测语音信号;
S12,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
S13,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
S14,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音信号处理方法,其特征在于,包括:
获取朗读提示文本的待测语音信号;
将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
2.根据权利要求1所述的方法,其特征在于,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:
基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况包括:
确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;
根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;
在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
4.根据权利要求3所述的方法,其特征在于,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,所述方法还包括:
获取所述待测语音信号中与所述提示文本不匹配的语音片段;
确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取朗读所述提示文本的待测语音信号之前,所述方法还包括:
基于所述提示文本生成所述参照语音信号;
将所述参照语音信号分割为M个语音片段。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取朗读所述提示文本的待测语音信号包括:
将所述提示文本推送给移动终端;
通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述将所述待测语音信号分割为N个语音片段包括:
获取所述待测语音信号中的静音段;
去除所述静音段;
根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;
通过端点检测将所述长语音片段分割成所述N个语音片段。
8.一种语音信号处理装置,其特征在于,包括:
获取模块,用于获取朗读提示文本的待测语音信号;
第一分割模块,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811075158.XA CN109300474B (zh) | 2018-09-14 | 2018-09-14 | 一种语音信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811075158.XA CN109300474B (zh) | 2018-09-14 | 2018-09-14 | 一种语音信号处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109300474A true CN109300474A (zh) | 2019-02-01 |
CN109300474B CN109300474B (zh) | 2022-04-26 |
Family
ID=65163131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811075158.XA Active CN109300474B (zh) | 2018-09-14 | 2018-09-14 | 一种语音信号处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109300474B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903781A (zh) * | 2019-04-14 | 2019-06-18 | 湖南检信智能科技有限公司 | 一种情感分析模式匹配方法 |
CN111785294A (zh) * | 2020-06-12 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN112034853A (zh) * | 2020-09-04 | 2020-12-04 | 南京凌华微电子科技有限公司 | 一种家庭监护机器人的工作方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
CN102568475A (zh) * | 2011-12-31 | 2012-07-11 | 安徽科大讯飞信息科技股份有限公司 | 用于普通话水平测评的***和方法 |
CN103559894A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及*** |
CN106531185A (zh) * | 2016-11-01 | 2017-03-22 | 上海语知义信息技术有限公司 | 基于语音相似度的语音评测方法及*** |
CN106531189A (zh) * | 2016-12-20 | 2017-03-22 | 潘奕君 | 一种智能口语测评方法 |
-
2018
- 2018-09-14 CN CN201811075158.XA patent/CN109300474B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040073291A (ko) * | 2004-01-08 | 2004-08-19 | 정보통신연구진흥원 | 외국어 발음 평가 시스템 및 그 평가 방법 |
CN102568475A (zh) * | 2011-12-31 | 2012-07-11 | 安徽科大讯飞信息科技股份有限公司 | 用于普通话水平测评的***和方法 |
CN103559894A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 口语评测方法及*** |
CN106531185A (zh) * | 2016-11-01 | 2017-03-22 | 上海语知义信息技术有限公司 | 基于语音相似度的语音评测方法及*** |
CN106531189A (zh) * | 2016-12-20 | 2017-03-22 | 潘奕君 | 一种智能口语测评方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109903781A (zh) * | 2019-04-14 | 2019-06-18 | 湖南检信智能科技有限公司 | 一种情感分析模式匹配方法 |
CN111785294A (zh) * | 2020-06-12 | 2020-10-16 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN111785294B (zh) * | 2020-06-12 | 2024-04-02 | Oppo广东移动通信有限公司 | 音频检测方法及装置、终端、存储介质 |
CN112034853A (zh) * | 2020-09-04 | 2020-12-04 | 南京凌华微电子科技有限公司 | 一种家庭监护机器人的工作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109300474B (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305641B (zh) | 情感信息的确定方法和装置 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
US10573307B2 (en) | Voice interaction apparatus and voice interaction method | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN109300474A (zh) | 一种语音信号处理方法及装置 | |
CN112053691B (zh) | 会议辅助方法、装置、电子设备及存储介质 | |
CN110890088B (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
CN108959531A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
US10971149B2 (en) | Voice interaction system for interaction with a user by voice, voice interaction method, and program | |
CN107104994A (zh) | 语音识别方法、电子装置及语音识别*** | |
CN112667076A (zh) | 一种语音交互的数据处理方法和装置 | |
CN108614987A (zh) | 数据处理的方法、装置和机器人 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及*** | |
CN110534115A (zh) | 多方言混合语音的识别方法、装置、***和存储介质 | |
CN110517672A (zh) | 用户意图识别方法、用户指令执行方法、***及设备 | |
CN110708619A (zh) | 一种智能设备的词向量训练方法及装置 | |
CN111768764B (zh) | 语音数据处理方法、装置、电子设备及介质 | |
CN108446403A (zh) | 语言练习方法、装置、智能车载终端及存储介质 | |
Kostoulas et al. | Enhancing emotion recognition from speech through feature selection | |
CN108694939A (zh) | 语音搜索优化方法、装置和*** | |
CN114141250A (zh) | 歌词识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230105 Address after: Room 502 and Room 504, Jiayuan Office Building, No. 369, Yuelu Avenue, Xianjiahu Street, Yuelu District, Changsha City, Hunan Province 410205 Patentee after: Hunan Huawei Jin'an Enterprise Management Co.,Ltd. Address before: 100080 370m south of Huandao, Yanfu Road, Yancun Town, Fangshan District, Beijing Patentee before: BEIJING WANGZHONG GONGCHUANG TECHNOLOGY CO.,LTD. |