CN111627423B - Vad尾点检测方法、装置、服务器和计算机可读介质 - Google Patents
Vad尾点检测方法、装置、服务器和计算机可读介质 Download PDFInfo
- Publication number
- CN111627423B CN111627423B CN201910147062.8A CN201910147062A CN111627423B CN 111627423 B CN111627423 B CN 111627423B CN 201910147062 A CN201910147062 A CN 201910147062A CN 111627423 B CN111627423 B CN 111627423B
- Authority
- CN
- China
- Prior art keywords
- vad
- instruction
- frequency
- tail point
- voice packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 abstract description 4
- 230000004044 response Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开提供一种VAD尾点检测方法和智能设备,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。本公开还提供一种服务器和计算机可读介质。
Description
技术领域
本公开涉及语音识别技术领域,具体涉及一种VAD尾点检测方法、装置、服务器和计算机可读介质。
背景技术
语音人机交互是指以语音为信息载体与智能设备进行互动。近些年,随着语音识别技术的发展和智能设备的普及,在诸如智能音箱、家电和车载设备中,语音人机交互已经成为重要的人机交互方式。
在语音人机交互过程中,用户在不同场景发出语音指令的语速快慢和停顿是随机的,因而可能会出现如下两种不好的交互体验:一种情况是用户以较快的语速发出语音指令,在某些特殊场景下,智能设备可能会等待一段时间才做出响应,给用户的感觉是智能设备反应“迟钝”。另一种情况是用户发出语音指令的语速较慢或者中途出现停顿,在这种情况下,可能会出现语音截断,这将直接影响后续的语音识别结果。在某些特殊的使用场景下,上述两种情况对用户体验的影响尤为严重。
发明内容
本公开针对现有技术中存在的上述不足,提供一种VAD尾点检测方法、装置、服务器和计算机可读介质。
第一方面,本公开实施例提供一种VAD尾点检测方法,所述
方法包括:
确定语音包中包含VAD尾点的概率pa;
解码所述语音包,得到与所述语音包对应的文字指令;
确定所述文字指令的语义完整性的概率pn;
根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。
优选的,所述确定所述文字的语义完整性的概率pn具体包括:根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。
优选的,所述规则包括高频句式集合;所述根据预设的规则确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。
优选的,所述根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。
优选的,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
进一步的,VAD尾点检测方法还包括获取所述语义完整性模型的训练数据的步骤,所述步骤包括:
从线上日志中获取指令,并分别统计各所述指令出现的频率;
根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;
将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。
优选的,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;所述根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点,具体包括:
将pn与TNmax相比较,若pn>TNmax,则将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;
若pn≤TNmax,则将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。
另一方面,本公开实施例还提供一种智能设备,所述智能设备包括:声学VAD检测模块、解码模块、语义完整性检测模块和处理模块;
所述声学VAD检测模块用于,确定语音包中包含VAD尾点的概率pa;
所述解码模块用于,解码所述语音包,得到与所述语音包对应的文字指令;
所述语义完整性检测模块用于,确定所述文字指令的语义完整性的概率pn;
所述处理模块用于,根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。
优选的,所述语义完整性检测模块具体用于,根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。
优选的,所述规则包括高频句式集合;
所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。
优选的,所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。
优选的,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
进一步的,所述智能设备还包括数据挖掘模块,所述数据挖掘模块用于,从线上日志中获取指令,并分别统计各所述指令出现的频率;根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。
优选的,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;
所述处理模块具体用于,将pn与TNmax相比较,当pn>TNmax时,将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,若pa≤TA1,则不确定所述语音包中是否包含VAD尾点;当pn≤TNmax时,将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,若pa≤TA2,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。
又一方面,本公开实施例还提供一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前所述的VAD尾点检测方法。
再一方面,本公开实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如前所述的VAD尾点检测方法。
本公开的实施例,通过确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。
附图说明
图1为本公开实施例提供的VAD尾点检测方法的流程图;
图2为本公开实施例提供的确定语义完整性的概率的流程图;
图3为本公开实施例提供的确定语音包是否包含VAD尾点的流程图;
图4为本公开实施例提供的VAD尾点检测设备的结构示意图之一;
图5为本公开实施例提供的VAD尾点检测设备的结构示意图之二。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的无人驾驶车辆控制器测试方案进行详细描述。
在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。
本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此,可根据制造技术和/或容限来修改示例图示。因此,实施例不限于附图中所示的实施例,而是包括基于制造工艺而形成的配置的修改。因此,附图中例示的区具有示意性属性,并且图中所示区的形状例示了元件的区的具体形状,但并不旨在是限制性的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
发明人发现,产生语音停顿导致的误检以及智能设备反应迟钝的原因在于:在语音识别中,通常只通过声学VAD(Voice Activity Detect,语音活动检测)技术来判断语音的尾点,即先通过VAD检测算法将语音信号中的有声片段和无声片段分割开来,再针对有声片段,依据语音的声学特征进行识别。现有的VAD尾点检测方案只依赖基于声学的VAD检测方法,在语音停顿时可能会误检测出语音VAD尾点,造成语音截断,但是,若设置VAD尾点过长又会导致智能设备反应“迟钝”,造成语音交互体验比较差。
本公开的一个实施例提供一种VAD尾点检测方法,以下结合图1,对所述VAD尾点检测方法进行详细说明,如图1所示,该方法包括以下步骤:
步骤101,确定语音包中包含VAD尾点的概率pa。
用户向智能设备发出语音指令,智能设备接收到该语音指令,并将该语音指令划分为多个语音包后,分别确定每个语音包中包含VAD尾点的概率pa。
pa的取值范围在0到1之间,pa的值越大,表示语音包中包含VAD尾点的可能性越大;pa的值越小,表示语音包中包含VAD尾点的可能性越小。
具体的,智能设备通过声学模型可以判断语音包里的语音片段是否有静音片段,通过标定疑似的静音片段,用以作为后续VAD尾点的判断依据。需要说明的是,可以采用现有的基于声学的VAD检测方法确定每个语音包中包含VAD尾点的概率pa,其具体实现方式在此不再赘述。
步骤102,解码所述语音包,得到与所述语音包对应的文字指令。
具体的,智能设备将该语音指令划分为多个语音包后,分别解码每个语音包,得到与每个语音包对应的文字指令,从而实现语音识别。
需要说明的是,在将该语音指令划分为多个语音包后,步骤101和步骤102的执行顺序不限,也可同步执行。
步骤103,确定所述文字指令的语义完整性的概率pn。
智能设备分别确定每个语音包对应的文字指令的语义完整性的概率pn,pn的取值范围在0到1之间,pn的值越大,表示文字指令语义完整的可能性越大;pn的值越小,表示文字指令语义完整的可能性越小。
具体的,智能设备可以根据预设的规则确定文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定文字指令的语义完整性的概率pn。确定文字指令的语义完整性的概率pn的具体实现方式,后续结合附图2再详细说明。
步骤104,根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。
具体的,通过本步骤可以得到以下三种判断结果:语音包中包含VAD尾点、语音包中不包含VAD尾点、不确定语音包中是否包含VAD尾点。
根据pa、pn和预设的阈值确定语音包是否包含VAD尾点的具体实现方式,后续结合附图3再详细说明。
通过步骤101-104可以看出,本公开确定语音包中包含VAD尾点的概率pa,并在解码语音包后,确定与语音包对应的文字指令的语义完整性的概率pn,根据pa、pn和预设的阈值,确定语音包是否包含VAD尾点,从而将声学VAD检测和语义VAD检测相结合,实现VAD尾点检测;本公开VAD尾点检测更加准确,可以避免语音停顿导致的误检,并解决语音包中VAD尾点过长导致的反应迟钝的问题,提升语音人机交互过程中的用户体验。
所述用于确定pn的规则包括高频句式集合,高频句式集合即常用的人机交互指令集合,可以包括例如“我想(听歌、看电视等)”、“打开(某个智能设备)”、“开始(扫地、煮饭等操作)”等句式。在本公开方案中,优先利用规则确定文字指令的语义完整性的概率pn,当无法用规则确定pn时,再利用语义完整性模型确定。
以下结合图2详细说明确定文字指令的语义完整性的概率pn的具体实现方式。如图2所示,所述确定文字指令的语义完整性的概率pn,具体包括以下步骤:
步骤201,将文字指令与高频句式集合匹配,若未在高频句式集合中匹配到文字指令,则执行步骤202;否则执行步骤204。
具体的,若未在高频句式集合中匹配到文字指令,则需要利用语义完整性模型得到文字指令的语义完整性的概率pn;若在高频句式集合中匹配到文字指令,则无需借助语义完整性模型,就可直接确定出文字指令的语义完整性的概率pn。
由于语义完整性模型的计算量比在高频句式集合中匹配文字指令的计算量大,通过设置高频句式集合并优先在高频句式集合中进行文字指令的匹配,对于常见的用户指令,可以快速返回语义检测结果,减少语义完整性模型计算处理耗时,提高处理效率,缩短智能设备的响应时间。
步骤202,提取文字指令的特征向量。
具体的,若未在高频句式集合中匹配到文字指令,则提取文字指令的特征向量,用以将文字指令进行数值化处理,以便作为语义完整性模型的输入参数。提取文字指令的特征向量的具体实现方式属于现有技术,在此不再赘述。
特征向量可以包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
步骤203,将特征向量输入语义完整性模型,得到文字指令的语义完整性的概率pn。
具体的,利用双向LSTM(Long Short Term Memory,长短期记忆网络)算法对训练数据建立语义完整性模型,语义完整性模型通过学习文字的语义信息进而抽象出句子的语义完整性信息。
在本公开实施例中,语义完整性模型的训练数据可以直接从大量线上日志数据中挖掘,即根据日志中指令的出现频次,标识指令的完整性属性(包括完整、不完整、完整性不确定)。
获取语义完整性模型的训练数据的步骤包括:
S1,从线上日志中获取指令,并分别统计各指令出现的频率。
S2,根据各指令的出现频率和预设的频率阈值筛选高频指令,并为高频指令标识第一标记。具体的,将高频指令的完整性属性标识为用以表示语义完整的第一标记。
S3,将高频指令随机切分为多个指令,分别判断各个切分指令与高频指令是否相同,若相同,则将相应指令(即与高频指令相同的切分指令)的完整性属性标识为表示语义完整性不确定的第二标记;若不同,则将相应指令(即与高频指令不同的指令)的完整性属性标识为表示语义不完整的第三标记。
本公开实施例的语义完整性模型可以自动从线上大量日志中挖掘数据,无需人工标注,并能够快速训练和迭代数据,可以针对不同产品或者场景灵活扩展和配置,方便应用到不同的产品线。
步骤204,确定文字指令的语义完整性的概率pn。
具体的,若在高频句式集合中匹配到文字指令,说明该文字指令为常见的控制指令,具有明确的语义,则直接将该文字指令的语义完整性的概率pn设置为较大的预设值,所述预设值∈(0,1),例如,pn=0.9。
通过步骤201-204可以看出,将语义完整性模型和规则相结合,可以保证语义VAD检测的泛化性和准确率。
以下结合图3详细说明根据pa、pn和预设的阈值确定语音包是否包含VAD尾点的具体实现方式。所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,其中,TA1、TA2、TNmin和TNmax是根据经验确定的,TNmin<TNmax。
如图3所示,所述根据pa、pn和预设的阈值确定语音包是否包含VAD尾点,具体包括以下步骤:
步骤301,将pn与TNmax相比较,若pn>TNmax,则执行步骤302;否则,执行步骤303。
步骤302,将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点。
步骤303,将pn与TNmin相比较,若pn>TNmin,则执行步骤304,否则,确定所述语音包中不包含VAD尾点。
步骤304,将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点。
由此可以看出,当pn>TNmax且pa>TA1时,或者,TNmin<pn≤TNmax且pa>TA2时,可以确定语音包中包含VAD尾点。当pn≤TNmin时,可以确定语音包中不包含VAD尾点。当pn>TNmax且pa≤TA1时,或者,当TNmin<pn≤TNmax且pa≤TA2时,不确定语音包中是否包含VAD尾点。
本公开实施例提出一种融合声学和语义的语音VAD尾点检测方案,该方案针对不同用户在使用诸如智能音箱等智能设备时语速和停顿随机的特点,在传统语音VAD尾点检测模块的基础上,重新设计了语义VAD尾点检测模块(即语义完整性检测模块)。当语音信号输入时,分别使用声学和语义两个检测模块对语音信号分别进行VAD尾点检测。声学VAD检测模块对音频信号进行检测,语音识别解码后,语义完整性检测模块对语音识别结果的语义完整性进行打分。然后将声学VAD检测模块结果和语义完整性检测结果综合进行决策,最终判断出语音包中是否包含VAD尾点。
基于相同的技术构思,本公开实施例还提供一种智能设备,如图4所示,该智能设备包括声学VAD检测模块41、解码模块42、语义完整性检测模块43和处理模块44。
声学VAD检测模块41用于,确定语音包中包含VAD尾点的概率pa。
解码模块42用于,解码所述语音包,得到与所述语音包对应的文字指令。
语义完整性检测模块43用于,确定所述文字指令的语义完整性的概率pn。
处理模块44用于,根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点。
优选的,语义完整性检测模块43具体用于,根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。
优选的,所述规则包括高频句式集合。
语义完整性检测模块43具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。
优选的,语义完整性检测模块43具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。
优选的,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
在本公开另一实施例中,如图5所示,所述智能设备还可以包括数据挖掘模块45,数据挖掘模块45用于,从线上日志中获取指令,并分别统计各所述指令出现的频率;根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。
优选的,所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax。
处理模块44具体用于,将pn与TNmax相比较,当pn>TNmax时,将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,若pa≤TA1,则不确定所述语音包中是否包含VAD尾点;当pn≤TNmax时,将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,若pa≤TA2,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。
本公开实施例还提供了一种服务器,该服务器包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述各实施例所提供的VAD尾点检测方法。
本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述各实施例所提供的VAD尾点检测方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
根据本公开的实施例,本公开还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述VAD尾点检测方法中任一项方法。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本发明的范围的情况下,可进行各种形式和细节上的改变。
Claims (15)
1.一种VAD尾点检测方法,其中,所述方法包括:
确定语音包中包含VAD尾点的概率pa;
解码所述语音包,得到与所述语音包对应的文字指令;
确定所述文字指令的语义完整性的概率pn;
根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点;所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;
所述根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点,包括:
将pn与TNmax相比较,若pn>TNmax,则将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;
若pn≤TNmax,则将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,否则,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。
2.如权利要求1所述的方法,其中,所述确定所述文字的语义完整性的概率pn具体包括:根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。
3.如权利要求2所述的方法,其中,所述规则包括高频句式集合;所述根据预设的规则确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。
4.如权利要求3所述的方法,其中,所述根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn,具体包括:将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。
5.如权利要求4所述的方法,其中,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
6.如权利要求2所述的方法,其中,还包括获取所述语义完整性模型的训练数据的步骤,所述步骤包括:
从线上日志中获取指令,并分别统计各所述指令出现的频率;
根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;
将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。
7.一种智能设备,其中,包括:声学VAD检测模块、解码模块、语义完整性检测模块和处理模块;
所述声学VAD检测模块用于,确定语音包中包含VAD尾点的概率pa;
所述解码模块用于,解码所述语音包,得到与所述语音包对应的文字指令;
所述语义完整性检测模块用于,确定所述文字指令的语义完整性的概率pn;
所述处理模块用于,根据所述pa、pn和预设的阈值,确定所述语音包中是否包含VAD尾点;所述阈值包括第一阈值TNmax、第二阈值TNmin、第三阈值TA1和第四阈值TA2,TNmin<TNmax;
其中,所述处理模块用于,将pn与TNmax相比较,当pn>TNmax时,将pa与TA1相比较,若pa>TA1,则确定所述语音包中包含VAD尾点,若pa≤TA1,则不确定所述语音包中是否包含VAD尾点;当pn≤TNmax时,将pn与TNmin相比较,若pn>TNmin,则将pa与TA2相比较,若pa>TA2,则确定所述语音包中包含VAD尾点,若pa≤TA2,不确定所述语音包中是否包含VAD尾点;若pn≤TNmin,则确定所述语音包中不包含VAD尾点。
8.如权利要求7所述的智能设备,其中,所述语义完整性检测模块具体用于,根据预设的规则确定所述文字指令的语义完整性的概率pn,或者,根据预设的规则和预设的语义完整性模型确定所述文字指令的语义完整性的概率pn。
9.如权利要求8所述的智能设备,其中,所述规则包括高频句式集合;
所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中匹配到所述文字指令,则确定所述文字指令的语义完整性的概率pn。
10.如权利要求9所述的智能设备,其中,所述语义完整性检测模块具体用于,将所述文字指令与所述高频句式集合匹配,若在所述高频句式集合中未匹配到所述文字指令,则提取所述文字指令的特征向量,并将所述特征向量输入所述语义完整性模型,得到所述文字指令的语义完整性的概率pn。
11.如权利要求10所述的智能设备,其中,所述特征向量包括以下其中之一或任意组合:字向量、词边界向量、词类型向量。
12.如权利要求8所述的智能设备,其中,还包括数据挖掘模块,所述数据挖掘模块用于,从线上日志中获取指令,并分别统计各所述指令出现的频率;根据各所述指令的出现频率和预设的频率阈值筛选高频指令,并为所述高频指令标识第一标记;将所述高频指令随机切分为多个指令,分别判断各个切分指令与所述高频指令是否相同,为与所述高频指令相同的切分指令标识第二标记,并为与所述高频指令不同的指令标识第三标记。
13.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6任一项所述的VAD尾点检测方法。
14.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现如权利要求1-6任一项所述的VAD尾点检测方法。
15.一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910147062.8A CN111627423B (zh) | 2019-02-27 | 2019-02-27 | Vad尾点检测方法、装置、服务器和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910147062.8A CN111627423B (zh) | 2019-02-27 | 2019-02-27 | Vad尾点检测方法、装置、服务器和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627423A CN111627423A (zh) | 2020-09-04 |
CN111627423B true CN111627423B (zh) | 2023-08-04 |
Family
ID=72261142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910147062.8A Active CN111627423B (zh) | 2019-02-27 | 2019-02-27 | Vad尾点检测方法、装置、服务器和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627423B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN112700769B (zh) * | 2020-12-26 | 2024-07-05 | 中国科学技术大学 | 一种语义理解方法、装置、设备以及计算机可读存储介质 |
CN113380275B (zh) * | 2021-06-18 | 2024-06-25 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
CN113345473B (zh) * | 2021-06-24 | 2024-02-13 | 中国科学技术大学 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113903329B (zh) * | 2021-09-08 | 2022-08-23 | 北京百度网讯科技有限公司 | 语音处理方法、装置、电子设备及存储介质 |
CN114078478B (zh) * | 2021-11-12 | 2022-09-23 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853284A (zh) * | 2010-05-24 | 2010-10-06 | 哈尔滨工程大学 | 面向互联网的有意义串的提取方法及装置 |
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
WO2016073479A1 (en) * | 2014-11-03 | 2016-05-12 | Automated Clinical Guidelines, Llc | Method and platform/system for creating a web-based form that incorporates an embedded knowledge base, wherein the form provides automatic feedback to a user during and following completion of the form |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108549628A (zh) * | 2018-03-16 | 2018-09-18 | 北京云知声信息技术有限公司 | 流式自然语言信息的断句装置及方法 |
CN108877779A (zh) * | 2018-08-22 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI640877B (zh) * | 2017-06-14 | 2018-11-11 | 財團法人資訊工業策進會 | 語意分析裝置、方法及其電腦程式產品 |
-
2019
- 2019-02-27 CN CN201910147062.8A patent/CN111627423B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853284A (zh) * | 2010-05-24 | 2010-10-06 | 哈尔滨工程大学 | 面向互联网的有意义串的提取方法及装置 |
CN103617801A (zh) * | 2013-12-18 | 2014-03-05 | 联想(北京)有限公司 | 语音检测方法、装置及电子设备 |
WO2016073479A1 (en) * | 2014-11-03 | 2016-05-12 | Automated Clinical Guidelines, Llc | Method and platform/system for creating a web-based form that incorporates an embedded knowledge base, wherein the form provides automatic feedback to a user during and following completion of the form |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108549628A (zh) * | 2018-03-16 | 2018-09-18 | 北京云知声信息技术有限公司 | 流式自然语言信息的断句装置及方法 |
CN108877779A (zh) * | 2018-08-22 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于检测语音尾点的方法和装置 |
Non-Patent Citations (1)
Title |
---|
吴敏丽.基于主题搜索引擎的文本聚类分类研究与实现.《中国优秀硕士学位论文全文数据库(信息科技辑)》.2015,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111627423A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627423B (zh) | Vad尾点检测方法、装置、服务器和计算机可读介质 | |
US10546585B2 (en) | Localizing and verifying utterances by audio fingerprinting | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
US11727939B2 (en) | Voice-controlled management of user profiles | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
CN108172219B (zh) | 识别语音的方法和装置 | |
CN106782529B (zh) | 语音识别的唤醒词选择方法及装置 | |
EP4233047A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN110875059A (zh) | 收音结束的判断方法、装置以及储存装置 | |
KR102655791B1 (ko) | 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들 | |
US20200211545A1 (en) | Voice interaction method, apparatus and device, and storage medium | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
CN106531195A (zh) | 一种对话冲突检测方法及装置 | |
CN104952446A (zh) | 基于语音交互的数字楼盘展示*** | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、***及装置 | |
CN112687296B (zh) | 音频不流利的识别方法、装置、设备及可读存储介质 | |
CN112735432B (zh) | 音频识别的方法、装置、电子设备及存储介质 | |
CN114038487A (zh) | 一种音频提取方法、装置、设备和可读存储介质 | |
CN111883109A (zh) | 语音信息处理及验证模型训练方法、装置、设备及介质 | |
CN111785259A (zh) | 信息处理方法、装置及电子设备 | |
EP3989219B1 (en) | Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN111027667B (zh) | 意图类别的识别方法和装置 | |
CN111797631B (zh) | 信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |