CN111583912A - 语音端点检测方法、装置以及电子设备 - Google Patents
语音端点检测方法、装置以及电子设备 Download PDFInfo
- Publication number
- CN111583912A CN111583912A CN202010458648.9A CN202010458648A CN111583912A CN 111583912 A CN111583912 A CN 111583912A CN 202010458648 A CN202010458648 A CN 202010458648A CN 111583912 A CN111583912 A CN 111583912A
- Authority
- CN
- China
- Prior art keywords
- voice
- detected
- end point
- text data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 208000030979 Language Development disease Diseases 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种语音端点检测方法、装置以及电子设备,涉及语音识别技术领域,缓解了用户讲话结束之后等待返回结果时间较长的技术问题。该方法包括:获取待检测语音;基于所述待检测语音的尾端点确定语音时延;如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
Description
技术领域
本申请涉及语音识别技术领域,尤其是涉及一种语音端点检测方法、装置以及电子设备。
背景技术
随着AI技术的发展,特别是语音识别技术的使用,使得为用户提供具有自然交互方式的AI应用,即为智能语音机器人的实现提供了可能。智能语音机器人具有低成本、易扩展、服务体验统一等较多优势,在各行业受到较为广泛的使用,尤其是在保险行业中存在大量的通过电话、网络语音等形式与客户交流的场景。
在语音的识别检测过程中,检测有效语音的起始点为起点检测,检测有效语音的结束点为尾点检测。目前,大多使用静音时长来进行尾点检测,通过调整静音时长改变尾点检测的灵敏度。这种尾点检测机制可以兼容用户讲话有停顿的情况,但容易导致正常用户讲话结束之后等待机器人返回结果时间较长,导致用户体验较差。
发明内容
本发明的目的在于提供一种语音端点检测方法、装置以及电子设备,以缓解用户讲话结束之后等待返回结果时间较长的技术问题。
第一方面,本申请实施例提供了一种语音端点检测方法,所述方法包括:
获取待检测语音;
基于所述待检测语音的尾端点确定语音时延;
如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
在一个可能的实现中,获取待检测语音的步骤,包括:
每隔一个预设检测周期获取一次待检测语音。
在一个可能的实现中,如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点的步骤,包括:
判断所述语音时延是否超过所述预设时间阈值;
如果所述语音时延超过所述预设时间阈值,则确定所述待检测语音的尾端点为语音结束点;
如果所述语音时延未超过所述预设时间阈值,则判断所述待检测语音对应的文本数据是否语义完整;
如果所述文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
在一个可能的实现中,将所述待检测语音转换为所述文本数据的步骤,包括:
利用语音识别(Automatic Speech Recognition,ASR)对所述待检测语音进行识别,根据识别结果将所述待检测语音转换为ASR文本数据。
在一个可能的实现中,判断所述待检测语音对应的文本数据是否语义完整的步骤,包括:
利用训练后的自然语言处理(Natural Language Processing,NLP)神经网络模型判断所述待检测语音对应的文本数据是否语义完整。
在一个可能的实现中,判断所述文本数据是否语义完整的步骤之后,还包括:
如果所述语音时延未超过所述预设时间阈值,且所述文本数据并未语义完整,则继续获取下一个所述预设检测周期的待检测语音。
第二方面,提供了一种语音端点检测装置,包括:
获取单元,用于获取待检测语音;
第一确定单元,用于基于所述待检测语音的尾端点确定语音时延;
第二确定单元,用于如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
在一个可能的实现中,所述语音端点检测装置设置于NLP机器人端或业务模块的语音识别(Automatic Speech Recognition,ASR)端。
第三方面,本申请实施例又提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面所述方法。
第四方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。
本申请实施例带来了以下有益效果:
本申请实施例提供的一种语音端点检测方法、装置以及电子设备,能够基于获取到的待检测语音的尾端点确定语音时延,在如果语音时延超过预设时间阈值,和/或,待检测语音对应的文本数据语义完整时,确定待检测语音的尾端点为语音结束点,本方案中,通过结合待检测语音的语音时延和其文本数据语义完整度来进行待检测语音的尾端点检测,从而可以实现在客户说话的同时就开始进行语音结束点判断处理,缩短尾点检测时间,减少客户等待时延,增加***的实时性,进而提升用户体验。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音端点检测方法的流程示意图;
图2为本申请实施例提供的语音端点检测方法的另一流程示意图;
图3为本申请实施例提供的语音端点检测方法的另一流程示意图;
图4为本申请实施例提供的NLP模型的示意图;
图5为本申请实施例提供的一种语音端点检测装置的结构示意图;
图6为本申请实施例提供的NLP机器人端业务模块实施示意图;
图7为本申请实施例提供的NLP机器人端尾点检测实施示意图;
图8为本申请实施例提供的ASR端业务模块实施示意图;
图9为本申请实施例提供的ASR端尾点检测实施示意图;
图10为示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前,智能语音机器人的引入为企业实现全业务赋能和服务流程智能化。智能语音机器人与用户的对话模式为:智能语音机器人-用户-智能语音机器人-用户。该模式中,语音识别引擎(ASR)会将客户的语音转化为文本,ASR通常使用语音端点检测(VAD)模块,来判断一句话是否已经结束,若结束则返回识别结果;ASR返回结果之后,机器人会认为用户这句回答已经讲完,将识别结果做下一步语义理解处理,准确理解客户的业务需求;然后进入对话管理的对话跟踪模块;接着对话策略模块输出对话内容,自然语言生成模块会将对话内容转成自然语言;最后通过TTS转化成语音传达给用户。
需要说明的是,语音识别(Automatic Speech Recognition,ASR)是一种将电话端或者互联网端人的语音转换为文字的技术。语音端点检测又称语音活动检测(VoiceActivity Detection,VAD),是各种语音处理应用中的一个基本前端处理环节,它广泛应用于语音编码、说话人识别、关键词检测、自动语音识别等技术场景中。语音合成(Text ToSpeech,TTS)是一种将文字转换成语音输出的技术。
在智能语音机器人中,用户的对话语音需要经过语音端点检测(VAD),即对输入的音频流进行分析,确定客户说话的起点和终止点的处理过程。语音端点检测常用的方法可以粗略的分为三类:基于阈值的VAD、使用分类器的VAD和基于模型VAD。
第一类,基于阈值的VAD:通过提取时域(短时能量、短期过零率等)或频域(梅尔频率倒谱系数、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的,这是传统的VAD方法。
第二类,使用分类器的VAD:可以将语音检测视作语音和非语音的二分类问题,进而用机器学习的方法训练分类器,达到检测语音的目的。
第三类,基于声学模型的VAD:可以利用一个完整的声学模型(建模单元的粒度可以很粗),在解码的基础上通过全局信息,判别语音段和非语音段。
端点检测技术(VAD)中检测出有效语音的起始点即为起点检测,检测出有效语音的结束点即尾点检测。当前VAD算法中大多使用静音时长来判断尾点,通过调整静音时长改变尾点检测的灵敏度。在智能语音机器人与用户的对话过程中,有时用户讲话会有停顿。例如“嗯,打十分”。其中“嗯”和“打十分”之间会有静音时段,此时如VAD尾点静音时长设置过短,可能导致VAD认为用户已经讲完,从而仅返回了“嗯”。因此,目前兼容此类问题的方法通常是将VAD尾点静音时段调的比较长,如1秒。时间长可以兼容用户讲话有停顿的情况,但时间长会导致正常用户讲话结束之后等待机器人返回结果时间较长,导致用户体验较差。
基于此,本申请实施例提供了一种语音端点检测方法、装置以及电子设备,通过该方法可以缓解用户讲话结束之后等待返回结果时间较长的技术问题。
下面结合附图对本发明实施例进行进一步地介绍。
图1为本申请实施例提供的一种语音端点检测方法的流程示意图。如图1所示,该方法包括:
步骤S110,获取待检测语音。
步骤S120,基于待检测语音的尾端点确定语音时延。
其中,语音时延指的是待检测语音中文字输出后的时延信息。例如,可以利用计时器(Timer)记录待检测语音流中每个文字输出后的时延信息,每输出一个文字均重置计时器。
步骤S130,如果语音时延超过预设时间阈值,和/或,待检测语音对应的文本数据语义完整,则确定待检测语音的尾端点为语音结束点。
本申请实施例中,主要输入两种数据,一是待检测语音对应的文本数据;二是待检测语音的计时器信息,即时间相关数据。本步骤还可以包括文本数据的格式转换及文本分词解析录入***等其他步骤。
通过将待检测语音的语音时延和其文本数据语义完整度结合来进行待检测语音的尾端点检测,从而可以实现在客户说话的同时就开始进行语音结束点判断处理,缩短尾点检测时间,减少客户等待时延,增加***的实时性,进而提升用户体验。本申请实施例提供的方法可以作为一种优化VAD尾点检测时延的方法,智能判断语音尾点,以减少***等待时长,提升用户体验。
下面对上述步骤进行详细介绍。
在一些实施例中,上述步骤S110可以包括如下步骤:步骤a),每隔一个预设检测周期获取一次待检测语音。
例如,判决器可以在每个判决周期内输出是否为语音结束点的一个判决结果。
在一些实施例中,上述步骤S130可以包括如下步骤:
步骤b),判断语音时延是否超过预设时间阈值;
步骤c),如果语音时延超过预设时间阈值,则确定待检测语音的尾端点为语音结束点;
步骤d),如果语音时延未超过预设时间阈值,则判断待检测语音对应的文本数据是否语义完整;
步骤e),如果文本数据语义完整,则确定待检测语音的尾端点为语音结束点。
在一些实施例中,上述步骤d)中将待检测语音转换为文本数据的过程可以包括如下步骤:
步骤f),利用ASR对待检测语音进行识别,根据识别结果将待检测语音转换为ASR文本数据。
在一些实施例中,上述步骤d)中判断文本数据是否语义完整的过程可以包括如下步骤:
步骤g),利用训练后的NLP神经网络模型判断待检测语音对应的文本数据是否语义完整。
需要说明的是,自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,是实现人与智能设备之间通过自然语言进行有效通信的理论和方法。
如图2和图3所示,使用ASR文本和计时器信息作为输入,然后通过NLP模型算法实现尾点检测,最后输出模型计算结果。示例性的,如图4所示,首先,将输入的文本信息进行嵌入(embedding)处理,将文字转换为词向量,然后将词向量和时延通过神经网络模型训练得出当前点是否为语音结束点。图4中的output为判决器在每个判决周期内输出是否为结束点的一个判决结果。
此外,在实际应用中,NLP模型是可依据应用场景定制化训练的。利用训练后的NLP神经网络模型尾点检测时间更加准确,而且实施更为简单、方便。
本申请实施例中,基于自然语言处理NLP的智能语音端点检测方法能够利用NLP技术来智能判断语音尾点,即使用NLP语言模型进行尾点检测,能够实现在客户说话的同时就开始做更加准确的判决处理,缩短尾点检测时间,减少客户等待时延,增加***的实时性和准确性。
在一些实施例中,在上述步骤d)之后,该方法还可以包括以下步骤:
步骤h),如果语音时延未超过预设时间阈值,且文本数据并未语义完整,则继续获取下一个预设检测周期的待检测语音。
在对输入文本进行尾点判决后,若判断结果为语音结束点,则将语音结束点信息发送给外部应用***,否则继续进行上述步骤S110、步骤S120以及步骤S130,从而输出检测结果,反馈结束点信息。
示例性的,判决器可以使用判决模型判断这句话是否讲完,若已经讲完,则输出;若未讲完,则等待直到讲完为止,其中若等待的累计时长超过预先设定的等待时间阈值,则直接输出结果。
下面以“我想给你打十分”这句话的语音结束点检测为例进行说明。预先做如下规定:
(1)每隔100ms判决器会做一次输出,即上述预设检测周期为100ms;
(2)预设800ms静音时间阈值,即上述预设时间阈值为800ms。
若用户在500ms已将这句话说完,则无需等待预设的800ms静音时间,反馈语音结束点可省300ms,如下面的表1;若用户在800ms还未说完,等待时间等于预先设定的800ms,则无需继续等待,直接反馈结果,如下面的表2。
表1尾点检测示例一
表2尾点检测示例二
图5提供了一种语音端点检测装置的结构示意图。如图5所示,语音端点检测装置500包括:
获取单元501,用于获取待检测语音;
第一确定单元502,用于基于待检测语音的尾端点确定语音时延;
第二确定单元503,用于如果语音时延超过预设时间阈值,和/或,待检测语音对应的文本数据语义完整,则确定待检测语音的尾端点为语音结束点。
在一些实施例中,语音端点检测装置设置于NLP机器人端或业务模块的ASR端。
在实际业务模块中的,本申请实施例中的VAD优化模块可在机器人端和ASR端加入。
针对NLP机器人端加入VAD优化模块,本实施例的实施方式如下:
此示例中是在业务模块中的NLP机器人端加入VAD优化模块,具体业务模块实施图如图6所示。
机器人端将ASR语音识别文本及计时器(Timer)信息输入到判决器,其中Timer用于记录文本流中每个文字输出后的时延信息,每输出一个文字均重置Timer计时器。判决器使用判决模型判断这句话是否讲完,若已经讲完,则输出;若未讲完,则等待直到讲完为止,其中若等待的累计时长超过预先设定的等待时间阈值,则直接输出结果;具体尾点检测实施如图7所示。
机器人端加入VAD优化模块,该实施方式无需改动原VAD内部端点检测方式,且NLP模型是可依据应用场景定制化训练的,便于整个客服机器人***集成,实施较为简单、方便。
针对ASR端加入VAD优化模块,本实施例的实施方式如下:
此示例中是在业务模块的ASR端加入VAD优化模块,具体业务模块实施图如图8所示。
ASR端将ASR语音识别文本及计时器(Timer)信息输入到判决器,其中Timer在每次VAD输出为时重置Timer。判决器使用判决模型判断这句话是否讲完,若已经讲完,则输出;若未讲完,则等待直到讲完为止,其中若等待的累计时长超过预先设定的等待时间阈值,则直接输出结果;具体尾点检测实施如图9所示。
在ASR端加入VAD优化模块需要对VAD模块进行修改,而上述NLP模型是可依据应用场景定制化训练的,不利于整个客服机器人***集成,其优点是在ASR端与NLP机器人端相比尾点检测时间更加准确。
在一些实施例中,获取单元501具体用于:
每隔一个预设检测周期获取一次待检测语音。
在一些实施例中,第二确定单元503具体用于:
判断语音时延是否超过预设时间阈值;
如果语音时延超过预设时间阈值,则确定待检测语音的尾端点为语音结束点;
如果语音时延未超过预设时间阈值,则判断待检测语音对应的文本数据是否语义完整;
如果文本数据语义完整,则确定待检测语音的尾端点为语音结束点。
在一些实施例中,第二确定单元503还用于:
利用ASR对待检测语音进行识别,根据识别结果将待检测语音转换为ASR文本数据。
在一些实施例中,第二确定单元503还用于:
利用训练后的NLP神经网络模型判断待检测语音对应的文本数据是否语义完整。
在一些实施例中,第二确定单元503还用于:
如果语音时延未超过预设时间阈值,且文本数据并未语义完整,则继续获取下一个预设检测周期的待检测语音。
本申请实施例提供的语音端点检测装置,与上述实施例提供的语音端点检测方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
如图10所示,本申请实施例提供的一种电子设备1000,包括:处理器1001、存储器1002和总线,所述存储器1002存储有所述处理器1001可执行的机器可读指令,当电子设备运行时,所述处理器1001与所述存储器1002之间通过总线通信,所述处理器1001执行所述机器可读指令,以执行如上述语音端点检测方法的步骤。
具体地,上述存储器1002和处理器1001能够为通用的存储器和处理器,这里不做具体限定,当处理器1001运行存储器1002存储的计算机程序时,能够执行上述语音端点检测方法。
处理器1001可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1001中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1001可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002,处理器1001读取存储器1002中的信息,结合其硬件完成上述方法的步骤。
对应于上述语音端点检测方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述语音端点检测方法的步骤。
本申请实施例所提供的语音端点检测装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的***、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
再例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述语音端点检测方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种语音端点检测方法,其特征在于,所述方法包括:
获取待检测语音;
基于所述待检测语音的尾端点确定语音时延;
如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
2.根据权利要求1所述的方法,其特征在于,获取待检测语音的步骤,包括:
每隔一个预设检测周期获取一次待检测语音。
3.根据权利要求2所述的方法,其特征在于,如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点的步骤,包括:
判断所述语音时延是否超过所述预设时间阈值;
如果所述语音时延超过所述预设时间阈值,则确定所述待检测语音的尾端点为语音结束点;
如果所述语音时延未超过所述预设时间阈值,则判断所述待检测语音对应的文本数据是否语义完整;
如果所述文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
4.根据权利要求3所述的方法,其特征在于,将所述待检测语音转换为所述文本数据的步骤,包括:
利用ASR对所述待检测语音进行识别,根据识别结果将所述待检测语音转换为ASR文本数据。
5.根据权利要求3所述的方法,其特征在于,判断所述待检测语音对应的文本数据是否语义完整的步骤,包括:
利用训练后的NLP神经网络模型判断所述待检测语音对应的文本数据是否语义完整。
6.根据权利要求3至5任一项所述的方法,其特征在于,判断所述文本数据是否语义完整的步骤之后,还包括:
如果所述语音时延未超过所述预设时间阈值,且所述文本数据并未语义完整,则继续获取下一个所述预设检测周期的待检测语音。
7.一种语音端点检测装置,其特征在于,包括:
获取单元,用于获取待检测语音;
第一确定单元,用于基于所述待检测语音的尾端点确定语音时延;
第二确定单元,用于如果所述语音时延超过预设时间阈值,和/或,所述待检测语音对应的文本数据语义完整,则确定所述待检测语音的尾端点为语音结束点。
8.根据权利要求7所述的装置,其特征在于,所述语音端点检测装置设置于NLP机器人端或业务模块的ASR端。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458648.9A CN111583912A (zh) | 2020-05-26 | 2020-05-26 | 语音端点检测方法、装置以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010458648.9A CN111583912A (zh) | 2020-05-26 | 2020-05-26 | 语音端点检测方法、装置以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583912A true CN111583912A (zh) | 2020-08-25 |
Family
ID=72112693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010458648.9A Pending CN111583912A (zh) | 2020-05-26 | 2020-05-26 | 语音端点检测方法、装置以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583912A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002349A (zh) * | 2020-09-25 | 2020-11-27 | 北京声智科技有限公司 | 一种语音端点检测方法及装置 |
CN112069796A (zh) * | 2020-09-03 | 2020-12-11 | 阳光保险集团股份有限公司 | 一种语音质检方法、装置,电子设备及存储介质 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113345473A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113380275A (zh) * | 2021-06-18 | 2021-09-10 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
CN113744726A (zh) * | 2021-08-23 | 2021-12-03 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113838458A (zh) * | 2021-09-30 | 2021-12-24 | 联想(北京)有限公司 | 一种参数调整方法及装置 |
CN115497457A (zh) * | 2022-09-29 | 2022-12-20 | 贵州小爱机器人科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012055113A1 (zh) * | 2010-10-29 | 2012-05-03 | 安徽科大讯飞信息科技股份有限公司 | 录音结束点检测方法及*** |
CN105529028A (zh) * | 2015-12-09 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音解析方法和装置 |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN110827795A (zh) * | 2018-08-07 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 语音输入结束判断方法、装置、设备、***以及存储介质 |
-
2020
- 2020-05-26 CN CN202010458648.9A patent/CN111583912A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012055113A1 (zh) * | 2010-10-29 | 2012-05-03 | 安徽科大讯飞信息科技股份有限公司 | 录音结束点检测方法及*** |
US9437186B1 (en) * | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
CN105529028A (zh) * | 2015-12-09 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音解析方法和装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN110827795A (zh) * | 2018-08-07 | 2020-02-21 | 阿里巴巴集团控股有限公司 | 语音输入结束判断方法、装置、设备、***以及存储介质 |
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069796A (zh) * | 2020-09-03 | 2020-12-11 | 阳光保险集团股份有限公司 | 一种语音质检方法、装置,电子设备及存储介质 |
CN112002349A (zh) * | 2020-09-25 | 2020-11-27 | 北京声智科技有限公司 | 一种语音端点检测方法及装置 |
CN112002349B (zh) * | 2020-09-25 | 2022-08-12 | 北京声智科技有限公司 | 一种语音端点检测方法及装置 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113380275A (zh) * | 2021-06-18 | 2021-09-10 | 北京声智科技有限公司 | 语音处理方法、装置、智能设备及存储介质 |
CN113345473A (zh) * | 2021-06-24 | 2021-09-03 | 科大讯飞股份有限公司 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113345473B (zh) * | 2021-06-24 | 2024-02-13 | 中国科学技术大学 | 语音端点检测方法、装置、电子设备和存储介质 |
CN113744726A (zh) * | 2021-08-23 | 2021-12-03 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN113838458A (zh) * | 2021-09-30 | 2021-12-24 | 联想(北京)有限公司 | 一种参数调整方法及装置 |
CN115497457A (zh) * | 2022-09-29 | 2022-12-20 | 贵州小爱机器人科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111583912A (zh) | 语音端点检测方法、装置以及电子设备 | |
CN108428447B (zh) | 一种语音意图识别方法及装置 | |
CN108520741B (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
KR101942521B1 (ko) | 음성 엔드포인팅 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
CN110600008A (zh) | 语音唤醒的优化方法及*** | |
CN110634479B (zh) | 语音交互***、其处理方法以及其程序 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN110556105B (zh) | 语音交互***、其处理方法及其程序 | |
CN114038457B (zh) | 用于语音唤醒的方法、电子设备、存储介质和程序 | |
CN112071310A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN114627868A (zh) | 意图识别方法、装置、模型及电子设备 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
US20070192097A1 (en) | Method and apparatus for detecting affects in speech | |
CN112735395B (zh) | 语音识别方法及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |