CN111540349A - 一种语音的打断方法和装置 - Google Patents
一种语音的打断方法和装置 Download PDFInfo
- Publication number
- CN111540349A CN111540349A CN202010232214.7A CN202010232214A CN111540349A CN 111540349 A CN111540349 A CN 111540349A CN 202010232214 A CN202010232214 A CN 202010232214A CN 111540349 A CN111540349 A CN 111540349A
- Authority
- CN
- China
- Prior art keywords
- preset
- interruption
- voice
- user
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提供了一种语音的打断方法和装置,包括:当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;识别所述用户语音,得到识别结果;基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。在本发明实施例中,通过对识别结果进行规则检测来判断是否需要打断播报语音的播放,可以有效确定是否需要基于用户语音对播报语音进行打断,同时通过对不同的预设参数进行调整,可以适用不同的场景下的交互需求。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音的打断方法和一种语音的打断装置。
背景技术
在智能外呼和智能导航的场景中进行人机交互时,为了能够让客户感知上体验到类似人与人的交流,外呼机器人需要模仿人与人的正常对话场景,能够在客户说话的过程中保持静音,在客户说完问题之后再进行回答,以及在播报过程中如果客户有打断的情况需要及时停止播报等。
由于目前的语音打断交互流程中,用于判断TTS(TextToSpeech,从文本到语音技术)播报何时停止的逻辑判断难以控制,例如,从语音识别的角度去判断是否需要打断强依赖于识别引擎对于噪声、短音的识别判断,会造成误打断或不打断的情况;而通过自然语言处理的方式进行判断,会对整体的交互的响应速度上造成较大的延时。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音的打断方法和相应的一种语音的打断装置。
为了解决上述问题,本发明实施例公开了一种语音的打断方法,包括:
当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
识别所述用户语音,得到识别结果;
基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
可选地,所述基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音的步骤,包括:
根据所述识别结果与所述针对预设参数的预设判断规则,生成打断标识;
根据所述当前播放时长与所述针对预设参数的预设判断规则,确定打断时刻;
采用所述打断时刻和所述打断标识,打断正在播放的所述播报语音。
可选地,所述识别结果包括用户语音字数;所述针对预设参数的预设判断规则包括:判断所述用户语音字数是否大于或等于第一预设字数阈值的规则;所述打断标识包括第一打断标识;所述根据所述识别结果,与所述预设修改参数的预设判断规则,生成打断标识的步骤,包括:
判断所述用户语音字数,是否大于或等于所述第一预设字数阈值;
若是,则生成所述第一打断标识。
可选地,所述识别结果还包括用户语音语义;所述针对预设参数的预设判断规则还包括:判断所述用户语音语义是否与第一预设语义匹配的规则;所述打断标识还包括第二打断标识;所述方法还包括:
当所述用户语音字数小于所述第一预设字数阈值时,在所述第一预设语义中匹配所述用户语音语义;
当匹配成功时,生成所述第二打断标识。
可选地,所述针对预设参数的预设判断规则还包括:判断所述用户语音语义是否大于或等于第二预设字数阈值,以及是否与第二预设语义不匹配的规则;所述打断标识还包括第三打断标识:所述的方法还包括:
当在所述第一预设语义中未匹配到所述用户语音语义时,判断所述用户语音字数是否大于或等于所述第二预设字数阈值;
若是,在所述第二预设语义中匹配所述用户语音语义;
当匹配失败时,生成所述第三打断标识。
可选地,所述预设参数还包括允许打断时长;所述针对预设参数的预设判断规则还包括:判断所述当前播放时长是否大于或等于预设允许打断时长的规则;所述打断时刻包括第一打断时刻;所述根据所述当前播放时长,与所述针对预设参数的预设判断规则确定打断时刻的步骤,包括:
判断所述当前播放时长是否大于或等于所述预设允许打断时长;
若是,确定生成所述打断标识的标识生成时刻;
将所述标识生成时刻确定为所述第一打断时刻。
可选地,所述打断时刻还包括第二打断时刻;所述的方法还包括:
当所述当前播放时长小于所述允许打断时长时,将所述播报语音的播报时长等于所述允许打断时长的时刻,确定为所述第二打断时刻。
本发明实施例还公开了一种语音的打断装置,包括:
当前播放时长获取模块,用于当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
识别模块,用于识别所述用户语音,得到识别结果;
打断模块,用于基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
可选地,所述打断模块,包括:
打断标识生成子模块,用于根据所述识别结果与所述针对预设参数的预设判断规则,生成打断标识;
打断时刻确定子模块,用于根据所述当前播放时长与所述针对预设参数的预设判断规则,确定打断时刻;
打断子模块,用于采用所述打断时刻和所述打断标识,打断正在播放的所述播报语音。
可选地,所述识别结果包括用户语音字数;所述针对预设参数的预设判断规则包括判断用户语音字数是否大于或等于第一预设字数阈值的规则;所述打断标识包括第一打断标识;所述打断标识生成子模块,包括:
第一预设字数阈值判断单元,用于判断所述用户语音字数,是否大于或等于所述第一预设字数阈值;
第一打断标识生成单元,用于则生成所述第一打断标识。
可选地,所述识别结果还包括用户语音语义;所述针对预设参数的预设判断规则还包括:判断用户语音语义是否与第一预设语义匹配的规则所述打断标识还包括第二打断标识;所述打断标识生成子模块,还包括:
第一预设语义匹配单元,用于当所述用户语音字数小于所述第一预设字数阈值时,在所述第一预设语义中匹配所述用户语音语义;
第二打断标识生成单元,用于当匹配成功时,生成所述第二打断标识。
可选地,所述针对预设参数的预设判断规则还包括:判断用户语音语义是否大于或等于第二预设字数阈值,以及是否与第二预设语义不匹配的规则;所述打断标识还包括第三打断标识:所述打断标识生成子模块,还包括:
第二预设字数阈值判断子模块,用于当在所述第一预设语义中未匹配到所述用户语音语义时,判断所述用户语音字数是否大于或等于所述第二预设字数阈值;
第二预设语义匹配单元,用于在所述第二预设语义中匹配所述用户语音语义;
第三打断标识单元,用于当匹配失败时,生成所述第三打断标识。
可选地,所述预设参数还包括允许打断时长;所述针对预设参数的预设判断规则还包括:判断所述当前播放时长是否大于或等于预设允许打断时长的规则;所述打断时刻包括第一打断时刻;所述打断时刻确定子模块,包括:
判断单元,用于判断所述当前播放时长是否大于所述预设允许打断时长;
标识生成时刻确定单元,用于确定生成所述打断标识的标识生成时刻;
第一打断时刻确定单元,用于将所述标识生成时刻确定为所述第一打断时刻。
可选地,所述打断时刻还包括第二打断时刻;所述打断时刻确定子模块,还包括:
第二打断时刻确定单元,用于当所述当前播放时长小于所述允许打断时长时,将所述播报语音的播报时长等于所述允许打断时长的时刻,确定为所述第二打断时刻。
本发明实施例还公开了一种装置,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的语音的打断方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的语音的打断方法的步骤。
本发明实施例包括以下优点:本发明实施例通过在播放播报语音的过程中接收到用户发出的用户语音时,获取播报语音的当前播放时长;并识别接收到的用户语音,得到识别结果;从而可以基于针对预设参数的预设判断规则,采用当前播放时长和识别结果,打断正在播放的播报语音。在本发明实施例中,通过对识别结果进行规则检测来判断是否需要打断播报语音的播放,可以有效确定是否需要基于用户语音对播报语音进行打断,同时通过对不同的预设参数进行调整,可以适用不同的场景下的交互需求。
附图说明
图1是本发明的一种语音的打断方法实施例一的步骤流程图;
图2是本发明的一种语音的打断方法实施例二的步骤流程图;
图3是本发明的一种语音的打断方法实施例的流程图;
图4是本发明的一种语音的打断装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在智能外呼、导航的解决方案中,智能语义交互技术涉及到用户说话的时候需要打断TTS播报的逻辑,以给到被呼叫的用户更智能和人性化的体验。目前语音交互打断的逻辑主要通过以下两种方式实现:
1)纯语音检测
该方法打断的逻辑强依赖于语音识别引擎对于声音的判断,当检测到用户侧有声音时就会触发打断TTS播报的逻辑,在目前语音交互产品中十分常见,但是该实现的方式有以下不可避免的误打断情况:
由于在电话交互的过程中,客户侧的语音环境大多是不确定的,有时候在嘈杂的马路上,或是人流较多的环境,此时从电话端接收到的声音中就极可能出现噪声、吵闹声,而由于目前语音识别技术无法很好地完全过滤掉周围环境的声音,因此都可能会造成***的误识别和误打断;另外即使在降噪方面技术有比较好的效果,对于用户的语气词“嗯”、“哦”等无意义的回答也会进行打断,仍然会影响整体语音交互体验。
2)语义理解检测(NLU,Natural Language Understanding)
该方法打断的逻辑依赖于对语音识别结果的自然语义处理,在实现上需要额外增加自然语义理解的能力,只有通过语义理解确认目前客户的意图应该打断时才会触发打断的逻辑;
该方法从一定程度上解决了误打断的问题,但是一方面从***实现上,需要语音识别的文本结果再调用一次语义理解的产品,整体产品响应时间上会造成较大的延时;另外一方面,自然语义处理的规则一般需要重新加载资源,易用性上无法自由调整控制不同场景下对于客户话术是否进行打断的逻辑。
针对上述问题,本发明实施例的核心构思之一在于,提供一种语音的打断方法,通过识别在播放播报语音的过程中接收到的用户语音,得到识别结果,再基于针对预设参数的预设判断规则,采用播报语音的当前播放时长和识别结果,来打断正在播放的播报语音。
参照图1,示出了本发明的一种语音的打断方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
在智能外呼和智能导航的场景中进行人机交互时,为了能够让客户感知上体验到类似人与人的交流,外呼机器人需要模仿人与人的正常对话场景。包括在用户说话的过程中保持静音,在用户说完问题之后再进行回答。以及在播报过程中,当用户有发声打断的情况时,及时停止播报语音的播放的。
在本发明实施例中,当外呼机器人在播放播报语音的过程中,接收到用户发出的用户语音时,首先可以获取播报语音的当前播放时长,当前时长可以用于判断是否立即对播报语音进行语音打断。
步骤102,识别所述用户语音,得到识别结果;
在接收到用户语音后,可以对用户语音进行识别,得到识别结果。例如可以通过ASR(Automatic Speech Recognition,自动语音识别技术)将用户语音转换为文本信息,再通过对文本信息进行分析,得到包括字数,语义等信息。
步骤103,基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
在本发明实施例中,预设参数用于与已获取的识别结果和当前播放时长进行对比,具体可以包括语义,字数阈值等。预设参数与针对预设参数的预设判断规则可以根据用户使用需要而实时调整,以适用不同的场景下的交互需求。
在得到识别结果之后,可以基于针对预设参数的预设判断规则,采用当前播放时长和识别结果,打断正在播放的播报语音。
在一个示例中,针对预设参数的预设判断规则,具体可以包括将识别结果和当前播放时长,分别与预设参数进行对比得到对比结果,进而判断该对比结果是否满足预设判断规则。若满足,则可以对正在播放的播报语音进行打断。
本发明实施例通过在播放播报语音的过程中接收到用户发出的用户语音时,获取播报语音的当前播放时长;并识别接收到的用户语音,得到识别结果;从而可以基于针对预设参数的预设判断规则,采用当前播放时长和识别结果,打断正在播放的播报语音。在本发明实施例中,通过对识别结果进行规则检测来判断是否需要打断播报语音的播放,可以有效确定是否需要基于用户语音对播报语音进行打断,同时通过设置不同的预设参数,可以得到适用于不同场景的语音打断条件。
参照图2,示出了本发明的一种语音的打断方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
在本发明实施例中,当外呼机器人在播放播报语音的过程中,接收到用户发出的用户语音时,首先可以获取播报语音的当前播放时长,当前时长可以用于判断是否立即对播报语音进行语音打断。
步骤202,识别所述用户语音,得到识别结果;
进一步地,在接收到用户语音后,可以对用户语音进行识别,得到识别结果。例如可以通过IVR(Interactive Voice Response,互动式语音应答)监听用户语音。再通过ASR(Automatic Speech Recognition,自动语音识别技术)将用户语音转换为文本信息,再通过对文本信息进行分析,得到包括字数,语义等信息。
步骤203,根据所述识别结果与所述针对预设参数的预设判断规则,生成打断标识;
在本发明实施例中,预设参数可以包括:第一预设语义、第二预设语义、第一预设字数阈值、第二预设字数阈值和允许打断时长。
在一个示例中,针对预设参数的预设判断规则,具体可以包括将识别结果与预设参数进行对比得到对比结果,根据对比结果判断是否对播报语音进行打断的规则。
在本发明实施例中,识别结果可以包括用户语音字数;针对预设参数的预设判断规则可以包括:判断用户语音字数是否大于或等于第一预设字数阈值的规则;打断标识可以包括第一打断标识;因此,步骤203可以包括以下子步骤:
S11,判断所述用户语音字数,是否大于或等于所述第一预设字数阈值;
S12,若是,则生成所述第一打断标识。
第一预设字数阈值,为预设的可直接打断正在播放的播报语音的用户语音字数的阈值,其数值可以根据用户个人使用情况进行设置。
当对用户语音进行识别确定了用户语音的字数后,判断用户语音字数是否大于或等于第一预设字数阈值,若是,则证明用户语音字数满足直接打断播报语音的要求。此时,便可生成第一打断标识。
在本发明实施例中,识别结果还可以包括用户语音语义;针对预设参数的预设判断规则还可以包括:判断用户语音语义是否与第一预设语义匹配的规则;所述打断标识还包括第二打断标识;因此,步骤203还可以包括以下子步骤:
S13,当所述用户语音字数小于所述第一预设字数阈值时,在所述第一预设语义中匹配所述用户语音语义;
S14,当匹配成功时,生成所述第二打断标识。
第一预设语义,为用户预先设置的,当从用户语音中检测到时便可生成打断标识的关键词。
在一个示例中,还可以对接收到的用户语音进行语义识别,得到用户语音的语义,根据语义与预设的语义进行匹配,从而根据匹配结果判断是否生成打断标识。例如,可以预设一个白名单,用于存储多个预设的语义。在识别得到用户语音语义后,在白名单中匹配用户语音语义,当匹配成功时,便可以生成用于打断播报语音的第二打断标识。
在本发明实施例中,针对预设参数的预设判断规则还可以包括:判断用户语音语义是否大于或等于第二预设字数阈值,以及是否与第二预设语义不匹配的规则;因此,步骤203还可以包括以下子步骤:
S15,当在所述第一预设语义中未匹配到所述用户语音语义时,判断所述用户语音字数是否大于或等于所述第二预设字数阈值;
S16,若是,在所述第二预设语义中匹配所述用户语音语义;
S17,当匹配失败时,生成所述第三打断标识。
第二预设字数阈值,为用户预先设置的,用户语音字数能否对播报语音进行打断的字数临界值,其数值可根据用户个人使用习惯和不同使用场景进行设置。
第二预设语义,为用户预先设置的当检测到便不生成打断标识的关键词。
在一个示例中,当在第一预设语义中未匹配到用户语音语义时,则无法确定是否生成打断标识,此时,可以检测用户语音字数是否大于或等于第二预设字数阈值。若是,则可以在第二预设语义中匹配用户语音语义,当匹配失败时,则可生成第三打断标识。
例如,第二字数阈值可以为黑名单生效阈值,第二预设语音语义可以为黑名单。当在白名单中检测不到用户语音语义时,判断用户语音字数是否大于或等于黑名单生效阈值;若是,则在黑名单中匹配用户语音语义,匹配成功,则不生成打断标识;若匹配失败,则生成用于打断播报语音的第三打断标识。
步骤204,根据所述当前播放时长与所述针对预设参数的预设判断规则,确定打断时刻;
在本发明实施例中,可以配置在开始播放播报语音的一段时间内不允许被打断。在进行播报语音的播放时,实时统计当前播放时长,以根据当前播放时长和针对预设参数的预设判断规则来确定打断时刻。
在本发明实施例中,预设参数还可以包括允许打断时长;针对预设参数的预设判断规则还可以包括:判断当前播放时长是否大于或等于预设允许打断时长的规则;所述打断时刻可以包括第一打断时刻;因此,步骤204可以包括以下子步骤:
S21,判断所述当前播放时长是否大于或等于所述预设允许打断时长;
S22,若是,确定生成所述打断标识的标识生成时刻;
S23,将所述标识生成时刻确定为所述第一打断时刻。
在获取到播报语音的当前播放时长时,可以将当前播放时长与预设的允许打断时长进行对比。若当前播放时长大于或等于预设允许打断时长,且此时已生成了打断标识,便可立即根据打断标识对播报语音进行打断,即可以将生成打断标识的标识生成时刻确定为第一打断时刻,以在该第一打断时刻时对播报语音进行打断。
在本发明实施例中,打断时刻还可以包括第二打断时刻;因此,步骤204还可以包括以下子步骤:
S24,当所述当前播放时长小于所述允许打断时长时,将所述播报语音的播报时长等于所述允许打断时长的时刻,确定为所述第二打断时刻。
此外,若当前播放时长小于允许打断时长,即使ASR已经有识别结果,并且此时判断了需要进行打断,也暂时不返回打断标识进行打断。而是在当前播放时长达到允许打断时长时,才对播报语音进行打断。
在一个示例中,在当前播放时长小于允许打断时长期间,可能会出现两个或多个识别结果,此时,可以仅响应第一个生成打断标识的识别结果,并返回该识别结果。
步骤205,采用所述打断时刻和所述打断标识,打断正在播放的所述播报语音。
在本发明实施例中,在获取了打断时刻和打断标识后,便可以在打断时刻采用打断标识打断正在播放的播报语音。
图3是本发明的一种语音的打断方法实施例的流程图。在一个示例中,为了适配实际场景中各种情况的出现,可以设定以下几个参数来控制打断播报语音的具体逻辑:
1、白名单(第一预设语义):当识别结果检测到与白名单匹配时,发送打断事件;
2、黑名单(第二预设语义):当识别结果检测到与黑名单匹配时,不需要发送打断事件;
3、允许打断时长:可以配置在开始播放播报语音一段时间后,才进行打断操作;
4、黑名单生效阈值(第二预设字数阈值):当识别结果字数超过黑名单生效阈值时再开始检测黑名单;
5、第一预设字数阈值:当识别结果字数超过第一预设字数阈值时,不再检测黑白名单,直接打断。
上述参数可以通过IVR***以语法文件的方式在每次语音交互的过程中传输到语音识别能力平台,由语音识别能力平台在接受语音后进行判断是否要返回相关字段给IVR***来打断语音合成的播报。
判断是否进行打断的逻辑原则和优先级顺序如下:
1、在当前播放时长小于“允许打断时长”的情况下,无论如何都不进行打断;
2、当识别结果大于或等于“第一预设字数阈值”时,发送打断标识并打断,识别完成后返回识别结果;
3、当识别结果小于“第一预设字数阈值”:
1)、检测到白名单,则进行打断,识别完成后返回识别结果;
2)、识别结果小于“黑名单生效阈值”、未检测到白名单且识别结束,不进行打断;
识别结果大于或等于“黑名单生效阈值”、检测到黑名单则不打断;
识别结果大于或等于“黑名单生效阈值”、未检测到黑名单且识别结束,发送打断标识并打断,识别结束后返回识别结果。
下面描述了具体使用场景中,用户的不同语音输入在下述参数设置下最终实现的打断或不打断的各类场景判断结果和原因:
语音交互打断的参数配置如下时:
1.“允许打断时长”设置为1s;
2.“第一预设字数阈值”设置为5个字,utf-8编码下15个字节;
3.“白名单”设为“我是;是我;我就是;您等一下”;
4.“黑名单”设为“哦;你好;您说;哦哦哦,您请说”;
5.“黑名单生效阈值”设置为2个字,utf-8编码下为6个字节。
本发明实施例通过在播放播报语音的过程中接收到用户发出的用户语音时,获取播报语音的当前播放时长;并识别接收到的用户语音,得到识别结果;从而可以基于针对预设参数的预设判断规则,采用当前播放时长和识别结果,打断正在播放的播报语音。在本发明实施例中,通过对识别结果进行规则检测来判断是否需要打断播报语音的播放,可以有效确定是否需要基于用户语音对播报语音进行打断,同时通过设置不同的预设参数,可以得到适用于不同场景的语音打断条件。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种语音的打断装置实施例的结构框图,具体可以包括如下模块:
当前播放时长获取模块401,用于当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
识别模块402,用于识别所述用户语音,得到识别结果;
打断模块403,用于基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
在本发明实施例中,所述打断模块403,可以包括:
打断标识生成子模块,用于根据所述识别结果与所述针对预设参数的预设判断规则,生成打断标识;
打断时刻确定子模块,用于根据所述当前播放时长与所述针对预设参数的预设判断规则,确定打断时刻;
打断子模块,用于采用所述打断时刻和所述打断标识,打断正在播放的所述播报语音。
在本发明实施例中,所述识别结果包括用户语音字数;所述针对预设参数的预设判断规则包括判断用户语音字数是否大于或等于第一预设字数阈值的规则;所述打断标识包括第一打断标识;所述打断标识生成子模块,可以包括:
第一预设字数阈值判断单元,用于判断所述用户语音字数,是否大于或等于所述第一预设字数阈值;
第一打断标识生成单元,用于则生成所述第一打断标识。
在本发明实施例中,所述识别结果还包括用户语音语义;所述针对预设参数的预设判断规则还包括:判断用户语音语义是否与第一预设语义匹配的规则所述打断标识还包括第二打断标识;所述打断标识生成子模块,还可以包括:
第一预设语义匹配单元,用于当所述用户语音字数小于所述第一预设字数阈值时,在所述第一预设语义中匹配所述用户语音语义;
第二打断标识生成单元,用于当匹配成功时,生成所述第二打断标识。
在本发明实施例中,所述针对预设参数的预设判断规则还包括:判断用户语音语义是否大于或等于第二预设字数阈值,以及是否与第二预设语义不匹配的规则;所述打断标识还包括第三打断标识:所述打断标识生成子模块,还可以包括:
第二预设字数阈值判断子模块,用于当在所述第一预设语义中未匹配到所述用户语音语义时,判断所述用户语音字数是否大于或等于所述第二预设字数阈值;
第二预设语义匹配单元,用于在所述第二预设语义中匹配所述用户语音语义;
第三打断标识单元,用于当匹配失败时,生成所述第三打断标识。
在本发明实施例中,所述预设参数还包括允许打断时长;所述针对预设参数的预设判断规则还包括:判断所述当前播放时长是否大于或等于预设允许打断时长的规则;所述打断时刻包括第一打断时刻;所述打断时刻确定子模块,可以包括:
判断单元,用于判断所述当前播放时长是否大于所述预设允许打断时长;
标识生成时刻确定单元,用于确定生成所述打断标识的标识生成时刻;
第一打断时刻确定单元,用于将所述标识生成时刻确定为所述第一打断时刻。
在本发明实施例中,所述打断时刻还包括第二打断时刻;所述打断时刻确定子模块,还可以包括:
第二打断时刻确定单元,用于当所述当前播放时长小于所述允许打断时长时,将所述播报语音的播报时长等于所述允许打断时长的时刻,确定为所述第二打断时刻。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种装置,包括:
包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语音的打断方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述语音的打断方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音的打断方法和一种语音的打断装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音的打断方法,其特征在于,包括:
当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
识别所述用户语音,得到识别结果;
基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
2.根据权利要求1所述的方法,其特征在于,所述基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音的步骤,包括:
根据所述识别结果与所述针对预设参数的预设判断规则,生成打断标识;
根据所述当前播放时长与所述针对预设参数的预设判断规则,确定打断时刻;
采用所述打断时刻和所述打断标识,打断正在播放的所述播报语音。
3.根据权利要求2所述的方法,其特征在于,所述识别结果包括用户语音字数;所述针对预设参数的预设判断规则包括:判断所述用户语音字数是否大于或等于第一预设字数阈值的规则;所述打断标识包括第一打断标识;所述根据所述识别结果,与所述预设修改参数的预设判断规则,生成打断标识的步骤,包括:
判断所述用户语音字数,是否大于或等于所述第一预设字数阈值;
若是,则生成所述第一打断标识。
4.根据权利要求3所述的方法,其特征在于,所述识别结果还包括用户语音语义;所述针对预设参数的预设判断规则还包括:判断所述用户语音语义是否与第一预设语义匹配的规则;所述打断标识还包括第二打断标识;所述方法还包括:
当所述用户语音字数小于所述第一预设字数阈值时,在所述第一预设语义中匹配所述用户语音语义;
当匹配成功时,生成所述第二打断标识。
5.根据权利要求4所述的方法,其特征在于,所述针对预设参数的预设判断规则还包括:判断所述用户语音语义是否大于或等于第二预设字数阈值,以及是否与第二预设语义不匹配的规则;所述打断标识还包括第三打断标识:所述的方法还包括:
当在所述第一预设语义中未匹配到所述用户语音语义时,判断所述用户语音字数是否大于或等于所述第二预设字数阈值;
若是,在所述第二预设语义中匹配所述用户语音语义;
当匹配失败时,生成所述第三打断标识。
6.根据权利要求3或4或5所述的方法,其特征在于,所述预设参数还包括允许打断时长;所述针对预设参数的预设判断规则还包括:判断所述当前播放时长是否大于或等于预设允许打断时长的规则;所述打断时刻包括第一打断时刻;所述根据所述当前播放时长,与所述针对预设参数的预设判断规则确定打断时刻的步骤,包括:
判断所述当前播放时长是否大于或等于所述预设允许打断时长;
若是,确定生成所述打断标识的标识生成时刻;
将所述标识生成时刻确定为所述第一打断时刻。
7.根据权利要求6所述的方法,其特征在于,所述打断时刻还包括第二打断时刻;所述的方法还包括:
当所述当前播放时长小于所述允许打断时长时,将所述播报语音的播报时长等于所述允许打断时长的时刻,确定为所述第二打断时刻。
8.一种语音的打断装置,其特征在于,包括:
当前播放时长获取模块,用于当在播放播报语音的过程中接收到用户发出的用户语音时,获取所述播报语音的当前播放时长;
识别模块,用于识别所述用户语音,得到识别结果;
打断模块,用于基于针对预设参数的预设判断规则,采用所述当前播放时长和所述识别结果,打断正在播放的所述播报语音。
9.一种装置,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的语音的打断方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的语音的打断方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010232214.7A CN111540349B (zh) | 2020-03-27 | 2020-03-27 | 一种语音的打断方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010232214.7A CN111540349B (zh) | 2020-03-27 | 2020-03-27 | 一种语音的打断方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111540349A true CN111540349A (zh) | 2020-08-14 |
CN111540349B CN111540349B (zh) | 2023-10-10 |
Family
ID=71974815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010232214.7A Active CN111540349B (zh) | 2020-03-27 | 2020-03-27 | 一种语音的打断方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111540349B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037799A (zh) * | 2020-11-04 | 2020-12-04 | 深圳追一科技有限公司 | 语音中断处理方法、装置、计算机设备和存储介质 |
CN112185393A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种用于供电智能客户的语音识别处理方法 |
CN112185392A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种用于供电智能客户的语音识别处理*** |
CN112700775A (zh) * | 2020-12-29 | 2021-04-23 | 维沃移动通信有限公司 | 语音接收周期的更新方法、装置和电子设备 |
CN112714058A (zh) * | 2020-12-21 | 2021-04-27 | 浙江百应科技有限公司 | 一种即时打断ai语音的方法、***及电子设备 |
CN113113013A (zh) * | 2021-04-15 | 2021-07-13 | 北京帝派智能科技有限公司 | 一种智能语音交互打断处理方法、装置及*** |
CN113160817A (zh) * | 2021-04-22 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于意图识别的语音交互方法及*** |
CN113488024A (zh) * | 2021-05-31 | 2021-10-08 | 杭州摸象大数据科技有限公司 | 一种基于语义识别的电话打断识别方法和*** |
CN113656551A (zh) * | 2021-08-19 | 2021-11-16 | 中国银行股份有限公司 | 一种外呼智能打断方法及装置、存储介质及电子设备 |
CN113779208A (zh) * | 2020-12-24 | 2021-12-10 | 北京汇钧科技有限公司 | 用于人机对话的方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102374864A (zh) * | 2010-08-13 | 2012-03-14 | 国基电子(上海)有限公司 | 语音导航设备及语音导航方法 |
CN105704554A (zh) * | 2016-01-22 | 2016-06-22 | 广州视睿电子科技有限公司 | 一种音频播放方法及装置 |
US20170186425A1 (en) * | 2015-12-23 | 2017-06-29 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
CN107342085A (zh) * | 2017-07-24 | 2017-11-10 | 深圳云知声信息技术有限公司 | 语音处理方法及装置 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
US20180261223A1 (en) * | 2017-03-13 | 2018-09-13 | Amazon Technologies, Inc. | Dialog management and item fulfillment using voice assistant system |
CN108831455A (zh) * | 2018-05-25 | 2018-11-16 | 四川斐讯全智信息技术有限公司 | 一种智能音箱流式交互的方法及*** |
CN110427460A (zh) * | 2019-08-06 | 2019-11-08 | 北京百度网讯科技有限公司 | 用于交互信息的方法及装置 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
-
2020
- 2020-03-27 CN CN202010232214.7A patent/CN111540349B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102374864A (zh) * | 2010-08-13 | 2012-03-14 | 国基电子(上海)有限公司 | 语音导航设备及语音导航方法 |
US20170186425A1 (en) * | 2015-12-23 | 2017-06-29 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
US20190237064A1 (en) * | 2015-12-23 | 2019-08-01 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
CN105704554A (zh) * | 2016-01-22 | 2016-06-22 | 广州视睿电子科技有限公司 | 一种音频播放方法及装置 |
US20180261223A1 (en) * | 2017-03-13 | 2018-09-13 | Amazon Technologies, Inc. | Dialog management and item fulfillment using voice assistant system |
CN107342085A (zh) * | 2017-07-24 | 2017-11-10 | 深圳云知声信息技术有限公司 | 语音处理方法及装置 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN108831455A (zh) * | 2018-05-25 | 2018-11-16 | 四川斐讯全智信息技术有限公司 | 一种智能音箱流式交互的方法及*** |
CN110427460A (zh) * | 2019-08-06 | 2019-11-08 | 北京百度网讯科技有限公司 | 用于交互信息的方法及装置 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
Non-Patent Citations (2)
Title |
---|
SU-HYUN JIN,ET AL.: "Interrupted speech perception:The effects of hearing sensitive and frequency resolution" * |
李恒庭等: "SkyEye模拟器的音频输出模拟模块设计与实现" * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185393A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种用于供电智能客户的语音识别处理方法 |
CN112185392A (zh) * | 2020-09-30 | 2021-01-05 | 深圳供电局有限公司 | 一种用于供电智能客户的语音识别处理*** |
CN112037799A (zh) * | 2020-11-04 | 2020-12-04 | 深圳追一科技有限公司 | 语音中断处理方法、装置、计算机设备和存储介质 |
CN112037799B (zh) * | 2020-11-04 | 2021-04-06 | 深圳追一科技有限公司 | 语音中断处理方法、装置、计算机设备和存储介质 |
CN112714058A (zh) * | 2020-12-21 | 2021-04-27 | 浙江百应科技有限公司 | 一种即时打断ai语音的方法、***及电子设备 |
CN113779208A (zh) * | 2020-12-24 | 2021-12-10 | 北京汇钧科技有限公司 | 用于人机对话的方法和装置 |
CN112700775A (zh) * | 2020-12-29 | 2021-04-23 | 维沃移动通信有限公司 | 语音接收周期的更新方法、装置和电子设备 |
CN113113013A (zh) * | 2021-04-15 | 2021-07-13 | 北京帝派智能科技有限公司 | 一种智能语音交互打断处理方法、装置及*** |
CN113113013B (zh) * | 2021-04-15 | 2022-03-18 | 北京帝派智能科技有限公司 | 一种智能语音交互打断处理方法、装置及*** |
CN113160817A (zh) * | 2021-04-22 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于意图识别的语音交互方法及*** |
CN113488024A (zh) * | 2021-05-31 | 2021-10-08 | 杭州摸象大数据科技有限公司 | 一种基于语义识别的电话打断识别方法和*** |
CN113656551A (zh) * | 2021-08-19 | 2021-11-16 | 中国银行股份有限公司 | 一种外呼智能打断方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111540349B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111540349B (zh) | 一种语音的打断方法和装置 | |
US7069221B2 (en) | Non-target barge-in detection | |
CN108962233B (zh) | 用于语音对话平台的语音对话处理方法及*** | |
CN110661927B (zh) | 语音交互方法、装置、计算机设备及存储介质 | |
US9734845B1 (en) | Mitigating effects of electronic audio sources in expression detection | |
US11551685B2 (en) | Device-directed utterance detection | |
JP4838351B2 (ja) | キーワード抽出装置 | |
JP3363630B2 (ja) | 音声認識方法 | |
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
US11687526B1 (en) | Identifying user content | |
CN110557451A (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
CN110853638A (zh) | 语音交互过程中实时打断语音机器人的方法及设备 | |
JP2014191029A (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
CN102282610A (zh) | 声音对话装置、对话控制方法以及对话控制程序 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN113779208A (zh) | 用于人机对话的方法和装置 | |
JP5387416B2 (ja) | 発話分割システム、発話分割方法および発話分割プログラム | |
CN112735398A (zh) | 人机对话模式切换方法及*** | |
CN114385800A (zh) | 语音对话方法和装置 | |
CN112700767B (zh) | 人机对话打断方法及装置 | |
CN111739506A (zh) | 一种应答方法、终端及存储介质 | |
JP4491438B2 (ja) | 音声対話装置、音声対話方法、およびプログラム | |
CN114328867A (zh) | 一种人机对话中智能打断的方法及装置 | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
KR20180127020A (ko) | 자연어 대화체 음성 인식 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |