CN113113013A - 一种智能语音交互打断处理方法、装置及*** - Google Patents
一种智能语音交互打断处理方法、装置及*** Download PDFInfo
- Publication number
- CN113113013A CN113113013A CN202110407547.3A CN202110407547A CN113113013A CN 113113013 A CN113113013 A CN 113113013A CN 202110407547 A CN202110407547 A CN 202110407547A CN 113113013 A CN113113013 A CN 113113013A
- Authority
- CN
- China
- Prior art keywords
- voice
- timestamp
- playing
- interruptible
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种智能语音交互打断处理方法、装置及***,当用户需要打断机器人正在播放目标语音时,向机器人发送打断语音,此时,机器人响应于该打断语音,确定所播放的当前语音对应的第一时间戳。为了保证当前语音停止播放时的播放完整性,会预先在当前语音中设置可打断时间戳,以作为真正打断播放语音的节点。当机器人确定第一时间戳之后,需要根据第一时间戳确定相应的可打断时间戳,即第二时间戳,为了可以及时停止播放语音,选择第一时间戳之后的第一个可打断时间戳作为第二时间戳。这样,通过将当前语音持续播放至第二时间戳,不仅可以保证语音的播放完整性,还可以较为及时的停止播放当前语音,以及时回应用户提出的其它需求。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种智能语音交互打断处理方法、装置及***。
背景技术
人机交互(human-computer interaction,HCI),又称人机互动(human-machineinteraction,HMI),是指用户与***之间的相互交流。利用人机交互可以有效减少人力成本,例如,在客户服务领域,将人工客服替换为机器人,利用机器人与用户语音对话,以解决用户的一些问题和需求,就可以有效减少人工数量。
为了提高用户的体验感,需要令机器人语音的播放方式,例如语音内容、播放语气、语速、对于用户语音的反应力等,更加贴近于真人对话的模式,其中,对于用户语音的反应力,机器人很难模仿真人对话,例如,当用户不想继续听机器人回复当前问题,就会向机器人发送语音,以打断机器人播放当前语音,通常,机器人在接收到用户的语音信号时,很难掌握停止播放当前语音的打断点,在一些情况下,机器人会选择立即或者随机停止播放当前语音,而这种打断方式会导致已经播放的语音的发音或者语义不完整,不符合真人对话的方式,令用户感觉很生硬,体验感较差;在一些情况下,机器人为了提高已经播放的语音的完整性,会选择延长语音播放时长,但是,这种打断方式又会令当前语音停止的不及时,令用户过长等待,降低体验感。
发明内容
本申请实施例提供了一种智能语音交互打断处理方法、装置及***,以通过准确确定机器人停止播放当前语音的打断点,提高用户与机器人之间语音对话的体验感。
第一方面,本申请实施例提供了一种智能语音交互打断处理方法,包括:接收用户发送的打断语音;获取接收所述打断语音时播放的当前语音所对应的第一时间戳;根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;将所述当前语音播放至所述第二时间戳。
在一种可以实现的方式中,所述接收用户发送的打断语音包括:接收用户发送的语音信号;根据预设规则,判断所述语音信号是否为打断语音;提取所述打断语音。
在一种可以实现的方式中,所述预设规则包括所述语音信号对应的音量大于或者等于预设音量,和/或所述语音信号对应的语义符合预设用于指示停止播放语音的语义。
在一种可以实现的方式中,所述获取接收所述打断语音时播放的当前语音所对应的第一时间戳包括:识别接收所述打断语音时播放的当前语音对应的已播放时间;确定所述已播放时间为第一时间戳。
在一种可以实现的方式中,所述根据所述第一时间戳,确定第二时间戳包括:获取待分析语音,所述待分析语音是指从所述第一时间戳开始至所述目标语音的结尾的语音;根据预设的可打断时间戳与字/词/句子/语义的对应关系,确定所述待分析语音中的全部可打断时间戳;从所述全部可打断时间戳中确定第二时间戳。
在一种可以实现的方式中,所述可打断时间戳对应预设字/词/句子/语义的边界。
在一种可以实现的方式中,所述当前语音的每一个句子包含至少一个所述可打断时间戳。
在一种可以实现的方式中,若所述当前语音的目标句子包含一个可打断时间戳,所述可打断时间戳对应所述目标句子的边界。
第二方面,本申请实施例提供了一种智能语音交互打断处理装置,所述装置包括:打断判断模块,用于接收用户发送的打断语音;第一时间戳获取模块,用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳;第二时间戳获取模块,用于根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;播放模块,用于将所述当前语音播放至所述第二时间戳。
第三方面,本申请实施例提供了一种智能语音交互打断***,包括:接收器、处理器和存储器,所述接收器用于接收用户发送的打断语音,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时,使得所述处理器执行以下程序步骤:获取接收所述打断语音时播放的当前语音所对应的第一时间戳;根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;将所述当前语音播放至所述第二时间戳。
本申请实施例的技术方案,应用于用户与机器人之间的语音对话,当用户需要打断机器人正在播放目标语音时,向机器人发送打断语音,此时,机器人响应于该打断语音,确定所播放的当前语音对应的第一时间戳。为了保证当前语音停止播放时的播放完整性,会预先在当前语音中设置可打断时间戳,以作为真正打断播放语音的节点。当机器人确定第一时间戳之后,需要根据第一时间戳确定相应的可打断时间戳,即第二时间戳,为了可以及时停止播放语音,选择第一时间戳之后的第一个可打断时间戳作为第二时间戳。这样,通过将当前语音持续播放至第二时间戳,不仅可以保证语音的播放完整性,还可以较为及时的停止播放当前语音,以及时回应用户提出的其它需求。
附图说明
图1是本申请实施例提供的一种智能语音交互打断处理方法的流程示意图;
图2是本申请实施例提供的一种智能语音交互打断处理***的结构示意图;
图3是本申请实施例提供的一种提取打断语音的方法的流程示意图;
图4是本申请实施例提供的一种时间戳的设置位置的示意图;
图5是本申请实施例提供的一种确定第一时间戳的方法的流程示意图;
图6是本申请实施例提供的一种可打断时间戳的设置位置的示意图;
图7是本申请实施例提供的一种确定第二时间戳的方法的流程示意图;
图8是本申请实施例提供的一种第一时间戳与第二时间戳的位置对比示意图;
图9是本申请实施例提供的一种智能语音交互打断处理装置的结构示意图。
具体实施方式
人机交互(human-computer interaction,HCI),又称人机互动(human-machineinteraction,HMI),是指用户与***之间的相互交流。利用人机交互可以有效减少人力成本,例如,在客户服务领域,将人工客服替换为机器人,利用机器人与用户语音对话,以解决用户的一些问题和需求,就可以有效减少人工数量。
为了提高用户的体验感,需要令机器人语音的播放方式,例如语音内容、播放语气、语速、对于用户语音的反应力等,更加贴近于真人对话的模式,其中,对于用户语音的反应力,机器人很难模仿真人对话,例如,当用户不想继续听机器人回复当前问题,就会向机器人发送语音,以打断机器人播放当前语音,通常,机器人在接收到用户的语音信号时,很难掌握停止播放当前语音的打断点,在一些情况下,机器人会选择立即或者随机停止播放当前语音,而这种打断方式会导致已经播放的语音的发音或者语义不完整,不符合真人对话的方式,令用户感觉很生硬,体验感较差;在一些情况下,机器人为了提高已经播放的语音的完整性,会选择延长语音播放时长,但是,这种打断方式又会令当前语音停止的不及时,令用户过长等待,降低体验感。
为了可以确定合适的打断点,以解决上述问题,本申请实施例提供了一种智能语音交互打断方法,该方法如图1所示,包括以下步骤:
S101、接收用户发送的打断语音。
用户通过电子设备可以与具有语音服务功能的***进行语音交流,该电子设备可以为手机、计算机、智能穿戴设备等具有语音通信功能的设备,该***可以以应用程序(Application,App)、互联网网页等形式呈现在上述电子设备上,例如智能客服、小助手等,该***也可以为实体终端,例如带有语音对话功能的机器人等,在本申请中不对用户所使用的电子设备以及具有语音服务功能的***进行限制。
在一些实施例中,无论***是集成于用户所使用的电子设备中,还是以独立的实体终端存在,通常,该***均包括如图2所示的结构,即该***包括接收器100、处理器200和存储器300,接收器100、处理器200与存储器300相耦合。
在本申请实施例中所提及的接收器100可以为通信接口、天线、麦克风等,其中,接收器100可以是独立的器件,也可以部分或者全部地集成或者封装在处理器200中,成为处理器200的一部分。接收器100可以用于接收用户发送的语音信号。
在本申请实施例中所提及的处理器200可以包括一个或者多个处理单元,例如***芯片(system on a chip,SoC)、中央处理器(central processing unit,CPU)、微控制器(microcontroller,MCU)、存储控制器等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器200中。
在本申请实施例中所提及的存储器300可以包括一个或者多个存储单元,例如可以包括易失性存储器(volatile memory),如:动态随机存取存储器(dynamic randomaccess memory,DRAM)、静态随机存取存储器(static random access memory,SRAM)等;还可以包括非易失性存储器(non-volatile memory,NVM),如:只读存储器(read-onlymemory,ROM)、闪存(flash memory)等。其中,不同的存储单元可以是独立的器件,也可以集成或者封装在一个或者多个处理器200中,成为处理器200的一部分。存储器300用于各计算机指令,以供处理器200执行。
用户与***之间进行语音交流,例如用户向***提出问题A,***将针对问题A进行语音回复,具体地,***通过分析问题A的语义或者识别问题A中的关键词等,从预先存储的语料库中确定对应的回复语音,例如语音A,则***将播放语音A,此时,当前正在播放的语音A即为当前语音。一旦用户在***播放语音A的过程中临时提出其它需求,则用户会向***发送语音信号,例如向***提出问题B,此时,用户需要***停止播放语音A,而针对问题B播放回复语音,例如语音B。***接收到问题B时,就需要在合适的时刻停止播放语音A,转换为播放语音B。可见,用户所发送的语音B是指示***停止播放当前语音,也就是语音A的依据。但是,在实际应用中,***通常可以接收到用户发送的任何语音信号,例如用户在聆听语音A时所产生的环境噪音、用户发出的无打断意义的应和声等,如果***在收到用户发送的任何语音信号时,都选择停止播放语音A,则会令语音A的播放不连续,影响用户的交流体验。为了更加准确地针对用户的需求停止播放当前语音,***需要对接收到的用户的语音信号加以识别,以提取用户真正用于指示停止播放语音的打断语音,具体过程可以参照图3,该流程包括:
S301、接收用户发送的语音信号。
S302、根据预设规则,判断所述语音信号是否为打断语音。
S303、提取所述打断语音。
***接收用户发送的语音信号之后,根据预设规则,判断该语音信号是否是打断语音。具体的,该预设规则为语音信号对应的音量大于或者等于预设音量,则判定该语音信号为打断语音,例如,预设音量为40分贝,***接收到用户发送的语音信号a,通过识别语音信号a的分贝,确定语音信号a的分贝为45分贝,大于预设音量,则语音信号a为打断语音。在一些实施例中,由于用户本身或者接收器100的问题,用户发送的语音信号均较小,即使是打断语音的音量也难以达到预设音量,此时的***也就无法准确执行停止播放语音的操作,为了解决上述问题,该预设规则可以为语音信号对应的语义符合预设用于指示停止播放语音的语义,则判定该语音信号为打断语音,例如预设用于指示停止播放语音的语义可以为“提问”,则当***接收到用户发送的语音信号b“我想问一下…”时,通过语义分析,可以得知语音信号b的语义为“提问”,符合预设用于指示停止播放语音的语义,则语音信号b为大段语音。当然,除了上述公开的预设规则,还可以根据实际需求设置规则,例如,预设规则为语音信号包含预设关键词,则判定该语音信号为打断语音等,此处不一一列举。
当准确判别用户发送的语音信号是否为打断语音之后,可以为该语音信号打上相应的标识,例如,为非打断语音打上标识1,为打断语音打上标识2,在本申请所提供的实施例中不对标识的具体内容以及形式加以限制,标识能够区分打断语音与非打断语音即可。这样,可以仅通过识别每个语音信号上所携带的标识,就可以确定该语音信号是否已经被识别过,以避免重复识别,并且可以确定该语音信号是否为打断语音。在确定出打断语音之后,提取该打断语音,以作为指示停止播放当前语音的信号。
S102、获取接收所述打断语音时播放的当前语音所对应的第一时间戳。
***提取到打断语音时,响应该打断语音,确定一个合适的打断时间戳,以作为停止播放当前语音的节点。为了确定该打断时间戳,需要首先确定***在接收打断语音时播放的当前语音所对应的时间戳,即第一时间戳。
在本申请实施例中***可以按照如图4所示的步骤来获取接收打断语音时播放的当前语音所对应的第一时间戳。
S401、识别接收所述打断语音时播放的当前语音对应的已播放时间。
S402、确定所述已播放时间为第一时间戳。
***从语音的起始位置开始计时,在接收到打断语音时停止计时,计时停止对应的时间与计时开始对应的时间之间的时间差,对应语音已播放时间,如图5所示,语音为“预计发货时间是明天”,用Tm代表***接收到大段语音时对应的时间戳,示例地,若在“发”字正在播放时接收到打断语音,则在如图5所示的位置停止计时,停止计时的时间为Tm1,此时,已播放时间为Tm1-0=Tm1,则第一时间戳为Tm1;若在“时”字播放到边界时接收到打断语音,则在如图5所示的位置停止计时,停止计时的时间为Tm2,此时,已播放时间为Tm2-0=Tm2,则第一时间戳为Tm2。
S103、根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则。
为了保证语音播放的完整性,需要预先在当前语音中设置一些停止播放的节点,即可打断时间戳,这些可打断时间戳可以通过预先的语音识别技术进行识别和分词、或者通过人工标注获得、或者通过语音合成获得,这些可打断时间戳设置的位置可以令语音的播放符合预设的播放完整性规则,例如播放完整的字/词/句子/语义等,由此,可打断时间戳设置于字/词/句子/语义的边界处,例如,如图6所示,当前语音为“预计发货时间是明天”,设定播放完整性规则为保证词的播放完整性,则可打断时间戳设置在每个词的边界,用Tn代表可打断时间戳,则“预计”对应可打断时间戳Tn1,“发货时间”对应可打断时间戳Tn2,“是”对应可打断时间戳Tn3,“明天”对应可打断时间戳Tn4。***会根据可打断时间戳来停止播放语音,例如***确定可打断时间戳为Tn3,则***会在播放完“是”之后,停止播放当前语音。
在实际设置可打断时间戳时,可以根据不同的需求将可打断时间戳设置在对应的位置。例如,需要保证打断的及时性,则尽量采用较小的基本单位来设置可打断时间戳,例如以字或者词作为基本单位,来设置可打断时间戳,这样,***一旦接收到打断语音,就可以在间隔较少的字符之后停止播放语音;再例如,需要保证打断时已经播放的语音的语义完整性,则需要采用句子或者语义作为基本单位来设置可打断时间戳;再例如,需要在保证打断时已经播放的语音的完整性的基础上,减少***计算量,则可以以句子为基本单位来设置可打断时间戳,即语音中的每一个句子仅在句子的边界处设置一个可打断时间戳。
当***确定了第一时间戳之后,需要根据该第一时间戳来确定一个最合适的可打断时间戳,即第二时间戳,可以参考图7所示的步骤,具体如下:
S701、获取待分析语音,所述待分析语音是指从所述第一时间戳开始至所述目标语音的结尾的语音。
S702、根据预设的可打断时间戳与字/词/句子/语义的对应关系,确定所述待分析语音中的全部可打断时间戳。
S703、从所述全部可打断时间戳中确定第二时间戳。
根据第一时间戳可以将当前语音划分为两部分,即已经播放完毕的语音,以及未播放的语音(待分析语音),此时需要确定该待分析语音需要播放到什么位置,该位置即通过可打断时间戳来控制。根据上文中已经设定的可打断时间戳与字/词/句子/语义的对应关系,可以确定出待分析语音中的全部可打断时间戳。仍以当前语音为“预计发货时间是明天”为例,若已经确定第一时间戳为Tm2,待分析语音为从Tm2开始到当前语音的结尾的语音,即“间是明天”,根据可打断时间戳与词的对应关系可知,待分析语音中的可打断时间戳包括“Tn2、Tn3、Tn4”,为了保证打断的及时性,选择距离第一时间戳的最近的一个可打断时间戳(也就是第一时间戳之后的第一个可打断时间戳)作为第二时间戳,由图8可知,Tn2为第二时间戳。
S104、将所述当前语音播放至所述第二时间戳。
在确定了第二时间戳之后,***需要控制播放当前语音至第二时间戳,即在“间”播放完毕后停止播放当前语音,其中,Tm2~Tn2之间的时间即为***延续播放的时间。
当然,在一些实施例中,第一时间戳与第二时间戳也可以重合,此时,***立即停止播放当前语音。
在本申请所提供的智能语音交互打断处理方法中,将停止播放当前语音的时间延续至第二时间戳,不仅可以保证语音的播放完整性,还可以较为及时的停止播放当前语音,以及时回应用户提出的其它需求。
本申请实施例还提供了一种智能语音交互打断处理装置,该装置如图9所示可以包括:
打断判断模块901,用于接收用户发送的打断语音;
第一时间戳获取模块902,用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳;
第二时间戳获取模块903,用于根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;
播放模块904,用于将所述当前语音播放至所述第二时间戳。
在一个实施例中,打断判断模块901具体用于接收用户发送的语音信号;根据预设规则,判断所述语音信号是否为打断语音;提取所述打断语音。
在一个实施例中,第一时间戳获取模块902具体用于识别接收所述打断语音时播放的当前语音对应的已播放时间;确定所述已播放时间为第一时间戳。
在一个实施例中,第二时间戳获取模块903具体用于获取待分析语音,所述待分析语音是指从所述第一时间戳开始至所述当前语音的结尾的语音;根据预设的可打断时间戳与字/词/句子/语义的对应关系,确定所述待分析语音中的全部可打断时间戳;从所述全部可打断时间戳中确定第二时间戳。
本申请实施例的技术方案,应用于用户与机器人之间的语音对话,当用户需要打断机器人正在播放目标语音时,向机器人发送打断语音,此时,机器人响应于该打断语音,确定所播放的当前语音对应的第一时间戳。为了保证当前语音停止播放时的播放完整性,会预先在当前语音中设置可打断时间戳,以作为真正打断播放语音的节点。当机器人确定第一时间戳之后,需要根据第一时间戳确定相应的可打断时间戳,即第二时间戳,为了可以及时停止播放语音,选择第一时间戳之后的第一个可打断时间戳作为第二时间戳。这样,通过将当前语音持续播放至第二时间戳,不仅可以保证语音的播放完整性,还可以较为及时的停止播放当前语音,以及时回应用户提出的其它需求。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种智能语音交互打断处理方法,其特征在于,包括:
接收用户发送的打断语音;
获取接收所述打断语音时播放的当前语音所对应的第一时间戳;
根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;
将所述当前语音播放至所述第二时间戳。
2.根据权利要求1所述的方法,其特征在于,所述接收用户发送的打断语音包括:
接收用户发送的语音信号;
根据预设规则,判断所述语音信号是否为打断语音;
提取所述打断语音。
3.根据权利要求2所述的方法,其特征在于,所述预设规则包括所述语音信号对应的音量大于或者等于预设音量,和/或所述语音信号对应的语义符合预设用于指示停止播放语音的语义。
4.根据权利要求1所述的方法,其特征在于,所述获取接收所述打断语音时播放的当前语音所对应的第一时间戳包括:
识别接收所述打断语音时播放的当前语音对应的已播放时间;
确定所述已播放时间为第一时间戳。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一时间戳,确定第二时间戳包括:
获取待分析语音,所述待分析语音是指从所述第一时间戳开始至所述当前语音的结尾的语音;
根据预设的可打断时间戳与字/词/句子/语义的对应关系,确定所述待分析语音中的全部可打断时间戳;
从所述全部可打断时间戳中确定第二时间戳。
6.根据权利要求1所述的方法,其特征在于,所述可打断时间戳对应预设字/词/句子/语义的边界。
7.根据权利要求1所述的方法,其特征在于,所述当前语音的每一个句子包含至少一个所述可打断时间戳。
8.根据权利要求7所述的方法,其特征在于,若所述当前语音的目标句子包含一个可打断时间戳,所述可打断时间戳对应所述目标句子的边界。
9.一种智能语音交互打断处理装置,其特征在于,所述装置包括:
打断判断模块,用于接收用户发送的打断语音;
第一时间戳获取模块,用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳;
第二时间戳获取模块,用于根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;
播放模块,用于将所述当前语音播放至所述第二时间戳。
10.一种智能语音交互打断***,其特征在于,包括:接收器、处理器和存储器,所述接收器用于接收用户发送的打断语音,所述存储器存储有计算机程序指令,当所述计算机程序指令被所述处理器执行时,使得所述处理器执行以下程序步骤:
获取接收所述打断语音时播放的当前语音所对应的第一时间戳;
根据所述第一时间戳,确定第二时间戳,所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳,所述可打断时间戳用于指示停止播放所述当前语音,且所述可打断时间戳的设置符合预设的播放完整性规则;
将所述当前语音播放至所述第二时间戳。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407547.3A CN113113013B (zh) | 2021-04-15 | 2021-04-15 | 一种智能语音交互打断处理方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110407547.3A CN113113013B (zh) | 2021-04-15 | 2021-04-15 | 一种智能语音交互打断处理方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113113013A true CN113113013A (zh) | 2021-07-13 |
CN113113013B CN113113013B (zh) | 2022-03-18 |
Family
ID=76717454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110407547.3A Active CN113113013B (zh) | 2021-04-15 | 2021-04-15 | 一种智能语音交互打断处理方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113113013B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863929A (zh) * | 2022-07-11 | 2022-08-05 | 深圳市人马互动科技有限公司 | 语音交互方法、装置、***、计算机设备和存储介质 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001110147A (ja) * | 1999-10-06 | 2001-04-20 | Victor Co Of Japan Ltd | 情報再生装置 |
US20080074542A1 (en) * | 2006-09-26 | 2008-03-27 | Mingxia Cheng | Method and system for error robust audio playback time stamp reporting |
CN104584096A (zh) * | 2012-09-10 | 2015-04-29 | 苹果公司 | 由智能数字助理进行的中断的上下文相关处理 |
US9106731B1 (en) * | 2012-09-27 | 2015-08-11 | West Corporation | Identifying recorded call data segments of interest |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
CN108986784A (zh) * | 2017-06-05 | 2018-12-11 | 卡西欧计算机株式会社 | 语音输出控制装置及语音输出控制方法 |
CN109117484A (zh) * | 2018-08-13 | 2019-01-01 | 北京帝派智能科技有限公司 | 一种语音翻译方法和语音翻译设备 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN111312242A (zh) * | 2020-02-13 | 2020-06-19 | 上海凯岸信息科技有限公司 | 一种不影响对话管理的意图打断智能语音机器人方案 |
CN111508477A (zh) * | 2019-08-02 | 2020-08-07 | 马上消费金融股份有限公司 | 语音播报方法、装置、设备及存储装置 |
CN111508527A (zh) * | 2020-04-17 | 2020-08-07 | 北京帝派智能科技有限公司 | 一种电话应答状态检测方法、装置及服务器 |
CN111540349A (zh) * | 2020-03-27 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语音的打断方法和装置 |
CN111970409A (zh) * | 2020-10-21 | 2020-11-20 | 深圳追一科技有限公司 | 基于人机交互的语音处理方法、装置、设备和存储介质 |
CN112037799A (zh) * | 2020-11-04 | 2020-12-04 | 深圳追一科技有限公司 | 语音中断处理方法、装置、计算机设备和存储介质 |
CN112053687A (zh) * | 2020-07-31 | 2020-12-08 | 出门问问信息科技有限公司 | 一种语音处理方法、装置、计算机可读存储介质及设备 |
-
2021
- 2021-04-15 CN CN202110407547.3A patent/CN113113013B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001110147A (ja) * | 1999-10-06 | 2001-04-20 | Victor Co Of Japan Ltd | 情報再生装置 |
US20080074542A1 (en) * | 2006-09-26 | 2008-03-27 | Mingxia Cheng | Method and system for error robust audio playback time stamp reporting |
CN104584096A (zh) * | 2012-09-10 | 2015-04-29 | 苹果公司 | 由智能数字助理进行的中断的上下文相关处理 |
US9106731B1 (en) * | 2012-09-27 | 2015-08-11 | West Corporation | Identifying recorded call data segments of interest |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
CN108986784A (zh) * | 2017-06-05 | 2018-12-11 | 卡西欧计算机株式会社 | 语音输出控制装置及语音输出控制方法 |
CN109117484A (zh) * | 2018-08-13 | 2019-01-01 | 北京帝派智能科技有限公司 | 一种语音翻译方法和语音翻译设备 |
CN111508477A (zh) * | 2019-08-02 | 2020-08-07 | 马上消费金融股份有限公司 | 语音播报方法、装置、设备及存储装置 |
CN110867197A (zh) * | 2019-10-23 | 2020-03-06 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN110853638A (zh) * | 2019-10-23 | 2020-02-28 | 吴杰 | 语音交互过程中实时打断语音机器人的方法及设备 |
CN111312242A (zh) * | 2020-02-13 | 2020-06-19 | 上海凯岸信息科技有限公司 | 一种不影响对话管理的意图打断智能语音机器人方案 |
CN111540349A (zh) * | 2020-03-27 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语音的打断方法和装置 |
CN111508527A (zh) * | 2020-04-17 | 2020-08-07 | 北京帝派智能科技有限公司 | 一种电话应答状态检测方法、装置及服务器 |
CN112053687A (zh) * | 2020-07-31 | 2020-12-08 | 出门问问信息科技有限公司 | 一种语音处理方法、装置、计算机可读存储介质及设备 |
CN111970409A (zh) * | 2020-10-21 | 2020-11-20 | 深圳追一科技有限公司 | 基于人机交互的语音处理方法、装置、设备和存储介质 |
CN112037799A (zh) * | 2020-11-04 | 2020-12-04 | 深圳追一科技有限公司 | 语音中断处理方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
JERRY L. FRANKE,等: "Recovering Context After Interruption", 《PROCEEDINGS OF THE ANNUAL MEETING OF THE COGNITIVE SCIENCE》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114863929A (zh) * | 2022-07-11 | 2022-08-05 | 深圳市人马互动科技有限公司 | 语音交互方法、装置、***、计算机设备和存储介质 |
CN114863929B (zh) * | 2022-07-11 | 2022-10-21 | 深圳市人马互动科技有限公司 | 语音交互方法、装置、***、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113113013B (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962283B (zh) | 一种发问结束静音时间的确定方法、装置及电子设备 | |
WO2019134474A1 (zh) | 语音控制方法及装置 | |
CN109767763B (zh) | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 | |
CN111326154B (zh) | 语音交互的方法、装置、存储介质及电子设备 | |
JP7158217B2 (ja) | 音声認識方法、装置及びサーバ | |
CN110675861B (zh) | 语音断句方法、装置、设备及存储介质 | |
CN109979440B (zh) | 关键词样本确定方法、语音识别方法、装置、设备和介质 | |
CN108305611B (zh) | 文本转语音的方法、装置、存储介质和计算机设备 | |
CN111797632A (zh) | 信息处理方法、装置及电子设备 | |
CN112466302A (zh) | 语音交互的方法、装置、电子设备和存储介质 | |
CN113113013B (zh) | 一种智能语音交互打断处理方法、装置及*** | |
CN111583933B (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN103514882A (zh) | 一种语音识别方法及*** | |
CN106649253A (zh) | 基于后验证的辅助控制方法及*** | |
CN112686051A (zh) | 语义识别模型训练方法、识别方法、电子设备、存储介质 | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN114678027A (zh) | 语音识别结果的纠错方法、装置、终端设备及存储介质 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
WO2011007627A1 (ja) | 音声処理装置および方法ならびに記憶媒体 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN112992117B (zh) | 多语言语音模型生成方法、装置、计算机设备及存储介质 | |
CN115565518A (zh) | 互动游戏中玩家配音的处理方法及相关装置 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN109524010A (zh) | 一种语音控制方法、装置、设备及存储介质 | |
CN113345437A (zh) | 语音打断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |