CN113113013A

CN113113013A - 一种智能语音交互打断处理方法、装置及***

Info

Publication number: CN113113013A
Application number: CN202110407547.3A
Authority: CN
Inventors: 牛歌
Original assignee: Beijing Dipai Intelligent Technology Co ltd
Current assignee: Beijing Dipai Intelligent Technology Co ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-13
Anticipated expiration: 2041-04-15
Also published as: CN113113013B

Abstract

本申请提供了一种智能语音交互打断处理方法、装置及***，当用户需要打断机器人正在播放目标语音时，向机器人发送打断语音，此时，机器人响应于该打断语音，确定所播放的当前语音对应的第一时间戳。为了保证当前语音停止播放时的播放完整性，会预先在当前语音中设置可打断时间戳，以作为真正打断播放语音的节点。当机器人确定第一时间戳之后，需要根据第一时间戳确定相应的可打断时间戳，即第二时间戳，为了可以及时停止播放语音，选择第一时间戳之后的第一个可打断时间戳作为第二时间戳。这样，通过将当前语音持续播放至第二时间戳，不仅可以保证语音的播放完整性，还可以较为及时的停止播放当前语音，以及时回应用户提出的其它需求。

Description

一种智能语音交互打断处理方法、装置及***

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种智能语音交互打断处理方法、装置及***。

背景技术

人机交互(human-computer interaction，HCI)，又称人机互动(human-machineinteraction，HMI)，是指用户与***之间的相互交流。利用人机交互可以有效减少人力成本，例如，在客户服务领域，将人工客服替换为机器人，利用机器人与用户语音对话，以解决用户的一些问题和需求，就可以有效减少人工数量。

为了提高用户的体验感，需要令机器人语音的播放方式，例如语音内容、播放语气、语速、对于用户语音的反应力等，更加贴近于真人对话的模式，其中，对于用户语音的反应力，机器人很难模仿真人对话，例如，当用户不想继续听机器人回复当前问题，就会向机器人发送语音，以打断机器人播放当前语音，通常，机器人在接收到用户的语音信号时，很难掌握停止播放当前语音的打断点，在一些情况下，机器人会选择立即或者随机停止播放当前语音，而这种打断方式会导致已经播放的语音的发音或者语义不完整，不符合真人对话的方式，令用户感觉很生硬，体验感较差；在一些情况下，机器人为了提高已经播放的语音的完整性，会选择延长语音播放时长，但是，这种打断方式又会令当前语音停止的不及时，令用户过长等待，降低体验感。

发明内容

本申请实施例提供了一种智能语音交互打断处理方法、装置及***，以通过准确确定机器人停止播放当前语音的打断点，提高用户与机器人之间语音对话的体验感。

第一方面，本申请实施例提供了一种智能语音交互打断处理方法，包括：接收用户发送的打断语音；获取接收所述打断语音时播放的当前语音所对应的第一时间戳；根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；将所述当前语音播放至所述第二时间戳。

在一种可以实现的方式中，所述接收用户发送的打断语音包括：接收用户发送的语音信号；根据预设规则，判断所述语音信号是否为打断语音；提取所述打断语音。

在一种可以实现的方式中，所述预设规则包括所述语音信号对应的音量大于或者等于预设音量，和/或所述语音信号对应的语义符合预设用于指示停止播放语音的语义。

在一种可以实现的方式中，所述获取接收所述打断语音时播放的当前语音所对应的第一时间戳包括：识别接收所述打断语音时播放的当前语音对应的已播放时间；确定所述已播放时间为第一时间戳。

在一种可以实现的方式中，所述根据所述第一时间戳，确定第二时间戳包括：获取待分析语音，所述待分析语音是指从所述第一时间戳开始至所述目标语音的结尾的语音；根据预设的可打断时间戳与字/词/句子/语义的对应关系，确定所述待分析语音中的全部可打断时间戳；从所述全部可打断时间戳中确定第二时间戳。

在一种可以实现的方式中，所述可打断时间戳对应预设字/词/句子/语义的边界。

在一种可以实现的方式中，所述当前语音的每一个句子包含至少一个所述可打断时间戳。

在一种可以实现的方式中，若所述当前语音的目标句子包含一个可打断时间戳，所述可打断时间戳对应所述目标句子的边界。

第二方面，本申请实施例提供了一种智能语音交互打断处理装置，所述装置包括：打断判断模块，用于接收用户发送的打断语音；第一时间戳获取模块，用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳；第二时间戳获取模块，用于根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；播放模块，用于将所述当前语音播放至所述第二时间戳。

第三方面，本申请实施例提供了一种智能语音交互打断***，包括：接收器、处理器和存储器，所述接收器用于接收用户发送的打断语音，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时，使得所述处理器执行以下程序步骤：获取接收所述打断语音时播放的当前语音所对应的第一时间戳；根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；将所述当前语音播放至所述第二时间戳。

本申请实施例的技术方案，应用于用户与机器人之间的语音对话，当用户需要打断机器人正在播放目标语音时，向机器人发送打断语音，此时，机器人响应于该打断语音，确定所播放的当前语音对应的第一时间戳。为了保证当前语音停止播放时的播放完整性，会预先在当前语音中设置可打断时间戳，以作为真正打断播放语音的节点。当机器人确定第一时间戳之后，需要根据第一时间戳确定相应的可打断时间戳，即第二时间戳，为了可以及时停止播放语音，选择第一时间戳之后的第一个可打断时间戳作为第二时间戳。这样，通过将当前语音持续播放至第二时间戳，不仅可以保证语音的播放完整性，还可以较为及时的停止播放当前语音，以及时回应用户提出的其它需求。

附图说明

图1是本申请实施例提供的一种智能语音交互打断处理方法的流程示意图；

图2是本申请实施例提供的一种智能语音交互打断处理***的结构示意图；

图3是本申请实施例提供的一种提取打断语音的方法的流程示意图；

图4是本申请实施例提供的一种时间戳的设置位置的示意图；

图5是本申请实施例提供的一种确定第一时间戳的方法的流程示意图；

图6是本申请实施例提供的一种可打断时间戳的设置位置的示意图；

图7是本申请实施例提供的一种确定第二时间戳的方法的流程示意图；

图8是本申请实施例提供的一种第一时间戳与第二时间戳的位置对比示意图；

图9是本申请实施例提供的一种智能语音交互打断处理装置的结构示意图。

具体实施方式

为了可以确定合适的打断点，以解决上述问题，本申请实施例提供了一种智能语音交互打断方法，该方法如图1所示，包括以下步骤：

S101、接收用户发送的打断语音。

用户通过电子设备可以与具有语音服务功能的***进行语音交流，该电子设备可以为手机、计算机、智能穿戴设备等具有语音通信功能的设备，该***可以以应用程序(Application，App)、互联网网页等形式呈现在上述电子设备上，例如智能客服、小助手等，该***也可以为实体终端，例如带有语音对话功能的机器人等，在本申请中不对用户所使用的电子设备以及具有语音服务功能的***进行限制。

在一些实施例中，无论***是集成于用户所使用的电子设备中，还是以独立的实体终端存在，通常，该***均包括如图2所示的结构，即该***包括接收器100、处理器200和存储器300，接收器100、处理器200与存储器300相耦合。

在本申请实施例中所提及的接收器100可以为通信接口、天线、麦克风等，其中，接收器100可以是独立的器件，也可以部分或者全部地集成或者封装在处理器200中，成为处理器200的一部分。接收器100可以用于接收用户发送的语音信号。

在本申请实施例中所提及的处理器200可以包括一个或者多个处理单元，例如***芯片(system on a chip，SoC)、中央处理器(central processing unit，CPU)、微控制器(microcontroller，MCU)、存储控制器等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器200中。

在本申请实施例中所提及的存储器300可以包括一个或者多个存储单元，例如可以包括易失性存储器(volatile memory)，如：动态随机存取存储器(dynamic randomaccess memory，DRAM)、静态随机存取存储器(static random access memory，SRAM)等；还可以包括非易失性存储器(non-volatile memory，NVM)，如：只读存储器(read-onlymemory，ROM)、闪存(flash memory)等。其中，不同的存储单元可以是独立的器件，也可以集成或者封装在一个或者多个处理器200中，成为处理器200的一部分。存储器300用于各计算机指令，以供处理器200执行。

用户与***之间进行语音交流，例如用户向***提出问题A，***将针对问题A进行语音回复，具体地，***通过分析问题A的语义或者识别问题A中的关键词等，从预先存储的语料库中确定对应的回复语音，例如语音A，则***将播放语音A，此时，当前正在播放的语音A即为当前语音。一旦用户在***播放语音A的过程中临时提出其它需求，则用户会向***发送语音信号，例如向***提出问题B，此时，用户需要***停止播放语音A，而针对问题B播放回复语音，例如语音B。***接收到问题B时，就需要在合适的时刻停止播放语音A，转换为播放语音B。可见，用户所发送的语音B是指示***停止播放当前语音，也就是语音A的依据。但是，在实际应用中，***通常可以接收到用户发送的任何语音信号，例如用户在聆听语音A时所产生的环境噪音、用户发出的无打断意义的应和声等，如果***在收到用户发送的任何语音信号时，都选择停止播放语音A，则会令语音A的播放不连续，影响用户的交流体验。为了更加准确地针对用户的需求停止播放当前语音，***需要对接收到的用户的语音信号加以识别，以提取用户真正用于指示停止播放语音的打断语音，具体过程可以参照图3，该流程包括：

S301、接收用户发送的语音信号。

S302、根据预设规则，判断所述语音信号是否为打断语音。

S303、提取所述打断语音。

***接收用户发送的语音信号之后，根据预设规则，判断该语音信号是否是打断语音。具体的，该预设规则为语音信号对应的音量大于或者等于预设音量，则判定该语音信号为打断语音，例如，预设音量为40分贝，***接收到用户发送的语音信号a，通过识别语音信号a的分贝，确定语音信号a的分贝为45分贝，大于预设音量，则语音信号a为打断语音。在一些实施例中，由于用户本身或者接收器100的问题，用户发送的语音信号均较小，即使是打断语音的音量也难以达到预设音量，此时的***也就无法准确执行停止播放语音的操作，为了解决上述问题，该预设规则可以为语音信号对应的语义符合预设用于指示停止播放语音的语义，则判定该语音信号为打断语音，例如预设用于指示停止播放语音的语义可以为“提问”，则当***接收到用户发送的语音信号b“我想问一下…”时，通过语义分析，可以得知语音信号b的语义为“提问”，符合预设用于指示停止播放语音的语义，则语音信号b为大段语音。当然，除了上述公开的预设规则，还可以根据实际需求设置规则，例如，预设规则为语音信号包含预设关键词，则判定该语音信号为打断语音等，此处不一一列举。

当准确判别用户发送的语音信号是否为打断语音之后，可以为该语音信号打上相应的标识，例如，为非打断语音打上标识1，为打断语音打上标识2，在本申请所提供的实施例中不对标识的具体内容以及形式加以限制，标识能够区分打断语音与非打断语音即可。这样，可以仅通过识别每个语音信号上所携带的标识，就可以确定该语音信号是否已经被识别过，以避免重复识别，并且可以确定该语音信号是否为打断语音。在确定出打断语音之后，提取该打断语音，以作为指示停止播放当前语音的信号。

S102、获取接收所述打断语音时播放的当前语音所对应的第一时间戳。

***提取到打断语音时，响应该打断语音，确定一个合适的打断时间戳，以作为停止播放当前语音的节点。为了确定该打断时间戳，需要首先确定***在接收打断语音时播放的当前语音所对应的时间戳，即第一时间戳。

在本申请实施例中***可以按照如图4所示的步骤来获取接收打断语音时播放的当前语音所对应的第一时间戳。

S401、识别接收所述打断语音时播放的当前语音对应的已播放时间。

S402、确定所述已播放时间为第一时间戳。

***从语音的起始位置开始计时，在接收到打断语音时停止计时，计时停止对应的时间与计时开始对应的时间之间的时间差，对应语音已播放时间，如图5所示，语音为“预计发货时间是明天”，用Tm代表***接收到大段语音时对应的时间戳，示例地，若在“发”字正在播放时接收到打断语音，则在如图5所示的位置停止计时，停止计时的时间为Tm1，此时，已播放时间为Tm1-0＝Tm1，则第一时间戳为Tm1；若在“时”字播放到边界时接收到打断语音，则在如图5所示的位置停止计时，停止计时的时间为Tm2，此时，已播放时间为Tm2-0＝Tm2，则第一时间戳为Tm2。

S103、根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则。

为了保证语音播放的完整性，需要预先在当前语音中设置一些停止播放的节点，即可打断时间戳，这些可打断时间戳可以通过预先的语音识别技术进行识别和分词、或者通过人工标注获得、或者通过语音合成获得，这些可打断时间戳设置的位置可以令语音的播放符合预设的播放完整性规则，例如播放完整的字/词/句子/语义等，由此，可打断时间戳设置于字/词/句子/语义的边界处，例如，如图6所示，当前语音为“预计发货时间是明天”，设定播放完整性规则为保证词的播放完整性，则可打断时间戳设置在每个词的边界，用Tn代表可打断时间戳，则“预计”对应可打断时间戳Tn1，“发货时间”对应可打断时间戳Tn2，“是”对应可打断时间戳Tn3，“明天”对应可打断时间戳Tn4。***会根据可打断时间戳来停止播放语音，例如***确定可打断时间戳为Tn3，则***会在播放完“是”之后，停止播放当前语音。

在实际设置可打断时间戳时，可以根据不同的需求将可打断时间戳设置在对应的位置。例如，需要保证打断的及时性，则尽量采用较小的基本单位来设置可打断时间戳，例如以字或者词作为基本单位，来设置可打断时间戳，这样，***一旦接收到打断语音，就可以在间隔较少的字符之后停止播放语音；再例如，需要保证打断时已经播放的语音的语义完整性，则需要采用句子或者语义作为基本单位来设置可打断时间戳；再例如，需要在保证打断时已经播放的语音的完整性的基础上，减少***计算量，则可以以句子为基本单位来设置可打断时间戳，即语音中的每一个句子仅在句子的边界处设置一个可打断时间戳。

当***确定了第一时间戳之后，需要根据该第一时间戳来确定一个最合适的可打断时间戳，即第二时间戳，可以参考图7所示的步骤，具体如下：

S701、获取待分析语音，所述待分析语音是指从所述第一时间戳开始至所述目标语音的结尾的语音。

S702、根据预设的可打断时间戳与字/词/句子/语义的对应关系，确定所述待分析语音中的全部可打断时间戳。

S703、从所述全部可打断时间戳中确定第二时间戳。

根据第一时间戳可以将当前语音划分为两部分，即已经播放完毕的语音，以及未播放的语音(待分析语音)，此时需要确定该待分析语音需要播放到什么位置，该位置即通过可打断时间戳来控制。根据上文中已经设定的可打断时间戳与字/词/句子/语义的对应关系，可以确定出待分析语音中的全部可打断时间戳。仍以当前语音为“预计发货时间是明天”为例，若已经确定第一时间戳为Tm2，待分析语音为从Tm2开始到当前语音的结尾的语音，即“间是明天”，根据可打断时间戳与词的对应关系可知，待分析语音中的可打断时间戳包括“Tn2、Tn3、Tn4”，为了保证打断的及时性，选择距离第一时间戳的最近的一个可打断时间戳(也就是第一时间戳之后的第一个可打断时间戳)作为第二时间戳，由图8可知，Tn2为第二时间戳。

S104、将所述当前语音播放至所述第二时间戳。

在确定了第二时间戳之后，***需要控制播放当前语音至第二时间戳，即在“间”播放完毕后停止播放当前语音，其中，Tm2～Tn2之间的时间即为***延续播放的时间。

当然，在一些实施例中，第一时间戳与第二时间戳也可以重合，此时，***立即停止播放当前语音。

在本申请所提供的智能语音交互打断处理方法中，将停止播放当前语音的时间延续至第二时间戳，不仅可以保证语音的播放完整性，还可以较为及时的停止播放当前语音，以及时回应用户提出的其它需求。

本申请实施例还提供了一种智能语音交互打断处理装置，该装置如图9所示可以包括：

打断判断模块901，用于接收用户发送的打断语音；

第一时间戳获取模块902，用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳；

第二时间戳获取模块903，用于根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；

播放模块904，用于将所述当前语音播放至所述第二时间戳。

在一个实施例中，打断判断模块901具体用于接收用户发送的语音信号；根据预设规则，判断所述语音信号是否为打断语音；提取所述打断语音。

在一个实施例中，第一时间戳获取模块902具体用于识别接收所述打断语音时播放的当前语音对应的已播放时间；确定所述已播放时间为第一时间戳。

在一个实施例中，第二时间戳获取模块903具体用于获取待分析语音，所述待分析语音是指从所述第一时间戳开始至所述当前语音的结尾的语音；根据预设的可打断时间戳与字/词/句子/语义的对应关系，确定所述待分析语音中的全部可打断时间戳；从所述全部可打断时间戳中确定第二时间戳。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种智能语音交互打断处理方法，其特征在于，包括：

接收用户发送的打断语音；

获取接收所述打断语音时播放的当前语音所对应的第一时间戳；

根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；

将所述当前语音播放至所述第二时间戳。

2.根据权利要求1所述的方法，其特征在于，所述接收用户发送的打断语音包括：

接收用户发送的语音信号；

根据预设规则，判断所述语音信号是否为打断语音；

提取所述打断语音。

3.根据权利要求2所述的方法，其特征在于，所述预设规则包括所述语音信号对应的音量大于或者等于预设音量，和/或所述语音信号对应的语义符合预设用于指示停止播放语音的语义。

4.根据权利要求1所述的方法，其特征在于，所述获取接收所述打断语音时播放的当前语音所对应的第一时间戳包括：

识别接收所述打断语音时播放的当前语音对应的已播放时间；

确定所述已播放时间为第一时间戳。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一时间戳，确定第二时间戳包括：

获取待分析语音，所述待分析语音是指从所述第一时间戳开始至所述当前语音的结尾的语音；

根据预设的可打断时间戳与字/词/句子/语义的对应关系，确定所述待分析语音中的全部可打断时间戳；

从所述全部可打断时间戳中确定第二时间戳。

6.根据权利要求1所述的方法，其特征在于，所述可打断时间戳对应预设字/词/句子/语义的边界。

7.根据权利要求1所述的方法，其特征在于，所述当前语音的每一个句子包含至少一个所述可打断时间戳。

8.根据权利要求7所述的方法，其特征在于，若所述当前语音的目标句子包含一个可打断时间戳，所述可打断时间戳对应所述目标句子的边界。

9.一种智能语音交互打断处理装置，其特征在于，所述装置包括：

打断判断模块，用于接收用户发送的打断语音；

第一时间戳获取模块，用于获取接收所述打断语音时播放的当前语音所对应的第一时间戳；

第二时间戳获取模块，用于根据所述第一时间戳，确定第二时间戳，所述第二时间戳是指位于所述第一时间戳之后的第一个可打断时间戳，所述可打断时间戳用于指示停止播放所述当前语音，且所述可打断时间戳的设置符合预设的播放完整性规则；

播放模块，用于将所述当前语音播放至所述第二时间戳。

10.一种智能语音交互打断***，其特征在于，包括：接收器、处理器和存储器，所述接收器用于接收用户发送的打断语音，所述存储器存储有计算机程序指令，当所述计算机程序指令被所述处理器执行时，使得所述处理器执行以下程序步骤：

将所述当前语音播放至所述第二时间戳。