CN112037799B

CN112037799B - 语音中断处理方法、装置、计算机设备和存储介质

Info

Publication number: CN112037799B
Application number: CN202011213393.6A
Authority: CN
Inventors: 王艺霏; 邓锐涛; 刘彦华; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-04-06
Anticipated expiration: 2040-11-04
Also published as: CN112037799A

Abstract

本申请涉及一种语音中断处理方法、装置、计算机设备和存储介质。所述方法包括：在语音播报过程中，获取用户的语音信息；对所述语音信息进行文本转换，得到文本信息；识别所述文本信息中是否存在过滤词；若存在过滤词，则获取所述语音信息对应的当前语音播报话术，根据所述当前语音播报话术对所述文本信息进行语义识别，得到语义识别结果；若所述语义识别结果为中断信息，则中断语音播报。采用本方法能够准确识别语音中断信息以提高业务沟通效率。

Description

语音中断处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音中断处理方法、装置、计算机设备和存储介质。

背景技术

随着互联网技术的发展，通信技术的发展也越来越迅速。越来越多的企业通过智能客服，如智能机器人为用户提供业务服务。在智能客服与用户的沟通过程中，当智能客服在进行语音播报时，会识别是否存在用户的中断信息，若存在中断信息，则中断语音播报。传统方式中，是通过将用户的语音信息转换为文本，判断文本中是否存在中断信息。

然而，传统方式通过文本分析来进行中断信息的判断，识别并不准确，容易造成智能客服被错误中断，致使业务沟通不畅，影响业务沟通效率。因此，如何准确识别语音中断信息以提高业务沟通效率成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确识别语音中断信息以提高业务沟通效率的语音中断处理方法、装置、计算机设备和存储介质。

一种语音中断处理方法，所述方法包括：

在语音播报过程中，获取用户的语音信息；

对所述语音信息进行文本转换，得到文本信息；

识别所述文本信息中是否存在过滤词；

若存在过滤词，则获取所述语音信息对应的当前语音播报话术，根据所述当前语音播报话术对所述文本信息进行语义识别，得到语义识别结果；

若所述语义识别结果为中断信息，则中断语音播报。

在其中一个实施例中，根据所述当前语音播报话术对所述文本信息进行语义识别，得到语义识别结果包括：

根据所述当前语音播报话术确定当前语境类别；

根据所述当前语境类别对所述文本信息进行语义识别，得到语义识别结果。

在其中一个实施例中，根据所述当前语音播报话术确定当前语境类别包括：

识别所述当前语音播报话术是否存在关键句；

若所述当前语音播报话术存在关键句，则确定所述当前语境类别为关键句语境；

若所述当前语音播报话术不存在关键句，则确定所述当前语境类别为标准语境。

在其中一个实施例中，所述根据所述当前语境类别对所述文本信息进行语义识别，得到语义识别结果包括：

若所述当前语境类别为关键句语境，则获取所述当前语音播报话术中的关键句；

确定所述关键句与所述文本信息中的预设过滤词的时序关系；

根据所述时序关系对所述文本信息进行语义识别，得到语义识别结果。

若所述当前语境类别为标准语境，则确定所述文本信息为无效信息，将所述无效信息作为语义识别结果；

所述方法还包括：

根据所述语义识别结果将所述语音信息进行过滤，不中断语音播报，继续播报所述当前语音播报话术。

在其中一个实施例中，在所述若所述语义识别结果为中断信息，则中断语音播报之后，所述方法还包括：

获取所述语音信息对应的完整语音，对所述完整语音进行文本转换，得到待识别文本；

将所述待识别文本输入至预先训练的意图识别模型中，得到意图识别结果；

根据所述意图识别结果执行相应的响应操作。

在其中一个实施例中，所述方法还包括：

若所述文本信息中不存在预设过滤词，则中断语音播报，获取所述语音信息对应的完整语音；

对所述完整语音进行文本转换，得到待识别文本；

根据所述意图识别结果执行相应的响应操作。

在其中一个实施例中，所述根据所述意图识别结果执行相应的响应操作包括：

若所述意图识别结果中存在意图类别，则播报所述意图类别对应的回复信息或者将所述当前语音播报话术对应的节点跳转至所述意图类别对应的节点；

若所述意图识别结果中不存在意图类别，则从所述当前语音播报话术的中断处继续进行语音播报。

一种语音中断处理装置，所述装置包括：

获取模块，用于在语音播报过程中，获取用户的语音信息；

文本转换模块，用于对所述语音信息进行文本转换，得到文本信息；

信息识别模块，用于识别所述文本信息中是否存在过滤词；

语义识别模块，用于若存在过滤词，则获取所述语音信息对应的当前语音播报话术，根据所述当前语音播报话术对所述文本信息进行语义识别，得到语义识别结果；

语音控制模块，用于若所述语义识别结果为中断信息，则中断语音播报。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述语音中断处理方法、装置、计算机设备和存储介质，在语音播报过程中，获取用户的语音信息，对语音信息进行文本转换，得到文本信息。从而识别文本信息中是否存在过滤词，若存在过滤词，获取语音信息对应的当前语音播报话术，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果。若语义识别结果为中断信息，则中断语音播报。能够在语音播报过程中，快速识别用户的对话内容是否存在过滤词，并通过对对话内容进行语义识别，确定当前的对话语境，以区分过滤词在相应对话语境下的中断策略，从而准确判断用户是否为中断意图，进而能够正确执行响应操作，避免了语音播报过程被错误中断，导致业务沟通不畅，甚至对后续对话的流转产生影响的问题，有效提高了终端与用户之间的业务沟通效率。

附图说明

图1为一个实施例中语音中断处理方法的应用环境图；

图2为一个实施例中语音中断处理方法的流程示意图；

图3为一个实施例中根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果步骤的流程示意图；

图4为一个实施例中根据当前语境类别对文本信息进行语义识别，得到语义识别结果步骤的流程示意图；

图5为另一个实施例中语音中断处理方法的流程示意图；

图6为另一个实施例中语音中断处理方法的流程示意图；

图7为一个实施例中语音中断处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音中断处理方法，可以应用于如图1所示的应用环境中。其中，语音采集设备102与终端104通过网络进行通信。终端104在进行语音播报的过程中，通过语音采集设备102采集用户的语音信息，终端104在获取到语音信息后，对语音信息进行文本转换，得到文本信息。从而终端104识别文本信息中是否存在过滤词，若存在过滤词，则获取语音信息对应的当前语音播报话术，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果。若语义识别结果为中断信息，终端104则中断语音播报。能够在播报语音话术时，基于语义识别准确判断用户的语音交互内容，并准确中断语音播报，提高了业务沟通效率。语音采集设备102可以是麦克风、终端等具有语音采集功能的设备。终端104包括但不限于是智能客服、电话机器人、聊天机器人等多种服务类型的机器人。

在一个实施例中，如图2所示，提供了一种语音中断处理方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤202，在语音播报过程中，获取用户的语音信息。

语音播报是指终端进行话术播报的过程。话术是指终端中预先存储的语音交互场景中固定的对话模式。例如，终端正在播报业务咨询信息、业务营销信息，或者终端正在播报新闻信息。语音信息是指终端在语音播报的过程中，实时采集到的用户语音信息。例如，当终端正在播报话术“你好，我是张三银行。请问您是李四吗

”，在播报“你好，我是张三银行”与“请问您是李四吗

”之间的任意时刻采集到用户的语音信息“嗯，我是。”

终端可以通过与用户进行语音交互，为用户提供业务咨询、投诉、在线问答或者语音导航等语音服务。终端在语音交互过程中，会进行语音播报，在此过程中，会实时采集用户的语音信息。其中，用户是指与终端进行语音交互，并提供语音服务的目标用户。在其中一个实施例中，终端可以在语音交互的过程中，预先提取用户的声纹特征，并存储。声纹特征是指声音的特征，每一个说话的声音都有自己的特点，通过声纹特征能将不同人的声音进行有效的区分。当终端在语音播报的过程中，采集到语音信息时，可以提取该语音信息的声纹特征，从而计算提取的声纹特征与预先存储的用户的声纹特征之间的相似度。若相似度达到阈值，终端将该语音信息作为用户的语音信息。阈值也用于表示两个语音信息的声纹特征的预设相似程度。若相似度达到阈值，表明该语音信息的声纹特征与预先存储的用户的声纹特征足够相似，可以确定为用户的语音信息。通过声纹识别能够准确区分目标用户的语音与其他人的语音，进而避免了将用户以外的其他人的语音信息作为用户的语音信息的问题，提高了语音信息采集的准确性。

步骤204，对语音信息进行文本转换，得到文本信息。

终端在采集到语音信息后，可以将语音信息转换为相应的文本信息。与此同时，终端可以正常播报话术。具体的，终端可以采用自动语音识别技术（Automatic SpeechRecognition，简称ASR）对语音信息进行语音识别，得到相应的文本信息。

在其中一个实施例中，终端也可以在采集到语音信息之后，先暂停播报话术，并记录播报话术的暂停位置。例如，当终端正在播报话术“你好，我是张三银行。请问您是李四吗

”，当在“你好，我是张三银行”与“请问您是李四吗

”之间采集到用户的语音信息“嗯，我是。”时，将播报话术的暂停位置记录为“你好，我是张三银行”与“请问您是李四吗

”之间。终端在暂停播报话术之后，可以对语音信息进行文本转换，终端通过暂停播报话术，以获取完整的用户语音，并在响应用户的语音信息之后，从暂停位置处继续播报话术。

在其中一个实施例中，终端还可以对文本信息进行信息删除处理。终端中预先设置并存储有需要删除的预设字符。例如，预设字符可以包括字母、标点符号等对语义识别的准确性起到干扰作用或不起作用的字符。

步骤206，识别文本信息中是否存在过滤词。

步骤208，若存在过滤词，则获取语音信息对应的当前语音播报话术，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果。

终端中预先存储有过滤词表。过滤词表中可以包括统计得到的过滤词。过滤词用于判断是否需要中断语音播报。过滤词可以包括语气词和附和词，例如，语气词：嗯、啊、哦、呀、咦、嗯嗯、哦哦等，附和词：好的、知道、这样等。

由于相同的过滤词在不同的语境下，所需要执行的语音播报中断策略是不同的，因此，当终端识别到文本信息中存在过滤词时，可以根据当前语音播报话术对文本信息进行语义识别。语义识别是指识别文本信息是否为中断信息。语义识别的方式可以是关键句识别，也可以是通过语义识别模型进行语义识别，也可以采用其他语义识别方式，本实施例对此不作限定。

当终端识别到文本信息中不存在过滤词时，表明用户的语音信息为有意义的信息，终端需要中断语音播报并获取用户的完整语音，从而对用户的完整语音进行文本转换、意图识别，得到意图识别结果，进而终端根据意图识别结果作出相应的响应操作。其中，响应操作可以包括回复用户、跳转至相应的语音播报节点或者继续语音播报等多种操作方式。

步骤210，若语义识别结果为中断信息，则中断语音播报。

语义识别结果是指终端根据当前语音播报话术对文本信息进行语音识别得到的识别结果，语义识别结果可以包括中断信息以及非中断信息。中断信息表示文本信息为有意义的信息，终端需要中断语音播报。非中断信息表示文本信息为无效信息且不会影响终端的语音播报过程的信息。若语义识别结果为中断信息，终端立即停止语音播报过程，对文本信息进行意图识别，并根据意图识别结果作出相应的响应操作。其中，响应操作可以包括回复用户、跳转至相应的语音播报节点或者继续语音播报等多种操作方式。

在本实施例中，终端在语音播报过程中，获取用户的语音信息，对语音信息进行文本转换，得到文本信息。从而识别文本信息中是否存在过滤词，若存在过滤词，获取语音信息对应的当前语音播报话术，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果。若语义识别结果为中断信息，则中断语音播报。能够在语音播报过程中，快速识别用户的对话内容是否存在过滤词，并通过对对话内容进行语义识别，确定当前的对话语境，以区分过滤词在相应对话语境下的中断策略，从而准确判断用户是否为中断意图，进而使终端正确执行响应操作，避免了终端的语音播报过程被错误中断，导致业务沟通不畅，甚至对后续对话的流转产生影响的问题，有效提高了终端与用户之间的业务沟通效率。

在一个实施例中，如图3所示，上述步骤208，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果包括：

步骤302，根据当前语音播报话术确定当前语境类别。

步骤304，根据当前语境类别对文本信息进行语义识别，得到语义识别结果。

语义识别是指确定当前语音交互过程所对应的语境类别，并根据语境类别判断文本信息是否为中断信息。其中，语境类别可以包括标准语境以及关键句语境。标准语境是指用户的语音信息不会影响终端的语音播报过程的语境。关键句语境是指终端在播报关键话术时，获取到用户的语音信息，语音信息可能会影响终端的语音播报过程的语境。

若终端根据当前语音播报话术确定当前语境类别为标准语境，则表明用户的文本信息为无效信息，即文本信息对应的语音信息为无效语音，可以直接将语音信息进行过滤，终端不需要中断语音播报，继续播报当前语音播报话术。

若终端根据当前语音播报话术确定当前语境类别为关键句语境，则终端需要进一步识别用户的语音信息是否会影响终端的语音播报过程的语境。终端可以获取关键句语境对应的中断策略，根据获取的中断策略来识别是否需要中断终端的语音播报过程。若需要中断语音播报过程，终端立即停止语音播报过程，对文本信息进行意图识别，并根据意图识别结果作出相应的响应操作。其中，响应操作可以包括回复用户、跳转至相应的语音播报节点或者继续语音播报等多种操作方式。

在本实施例中，通过确定当前语境类别，根据当前语境类别对文本信息进行语义识别，由此可以实现相同过滤词在不同语境类别下选取相应的中断策略，能够更为准确地判断是否需要中断语音播报，从而有效避免了终端的语音播报过程被错误中断，进一步提高了终端与用户之间的业务沟通效率。

在一个实施例中，根据当前语音播报话术确定当前语境类别包括：识别当前语音播报话术是否存在关键句；若当前语音播报话术存在关键句，则确定当前语境类别为关键句语境；若当前语音播报话术不存在关键句，则确定当前语境类别为标准语境。

若终端获取到的语音信息对应的文本信息中存在过滤词，终端获取语音信息对应的当前语音播报话术。当前语音播报话术是指的当前时刻终端播报的固定对话信息。终端可以对当前语音播报话术进行关键句识别，以确定当前语境类别。具体的，终端中预先设置有关键句标记策略。关键句标记策略用于对当前语音播报话术中的语句标记关键句标识。其中，关键句可以包括疑问句、需要用户进行确认的重要信息等多种信息。例如，疑问句可以是“请问你是李四吗

”需要用户进行确认的重要信息可以是“用户李四欠款100元。”终端可以先根据当前语音播报话术中的标点符号对当前语音播报话术进行进行分句处理，得到多个完整语句。标点符号为表示语句结束的标点符号，如“。”、“

”等。两个句子。从而终端根据关键句标记策略识别多个完整语句中是否存在关键句。若存在关键句，终端确定当前语境类别为关键句语境。若不存在关键句，终端则确定当前语境类别为标准语境。

例如，终端的当前语音播报话术为“你好，我是张三银行。请问您是李四吗

”，终端可以根据标点符号将当前语音播报话术拆分为“你好，我是张三银行。”和“请问您是李四吗

”两个句子。终端根据关键句标记策略对拆分得到的两个句子进行关键句识别，识别到“请问您是李四吗

”为关键句，则终端可以对“请问您是李四吗

”添加关键句标识。从而终端确定当前语境类别为关键句语境。

在本实施例中，由于过滤词的边界是比较模糊的，在不同语境类别下的语义可能会有所不同。因此终端通过对当前语音播报话术进行关键句识别来确定当前语境类别，能够提高语义识别准确性。另外，关键句识别的方式简单且有效，能够快速确定当前语境类别，以实现文本信息的语义识别。

在一个实施例中，如图4所示，步骤304，根据当前语境类别对文本信息进行语义识别，得到语义识别结果包括：

步骤402，若当前语境类别为关键句语境，则获取当前语音播报话术中的关键句。

步骤404，确定关键句与文本信息中的预设过滤词的时序关系。

步骤406，根据时序关系对文本信息进行语义识别，得到语义识别结果。

终端在确定当前语境类别后，可以根据当前语境类别对文本信息进行语义识别。当前语境类别可以包括关键句语境，关键句语境是指终端在播报关键话术时，获取到用户的语音信息，语音信息可能会影响终端的语音播报过程的语境。

若终端根据当前语音播报话术确定当前语境类别为关键句语境，则终端需要进一步识别用户的语音信息是否会影响终端的语音播报过程的语境。具体的，终端在当前语音播报话术对应的多个完整语句中查找标记有关键句标识的句子。从而终端可以根据获取文本信息的时间与关键句的播报时间进行比较，确定关键句与文本信息中的预设过滤词的时序关系。时序关系是指时间的先后顺序关系。若终端是在播报关键句之前获取到的包含过滤词的文本信息，则表明该文本信息是无效的，终端可以将文本信息确定为非中断信息。若终端是在播报关键句之后获取到的包含过滤词的文本信息，则表明文本信息是有意义的，终端将文本信息确定为中断信息。

例如，若当前语境类别为关键句语境，终端获取当前语音播报话术拆分得到的两个句子“你好，我是张三银行。”和“请问您是李四吗

”。关键句为“请问您是李四吗

”。当终端在播报“你好，我是张三银行。”时，获取到用户的语音信息，则可以将对应的文本信息确定为非中断信息。当终端在播报“请问您是李四吗

”之后，获取到用户的语音信息，则可以将对应的文本信息确定为中断信息，此时，终端立即中断语音播报，并记录语音播报的中断位置。

在本实施例中，终端通过确定关键句与文本信息中的预设过滤词的时序关系，来对关键句语境下的文本信息进行进一步语义识别，能够结合实际的应用场景，全面考虑关键句语境下的多种情况，由此能够进一步提高语义识别的准确性，从而有效提高用户意图识别的准确性，进而提高业务沟通效率。

在另一个实施例中，如图5所示，提供了一种语音中断处理方法，包括以下步骤：

步骤502，在语音播报过程中，获取用户的语音信息。

步骤504，对语音信息进行文本转换，得到文本信息。

步骤506，识别文本信息中是否存在过滤词。若是，则执行步骤508，若否，则执行步骤510。

步骤508，获取语音信息对应的当前语音播报话术，根据当前语音播报话术确定当前语境类别。根据当前语境类别分别执行步骤512和步骤514。

步骤510，中断语音播报。

步骤512，若当前语境类别为关键句语境，则定位当前语音播报话术中的关键句，确定关键句与文本信息中的预设过滤词的时序关系，根据时序关系对文本信息进行语义识别，得到语义识别结果，若语义识别结果为中断信息，则中断语音播报。

步骤514，若当前语境类别为标准语境，则确定文本信息为无效信息，将无效信息作为语义识别结果，根据语义识别结果将文本信息进行过滤，不中断语音播报，继续播报当前语音播报话术。

若终端识别到文本信息中存在过滤词，则获取语音信息对应的当前语音播报话术，根据当前语音播报话术确定当前语境类别。若当前语境类别为标准语境，则表明用户的语音信息不会影响终端的语音播报过程。终端将文本信息确定为无效信息，并将无效信息作为语义识别结果。因此文本信息对应的语音信息为无效语音。终端可以直接将语音信息进行过滤，终端不需要中断语音播报，继续播报当前语音播报话术。若终端识别到文本信息中不存在过滤词，则可以直接中断语音播报。

在本实施例中，若当前语境类别为标准语境，则将文本信息确定为无效信息，对相应的语音信息进行过滤，继续播报当前语音播报话术。能够在用户发出无效的语音信息时，将该语音信息进行过滤，从而避免了错误中断终端的语音播报，导致业务沟通不畅，甚至对后续对话的流转产生影响的问题，进而提高了业务沟通效率。

在一个实施例中，在若语义识别结果为中断信息，则中断语音播报之后，上述方法还包括：获取语音信息对应的完整语音，对语音信息对应的完整语音进行文本转换，得到待识别文本；将待识别文本输入至预先训练的意图识别模型中，得到意图识别结果；根据意图识别结果执行相应的响应操作。

若终端得到的语音识别结果为中断信息，则终端中断语音播报，以获取用户的完整语音，保证获取到的是完整的语句，有利于后续准确识别用户意图，执行相应的响应操作。终端将用户的完整语音转换为对应的待识别文本。转换方式为自动语音识别（Automatic Speech Recognition，简称ASR）。终端中预先存储有意图识别模型，意图识别模型是通过大量的语音样本训练得到的。意图识别模型可以是卷积神经网络模型。意图识别模型可以包括多个网络层。例如，意图识别模型可以包括输入层、注意力层、卷积层、池化层、全连接层以及输出层。从而终端调用意图识别模型，将待识别文本输入至意图识别模型中，通过意图识别模型对待识别文本进行预测运算，输出意图识别结果。意图识别结果中可以存在意图类别，也可以是不存在意图类别。进而根据意图识别结果执行相应的响应操作。

在其中一个实施例中，根据意图识别结果执行相应的响应操作包括：若意图识别结果中存在意图类别，则播报意图类别对应的回复信息或者将当前语音播报话术对应的节点跳转至意图类别对应的节点；若意图识别结果中不存在意图类别，则从当前语音播报话术的中断处继续进行语音播报。具体的，若意图识别结果中存在意图类别，终端可以在数据库中提取意图类别对应的回复信息，并播报该回复信息，或者是触发当前语音播报话术对应的节点跳转至意图类别对应的节点，还可以是触发其他的语音交互指令。本实施例对此不作限制。能够及时对用户的语音信息作出响应。若意图识别结果中不存在意图类别或是表明用户其他操作请求时，终端可以从当前语音播报话术的中断处进行语音播报，当前语音播报话术的中断处是指中断语音播报时，记录的中断位置。终端无需重新开始进行语音播报，提高了语音交互效率。若意图识别结果表明用户请求进行重播，终端可以从头开始进行语音播报。

在本实施例中，终端在中断语音播报之后，获取用户的完整语音，将完整语音转换为待识别文本，通过意图识别模型对待识别文本进行意图识别，由此可以提高意图识别的准确性。终端根据意图识别结果执行相应的响应操作，能够对用户的语音信息进行及时、准确地响应，由此可提高业务沟通效率。

在另一个实施例中，如图6所示，提供了一种语音中断处理方法，包括以下步骤：

步骤602，在语音播报过程中，获取用户的语音信息。

步骤604，对语音信息进行文本转换，得到文本信息。

步骤606，识别文本信息中是否存在过滤词。若是，则执行步骤608，若否，则执行步骤610-618。

步骤608，获取语音信息对应的当前语音播报话术，根据当前语音播报话术确定当前语境类别。根据当前语境类别分别执行步骤620和步骤622。

步骤610，中断语音播报。

步骤612，获取语音信息对应的完整语音，对完整语音进行文本转换，得到待识别文本。

步骤614，将待识别文本输入至预先训练的意图识别模型中，得到意图识别结果。

步骤616，检测意图识别结果中是否存在意图类别。若是，则执行步骤618，若否，则执行步骤620。

步骤618，播报意图类别对应的回复信息或者将当前语音播报话术对应的节点跳转至意图类别对应的节点。

步骤620，从当前语音播报话术的中断处继续进行语音播报。

步骤622，若当前语境类别为关键句语境，则定位当前语音播报话术中的关键句，确定关键句与文本信息中的预设过滤词的时序关系，根据时序关系对文本信息进行语义识别，得到语义识别结果，若语义识别结果为中断信息，则中断语音播报。继续执行步骤612-620。

步骤624，若当前语境类别为标准语境，则确定文本信息为无效信息，将无效信息作为语义识别结果，根据语义识别结果将文本信息进行过滤，不中断语音播报，继续播报当前语音播报话术。

终端在采集到语音信息后，可以将语音信息转换为相应的文本信息。从而终端识别文本信息中是否存在过滤词。过滤词用于判断是否需要中断语音播报。过滤词可以包括语气词和附和词，例如，语气词：嗯、啊、哦、呀、咦、嗯嗯、哦哦等，附和词：好的、知道、这样等。

若终端识别到文本信息中不存在过滤词，则表明语音信息为有意义的信息，终端需要中断语音播报，以获取用户的完整语音，保证获取到的是完整的语句，有利于后续准确识别用户意图，执行相应的响应操作。终端将用户的完整语音转换为对应的待识别文本。转换方式为自动语音识别（Automatic Speech Recognition，简称ASR）。终端中预先存储有意图识别模型，意图识别模型是通过大量的语音样本训练得到的。意图识别模型可以是卷积神经网络模型。意图识别模型可以包括多个网络层。例如，意图识别模型可以包括输入层、注意力层、卷积层、池化层、全连接层以及输出层。终端调用意图识别模型，将待识别文本输入至意图识别模型中，通过意图识别模型对待识别文本进行预测运算，输出意图识别结果。终端从而检测意图识别结果中是否存在意图类别。若意图识别结果存在意图类别，则终端播报意图类别对应的回复信息或者将当前语音播报话术对应的节点跳转至意图类别对应的节点。若意图识别结果中不存在意图类别或是表明用户其他操作请求时，终端可以从当前语音播报话术的中断处进行语音播报，当前语音播报话术的中断处是指中断语音播报时，记录的中断位置。终端无需重新开始进行语音播报，提高了语音交互效率。本实施例中，若终端识别到文本信息中不存在过滤词，或者文本信息中存在过滤词，且对文本进行语义识别后得到的语义识别结果为中断信息时，终端均需要中断语音播报，中断语音播报后的处理步骤可以是相同的。

在本实施例中，若终端识别到文本信息中不存在过滤词，可以直接中断语音播报，将获取的完整语音转换为待识别文本，通过意图识别模型对待识别文本进行意图识别，由此可以提高意图识别的准确性。终端根据意图识别结果执行相应的响应操作，能够对用户的语音信息进行及时，且准确地响应，由此可提高业务沟通效率。

应该理解的是，虽然图2至6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种语音中断处理装置，包括：获取模块702、文本转换模块704、信息识别模块706、语义识别模块708和语音控制模块710，其中：

获取模块702，用于在语音播报过程中，获取用户的语音信息。

文本转换模块704，用于对语音信息进行文本转换，得到文本信息。

信息识别模块706，用于识别文本信息中是否存在过滤词。

语义识别模块708，用于若存在过滤词，则获取语音信息对应的当前语音播报话术，根据当前语音播报话术对文本信息进行语义识别，得到语义识别结果。

语音控制模块710，用于若语义识别结果为中断信息，则中断语音播报。

在一个实施例中，语义识别模块708还用于根据当前语音播报话术确定当前语境类别；根据当前语境类别对文本信息进行语义识别，得到语义识别结果。

在一个实施例中，语义识别模块708还用于识别当前语音播报话术是否存在关键句；若当前语音播报话术存在关键句，则确定当前语境类别为关键句语境；若当前语音播报话术不存在关键句，则确定当前语境类别为标准语境。

在一个实施例中，语义识别模块708还用于若当前语境类别为关键句语境，则获取当前语音播报话术中的关键句；确定关键句与文本信息中的预设过滤词的时序关系；根据时序关系对文本信息进行语义识别，得到语义识别结果。

在一个实施例中，语义识别模块708还用于若当前语境类别为标准语境，则确定文本信息为无效信息，将无效信息作为语义识别结果。

语音控制模块710还用于根据语义识别结果将语音信息进行过滤，不中断语音播报，继续播报当前语音播报话术。

在一个实施例中，上述装置还包括：

获取模块702还用于获取语音信息对应的完整语音。

文本转换模块704还用于对完整语音进行文本转换，得到待识别文本。

意图识别模块，用于将待识别文本输入至预先训练的意图识别模型中，得到意图识别结果。

响应模块，用于根据意图识别结果执行相应的响应操作。

在一个实施例中，上述装置还包括：

语音控制模块710还用于若文本信息中不存在预设过滤词，中断语音播报。

获取模块702还用于获取语音信息对应的完整语音。

响应模块，用于根据意图识别结果执行相应的响应操作。

在一个实施例中，响应模块，还用于若意图识别结果中存在意图类别，则播报意图类别对应的回复信息或者将当前语音播报话术对应的节点跳转至意图类别对应的节点；若意图识别结果中不存在意图类别，则从当前语音播报话术的中断处继续进行语音播报。

关于语音中断处理装置的具体限定可以参见上文中对于语音中断处理方法的限定，在此不再赘述。上述语音中断处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音中断处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中提供的语音中断处理方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中提供的语音中断处理方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音中断处理方法，其特征在于，所述方法包括：

在语音播报过程中，获取用户的语音信息；

对所述语音信息进行文本转换，得到文本信息；

识别所述文本信息中是否存在过滤词；

若所述语义识别结果为中断信息，则中断语音播报。

2.根据权利要求1所述的方法，其特征在于，根据所述当前语音播报话术对所述文本信息进行语义识别，得到语义识别结果包括：

根据所述当前语音播报话术确定当前语境类别；

3.根据权利要求2所述的方法，其特征在于，根据所述当前语音播报话术确定当前语境类别包括：

识别所述当前语音播报话术是否存在关键句；

4.根据权利要求2至3任意一项所述的方法，其特征在于，所述根据所述当前语境类别对所述文本信息进行语义识别，得到语义识别结果包括：

5.根据权利要求2至3任意一项所述的方法，其特征在于，所述根据所述当前语境类别对所述文本信息进行语义识别，得到语义识别结果包括：

所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在所述若所述语义识别结果为中断信息，则中断语音播报之后，所述方法还包括：

根据所述意图识别结果执行相应的响应操作。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述完整语音进行文本转换，得到待识别文本；

根据所述意图识别结果执行相应的响应操作。

8.根据权利要求6至7中任意一项所述的方法，其特征在于，所述根据所述意图识别结果执行相应的响应操作包括：

9.一种语音中断处理装置，其特征在于，所述装置包括：

获取模块，用于在语音播报过程中，获取用户的语音信息；

信息识别模块，用于识别所述文本信息中是否存在过滤词；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。