CN112669842A

CN112669842A - 人机对话控制方法、装置、计算机设备及存储介质

Info

Publication number: CN112669842A
Application number: CN202011531909.1A
Authority: CN
Inventors: 梁华军
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-16

Abstract

本申请实施例属于人工智能领域，应用于智慧城市领域中，涉及一种人机对话控制方法、装置、计算机设备及存储介质，方法包括：获取当前时刻的机器语音信息以及输入的用户语音信息；将用户语音信息转换为用户对话文本；对用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果，其中，对话切换检测包括切换词句检测以及切换意图检测；根据预设的优先级表给机器语音信息添加优先级别；比对切换检测结果和机器语音信息的优先级别；当切换检测结果的优先级别高于机器语音信息的优先级别时，停止播报机器语音信息，并对切换检测结果进行响应。此外，本申请还涉及区块链技术，切换检测结果可存储于区块链中。本申请提高了人机对话的智能性。

Description

人机对话控制方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人机对话控制方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，人工智能的应用越来越广泛。人机对话是人工智能领域中的重要一环，当前的人机对话旨在实现人与计算机通过人类使用的自然语言进行交流。

语音打断常用于交互式语音应答(IVR，Interactive Voice Response)***，在交互式语音应答***中，计算机可以根据人机对话执行相应的操作。然而当前的交互式语音应答中，计算机缺乏有效的语音打断功能，计算机在播放语音时如果收到了用户的对话，总是要在语音播放完毕后才可以对语音进行相应，使得用户体验较差，人机对话不够智能。

发明内容

本申请实施例的目的在于提出一种人机对话控制方法、装置、计算机设备及存储介质，以解决人机对话不够智能的问题。

为了解决上述技术问题，本申请实施例提供一种人机对话控制方法，采用了如下所述的技术方案：

获取当前时刻的机器语音信息以及输入的用户语音信息；

将所述用户语音信息转换为用户对话文本；

对所述用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果，其中，所述对话切换检测包括切换词句检测以及切换意图检测；

根据预设的优先级表给所述机器语音信息添加优先级别；

比对所述切换检测结果和所述机器语音信息的优先级别；

当所述切换检测结果的优先级别高于所述机器语音信息的优先级别时，停止播报所述机器语音信息，并对所述切换检测结果进行响应。

为了解决上述技术问题，本申请实施例还提供一种人机对话控制装置，采用了如下所述的技术方案：

语音获取模块，用于获取当前时刻的机器语音信息以及输入的用户语音信息；

语音转换模块，用于将所述用户语音信息转换为用户对话文本；

文本检测模块，用于对所述用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果，其中，所述对话切换检测包括切换词句检测以及切换意图检测；

级别添加模块，用于根据预设的优先级表给所述机器语音信息添加优先级别；

级别比对模块，用于比对所述切换检测结果和所述机器语音信息的优先级别；

结果响应模块，用于当所述切换检测结果的优先级别高于所述机器语音信息的优先级别时，停止播报所述机器语音信息，并对所述切换检测结果进行响应。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

获取当前时刻的机器语音信息以及输入的用户语音信息；

将所述用户语音信息转换为用户对话文本；

根据预设的优先级表给所述机器语音信息添加优先级别；

比对所述切换检测结果和所述机器语音信息的优先级别；

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

获取当前时刻的机器语音信息以及输入的用户语音信息；

将所述用户语音信息转换为用户对话文本；

根据预设的优先级表给所述机器语音信息添加优先级别；

比对所述切换检测结果和所述机器语音信息的优先级别；

与现有技术相比，本申请实施例主要有以下有益效果：在进行人机对话时，获取当前时刻的机器语音信息以及用户语音信息后，先将用户语音信息转换为用户对话文本以便进行自然语言处理；对用户对话文本进行对话切换检测，包括切换词句检测以及切换意图检测，以确定用户的对话倾向，得到带有优先级别的切换检测结果；机器语音信息也可以根据预设的优先级表添加优先级别；当切换检测结果的优先级别高于机器语音信息的优先级别时，可以进行对话切换，停止当前播报的机器语音信息，并对切换检测结果进行响应，实现了人机对话的自然切换与打断，用户可以控制人机对话、跳过无关信息，提高了人机对话的智能性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的人机对话控制方法的一个实施例的流程图；

图3是根据本申请的人机对话控制装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的人机对话控制方法一般由服务器执行，相应地，人机对话控制装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的人机对话控制方法的一个实施例的流程图。所述的人机对话控制方法，包括以下步骤：

步骤S201，获取当前时刻的机器语音信息以及输入的用户语音信息。

在本实施例中，人机对话控制方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，机器语音信息可以是人机对话***当前时刻正在播报的语音信息；用户语音信息可以是用户当前时刻的语音信息。

具体地，本申请旨在实现一种可打断的人机对话***。人机对话***在播报语音的同时，获取用户的语音，得到用户语音信息。人机对话***对用户语音信息进行实时处理以便进行及时响应，实现对人机对话的控制。

人机对话***可以由终端和服务器构成，服务器进行人机对话的控制，终端执行服务器的指令。在一些实现方式中，人机对话***可以完全设置在终端中。

步骤S202，将用户语音信息转换为用户对话文本。

其中，用户对话文本可以是将用户语音信息转换为文字后得到的文本。

具体地，服务器接收到机器语音信息以及用户语音信息后，对用户语音信息进行语音识别，将语音转换为文字。可以通过服务器中的语音转换模型进行转换，也可以调用第三方的语音转换接口进行转换，得到用户对话文本。

在一个实施例中，服务器通过自动语音识别技术(Automatic SpeechRecognition，ASR)将用户的语音转换成文本。

步骤S203，对用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果，其中，对话切换检测包括切换词句检测以及切换意图检测。

其中，对话切换检测是对用户对话文本进行意图或倾向检测，以确定用户是否试图切换或打断人机对话。

具体地，人机对话的切换或打断可以通过关键词句或者意图进行打断，因此对话切换检测包括切换词句检测以及切换意图检测。切换词句检测用于检测用户对话文本中的关键词句，例如关键词“停止”表明用户希望打断当前机器语音信息；切换意图检测基于自然语言处理检测用户是否存在切换或打断人机对话的意图，例如，对用户对话文本“这首歌不好听，可以换一首么”进行切换意图检测，可以得到用户存在切换音乐的意图。

为了保证人机对话的合理进行，避免随意的对话打断带来错误与混乱，可以根据预设的优先级表，给切换检测结果添加优先级别。

可以理解，当切换检测结果表明用户不存在切换或打断人机对话的意图或倾向时，可以给切换检测结果添加最低级别的优先级别。

在一个实施例中，优先级别可以通过数字进行表征，数字数值越大，代表优先级别越高。例如，在智能家居的应用场景中，人机对话***可以设置于智能电视中，优先级别共分1-5共5个等级，其中等级1表示最低级别的优先级别，等级5表示最高级别的优先级别。用户对话文本为“这首歌真好听”，智能电视未检测到切换或打断人机对话的意图或倾向，可以给用户对话文本的切换检测结果添加等级1的优先级别。当用户对话文本为“切换到下一首歌”时，检测到用户存在打断当前正在播放的音乐的意图，可以给用户对话文本的切换检测结果添加等级4的优先级别。机器语音信息也有优先级别，如果人机对话***中存在某些不可被打断的机器语音信息，例如某些警示语音时，可以给这些机器语音信息分配等级5，即最高级别的优先级别；对于可以打断的机器语音信息，可以根据机器语音信息的内容分配等级1-4中的某一优先级别。例如，可以给开机问候语音分配等级1的优先级别。

步骤S204，根据预设的优先级表给机器语音信息添加优先级别。

具体地，机器语音信息也具有优先级别。由于人机对话***播报的机器语音信息通常是格式化的，即预先设置好的，每段机器语音信息具有语音标识，可以在预设的优先级表中查询语音标识，从而得到机器语音信息的优先级别。

步骤S205，比对切换检测结果和机器语音信息的优先级别。

具体地，比对切换检测结果的优先级别和机器语音信息的优先级别。由于可能存在一些至关重要的机器语音信息，这些机器语音信息在人机对话中不可打断，为其分配最高的优先级别。

步骤S206，当切换检测结果的优先级别高于机器语音信息的优先级别时，停止播报机器语音信息，并对切换检测结果进行响应。

具体地，当切换检测结果的优先级别高于机器语音信息的优先级别时，表明用户可以对人机对话进行打断或切换，服务器指示终端停止播报机器语音信息。在进行切换检测时，可以确定用户打断人机对话后的意图，这些意图可以添加到切换检测结果中，服务器可以控制终端对切换检测结果进行响应，例如，根据切换检测结果切换音乐或者切换人机对话的聊天话题。

需要强调的是，为进一步保证切换检测结果的私密和安全性，上述切换检测结果还可以存储于一区块链的节点中。以便根据切换检测结果及发生对话切换时的机器语音信息进行统计与优化。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本实施例中，在进行人机对话时，获取当前时刻的机器语音信息以及用户语音信息后，先将用户语音信息转换为用户对话文本以便进行自然语言处理；对用户对话文本进行对话切换检测，包括切换词句检测以及切换意图检测，以确定用户的对话倾向，得到带有优先级别的切换检测结果；机器语音信息也可以根据预设的优先级表添加优先级别；当切换检测结果的优先级别高于机器语音信息的优先级别时，可以进行对话切换，停止当前播报的机器语音信息，并对切换检测结果进行响应，实现了人机对话的自然切换与打断，用户可以控制人机对话、跳过无关信息，提高了人机对话的智能性。

进一步的，上述步骤S202可以包括：

步骤S2021，对用户语音信息进行预处理。

具体地，预处理可以分两步，首先对用户语音信息进行语音端点检测(VoiceActivity Detection,VAD)，从声音信号流里识别并消除长时间的静音，然后对静音消除后的用户语音信息进行分帧，把声音切分成一小段一小段，每小段称为一帧，切分可以通过移动窗函数来实现，各帧之间可以有交叠。

步骤S2022，对预处理后的用户语音信息进行特征提取，得到特征参数。

具体地，语音识别需要对用户语音信息进行数字化，以便根据数字化的用户语音信息还原出音素。服务器对预处理后的用户语音信息提取特征参数，特征参数包括线性预测倒谱系数(LinearPredictionCoefficients，LPCC)和Mel倒谱系数(Mel FrequencyCepstral Coefficents，MFCC)，提取特征参数的目的是把每一帧用户语音信息转换成多维向量。服务器提取线性预测倒谱系数和Mel倒谱系数中的任意一种即可。

步骤S2023，将特征参数输入声学模型，得到与特征参数对应的音素。

具体地，声学模型(Acoustic model，AM，常见于语音识别***)可以是混合高斯模型加隐马尔可夫模型(GMM-HMM)，隐马尔可夫模型对时序信息进行建模，在给定隐马尔可夫模型的一个状态后，混合高斯模型对属于该状态的语音特征向量的概率分布进行建模。声学模型的输入是特征参数，根据特征参数计算每一帧用户语音信息与音素之间的概率，从而输出与特征参数对应的音素。

步骤S2024，在预设的音素字典中查询与音素对应的文字。

具体地，音素字典可以是记录音素与文字对应关系的字典，在中文领域，就是拼音与汉字的对应，在英文中就是音标与单词的对应。服务器在预设的音素字典中根据声学模型识别出来的音素，找到对应的文字。

步骤S2025，通过语言模型对查询到的各文字进行关联计算，并根据计算结果输出用户对话文本。

其中，语言模型可以将语法和字词的知识进行整合，计算文字在一句话中出现的概率。一般自然语言的统计单位是句子，所以语言模型也可以视为句子的概率模型。

具体地，每个音素都有若干对应的文字，将音素所对应的文字进行排列组合，得到多个候选句子，然后通过语言模型(language model，LM)对候选句子中的文字进行关联计算，即计算候选句子中几个文字组成有意义句子的概率。语言模型中可以基于统计学建立，例如n-gram语言模型，也可以是基于深度学习的语言模型。语言模型选取组成句子概率最高的候选句子作为用户对话文本。

本实施例中，从用户语音信息中提取特征参数，借助声学模型由特征参数得到音素，通过音素字典将音素转换成文字，实现了从语音到文字的转换，再通过语言模型对文字进行关联计算，从而准确地获取到具有实际意义的用户对话文本。

进一步的，上述获取当前时刻的机器语音信息以及输入的用户语音信息的步骤之后，还可以包括：接收触发的切换信号，切换信号包括接口切换信号和条件切换信号；在优先级表中查询切换信号的优先级别，得到带有优先级别的切换检测结果。

具体地，切换检测结果还可以根据触发的切换信号生成。切换信号分为两种，一种是接口切换信号，一种是条件切换信号。

终端对外界提供事件接口，当外部调用事件接口时，可以触发接口切换信号。例如，终端通过引导话术提示用户在终端展示的用户页面进行选项选择，当用户勾选某个选项并点击确认按钮，终端即可通过事件接口触发接口切换信号。由于提供给用户的操作是预先设置好的，因此可以查询接口切换信号所对应的优先级别，生成带有优先级别的切换检测结果，该切换检测结果表明用户已经完成了选择，并试图打断当前的引导话术。

条件切换信号来自于人机对话***内部，是在人机对话相关的数据满足一定条件时触发的。例如，终端通过用户页面展示待输入文本框，并通过引导话术指示用户输入相关信息。终端可以同时发送查询请求至服务器，由服务器在数据库中查询是否存在该用户输入的与该文本框对应的历史信息，当存在时，触发条件切换信号，并根据条件切换信号生成带有优先级别的切换检测结果，切换检测结果表明已经获取到相关的数据，并试图打断当前的引导话术。

本实施例中，还可以根据切换信号生成带有优先级别的切换检测结果，切换信号包括接口切换信号和条件切换信号，丰富了打断人机对话的方式。

进一步的，上述步骤S203可以包括：

步骤S2031，对用户对话文本进行切换词句检测。

具体地，用户对话文本中特定的词句可以引发人机对话的打断或切换，这些词句即为切换词句。切换词句具有较强的意图性，且检测较为简便，可以优先对用户对话文本进行切换词句检测。

进一步的，上述步骤S2031可以包括：获取预设的正则表达式；通过获取的正则表达式对用户对话文本进行切换词句检测。

具体地，切换词句的检测可以通过正则表达式实现。服务器获取预设的多个正则表达式，根据正则表达式对用户对话文本进行正则匹配，以检测用户对话文本中的切换词句。

本实施例中，通过正则表达式对用户对话文本进行切换词句检测，简单高效，提高了对话切换检测的效率。

步骤S2032，当检测到用户对话文本中的切换词句时，根据切换词句生成带有优先级别的切换检测结果。

具体地，如果某个正则表达式可以与用户对话文本实现正则匹配，表明用户对话文本中存在切换词句。服务器获取检测到的切换词句，根据优先级表查询切换词句的优先级别，得到切换检测结果。

步骤S2033，当未检测到用户对话文本中的切换词句时，将用户对话文本输入意图检测模型以进行切换意图检测，得到带有优先级别的切换检测结果。

具体地，当未检测到用户对话文本中的切换词句时，需要对用户对话文本进行自然语言处理，以提取用户对话文本中的切换意图。可以将用户对话文本输入意图检测模型，获取到切换意图，并根据优先级表生成切换检测结果。

本实施例中，先对用户对话文本进行切换词句检测，当检测到切换词句时可直接生成切换检测结果，当未检测到切换词句时，在通过意图检测模型进行切换意图检测，保证了快速而准确地实现对话切换检测。

进一步的，在一个实施例中，上述步骤S2033可以包括：

步骤S20331，当未检测到用户对话文本中的切换词句时，将用户对话文本输入意图检测模型，以通过意图检测模型计算用户对话文本与各已存文本的文本相似度。

具体地，当未检测到用户对话文本中地切换词句时，需要将用户对话文本输入意图检测模型。在输入意图检测模型之前，可以先对用户对话文本进行预处理，例如，删除用户对话文本中地语气词等无意义的字词。

意图检测模型将用户对话文本转换为词向量矩阵，然后对词向量矩阵进行卷积、池化，得到用户对话文本的特征向量。服务器中存在多个已存文本，且已存文本预先匹配了对应的文本意图。已存文本已经预先计算好了特征向量，服务器得到用户对话文本的特征向量后，直接获取已存文本的特征向量，从而根据特征向量计算用户对话文本和已存文本的文本相似度。在一个实施例中，文本相似度可以用余弦相似度来衡量。

步骤S20332，根据文本相似度确定与用户对话文本相匹配的已存文本。

具体地，服务器计算用户对话文本与每个已存文本的文本相似度，先获取相似度数值最大的文本相似度，然后将获取到的文本相似度与预设的相似度阈值相比较，当获取到的文本相似度大于相似度阈值时，将获取到的文本相似度对应的已存文本确定为与用户对话文本相匹配的已存文本。

步骤S20333，将确定的已存文本所对应的文本意图确定为用户对话文本的切换检测结果，并给切换检测结果添加优先级别。

具体地，确定匹配的已存文本后，获取已存文本的文本意图并将其作为用户对话文本的切换意图，即切换检测结果，文本意图的优先级别可以作为切换检测结果的优先级别。

在一个实施例中，意图检测模型可以是神经网络模型，服务器可以将用户对话文本输入训练完毕的神经网络模型，由神经网络网络模型将用户对话文本映射到一个具体的分类，得到用户对话文本的意图，并生成最后的切换检测结果。神经网络模型有多种选择，例如，基于上下文机制的模型LSTM；或者基于注意力机制的模型如BERT和Transformer。

本实施例中，通过文本相似度确定与用户对话文本相匹配的已存文本，从而根据已存文本的文本意图生成带有优先级别的切换检测结果，实现了切换意图检测。

进一步的，在一个实施例中，上述步骤S206之后，还可以包括：存储切换检测结果及其对应的机器语音信息，得到对话切换记录；根据对话切换记录生成对话切换统计信息。

具体地，服务器还可以将每次的切换检测结果及其对应的机器语音信息进行存储，得到对话切换记录。对话切换记录记载了哪些机器语音信息播放时产生了对话切换，服务器可以对对话切换记录进行统计得到对话切换统计信息，以便开发人员根据对话切换统计信息对人机对话***进行优化，提高人机对话的效率。

本实施例中，对存储的切换检测结果和机器语音信息进行统计得到对话切换统计信息，对话切换统计信息可以反应机器语音信息被打断或切换的情况，以便根据对话切换统计信息优化人机对话***。

本申请可应用于智慧城市领域中，从而推动智慧城市的建设。例如，本申请可以应用于智慧城市中的智慧社区和智慧教育，在智慧社区中可以用于智慧家居的建设，在智慧教育中可以用于智慧教育、课堂互动等的实现。在此不一一举例。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种人机对话控制装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的人机对话控制装置300包括：语音获取模块301、语音转换模块302、文本检测模块303、级别添加模块304、级别比对模块305以及结果响应模块306，其中：

语音获取模块301，用于获取当前时刻的机器语音信息以及输入的用户语音信息。

语音转换模块302，用于将用户语音信息转换为用户对话文本。

文本检测模块303，用于对用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果，其中，对话切换检测包括切换词句检测以及切换意图检测。

级别添加模块304，用于根据预设的优先级表给机器语音信息添加优先级别。

级别比对模块305，用于比对切换检测结果和机器语音信息的优先级别。

结果响应模块306，用于当切换检测结果的优先级别高于机器语音信息的优先级别时，停止播报机器语音信息，并对切换检测结果进行响应。

在本实施例的一些可选的实现方式中，语音转换模块302包括：预处理子模块、特征提取子模块、参数输入子模块、文字查询子模块以及文本输出子模块，其中：

预处理子模块，用于对用户语音信息进行预处理。

特征提取子模块，用于对预处理后的用户语音信息进行特征提取，得到特征参数。

参数输入子模块，用于将特征参数输入声学模型，得到与特征参数对应的音素。

文字查询子模块，用于在预设的音素字典中查询与音素对应的文字。

文本输出子模块，用于通过语言模型对查询到的各文字进行关联计算，并根据计算结果输出用户对话文本。

在本实施例的一些可选的实现方式中，人机对话控制装置300还包括：信号接收模块以及级别查询模块，其中：

信号接收模块，用于接收触发的切换信号，切换信号包括接口切换信号和条件切换信号。

级别查询模块，用于在优先级表中查询切换信号的优先级别，得到带有优先级别的切换检测结果。

在本实施例的一些可选的实现方式中，文本检测模块303包括：词句检测子模块、结果生成子模块以及文本输入子模块，其中：

词句检测子模块，用于对用户对话文本进行切换词句检测。

结果生成子模块，用于当检测到用户对话文本中的切换词句时，根据切换词句生成带有优先级别的切换检测结果。

文本输入子模块，用于当未检测到用户对话文本中的切换词句时，将用户对话文本输入意图检测模型以进行切换意图检测，得到带有优先级别的切换检测结果。

在本实施例的一些可选的实现方式中，词句检测子模块包括：获取单元以及检测单元，其中：

获取单元，用于获取预设的正则表达式。

检测单元，用于通过获取的正则表达式对用户对话文本进行切换词句检测。

在本实施例的一些可选的实现方式中，文本输入子模块包括：相似度计算单元、文本确定单元以及意图确定单元，其中：

相似度计算单元，用于当未检测到用户对话文本中的切换词句时，将用户对话文本输入意图检测模型，以通过意图检测模型计算用户对话文本与各已存文本的文本相似度。

文本确定单元，用于根据文本相似度确定与用户对话文本相匹配的已存文本。

意图确定单元，用于将确定的已存文本所对应的文本意图确定为用户对话文本的切换检测结果，并给切换检测结果添加优先级别。

在本实施例的另一些可选的实现方式中，人机对话控制装置300还包括：存储模块以及统计生成模块，其中：

存储模块，用于存储切换检测结果及其对应的机器语音信息，得到对话切换记录。

统计生成模块，用于根据对话切换记录生成对话切换统计信息。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如人机对话控制方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述人机对话控制方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的人机对话控制方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种人机对话控制方法，其特征在于，包括下述步骤：

获取当前时刻的机器语音信息以及输入的用户语音信息；

将所述用户语音信息转换为用户对话文本；

根据预设的优先级表给所述机器语音信息添加优先级别；

比对所述切换检测结果和所述机器语音信息的优先级别；

2.根据权利要求1所述的人机对话控制方法，其特征在于，所述将所述用户语音信息转换为用户对话文本的步骤包括：

对所述用户语音信息进行预处理；

对预处理后的用户语音信息进行特征提取，得到特征参数；

将所述特征参数输入声学模型，得到与所述特征参数对应的音素；

在预设的音素字典中查询与所述音素对应的文字；

通过语言模型对查询到的各文字进行关联计算，并根据计算结果输出用户对话文本。

3.根据权利要求1所述的人机对话控制方法，其特征在于，所述获取当前时刻的机器语音信息以及输入的用户语音信息的步骤之后，还包括：

接收触发的切换信号，所述切换信号包括接口切换信号和条件切换信号；

在所述优先级表中查询所述切换信号的优先级别，得到带有优先级别的切换检测结果。

4.根据权利要求1所述的人机对话控制方法，其特征在于，所述对所述用户对话文本进行对话切换检测，得到带有优先级别的切换检测结果的步骤包括：

对所述用户对话文本进行切换词句检测；

当检测到所述用户对话文本中的切换词句时，根据所述切换词句生成带有优先级别的切换检测结果；

当未检测到所述用户对话文本中的切换词句时，将所述用户对话文本输入意图检测模型以进行切换意图检测，得到带有优先级别的切换检测结果。

5.根据权利要求4所述的人机对话控制方法，其特征在于，所述对所述用户对话文本进行切换词句检测的步骤包括：

获取预设的正则表达式；

通过获取的正则表达式对所述用户对话文本进行切换词句检测。

6.根据权利要求4所述的人机对话控制方法，其特征在于，所述当未检测到所述用户对话文本中的切换词句时，将所述用户对话文本输入意图检测模型以进行切换意图检测，得到带有优先级别的切换检测结果的步骤包括：

当未检测到所述用户对话文本中的切换词句时，将所述用户对话文本输入意图检测模型，以通过所述意图检测模型计算所述用户对话文本与各已存文本的文本相似度；

根据所述文本相似度确定与所述用户对话文本相匹配的已存文本；

将确定的已存文本所对应的文本意图确定为所述用户对话文本的切换检测结果，并给所述切换检测结果添加优先级别。

7.根据权利要求1所述的人机对话控制方法，其特征在于，所述当所述切换检测结果的优先级别高于所述机器语音信息的优先级别时，停止播报所述机器语音信息，并对所述切换检测结果进行响应的步骤之后，还包括：

存储所述切换检测结果及其对应的机器语音信息，得到对话切换记录；

根据所述对话切换记录生成对话切换统计信息。

8.一种人机对话控制装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的人机对话控制方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的人机对话控制方法的步骤。