CN111128159B

CN111128159B - 智能音箱多渠道下发消息的实现方法及***

Info

Publication number: CN111128159B
Application number: CN201911312805.9A
Authority: CN
Inventors: 魏志斌; 杨谦
Original assignee: Shanghai Zhikan Technology Co ltd
Current assignee: Shanghai Zhikan Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2022-05-31
Anticipated expiration: 2039-12-18
Also published as: CN111128159A

Abstract

本发明公开了一种智能音箱多渠道下发消息的实现方法，首先，将智能音箱语音交互***的云端接入部分连接ASR服务器和TTS服务器，并在智能音箱语音交互***中设置信息分发服务器；当智能音箱终端接收用户发出的语音请求时，ASR服务器将语音请求转换为文本请求，并将文本请求并发送给智能音箱语音交互***中业务逻辑服务器，由业务逻辑服务器生成对应的文本回复结果并将文本回复结果发送给信息分发服务器；然后，由信息分发服务器对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果。本发明可实现智能音箱回复结果的多渠道下发，更好地保护用户隐私，便于回复结果信息的留存。

Description

智能音箱多渠道下发消息的实现方法及***

技术领域

本发明涉及语音交互***中的信息下发方法，尤其涉及一种智能音箱多渠道下发消息的实现方法及***。

背景技术

近两三年，智能音箱市场快速成长，已逐渐成为智能家居的一大流量入口。音箱功能不断增强，为用户提供了越来越丰富多样的服务内容。拥有智能音箱的家庭也越来越多。

现有的智能音箱设备普遍采取语音交互方式，即用户与音箱一问一答的模式。用户在将音箱激活并连入互联网(一般是通过Wifi方式)后，即可以正常说话的方式对音箱发起请求。音箱的麦克风模块接收到此语音请求后，会将此语音数据传递到云端，并通过语音识别技术(Automatic Speech Recognition，即ASR)将其转化成文本数据，然后传递到后端业务逻辑服务器，并结合其他技术(例如自然语音处理技术)，获得对应问题的回复结果，此回复结果在本阶段以文本方式存在。

文本回复结果生成后，智能音箱的处理逻辑一般是通过语音合成技术(Text-To-Speech，即TTS)将其生成语音文件，然后再在音箱平台上播放，用户获得所需应答结果，从而完成语音交互的全流程。

在这个过程中，用户输入和输出都是语音形式，虽然在大部分情况下给用户带来了便利，但也造成了一些问题，例如：

1)用户的有些信息涉及到个人隐私，并不适合于语音播报出来。因为在播报时，语音的呈现不完全受控，会让一定物理空间内的人都接收到，从而导致隐私的泄露。

2)有些信息需要用户留存下来做进一步处理，例如保险产品的详细条款，用户可能需要将其下载打印后再进行仔细查阅，或转发给自己信任的朋友以获取意见和建议，如果只进行语音播报则无法满足这类需求。

3)有些信息中包含较长数字字串，例如用户的保单号，用户需要准确知晓，然后以此去查询相关保单详细信息，如果仅仅语音播报，则用户可能还需提前准备好纸笔，在信息下发时准确进行记录。

4)另外，有些情况是用户想特别设置为以文本方式下发到手机软件APP或短信上的，例如某种类型的商务资讯等等，在音箱现有的语音交互方式下，是难以满足此类需求的。

综上所述，现有智能音箱的完全语音交互方式，并不能带给用户更完美的体验，需要有技术解决方案对音箱进行功能改进，才能更好的解决如上问题。

发明内容

为解决现有技术中的问题，本发明提出了一种智能音箱多渠道下发消息的实现方法和***，以解决在智能音箱与用户进行语音交互时，出现的用户隐私易泄露风险、信息获取不便利、信息留存方式不理想等问题，更好地保护用户隐私，使得下发信息的获取、留存更加顺畅，提升用户体验。

为实现上述目的，第一方面，本发明实施例提供了一种智能音箱多渠道下发消息的实现方法和***，包括如下步骤：

步骤S1：将智能音箱语音交互***的云端接入部分连接自动语音识别(ASR)服务器和文本转语音(TTS)服务器，并在智能音箱语音交互***中设置信息分发服务器；

步骤S2：当智能音箱终端接收用户发出的语音请求时，自动语音识别(ASR)服务器将语音请求转换为文本请求，并将文本请求发送给智能音箱语音交互***中的业务逻辑服务器，由业务逻辑服务器生成对应的文本回复结果并将文本回复结果发送给信息分发服务器；

步骤S3：信息分发服务器对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果。

作为优选地，在所述步骤S3中：

当确定的下发通道为语音通道，则将文本回复结果发送给文本转语音(TTS)服务器，由文本转语音(TTS)服务器将文本回复结果转换为语音回复结果并发送给智能音箱终端进行语音播报；

当确定的下发通道为短信通道，则将文本回复结果发送给短信网关服务器，由短信网关服务器以短信形式发送给与智能音箱终端关联的手机终端；

当确定的下发通道为APP通道，则将文本回复结果发送给APP接入服务器，由APP接入服务器以APP消息形式发送给与智能音箱终端关联的手机APP。

作为优选地，所述步骤S3进一步包括：

步骤S31：信息分发服务器获取识别结果后，根据识别结果生成文本确认请求；

步骤S32：将文本确认请求发送给文本转语音(TTS)服务器，由文本转语音(TTS)服务器将文本确认请求转换为语音确认请求并发送给智能音箱终端进行语音播报；

步骤S33：当智能音箱终端接收到应答结果后，将应答结果发送给信息分发服务器；

步骤S34：信息分发服务器根据识别结果和应答结果确定下发通道，下发文本回复结果。

作为优选地，在所述步骤S3中，信息分发服务器对文本回复结果进行识别过程包括：

步骤A1：判断文本回复结果中是否包含用户隐私内容，若是，则跳转至步骤A5，否则进行下一步；

步骤A2：判断文本回复结果中是否包含长本文内容，若是，则跳转至步骤A5，否则进行下一步；

步骤A3：判断文本回复结果中是否包含长数字序列内容，若是，则跳转至步骤A5，否则进行下一步；

步骤A4：选取语音通道为下发通道，将文本回复结果发送给文本转语音(TTS)服务器，由文本转语音(TTS)服务器将文本回复结果转换为语音回复结果并发送给智能音箱终端进行语音播报；

步骤A5：判断文本回复结果是否适合APP下发，若是，将文本回复结果发送给APP接入服务器，由APP接入服务器以APP消息形式发送给与智能音箱终端关联的手机APP，否则进行下一步；

步骤A6：将文本回复结果发送给短信网关服务器，由短信网关服务器以短信形式发送给与智能音箱终端关联的手机终端。

第二方面，本发明实施例提供了一种在智能音箱上多渠道下发消息的***，其包括音箱接入服务器、业务逻辑服务器和信息分发服务器；

音箱接入服务器用于与智能音箱终端进行语音文件的交互，其连接自动语音识别(ASR)服务器和文本转语音(TTS)服务器，可将智能音箱终端接收的语音文件发送给自动语音识别(ASR)服务器进行文本化处理，以及接收并播报文本转语音(TTS)服务器发送过来的语音文件；

业务逻辑服务器用于根据自动语音识别(ASR)服务器转换得到文本请求，生成对应的文本回复结果并将文本回复结果发送给信息分发服务器；

信息分发服务器用于对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果。

作为优选地，所述信息分发服务器通过文本转语音(TTS)服务器与音箱接入服务器通讯连接。

作为优选地，所述信息分发服务器通过APP接入服务器与音箱接入服务器通讯连接。

作为优选地，所述信息分发服务器通过短信网关服务器与音箱接入服务器通讯连接。

作为优选地，所述业务逻辑服务器采用自然语音处理(NLP)技术生成与文本请求对应的文本回复结果。

作为优选地，所述信息分发服务器还用于根据识别结果生成文本确认请求，当智能音箱终端接收到应答结果后，将应答结果发送给信息分发服务器；信息分发服务器根据识别结果和应答结果确定下发通道，下发文本回复结果。

根据本发明所描述的技术***和实现方法，在不需要投入太多资源的前提下，通过信息分发服务器中预设的智能判定规则以及用户设定的特定规则对文本回复结果的进行识别，将文本回复结果适合的方式下方给智能音箱终端、手机终端的短信端或APP端，有效的解决了用户的隐私泄露问题、信息获取不便利问题、信息留存不理想问题等问题，更好地保护用户隐私，使得下发的文本回复结果的获取、留存更顺畅，提升用户体验，增强智能音箱终端的市场竞争力，有利于智能音箱终端的普及。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为应用本发明所述方法的多渠道下发消息***的框架结构图；

图2为用户ID与智能音箱终端ID的绑定示意图；

图3为信息分发服务器分渠道下发文本回复结果的流程示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“***”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地***、分布式***中另一元件交互的，和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。

本发明通过在智能音箱语音交互***中加入信息分发服务器，语音交互***通过对文本回复结果进行识别，并根据识别结果选择不同的信息通道下方文本回复结果，实现多渠道下发消息。图1示意性地显示了应用本发明所述方法的多渠道下发消息***的框架结构图，如图1所示，多渠道下发消息***包括智能音箱终端、音箱接入服务器、业务逻辑服务器和信息分发服务器。

智能音箱终端用于接收用户的语音请求，并播报后端发送过来的语音文件。如图2所示，用户在使用智能音箱终端前，首先需要将用户ID与智能音箱终端的设备ID进行绑定，绑定过程通过手机终端上的手机APP客户端来完成。用户在初次使用智能音箱终端时，需在APP客户端识别该智能音箱终端，然后在WiFi场景下，在APP客户端为智能音箱终端配置相应的参数，使得智能音箱终端连接手机终端所接入的WiFi网络。智能音箱终端接入WiFi网络，将自动将其设备ID(即设备唯一序列号)与用户在手机APP客户端注册的用户ID传递到后端，在后端将设备ID与用户ID进行绑定，形成用户ID与设备ID的映射表，以便于后续的业务逻辑处理和信息分渠道下发。

音箱接入服务器用于与智能音箱终端进行语音文件的交互，该音箱接入服务器通过自动语音识别(ASR)服务器(以下简称ASR服务器)和业务逻辑服务器通讯连接，音箱接入服务器从前端的智能音箱终端接收到用户的语音请求后，ASR服务器将该语音请求转换为文本请求并发送给后端的业务逻辑服务器进行逻辑处理。音箱接入服务器还通过文本转语音(TTS)服务器(以下简称TTS服务器)和信息分发服务器通讯连接，TTS服务器将从后端的信息分发服务器接收到的文本回复结果为语音回复结果，并发送给音箱接入服务器，由音箱接入服务器发送至前端的智能音箱终端进行语音播报。

业务逻辑服务器用于根据接收的文本请求，进行自然语音处理(NLP)判断，结合智能音箱语音交互***的数据库中的数据，进行业务处理，然后生成需要下发的文本回复结果。在本实施例中，该业务逻辑服务器的业务处理逻辑与现有智能音箱的业务处理逻辑相同，在此不具体详述。

信息分发服务器用于对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果。信息分发服务器内预设分渠道下发规则，通过预设的分渠道下发规则对文本回复结果进行识别并确定下发通道。具体地，该分渠道下发规则包括：

a)是否有用户特别设置的规则。用户可以通过APP进行一些特别设置，如针对某种类别的信息全部选择以APP消息或者短信形式下发。

b)信息中是否包含用户的隐私内容。如本次下发的文本回复结果中包括用户或与用户有利益相关人或亲缘关系人的姓名、住址等信息，则选择以APP消息或者短信形式下发。

用户查询保单时，若文本回复结果中包含被保人姓名、住址等信息，以文本形式下发至手机可有效避免用户隐私泄露。

c)信息是否为长文本内容。如本次下发的文本回复结果的统计字数超过设定的500字，以APP消息或者短信形式下发。

在保险产品中，一项或多项保险条款不可避免的会形成长文本，而这些条款是用户需要认真思考甚至是要转发给别人进行讨论的内容，以文本形式下发更为合适。

d)信息中是否有长数字序列。如本次下发的文本回复结果中包含长数字序列信息，选择以APP消息或者短信形式下发。

用户查询保单时，若文本回复结果包含保单号，而保单号往往是一个长数字序列，如果以语音播报则无法留存。

e)其他需要以非语音方式下发的规则。

应当说明的是，上述规则仅为部分示意，并未完整详细的识别下发规则，***服务商或者用户可根据实际需要对下发规则进行添加、删除和修改等操作。

该信息分发服务器通过APP接入服务器与手机终端的APP客户端通讯连接。APP接入服务器用于与手机终端的APP客户端进行多种类型数据的交互，用户在APP客户端提交请求(至少包括文本类型的请求)，APP接入服务器将该请求发往后端进行处理，而APP接入服务器也可接收后端发送过来的文本回复结果，并将文本回复结果以APP消息的形式发送给手机APP客户端。

该信息分发服务器通过短信网关服务器与手机终端的短信客户端通讯连接。短信网关服务器用于将文本回复结果以短信形式递送到短信网关并进行下发至手机终端的短信客户端，由于短信客户端仅用于接收文本回复结果，故短信网关服务器与手机短信客户端之间为单向下行通讯。

该信息分发服务器还用于根据识别结果生成文本确认请求，当智能音箱终端接收到应答结果后，将应答结果发送给信息分发服务器；信息分发服务器根据识别结果和应答结果确定下发通道，下发文本回复结果。

在识别过程中，如果文本回复结果适配了上述某一条规则，信息分发服务器会根据识别结果生成文本确认请求，并发送给TTS服务器，由TTS服务器将文本确认请求转换为语音确认请求发送给前端的智能音箱终端进行播报，供用户在前端应答确认。当智能音箱终端接收应答结果后，ASR服务器将应答结果转换为本文应答结果并通过业务逻辑服务器发送给信息分发服务器，信息分发服务器再根据文本应答结果选择以APP消息或者短信形式下发文本回复结果。

基于上述***，本发明提供的智能音箱多渠道下发消息的实现方法包括如下步骤：

步骤1：当智能音箱终端接收用户发出的语音请求时，ASR服务器将语音请求转换为文本请求，并将文本请求并发送给业务逻辑服务器，由业务逻辑服务器生成对应的文本回复结果并将文本回复结果发送给信息分发服务器。

步骤2：信息分发服务器对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果。

具体地，在步骤2中：

当确定的下发通道为语音通道，则将文本回复结果发送给TTS服务器，由TTS服务器将文本回复结果转换为语音回复结果并发送给智能音箱终端进行语音播报；

当确定的下发通道为短信通道，则将文本回复结果发送给短信网关服务器，由短信网关服务器以短信形式发送给与智能音箱终端关联的手机终端，并在手机短信客户端展示；

当确定的下发通道为APP通道，则将文本回复结果发送给APP接入服务器，由APP接入服务器以APP消息形式发送给与智能音箱终端关联的手机APP，并在手机APP客户端展示。

作为优选地，步骤2进一步包括：

步骤21：信息分发服务器获取识别结果后，根据识别结果生成文本确认请求；

步骤22：将文本确认请求发送给文本转语音(TTS)服务器，由文本转语音(TTS)服务器将文本确认请求转换为语音确认请求并发送给智能音箱终端进行语音播报，以供用户应答确认。

步骤23：当智能音箱终端接收到用户的应答结果后，将应答结果发送给信息分发服务器；

通过结合用户的应答结果确认下发通道，使得文本回复结果的下发更加贴合用户的需求。

具体地，如图3所示，在步骤2中，信息分发服务器对文本回复结果进行识别过程包括：

步骤A4：选取语音通道为下发通道为语音通道，将文本回复结果发送给文本转语音(TTS)服务器，由文本转语音(TTS)服务器将文本回复结果转换为语音回复结果并发送给智能音箱终端进行语音播报；

为增进对上述实现方法的理解，以智能音箱终端在保险行业的应用，进行举例说明：

应当说明的是，用户作为保险客户使用智能音箱终端时，鉴于保险业务的特殊性，当用户在手机APP客户端将用户ID与智能音箱终端的设备ID绑定时，会同时绑定用户的身份信息，用户与智能音箱终端进行语音交互时，后端的业务逻辑服务器有权限调用与用户ID匹配的相关保险产品信息，以进行正常的语音交互。

例如，当用户对智能音箱终端用语音提问：“我有几份保单？”

智能音箱终端接收到语音问题后，通过ASR服务器进行文本转换，并在业务逻辑服务器端进行业务处理后生成文本回复结果，通过信息下发服务器时未触发预设的下发规则，直接发送给TTS服务器进行语音合成，并在智能音箱终端以语音应答用户：“您有两份保单，一份车险，一份寿险。”

再例如，用户对智能音箱终端提问：“寿险保单被保险人是谁？”

智能音箱终端通过ASR服务器和业务逻辑服务器生成文本回复结果，在信息下发服务器对该文本回复结果进行识别时，匹配到上述规则b，此时信息下发服务器生成一文本确认请求，通过TTS服务器发往智能音箱终端进行语音播报：“此信息涉及您的隐私，所以不进行语音播报，以文字形式发送到您的手机APP上”。同时，信息下发服务器将文本回复结果发往用户的手机APP客户端并显示。

若用户在APP上查看文本回复结果后，继续对智能音箱终端进行语音提问：“我想看看这份寿险的详细条款。”

智能音箱终端接收到提问后，在业务逻辑服务器生成另外的文本回复结果，经过信息分发服务器的识别后，触发上述规则c，则另外生成文本确认请求，并通过TTS服务器发往智能音箱终端进行语音播报：“详细条款字数超过六千，如语音播报则需要30分钟，所以建议以文字形式发送到您的手机APP上，您是否同意？”

用户应答：“同意”，则智能音箱终端将此详细条款发往用户的手机APP客户端。

若用户继续对智能音箱终端提问：“我想看查一下这份寿险的保单号。”

智能音箱终端的处理流程如上所述，触发规则d后，通过智能音箱终端进行语音播报：“您可能需要记录您的保单号，不进行语音播报，请问是发到您的手机APP还是短信上？”

如果用户应答：“发送短信。”，则信息分发服务器将此信息以及用户的手机号码信息转发到短信网关服务器，通过短信网关以短信形式下发至用户的手机短信客户端。；

如果用户应答“发送手机APP。”，则信息分发服务器将此信息APP消息形式通过APP接入服务器发往用户的手机APP客户端。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种智能音箱多渠道下发消息的实现方法，其特征在于，包括如下步骤：

步骤S3：信息分发服务器对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果；

在所述步骤S3中：

2.如权利要求1所述的智能音箱多渠道下发消息的实现方法，其特征在于，所述步骤S3进一步包括：

3.如权利要求1所述的智能音箱多渠道下发消息的实现方法，其特征在于，在所述步骤S3中，信息分发服务器对文本回复结果进行识别过程包括：

4.一种智能音箱多渠道下发消息的***，为智能音箱语音交互***，其特征在于，包括音箱接入服务器、业务逻辑服务器和信息分发服务器；

信息分发服务器用于对文本回复结果进行识别，并根据获得的识别结果确定下发通道，下发文本回复结果；

所述信息分发服务器通过文本转语音(TTS)服务器与音箱接入服务器通讯连接；

所述信息分发服务器通过APP接入服务器与手机终端的APP客户端通讯连接。

5.如权利要求4所述的智能音箱多渠道下发消息的***，其特征在于，所述信息分发服务器通过短信网关服务器与手机终端的短信客户端通讯连接。

6.如权利要求4所述的智能音箱多渠道下发消息的***，其特征在于，所述业务逻辑服务器采用自然语音处理(NLP)技术生成与文本请求对应的文本回复结果。

7.如权利要求4-6任意一项所述的智能音箱多渠道下发消息的***，其特征在于，所述信息分发服务器还用于根据识别结果生成文本确认请求，当智能音箱终端接收到应答结果后，将应答结果发送给信息分发服务器；信息分发服务器根据识别结果和应答结果确定下发通道，下发文本回复结果。