CN113946674A

CN113946674A - 一种实现人机对话时实时性通话的方法及装置

Info

Publication number: CN113946674A
Application number: CN202111576051.5A
Authority: CN
Inventors: 余文芳; 曾文佳; 陈新月; 宋成业; 冯梦盈; 梁鹏斌; 李航; 韩亚昕
Original assignee: Lingxi Beijing Technology Co Ltd
Current assignee: Lingxi Beijing Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-01-18

Abstract

本申请属于通信技术领域，公开了一种实现人机对话时实时性通话的方法及装置，该方法包括，确定接收到用户终端发送的语音消息时，获得用户语音音频；对语音音频进行音频识别，获得语音音频对应的音频文本；对音频文本进行语义分析，获得用户请求的对话方式；若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。这样，在进行人工对话转接时，可以实现实时转接人工，提高了转接效率以及提升了用户体验感。

Description

一种实现人机对话时实时性通话的方法及装置

技术领域

本申请涉及通信技术领域，具体而言，涉及一种实现人机对话时实时性通话的方法及装置。

背景技术

随着互联网技术的发展，为减少人力成本，通常通过虚拟客服程序与用户进行对话，为用户提供咨询服务。当虚拟客服程序确定用户请求与人工客服进行对话时，将用户的对话转接至人工客服终端。

但是，现有技术下，虚拟客服程序进行人工转接时，通常需要用户长时间的等待，无法进行实时人工转接，转接效率较低。

由此，在进行人工对话转接时，如何提高转接效率，是一个需要解决的技术问题。

发明内容

本申请的目的在于提供一种实现人机对话时实时性通话的方法及装置，用以在进行人工对话转接时，提高转接效率。

一方面，提供一种实现人机对话时实时性通话的方法，包括：

确定接收到用户终端发送的语音消息时，获得用户语音音频；

对语音音频进行音频识别，获得语音音频对应的音频文本；

对音频文本进行语义分析，获得用户请求的对话方式；

若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；

基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。

在上述实现过程中，通过对用户语音音频对应的音频文本进行识别，确定用户请求人工对话时，建立用户终端与人工客服终端之间的连接，并基于音频文本对应的应答话术文件，向用户终端发送对话响应消息，以实现实时转接人工，提高了用户体验感。

一种实施方式中，建立用户终端与人工客服终端之间的连接，包括：

从各人工客服终端中，筛选出处于空闲状态的空闲人工客服终端；

向语音服务器发送所述用户终端发送的连接请求消息，使得所述语音服务器基于所述连接请求消息，建立用户终端与空闲人工客服终端之间的连接。

在上述实现过程中，通过各人工客服终端的使用情况，缩小了对人工客服终端的选择范围，进一步提高了用户终端与人工客服终端之间的连接效率。

一种实施方式中，对音频文本进行语义分析，确定用户请求的对话方式，包括：

若音频文本中包含指定信息，则确定用户请求的对话方式为人工对话。

在上述实现过程中，通过识别音频文本中包含的指定信息，就可以准确获得用户请求的对话方式。

一种实施方式中，应答话术文件包括应答话术文本、应答话术音频、应答话术视频以及应答话术图像中的至少一种。

在上述实现过程中，可以根据应答话术文件，快速找到与用户语音消息对应的应答话术，进而提高转接效率。

一种实施方式中，对音频文本进行语义分析，获得用户请求的对话方式，包括：

将音频文本输入至决策科学模型，获得对话方式。

在上述实现过程中，可以根据决策科学模型，准确获得用户的对话方式。

一种实施方式中，将音频文本对应的应答话术文件，发送至用户终端，包括：

获取音频文本对应的用户服务需求，其中，用户服务需求是对音频文本进行语义分析后获得；

获取针对用户服务需求设置的应答话术文件；

将应答话术文件发送至用户终端。

在上述实现过程中，可以根据用户服务需求，从应答话术文件中，快速获取针对用户服务需求设置的应答话术文件，提高了获取应答话术文件的效率。

若应答话术的文件类型为应答话术文本，则将应答话术文件进行音频转换，获得应答话术音频，并将应答话术音频发送至用户终端；

若应答话术的文件类型为音频，则将应答话术文件发送至用户终端。

在上述实现过程中，若获取到的应答话术文件中只有应答话术文本，则可以将应答话术文本进行音频转换，获得应答话术音频。

一方面，提供一种实现人机对话时实时性通话的装置，包括：

获得单元，用于确定接收到用户终端发送的语音消息时，获得用户语音音频；

识别单元，用于对语音音频进行音频识别，获得语音音频对应的音频文本；

分析单元，用于对音频文本进行语义分析，获得用户请求的对话方式；

连接单元，用于若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；

发送单元，用于基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。

一种实施方式中，连接单元用于:

一种实施方式中，分析单元用于:

将音频文本输入至决策科学模型，获得对话方式。

一种实施方式中，发送单元用于:

获取针对用户服务需求设置的应答话术文件；

将应答话术文件发送至用户终端。

一种实施方式中，发送单元用于:

一方面，提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上述任一种实现人机对话时实时性通话的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时运行如上述任一种实现人机对话时实时性通话的各种可选实现方式中提供的方法的步骤。

一方面，提供了一种计算机程序产品，计算机程序产品在计算机上运行时，使得计算机执行如上述任一种实现人机对话时实时性通话的各种可选实现方式中提供的方法的步骤。

本申请实施例中，确定接收到用户终端发送的语音消息时，获得用户语音音频；对语音音频进行音频识别，获得语音音频对应的音频文本；对音频文本进行语义分析，获得用户请求的对话方式；若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。这样，在进行对话转接的过程中，若确定获得的音频文本中包含用户请求人工对话信息时，则建立用户终端与人工客服终端之间的连接，并基于音频文本对应的应答话术文件，向用户终端发送对话响应消息，实现了实时转接人工，进一步提高了用户体验感。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种实现人机对话时实时性通话的***的架构示意图；

图2为本申请实施例提供的一种实现人机对话时实时性通话的方法的实施流程图；

图3为本申请实施例提供的一种实现人机对话时实时性通话的方法的交互流程图；

图4为本申请实施例提供的一种实现人机对话时实时性通话的装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。

用户设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信***设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口（例如可穿戴设备）等。

语音服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

机器人流程自动化（Robotic Process Automation，RPA）：是一种应用程序，它通过模仿最终用户在电脑的手动操作方式，提供了另一种方式来使最终用户手动操作流程自动化。

对话管理(Dialogue Manager，DM)：控制着人机对话的过程，DM根据对话历史信息，决定此对用户的反应。

自动语音识别技术（Automatic Speech Recognition，ASR）：是一种将人的语音转换为文本的技术。

自然语言理解（Natural Language Understanding，NLU）：也称人机对话。人工智能的分支学科，研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。

决策科学(Decision Science，DS)：是建立在现代自然科学和社会科学基础上的，研究决策原理、决策程序和决策方法的一门综合性学科。

常见问题库(Frequently Asked Questions，FAQ)：是当前网络上提供在线帮助的主要手段，通过事先组织好一些可能的常问问答对，发布在网页上为用户提供咨询服务。

为了在进行对话转接时，可以实现实时转接人工，提高用户体验感，本申请实施例提供了一种实现人机对话时实时性通话的方法及装置。

参阅图1所示，为本申请实施例一种实现人机对话时实时性通话的***的架构示意图，该实现对话转接时实时性通话的***包括用户终端、虚拟客服设备、语音服务器和人工客服终端，其中，人工客服终端的数量可以为1个，也可以为n个，n为正整数，在此不作限制。虚拟客服设备中包括虚拟客服设备流程自动化模块、自动语言识别模块、自然语言理解模块以及对话管理模块。

用户终端：可以为终端设备或服务器，用于向虚拟客服设备发送语音消息、接收虚拟客服设备返回的应答话术文件以及与人工客服终端进行对话。

虚拟客服设备流程自动化模块：用于接收用户终端发送的语音信息，获得语音音频。

自动语言识别模块：用于对语音音频进行音频识别，获得语音音频对应的音频文本。

自然语言理解模块：用于对用户语音音频对应的音频文本进行用户意图、用户态度以及实体语义分析，获得分析结果，并将分析结果发送至对话管理模块。

对话管理模块：用于根据自然语言理解模块发送的分析结果，获得与音频文本对应的应答话术文件，并将应答话术文件发送至虚拟客服设备流程自动化模块，使得机器人流程自动化模块根据获得应答话术文件向用户终端发送对话响应消息。

语音服务器：用于向语音服务器发送用户终端发送的连接请求消息，使得语音服务器基于所述连接请求消息，建立用户终端与人工客服终端之间的连接。

人工客服终端：用于与用户终端建立连接，并基于建立的连接与用户终端进行交互。

一种实施方式中，若获得的分析结果表征用户请求的对话方式为人工对话，则虚拟客服设备从各人工客服终端中，筛选出处于空闲状态的空闲人工客服终端，虚拟客服设备向向语音服务器发送用户终端发送的连接请求消息，使得语音服务器基于连接请求消息，建立用户终端与人工客服终端之间的连接，使得用户可以通过用户终端直接与人工客服终端进行交互。

本申请实施例中，执行主体可以为图1所示的一种实现人机对话时实时性通话的***中的虚拟客服设备。

参阅图2所示，为本申请实施例提供的一种实现人机对话时实时性通话的方法的实施流程图，结合图1所示的虚拟客服设备，该方法的具体实施流程如下：

步骤200：确定接收到用户终端发送的语音消息时，获得用户语音音频。

具体的，虚拟客服设备通过监控声卡监测到用户通过用户终端实时发送的语音消息时，对语音消息进行解析，获得用户语音音频。

可选的，监测到的用户终端实时发送的语音消息可以是单独的一段语音，也可以是连续的一段语音，在此不作限制。

这样，虚拟客服设备就可以通过声卡实时监测出用户通过用户终端发送的语音消息，提高了获得用户语音音频的准确度。

步骤201：对语音音频进行音频识别，获得语音音频对应的音频文本。

具体的，虚拟客服设备通过自动语言识别模块对获取到的用户语音音频进行识别，获得语音音频对应的音频文本。

这样，在后续的执行步骤中，虚拟客服设备就可以根据语音音频对应的音频文本对用户意图进行准确的判断，提高了获取用户意图的准确度。

步骤202：对音频文本进行语义分析，获得用户请求的对话方式。

具体的，虚拟客服设备通过自然语言理解模块对音频文本进行语义分析，获得用户请求的对话方式。

进一步的，在执行步骤202时，可以采用以下方式中的任意一种。

方式1：若音频文本中包含指定信息，则确定用户请求的对话方式为人工对话。

可选的，指定信息可以为表征人工对话的指定字符，也可以为表征人工对话的指定标签，例如，@@transfer@@，实际应用中，指定信息的设置可以根据实际应用场景进行设置，自此不做限制。

方式2：将音频文本输入至决策科学模型，获得对话方式。

具体的，虚拟客服设备将获得的音频文本输入至预先训练好的决策科学模型中，获得决策科学模型输出的分类决策结果，根据分类决策结果获得对话方式。

一种实施方式中，虚拟客服设备将获得的音频文本输入至预先训练好的决策科学模型中，获得决策科学模型输出的分类决策结果，例如，转接人工的分类决策占比结果高于预设阈值，则可以确定对话方式为人工对话。

需要说明的是，预设阈值可以根据实际应用场景进行设置，例如，0.6，在此不作限制。

这样，就可以基于音频文本获得用户请求的对话方式，进而可以根据用户请求的对话方式，实时调整对话方式，进一步提升了用户体验感。

步骤203：若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接。

具体的，在执行步骤203时，可以执行以下步骤:

S2031：从各人工客服终端中，筛选出处于空闲状态的空闲人工客服终端。

具体的，虚拟客服设备根据各人工客服终端的使用状态，从各人工客服终端中筛选出处于空闲状态的空闲人工客服终端。

需要说明的是，若筛选出的处于空闲状态的空闲人工客服终端为多个，则从筛选出的多个空闲人工客服终端中任意选择一个空闲人工客服终端。

一种实施方式中，可以根据筛选出的多个空闲人工客服终端的编号排序，选择一个空闲的人工客服终端。

这样，就可以根据各人工客服终端的使用状态，对人工客服终端进行筛选，缩小了对人工客服终端的筛选范围，进一步提高了用户终端与人工客服终端之间的交互效率。

S2032：向语音服务器发送用户终端发送的连接请求消息，使得语音服务器基于连接请求消息，建立用户终端与空闲人工客服终端之间的连接。

具体的，虚拟客服设备向语音服务器发送用户终端发送的连接请求消息，语音服务器获取连接请求消息中包含的用户终端账号以及空闲人工客服终端账号，使得用户终端与空闲坐席通过语音服务器建立长连接。

一种实施方式中，在人机对话过程中，确定用户的对话方式为人工对话时，虚拟客服设备将语音通话客户端账号（即，用户终端账号）和人工客服终端的语音通话客户端账号（即，空闲人工客服终端账号）发送至语音服务器，通过语音服务器建立用户终端与人工客服终端之间的长连接。

这样，通过建立用户终端与空闲人工客服终端之间的连接，就可以实现用户与人工客服之间的实时交互。

步骤204：基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。

需要说明的是，应答话术文件包括应答话术文本、应答话术音频、应答话术视频以及应答话术图像中的至少一种，在此不做限制。

一种实施方式中，虚拟客服设备将请求获取与应答话术文本对应的应答话术音频消息，发送至存储应答话术音频文件的服务器，基于服务器返回的响应消息，获取并存储与应答话术文本对应的应答话术音频，并将应答话术音频发送至用户终端。

具体的，执行步骤204时，可以执行以下步骤：

S2041：获取音频文本对应的用户服务需求。

需要说明的是，用户服务需求是对音频文本进行语义分析后获得的。

一种实施方式中，通过对语音文本进行分析，获得用户的服务需求，根据用户的服务需求，获取针对该用户服务需求设置的应答话术文件。

可选的，用户的服务需求可以为咨询流量使用情况，也可以为询问开设的套餐类型，实际应用中，用户的服务需求可以根据实际应用场景进行设置，在此不作限制。

这样，可以根据用户服务需求，快速获取对应的应答话术文件，提高用户体验感。

S2042：获取针对用户服务需求设置的应答话术文件。

S2043：将应答话术文件发送至用户终端。

具体的，虚拟客服设备将应答话术文件中包含的应答话术文本、应答话术音频、应答话术视频以及应答话术图像中的至少一种发送至用户终端。

一种实施方式中，虚拟客服设备将缓存至本地的应答话术文件发送至用户终端。

进一步的，执行步骤204时，还可以执行以下步骤：

步骤1：若应答话术的文件类型为应答话术文本，则将应答话术文件进行音频转换，获得应答话术音频，并将应答话术音频发送至用户终端。

步骤2：若应答话术的文件类型为音频，则将应答话术文件发送至用户终端。

一种实施方式中，若应答话术的文件类型为应答话术文本，则虚拟客服设备根据应答话术文本，向人工客服终端发送用于获取与应答话术文本对应的录音文件的请求指令，根据人工客服终端返回的录音下载地址信息，下载并缓存与应答话术文本对应的答话术音频，并将应答话术音频发送至用户终端。

一种实施方式中，通过语音服务器建立用户终端也人工客服终端之间的长连接，若长连接建立成功，即表示成功转接人工客服终端，虚拟客服设备向用户终端发送转接人工客服终端成功的响应消息，并在播放完成之后将一个提示音（通知人工客服终端与用户终端进行对话）写入声卡，并通过语音服务器将该提示音传输至人工客服终端，人工客服终端接收到提示音后，与用户终端进行对话。

一种实施方式中，人机对话过程中，虚拟客服设备将应答话术音频发送至用户终端后开始计时，达到预设时间后，若未接收到用户语音音频对应的音频文本，则虚拟客服设备会执行询问操作，例如，虚拟客服设备继续执行对话流程，回复用户终端，例如，“喂，您好，请问您听的见吗

”，若虚拟客服设备在指定次数期间一直未接收到音频文本，虚拟客服设备将执行挂机操作。

需要说明的是，预设时间以及指定次数可以根据实际应用场景进行设置，例如，预设时间可以未5S，指定次数可以为3次，在此不作限制。

参阅图3所示，为本申请实施例提供的一种实现人机对话时实时性通话的方法的交互流程图，该方法的具体实施流程如下：

步骤300：用户终端将用户语音消息发送至虚拟客服设备。

步骤301：虚拟客服设备根据用户语音消息获得用户语音音频。

步骤302：虚拟客服设备对语音音频进行音频识别，获得语音音频对应的音频文本。

步骤303：虚拟客服设备对音频文本进行语义分析，获得用户请求的对话方式。

步骤304：若虚拟客服设备确定对话方式为人工对话，则向人工客服终端发送用于请求获取各人工客服终端的使用状态的消息。

步骤305：虚拟客服设备基于人工客服终端返回的响应消息，筛选出处于空闲状态的空闲人工客服终端。

步骤306：虚拟客服设备向语音服务器发送连接请求消息。

步骤307：语音服务器基于连接请求消息，建立用户终端与空闲坐席之间的连接。

步骤308：虚拟客服设备基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。

步骤309：用户终端基于对话响应消息，发送用户语音消息。

步骤310：人工客服终端基于用户语音消息，发送与用户语音消息对应的应答话术文件。

具体的，执行步骤300-步骤310时，具体步骤参见上述步骤200-步骤204，在此不做赘述。

参阅图4所示，为本申请实施例提供的一种实现人机对话时实时性通话的装置的结构示意图，包括：

获得单元401：用于确定接收到用户终端发送的语音消息时，获得用户语音音频；

识别单元402：用于对语音音频进行音频识别，获得语音音频对应的音频文本；

分析单元403；用于对音频文本进行语义分析，获得用户请求的对话方式；

连接单元404：用于若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；

发送单元405：用于基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。

一种实施方式中，连接单元404用于:

向语音服务器发送用户终端发送的连接请求消息，使得语音服务器基于连接请求消息，建立用户终端与人工客服终端之间的连接。

一种实施方式中，分析单元403用于:

若音频文本中包含指定信息，则获得用户请求的对话方式为人工对话。

一种实施方式中，分析单元403用于:

将音频文本输入至决策科学模型，获得对话方式。

一种实施方式中，发送单元405用于:

获取针对用户服务需求设置的应答话术文件；

将应答话术文件发送至所述用户终端。

一种实施方式中，发送单元405用于:

若应答话术文件类型为应答话术文本，则将应答话术文件进行音频转换，获得应答话术音频；

将应答话术音频发送至用户终端；

若应答话术文件类型为应答话术音频，则将应答话术文件发送至用户终端。

本申请实施例中，确定接收到用户终端发送的语音消息时，获得用户语音音频；对语音音频进行音频识别，获得语音音频对应的音频文本；对音频文本进行语义分析，获得用户请求的对话方式；若对话方式为人工对话，则建立用户终端与人工客服终端之间的连接；基于音频文本对应的应答话术文件，向用户终端发送对话响应消息。这样，在进行对话转接的过程中，若确定获得的音频文本中包含用户请求人工对话信息时，则建立用户终端与人工客服终端之间的连接，并基于音频文本对应的应答话术文件，向用户终端发送对话响应消息，实现了实时转接人工，进一步提高了转接效率。

参阅图5所示，为本申请实施例提供的一种电子设备的结构示意图。

电子设备5000包括：处理器5050以及存储器5020，可选的，还可以包括电源5030、显示单元5040、输入单元5050。

处理器5050是电子设备5000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器5020内的软件程序和/或数据，执行电子设备5000的各种功能，从而对电子设备5000进行整体监控。

本申请实施例中，处理器5050调用存储器5020中存储的计算机程序时执行如图2中所示的实施例提供的一种实现人机对话时实时性通话的方法。

可选的，处理器5050可包括一个或多个处理单元；优选的，处理器5050可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器5050中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

存储器5020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、各种应用等；存储数据区可存储根据电子设备5000的使用所创建的数据等。此外，存储器5020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

电子设备5000还包括给各个部件供电的电源5030（比如电池），电源可以通过电源管理***与处理器5050逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗等功能。

显示单元5040可用于显示由用户输入的信息或提供给用户的信息以及电子设备5000的各种菜单等，本发明实施例中主要用于显示电子设备5000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元5040可以包括显示面板5041。显示面板5041可以采用液晶显示屏（Liquid Crystal Display，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置。

输入单元5050可用于接收用户输入的数字或字符等信息。输入单元5050可包括触控面板5051以及其他输入设备5052。其中，触控面板5051，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板5051上或在触控面板5051附近的操作）。

具体的，触控面板5051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器5050，并接收处理器5050发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5051。其他输入设备5052可以包括但不限于物理键盘、功能键（比如音量控制按键、开关机按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

当然，触控面板5051可覆盖显示面板5041，当触控面板5051检测到在其上或附近的触摸操作后，传送给处理器5050以确定触摸事件的类型，随后处理器5050根据触摸事件的类型在显示面板5041上提供相应的视觉输出。虽然在图5中，触控面板5051与显示面板5041是作为两个独立的部件来实现电子设备5000的输入和输出功能，但是在某些实施例中，可以将触控面板5051与显示面板5041集成而实现电子设备5000的输入和输出功能。

电子设备5000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述电子设备5000还可以包括摄像头等其它部件，由于这些部件不是本申请实施例中重点使用的部件，因此，在图5中没有示出，且不再详述。

本领域技术人员可以理解，图5仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

本申请实施例中，一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，使得通信设备可以执行上述实施例中的各个步骤。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（***）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种实现人机对话时实时性通话的方法，其特征在于，包括：

对所述语音音频进行音频识别，获得所述语音音频对应的音频文本；

对所述音频文本进行语义分析，获得用户请求的对话方式；

若所述对话方式为人工对话，则建立所述用户终端与人工客服终端之间的连接；

基于所述音频文本对应的应答话术文件，向用户终端发送对话响应消息。

2.根据权利要求1所述的方法，其特征在于，所述建立所述用户终端与人工客服终端之间的连接，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音频文本进行语义分析，获得用户请求的对话方式，包括：

若所述音频文本中包含指定信息，则确定用户请求的对话方式为人工对话。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述应答话术文件包括应答话术文本、应答话术音频、应答话术视频以及应答话术图像中的至少一种。

5.根据权利要求4所述的方法，其特征在于，所述对所述音频文本进行语义分析，获得用户请求的对话方式，包括：

将所述音频文本输入至决策科学模型，获得对话方式。

6.根据权利要求1所述的方法，其特征在于，所述基于所述音频文本对应的应答话术文件，向用户终端发送对话响应消息，包括：

获取所述音频文本对应的用户服务需求，其中，所述用户服务需求是对所述音频文本进行语义分析后获得；

获取针对所述用户服务需求设置的应答话术文件；

将所述应答话术文件发送至所述用户终端。

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述音频文本对应的应答话术文件，向用户终端发送对话响应消息，包括：

若所述应答话术的文件类型为应答话术文本，则将所述应答话术文件进行音频转换，获得应答话术音频，并将所述应答话术音频发送至用户终端；

若所述应答话术的文件类型为音频，则将所述应答话术文件发送至用户终端。

8.一种实现人机对话时实时性通话的装置，其特征在于，包括：

识别单元，用于对所述语音音频进行音频识别，获得所述语音音频对应的音频文本；

分析单元，用于对所述音频文本进行语义分析，获得用户请求的对话方式；

连接单元，用于若所述对话方式为人工对话，则建立所述用户终端与人工客服终端之间的连接；

发送单元，用于基于所述音频文本对应的应答话术文件，向用户终端发送对话响应消息。

9.根据权利要求8所述的装置，其特征在于，所述连接单元具体用于:

10.根据权利要求8所述的装置，其特征在于，所述分析单元具体用于:

11.根据权利要求8-10任一项所述的装置，其特征在于，所述应答话术文件包括应答话术文本、应答话术音频、应答话术视频以及应答话术图像中的至少一种。

12.根据权利要求11所述的装置，其特征在于，分析单元具体用于：

将所述音频文本输入至决策科学模型，获得对话方式。

13.根据权利要求8所述的装置，其特征在于，发送单元具体用于：

获取针对所述用户服务需求设置的应答话术文件；

将所述应答话术文件发送至所述用户终端。

14.根据权利要求12或13所述的装置，其特征在于，发送单元具体用于：

15.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行权利要求1-7任一所述方法。

16.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-7任一所述方法。