CN113761156A

CN113761156A - 人机交互对话的数据处理方法、装置、介质及电子设备

Info

Publication number: CN113761156A
Application number: CN202110599432.9A
Authority: CN
Inventors: 李泽康; 张金超; 费政聪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-12-07

Abstract

本申请属于人工智能的人机交互对话技术领域，具体公开了一种人机交互对话的数据处理方法、装置、可读介质和电子设备，本申请通过获取待回复的查询文本以及历史对话数据提取预测文本语义特征和真实文本语义特征；根据预测文本语义特征和真实文本语义特征生成人机交互对话的对话质量评价信息；本申请所生成的人机交互对话的对话质量评价信息结合了具体的语境，能够更客观的反映人机交互的对话情况，评价切合实际，增强了人机交互对话中用户体验，也更方便技术人员对人机交互对话做优化改进，有效促进了人机交互的行业发展。

Description

人机交互对话的数据处理方法、装置、介质及电子设备

技术领域

本申请属于人工智能技术领域，具体涉及一种人机交互对话的数据处理方法、人机交互对话的数据处理装置、计算机可读介质以及电子设备。

背景技术

人机交互对话是用户与人工智能设备进行多轮聊天，聊天内容不局限于任何指定性任务，因此没有标准答案，智能聊天机器人与用户能够充分地进行有语境的顺畅交流，是机器人具有较高对话能力的体现。

但目前聊天机器人的开发工作仍属于探索期，目前还无法确定聊天机器人的聊天是否给用户带来了好的聊天体验，更直接的说，现在还缺乏一种能够评估人机交互对话质量的评测方法来对人机交互对话质量进行自动评价。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请的目的在于提供一种人机交互对话的数据处理方法、人机交互对话的数据处理装置、计算机可读介质以及电子设备。至少在一定程度上克服相关技术中无法对人机交互对话质量进行客观真实评价等技术问题。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种人机交互对话的数据处理方法，包括：

获取待回复的查询文本以及历史对话数据，所述历史对话数据包括在所述查询文本之前产生的人机交互对话的多轮对话数据；

根据所述查询文本和所述历史对话数据提取当前对话轮次的预测文本语义特征，并根据所述预测文本语义特征生成用于回复所述查询文本的回复文本；

根据所述回复文本、所述查询文本和所述历史对话数据提取当前对话轮次的真实文本语义特征；

根据所述预测文本语义特征和所述真实文本语义特征生成所述人机交互对话的对话质量评价信息。

根据本申请实施例的一个方面，提供一种人机交互对话的数据处理装置，该装置包括：

数据获取模块，所述数据获取模块用于获取待回复的查询文本以及历史对话数据，所述历史对话数据包括在所述查询文本之前产生的人机交互对话的多轮对话数据；

特征提取模块，所述特征提取模块连接数据获取模块，用于根据所述查询文本和所述历史对话数据提取当前对话轮次的预测文本语义特征，并根据所述预测文本语义特征生成用于回复所述查询文本的回复文本；所述特征获取模块还用于根据所述回复文本、所述查询文本和所述历史对话数据提取当前对话轮次的真实文本语义特征；

评价信息生成模块，所述评价信息生成模块连接特征提取模块，用于根据所述预测文本语义特征和所述真实文本语义特征生成所述人机交互对话的对话质量评价信息。

在本申请的一个实施例中，基于以上技术方案，所述特征提取模块包括：

语境特征提取单元，被配置为对所述查询文本和所述历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征；

预测单元，被配置为根据所述当前语境特征预测下一对话轮次中的预测语境特征；

语义特征提取单元，被配置为根据所述预测语境特征与所述当前语境特征之间的特征差异确定当前对话轮次的预测文本语义特征。

在本申请的一个实施例中，基于以上技术方案，所述语境特征提取单元还被配置为对所述回复文本、所述查询文本以及所述历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征；

所述语义特征提取单元还被配置为根据所述真实语境特征与所述当前语境特征之间的特征差异确定当前对话轮次的真实文本语义特征。

在本申请的一个实施例中，基于以上技术方案，所述语义特征提取单元还被配置为将所述回复文本、所述查询文本和所述历史对话数据相结合形成真实对话数据；将真实对话数据输入到编码模型中，得出真实语境特征；所述编码模型利用双向自注意力机制计算真实对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为真实对话数据的真实语境特征。

在本申请的一个实施例中，基于以上技术方案，所述特征提取模块还包括编码单元，所述编码单元被配置为利用双向自注意力机制计算历史对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为历史对话数据的当前语境特征；

所述预测单元还被配置为获取历史对话数据的所有语境特征，并将所述历史对话数据的所有语境特征输入到机器学习模型进行训练，得到预测语境特征的模型；将所述当前语境特征输入所述预测语境特征的模型中得出预测语境特征。

在本申请的一个实施例中，基于以上技术方案，所述预测单元还被配置为获取历史对话数据，并将所述历史对话数据的所有问答数据输入机器学习模型进行训练，得到预测回复文本的模型；将所述待回复的查询数据和所述预测文本语义特征输入所述预测回复文本的模型中得出回复文本。

在本申请的一个实施例中，基于以上技术方案，所述评价信息生成模块还包括计算单元，所述计算单元被配置为将所述预测文本语义特征和所述真实文本语义特征代入到两向量夹角余弦公式中，得到所述预测文本语义特征和所述真实文本语义特征之间的向量夹角；

所述计算单元还被配置为将所述预测文本语义特征绝对值和所述真实文本语义特征绝对值中的最小值除以所述预测文本语义特征绝对值和所述真实文本语义特征绝对值中的最大值得到所述预测文本语义特征和所述真实文本语义特征之间的差异值；

所述计算单元还被配置为将所述预测文本语义特征和所述真实文本语义特征之间的向量夹角乘以差异值得到对话质量评价信息。

根据本申请实施例的一个方面，提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如以上技术方案中的人机交互对话的数据处理方法。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的人机交互对话的数据处理方法。

根据本申请实施例的一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上技术方案中的人机交互对话的数据处理方法。

在本申请实施例提供的技术方案中，本申请通过预测文本语义特征和真实文本语义特征来生成人机交互对话的对话质量评价信息，由于预测文本语义特征和真实文本语义特征是对应的是语境的变化，因此，本申请所生成的人机交互对话的对话质量评价信息结合了具体的语境，能够更客观的反映人机交互的对话情况，评价较为切合实际，增强了人机交互对话中用户体验，也更方便技术人员根据人机交互对话的对话质量评价信息对人机交互对话做优化改进，有效促进了人机交互的行业发展。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了应用本申请技术方案的示例性***架构框图。

图2示意性地示出了本申请一个实施例中人机交互对话的数据处理方法步骤流程图。

图3示意性地示出了本申请一个实施例中预测文本语义特征的提取方法步骤流程图。

图4示意性地示出了本申请一个实施例中预测语境特征的提取方法步骤流程图。

图5示意性地示出了本申请一个实施例中回复文本的提取方法步骤流程图。

图6示意性地示出了本申请一个实施例中真实文本语义特征的提取方法步骤流程图。

图7示意性地示出了本申请一个实施例中真实语境特征的提取方法步骤流程图。

图8示意性地示出了本申请一个具体应用实施例中人机交互对话的数据处理方法步骤流程图。

图9示意性地示出了本申请一个实施例中人机交互对话的数据处理装置的结构框图。

图10示意性示出了适于用来实现本申请实施例的电子设备的计算机***结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中机器学习是人工智能软件的一大方向，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的人机交互对话技术，人机交互对话使用到了人工智能软件技术中的机器学习技术，下面本申请通过具体的人机交互对话技术来具体说明本申请实施例的内容。

人机交互对话，是用户与人工智能设备进行聊天，聊天内容不局限于任何指定性任务，因此，并没有具体的标准答案。人工智能设备有很多种，例如智能音箱，智能聊天机器人等。人工智能设备与用户能够充分地进行有语境的顺畅交流，是人工智能设备具有较高对话能力的体现。顺畅交流就是进行直接有效交互，用户问的问题人工智能设备会马上有相应的回应，而不会出现人工智能设备卡壳不回复或者回复的内容与问题毫不相关的情况，对于顺畅交流，人工智能设备能够比较容易实现。

而有语境的顺畅交流就会比较困难，因为人工智能设备其智能化程度虽然较高，但是，人工智能设备还是没办法理解用户复杂的语言***。就拿语境来说，不同的语境，同样的话语可能代表着不同的含义。语境指的是语言环境，是进行对话时所处的背景。现有的语境有很多种，例如情景语境：从实际情景中抽象出来的，对言语活动产生影响的一个因素，包括人机交互双方、场合(时间、地点)、说话的正式程度、交际媒介、话题或语域。言语行为总是在一定的情景中发生的，发生言语行为的实际情况(如有关的人物、事件、时间、地点等)也可帮助确定语言形式所表示的意义。还有文化语境：它可以分为两个方面，一是文化习俗，指人民群众在社会生活中世代传承、相沿成习的生活模式，是一个社会群众在语言、行为和心理上的集体习惯，对属于该集体的成员具有规范性和约束。二是社会规范。指一个社会对言语交际活动作出的各种规定和限制。

例如，用户向人工智能设备说“今天万里无云，今天天气可真好呀”。该处的“今天天气可真好呀”是对天气的一个夸奖，也表明了用户当前的心态是积极乐观的，这是对应的语境就是时比较客户心情较好较阳光的语境。而例如，用户向人工智能设备说“今天早上一直下雨到现在，哎，今天天气可真好呀”。该处的“今天天气可真好呀”就是对天气的一种抱怨，对应的语境就是表明了用户当前的心态是消极的。因此，如果人工智能设备在不识别用户语境的情况下，针对用户的问题都是同样的答案，就会使得用户的人机交互体验很差，影响人机交互的有效进行。因此对于人机交互对话的质量评价，如果不结合语境就很难对其进行客观的评价。

以智能音箱举例，用户与智能音箱的聊天体验将直接影响对产品的整体评价。但目前智能音箱的开发工作仍属于探索期，产品方无法确定用户认为什么样的聊天体验是好的，更无法对智能音箱的交互信息进行客观评价。而目前对于聊天机器人的评价常常依赖于一个行为数据(如对话轮数、时长)等客观因素进行评估，或只对聊天话术进行评估(如回复是否连贯，是否及时)，评估维度过于粗糙，缺乏一个整体的人机交互对话质量评价指标，使得现有的人机交互对话评价很不客观，不利于对该人机交互对话进行改进。因此，本申请提出了一种能够评估人机交互对话质量的解决方案。下面将进一步说明本申请的解决方案。

如图1所示，***架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质，例如可以是有线通信链路或者无线通信链路。其中，人工智能设备可以设置在终端设备110中或者服务器130中。例如通过虚拟聊天软件作为人工智能设备的形式。

用户可以通过终端设备110进行查询文本的输入，而服务器130通过网络120接收到终端设备110的查询文本。服务器130获取待回复的查询文本以及历史对话数据，历史对话数据包括在查询文本之前产生的人机交互对话的多轮对话数据；历史对话数据可以保存在服务器130中。服务器130根据查询文本和历史对话数据提取当前对话轮次的预测文本语义特征，并根据预测文本语义特征生成用于回复所述查询文本的回复文本；服务器130再根据回复文本、查询文本和历史对话数据提取当前对话轮次的真实文本语义特征；根据预测文本语义特征和真实文本语义特征生成人机交互对话的对话质量评价信息。因此，本申请根据服务器130通过网络120接收终端设备110的查询文本后，根据查询文本和服务器130中保存的历史对话数据可以提取到预测文本语义特征和真实文本语义特征，然后利用这两个语义特征进行人机交互对话的对话质量评价信息的生成。

根据实现需要，本申请实施例中的***架构可以具有任意数目的终端设备、网络和服务器。例如，服务器130可以是由多个服务器设备组成的服务器群组。另外，本申请实施例提供的技术方案主要是应用在人工智能设备上的，而人工智能设备可以嵌入在终端设备110中或者服务器130中。因此，本申请实施例提供的技术方案可以应用于终端设备110上，也可以应用于服务器130上，或者可以由终端设备110和服务器130共同实施，本申请对此不做特殊限定。

以上公开了本申请对应技术方案***架构的内容，接下来具体公开本申请对应技术方案具体的方法。

图2示意性地示出了本申请一个实施例中人机交互对话的数据处理方法步骤流程图。该方法可以运用在服务器130上，也可以运用在终端设备110上，或者也可以由终端设备110和服务器130共同执行。本申请公开了一种人机交互对话的数据处理方法，具体包括步骤S210-S240。

其中步骤S210包括：获取待回复的查询文本以及历史对话数据，其中历史对话数据包括在查询文本之前产生的人机交互对话的多轮对话数据。

在具体应用中，获取待回复的查询文本的方式可以是多种的。示例性的，当用户以文字进行人机交互对话时，可以直接接收用户输入的文字信息，作为待回复的查询文本；或者当用户以语音进行人机对话时，可以将接收的语音信息转换为文本数据，作为待回复的查询文本。或者当用户以图片输入进行人机交互时，可以将图片通过识别软件进行识别转换成文本数据，作为待回复的查询文本。

并且，获取历史对话数据的方式可以是多种的。示例性的，当历史对话数据存储在作为本申请执行主体的服务器130或者终端设备110本地时，可以获取待回复的查询文本的用户标识，进而从服务器130或者终端设备110本地读取该用户标识在查询文本之前产生的人机交互对话的多轮对话数据，作为历史对话数据。或者，示例性的，当历史对话数据存储在服务器130或者终端设备110进行通信连接的网络云端时，可以获取待回复的查询文本的用户标识，进而向云端请求该用户标识在查询文本之前产生的人机交互对话的多轮对话数据，作为历史对话数据。

另外，对于任一待回复的查询文本，历史对话数据具体可以包括在该待回复的查询文本之前的历史输入数据，以及历史输入数据对应的人机交互的回复数据。对于历史输入数据的数量，可以按照具体应用场景或者语境进行设置，可以为一个，或者多个。

任何获取待回复的查询文本以及历史对话数据的方式，均可用于本发明，本实施例对此不作限制。

其中步骤S220包括，根据查询文本和历史对话数据提取当前对话轮次的预测文本语义特征，并根据预测文本语义特征生成用于回复查询文本的回复文本。

在本申请的一个实施例中，具体公开了根据查询文本和历史对话数据提取当前对话轮次的预测文本语义特征的方法，包括步骤S310-步骤S320，图3示意性地示出了本申请一个实施例中预测文本语义特征的提取方法步骤流程图。

在步骤S310中：对查询文本和历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征，并根据当前语境特征预测下一对话轮次中的预测语境特征。

步骤S310包括了两个部分，第一部分如步骤S410，是为了得到当前语境特征，第二部分如步骤S420，是为了得到预测语境特征，其中预测语境特征需要基于当前语境特征获得。步骤S310的预测语境特征的提取需要步骤S410-S420，图4示意性地示出了本申请一个实施例中预测语境特征的提取方法步骤流程图。具体方法如下。

在本申请的一个实施例中，对查询文本和历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征的方法包括：

步骤S410：将查询文本和历史对话数据转换成特征向量；将历史对话数据以特征向量形式输入到编码模型中，得出当前语境特征。

其中编码模型利用双向自注意力机制计算历史对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为历史对话数据的当前语境特征；

其中编码模型使用Transformer模型，Transformer模型可以包括多个堆栈单元，每个堆栈单元包含多个前向层和多头自注意力层。其中，Transformer模型是一种完全基于注意力机制的Encoder-Decoder(编码-解码)模型。

本申请使用Transformer模型的注意力机制去判断人机交互对话的语境。注意力机制的核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系，然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。通过利用这些相互关系来调整每个词的重要性(权重)就可以获得整段话新的表达。这个新的表征不但蕴含了该词本身，还蕴含了其他词与这个词的关系，这个新的表达就可以表示为这段对话所处的当前语境，因此和单纯的词向量相比是一个更加全局的表达。本申请将历史对话数据和查询文本转换成特征向量后，输入编码模型中，通过Transformer模型对历史对话数据中的多轮人机交互对话数据进行识别，然后会通过Transformer模型的注意力机制输出历史对话数据的当前语境特征对应的向量。因此，利用当前语境特征就可以表示当前的对话语境。从而有效的结合语境来实现人机交互所做的回答更加的切合用户的需求。

举例来说，历史对话数据的对话内容是：用户问：今天天气怎么样，人工智能设备回答：今天天气是晴天，温度是25-30°；用户继续问：适合去哪里玩，人工智能设备回答：可以去旁边的小山或者湖泊欣赏风景；用户继续问：小山有哪些好玩的，人工智能设备回答：小山有个观景台，可以看城市全貌。Transformer模型根据以上历史对话数据进行注意力机制的识别，计算一句话中的每个词对于这句话中所有词的相互关系，然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。最终识别出用户当前语境就是围绕“玩”进行的一系列问答，那么此时，“玩”就对应的是当前语境特征。人工智能设备就可以基于“玩”这一当前语境特征进行多层面的回答和推荐，以使用户获得更多的信息，提高用户的体验。例如，当人工智能设备知道用户是以“玩”当前语境特征时，人工智能设备还可以推荐各个地方游玩的门票，获取他人游玩的攻略进行分享等等关于有关当前语境特征“玩”的相关信息。这时，用户就可以获取更多想得到的信息，从而大大的提升了用户的体验。

当得出当前语境特征后，还需要提取预测语境特征，在本申请的一个实施例中，根据当前语境特征预测下一对话轮次中的预测语境特征的具体方法包括：

步骤S420：获取历史对话数据的所有语境特征，并将历史对话数据的所有语境特征输入到机器学习模型进行训练，得到预测语境特征的模型；将当前语境特征输入预测语境特征的模型中得出预测语境特征。

历史对话数据包括当前用户与人工智能设备进行人机交互对话的所有对话内容，而对话内容是由许多对话组成的，这些对话可能是同一语境，也可能是不同语境。当通过历史对话数据获取到当前用户所有语境特征之后，通过获取历史对话数据的所有语境特征，然后将历史对话数据的所有语境特征输入到机器学习模型进行训练，该机器学习模型可以是基于卷积神经网络、循环神经网络等构建的模型。其中，此处获取语境特征的方式和步骤S410中获取语境特征方式相同。通过机器学习模型就可以知道当前用户的一个语境切换习惯，从而就可以得到预测语境特征的模型；然后将当前语境特征输入预测语境特征的模型中就可以得出预测语境特征。其中的预测语境特征就是对应在预测语境特征的模型中当前语境特征的下一个语境特征。

举例说明，通过历史对话数据获取到当前用户与人工智能设备进行对话内容有200段对话，利用Transformer模型分别获取这200段对话中的所有语境特征。例如，历史对话数据的前20段对话是当前用户与人工智能设备进行天气的查询和熟悉对应的对话，那么对应该20段的语境就是“天气”。当历史对话数据的第21段-第60段对话是当前用户与人工智能设备进行旅游推荐查询的对话，那么对应第21段-第60段对话的语境就是“游玩地点”。当历史对话数据的第61段-第100段对话是当前用户与人工智能设备进行旅游门票信息和机票信息查询的对话，那么对应第61段-第100段对话的语境就是“游玩消费金额”。当历史对话数据的第101段-第150段对话是当前用户与人工智能设备进行节假日查询的对话，那么对应第101段-第150段对话的语境就是“节假日”；依次类推下去，其中，这些语境都是利用Transformer模型得出的。因此，当机器学习模型对当前用户足够多的历史对话数据进行卷积神经网络训练后，就可以得出当前用户的一个语境变化情况，例如，当前用户在聊天气之后会变换到游玩地点。这时，就可以将当前语境特征输入预测语境特征的模型中就可以得出预测语境特征。例如，当前语境特征是“天气”，而通过机器学习模型发现当前用户的所有历史对话数据中语境是“天气”之后的语境是“游玩地点”；这时，就可以将预测语境特征定义为“游玩地点”。其中，以上的文本数据是以向量表示的方式在Transformer模型和机器学习模型中。

在步骤S320中：根据预测语境特征与当前语境特征之间的特征差异确定当前对话轮次的预测文本语义特征。

预测文本语义特征是预测语境特征与当前语境特征之间的特征差异，特征差异可以理解为预测语境特征与当前语境特征之间的语境变化。通过预测语境特征与当前语境特征之间的语境变化可以预测到当前用户的一个简单的人机交互对话逻辑，例如步骤S420中提到的某个用户聊天时，语境“天气”之后的语境是“游玩地点”。而提取预测文本语义特征的目的就是在一定程度上通过预测得到用户的语境变化，从而为后续真实文本语义特征对应的真实的语境变化做对比，来进行最终的人机交互对话质量评价。由于预测文本语义特征是预测语境特征都是以向量表示的，因此，预测文本语义特征就是对应预测语境特征与当前语境特征的向量差。

通过以上步骤已经获得了预测文本语义特征，因此，还需要真实文本语义特征来进一步结合对比，才能得出最终的人机交互对话质量评价。而为了得到真实文本语义特征，就需要先得到回复查询文本的回复文本，具体的回复查询文本的回复文本的提取方式如下。

在本申请的一个实施例中，具体公开了根据预测文本语义特征生成用于回复查询文本的回复文本的方法，该方法包括步骤S510-步骤S520。图5示意性地示出了本申请一个实施例中回复文本的提取方法步骤流程图，具体步骤如下。

步骤S510：获取历史对话数据，并将历史对话数据的所有问答数据输入机器学习模型进行训练，得到预测回复文本的模型；

历史对话数据包括当前用户与人工智能设备进行人机交互对话的所有对话内容，而对话内容是由许多对话组成的。通过获取历史对话数据的所有对话内容，然后将历史对话数据的所有对话内容输入到机器学习模型进行训练，该机器学习模型可以是基于卷积神经网络、循环神经网络等构建的模型。通过机器学习模型就可以知道当前用户与人工智能设备的对话内容，从而就可以得到预测回复文本的模型。当然，对于机器学习模型需要大量的历史对话数据。通过机器学习模型对大量的历史对话数据进行学习，就可以得到预测回复文本的模型。

步骤S520：将待回复的查询数据和预测文本语义特征输入预测回复文本的模型中得出回复文本。

当得出预测回复文本的模型后，将待回复的查询数据和预测文本语义特征输入预测回复文本的模型中得出回复文本。

例如，当前用户输入的查询文本是“附近有哪些好玩的”，机器学习模型对历史对话数据学习后对应的“附近有哪些好玩的”的回答大部分是“西边的小山或者东边湖泊可以欣赏风景”，这时对应的回复文本就是“西边的小山或者东边湖泊可以欣赏风景”。

通过以上的步骤得到了回复查询文本的回复文本，但是还未提取到真实文本语义特征，真实文本语义特征的提取方法如下。

其中步骤S230包括，根据回复文本、查询文本和历史对话数据提取当前对话轮次的真实文本语义特征；

在本申请的一个实施例中，具体公开了根据回复文本、查询文本和历史对话数据提取当前对话轮次的真实文本语义特征的步骤，包括步骤S610-步骤S620，图6示意性地示出了本申请一个实施例中真实文本语义特征的提取方法步骤流程图，具体包括如下步骤。

步骤S610：对回复文本、查询文本以及历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征；

在本申请的一个实施例中，具体公开了对回复文本、查询文本以及历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征的方法，包括步骤S710-步骤S720，图7示意性地示出了本申请一个实施例中真实语境特征的提取方法步骤流程图，具体包括如下步骤。

步骤S710：将回复文本、查询文本和历史对话数据相结合形成真实对话数据。

当人工智能设备针对当前用户的查询文本进行答复，得出答复文本之后。以上的问答信息与历史对话数据结合就形成了真实对话数据，真实对话数据就是更新之后的对话数据。例如，前面已经有200段历史对话数据，然后当前用户通过查询文本查询之后，得出回复文本，如果查询文本和回复文本对应的是10段对话，那么，真实对话数据就是包含了200段历史对话数据和10段的新的对话信息而得出的210段对话数据。

步骤S720：将真实对话数据输入到编码模型中，得出真实语境特征。

其中，编码模型利用双向自注意力机制计算真实对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为真实对话数据的真实语境特征。

此处的编码模型以及所用到的方法和步骤S410中的一致，通过编码模型就可以得出真实语境特征。真实语境特征代表的是当回复文本、查询文本和历史对话数据相结合后形成的真实对话数据的语境。真实语境特征是与预测语境特征相对应的，预测语境特征是基于预测得出的，而真实语境特征是基于真实的回复文本得出的，因此，这两者都可以用来表现当前用户的语境情况。当得出真实语境特征之后，就可以通过以下方法得出真实文本语义特征。

步骤S620：根据真实语境特征与当前语境特征之间的特征差异确定当前对话轮次的真实文本语义特征。

真实文本语义特征是真实语境特征与当前语境特征之间的特征差异，特征差异可以理解为真实语境特征与当前语境特征之间的语境变化。利用真实语境特征与当前语境特征之间的语境变化可以确定通过回复文本当前用户进行的语境变化。真实文本语义特征就是对应真实语境特征与当前语境特征的向量差。

例如继续参照步骤S420中的例子，当前用户的查询文本是“什么地方好玩”，人工智能设备回复“购物商场有活动，比较好玩”。那么将这些信息与历史对话数据一起结合后，形成了真实对话数据，通过真实对话数据得出真实语境特征，例如真实语境特征为“游玩地点是购物商场”；那么对于真实文本语义特征就是当前语境特征“天气”到真实语境特征“游玩地点是购物商场”的变化。而步骤S420中提到的预测文本语义特征对应的是当前语境特征“天气”到预测语境特征“游玩地点是户外环境”的变化。因此，此时的真实文本语义特征和预测文本语义特征之间就有一定差距，这种情况表明对于回复文本与当前用户的语境习惯并不相符，可能当前用户对于回复文本内容就不满意，因此，对应的人机交互对话质量评价信息就会是比较低的一个值。

得到了真实文本语义特征和预测文本语义特征之后，就需要利用这两个数据生成对话质量评价信息，具体方法如下。

其中步骤S240包括，根据预测文本语义特征和真实文本语义特征生成人机交互对话的对话质量评价信息。

在本申请的一个实施例中，基于以上技术方案，根据预测文本语义特征和真实文本语义特征生成人机交互对话的对话质量评价信息，包括：

将预测文本语义特征和真实文本语义特征代入到两向量夹角余弦公式中，得到预测文本语义特征和真实文本语义特征之间的向量夹角；

将预测文本语义特征绝对值和真实文本语义特征绝对值中的最小值除以预测文本语义特征绝对值和真实文本语义特征绝对值中的最大值得到预测文本语义特征和真实文本语义特征之间的差异值；

将预测文本语义特征和真实文本语义特征之间的向量夹角乘以差异值得到对话质量评价信息。

其具体的计算公式可以是如下公式：

其中，预测文本语义特征为I_k’；真实文本语义特征为I_k,；对话质量评价信息为s_k。

按照如下公式对s_k做指数运算得到对话质量评价信息Flow Score，其中s_k同FlowScore，都是代表对话质量评价信息，其中Flow Score具体计算出了对话质量评价值，可以根据该对话质量评价值大小来对对话质量进行评价。

其中，M表示对话的语句数量，对话质量评价信息为s_k范围是[-1,1]，(s_k+1)/2范围是[0,1]。

通过以上的公式就可以直接算出人机交互对话的对话质量评价信息。

下面将通过一个具体的应用实施例来进一步说明本申请的内容，图8示意性地示出了本申请一个具体应用实施例中人机交互对话的数据处理方法步骤流程图。具体包括步骤S810-S870。

步骤S810：将实际应用中人工智能设备与用户进行的人机交互对话的历史对话信息以及用户输入的查询文本，输入到预处理模块进行转换，将历史对话信息和用户输入的查询文本转换成特征向量；

步骤S820：将转换成向量的历史对话信息和用户输入的查询文本通过Transformer模型转码，输出历史对话信息的当前语境表征C_k；

步骤S830：将当前语境表征C_k输入到预先训练好的第一机器学习模型中，预测得到预测语境表征C’_k+1；

步骤S840：根据当前语境表征C_k和预测语境表征C_k+1计算预测的文本语义表征I_k’：I_k’＝C’_k+1－C_k；

步骤S850：将预测文本语义表征I_k’与用户输入的查询文本一起输入到第二机器学习模块中，得到基于用户输入的查询文本的回复文本；

步骤S860：将基于用户输入的查询文本的回复文本输入预处理模型和Transformer模型，输出真实语境表征C_k+1；

步骤S870：将真实语境表征C_k+1与当前语境表征C_k做差，计算得到真实语义表征I_k，与预测的文本语义表征I_k’一起使用步骤S240对应的公式，计算得到对话质量评价信息Flow Score。当对话质量评价信息的值越大表明人机交互对话质量越高，评价也越高。当对话质量评价信息的值越小表明人机交互对话质量越低，评价也越差。

本申请还公开了一种人机交互对话的数据处理装置900，图9示意性地示出了本申请一个实施例中人机交互对话的数据处理装置的结构框图。具体包括：

数据获取模块910，数据获取模块910用于获取待回复的查询文本以及历史对话数据，历史对话数据包括在查询文本之前产生的人机交互对话的多轮对话数据；

特征提取模块920，特征提取模块920连接数据获取模块910，用于根据查询文本和历史对话数据提取当前对话轮次的预测文本语义特征，并根据预测文本语义特征生成用于回复查询文本的回复文本；特征获取模块920还用于根据回复文本、查询文本和历史对话数据提取当前对话轮次的真实文本语义特征；

评价信息生成模块930，评价信息生成模块930连接特征提取模块920，用于根据预测文本语义特征和真实文本语义特征生成人机交互对话的对话质量评价信息。

基于以上方案，特征提取模块920具体包括：语境特征提取单元，被配置为对查询文本和历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征；预测单元，被配置为根据当前语境特征预测下一对话轮次中的预测语境特征；语义特征提取单元，被配置为根据预测语境特征与当前语境特征之间的特征差异确定当前对话轮次的预测文本语义特征。

基于以上方案，语境特征提取单元还被配置为对回复文本、查询文本以及历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征；语义特征提取单元还被配置为根据真实语境特征与当前语境特征之间的特征差异确定当前对话轮次的真实文本语义特征。

基于以上方案，特征提取模块920还包括编码单元，编码单元被配置为利用双向自注意力机制计算历史对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为历史对话数据的当前语境特征；预测单元还被配置为获取历史对话数据的所有语境特征，并将历史对话数据的所有语境特征输入到机器学习模型进行训练，得到预测语境特征的模型；将当前语境特征输入预测语境特征的模型中得出预测语境特征。

基于以上方案，预测单元还被配置为获取历史对话数据，并将历史对话数据的所有问答数据输入机器学习模型进行训练，得到预测回复文本的模型；将待回复的查询数据和预测文本语义特征输入预测回复文本的模型中得出回复文本。

基于以上方案，语义特征提取单元还被配置为将回复文本、查询文本和历史对话数据相结合形成真实对话数据；将真实对话数据输入到编码模型中，得出真实语境特征；编码模型利用双向自注意力机制计算真实对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为真实对话数据的真实语境特征。

基于以上方案，评价信息生成模块930包括计算单元，所述计算单元被配置为将预测文本语义特征和真实文本语义特征代入到两向量夹角余弦公式中，得到预测文本语义特征和真实文本语义特征之间的向量夹角；计算单元还被配置为将预测文本语义特征绝对值和真实文本语义特征绝对值中的最小值除以预测文本语义特征绝对值和真实文本语义特征绝对值中的最大值得到预测文本语义特征和真实文本语义特征之间的差异值；计算单元还被配置为将预测文本语义特征和真实文本语义特征之间的向量夹角乘以差异值得到对话质量评价信息。

本申请各实施例中提供的对象搜索装置的具体细节已经在对应的方法实施例中进行了详细的描述，此处不再赘述。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器被配置为经由执行可执行指令来执行如以上技术方案中的人机交互对话的数据处理方法。

图10示意性地示出了用于实现本申请实施例的电子设备的计算机***结构框图。

需要说明的是，图10示出的电子设备的计算机***1000仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，计算机***1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有***操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。查询/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至查询/输出接口1005：包括键盘、鼠标等的查询部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至查询/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本申请的***中限定的各种功能。

本申请通过预测文本语义特征和真实文本语义特征来生成人机交互对话的对话质量评价信息，由于预测文本语义特征和真实文本语义特征是对应的是语境的变化情况，因此，本申请所生成的人机交互对话的对话质量评价信息结合了具体的语境，能够更客观的反映人机交互的对话情况，评价较为切合实际，增强了人机交互对话中用户体验，也更方便技术人员根据人机交互对话的对话质量评价信息对人机交互对话做优化改进。例如，对于人机交互对话的对话质量评价较低的人工智能设备就可以对其进行淘汰或者进行重新机器学习，以实现对人机交互对话质量评价差的进行剔除和修复，有效促进了人机交互的行业发展。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种人机交互对话的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的人机交互对话的数据处理方法，其特征在于，根据所述查询文本和所述历史对话数据提取当前对话轮次的预测文本语义特征，包括：

对所述查询文本和所述历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征，并根据所述当前语境特征预测下一对话轮次中的预测语境特征；

根据所述预测语境特征与所述当前语境特征之间的特征差异确定当前对话轮次的预测文本语义特征。

3.根据权利要求1所述的人机交互对话的数据处理方法，其特征在于，根据所述回复文本、所述查询文本和所述历史对话数据提取当前对话轮次的真实文本语义特征，包括：

对所述回复文本、所述查询文本以及所述历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征；

根据所述真实语境特征与所述当前语境特征之间的特征差异确定当前对话轮次的真实文本语义特征。

4.根据权利要求3所述的人机交互对话的数据处理方法，其特征在于，对所述回复文本、所述查询文本以及所述历史对话数据进行特征提取，得到下一对话轮次中的真实语境特征，包括：

将所述回复文本、所述查询文本和所述历史对话数据相结合形成真实对话数据；

将真实对话数据输入到编码模型中，得出真实语境特征；所述编码模型利用双向自注意力机制计算真实对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为真实对话数据的真实语境特征。

5.根据权利要求2所述的人机交互对话的数据处理方法，其特征在于，对所述查询文本和所述历史对话数据进行特征提取，得到当前对话轮次中的当前语境特征，并根据所述当前语境特征预测下一对话轮次中的预测语境特征，包括：

将所述查询文本和所述历史对话数据转换成特征向量；

将所述历史对话数据以特征向量形式输入到编码模型中，得出当前语境特征，所述编码模型利用双向自注意力机制计算历史对话数据中所有语境特征的上下文相关向量表示，随后取所有语境特征的上下文相关向量表示的均值作为历史对话数据的当前语境特征；

获取历史对话数据的所有语境特征，并将所述历史对话数据的所有语境特征输入到机器学习模型进行训练，得到预测语境特征的模型；

将所述当前语境特征输入所述预测语境特征的模型中得出预测语境特征。

6.根据权利要求2所述的人机交互对话的数据处理方法，其特征在于，根据所述预测文本语义特征生成用于回复所述查询文本的回复文本，包括：

获取历史对话数据，并将所述历史对话数据的所有问答数据输入机器学习模型进行训练，得到预测回复文本的模型；

将所述待回复的查询数据和所述预测文本语义特征输入所述预测回复文本的模型中得出回复文本。

7.根据权利要求1所述的人机交互对话的数据处理方法，其特征在于，根据所述预测文本语义特征和所述真实文本语义特征生成所述人机交互对话的对话质量评价信息，包括：

将所述预测文本语义特征和所述真实文本语义特征代入到两向量夹角余弦公式中，得到所述预测文本语义特征和所述真实文本语义特征之间的向量夹角；

将所述预测文本语义特征绝对值和所述真实文本语义特征绝对值中的最小值除以所述预测文本语义特征绝对值和所述真实文本语义特征绝对值中的最大值得到所述预测文本语义特征和所述真实文本语义特征之间的差异值；

将所述预测文本语义特征和所述真实文本语义特征之间的向量夹角乘以差异值得到对话质量评价信息。

8.一种人机交互对话的数据处理装置，其特征在于，包括：

9.一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的人机交互对话的数据处理方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的人机交互对话的数据处理方法。