CN116501285A

CN116501285A - 基于虚拟数字形象交互的ai对话处理方法及数字化***

Info

Publication number: CN116501285A
Application number: CN202310500502.XA
Authority: CN
Inventors: 李春智; 袁杰
Original assignee: Shandong Xingfu Information Technology Co ltd
Current assignee: Juyin Digital Media Beijing Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-07-28
Anticipated expiration: 2043-05-06
Also published as: CN116501285B

Abstract

本发明提供的基于虚拟数字形象交互的AI对话处理方法及数字化***，涉及人工智能技术领域。在本发明中，将数据分布知识图谱的图谱成员进行数据分析操作，确定出每一个音频概括性数据的概括性数据描述向量；将概括性数据描述向量进行对比分析操作，以分析出数据关联关系信息；确定出待处理对话音频数据，并基于待处理对话音频数据对应的音频概括性数据和多个音频概括性数据之间的数据关联关系信息，对待处理对话音频数据进行关联扩展操作，以得到扩展对话音频数据；基于待处理对话音频数据和扩展对话音频数据进行虚拟数字人的音频会话管控操作。基于上述内容，可以在一定程度上提高对话处理的可靠度。

Description

基于虚拟数字形象交互的AI对话处理方法及数字化***

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种基于虚拟数字形象交互的AI对话处理方法及数字化***。

背景技术

在互联网技术的不断发展和成熟的背景下，基于虚拟数字形象（即虚拟数字人）的会话交互的应用场景较多。其中，在一些应用场景中，需要对对话数据进行分析，以基于分析结果进行对话管控操作等。但是，在现有技术中，存在着对话处理（对话管控）的可靠度不高的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于虚拟数字形象交互的AI对话处理方法及数字化***，以在一定程度上提高对话处理的可靠度。

为实现上述目的，本发明实施例采用如下技术方案：

一种基于虚拟数字形象交互的AI对话处理方法，所述AI对话处理方法包括：

提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据，所述历史对话音频数据基于对应的虚拟数字人在历史上进行音频会话操作以形成，所述音频概括性数据用于对相应的历史对话音频数据进行概括性描述，所述虚拟数字人描述数据用于对相应的虚拟数字人进行属性描述；

依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱，所述数据分布知识图谱用于反映所述历史对话音频数据、所述音频概括性数据和所述虚拟数字人描述数据之间的相关关系、所述多个历史对话音频数据之间的相关关系、所述多个音频概括性数据之间的相关关系；

将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量；

将所述概括性数据描述向量进行对比分析操作，以分析出所述多个音频概括性数据之间的数据关联关系信息；

在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据；

基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱的步骤，包括：

基于所述多个音频概括性数据各自与所述多个历史对话音频数据和所述多个虚拟数字人描述数据之间的相关关系进行图谱化操作，以形成对应的第一局部知识图谱；

依据所述多个虚拟数字人描述数据和所述多个音频概括性数据进行图谱化操作，以形成用于反映所述多个历史对话音频数据之间的相关关系的第二局部知识图谱；

依据所述多个历史对话音频数据进行图谱化操作，以形成用于反映所述多个音频概括性数据之间的相关关系的第三局部知识图谱；

对所述第一局部知识图谱、所述第二局部知识图谱和所述第三局部知识图谱进行合并操作，以形成对应的数据分布知识图谱。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述基于所述多个音频概括性数据各自与所述多个历史对话音频数据和所述多个虚拟数字人描述数据之间的相关关系进行图谱化操作，以形成对应的第一局部知识图谱的步骤，包括：

在所述多个音频概括性数据中，确定出与每一个所述虚拟数字人描述数据具有相关关系的音频概括性数据，并在所述多个音频概括性数据中，确定出与每一个所述历史对话音频数据具有相关关系的音频概括性数据；

基于第一图谱线条，将每一个所述虚拟数字人描述数据和对应的具有相关关系的音频概括性数据进行相连操作，以及，基于所述对应的具有相关关系的音频概括性数据的数据重复数量，为所述第一图谱线条配置重要性参数，以形成对应的第一携重要性图谱线条；

基于第二图谱线条，将每一个所述历史对话音频数据和对应的具有相关关系的音频概括性数据进行相连操作，以及，对预先确定的参考重要性第一表征参数进行标记，以标记为所述第二图谱线条的重要性参数，从而形成第二携重要性图谱线条；

将所述第一携重要性图谱线条和所述第二携重要性图谱线条进行组合操作，以形成对应的第一局部知识图谱。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述依据所述多个虚拟数字人描述数据和所述多个音频概括性数据进行图谱化操作，以形成用于反映所述多个历史对话音频数据之间的相关关系的第二局部知识图谱的步骤，包括：

基于每一个所述虚拟数字人描述数据，在所述多个历史对话音频数据中，确定出具有相关关系的至少两个第一历史对话音频数据，并基于每一个所述音频概括性数据，在所述多个历史对话音频数据中，确定出具有相关关系的至少两个第二历史对话音频数据；

基于第三图谱线条，对所述至少两个第一历史对话音频数据进行相连操作，以及，基于预先确定的参考重要性第二表征参数和所述至少两个第一历史对话音频数据分别对应的音频概括性数据，对所述第三图谱线条配置重要性参数，以形成第三携重要性图谱线条；

基于第四图谱线条，将所述至少两个第二历史对话音频数据进行相连操作，以及，基于所述至少两个第二历史对话音频数据分别对应的虚拟数字人描述数据和所述至少两个第二历史对话音频数据分别对应的音频概括性数据，对所述第四图谱线条配置重要性参数，以形成第四携重要性图谱线条；

基于所述第三携重要性图谱线条和所述第四携重要性图谱线条，确定出对应的第二局部知识图谱。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述依据所述多个历史对话音频数据进行图谱化操作，以形成用于反映所述多个音频概括性数据之间的相关关系的第三局部知识图谱的步骤，包括：

基于每一个所述历史对话音频数据，在所述多个音频概括性数据中，确定出具有相关关系的至少两个第三音频概括性数据；

基于第四图谱线条，将所述至少两个第三音频概括性数据进行相连操作，以及，基于所述至少两个第三音频概括性数据的共线参数，对所述第四图谱线条配置重要性参数，以形成第五携重要性图谱线条；

基于所述第五携重要性图谱线条，确定出对应的第三局部知识图谱。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量的步骤，包括：

依次对所述数据分布知识图谱包括的多个图谱成员进行标记，以标记为初始图谱成员，以进行图谱成员的抽选操作，从而形成所述多个图谱成员各自对应的图谱成员抽选链路，所述图谱成员属于所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据中的任一个数据；

对所述图谱成员抽选链路进行特征挖掘操作，以输出所述多个图谱成员中的每一个图谱成员对应的图谱成员描述向量；

在所述多个图谱成员分别对应的所述图谱成员描述向量中，确定出所述多个音频概括性数据分别对应的概括性数据描述向量。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据的步骤，包括：

提取到历史交互会话数据，以及，基于所述历史交互会话数据，确定出第一历史对话音频数据集、第一音频概括性数据集和第一虚拟数字人描述数据集；

将所述第一音频概括性数据集中的第一音频概括性数据进行筛选操作，以及，对进行筛选操作后的第一音频概括性数据集中对应的虚拟数字人描述数据的数量小于预先配置的第一参考数量的第一音频概括性数据以外的多个第一音频概括性数据进行标记，以得到多个音频概括性数据；

在所述第一虚拟数字人描述数据集中，依次标记出第一虚拟数字人描述数据、第二虚拟数字人描述数据和第三虚拟数字人描述数据，所述第一虚拟数字人描述数据属于对应的历史对话音频数据的数量小于预先配置的第二参考数量的虚拟数字人描述数据，所述第二虚拟数字人描述数据属于对应历史对话音频数据的数据种类的数量超过预先配置的第三参考数量的虚拟数字人描述数据，所述第三虚拟数字人描述数据属于对应的音频概括性数据的数量超过预先配置的第四参考数量的虚拟数字人描述数据；

基于所述第一虚拟数字人描述数据集中所述第一虚拟数字人描述数据、所述第二虚拟数字人描述数据和所述第三虚拟数字人描述数据以外的多个虚拟数字人描述数据，得到多个虚拟数字人描述数据；

基于所述第一历史对话音频数据集中所述第一虚拟数字人描述数据对应的历史对话音频数据、所述第二虚拟数字人描述数据对应的历史对话音频数据和所述第三虚拟数字人描述数据对应的历史对话音频数据以外的历史对话音频数据，得到多个历史对话音频数据。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据的步骤，包括：

基于接收到的对话异常请求信息，在所述多个历史对话音频数据中，确定出一个相应的历史对话音频数据，并对该历史对话音频数据进行标记操作，以标记为待处理对话音频数据；

基于所述多个音频概括性数据之间的数据关联关系信息，在所述多个音频概括性数据中，确定出与所述待处理对话音频数据对应的音频概括性数据相关联的每一个音频概括性数据，关联的音频概括性数据之间的数据关联关系信息满足预先配置的关联关系条件；

在所述多个历史对话音频数据中，将与所述待处理对话音频数据对应的音频概括性数据相关联的每一个音频概括性数据对应的历史对话音频数据进行标记，以标记为所述待处理对话音频数据对应的扩展对话音频数据。

在一些优选的实施例中，在上述基于虚拟数字形象交互的AI对话处理方法中，所述基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作的步骤，包括：

对所述待处理对话音频数据进行特征挖掘操作，形成所述待处理对话音频数据对应的第一音频特征描述向量，并对所述扩展对话音频数据进行特征挖掘操作，形成所述扩展对话音频数据对应的第二音频特征描述向量；

基于所述第二音频特征描述向量，对所述第一音频特征描述向量进行聚焦特征分析操作，以形成对应的聚焦音频特征描述向量，所述聚焦音频特征描述向量的数量等于所述第二音频特征描述向量的数量；

将所述第一音频特征描述向量和每一个所述聚焦音频特征描述向量进行聚合操作，以形成对应的聚合音频特征描述向量；

基于所述聚合音频特征描述向量，评估出所述待处理对话音频数据对应的音频对话异常信息，以及，基于所述音频对话异常信息，对所述待处理对话音频数据对应的虚拟数字人进行音频会话监控操作，所述音频会话监控操作至少包括提高对所述待处理对话音频数据对应的虚拟数字人的音频会话操作的异常监控频率或降低所述待处理对话音频数据对应的虚拟数字人进行音频会话操作的操作频率。

本发明实施例还提供一种数字化***，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现上述的AI对话处理方法。

本发明实施例提供的基于虚拟数字形象交互的AI对话处理方法及数字化***，可以先提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据；依据多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据，确定出相应的数据分布知识图谱；将数据分布知识图谱的图谱成员进行数据分析操作，确定出多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量；将概括性数据描述向量进行对比分析操作，以分析出多个音频概括性数据之间的数据关联关系信息；在多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于待处理对话音频数据对应的音频概括性数据和多个音频概括性数据之间的数据关联关系信息，在多个历史对话音频数据中，对待处理对话音频数据进行关联扩展操作，以得到待处理对话音频数据对应的每一个扩展对话音频数据；基于待处理对话音频数据和扩展对话音频数据进行虚拟数字人的音频会话管控操作。基于上述内容，由于在进行虚拟数字人的音频会话管控操作之前，会先对待处理对话音频数据进行关联扩展操作，以得到待处理对话音频数据对应的每一个扩展对话音频数据，使得在进行虚拟数字人的音频会话管控操作的过程中，不仅仅依据待处理对话音频数据，还依据待处理对话音频数据对应的扩展对话音频数据，使得音频会话管控操作的依据更为充分，因此，可以在一定程度上提高对话处理的可靠度，从而改善现有技术中存在的可靠度不高的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的数字化***的结构框图。

图2为本发明实施例提供的基于虚拟数字形象交互的AI对话处理方法包括的各步骤的流程示意图。

图3为本发明实施例提供的基于虚拟数字形象交互的AI对话处理装置包括的各模块的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种数字化***。其中，所述数字化***可以包括存储器和处理器。

详细地，所述存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件（firmware）的形式，存在的软件功能模块（计算机程序）。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序，从而实现本发明实施例提供的基于虚拟数字形象交互的AI对话处理方法。

可以理解的是，在一些实施方式中，所述存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable ProgrammableRead-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable ProgrammableRead-Only Memory，EEPROM）等。

可以理解的是，在一些实施方式中，所述处理器可以是一种通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、片上***(System on Chip，SoC)等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解的是，在一些实施方式中，所述数字化***可以是一种具备数据处理能力的服务器。

结合图2，本发明实施例还提供一种基于虚拟数字形象交互的AI对话处理方法，可应用于上述数字化***。其中，所述基于虚拟数字形象交互的AI对话处理方法有关的流程所定义的方法步骤，可以由所述数字化***实现。

下面将对图2所示的具体流程，进行详细阐述。

步骤S110，提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据。

在本发明实施例中，所述数字化***可以提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据。所述历史对话音频数据基于对应的虚拟数字人在历史上进行音频会话操作以形成，一个所述历史对话音频数据可以包括至少一个音频帧，所述音频概括性数据用于对相应的历史对话音频数据进行概括性描述，所述音频概括性数据可以是概括性音频，也可以是概括性文本，所述虚拟数字人描述数据用于对相应的虚拟数字人进行属性描述，也就是说，所述虚拟数字人描述数据属于相应的虚拟数字人的属性数据，如身份等信息，并且，所述虚拟数字人描述数据可以为文本数据。示例性地，在处理的过程中，可以先将所述历史对话音频数据转换为对应的文本数据再进行处理。

步骤S120，依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱。

在本发明实施例中，所述数字化***可以依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱。所述数据分布知识图谱用于反映所述历史对话音频数据、所述音频概括性数据和所述虚拟数字人描述数据之间的相关关系、所述多个历史对话音频数据之间的相关关系、所述多个音频概括性数据之间的相关关系。也就是说，对所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据进行图谱化处理，以形成对应的数据分布知识图谱。

步骤S130，将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量。

在本发明实施例中，所述数字化***可以将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量。

步骤S140，将所述概括性数据描述向量进行对比分析操作，以分析出所述多个音频概括性数据之间的数据关联关系信息。

在本发明实施例中，所述数字化***可以将所述概括性数据描述向量进行对比分析操作，以分析出所述多个音频概括性数据之间的数据关联关系信息。示例性地，可以所述音频概括性数据的概括性数据描述向量之间的余弦相似度，确定出所述音频概括性数据之间的数据关联关系信息，例如，所述音频概括性数据之间的数据关联关系信息可以与该余弦相似度之间具有正相关对应的关系。

步骤S150，在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据。

在本发明实施例中，所述数字化***可以在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据。如此，可以实现对待处理对话音频数据的关联补充或关联强化。

步骤S160，基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作。

在本发明实施例中，所述数字化***可以基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作，即进行虚拟数字形象的音频会话管控操作。

基于上述内容，由于在进行虚拟数字人的音频会话管控操作之前，会先对待处理对话音频数据进行关联扩展操作，以得到待处理对话音频数据对应的每一个扩展对话音频数据，使得在进行虚拟数字人的音频会话管控操作的过程中，不仅仅依据待处理对话音频数据，还依据待处理对话音频数据对应的扩展对话音频数据，使得音频会话管控操作的依据更为充分，因此，可以在一定程度上提高对话处理的可靠度，从而改善现有技术中存在的可靠度不高的问题。

可以理解的是，在一些实施方式中，上述的步骤S110，可以进一步包括如下描述的子步骤：

提取到历史交互会话数据，以及，基于所述历史交互会话数据，确定出第一历史对话音频数据集、第一音频概括性数据集和第一虚拟数字人描述数据集，示例性地，可以从相应的交互会话平台的数据库中提取到的历史交互会话数据，或者，最近一个时间段内的历史交互会话数据；

将所述第一音频概括性数据集中的第一音频概括性数据进行筛选操作，例如，可以将重复的音频概括性数据进行筛除，以及，对进行筛选操作后的第一音频概括性数据集中对应的虚拟数字人描述数据的数量小于预先配置的第一参考数量的第一音频概括性数据以外的多个第一音频概括性数据进行标记，以得到多个音频概括性数据，所述第一参考数量可以根据实际需求进行配置，在此不做具体的限定；

在所述第一虚拟数字人描述数据集中，依次标记出第一虚拟数字人描述数据、第二虚拟数字人描述数据和第三虚拟数字人描述数据，所述第一虚拟数字人描述数据属于对应的历史对话音频数据的数量小于预先配置的第二参考数量的虚拟数字人描述数据，所述第二虚拟数字人描述数据属于对应历史对话音频数据的数据种类的数量超过预先配置的第三参考数量的虚拟数字人描述数据，所述第三虚拟数字人描述数据属于对应的音频概括性数据的数量超过预先配置的第四参考数量的虚拟数字人描述数据，所述第二参考数量、所述第三参考数量和所述第四参考数量可以根据实际需求进行配置，在此不做具体的限定，另外，数据种类可以是指音频内容涉及到的领域，即将领域作为对应的数据种类；

可以理解的是，在一些实施方式中，上述的步骤S120，可以进一步包括如下描述的子步骤：

对所述第一局部知识图谱、所述第二局部知识图谱和所述第三局部知识图谱进行合并操作，以形成对应的数据分布知识图谱，也就是说，所述数据分布知识图谱可以包括所述第一局部知识图谱、所述第二局部知识图谱和所述第三局部知识图谱的全部内容。

可以理解的是，在一些实施方式中，所述基于所述多个音频概括性数据各自与所述多个历史对话音频数据和所述多个虚拟数字人描述数据之间的相关关系进行图谱化操作，以形成对应的第一局部知识图谱的步骤，可以进一步包括如下描述的子步骤：

在所述多个音频概括性数据中，确定出与每一个所述虚拟数字人描述数据具有相关关系的音频概括性数据，并在所述多个音频概括性数据中，确定出与每一个所述历史对话音频数据具有相关关系的音频概括性数据，例如，音频概括性数据和该音频概括性数据概况的历史对话音频数据之间具有相关关系，也与该历史对话音频数据对应的虚拟数字人的虚拟数字人描述数据之间具有相关关系；

基于第一图谱线条，将每一个所述虚拟数字人描述数据和对应的具有相关关系的音频概括性数据进行相连操作，也就是说，可以将所述虚拟数字人描述数据对应的图谱成员与对应的具有相关关系的音频概括性数据对应的图谱成员之间配置该第一图谱线条，以实现相连操作，以及，基于所述对应的具有相关关系的音频概括性数据的数据重复数量，为所述第一图谱线条配置重要性参数，以形成对应的第一携重要性图谱线条，例如，所述数据重复数量可以与对应的重要性参数之间具有正相关的对应关系；

基于第二图谱线条，将每一个所述历史对话音频数据和对应的具有相关关系的音频概括性数据进行相连操作，也就是说，可以将所述历史对话音频数据对应的图谱成员和对应的具有相关关系的音频概括性数据对应的图谱成员之间配置该第二图谱线条，以实现相连操作，以及，对预先确定的参考重要性第一表征参数进行标记，以标记为所述第二图谱线条的重要性参数，从而形成第二携重要性图谱线条，所述参考重要性第一表征参数可以根据实际需求进行配置，如0.9、0.85、0.75等数值；

可以理解的是，在一些实施方式中，所述依据所述多个虚拟数字人描述数据和所述多个音频概括性数据进行图谱化操作，以形成用于反映所述多个历史对话音频数据之间的相关关系的第二局部知识图谱的步骤，可以进一步包括如下描述的子步骤：

基于每一个所述虚拟数字人描述数据，在所述多个历史对话音频数据中，确定出具有相关关系的至少两个第一历史对话音频数据，例如，将相同的虚拟数字人描述数据对应的两个历史对话音频数据，确定为具有相关关系的至少两个第一历史对话音频数据，并基于每一个所述音频概括性数据，在所述多个历史对话音频数据中，确定出具有相关关系的至少两个第二历史对话音频数据，例如，将相同的音频概括性数据对应的两个历史对话音频数据，确定为具有相关关系的至少两个第二历史对话音频数据；

基于第三图谱线条，对所述至少两个第一历史对话音频数据进行相连操作，也就是说，可以将两个第一历史对话音频数据对应的图谱成员之间配置所述第三图谱线条，以实现图谱成员的相连操作，以及，基于预先确定的参考重要性第二表征参数和所述至少两个第一历史对话音频数据分别对应的音频概括性数据，对所述第三图谱线条配置重要性参数，以形成第三携重要性图谱线条，例如，可以计算两个第一历史对话音频数据分别对应的音频概括性数据之间的数据相似度，然后，对该数据相似度和所述参考重要性第二表征参数进行加权求和，以得到对应的第三图谱线条的重要性参数，所述参考重要性第二表征参数可以根据实际需求进行配置；

基于第四图谱线条，将所述至少两个第二历史对话音频数据进行相连操作，也就是说，可以将两个第二历史对话音频数据对应的图谱成员之间配置所述第四图谱线条，以实现图谱成员的相连操作，以及，基于所述至少两个第二历史对话音频数据分别对应的虚拟数字人描述数据和所述至少两个第二历史对话音频数据分别对应的音频概括性数据，对所述第四图谱线条配置重要性参数，以形成第四携重要性图谱线条，例如，一方面可以计算两个第二历史对话音频数据分别对应的虚拟数字人描述数据之间的数据相似度，另一方面可以计算两个第二历史对话音频数据分别对应的音频概括性数据之间的数据相似度，然后，可以对两个数据相似度进行加权求和操作，以形成对应的两个图谱成员之间的第四图谱线条的重要性参数；

可以理解的是，在一些实施方式中，所述依据所述多个历史对话音频数据进行图谱化操作，以形成用于反映所述多个音频概括性数据之间的相关关系的第三局部知识图谱的步骤，可以进一步包括如下描述的子步骤：

基于每一个所述历史对话音频数据，在所述多个音频概括性数据中，确定出具有相关关系的至少两个第三音频概括性数据，示例性地，在确定音频概括性数据的过程中，对于一个历史对话音频数据，可以为其配置不同的多个音频概括性数据，如基于不同的管理用户进行配置操作，可以形成不同的音频概括性数据，或者，设备可以基于不同的策略对历史对话音频数据进行概括性数据的提取，以形成不同的音频概括性数据，因此，可以将对应于同一个历史对话音频数据的两个第三音频概括性数据，确定为具有相关关系的至少两个第三音频概括性数据；或者，在其它实施方式中，可以将同一个虚拟数字人对应的两个历史对话音频数据对应的音频概括性数据，确定为具有相关关系的至少两个第三音频概括性数据；

基于第四图谱线条，将所述至少两个第三音频概括性数据进行相连操作，也就是说，可以将两个第三音频概括性数据对应的图谱成员之间配置所述第四图谱线条，以及，基于所述至少两个第三音频概括性数据的共线参数，对所述第四图谱线条配置重要性参数，以形成第五携重要性图谱线条，例如，可以先确定两个第三音频概括性数据同时作为一个历史对话音频数据的音频概括性数据的数量占比，然后，可以基于该数量占比确定出对应的重要性参数，该重要性参数可以与该数量占比之间具有正相关的对应关系，该数量占比可以等于第一数值和第二数值之间的比值，第一数值可以是指同时具有该两个第三音频概括性数据的历史对话音频数据的数量，第二数值可以是指具有其中一个第三音频概括性数据的历史对话音频数据的数量和具有另一个第三音频概括性数据的历史对话音频数据的数量的平均值，或者，可以基于其它方式确定对应的重要性参数；

可以理解的是，在一些实施方式中，上述的步骤S130，可以进一步包括如下描述的子步骤：

依次对所述数据分布知识图谱包括的多个图谱成员进行标记，以标记为初始图谱成员，以进行图谱成员的抽选操作，从而形成所述多个图谱成员各自对应的图谱成员抽选链路，所述图谱成员属于所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据中的任一个数据，所述图谱成员抽选链路可以用于反映与所述图谱成员之间具有相关关系的其它图谱成员，另外，在进行图谱成员的抽选操作的过程中，需要以对应的图谱线条作为遍历的路径，且遍历到下一个图谱成员的概率可以与该图谱线性对应的重要性参数之间具有正相关的关系；

对所述图谱成员抽选链路进行特征挖掘操作，以输出所述多个图谱成员中的每一个图谱成员对应的图谱成员描述向量，例如，对于每一个所述图谱成员，可以对该图谱成员对应的图谱成员抽选链路进行特征挖掘操作，以形成该图谱成员对应的图谱成员描述向量；

在所述多个图谱成员分别对应的所述图谱成员描述向量中，确定出所述多个音频概括性数据分别对应的概括性数据描述向量，即确定出所述多个音频概括性数据对应的图谱成员分别对应的概括性数据描述向量。

其中，可以理解的是，在一些实施方式中，所述对所述图谱成员抽选链路进行特征挖掘操作，以输出所述多个图谱成员中的每一个图谱成员对应的图谱成员描述向量的步骤，可以进一步包括如下描述的子步骤：

将所述图谱成员抽选链路进行特征挖掘操作，以形成所述多个图谱成员对应的挖掘特征描述向量，示例性地，可以通过相应的特征挖掘神经网络实现所述特征挖掘操作，该特征挖掘神经网络可以为卷积神经网络，以通过进行卷积运算，实现所述特征挖掘操作，如此，可以通过向量的形式来表示所述图谱成员抽选链路；

将在所述多个图谱成员中的音频概括性数据筛选出的数据进行特征挖掘操作，以形成对应的概括性特征描述向量，并将在所述多个图谱成员中的历史对话音频数据的关键音频帧中筛选出的数据进行特征挖掘操作，以形成对应的关键性特征描述向量，所述关键音频帧可以基于进行关键帧识别操作以得到，也可以将第一帧音频帧作为关键音频帧，其中，进行关键帧识别操作可以基于相应的基于进行训练形成的神经网络实现；另外，在形成所述概括性特征描述向量的过程中，也可以先对音频概括性数据进行关键数据的提取，如所述音频概括性数据属于文本数据，可以先对所述音频概括性数据进行关键词的提取，然后，可以对提取到的关键词进行特征挖掘操作，以形成对应的概括性特征描述向量；

对所述多个图谱成员中的音频概括性数据的挖掘特征描述向量和所述概括性特征描述向量进行叠加操作作，如加权的叠加，以形成所述多个图谱成员中的音频概括性数据的图谱成员描述向量；

对所述多个图谱成员中的历史对话音频数据的挖掘特征描述向量和所述关键性特征描述向量进行叠加操作，如加权的叠加，以形成所述多个图谱成员中的历史对话音频数据的图谱成员描述向量；

对所述多个图谱成员中所述音频概括性数据和所述历史对话音频数据以外的虚拟数字人描述数据对应的挖掘特征描述向量进行标记，以标记为所述多个图谱成员中的虚拟数字人描述数据的图谱成员描述向量。

可以理解的是，在一些实施方式中，上述的步骤S150，可以进一步包括如下描述的子步骤：

基于接收到的对话异常请求信息，在所述多个历史对话音频数据中，确定出一个相应的历史对话音频数据，并对该历史对话音频数据进行标记操作，以标记为待处理对话音频数据，示例性地，可以对所述对话异常请求信息进行解析，以根据解析结果确定出待处理对话音频数据，例如，所述对话异常请求信息可以是人工审核中标记出的疑似异常的历史对话音频数据的标识数据，所述对话异常请求信息也可以是其它用户对所述历史对话音频数据进行异常举报的数据；

基于所述多个音频概括性数据之间的数据关联关系信息，在所述多个音频概括性数据中，确定出与所述待处理对话音频数据对应的音频概括性数据相关联的每一个音频概括性数据，关联的音频概括性数据之间的数据关联关系信息满足预先配置的关联关系条件，例如，可以筛选出数据关联关系信息表征的关联程度大于预设关联程度的每一个音频概括性数据；

可以理解的是，在一些实施方式中，上述的步骤S160，可以进一步包括如下描述的子步骤：

对所述待处理对话音频数据进行特征挖掘操作，形成所述待处理对话音频数据对应的第一音频特征描述向量，并对所述扩展对话音频数据进行特征挖掘操作，形成所述扩展对话音频数据对应的第二音频特征描述向量，也就是说，用向量的形式来表示所述待处理对话音频数据和所述扩展对话音频数据中的特征或关键信息；

基于所述第二音频特征描述向量，对所述第一音频特征描述向量进行聚焦特征分析操作，以形成对应的聚焦音频特征描述向量，所述聚焦音频特征描述向量的数量等于所述第二音频特征描述向量的数量，也就是说，对于每一个所述第二音频特征描述向量，可以基于该第二音频特征描述向量对所述第一音频特征描述向量进行聚焦特征分析操作，以形成该第二音频特征描述向量对应的聚焦音频特征描述向量，聚焦特征分析操作可以是指，可以基于预先进行神经网络的训练操作形成的第一映射矩阵和第二映射矩阵，对所述第二音频特征描述向量进行映射操作，以形成第一映射向量和第二映射向量，以及，基于预先进行神经网络的训练操作形成的第三映射矩阵，对所述第一音频特征描述向量进行映射操作，以形成第三映射向量，然后，可以计算第三映射向量和第一映射向量的转置向量之间的乘积，然后，基于该乘积确定出正相关的相似系数，再基于该相似系数对第二映射向量进行加权，以得到对应的聚焦音频特征描述向量；

将所述第一音频特征描述向量和每一个所述聚焦音频特征描述向量进行聚合操作，以形成对应的聚合音频特征描述向量，例如，可以将所述第一音频特征描述向量和每一个所述聚焦音频特征描述向量进行叠加操作；

基于所述聚合音频特征描述向量，评估出所述待处理对话音频数据对应的音频对话异常信息，例如，可以基于经过网络训练的神经网络，对所述聚合音频特征描述向量进行异常评估，如此，可以得到对应的音频对话异常信息，如是否存在异常或存在的异常的程度值或存在的异常类型等，以及，基于所述音频对话异常信息，对所述待处理对话音频数据对应的虚拟数字人进行音频会话监控操作，所述音频会话监控操作至少包括提高对所述待处理对话音频数据对应的虚拟数字人的音频会话操作的异常监控频率或降低所述待处理对话音频数据对应的虚拟数字人进行音频会话操作的操作频率（即降低虚拟数字人的会话频率），例如，所述音频对话异常信息表征的异常程度越高，该异常监控频率可以越高，该操作频率可以越低。

结合图3，本发明实施例还提供一种基于虚拟数字形象交互的AI对话处理装置，可应用于上述数字化***。其中，所述基于虚拟数字形象交互的AI对话处理装置可以包括：

数据提取模块，用于提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据，所述历史对话音频数据基于对应的虚拟数字人在历史上进行音频会话操作以形成，所述音频概括性数据用于对相应的历史对话音频数据进行概括性描述，所述虚拟数字人描述数据用于对相应的虚拟数字人进行属性描述；

知识图谱确定模块，用于依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱，所述数据分布知识图谱用于反映所述历史对话音频数据、所述音频概括性数据和所述虚拟数字人描述数据之间的相关关系、所述多个历史对话音频数据之间的相关关系、所述多个音频概括性数据之间的相关关系；

数据分析模块，用于将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量；

对比分析模块，用于将所述概括性数据描述向量进行对比分析操作，以分析出所述多个音频概括性数据之间的数据关联关系信息；

关联扩展模块，用于在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据；

音频会话管控模块，用于基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作。

综上所述，本发明提供的基于虚拟数字形象交互的AI对话处理方法及数字化***，可以先提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据；依据多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据，确定出相应的数据分布知识图谱；将数据分布知识图谱的图谱成员进行数据分析操作，确定出多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量；将概括性数据描述向量进行对比分析操作，以分析出多个音频概括性数据之间的数据关联关系信息；在多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于待处理对话音频数据对应的音频概括性数据和多个音频概括性数据之间的数据关联关系信息，在多个历史对话音频数据中，对待处理对话音频数据进行关联扩展操作，以得到待处理对话音频数据对应的每一个扩展对话音频数据；基于待处理对话音频数据和扩展对话音频数据进行虚拟数字人的音频会话管控操作。基于上述内容，由于在进行虚拟数字人的音频会话管控操作之前，会先对待处理对话音频数据进行关联扩展操作，以得到待处理对话音频数据对应的每一个扩展对话音频数据，使得在进行虚拟数字人的音频会话管控操作的过程中，不仅仅依据待处理对话音频数据，还依据待处理对话音频数据对应的扩展对话音频数据，使得音频会话管控操作的依据更为充分，因此，可以在一定程度上提高对话处理的可靠度，从而改善现有技术中存在的可靠度不高的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述AI对话处理方法包括：

基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作。

2.如权利要求1所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述依据所述多个历史对话音频数据、所述多个音频概括性数据和所述多个虚拟数字人描述数据，确定出相应的数据分布知识图谱的步骤，包括：

3.如权利要求2所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述基于所述多个音频概括性数据各自与所述多个历史对话音频数据和所述多个虚拟数字人描述数据之间的相关关系进行图谱化操作，以形成对应的第一局部知识图谱的步骤，包括：

4.如权利要求2所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述依据所述多个虚拟数字人描述数据和所述多个音频概括性数据进行图谱化操作，以形成用于反映所述多个历史对话音频数据之间的相关关系的第二局部知识图谱的步骤，包括：

5.如权利要求2所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述依据所述多个历史对话音频数据进行图谱化操作，以形成用于反映所述多个音频概括性数据之间的相关关系的第三局部知识图谱的步骤，包括：

6.如权利要求1所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述将所述数据分布知识图谱的图谱成员进行数据分析操作，确定出所述多个音频概括性数据中的每一个音频概括性数据的概括性数据描述向量的步骤，包括：

7.如权利要求1所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述提取到多个历史对话音频数据、多个音频概括性数据和多个虚拟数字人描述数据的步骤，包括：

8.如权利要求1-7任意一项所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述在所述多个历史对话音频数据中，确定出一个历史对话音频数据，以标记为待处理对话音频数据，并基于所述待处理对话音频数据对应的音频概括性数据和所述多个音频概括性数据之间的数据关联关系信息，在所述多个历史对话音频数据中，对所述待处理对话音频数据进行关联扩展操作，以得到所述待处理对话音频数据对应的每一个扩展对话音频数据的步骤，包括：

9.如权利要求1-7任意一项所述的基于虚拟数字形象交互的AI对话处理方法，其特征在于，所述基于所述待处理对话音频数据和所述扩展对话音频数据进行虚拟数字人的音频会话管控操作的步骤，包括：

10.一种数字化***，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-9任意一项所述的方法。