CN111291186B

CN111291186B - 一种基于聚类算法的上下文挖掘方法、装置和电子设备

Info

Publication number: CN111291186B
Application number: CN202010072544.4A
Authority: CN
Inventors: 胡洪兵; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2024-01-09
Anticipated expiration: 2040-01-21
Also published as: CN111291186A

Abstract

本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备，该方法和装置具体为响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

Description

一种基于聚类算法的上下文挖掘方法、装置和电子设备

技术领域

本发明涉及语音处理技术领域，特别是涉及一种基于聚类算法的上下文挖掘方法、装置和电子设备。

背景技术

在进行对话文本分析时，如果想了解通话文本的主要内容时只能对文本内容一一查看，而一般应用场景的通话文本数量都极为巨大，从而导致目前对话文本分析的效率较低。

发明内容

有鉴于此，本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备，以提高对通话文本分析的效率。

为了解决上述问题，本发明公开了一种基于聚类算法的上下文挖掘方法，应用于电子设备，所述山下文挖掘方法包括步骤：

响应用户的挖掘请求，根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含所述关键词的关键语句，并从所述通话文本中截取与所述关键语句直接相连的多个关联语句；

对多个所述关键语句进行无监督聚类处理，得到多个语句聚类；

针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建。

可选的，所述对多个所述关键语句进行无监督聚类处理，包括：

用重复二分算法对所述关键语句进行无监督聚类处理，得到所述多个语句聚类。

可选的，所述针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建，包括：

以所述关键词所在位置为序，对所述语句聚类内的所有所述关联语句进行聚类处理，得到多个关联语句聚类；

将于所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。

可选的，在所述针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建步骤之前，还包括：

将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。

另外，还提供了一种基于聚类算法的上下文挖掘装置，应用于电子设备，所述山下文挖掘装置包括：

文本筛选模块，被配置为响应用户的挖掘请求，根据所述挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含所述关键词的关键语句，并从所述通话文本中截取与所述关键语句直接相连的多个关联语句；

聚类处理模块，被配置为对多个所述关键语句进行无监督聚类处理，得到多个语句聚类；

构建处理模块，被配置为针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建。

可选的，所述聚类处理模块被配置为用重复二分算法对所述关键语句进行无监督聚类处理，得到所述多个语句聚类。

可选的，所述构建处理模块包括：

语句聚类单元，被配置为以所述关键词所在位置为序，对所述语句聚类内的所有所述关联语句进行聚类处理，得到多个关联语句聚类；

构建执行单元，被配置为将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。

聚类删除模块，被配置为在构建处理模块针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建之前，将所述多个语句聚类中规模小于预设规模阈值的语句聚类作为无效类予以剔除。

还提供了一种电子设备，设置有如上所述的上下文挖掘装置。

还提供了一种电子设备，设置有至少一个处理器和与所述处理器信号连接的存储器，其中：

所述存储器用于存储计算机程序或指令；

所述处理器用于获取并执行所述计算机程序或指令，以使所述电子设备实现如上所述的山下文挖掘方法。

从上述技术方案可以看出，本发明提供了一种基于聚类算法的上下文挖掘方法、装置和电子设备，该方法和装置具体为响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的一种基于聚类算法的上下文挖掘方法的流程图；

图2为本申请实施例的另一种基于聚类算法的上下文挖掘方法的流程图；

图3为本申请实施例的一种基于聚类算法的上下文挖掘装置的框图；

图4为本申请实施例的另一种基于聚类算法的上下文挖掘装置的框图；

图5为本申请实施例的一种电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本申请实施例的一种基于聚类算法的上下文挖掘方法的流程图。

参照图1所示，本实施例提供的上下文挖掘方法应用于计算机客户端、服务器等电子设备，具体通过如下方法实现对上下文的挖掘：

S1、从通话文本中筛选出关键语句和关联语句

作为应用于电子设备的方法，当接收到用户输入的挖掘请求时，根据该挖掘请求所指定的关键词从需要挖掘的通话文本中进行筛选，从中找出包含关键词的语句，即关键语句；在得到关键语句的同时，从通话文本中截取该关键语句以上及以下的多个语句。

例如，给定关键词“注销”，我们在通话文本中筛选出包含“注销”关键词的关键语句，并将命中关键词这一关键句话的上下五句话都进行截取，从而得到十个与关键语句关联的关联语句。

S2、对关键语句进行无监督聚类处理，得到多个语句聚类。

具体来说，用重复二分算法对前面得到的多个关键语句进行无监督聚类处理，从而得到多个语句聚类。例如，在对所有包含“注销”的关键语句进行聚类处理时，由于是无监督聚类，因此可以得到多个没有固定数量限制的语句聚类，例如，包括“***额度低注销”和“银行卡不用了注销”这两个语句聚类就是所有聚类中的两个。

这里的二分聚类算法是一种无监督机器学习算法，底层采用Kmeans算法实现。主要用于实现对大量无标签文本进行归类，该算法可以快速的将类别相似的文本聚集到一起。

S3、针对每个语句聚类进行上下文构建。

即在得到多个语句聚类后，针对每个语句聚类，根据相应语句聚类的关键词及其关联语句进行上下文构建，从而使用户可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等。

对于每个语句聚类来说，由于其包含有众多与相应关键词对应关联语句，因此，该上下文构建通过如下步骤实现。

首先，以关键词所在位置为序，对相应语句聚类内所有关联语句进行聚类处理，这里的聚类可以参照上述对关键语句的无监督聚类，从而得到多个关联语句聚类。

然后，将多个关联语句聚类中与该关键词紧密相关的关联语句聚类内的关联语句进与该关键语句结合在一起，从而为该关键语句构建多个关联语句，实现上下文构建。

从上述技术方案可以看出，本实施例提供了一种基于聚类算法的上下文挖掘方法，该方法应用于电子设备，具体为响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

另外，对于本实施例中在步骤S3之前，即在针对每个语句聚类件上下文构建之前，还包括如下处理步骤，如图2所示：

S21、将多个语句聚类中规模较小的语句聚类语义剔除。

即在对关键语句进行无监督聚类处理后，会得到多个语句聚类，其中有的较小，有的较大，对于较小的聚类来说，这个聚类没有普遍的意义，因此将其予以删除；或者说本步骤的实质在于选取较大的语句聚类予以保留，这样在后续处理时仅对较大的语句聚类进行上下文构建，这样可以节省计算资源。

这里所谓较大，是指规模大于预设规模阈值的语句聚类，这里的规模阈值可以在实际中根据聚类效果进行选取。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图3为本申请实施例的一种基于聚类算法的上下文挖掘装置的框图。

参照图3所示，本实施例提供的上下文挖掘装置应用于计算机客户端、服务器等电子设备，具体包括文本筛选模块10、聚类处理模块20和构建处理模块30。

文本筛选模块用于从通话文本中筛选出关键语句和关联语句

聚类处理模块用于对关键语句进行无监督聚类处理，得到多个语句聚类。

构建处理模块用于针对每个语句聚类进行上下文构建。

对于每个语句聚类来说，该模块包括语句聚类单元和构建执行单元。

语句聚类单元用于以关键词所在位置为序，对相应语句聚类内所有关联语句进行聚类处理，这里的聚类可以参照上述对关键语句的无监督聚类，从而得到多个关联语句聚类。

构建执行单元用于将多个关联语句聚类中与该关键词紧密相关的关联语句聚类内的关联语句进与该关键语句结合在一起，从而为该关键语句构建多个关联语句，实现上下文构建。

从上述技术方案可以看出，本实施例提供了一种基于聚类算法的上下文挖掘装置，该装置应用于电子设备，具体为响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

另外，对于本实施例中还包括距离删除模块40，如图4所示：

聚类删除模块用于在构建处理模块进行山下文构建之前，将多个语句聚类中规模较小的语句聚类语义剔除。

实施例三

本实施例提供了一种电子设备，如计算机终端设备或者服务器，其设置有上一实施例所提供的基于聚类算法的山下文挖掘装置。该装置用于响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

实施例四

图5为本申请实施例的一种电子设备的框图。

参照图5所示，本实施例提供的电子设备包括至少一个处理器101和存储器102，两者通过数据总线103相连接。其中该存储器用于存储计算机程序或指令，处理器则用于获取并执行该计算机程序或指令，以使该电子设备实现实施例所提供的基于聚类算法的上下文挖掘方法。

该上下文挖掘方法用于响应用户的挖掘请求，根据挖掘请求指定的关键词从预先准备的通话文本中进行筛选，得到多个包含关键词的关键语句，并从通话文本中截取与关键语句直接相连的多个关联语句；对多个关键语句进行无监督聚类处理，得到多个语句聚类；针对每个语句聚类，根据关键词和关联语句进行上下文构建。由于本方案基于电子设备实现了针对相应关键词的上下文构建，用户就可以根据构建的上下文内容分析出海量的通话文本的重要主题、话术等，而无需对文本内容一一查看，从而提高了对通话文本分析的效率。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于聚类算法的上下文挖掘方法，应用于电子设备，其特征在于，所述上下文挖掘方法包括步骤：

针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建；

所述针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建，包括：

将与所述关键词相关的关联语句聚类内的关联语句与所述关键词进行上下文构建。

2.如权利要求1所述的上下文挖掘方法，其特征在于，所述对多个所述关键语句进行无监督聚类处理，包括：

3.如权利要求1～2任一项所述的上下文挖掘方法，其特征在于，在所述针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建步骤之前，还包括：

4.一种基于聚类算法的上下文挖掘装置，应用于电子设备，其特征在于，所述上下文挖掘装置包括：

构建处理模块，被配置为针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建；

所述构建处理模块包括：

5.如权利要求4所述的上下文挖掘装置，其特征在于，所述聚类处理模块被配置为用重复二分算法对所述关键语句进行无监督聚类处理，得到所述多个语句聚类。

6.如权利要求4～5任一项所述的上下文挖掘装置，其特征在于，在所述针对每个所述语句聚类，根据所述关键词和所述关联语句进行上下文构建步骤之前，还包括：

7.一种电子设备，其特征在于，设置有如权利要求4～6任一项所述的上下文挖掘装置。

8.一种电子设备，其特征在于，设置有至少一个处理器和与所述处理器信号连接的存储器，其中：

所述存储器用于存储计算机程序或指令；

所述处理器用于获取并执行所述计算机程序或指令，以使所述电子设备实现如权利要求1～3任一项所述的上下文挖掘方法。