CN115858773A

CN115858773A - 适用于长文档的关键词挖掘方法、装置及介质

Info

Publication number: CN115858773A
Application number: CN202210357739.2A
Authority: CN
Inventors: 段兴涛; 赵国庆; 周长安
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2023-03-28

Abstract

本申请公开了一种适用于长文档的关键词挖掘方法、装置及介质。其中方法包括：获取待处理的各个第一文本；对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本；确定各个第二文本分别对应的候选关键词集；对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的相关性指标；依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对目标簇类的关键词词典。本申请通过聚类分析降低了关技术中因文档标签的信息导致的冗余问题；同时通过利用词汇之间的关联信息来提升关键词的各项指标，进而达到提高挖掘关键词的精准率的目的。

Description

适用于长文档的关键词挖掘方法、装置及介质

技术领域

本申请涉及文档处理技术领域，具体而言，本申请涉及一种适用于长文档的关键词挖掘方法、装置及介质。

背景技术

关键词挖掘任务是自然语言处理技术NLP所有任务中的基本任务之一。关键词挖掘可以为搜索引擎中的检索、问答***的语义理解、文本匹配、领域内词典扩充、知识图谱等应用场景做支持。因此，关键词挖掘效果的好坏直接影响到后续任务的效果保证。目前的关键词挖掘方式主要包括深度学习和机器学习。机器学习挖掘不了语义表示，深度学习包含语义信息但是不太适用长文档，且二者都有词袋子模型且易造成关键词挖掘的效率过低达不到业务需要的问题。例如，深度学习模型，如RNN、CNN、BERT模型、RNN+CRF、CNN+CRF、BERT+CRF模型等，用这些模型做命名实体识别任务来挖掘关键词，但这种方式的输入对文档长度都有限制，不能处理超长文章且大模型还需要GPU硬件支持，如BILSTM双向LSTM处理输入的文本长度大约为700个字左右，BERT模型输入的文本长度为512个字左右；再如，使用关联分析的方式，挖掘领域关键词的效率不高，主要在于同一领域所有文档标签的信息过于冗余，会造成置信度、支持度、提升度、信息熵四个指标度量不太好，需要提前降低冗余的信息的问题。

发明内容

本申请提供了一种适用于长文档的关键词挖掘方法、装置、电子设备及计算机可读存储介质，可以解决上述至少一种问题。所述技术方案如下：

第一方面，提供了一种适用于长文档的关键词挖掘方法，该方法包括：

获取经语音识别ASR转换得到的待处理的各个第一文本；

对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本；

确定各个第二文本分别对应的候选关键词集；

对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的相关性指标；

依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对目标簇类的关键词词典。

进一步地，对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本的步骤，包括：

对各个第一文本分别对应的各个字符进行向量化，得到各个第一文本分别对应的向量序列；

对各个第一文本分别对应的向量序列进行聚类，得到属于目标簇类的各个第二文本。

更进一步地，对各个第一文本分别对应的各个字符进行向量化的步骤，包括：

将各个第一文本分别对应的各个字符进行词频-逆向文件频率TF-IDF向量转化，得到各个第一文本分别对应的TF-IDF向量序列。

进一步地，对各个第一文本分别对应的各个字符进行向量化的步骤之前，方法还包括：

对各个第一文本进行预处理，以得到仅包括汉字字符的各个第一文本。

进一步地，确定各个第二文本分别对应的候选关键词集的步骤，包括：

依据预配置的针对N-Gram模型的多个字符串距离对各个第二文本进行切词，得到各个第二文本分别对应的候选关键词集。

进一步地，相关性指标包括以下至少一项：

支持度、置信度、提升度和信息熵。

进一步地，依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的多个相关性指标进行关键词筛选，得到针对目标簇类的关键词词典的步骤，包括：

若任一第二文本对应的候选关键词集包括的任一候选关键词对应的支持度、置信度、提升度和信息熵均大于各自的阈值时，则确定该任一第二文本对应的候选关键词集包括的该任一候选关键词确定为目标关键词，以及将目标关键词加入至针对目标簇类的关键词词典。

第二方面，提供了一种适用于长文档的关键词挖掘装置，该装置包括：

文本获取模块，用于获取经语音识别ASR转换得到的待处理的各个第一文本；

聚类分析模块，用于对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本；

关键词提取模块，用于确定各个第二文本分别对应的候选关键词集；

相关性计算模块，用于对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的相关性指标；

关键词处理模块，用于依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对目标簇类的关键词词典。

进一步地，聚类分析模块包括：

向量转换子模块，用于对各个第一文本分别对应的各个字符进行向量化，得到各个第一文本分别对应的向量序列；

向量聚类子模块，用于对各个第一文本分别对应的向量序列进行聚类，得到属于目标簇类的各个第二文本。

进一步地，向量转换子模块包括：

进一步地，聚类分析模块对各个第一文本分别对应的各个字符进行向量化之前，还包括：

文本预处理子模块，用于对各个第一文本进行预处理，以得到仅包括汉字字符的各个第一文本。

进一步地，关键词提取模块包括：

文本切词子模块，用于依据预配置的针对N-Gram模型的多个字符串距离对各个第二文本进行切词，得到各个第二文本分别对应的候选关键词集。

进一步地，相关性指标包括以下至少一项：

支持度、置信度、提升度和信息熵。

进一步地，关键词处理模块包括：

关键词筛选子模块，用于若任一第二文本对应的候选关键词集包括的任一候选关键词对应的支持度、置信度、提升度和信息熵均大于各自的阈值时，则确定该任一第二文本对应的候选关键词集包括的该任一候选关键词确定为目标关键词，以及将目标关键词加入至针对目标簇类的关键词词典。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行上述适用于长文档的关键词挖掘方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述适用于长文档的关键词挖掘方法。

本申请实施例通过获取经语音识别ASR转换得到的待处理的各个第一文本，对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本，从而提取各个第二文本分别对应的候选关键词集，对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的相关性指标，进而依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对目标簇类的关键词词典，这种预先聚类分析来对不同文档进行归类再挖掘关键词的方式，降低了关技术中因文档标签的信息导致的冗余问题；同时通过利用词汇之间的关联信息来提升关键词的各项指标，进而达到提高挖掘关键词的精准率的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种适用于长文档的关键词挖掘方法的流程示意图；

图2为本申请实施例提供的一种适用于长文档的关键词挖掘装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种适用于长文档的关键词挖掘方法，如图1所示，该方法包括：步骤S101至步骤S104。

步骤S101、获取经语音识别ASR转换得到的待处理的各个第一文本。

具体地，可以第一文本可以来自于实时从预设的语音识别ASR接口；或者来自指定平台，如***中心。

步骤S102、对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本。

具体地，可以通过聚类分析确定出文本所属的类别后，对该文本的进行标注，通过标注的类别标识来构建针对目标簇类的文本库，从而起到对文本的快速分类效果。

步骤S103、确定各个第二文本分别对应的候选关键词集。

具体地，候选关键词集包括的各个关键词可以为同一字符串长度，也可以包括不同字符串长度。例如，候选关键词集包括的关键词的汉字字数为N，N可以为1或大于1的自然数。

步骤S104、对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词对应的多个相关性指标。

具体地，可以通过遍历的方式来统计某一文档中提取出的任一关键字在所有该类文档共现的词频，进而完成各种相关性指标的计算。

步骤S105、依据各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的多个相关性指标进行关键词筛选，得到针对目标簇类的关键词词典。

具体地，可以预先设置针对不同相关性指标的阈值，从而从同一文档的多个关键词中筛选出符合同类别文档的关键词。例如，在某一关键词的各个相关性指标均大于各自的相关性指标阈值时，将该某一关键词确定为属于该类别文档的关键词。

在一些实现方式中，步骤S102进一步包括：

具体地，可以通过遍历来确定文本的各个汉字字符，从而逐步完成汉字至向量的转化。通过这种方式，实现了对长文本的向量化目的。

具体地，可以使用预设的聚类算法，如K-mean聚类算法对各个第一文本进行聚类，确定出各个第一文本各自所属的聚类簇，以根据聚类簇确定各个第一文本所属的类别。

例如假设“我是中国人”和“我爱中国”两个文本在字符级别上Counter(“我是中国人”)＝{“我”:1,“是”:1,“中”:1,“国”:1,“人”:1}和Counter(“我爱中国”)＝{“我”:1,“爱”:1,“中”:1,“国”:1},TF-IDF(“我是中国人”)＝[-0.4,0,0，-0.4，-0.4，-0.4]，TF-IDF(“我是中国”)＝[-0.4,0,0,-0.4,-0.4,0]。其中，TF-IDF计算公式为:tf-idf(w)＝counter(w)*log₂(N_总/N_w+1)N_w为单词w出现的总词数，counter(w)是单词w在一篇出现的词频。在完成向量转换后，再使用kmeans聚类算法，确定聚成的簇类。

在一些实现方式中，步骤S102中对各个第一文本分别对应的各个字符进行向量化的步骤，包括：

本申请实施例通过TF-IDF向量的转化，不仅能够使得转化得到的TF-IDF向量与文档的具有较高的相关性，解决了相关技术中无法挖掘语义表示且无法适用长文档的问题。

在一些实现方式中，在步骤S102之前，该方法还包括：

应用时，可以在对文档包括的各个字符逐个读取后，使用python内置的re模块进行预处理，以去除汉字之外的其余字符的文本。

在一些实现方式中，步骤S103进一步包括：

本申请实施例按照N-Gram模型对文档进行切分，其中，N设置为3、4和5，即按照字符串长度为3、4和5分别执行切词处理，从而通过统计得到各个第二文本各自的候选关键词集。

在一些实现方式中，相关性指标包括以下至少一项：

支持度、置信度、提升度和信息熵。

本申请实施例中，支持度表示Gram切分的词和标签一起出现的次数，次数越多越表示这个组合可能具有很强的关联性；置信度的数值越大，代表在单词x出现的情况下，标签y的可能性越大；提升度表示标签y出现对于单词x出现的可能性提高的程度；信息熵表示信息的纯度，值越小纯度越高。

在一些实现方式中，步骤S105进一步包括：

若任一第二文本对应的候选关键词集包括的任一关键词对应的支持度、置信度、提升度和信息熵均大于各自的阈值时，则确定该任一第二文本对应的候选关键词集包括的该任一关键词确定为目标关键词，以将目标关键词加入至针对目标簇类的关键词词典。

应用时，在对按照步骤S103得到的候选关键词集进行统计，形成样本Sample(x，y)x为Gram词组合，y为标签(即类簇)，再统计词频。统计词频是指统计所有文档中的词以及标签共现词频，可以通过遍历同一类簇包括所有文档，cnt初始值为0，遇见词和标签出现，cnt计数加一。其中，支持度:表示Gram切分的词和标签一起出现的次数。次数越多越表示这个组合可能具有很强的关联性；置信度的数值越大，代表在单词x出现的情况下，标签y的可能性越大；提升度表示标签y出现对于单词x出现的可能性提高的程度，表示x和y的相关性，x当该值为1表示不相关，当该值大于1为正相关，当该值小于1时说明是负相关；信息熵表示信息的纯度，值越小纯度越高。

本申请实施例通过N-Gram模型的切词处理，起到了利用词汇之间的关联依存，进行关联分析、统计词汇之间的置信度、支持度、提升度、信息熵四个指标，并设置相关阈值进行筛选关键词。

本申请的又一实施例提供了一种适用于长文档的关键词挖掘装置，如图2所示，该装置20包括：文本获取模块201、聚类分析模块202、关键词提取模块203、相关性计算模块204以及关键词处理模块205。

文本获取模块201，用于获取经语音识别ASR转换得到的待处理的各个第一文本；

聚类分析模块202，用于对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本；

关键词提取模块203，用于确定各个第二文本分别对应的候选关键词集；

相关性计算模块204，用于对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词分别对应的相关性指标；

关键词处理模块205，用于依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对目标簇类的关键词词典。

进一步地，聚类分析模块包括：

进一步地，向量转换子模块包括：

进一步地，关键词提取模块包括：

进一步地，相关性指标包括以下至少一项：

支持度、置信度、提升度和信息熵。

进一步地，关键词处理模块包括：

本实施例的适用于长文档的关键词挖掘装置可执行本申请实施例一所示的适用于长文档的关键词挖掘方法，其实现原理相类似，此处不再赘述。

本申请又一实施例提供了一种终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行计算机程序时以实现上述适用于长文档的关键词挖掘方法。

具体地，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

具体地，处理器通过总线与存储器连接，总线可包括一通路，以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。

存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器用于存储执行本申请方案的计算机程序的代码，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现上述实施例提供的适用于长文档的关键词挖掘装置的动作。

本申请又一实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述适用于长文档的关键词挖掘方法。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种适用于长文档的关键词挖掘方法，其特征在于，包括：

获取经语音识别ASR转换得到的待处理的各个第一文本；

确定各个第二文本分别对应的候选关键词集；

对各个第二文本分别对应的候选关键词集进行相关性计算，得到各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标；

2.根据权利要求1所述的方法，其特征在于，所述对各个第一文本进行聚类分析，确定属于目标簇类的各个第二文本的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述对各个第一文本分别对应的各个字符进行向量化的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述对各个第一文本分别对应的各个字符进行向量化的步骤之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述确定各个第二文本分别对应的候选关键词集的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，所述相关性指标包括以下至少一项：

支持度、置信度、提升度和信息熵。

7.根据权利要求1所述的方法，其特征在于，所述依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的多个相关性指标进行关键词筛选，得到针对所述目标簇类的关键词词典的步骤，包括：

若任一第二文本对应的候选关键词集包括的任一候选关键词对应的支持度、置信度、提升度和信息熵均大于各自的阈值时，则确定该任一第二文本对应的候选关键词集包括的该任一候选关键词确定为目标关键词，以及将所述目标关键词加入至针对所述目标簇类的关键词词典。

8.一种适用于长文档的关键词挖掘装置，其特征在于，包括：

关键词处理模块，用于依据各个第二文本分别对应的候选关键词集包括的各个关键词对应的相关性指标进行关键词筛选，得到针对所述目标簇类的关键词词典。

9.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7任一项所述的方法。