CN110674243A

CN110674243A - 一种基于动态k-均值算法的语料库索引构建方法

Info

Publication number: CN110674243A
Application number: CN201910587795.3A
Authority: CN
Inventors: 刘家祥
Original assignee: Xiamen Knight Source Information Technology Co Ltd
Current assignee: Xiamen Knight Source Information Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2020-01-10

Abstract

一种基于动态K‑均值算法的语料库索引构建方法，包括以下步骤：获取语料库中的文本；对语料库中的文本进行格式处理；对各文本进行分词处理，并去除停用词；对各文本中的词汇进行词性标注和词义标注；对各文本进行关键词提取，生成各文本的关键词集合；基于各文本的关键词集合，获取各文本的词汇特征向量；通过K‑means算法对各文本的词汇特征向量进行聚类处理，获取多个文本集合；采用索引引擎对每个文本集合进行处理，建立各文本集合的可达性索引；生成语料库的可达性索引表。本发明优化了语料库索引构建方法，操作简单，人们能够快速有效的从语料库中查询到所需的文件，使用效果极佳。

Description

一种基于动态K-均值算法的语料库索引构建方法

技术领域

本发明涉及语料库索引构建技术领域，尤其涉及一种基于动态K-均值算法的语料库索引构建方法。

背景技术

对大数据进行智能化管理和有效分析成为一个迫切需求，对大数据进行定量建模以及关联分析，并研究有效的分析挖掘方法，是有效分析大数据的关键，也是提高科学化水平的基础；

但是，语料库内部的文件较多，现有的语料库索引构建方法较为复杂，使用效果不佳，人们难以快速的从语料库中查询到所需文件。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于动态K-均值算法的语料库索引构建方法，优化了语料库索引构建方法，操作简单，人们能够快速有效的从语料库中查询到所需的文件，使用效果极佳。

(二)技术方案

为解决上述问题，本发明提出了一种基于动态K-均值算法的语料库索引构建方法，包括以下步骤：

S1、获取语料库中的文本；

S2、对语料库中的文本进行格式处理，使所有文本的格式一致；

S3、对各文本进行分词处理，并去除停用词；

S4、对各文本中的词汇进行词性标注和词义标注；

S5、对各文本进行关键词提取，生成各文本的关键词集合；

S6、基于各文本的关键词集合，获取各文本的词汇特征向量；

S7、通过K-means算法对各文本的词汇特征向量进行聚类处理，获取多个文本集合；

S8、采用索引引擎对每个文本集合进行处理，建立各文本集合的可达性索引；

S9、生成语料库的可达性索引表。

优选的，在S3中，分词处理的具体步骤如下：

将获取的文本分割成多个段落；

将每个段落分割成多个句子；

对每个句子分词并得到词的序列。

优选的，在S3中，还需要去除语气词、HTML/XML标记、数字、时间和噪音词。

优选的，在S5中，关键词提取的步骤如下：

S51、采用并行化计算方式对文本进行处理，获取文本内各词汇的词频；

S52、设置词频阈值，并将各词汇词频词频与词频阈值进行比较，保存词频大于词频阈值的词汇，获得候选关键词集合；

S53、计算各候选关键词的TF-IDF值；

S54、设置TF-IDF值阈值，并将各词汇的TF-IDF值与TF-IDF值阈值相比较，保存TF-IDF值大于TF-IDF值阈值的词汇，获得各文本的关键词集合。

优选的，在S6中，其具体步骤如下：

基于各文本的关键词集合，提取文本的特征，并赋予各关键词权重，获取文本词汇特征向量。

优选的，在S7中，其具体步骤如下：

S71、对文本词汇特征向量进行初步聚类，获取文本词汇特征向量初步聚簇；

S72、根据文本词汇特征向量初步聚簇进行K-means聚类处理，获取多个文本集合。

本发明的上述技术方案具有如下有益的技术效果：

首先获取语料库中的文本；然后对语料库中的文本进行格式处理，使所有文本的格式一致；之后对各文本进行分词处理，并去除停用词；然后对各文本中的词汇进行词性标注和词义标注；之后对各文本进行关键词提取，生成各文本的关键词集合；然后基于各文本的关键词集合，获取各文本的词汇特征向量；之后通过K-means算法对各文本的词汇特征向量进行聚类处理，获取多个文本集合；然后采用索引引擎对每个文本集合进行处理，建立各文本集合的可达性索引；最后生成语料库的可达性索引表；

本发明优化了语料库索引构建方法，操作简单，人们能够快速有效的从语料库中查询到所需的文件，使用效果极佳。

附图说明

图1为本发明提出的一种基于动态K-均值算法的语料库索引构建方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于动态K-均值算法的语料库索引构建方法，包括以下步骤：

S1、获取语料库中的文本；

S3、对各文本进行分词处理，并去除停用词；

S4、对各文本中的词汇进行词性标注和词义标注；

S5、对各文本进行关键词提取，生成各文本的关键词集合；

S9、生成语料库的可达性索引表。

在一个可选的实施例中，在S3中，分词处理的具体步骤如下：

将获取的文本分割成多个段落；

将每个段落分割成多个句子；

对每个句子分词并得到词的序列。

在一个可选的实施例中，在S3中，还需要去除语气词、HTML/XML标记、数字、时间和噪音词。

在一个可选的实施例中，在S5中，关键词提取的步骤如下：

S53、计算各候选关键词的TF-IDF值；

在一个可选的实施例中，在S6中，其具体步骤如下：

在一个可选的实施例中，在S7中，其具体步骤如下：

本发明中，首先获取语料库中的文本；然后对语料库中的文本进行格式处理，使所有文本的格式一致；之后对各文本进行分词处理，并去除停用词，其中分词处理的具体步骤如下：将获取的文本分割成多个段落，将每个段落分割成多个句子，对每个句子分词并得到词的序列；并且需要去除的词汇还包括语气词、HTML/XML标记、数字、时间和噪音词；

然后对各文本中的词汇进行词性标注和词义标注；之后对各文本进行关键词提取，生成各文本的关键词集合；其中，关键词提取的步骤如下：采用并行化计算方式对文本进行处理，获取文本内各词汇的词频，设置词频阈值，并将各词汇词频词频与词频阈值进行比较，保存词频大于词频阈值的词汇，获得候选关键词集合，计算各候选关键词的TF-IDF值，设置TF-IDF值阈值，并将各词汇的TF-IDF值与TF-IDF值阈值相比较，保存TF-IDF值大于TF-IDF值阈值的词汇，获得各文本的关键词集合；

然后基于各文本的关键词集合，获取各文本的词汇特征向量，具体步骤为：基于各文本的关键词集合，提取文本的特征，并赋予各关键词权重，获取文本词汇特征向量；

之后通过K-means算法对各文本的词汇特征向量进行聚类处理，获取多个文本集合，具体步骤为：对文本词汇特征向量进行初步聚类，获取文本词汇特征向量初步聚簇；根据文本词汇特征向量初步聚簇进行K-means聚类处理，获取多个文本集合；然后采用索引引擎对每个文本集合进行处理，建立各文本集合的可达性索引；最后生成语料库的可达性索引表；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于动态K-均值算法的语料库索引构建方法，其特征在于，包括以下步骤：

S1、获取语料库中的文本；

S3、对各文本进行分词处理，并去除停用词；

S4、对各文本中的词汇进行词性标注和词义标注；

S5、对各文本进行关键词提取，生成各文本的关键词集合；

S9、生成语料库的可达性索引表。

2.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法，其特征在于，在S3中，分词处理的具体步骤如下：

将获取的文本分割成多个段落；

将每个段落分割成多个句子；

对每个句子分词并得到词的序列。

3.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法，其特征在于，在S3中，还需要去除语气词、HTML/XML标记、数字、时间和噪音词。

4.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法，其特征在于，在S5中，关键词提取的步骤如下：

S53、计算各候选关键词的TF-IDF值；

5.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法，其特征在于，在S6中，其具体步骤如下：

6.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法，其特征在于，在S7中，其具体步骤如下：