CN110674243A - 一种基于动态k-均值算法的语料库索引构建方法 - Google Patents

一种基于动态k-均值算法的语料库索引构建方法 Download PDF

Info

Publication number
CN110674243A
CN110674243A CN201910587795.3A CN201910587795A CN110674243A CN 110674243 A CN110674243 A CN 110674243A CN 201910587795 A CN201910587795 A CN 201910587795A CN 110674243 A CN110674243 A CN 110674243A
Authority
CN
China
Prior art keywords
text
corpus
vocabulary
construction method
means algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910587795.3A
Other languages
English (en)
Inventor
刘家祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Knight Source Information Technology Co Ltd
Original Assignee
Xiamen Knight Source Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Knight Source Information Technology Co Ltd filed Critical Xiamen Knight Source Information Technology Co Ltd
Priority to CN201910587795.3A priority Critical patent/CN110674243A/zh
Publication of CN110674243A publication Critical patent/CN110674243A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于动态K‑均值算法的语料库索引构建方法,包括以下步骤:获取语料库中的文本;对语料库中的文本进行格式处理;对各文本进行分词处理,并去除停用词;对各文本中的词汇进行词性标注和词义标注;对各文本进行关键词提取,生成各文本的关键词集合;基于各文本的关键词集合,获取各文本的词汇特征向量;通过K‑means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合;采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;生成语料库的可达性索引表。本发明优化了语料库索引构建方法,操作简单,人们能够快速有效的从语料库中查询到所需的文件,使用效果极佳。

Description

一种基于动态K-均值算法的语料库索引构建方法
技术领域
本发明涉及语料库索引构建技术领域,尤其涉及一种基于动态K-均值算法的语料库索引构建方法。
背景技术
对大数据进行智能化管理和有效分析成为一个迫切需求,对大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析大数据的关键,也是提高科学化水平的基础;
但是,语料库内部的文件较多,现有的语料库索引构建方法较为复杂,使用效果不佳,人们难以快速的从语料库中查询到所需文件。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于动态K-均值算法的语料库索引构建方法,优化了语料库索引构建方法,操作简单,人们能够快速有效的从语料库中查询到所需的文件,使用效果极佳。
(二)技术方案
为解决上述问题,本发明提出了一种基于动态K-均值算法的语料库索引构建方法,包括以下步骤:
S1、获取语料库中的文本;
S2、对语料库中的文本进行格式处理,使所有文本的格式一致;
S3、对各文本进行分词处理,并去除停用词;
S4、对各文本中的词汇进行词性标注和词义标注;
S5、对各文本进行关键词提取,生成各文本的关键词集合;
S6、基于各文本的关键词集合,获取各文本的词汇特征向量;
S7、通过K-means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合;
S8、采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;
S9、生成语料库的可达性索引表。
优选的,在S3中,分词处理的具体步骤如下:
将获取的文本分割成多个段落;
将每个段落分割成多个句子;
对每个句子分词并得到词的序列。
优选的,在S3中,还需要去除语气词、HTML/XML标记、数字、时间和噪音词。
优选的,在S5中,关键词提取的步骤如下:
S51、采用并行化计算方式对文本进行处理,获取文本内各词汇的词频;
S52、设置词频阈值,并将各词汇词频词频与词频阈值进行比较,保存词频大于词频阈值的词汇,获得候选关键词集合;
S53、计算各候选关键词的TF-IDF值;
S54、设置TF-IDF值阈值,并将各词汇的TF-IDF值与TF-IDF值阈值相比较,保存TF-IDF值大于TF-IDF值阈值的词汇,获得各文本的关键词集合。
优选的,在S6中,其具体步骤如下:
基于各文本的关键词集合,提取文本的特征,并赋予各关键词权重,获取文本词汇特征向量。
优选的,在S7中,其具体步骤如下:
S71、对文本词汇特征向量进行初步聚类,获取文本词汇特征向量初步聚簇;
S72、根据文本词汇特征向量初步聚簇进行K-means聚类处理,获取多个文本集合。
本发明的上述技术方案具有如下有益的技术效果:
首先获取语料库中的文本;然后对语料库中的文本进行格式处理,使所有文本的格式一致;之后对各文本进行分词处理,并去除停用词;然后对各文本中的词汇进行词性标注和词义标注;之后对各文本进行关键词提取,生成各文本的关键词集合;然后基于各文本的关键词集合,获取各文本的词汇特征向量;之后通过K-means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合;然后采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;最后生成语料库的可达性索引表;
本发明优化了语料库索引构建方法,操作简单,人们能够快速有效的从语料库中查询到所需的文件,使用效果极佳。
附图说明
图1为本发明提出的一种基于动态K-均值算法的语料库索引构建方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于动态K-均值算法的语料库索引构建方法,包括以下步骤:
S1、获取语料库中的文本;
S2、对语料库中的文本进行格式处理,使所有文本的格式一致;
S3、对各文本进行分词处理,并去除停用词;
S4、对各文本中的词汇进行词性标注和词义标注;
S5、对各文本进行关键词提取,生成各文本的关键词集合;
S6、基于各文本的关键词集合,获取各文本的词汇特征向量;
S7、通过K-means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合;
S8、采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;
S9、生成语料库的可达性索引表。
在一个可选的实施例中,在S3中,分词处理的具体步骤如下:
将获取的文本分割成多个段落;
将每个段落分割成多个句子;
对每个句子分词并得到词的序列。
在一个可选的实施例中,在S3中,还需要去除语气词、HTML/XML标记、数字、时间和噪音词。
在一个可选的实施例中,在S5中,关键词提取的步骤如下:
S51、采用并行化计算方式对文本进行处理,获取文本内各词汇的词频;
S52、设置词频阈值,并将各词汇词频词频与词频阈值进行比较,保存词频大于词频阈值的词汇,获得候选关键词集合;
S53、计算各候选关键词的TF-IDF值;
S54、设置TF-IDF值阈值,并将各词汇的TF-IDF值与TF-IDF值阈值相比较,保存TF-IDF值大于TF-IDF值阈值的词汇,获得各文本的关键词集合。
在一个可选的实施例中,在S6中,其具体步骤如下:
基于各文本的关键词集合,提取文本的特征,并赋予各关键词权重,获取文本词汇特征向量。
在一个可选的实施例中,在S7中,其具体步骤如下:
S71、对文本词汇特征向量进行初步聚类,获取文本词汇特征向量初步聚簇;
S72、根据文本词汇特征向量初步聚簇进行K-means聚类处理,获取多个文本集合。
本发明中,首先获取语料库中的文本;然后对语料库中的文本进行格式处理,使所有文本的格式一致;之后对各文本进行分词处理,并去除停用词,其中分词处理的具体步骤如下:将获取的文本分割成多个段落,将每个段落分割成多个句子,对每个句子分词并得到词的序列;并且需要去除的词汇还包括语气词、HTML/XML标记、数字、时间和噪音词;
然后对各文本中的词汇进行词性标注和词义标注;之后对各文本进行关键词提取,生成各文本的关键词集合;其中,关键词提取的步骤如下:采用并行化计算方式对文本进行处理,获取文本内各词汇的词频,设置词频阈值,并将各词汇词频词频与词频阈值进行比较,保存词频大于词频阈值的词汇,获得候选关键词集合,计算各候选关键词的TF-IDF值,设置TF-IDF值阈值,并将各词汇的TF-IDF值与TF-IDF值阈值相比较,保存TF-IDF值大于TF-IDF值阈值的词汇,获得各文本的关键词集合;
然后基于各文本的关键词集合,获取各文本的词汇特征向量,具体步骤为:基于各文本的关键词集合,提取文本的特征,并赋予各关键词权重,获取文本词汇特征向量;
之后通过K-means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合,具体步骤为:对文本词汇特征向量进行初步聚类,获取文本词汇特征向量初步聚簇;根据文本词汇特征向量初步聚簇进行K-means聚类处理,获取多个文本集合;然后采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;最后生成语料库的可达性索引表;
本发明优化了语料库索引构建方法,操作简单,人们能够快速有效的从语料库中查询到所需的文件,使用效果极佳。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种基于动态K-均值算法的语料库索引构建方法,其特征在于,包括以下步骤:
S1、获取语料库中的文本;
S2、对语料库中的文本进行格式处理,使所有文本的格式一致;
S3、对各文本进行分词处理,并去除停用词;
S4、对各文本中的词汇进行词性标注和词义标注;
S5、对各文本进行关键词提取,生成各文本的关键词集合;
S6、基于各文本的关键词集合,获取各文本的词汇特征向量;
S7、通过K-means算法对各文本的词汇特征向量进行聚类处理,获取多个文本集合;
S8、采用索引引擎对每个文本集合进行处理,建立各文本集合的可达性索引;
S9、生成语料库的可达性索引表。
2.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法,其特征在于,在S3中,分词处理的具体步骤如下:
将获取的文本分割成多个段落;
将每个段落分割成多个句子;
对每个句子分词并得到词的序列。
3.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法,其特征在于,在S3中,还需要去除语气词、HTML/XML标记、数字、时间和噪音词。
4.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法,其特征在于,在S5中,关键词提取的步骤如下:
S51、采用并行化计算方式对文本进行处理,获取文本内各词汇的词频;
S52、设置词频阈值,并将各词汇词频词频与词频阈值进行比较,保存词频大于词频阈值的词汇,获得候选关键词集合;
S53、计算各候选关键词的TF-IDF值;
S54、设置TF-IDF值阈值,并将各词汇的TF-IDF值与TF-IDF值阈值相比较,保存TF-IDF值大于TF-IDF值阈值的词汇,获得各文本的关键词集合。
5.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法,其特征在于,在S6中,其具体步骤如下:
基于各文本的关键词集合,提取文本的特征,并赋予各关键词权重,获取文本词汇特征向量。
6.根据权利要求1所述的一种基于动态K-均值算法的语料库索引构建方法,其特征在于,在S7中,其具体步骤如下:
S71、对文本词汇特征向量进行初步聚类,获取文本词汇特征向量初步聚簇;
S72、根据文本词汇特征向量初步聚簇进行K-means聚类处理,获取多个文本集合。
CN201910587795.3A 2019-07-02 2019-07-02 一种基于动态k-均值算法的语料库索引构建方法 Pending CN110674243A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910587795.3A CN110674243A (zh) 2019-07-02 2019-07-02 一种基于动态k-均值算法的语料库索引构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910587795.3A CN110674243A (zh) 2019-07-02 2019-07-02 一种基于动态k-均值算法的语料库索引构建方法

Publications (1)

Publication Number Publication Date
CN110674243A true CN110674243A (zh) 2020-01-10

Family

ID=69068575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910587795.3A Pending CN110674243A (zh) 2019-07-02 2019-07-02 一种基于动态k-均值算法的语料库索引构建方法

Country Status (1)

Country Link
CN (1) CN110674243A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112925912A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 文本处理方法、同义文本召回方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN105787097A (zh) * 2016-03-16 2016-07-20 中山大学 一种基于文本聚类的分布式索引构建方法及***
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取***
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN109710926A (zh) * 2018-12-12 2019-05-03 内蒙古电力(集团)有限责任公司电力调度控制分公司 电网调度专业语言语义关系抽取方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064969A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 自动建立关键词索引表的方法
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN105787097A (zh) * 2016-03-16 2016-07-20 中山大学 一种基于文本聚类的分布式索引构建方法及***
US20180052908A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Semantic reverse search indexing of publication corpus
CN106682128A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 多领域词典自动构建方法
CN106776562A (zh) * 2016-12-20 2017-05-31 上海智臻智能网络科技股份有限公司 一种关键词提取方法和提取***
CN107220295A (zh) * 2017-04-27 2017-09-29 银江股份有限公司 一种人民矛盾调解案例搜索和调解策略推荐方法
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN109710926A (zh) * 2018-12-12 2019-05-03 内蒙古电力(集团)有限责任公司电力调度控制分公司 电网调度专业语言语义关系抽取方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112836008B (zh) * 2021-02-07 2023-03-21 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112925912A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 文本处理方法、同义文本召回方法及装置
CN112925912B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 文本处理方法、同义文本召回方法及装置

Similar Documents

Publication Publication Date Title
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及***
CN102799647B (zh) 网页去重方法和设备
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN108334489B (zh) 文本核心词识别方法和装置
CN105760526B (zh) 一种新闻分类的方法和装置
CN107943786B (zh) 一种中文命名实体识别方法及***
CN109145180B (zh) 一种基于增量聚类的企业热点事件挖掘方法
CN110674243A (zh) 一种基于动态k-均值算法的语料库索引构建方法
CN110619051A (zh) 问题语句分类方法、装置、电子设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN108399157B (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN113971210B (zh) 一种数据字典生成方法、装置、电子设备及存储介质
CN110188359B (zh) 一种文本实体抽取方法
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN114036907B (zh) 一种基于领域特征的文本数据扩增方法
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN110347696B (zh) 数据转换方法、装置、计算机设备以及存储介质
CN104199811A (zh) 短句解析模型建立方法及***
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN110633468A (zh) 一种关于对象特征提取的信息处理方法及装置
CN116010545A (zh) 一种数据处理方法、装置及设备
CN115481239A (zh) 一种社会治理文档摘要抽取方法、装置及电子设备
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110