CN111553156A - 一种关键词提取方法、装置及设备 - Google Patents
一种关键词提取方法、装置及设备 Download PDFInfo
- Publication number
- CN111553156A CN111553156A CN202010451119.6A CN202010451119A CN111553156A CN 111553156 A CN111553156 A CN 111553156A CN 202010451119 A CN202010451119 A CN 202010451119A CN 111553156 A CN111553156 A CN 111553156A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- corpus
- keywords
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000011218 segmentation Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 34
- 238000001914 filtration Methods 0.000 claims description 18
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的一个或多个实施例提出关键词提取方法、装置及设备。该方法可以包括,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词。基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。从而在关键词提取过程中降低了提取关键词门槛,提升了提取效率与准确率。
Description
技术领域
本申请涉及计算机技术,具体涉及一种关键词提取方法、装置及设备。
背景技术
在对文本进行分析时,通常需要针对待分析文本进行分类。当完成分类后,再提取该文本中与其所属分类相关的关键信息,并针对该关键信息完成分析。
目前,不论对待分析文本进行分类,还是针对该文本提取与其所属分类相关的关键信息,都需要依据与各分类分别对应的关键词来完成。可见,目前亟需提取与各分类分别对应的关键词的方法。
发明内容
有鉴于此,本申请至少公开一种关键词提取方法、装置、设备及存储介质。
在本申请示出的第一方面,本申请提出一种关键词提取方法,可以包括:
基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合;
针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,可以包括:
将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值;
按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,可以包括:
基于TextRank算法计算语料文档可以包括的各单词的权重值;
按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤;
当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
在示出的一实施例中,上述基于TextRank算法计算语料文档可以包括的各单词的权重值,可以包括:
对语料文档进行分句处理,得到若干分句;
针对每一分句,进行分词处理;
将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数;
基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。
在示出的一实施例中,上述针对每一分句,进行分词处理,可以包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性;
基于上述各单词的词性,对上述单词集合中的单词进行过滤。
在示出的一实施例中,上述方法还可以包括以下操作中的任一或几项的组合:
过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。
在本申请示出的第二方面,本申请提出一种关键词提取装置,可以包括:
确定模块,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
构建模块,基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合;
统计模块,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
删除模块,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述确定模块,可以包括:
汇总模块,将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值;
第一确定子模块,按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述确定模块,可以包括:
计算模块,基于TextRank算法计算语料文档可以包括的各单词的权重值;
第二确定子模块,按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤;
求和模块,当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
第三确定子模块,按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
在示出的一实施例中,上述计算模块,可以包括:
分句模块,对语料文档进行分句处理,得到若干分句;
分词模块,针对每一分句,进行分词处理;
统计共现次数模块,将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数;
计算子模块,基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。
在示出的一实施例中,上述分词模块,可以包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性;
基于上述各单词的词性,对上述单词集合中的单词进行过滤。
在示出的一实施例中,上述分词模块,还博还可以包括以下操作中的任一或几项的组合:
过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。
由上述技术方案可知,通过TextRank算法从与多个目标分类分别对应的语料文档中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量,并从上述目标候选关键词集合中删除上述数量达到阈值的候选关键词,以得到与目标分类对应的关键词集合,从而在关键词提取过程中无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提取效率与准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请一个或多个实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请示出的一种关键词提取方法的方法流程图;
图2为本申请示出的一种确定候选关键词方法的方法流程图;
图3为本申请示出的一种基于TextRank算法计算单词权重值方法的方法流程图;
图4为本申请示出的一种关键词提取装置的结构图;
图5为本申请示出的一种关键词提取设备的硬件结构图。
具体实施方式
下面将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的设备和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在可以包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。还应当理解,本文中所使用的词语“如果”,取决于语境,可以被解释成为“在……时”或“当……时”或“响应于确定”。
在对文本进行分析时,通常需要针对待分析文本进行分类。当完成分类后,再提取该文本中与其所属分类相关的关键信息,并针对该关键信息完成分析。
目前,不论对待分析文本进行分类,还是针对该文本提取与其所属分类相关的关键信息,都需要依据与各分类分别对应的关键词来完成。可见,目前亟需提取与各分类分别对应的关键词的方法。
例如,在舆情分析领域中,通常可以包括基于预先提取的与各分类分别对应的关键词构建的关键词表。在针对待分析新闻资讯进行分析时,通常需要先确定上述待分析新闻资讯可以包括的关键词。然后再基于上述确定的关键词查询上述关键词表中与其匹配的关键词。在确定匹配的关键词后,再将与上述匹配的关键词对应的行业分类作为上述待分析新闻资讯的所属行业分类。
在确定行业分类后,再基于上述匹配的关键词提取该新闻中与其所属行业相关的关键信息,并针对该关键信息完成舆情分析。
可见,不论是对待分析新闻进行行业分类,还是针对该新闻提取与其所属行业相关的关键信息,都需要依据与行业分类相关的关键词来完成。因此,如何预先提取与各分类分别对应的关键词是亟需解决的问题。
在相关技术中,在提取与行业分类相关的关键词时,通常采用人工方式。
例如,在构建行业关键词表时,通常需要由对行业分类知识有认知的人员,从大量与行业分类规范(例如,某经济行业分类指南等)中各行业相关的语料文档(例如,新闻资讯、公开论文等)中,提炼出与各行业分类相关的关键词。
然而,在实际应用中,由于一方面,行业分类规范有很多种,不同经济活动区域采用的行业分类规范并不相同;另一方面,随着人类生产经营活动的不断拓展,行业分类需要不断调整变动,与行业分类对应的关键词也需要不断更新完善,因此,在完善与行业分类对应的关键词时需要耗费大量人力,从而导致效率低,错误率高等技术问题。
并且,在提取关键词时,需要具备分类知识的人员才可进行分类,这将导致提取关键词门槛高,效率低等技术问题。
基于此,本申请提出一种关键词提取方法。该方法通过TextRank算法在与预设的多个目标分类分别对应的语料文本中,进行候选关键词挖掘,然后通过关键词筛选策略从若干候选关键词中筛选出关键词,得到与上述多个目标分类分别对应的关键词集合,从而无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提取效率与准确率。
以下结合具体实施例对本申请记载的技术方案进行说明。
请参见图1,图1为本申请示出的一种关键词提取方法的方法流程图。如图1所示,上述方法可以包括:
S102,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词。
S104,基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。
S106,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。
S108,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
上述方法可以以软件装置的形式搭载在任意终端设备中。例如,PC终端,移动终端,PAD终端等。可以理解的是,在实现该方法时通常需要搭载该方法的设备提供算力。以下以执行主体为搭载该方法的设备为例进行说明。
上述多个目标分类,可以是具有共同属性的若干类别。在舆情分析场景中,上述共同属性可以是行业属性。此时上述多个目标分类可以是多个行业分类。例如,上述行业分类可以是农业、牧业、林业、开采业等。在文章类别识别场景中,上述共同属性可以是文章类别属性。此时上述多个目标分类可以是多种文章类别分类。例如,上述文章类别分类可以是散文、诗集、文言、小说等。需要说明的是,上述多个目标分类可以由用户根据实际的场景预先设定。
在实际应用中,上述目标分类可以来自于规范性文件。在舆情分析场景中,上述多个行业分类可以来自于行业分类规范。例如,上述行业分类规范可以是某地区经济行业分类,或国际标准行业分类等等。在获取上述多个行业分类时,可以根据实际需求从上述行业分类规范中选择若干行业类别。
上述语料文档,可以是与目标分类对应的任意文档。例如,新闻资讯,小说,评论观点等。上述语料文档中可以被标注指示该文档所属分类的分类标识。在确定该语料文档所属分类时可以通过确定语料文档被标注的分类标识来确定该语料文档所属分类。
在一种实现方式中,上述分类标识可以是由具有分类知识的人员通过阅读文档后进行标注的。在另一种实现方式中,上述分类标识可以是由文档撰写人员在撰写文档时标注的。
上述TextRank算法,是受到Google的PageRank的启发,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档自身的信息即可实现关键词提取的关键词挖掘算法。通过该算法可以从与多个目标分类分别对应的语料文档中提取出与上述多个目标分类分别对应的候选关键词。
由上述技术方案可知,通过TextRank算法从与多个目标分类分别对应的语料文档中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量,并从上述目标候选关键词集合中删除上述数量达到阈值的候选关键词,以得到与目标分类对应的关键词集合,从而在关键词提取过程中无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提取效率与准确率。
通常情形下,在提取目标分类相关的关键词时,需要从与上述多个目标分类分别对应的多篇语料文档中提取关键词。
在一实施例中,上述在执行上述S102,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词时,上述设备可以针对每一目标分类分别执行以下S1022-S1024步骤。
请参见图2,图2为本申请示出的一种确定候选关键词方法的方法流程图。如图2所示,上述设备可以先针对每一目标分类分别执行以下步骤:
S1022,将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值。
S1024,按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
在执行上述S1022时,上述设备可以先将上述多篇文档的首尾进行连接,汇总为一篇语料文档,然后,对汇总后的语料文档进行分句、分词操作,并基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值(分句、分词、计算权重值的具体步骤在后续实施例中详细说明,在此不作详述)。
在确定各单词的权重值后,上述设备可以执行上述S1024,按照各单词对应权重值大小,按照从大到小的顺序,对上述汇总后的语料文档中的单词进行排序。
在排序完成后,上述设备可以从处于排序位置首位的单词开始,选取M个单词,确定为候选关键词。其中,上述M可以是预设的数值,在此不作特别限定。
当针对所有目标分类执行完上述S1022-S1024后,即确定了与上述多个目标分类分别对应的候选关键词。此时,上述设备可以执行S104,基于上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。
在执行S104时,上述设备可以预先为上述多个目标分类分别对应一个数组,在执行S1024的过程中,可以将确定出的候选关键词,写入与上述目标分类对应的数组中,形成与上述目标分类对应的候选关键词集合。
在确定与上述多个目标分类对应的多个候选关键词集合后,上述设备可以执行上述S106,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。
在执行本步骤时,上述设备可以针对每一目标分类执行以下步骤:
将上述目标分类对应的目标候选关键词集合中的每一候选关键词作为目标候选关键词,然后,为上述目标候选关键词设置一个初始值为1的计数器。在设置后计数器后,上述设备可以依次确定其他候选关键词集合中是否包含上述目标候选关键词,并在每次确定出可以包括上述目标候选关键词的候选关键词集合后,将上述计数器加1。当针对所有其他候选关键词集合执行完确定为其是否包含上述目标候选关键词的步骤后,将上述计数器中的数值确定为上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。
在确定上述目标候选关键词对应的上述数量后,上述设备可以执行S108,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
其中,上述阈值为根据经验设定的阈值,在此不作特别限定。
需要说明的是,在执行S108时,在一种情形中,上述设备可以在每次确定出包含该目标候选关键词的候选关键词集合的数量后,确定上述数量是否达到上述阈值,并在上述数量达到阈值时,从上述目标候选关键词集合中删除上述目标候选关键词,以得到与上述目标分类对应的关键词集合。
在另一种情形中,上述设备可以创建一个数量数组将上述目标候选关键词集合中的每一候选关键词的上述数量写入上述数量数组中。在确定上述目标候选关键词集合中的每一候选关键词对应的上述数量后,可以确定上述数量数组中记录的达到上述阈值的数量,并从上述目标候选关键词集合中,删除对达到上述阈值的数量所对应的候选关键词,以得到与上述目标分类对应的关键词集合。
由上述技术方案可知,通过TextRank算法从与多个目标分类分别对应的语料文档中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量,并从上述目标候选关键词集合中删除上述数量达到阈值的候选关键词,以得到与目标分类对应的关键词集合,从而在关键词提取过程中无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提取效率与准确率。
当上述多个目标分类分别对应多篇语料文档时,在一实施例中,为了进一步提升提取关键词准确率,上述设备在执行上述S102,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词时,可以针对每一目标分类分别执行以下步骤;
针对上述多篇语料文档中的若干篇语料文档分别执行:基于TextRank算法计算语料文档可以包括的各单词的权重值。
在本步骤中,上述设备可以基于TextRank算法,分别针对上述多篇语料文档中的每一篇语料文档,计算语料文档可以包括的各单词的权重值。
需要说明的是,由于语料文档通常可以包括标题与正文两部分,此时在计算上述权重值时,可以仅计算标题或正文部分各自可以包括的单词的权重值,也可以将标题与正文汇总在一起确定上述权重值,具体计算方式可以根据实际情形进行设定,在本申请中不进行特别限定。
请参见图3,图3为本申请示出的一种基于TextRank算法计算单词权重值方法的方法流程图。如图3所示,在基于TextRank算法计算语料文档可以包括的各单词的权重值时,可以先执行S12,对上述语料文档进行分句操作。
在实际应用中,上述设备可以从语料文档的第一个字符开始,按照顺序依次判断上述字符是否标点符号,如果是,则将该标点符号之前的字符组成一个分句。
在确定一个分句后,上述设备可以将上述目标分类,上述语料文档,以及上述分句的对应关系存储起来。例如,上述设备可以按照目标分类、文档编码、分句文本的形式进行分句存储。其中,上述文档编码为与上述语料文档一一对应的编码(例如,上述文档编码可以是上述语料文档对应哈希值)。
在确定上述语料文档中所有的分句后,可以执行S14,对每一分句进行分词操作。
在实际应用中,上述设备可以通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合。
例如,上述设备可以采用jieba或者Aliws分词工具对每一分句进行分词操作。其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性。
在上述情形下,为了提升提取关键词效率,可以基于上述各单词的词性,对上述单词集合中的单词进行过滤。
在实际应用中,由于上述关键词通常为名词,因此可以对上述单词集合中的单词进行删选过滤,仅保留词性为名词的单词。
在一实施例中,为了进一步提升提取关键词效率,以及正确率,上述设备还可以执行以下任一或几项操作:
过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。
在实际应用中,上述设备可以将日期、停用词等无意义字符进行删除。例如,上述设备可以将“2016年12月4日葡萄酒”变为“葡萄酒”。
在实际应用中,上述设备可以将具有相同含义的不同单词用同一单词表示。例如,上述设备可以将表示公斤的不同单词“公斤”、“千克”、“kg”、“KG”等都统一为“千克”。
在实际应用中,由于上述语料文档可能可以包括繁体字,因此,上述设备可以将繁体字转换为简体字。
在实际应用中,上述设备还可以去掉标点符号、非法字符等特殊字符。例如,上述设备可以将“!黄金。”处理后为“黄金”。
在针对与每一分句对应的单词集合执行完上述过滤操作后,上述可以将单词集合作为新的分句进行存储。在实际应用中,上述设备可以按照目标分类、文档编码、分句文本的形式进行分句存储。
接下来,上述设备可以执行S16,构建词图G。在构建上述词图G时,可以以矩阵形式存储上述词图。其中,上述矩阵的行与列表示上述语料文档可以包括的单词。上述矩阵的元素指示,该元素所处行指示的单词与该元素所处列指示的单词在同一窗口中出现的次数(共现次数)。
在构建上述矩阵时,可以先确定上述语料文档可以包括的单词,并将上述矩阵的每一行与每一列均对应上述语料文档可以包括的单词。
然后,上述设备可以设定单词滑动窗口(其中,上述单词滑动窗口可以包括的单词数量在本申请中不进行限定,例如,上述单词数量为2)。在设定单词滑动窗口后,上述设备可以针对每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数。
当针对上述语料文档对应的所有分句执行为窗口滑动操作后,上述设备可以将统计的各单词对的共现次数,填入预先维护的矩阵中,以完成对上述词图G的构建。
在构建词图G后,上述设备可以执行S18,基于TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。
上述TextRank算法公式,具体为:
其中,指示单词Vi的权重值。上述d为根据经验预设的阻尼系数,通常为常数。上述In(Vi)指示与单词Vi形成单词对,并处于上述单词Vi前的单词的集合。上述Out(Vj)指示与单词Vj形成单词对,并处于上述单词Vj后的单词的集合。上述wji指示单词Vi与单词Vj的共现次数。
在确定各单词的权重值时,可以先为单词的权重值指定任意的初始值(例如,上述初始值为1),然后基于上述TextRank算法公式迭代传播各单词的权重值,直至所有单词的权重值的几乎不发生变化时(单词权重值在迭代过程中变化率小于预设极限值),将此时各单词对应的权重值作为最终权重值。
在计算出语料文档可以包括的各单词的权重值后,上述设备可以执行S18,按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词。
在本步骤中,上述设备可以按照权重值由大到小的顺序,将语料文档中的单词排序,并从处于排序首位的单词开始的M各单词,确定为语料文档对应的关键词。
当确定上述多篇语料文档分别对应的关键词后,上述设备可以执行S20,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和。
在本步骤中,在一实施例中,加权求和时各项权重值对应的权重可以是1。在上述情形下,上述设备可以针对每一上述关键词,先确定上述关键词在各篇语料文档中的权重值,然后将上述各权重值直接相加,得到加权求和结果。
在另一实施例中,为了提升提取关键词准确率,加权求和时各项权重值对应的权重可以是,以各关键词在不同语料文档中出现的次数为分子,上述多个语料文档可以包括的总单词数为分母,计算出的各关键词的TF(TF,Term Frequency词频)。在上述情形下,在将该关键词在各篇语料文档中的权重值进行加权求和时,可以将各关键词在各篇语料文档中的权重值先乘以各关键词对应的TF,然后再进行加权求和,得到加权求和结果。
在针对上述多篇语料文档分别对应的关键词执行完上述S20后,上述设备可以执行S22,按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
在本步骤中,上述设备可以按照各关键词加权求和结果由大到小的顺序,将各关键词排序,并从处于排序首位的关键词开始的N个关键词,确定为候选关键词。
当针对上述多个目标分类均执行完上述S12-S22的步骤后,将得到与上述多个目标分类分别对应的候选关键词。
此时,上述设备可以执行S104,基于上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。
在执行S104时,上述设备可以预先为上述多个目标分类分别对应一个数组,在执行S1024的过程中,可以将确定出的候选关键词,写入与上述目标分类对应的数组中,形成与上述目标分类对应的候选关键词集合。
在确定与上述多个目标分类对应的多个候选关键词集合后,上述设备可以执行上述S106,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。
在执行本步骤时,上述设备可以针对每一目标分类执行以下步骤:
将上述目标分类对应的目标候选关键词集合中的每一候选关键词作为目标候选关键词,然后,为上述目标候选关键词设置一个初始值为1的计数器。在设置后计数器后,上述设备可以依次确定其他候选关键词集合中是否包含上述目标候选关键词,并在每次确定出可以包括上述目标候选关键词的候选关键词集合后,将上述计数器加1。当针对所有其他候选关键词集合执行完确定为其是否包含上述目标候选关键词的步骤后,将上述计数器中的数值确定为上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。
在确定上述目标候选关键词对应的上述数量后,上述设备可以执行S108,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
其中,上述阈值为根据经验设定的阈值,在此不作特别限定。
需要说明的是,在执行S108时,在一种情形中,上述设备可以在每次确定出包含该目标候选关键词的候选关键词集合的数量后,确定上述数量是否达到上述阈值,并在上述数量达到阈值时,从上述目标候选关键词集合中删除上述目标候选关键词,以得到与上述目标分类对应的关键词集合。
在另一种情形中,上述设备可以创建一个数量数组将上述目标候选关键词集合中的每一候选关键词的上述数量写入上述数量数组中。在确定上述目标候选关键词集合中的每一候选关键词对应的上述数量后,可以确定上述数量数组中记录的达到上述阈值的数量,并从上述目标候选关键词集合中,删除对达到上述阈值的数量所对应的候选关键词,以得到与上述目标分类对应的关键词集合。
由上述技术方案可知,一方面,通过TextRank算法从与多个目标分类分别对应的语料文档中确定与上述多个目标分类分别对应的候选关键词集合,然后针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量,并从上述目标候选关键词集合中删除上述数量达到阈值的候选关键词,以得到与目标分类对应的关键词集合,从而在关键词提取过程中无需耗费大量人力,并且无需具备分类知识的人员参与,降低了提取关键词门槛,提升了提取效率与准确率。
另一方面,在本实施例中,在确定候选关键词时,上述设备先通过针对各篇语料文档分别确定与各篇语料文档对应的关键词。当确定上述多篇语料文档分别对应的关键词后,上述设备针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和,并按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词,以使确定的候选关键词更为准确,从而提升了提取关键词的准确率。
还一方面,在本实施例中,在进行分词操作时,对单词集合中的单词进行了删选操作,以将对确定候选关键词无意义的单词或字符进行了删减,从而减少单词数量,提升提取关键词效率。
以下结合舆情分析场景,对本申请记载的实施例进行说明。
在舆情分析场景中,需要基于若干目标行业提取与所示目标行业分别对应的行业关键词。
假设需要针对表1示出的三个目标行业提取与所示目标行业分别对应的行业关键词。
行业编码 | 行业名称 |
450300 | 一般零售 |
110700 | 畜禽养殖 |
630300 | 电源设备 |
表1
首先,上述设备可以针对上述三个行业分类各自对应的多篇语料文档中的若干篇语料文档分别执行:
对语料文档进行分句处理,得到若干分句。
针对每一分句,进行分词处理。
将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数。
基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。
按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词。
当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和。
按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
当确定与上述三个行业分类分别对应的候选关键词后,上述设备可以基于确定的上述候选关键词,构建与上述三个行业分类分别对应的三个候选关键词集合。
当构建完毕与上述三个行业分类分别对应的候选关键词集合后,上述设备可以针对与任一行业分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
在得到与上述三个行业分类对应的关键词集合后,上述设备还可以基于上述对应关系,构建如表2示出的行业关键词表。
表2
至此,则完成了针对上述三个行业的关键词提取。
与上述任一实施例相对应的,本申请还提出一种关键词提取装置。
请参见图4,图4为本申请示出的一种关键词提取装置的结构图。如图4所示,上述装置400可以包括:
确定模块410,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
构建模块420,基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合;
统计模块430,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
删除模块440,确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述确定模块410,可以包括:
汇总模块,将上述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档可以包括的各单词的权重值;
第一确定子模块,按照上述权重值大小,对上述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
在示出的一实施例中,上述多个目标分类分别对应多篇语料文档;
上述确定模块410,可以包括:
计算模块,基于TextRank算法计算语料文档可以包括的各单词的权重值;
第二确定子模块,按照上述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对上述多篇语料文档中的若干篇语料文档分别执行以上步骤;
求和模块,当确定上述多篇语料文档分别对应的关键词后,针对每一上述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
第三确定子模块,按照上述加权求和结果,对上述关键词进行排序,并将上述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
在示出的一实施例中,上述计算模块,可以包括:
分句模块,对语料文档进行分句处理,得到若干分句;
分词模块,针对每一分句,进行分词处理;
统计共现次数模块,将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将上述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计上述单词对的共现次数;
计算子模块,基于统计的上述单词对的共现次数,以及TextRank算法公式迭代计算语料文档可以包括的各单词的权重值。
在示出的一实施例中,上述分词模块,可以包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,上述单词集合可以包括,每一分句可以包括的单词,以及各单词的词性;
基于上述各单词的词性,对上述单词集合中的单词进行过滤。
在示出的一实施例中,上述分词模块,还博还可以包括以下操作中的任一或几项的组合:
过滤上述单词集合中可以包括的无意义字符;过滤上述单词集合中可以包括的特殊字符;对上述单词集合中的单词进行简繁转换;将上述单词集合中具有相同含义的不同单词用同一单词表示。
本申请示出的关键词提取装置的实施例可以应用于关键词提取设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本申请示出的一种关键词提取设备的硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图5所示的一种关键词提取设备,上述设备可以包括:处理器。
用于存储处理器可执行指令的存储器。
其中,上述处理器通过运行上述可执行指令以实现如权利要求1-6中任一项上述的方法。
本申请提出一种计算机可读存储介质,上述存储介质存储有计算机程序,上述计算机程序用于执行上述任一实施例示出的关键词提取方法。
本领域技术人员应明白,本申请一个或多个实施例可提供为方法、***或计算机程序产品。因此,本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例还提供一种计算机可读存储介质,该存储介质上可以存储有计算机程序,上述程序被处理器执行时实现本申请任一实施例描述的用于文字识别的神经网络的训练方法的步骤,和/或,实现本申请任一实施例描述的文字识别方法的步骤。其中,上述的“和/或”表示至少具有两者中的其中一个,例如,“多和/或B”可以包括三种方案:多、B、以及“多和B”。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、可以包括本申请中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本申请中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本申请中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。上述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机可以包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件可以包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将可以包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质可以包括所有形式的非易失性存储器、媒介和存储器设备,例如可以包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本申请包含许多具体实施细节,但是这些不应被解释为限制任何公开的范围或所要求保护的范围,而是主要用于描述特定公开的具体实施例的特征。本申请内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上上述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和***通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上上述仅为本申请一个或多个实施例的较佳实施例而已,并不用以限制本申请一个或多个实施例,凡在本申请一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请一个或多个实施例保护的范围之内。
Claims (13)
1.一种关键词提取方法,包括:
基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
基于确定的所述候选关键词,构建与所述多个目标分类分别对应的多个候选关键词集合;
针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计所述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
确定所述目标候选关键词集合中,是否包括所述数量达到阈值的候选关键词;如果是,将该候选关键词从所述目标候选关键词集合中删除,以得到与所述目标分类对应的关键词集合。
2.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;
所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:
将所述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档包括的各单词的权重值;
按照所述权重值大小,对所述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
3.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;
所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:
基于TextRank算法计算语料文档包括的各单词的权重值;
按照所述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对所述多篇语料文档中的若干篇语料文档分别执行以上步骤;
当确定所述多篇语料文档分别对应的关键词后,针对每一所述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
按照所述加权求和结果,对所述关键词进行排序,并将所述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
4.根据权利要求3所述的方法,所述基于TextRank算法计算语料文档包括的各单词的权重值,包括:
对语料文档进行分句处理,得到若干分句;
针对每一分句,进行分词处理;
将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将所述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计所述单词对的共现次数;
基于统计的所述单词对的共现次数,以及TextRank算法公式迭代计算语料文档包括的各单词的权重值。
5.根据权利要求4所述的方法,所述针对每一分句,进行分词处理,包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,所述单词集合包括,每一分句包括的单词,以及各单词的词性;
基于所述各单词的词性,对所述单词集合中的单词进行过滤。
6.根据权利要求5所述的方法,所述方法还包括以下操作中的任一或几项的组合:
过滤所述单词集合中包括的无意义字符;过滤所述单词集合中包括的特殊字符;对所述单词集合中的单词进行简繁转换;将所述单词集合中具有相同含义的不同单词用同一单词表示。
7.一种关键词提取装置,包括:
确定模块,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;
构建模块,基于确定的所述候选关键词,构建与所述多个目标分类分别对应的多个候选关键词集合;
统计模块,针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计所述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;
删除模块,确定所述目标候选关键词集合中,是否包括所述数量达到阈值的候选关键词;如果是,将该候选关键词从所述目标候选关键词集合中删除,以得到与所述目标分类对应的关键词集合。
8.根据权利要求7所述的装置,所述多个目标分类分别对应多篇语料文档;
所述确定模块,包括:
汇总模块,将所述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档包括的各单词的权重值;
第一确定子模块,按照所述权重值大小,对所述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。
9.根据权利要求7所述的装置,所述多个目标分类分别对应多篇语料文档;
所述确定模块,包括:
计算模块,基于TextRank算法计算语料文档包括的各单词的权重值;
第二确定子模块,按照所述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;
针对所述多篇语料文档中的若干篇语料文档分别执行以上步骤;
求和模块,当确定所述多篇语料文档分别对应的关键词后,针对每一所述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;
第三确定子模块,按照所述加权求和结果,对所述关键词进行排序,并将所述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。
10.根据权利要求9所述的装置,所述计算模块,包括:
分句模块,对语料文档进行分句处理,得到若干分句;
分词模块,针对每一分句,进行分词处理;
统计共现次数模块,将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将所述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计所述单词对的共现次数;
计算子模块,基于统计的所述单词对的共现次数,以及TextRank算法公式迭代计算语料文档包括的各单词的权重值。
11.根据权利要求10所述的装置,所述分词模块,包括:
通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,所述单词集合包括,每一分句包括的单词,以及各单词的词性;
基于所述各单词的词性,对所述单词集合中的单词进行过滤。
12.根据权利要求11所述的装置,所述分词模块,还博还包括以下操作中的任一或几项的组合:
过滤所述单词集合中包括的无意义字符;过滤所述单词集合中包括的特殊字符;对所述单词集合中的单词进行简繁转换;将所述单词集合中具有相同含义的不同单词用同一单词表示。
13.一种关键词提取设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1至6中任一项所述的关键词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451119.6A CN111553156B (zh) | 2020-05-25 | 2020-05-25 | 一种关键词提取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010451119.6A CN111553156B (zh) | 2020-05-25 | 2020-05-25 | 一种关键词提取方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553156A true CN111553156A (zh) | 2020-08-18 |
CN111553156B CN111553156B (zh) | 2023-08-04 |
Family
ID=72006672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010451119.6A Active CN111553156B (zh) | 2020-05-25 | 2020-05-25 | 一种关键词提取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553156B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417130A (zh) * | 2020-11-19 | 2021-02-26 | 贝壳技术有限公司 | 词语筛选方法、装置、计算机可读存储介质及电子设备 |
CN116028609A (zh) * | 2023-02-14 | 2023-04-28 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106611012A (zh) * | 2015-10-27 | 2017-05-03 | 北京航天长峰科技工业集团有限公司 | 一种大数据环境下异构数据实时检索方法 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110532431A (zh) * | 2019-07-23 | 2019-12-03 | 平安科技(深圳)有限公司 | 短视频关键词提取方法、装置及存储介质 |
-
2020
- 2020-05-25 CN CN202010451119.6A patent/CN111553156B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN106611012A (zh) * | 2015-10-27 | 2017-05-03 | 北京航天长峰科技工业集团有限公司 | 一种大数据环境下异构数据实时检索方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
US20170139899A1 (en) * | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN109255118A (zh) * | 2017-07-11 | 2019-01-22 | 普天信息技术有限公司 | 一种关键词提取方法及装置 |
CN109101620A (zh) * | 2018-08-08 | 2018-12-28 | 广州神马移动信息科技有限公司 | 相似度计算方法、聚类方法、装置、存储介质及电子设备 |
CN109918657A (zh) * | 2019-02-28 | 2019-06-21 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN110188344A (zh) * | 2019-04-23 | 2019-08-30 | 浙江工业大学 | 一种多特征融合的关键词提取方法 |
CN110532431A (zh) * | 2019-07-23 | 2019-12-03 | 平安科技(深圳)有限公司 | 短视频关键词提取方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
郎冬冬;刘晨晨;冯旭鹏;刘利军;黄青松;: "一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现", no. 03 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417130A (zh) * | 2020-11-19 | 2021-02-26 | 贝壳技术有限公司 | 词语筛选方法、装置、计算机可读存储介质及电子设备 |
CN116028609A (zh) * | 2023-02-14 | 2023-04-28 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
CN116028609B (zh) * | 2023-02-14 | 2024-02-27 | 成都卓讯云网科技有限公司 | 一种多关键词匹配方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111553156B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860654B2 (en) | System and method for generating an answer based on clustering and sentence similarity | |
CN106528532B (zh) | 文本纠错方法、装置及终端 | |
US7444279B2 (en) | Question answering system and question answering processing method | |
CN102193936B (zh) | 一种数据分类的方法及装置 | |
CN109740152B (zh) | 文本类目的确定方法、装置、存储介质和计算机设备 | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
US20140297628A1 (en) | Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein | |
CN110287409B (zh) | 一种网页类型识别方法及装置 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN104881399B (zh) | 基于概率软逻辑psl的事件识别方法和*** | |
CN109993216B (zh) | 一种基于k最近邻knn的文本分类方法及其设备 | |
CN111553156B (zh) | 一种关键词提取方法、装置及设备 | |
CN108021545A (zh) | 一种司法文书的案由提取方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
CN104462061A (zh) | 词语提取方法及提取装置 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN116662671B (zh) | 一种基于用户偏好的数字图书馆数据推送方法 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
Khodabakhsh et al. | Predicting personal life events from streaming social content | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40035835 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |