CN109062898A - 特征词去重方法、装置、设备及其存储介质 - Google Patents

特征词去重方法、装置、设备及其存储介质 Download PDF

Info

Publication number
CN109062898A
CN109062898A CN201810852217.3A CN201810852217A CN109062898A CN 109062898 A CN109062898 A CN 109062898A CN 201810852217 A CN201810852217 A CN 201810852217A CN 109062898 A CN109062898 A CN 109062898A
Authority
CN
China
Prior art keywords
phrase
word
value
feature
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810852217.3A
Other languages
English (en)
Inventor
李利明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongjun New Energy Co ltd
Original Assignee
Hanergy Mobile Energy Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanergy Mobile Energy Holdings Group Co Ltd filed Critical Hanergy Mobile Energy Holdings Group Co Ltd
Priority to CN201810852217.3A priority Critical patent/CN109062898A/zh
Publication of CN109062898A publication Critical patent/CN109062898A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了特征词去重方法、装置、设备及其存储介质。该方法包括:获取与特征词集合中当前特征词关联的词组集合;基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;通过判断第一和值集合中的最小值的个数来确定去重后的特征词。根据本申请实施例的技术方案,通过计算ASCII码的和的方式,对具有相同含义的特征词进行去重,从而降低当前特征词去重方法的计算复杂度,且节省了计算空间,并显著地提高当前特征词对文本的概括能力。

Description

特征词去重方法、装置、设备及其存储介质
技术领域
本申请一般涉及但不限于语义分析技术领域,具体涉及特征词去重方法、装置、设备及其存储介质。
背景技术
在自然语言处理技术中,自然语言中意义最小的单位是词组或称为单词。通常来说,提取单个词组作为特征词的意义在于其能够很好地概括文本的主要内容,并降低文本处理的复杂程度。现有技术基于文本提取特征词的算法有很多,例如词频-反文档频率(TF-IDF)方法、信息增益等算法。
随着技术的发展,从多篇文本中提取的特征词之间可能存在多词表述相同的含义,从而导致特征词冗余。当前的特征词去重技术,例如利用计算信息熵的方法提炼的特征词,或者主成分分析法通过词向量构成的向量空间映射到高维正交空间,再选择方差贡献大的特征维度等。但这些去重技术具有一定的主观性,且不能满足多篇文本提取的特征词保持较好的一致性。
另外,现有的特征映射方法的计算复杂度太高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种至少能够降低计算复杂度的特征词去重的技术方案。
第一方面,本申请实施例提供了一种特征词去重方法,该方法包括:
获取与特征词集合中当前特征词关联的词组集合;
基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;
通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
第二方面,本申请实施例提供了一种特征词去重装置,该装置包括:
第一获取单元,用于获取与特征词集合中当前特征词关联的词组集合;
计算单元,用于基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合;
确定单元,用于通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于:
该计算机程序被处理器执行时实现如本申请实施例描述的方法。
本申请实施例提供的特征词去重的技术方案,通过计算特征词的的关联词组的ASCII码的指定部分的和,以及通过判断其计算结果中最小值的个数,来对与特征词关联的词组进行去重,从而降低当前特征词去重方法的计算复杂度,且节省了计算空间,并显著地提高当前特征词对文本的概括能力。
进一步地,本申请实施例还通过预先构建的关联词词库,实现多篇文本提取的特征词之间的高度一致,并为后期词云构建和文本主旨提取等文本挖掘应用,提供了准确度的保障。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了本申请实施例提供的特征词去重方法的流程示意图;
图2示出了本申请又一实施例提供的特征词去重方法的流程示意图;
图3示出了本申请实施例提供的特征词去重装置的结构示意图;
图4示出了本申请又一实施例提供的特征词去重装置的结构示意图;
图5示出了适于用来实现本申请实施例的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,图1示出了本申请实施例提供的特征词去重方法的流程示意图。
如图1所示,该方法包括:
步骤110,获取与特征词集合中当前特征词关联的词组集合。
本申请实施例中,从文本或文章中提取至少一个特征词,根据该特征词可以得到与之相关的词组集合。其中,词组集合例如可以通过关联词词库等方式确定。关联词词库,例如可以是同义词词库,或者其他与特征词建立关联关系的词库。以同义词词库扩展为例,特征词通过同义词词库扩展得到同义词集合,同义词集合例如可以包括与当前特征词语义相同的至少一个词组,词组包括至少两个字符。或者根据其它的同义词确定关系也可以得到与该特征词相关联的同义词集合。本申请实施例中,语义相同可以理解为语义相同和语义相近,如同义词,近义词等。
本申请实施例中,词组例如可以是汉语的词,或者英文表示的多个单词词组。其中,每个词组包括至少两个字符。例如用汉语表示的词组,北京,北京市,首都。以北京这个词组为例,其包括北,京,两个字符。这些词组代表意思相同的不同表达方式。由于在中文摘要提取过程中,单音节词对于文本或文章进行摘要提取并无实际帮助,本申请实施例可以进一步去除文本或文章中的单音节词汇。
步骤120,基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合。
本申请实施例中,通过查找与词组一一对应的ASCII码来计算词组的指定部分的和。其中,指定部分的和例如可以由指定参数决定。指定参数例如可以是计算次数标识符号,其用于指示计算次数。
查找与词组一一对应的ASCII码,例如可以通过查找ASCII码表,或者预先建立的常见词组的ASCII码获取接口,通过调用获取接口来获取词组的ASCII码。本申请实施例中,可以将每个词组查找的结果表示为与该词组对应的ASCII码。例如,词组为{北京},经过ASCII码表查找得到的与{北京}相对应的ASCII码子集{a1,a2}。词组为{北京市},经过ASCII码表查找得到的与{北京市}相对应的ASCII码子集{a1,a2,a3}。词组为{首都},经过ASCII码表查找得到的与{首都}相对应的ASCII码子集{b1,b2}。
本申请实施例中,基于与词组一一对应的ASCII码计算每个词组的指定部分的和,得到第一和值集合。例如,在求解第一和值集合的过程中,通过读取指定参数来确定由指定参数限定的计算范围。即通过指定参数从ASCII码中选择与该指定参数的值对应的ASCII码值用于计算求和。本申请实施例中,第一和值集合的个数是固定不变的,但是第一和值集合中的每个元素是与指定参数相关的,例如与计算次数标识相关。
以上述同义词词组集合{北京,北京市,首都}为例描述计算第一和值集合的过程。
初次计算时,读取指定参数m,例如计算次数标识。当m=1时,通过赋值的方式或者初始值与零相加的方式实现。即将每个词组的第一个字符对应ASCII码作为第一和值集合的求和结果。这些词组的第一字符分别为{北},{北},{首},与第一字符分别对应的ASCII码值分别为{a1},{a1},{b1},则初次计算得到的第一和值集合可以表示为{a1,a1,b1},即计算每个词组对应的ASCII码的指定部分的和。如果初次计算的结果满足判断条件则可以得去重后的特征词,否则还需要重复计算第一和值集合的步骤。
也可以通过计算ASCII码的全部的和,例如与{北京}对应的ASCII码的和值为a1+a2,与{北京市}对应的ASCII码的和值为a1+a2+a3,与{首都}对应的ASCII码的和值为b1+b2,即分别计算每个词组对应的ASCII码子集的全部的和。
步骤130,通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
本申请实施例中,通过判断第一和值集合中的最小值的个数是否唯一来确定去重后的特征词。如果第一和值集合中最小值的个数是唯一的,则确定与该最小值相关的词组为去重后的特征词。对于第一和值集合中的最小值,例如最后计算得到的{a1+a2,a1+a2+a3,b1+b2},其最小值可能为a1+a2,与该最小值对应的词组为北京。则{北京}可以作为同义词集合中去重处理后的特征词。其他的特征词都逐一经过上述步骤的去重处理后,即可确定新的特征词集合用于后期的词云构建或者文本挖掘等领域。
如果最小值的个数是不唯一的,例如,初次计算得到的第一和值集合{a1,a1,b1}中,最小值可能为a1。但其个数为2,此时,不能确定哪个词组为去重后的特征词。本申请实施例,还通过循环计算每个词组对应的ASCII码指定部分的和,直到判断最小值的个数唯一,才确定与该最小值相关的词组为去重后的特征词。
本申请实施例中,通过判断第一和值集合中的最小值的个数来确定去重后的特征词可以包括:
判断第一和值集合中的最小值的个数是否唯一;
如果判断最小值的个数是不唯一的,则更新指定参数;然后,
返回基于与词组一一对应的ASCII码计算词组指定部分的和,直到判断最小值的个数是唯一的;
如果判断最小值的个数是唯一的,则确定与该最小值对应的词组为去重后的特征词。
本申请实施例中,在确定第一数值集合中的最小值的个数是不唯一时,自动触发新一轮求解第一和值集合的过程。在该过程中,首先,更新指定参数,例如可以将计算次数标识m的取值增加1;然后,返回计算ASCII码的指定部分的和的步骤。
基于与词组一一对应的ASCII码计算词组指定部分的和的步骤,还可以包括:
读取指定参数;
选择每个ASCII码中与指定参数对应的ASCII码值来求和,ASCII码包括与词组的字符一一对应的ASCII码值,其中指定参数的取值为小于等于N的正整数,N为词组集合中词组长度的最大值,词组长度为词组包含的字符总数。
以上述{北京,北京市,首都}为例,北京市的词组长度为3。N的取值即为3,指定参数的取值为小于等于N的正整数,例如可以为1,2,3。N表示为词组集合中词组长度的最大值。
例如,初次计算时,指定参数的取值为1,例如指定参数m=1;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即按照词序选择词组中第一位置的ASCII码值来求和,可以得到第一和值集合为{a1,a1,b1}。
第2次计算时,指定参数取值为2;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即选择词序中第一位置,和第二位置对应的ASCII码值来求和,可以得到第一和值集合为{a1+a2,a1+a2,b1+b2}。
第3次计算时,指定参数的取值为3;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即选择词序中第一位置,第二位置,和第三位置对应的ASCII码值来求和,当词组{北京},{首都}不存在第三位置时,第3次计算得到的第一和值集合中与{北京},{首都}对应的元素为第2次计算的结果,则第3次计算得到第一和值集合为{a1+a2,a1+a2+a3,b1+b2}。
本申请实施例,通过计算词组对应的ASCII码的和,逐步去重,得到去重后的特征词,其相对于现有的特征词去重技术,大大降低了计算复杂度,并简化了去重步骤。
为了保证多篇文章提取的特征词之间的一致性,并提升文章关键词对文章的概要性。本申请还提供了一种特征词去重方法,请参考图2,图2示出了本申请又一实施例提供的特征词去重方法的流程示意图。
如图2所示,该方法可选地包括:
步骤210,对原始数据进行分词处理;以及
步骤220,利用停用词词库筛选上述分词处理的结果,得到分词集合。
步骤230,获取至少一个特征词集合,每个特征词集合包括按照TF-IDF算法从分词集合中提取的至少一个特征词。
步骤240,根据预先构建的关联词词库扩展特征词,得到与该特征词关联的词组集合。
步骤250,获取与特征词集合中当前特征词关联的词组集合。
步骤260,基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合。
步骤270,通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
其中,步骤250-270可以采用与步骤110-130相同的实施方式,参见步骤110-130的描述内容。
本申请实施例,融合了自然语言处理,文本分析,TF-IDF、机器学习、统计分析等多种大数据技术,可以不限于单文本的特征词提取,其在多文本特征词提取的应用中,更能凸显其提取特征词对文本的概括能力。
本申请实施例中,原始数据是通过网络抓取技术获得的,例如可以从预定数量的文本中利用网络爬虫技术获取的原始数据。预定数量例如可以是20000篇,文本的选择范围不限于可获取的学术文章,论坛文章,网页文章等等。
在获取原始数据后,例如可以利用中文分词工具和自定义的分词词库等,对原始数据进行分词处理。其中,中文分词工具例如可以使用结巴(Jieba)分词工具,以及自定义的分词词库,例如基于词典的方法、基于统计的方法、基于规则的方法等方法建立的分词词库,或者,按照特定领域规则或者现有的标注集合建立的分词词库等。
在分词处理之后,在利用停用词词库去除助词、形容词等无实际意义的词汇,例如还可以通过删除单音节词汇进一步对分词处理的结果进行筛选,得到分词集合。由于在中文摘要提取过程中,单音节词语对摘要提取并无实际帮助,可以进一步去重单音节词语以减少无效数据对资源的占用。
本申请实施例中,通过词频逆向文档频率TF-IDF算法从分词集合中对已经分好的词语进行加权计算,得到词语的权重,然后按照权重值排序,提取前面n个权重值高的词语作为特征词集合。其中,n的取值可以根据实际需要调整,例如,任意正整数的取值。
词频逆向文档频率TF-IDF算法是指如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。即TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。词频的取值通常会被归一化,以防止其偏向文章较长的统计结果。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的逆向文件频率,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。如果包含IDF词语的文档越少,IDF越大,则说明IDF词语具有很好的类别区分能力。如果某一类文档中包含IDF词语的文档数为m,而其它类包含IDF词语的文档总数为k,显然所有包含IDF词语的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该IDF词语的类别区分能力不强。
本申请实施例,通过词频逆向文档频率TF-IDF算法从不同的文本或文章中提取重要的特征词,同时滤掉常见的词语,基于提取的重要的特征词构成特征词集合。即获取至少一个特征词集合。
将至少一个特征词集合中的某个特征词(即当前特征词)按照预先构建的关联词词库进行扩展,得到与该特征词关联的词组集合。其中,预先构建的关联词词库是指汇集与特征词具有某种特定关系的词组或词语。例如,关联词词库可以是同义词词库,以及其他与特征词与关系的词库。预先构建的同义词词库包括至少一个词组对应关系,该词组对应关系是按照预先建立的矩阵关系构建的。预先建立的矩阵关系,例如可以是按照语义相同的两个词语构成词对,按照词对进行纵向或者横向扩展建立矩阵关系。如,以两个词组构成的词对两列,与两个词组中的每个词组具有相同语义的词组按照纵向方向扩展。或者以两个词组构成词对两行,与两个词组中的每个词组具有相同语义的词组按照横向方向扩展。矩阵关系,例如可以是两列多行,或者两行多列的关系。
本申请实施例中,通过对每个特征进行关联词扩张,提高了多篇文章或文本提取的特征词的一致性,和特征词对文本的概括能力,这种有效的去重方式占用空间也小。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
进一步请参考图3,图3示出了本申请实施例提供的特征词去重装置300的示意性结构图。
如图3所示,该装置300包括:
第一获取单元310,用于获取与特征词集合中当前特征词关联的词组集合。
本申请实施例中,从文本或文章中提取至少一个特征词,根据该特征词可以得到与之相关的词组集合。其中,词组集合例如可以通过关联词词库等方式确定。其中关联词词库,例如可以是同义词词库,或者其他与特征词建立关联特性的词库。以同义词词库扩展为例,特征词通过同义词词库扩展得到同义词集合,同义词集合例如可以包括与当前特征词语义相同的至少一个词组,词组包括至少两个字符。或者根据其它的同义词确定关系也可以得到与该特征词相关联的同义词集合。本申请实施例中,语义相同可以理解为语义相同和语义相近,如同义词,近义词等。
本申请实施例中,词组例如可以是汉语的词,或者英文表示的多个单词词组。其中,每个词组包括至少两个字符。例如用汉语表示的词组,北京,北京市,首都。以北京这个词组为例,其包括北,京,两个字符。这些词组代表意思相同的不同表达方式。由于在中文摘要提取过程中,单音节词对于文本或文章进行摘要提取并无实际帮助,本申请实施例可以进一步去除文本或文章中的单音节词汇。
计算单元320,用于基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合。
本申请实施例中,通过查找与词组一一对应的ASCII码来计算词组的指定部分的和。其中,指定部分的和,例如可以由指定参数决定。指定参数例如可以是计算次数标识符号,其用于指示计算次数。
查找与词组一一对应的ASCII码,例如可以通过查找ASCII码表,或者预先建立的常见词组的ASCII码获取接口,通过调用获取接口来获取词组的ASCII码。本申请实施例中,可以将每个词组查找的结果表示为与该词组对应的ASCII码。例如,词组为{北京},经过ASCII码表查找得到的与{北京}相对应的ASCII码子集{a1,a2}。词组为{北京市},经过ASCII码表查找得到的与{北京市}相对应的ASCII码子集{a1,a2,a3}。词组为{首都},经过ASCII码表查找得到的与{首都}相对应的ASCII码子集{b1,b2}。
本申请实施例中,基于与词组一一对应的ASCII码计算每个词组的指定部分的和,得到第一和值集合。例如,在求解第一和值集合的过程中,通过读取指定参数来确定由指定参数限定的计算范围。即通过指定参数从ASCII码中选择与该指定参数的值对应的ASCII码值用于计算求和。本申请实施例中,第一和值集合的个数是固定不变的,但是第一和值集合中的每个元素是与指定参数相关的,例如与计算次数标识相关。
以上述同义词词组集合{北京,北京市,首都}为例描述计算第一和值集合的过程。
初次计算时,读取指定参数m,例如计算次数标识。当m=1时,通过赋值的方式或者初始值与零相加的方式实现。即将每个词组的第一个字符对应ASCII码作为第一和值集合的求和结果。这些词组的第一字符分别为{北},{北},{首},与第一字符分别对应的ASCII码值分别为{a1},{a1},{b1},则初次计算得到的第一和值集合可以表示为{a1,a1,b1},即计算每个词组对应的ASCII码的指定部分的和。如果初次计算的结果满足判断条件则可以得去重后的特征词,否则还需要重复计算第一和值集合的步骤。
也可以通过计算ASCII码的全部的和,例如与{北京}对应的ASCII码的和值为a1+a2,与{北京市}对应的ASCII码的和值为a1+a2+a3,与{首都}对应的ASCII码的和值为b1+b2,即分别计算每个词组对应的ASCII码子集的全部的和。
确定单元330,用于通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
本申请实施例中,通过判断第一和值集合中的最小值的个数是否唯一来确定去重后的特征词。如果第一和值集合中最小值的个数是唯一的,则确定与该最小值相关的词组为去重后的特征词。对于第一和值集合中的最小值,例如最后计算得到的{a1+a2,a1+a2+a3,b1+b2},其最小值可能为a1+a2,与该最小值对应的词组为北京。则{北京}可以作为同义词集合中去重处理后的特征词。其他的特征词都逐一经过上述步骤的去重处理后,即可确定新的特征词集合用于后期的词云构建或者文本挖掘等领域。
如果最小值的个数是不唯一的,例如,初次计算得到的第一和值集合{a1,a1,b1}中,最小值可能为a1。但其个数为2,此时,不能确定哪个词组为去重后的特征词。本申请实施例,还通过循环计算每个词组对应的ASCII码指定部分的和,直到判断最小值的个数唯一,才确定与该最小值相关的词组为去重后的特征词。
本申请实施例中,确定单元可以包括:
判断子模块,用于判断第一和值集合中的最小值的个数是否唯一;
更新子模块,用于如果判断最小值的个数是不唯一的,则更新指定参数;然后,
返回子模块,用于返回基于与词组一一对应的ASCII码计算词组指定部分的和,直到判断最小值的个数是唯一的;
确定子模块,用于如果判断最小值的个数是唯一的,则确定与该最小值对应的词组为去重后的特征词。
本申请实施例中,在确定第一数值集合中的最小值的个数是不唯一时,自动触发新一轮求解第一和值集合的过程。在该过程中,首先,更新指定参数,例如可以将计算次数标识m的取值增加1;然后,返回计算ASCII码的指定部分的和的步骤。
计算单元还可以包括:
读取子模块,用于读取指定参数;
求和子模块,用于选择每个ASCII码中与指定参数对应的ASCII码值来求和,ASCII码包括与词组的字符一一对应的ASCII码值,其中指定参数的取值为小于等于N的正整数,N为词组集合中词组长度的最大值,词组长度为词组包含的字符总数。
以上述{北京,北京市,首都}为例,北京市的词组长度为3。N的取值即为3,指定参数的取值为小于等于N的正整数,例如可以为1,2,3。N表示为词组集合中词组长度的最大值。
例如,初次计算时,指定参数的取值为1,例如指定参数m=1;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即按照词序选择词组中第一位置的ASCII码值来求和,可以得到第一和值集合为{a1,a1,b1}。
第2次计算时,指定参数取值为2;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即选择词序中第一位置,和第二位置对应的ASCII码值来求和,可以得到第一和值集合为{a1+a2,a1+a2,b1+b2}。
第3次计算时,指定参数的取值为3;选择词组{北京},{北京市},{首都}的ASCII码中与指定参数对应的ASCII码值来求和,即选择词序中第一位置,第二位置,和第三位置对应的ASCII码值来求和,当词组{北京},{首都}不存在第三位置时,第3次计算得到的第一和值集合中与{北京},{首都}对应的元素为第2次计算的结果,则第3次计算得到第一和值集合为{a1+a2,a1+a2+a3,b1+b2}。
本申请实施例,通过计算词组对应的ASCII码的和,逐步去重,得到去重后的特征词,其相对于现有的特征词去重技术,大大降低了计算复杂度,并简化了去重步骤。
为了保证多篇文章提取具有相同含义的特征词之间的一致性,并提升文章关键词对文章的概要性。本申请还提供了一种特征词去重方法,请参考图4,图4示出了本申请实施例提供的特征词去重装置的结构性示意框图。
如图4所示,该装置可选地包括:
分词处理单元410,用于对原始数据进行分词处理;以及
筛选单元420,用于利用停用词词库筛选上述分词处理的结果,得到分词集合。
第二获取单元430,用于获取至少一个特征词集合,每个特征词集合包括按照TF-IDF算法从分词集合中提取的至少一个特征词;
扩展单元440,用于根据预先构建的关联词词库扩展特征词,得到与该特征词关联的词组集合。
第一获取单元450,用于获取与特征词集合中当前特征词关联的词组集合。
计算单元460,用于基于与词组一一对应的ASCII码计算词组指定部分的和,得到第一和值集合。
确定单元470,用于通过判断第一和值集合中的最小值的个数来确定去重后的特征词。
其中,单元450-470实现的功能与步骤110-130相同的实施方式,参见步骤110-130的描述内容。
本申请实施例,融合了自然语言处理,文本分析,TF-IDF、机器学习、统计分析等多种大数据技术,可以不限于单文本的特征词提取,其在多文本特征词提取的应用中,更能凸显其提取特征词对文本的概括能力。
本申请实施例中,原始数据是通过网络抓取技术获得的,例如可以从预定数量的文本中利用网络爬虫技术获取的原始数据。预定数量例如可以是20000篇,文本的选择范围不限于可获取的学术文章,论坛文章,网页文章等等。
在获取原始数据后,例如可以利用中文分词工具和自定义的分词词库等,对原始数据进行分词处理。其中,中文分词工具例如可以使用结巴(Jieba)分词工具,以及自定义的分词词库,例如基于词典的方法、基于统计的方法、基于规则的方法等方法建立的分词词库,或者,按照特定领域规则或者现有的标注集合建立的分词词库等。
在分词处理之后,在利用停用词词库去除助词、形容词等无实际意义的词汇,例如还可以通过删除单音节词汇进一步对分词处理的结果进行筛选,得到分词集合。由于在中文摘要提取过程中,单音节词语对摘要提取并无实际帮助,可以进一步去重单音节词语以减少无效数据对资源的占用。
本申请实施例中,通过词频逆向文档频率TF-IDF算法从分词集合中对已经分好的词语进行加权计算,得到词语的权重,然后按照权重值排序,提取前面n个权重值高的词语作为特征词集合。其中,n的取值可以根据实际需要调整,例如,任意正整数的取值。
词频逆向文档频率TF-IDF算法是指如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。即TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
其中,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。词频的取值通常会被归一化,以防止其偏向文章较长的统计结果。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的逆向文件频率,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。如果包含IDF词语的文档越少,IDF越大,则说明IDF词语具有很好的类别区分能力。如果某一类文档中包含IDF词语的文档数为m,而其它类包含IDF词语的文档总数为k,显然所有包含IDF词语的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该IDF词语的类别区分能力不强。
本申请实施例,通过词频逆向文档频率TF-IDF算法从不同的文本或文章中提取重要的特征词,同时滤掉常见的词语,基于提取的重要的特征词构成特征词集合。即获取至少一个特征词集合。
将至少一个特征词集合中的某个特征词(即当前特征词)按照预先构建的关联词词库进行扩展,得到与该特征词关联的词组集合。其中,预先构建的关联词词库是指汇集与特征词具有某种特定关系的词组或词语。例如,关联词词库可以是同义词词库,以及其他与特征词与关系的词库。预先构建的同义词词库包括至少一个词组对应关系,该词组对应关系是按照预先建立的矩阵关系构建的。预先建立的矩阵关系,例如可以是按照语义相同的两个词语构成词对,按照词对进行纵向或者横向扩展建立矩阵关系。如,以两个词组构成的词对两列,与两个词组中的每个词组具有相同语义的词组按照纵向方向扩展。或者以两个词组构成词对两行,与两个词组中的每个词组具有相同语义的词组按照横向方向扩展。矩阵关系,例如可以是两列多行,或者两行多列的关系。
本申请实施例中,通过对每个特征进行关联词扩张,提高了多篇文章或文本提取的特征词的一致性,和特征词对文本的概括能力,这种有效的去重方式占用空间也小。
应当理解,装置300-400中记载的诸单元或模块与参考图1-2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置300-400及其中包含的单元,在此不再赘述。装置300-400可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。装置300-400中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机***500的结构示意图。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有***500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考图1/2描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,前述计算机程序包含用于执行图1/2的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、计算单元以及确定单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,第一获取单元还可以被描述为“用于获取与特征词集合中当前特征词关联的同义词集合的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本申请的特征词去重方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种特征词去重方法,其特征在于,该方法包括:
获取与特征词集合中当前特征词关联的词组集合;
基于与所述词组一一对应的ASCII码计算所述词组指定部分的和,得到第一和值集合;
通过判断所述第一和值集合中的最小值的个数来确定去重后的特征词。
2.根据权利要求1所述的方法,其特征在于,所述基于与所述词组一一对应的ASCII码计算所述词组指定部分的和,包括:
读取指定参数;
选择每个所述ASCII码中与指定参数对应的ASCII码值来求和,所述ASCII码包括与所述词组的字符一一对应的ASCII码值,所述指定参数的取值为小于等于N的正整数,N为所述词组集合中词组长度的最大值,所述词组长度为所述词组包含的字符总数。
3.根据权利要求1或2所述的方法,其特征在于,所述通过判断所述第一和值集合中的最小值的个数来确定去重后的特征词,包括:
判断所述第一和值集合中的所述最小值的个数是否唯一;
如果判断所述最小值的个数是不唯一的,则更新指定参数;然后,返回基于与所述词组一一对应的ASCII码计算所述词组指定部分的和,直到判断所述最小值的个数是唯一的;
如果判断所述最小值的个数是唯一的,则确定与该最小值对应的词组为去重后的特征词。
4.根据权利要求1所述的方法,其特征在于,该方法还包括:
获取至少一个特征词集合,每个所述特征词集合包括按照词频逆向文档频率TF-IDF算法从分词集合中提取的至少一个特征词;
根据预先构建的关联词词库扩展所述特征词,得到与该特征词关联的所述词组集合。
5.根据权利要求4所述的方法,其特征在于,所述关联词词库包括至少一种词组对应关系,所述词组对应关系是按照预先建立矩阵关系构建的。
6.根据权利要求4或5所述的方法,其特征在于,该方法还包括:
对原始数据进行分词处理;以及
利用停用词词库筛选所述分词处理的结果,得到所述分词集合。
7.一种特征词去重装置,其特征在于,该装置包括:
第一获取单元,用于获取与特征词集合中当前特征词关联的词组集合;
计算单元,用于基于与所述词组一一对应的ASCII码计算所述词组指定部分的和,得到第一和值集合;
确定单元,用于通过判断所述第一和值集合中的最小值的个数来确定去重后的特征词。
8.根据权利要求7所述的装置,其特征在于,所述计算单元,包括:
读取子模块,用于读取指定参数;
求和子模块,用于选择每个所述ASCII码中与指定参数对应的ASCII码值来求和,所述ASCII码包括与所述词组的字符一一对应的ASCII码值,所述指定参数的取值为小于等于N的正整数,N为所述词组集合中词组长度的最大值,所述词组长度为所述词组包含的字符总数。
9.根据权利要求7或8所述的装置,其特征在于,所述确定单元包括:
判断子模块,用于判断所述第一和值集合中的所述最小值的个数是否唯一;
更新子模块,用于如果判断所述最小值的个数是不唯一的,则更新指定参数;以及
返回子模块,用于返回基于与所述词组一一对应的ASCII码计算所述词组指定部分的和,直到判断所述最小值的个数是唯一的;
确定子模块,用于如果判断所述最小值的个数是唯一的,则确定与该最小值对应的词组为去重后的特征词。
10.根据权利要求7所述的装置,其特征在于,该装置还包括:
第二获取单元,用于获取至少一个特征词集合,每个所述特征词集合包括按照词频逆向文档频率TF-IDF算法从分词集合中提取的至少一个特征词;
扩展单元,用于根据预先构建的关联词词库扩展所述特征词,得到与该特征词关联的所述词组集合。
11.根据权利要求9所述的装置,其特征在于,所述关联词词库包括至少一种词组对应关系,所述词组对应关系是按照预先建立的矩阵关系构建的。
12.根据权利要求10或11所述的装置,其特征在于,该装置还包括:
分词处理单元,用于对原始数据进行分词处理;以及
筛选单元,用于利用停用词词库筛选所述分词处理的结果,得到所述分词集合。
13.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于:
所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810852217.3A 2018-07-27 2018-07-27 特征词去重方法、装置、设备及其存储介质 Pending CN109062898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810852217.3A CN109062898A (zh) 2018-07-27 2018-07-27 特征词去重方法、装置、设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810852217.3A CN109062898A (zh) 2018-07-27 2018-07-27 特征词去重方法、装置、设备及其存储介质

Publications (1)

Publication Number Publication Date
CN109062898A true CN109062898A (zh) 2018-12-21

Family

ID=64831434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810852217.3A Pending CN109062898A (zh) 2018-07-27 2018-07-27 特征词去重方法、装置、设备及其存储介质

Country Status (1)

Country Link
CN (1) CN109062898A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411568A (zh) * 2010-09-20 2012-04-11 苏州同程旅游网络科技有限公司 基于旅游业特征词库的中文分词方法
US20160188554A1 (en) * 2014-12-30 2016-06-30 Chengnan Liu Method for generating random content for an article
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN108132930A (zh) * 2017-12-27 2018-06-08 曙光信息产业(北京)有限公司 特征词提取方法及装置
CN108304384A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 拆词方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411568A (zh) * 2010-09-20 2012-04-11 苏州同程旅游网络科技有限公司 基于旅游业特征词库的中文分词方法
US20160188554A1 (en) * 2014-12-30 2016-06-30 Chengnan Liu Method for generating random content for an article
CN106528508A (zh) * 2016-10-27 2017-03-22 乐视控股(北京)有限公司 一种重复文本的判定方法和装置
CN108132930A (zh) * 2017-12-27 2018-06-08 曙光信息产业(北京)有限公司 特征词提取方法及装置
CN108304384A (zh) * 2018-01-29 2018-07-20 上海名轩软件科技有限公司 拆词方法及设备

Similar Documents

Publication Publication Date Title
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
CN110377886A (zh) 项目查重方法、装置、设备及存储介质
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110032650B (zh) 一种训练样本数据的生成方法、装置及电子设备
Lepage Analogies between binary images: Application to chinese characters
CN107220307A (zh) 网页搜索方法和装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN110020312A (zh) 提取网页正文的方法和装置
Hussein Visualizing document similarity using n-grams and latent semantic analysis
CN113722472B (zh) 一种技术文献信息提取方法、***及存储介质
CN115017315A (zh) 一种前沿主题识别方法、***及计算机设备
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
CN109062898A (zh) 特征词去重方法、装置、设备及其存储介质
Rofiq Indonesian news extractive text summarization using latent semantic analysis
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN113468339A (zh) 基于知识图谱的标签提取方法、***、电子设备及介质
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
Büchler et al. Scaling historical text re-use
CN112395429A (zh) 基于图神经网络的hs编码判定、推送、应用方法、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201221

Address after: No.31 Yanqi street, Yanqi Economic Development Zone, Huairou District, Beijing

Applicant after: Beijing Huihong Technology Co.,Ltd.

Address before: Room 107, building 2, Olympic Village street, Chaoyang District, Beijing

Applicant before: HANERGY MOBILE ENERGY HOLDING GROUP Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211109

Address after: No.31 Yanqi street, Yanqi Economic Development Zone, Huairou District, Beijing

Applicant after: Dongjun new energy Co.,Ltd.

Address before: No.31 Yanqi street, Yanqi Economic Development Zone, Huairou District, Beijing

Applicant before: Beijing Huihong Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20181221

RJ01 Rejection of invention patent application after publication