CN104615590A - 一种项目名称的提取方法和装置 - Google Patents
一种项目名称的提取方法和装置 Download PDFInfo
- Publication number
- CN104615590A CN104615590A CN201510093192.XA CN201510093192A CN104615590A CN 104615590 A CN104615590 A CN 104615590A CN 201510093192 A CN201510093192 A CN 201510093192A CN 104615590 A CN104615590 A CN 104615590A
- Authority
- CN
- China
- Prior art keywords
- entity word
- webpage
- destination item
- coding
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种项目名称的提取方法和装置,该方法包括:获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表,通过提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码,然后,利用所述各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合,生成各个网页的实体词组合列表,利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述实体词组合中的实体词,得到对应于所述目标项目名称的同义词,因此,通过本发明的方法能够识别出项目名称的同义词。
Description
技术领域
本发明涉及计算机应用领域,特别涉及一种项目名称的提取方法和装置。
背景技术
大数据(big data),或称巨量资料,其可为企业发展或经营提供资讯。企业在开展大数据时,首先面对的就是打通内部数据与外部数据,也就是获得基于企业内部数据之外的互联网数据。在这一过程中,提取项目名称是必不可少的工作,然而项目名称在不同网站或者不同模板的网页中很有可能是不一致的,比如,在中国政府采购网的招标公告中,有的网页称为“招标人”,有的网页称为“采购人”等。目前,主要通过人工针对项目名称编写不同的提取项目名称程序,而无法识别项目名称的同义词。
发明内容
本发明提供一种项目名称的提取方法和装置,以识别项目名称的同义词。
一种项目名称的提取方法,包括:
获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表,该分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码;
利用各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合,生成并保存各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
优选地,所述提取各个网页的各个实体词之前,进一步包括:将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类;所述提取各个网页的各个实体词之后,进一步包括:对同类网页中的各个实体词进行去重;所述提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码,包括:提取同类网页中的各个实体词,对同类网页中的各个实体词进行去重,查找同类网页去重后的实体词在所述同义词词库中的编码;
优选地,所述查找所述各个实体词在同义词词库中的编码之后,进一步包括:根据目标项目名称,设定阈值p,过滤各个网页中的各个实体词;
所述过滤各个网页中的各个实体词,包括:根据编码规则,将所述去重后的实体词中编码最后一位为“”或“#”的词滤掉不做考虑,根据文本频率计算公式计算同类网页剩余实体词的文本频率,对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数;
所述对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词,包括:当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词。
优选地,所述提取各个网页的实体词,进一步包括:按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号;
优选地,所述构建与目标项目名称对应的各个网页的各个实体词组合,包括:统计所述目标项目名称的分词个数,按照所述目标项目名称的分词个数和所述各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
优选地,利用目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述实体词组合列表,包括:将所述目标项目名称的分词按顺序依次与各个网页的实体词组合列表中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
优选地,得到对应于所述目标项目名称的同义词之后,进一步包括:综合目标项目名称和对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表,所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词。
一种项目名称的提取装置,包括:
获取单元,用于获取目标项目名称的各个分词;
第一查找单元,用于查找所述获取单元提供的各个分词在同义词词库中的编码,触发第一生成单元;
第一生成单元,用于接收查找单元的触发,生成目标项目名称的分词列表,所述分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
提取单元,用于提取各个网页的各个实体词;
第二查找单元,用于查找所述各个实体词在同义词词库中的编码;
构建单元,用于利用所述各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合;
第二生成单元,用于将构建单元构建的各个网页的各个实体词组合生成各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
匹配单元,用于利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述第一生成单元生成的目标项目名称的分词列表与所述第二生成单元生成的各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
优选地,所述项目名称提取的装置,进一步包括:分类单元、去重单元、过滤单元,其中,
所述分类单元,用于将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类,触发所述提取单元;
所述提取单元,进一步用于提取同类网页中的实体词,触发去重单元;
所述去重单元,用于接收所述提取单元的触发,对同类网页的实体词进行去重,触发第二查找单元;
所述第二查找单元,进一步用于查找所述去重单元提供的同类网页去重后的实体词在所述同义词词库中的编码;
所述过滤单元,用于根据编码规则,将所述第二查找单元查找到的去重后的实体词中编码最后一位为“”或“#”的词滤掉,根据目标项目名称,设定阈值p,根据文本频率计算公式计算所述提取单元提取的同类网页中各个实体词的文本频率,对比所述文本频率与所述阈值p,判断是否滤掉所述文本频率对应的所述实体词,当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数。
优选地,所述项目名称提取的装置,进一步包括:统计单元,其中,
所述提取单元,进一步用于按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号;
所述统计单元,用于统计所述目标项目名称的分词个数;
所述构建单元,进一步用于按照所述统计单元统计的目标项目名称的分词个数和所述提供单元提供的各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
优选地,所述匹配单元进一步用于:将所述第一生成单元中的目标项目名称的分词按顺序依次与第二生成单元中的各个网页的实体词组合中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
优选地,所述项目名称提取的装置,进一步包括:第三生成单元,
所述第三生成单元,用于综合目标项目名称和所述匹配单元提供的对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表,所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词。
本发明实施例提供了一种项目名称的提取方法和装置,其可以通过获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表,同时,还可以提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码,利用各个实体词,构建与目标项目名称对应的实体词组合。在同义词词库中,同义词具有相同的编码,因此,本发明实施例进一步利用上面获得的所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称与所述实体词组合,以识别出项目名称的同义词。
另外,本发明实施例获取的目标项目名称的各个分词是通过人工方式完成的,可以有效避免项目名称分词中出现复合词,从而使得项目名称分词与同义词词库中词粒度一致,保证项目名称分词能够在同义词词库中找到对应的编码。
同时,将所述各个网页进行分类,每类网页需要结构化的项目名称相同,所述每类网页需要结构化的项目名称的匹配过程相同,通过这一过程可以使同类网页同时进行项目名称匹配,而且通过计算同类网页中文本频率,并将文本频率与设定的阈值p进行比较,可以更加准确的定位与目标项目名称的各个分词相近的实体词,去掉不必要的实体词,从而提高了得到目标项目名称的同义词的效率。
附图说明
图1是本发明实施例提供的项目名称的提取方法流程图;
图2是本发明另一实施例提供的项目名称的方法流程图;
图3是本发明实施例提供的项目名称的装置所在架构示意图;
图4是本发明实施例提供的项目名称的装置结构示意图;
图5是本发明另一实施例提供的项目名称的装置结构示意图;
图6是本发明又一实施例提供的项目名称的装置结构示意图;
图7是本发明又一实施例提供的项目名称的装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种项目名称的提取方法,该方法可以包括以下步骤:
步骤101:获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表,该分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
步骤102:提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码;
步骤103:利用各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合,生成并保存各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
步骤104:利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
为了提高获得目标项目名称同义词的准确性,本发明实施例在步骤102之前,进一步通过将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类,而提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码的具体实现方式为:通过提取同类网页中的各个实体词,对同类网页中的各个实体词进行去重,查找同类网页去重后的实体词在所述同义词词库中的编码。
在步骤103之前,本发明实施例进一步根据目标项目名称,设定阈值p,而通过阈值p,过滤各个网页中的各个实体词。可以通过该过程过滤掉更多与分词差异性较大的实体词,其具体实现方式是:根据编码规则,将所述去重后的实体词中编码最后一位为“”或“#”的词滤掉不做考虑,根据文本频率计算公式计算同类网页剩余实体词的文本频率,对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词。
为了准确定位各个网页中实体词的位置,在提取各个网页的实体词的同时,按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号,而步骤103的具体实现方式为统计所述目标项目名称的分词个数,按照所述目标项目名称的分词个数和所述各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
为了更加准确的获得目标项目名称的同义词,步骤104的具体实现方式:将所述目标项目名称的分词按顺序依次与各个网页的实体词组合列表中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
如图2所示,本发明实施例提供了一种项目名称的提取方法,该方法可以包括以下步骤:
步骤201:获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表;
本发明实施例通过人工方式对各个项目名称进行分词,这是因为,一方面项目名称有可能是复合词,粒度太大,可能与同义词词库中的粒度不一致,造成分词编码不能够查到,另一方面,项目名称数量不会太多,人工方式完全可以实现项目名称分词。
例如,本发明实施例将对k个项目名称进行提取,那么,这k个项目名称的分词结果可以记为:ItemNameList={inl1,inl2,…,inlk},其中,inl1,inl2,…,inlk分别表示目标项目名称1、2、…k;inl1={inl11,inl12,…,inl1x}表示目标项目名称1的第1个分词为inl11、目标项目名称1的第2个分词为inl12、…目标项目名称1的第x个分词为inl1x,目标项目名称1的各个分词对应的编码记为inlc1={inlc11,inlc12,…,inlc1x},即inlc11,inlc12,…,inlc1x分别表示项目名称1的第1个分词、第2个分词、…第x个分词从同义词词库中获得的编码,而目标项目名称的分词列表中包括目标项目名称的各个分词及该各个分词对应的编码。
在中文同义词词库有“知网”、“同义词词林”“中文概念词典”等,本发明实施例选取同义词词林作为获得分词和实体词编码的同义词词库。同义词词林按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小3类,大类有12个,中类有97个,小类有1400个。每个小类里都有很多的词,这些词又根据词义的远近和相关性分成了若干个词群(段落)。每个段落中的词语又进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。同义词词林共提供了5层编码,如下表所示:
第1级用大写英文字母表示;第2级用小写英文字母表示;第3级用二位十进制整数表示;第4级用大写英文字母表示;第5级用二位十进制整数表示。第8位的标记有3种,分别是“=”、“#”、“”。“=”代表“相等”、“同义”;“#”代表“不等”、“同类”,属于相关词语;“”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。在同义词词库中,同义词具有相同的编码,例如:渔民、渔翁、渔家、渔夫、渔父或打鱼郎等同义词军用Ae07C01编码表示。
步骤202:将各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类;
互联网采集的数据常常存在于不同的网页模板中,而同一模板所用的实体词一般相同。本发明实施例中各个网页已经根据模板分为多个类,每类网页需结构化的项目名称应该是相同的,且每类的项目名称匹配过程相同。例如:本发明实施例项目名称的提取过程涉及的全部网页为N个,可以分为a类,每类网页个数为{n1,n2,…,na}。在同类网页中,那么与项目名称同义的词应该在该类的每个网页中都出现,至少应在大部分网页中出现。
步骤203:提取同类网页的各个实体词,对所述各个实体词进行去重,查找所述各个实体词在同义词词库中的编码;
本发明实施例通过提取同类网页中的各个实体词,按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号。例如:第b类第i个网页的实体词情况可记为Tbi={<idbi1,termbi1>,<idbi2,termbi2>,…,<idbim,termbim>},其中,id表示实体词在整篇网页正文分词中的序号,也就是文中第几个词;term为实体词名称。然后,通过对同类网页中的各个实体词进行去重,这是因为,同类网页中含有大量的相同的实体词,通过去重,可以有效的避免同类网页中相同的实体词在同义词词林中重复查找编码,可以有效地提高查找同类网页中实体词编码的速度。
步骤204:根据目标项目名称,设定阈值p,过滤各个网页中的各个实体词;
根据编码规则,将所述去重后的实体词中编码最后一位为“”或“#”的词滤掉不做考虑,根据文本频率计算公式计算同类网页剩余实体词的文本频率,对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数;
所述对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词,包括:当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词。例如:在本发明实施例中,经过上述过程后得到第i个网页的实体词情况记为TCi={<idi1,termi1,tci1>,<idi2,termi2,tci2>,…,<idim,termim,tcim>}。其中tcim表示第i个网页中第m个实体词的编码。
步骤205:利用所述过滤后的各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合,生成并保存各个网页的实体词组合列表;
通过统计所述目标项目名称的分词个数,按照所述目标项目名称的分词个数和所述各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。例如:对于目标项目名称g其由x个分词组成,表示方式为inlg={inlg1,inlg2,…,inlgx}。那么,要计算第i个网页中的实体词与项目名称的相似性,首先就要找到能够组合的连续的x个实体词。假设x=2,那么,对于第i个网页中序号为1的实体词,如果同时在该网页中能够获得序号为2的词,那么序号为1和序号为2的词形成实体词组合,例如,在第i个网页中,实体词<1,"招标人">,有<2,"地址">,则组成实体词组合“招标人地址”;而对于<1,"招标人">,如果后面所有实体词的序号都没有等于2的,则该词不符合匹配条件。将所有符合条件的实体词组合保存入实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码。其中实体词组合列表可表示为TCLi={tcli1,tcli2,…,tclix},tcli1={<termi11,tci11>,…,<termi1y,tci1y>},其中,TCLi为第i个网页的实体词组合列表;tcli1为第i个网页中第1个实体词组合,其由实体词组合的名称termi11和实体词组合的编码tci11组成。
步骤206:利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
为了确定步骤206中获得的实体词组合是否与目标项目名称为同义词。本发明实施例将所述目标项目名称的分词按顺序依次与各个网页的实体词组合列表中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。例如:项目名称1中包括2个分词,即inl1={inl11,inl12},将其与第i个网页的第1个实体词组合列表tcli1={<termi11,tci11>,<termi11,tci12>},那么,本发明实施例将首先比较第1个分词inl11与第1个实体词termi11的编码是否相同,如果相同,则比较第2个分词inl12与第2个实体词termi12的编码。如果每一个对应词的编码都相同,则认为inl1与tcli1为同义词。
步骤207:综合目标项目名称和对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表。
所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词,即MatchResult={<in1,(rm11,rm12,…)>,<in2,(rm21,rm22,…)>,…,<ink,(rmk1,rmk2,…)>};其中,ini为每一个项目名称,rmij为找到的第i个项目名称的第j个同义词。
如图3、图4所示,本发明实施例提供了一种项目名称提取的装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例的装置所在设备的一种硬件结构图,除了图3所示的CPU、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理项目名称的芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的项目名称提取的装置40包括:
获取单元401,用于获取目标项目名称的各个分词;
第一查找单元402,用于查找所述获取单元提供的各个分词在同义词词库中的编码,触发第一生成单元;
第一生成单元403,用于接收查找单元的触发,生成目标项目名称的分词列表,所述分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
提取单元404,用于提取各个网页的各个实体词;
第二查找单元405,用于查找所述过滤单元过滤的所述各个实体词在同义词词库中的编码;
构建单元406,用于利用所述各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合;
第二生成单元407,用于将构建单元构建的各个网页的各个实体词组合生成各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
匹配单元408,用于利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述第一生成单元生成的目标项目名称的分词列表与所述第二生成单元生成的各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
在本发明另一个实施例中,如图5所示,项目名称提取的装置可以进一步包括:分类单元501、去重单元502、过滤单元503,其中,
分类单元501,用于将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类,触发所述提取单元;
优选地,所述提取单元404,进一步用于提取同类网页中的实体词,触发去重单元;
去重单元502,用于接收所述提取单元的触发,对同类网页的实体词进行去重,触发第二查找单元;
优选地,所述第二查找单元,进一步用于查找所述去重单元提供的同类网页去重后的实体词在所述同义词词库中的编码;
所述过滤单元503,用于根据编码规则,将所述第二查找单元查找到的去重后的实体词中编码最后一位为“”或“#”的词滤掉,根据目标项目名称,设定阈值p,根据文本频率计算公式计算所述提取单元提取的同类网页中各个实体词的文本频率,对比所述文本频率与所述阈值p,判断是否滤掉所述文本频率对应的所述实体词,当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数。
在本发明又一个实施例中,如图6所示,项目名称提取的装置可以进一步包括:统计单元601,其中,
优选地,所述提取单元,进一步用于按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号;
所述统计单元601,用于统计所述目标项目名称的分词个数;
优选地,所述构建单元,进一步用于按照所述统计单元统计的目标项目名称的分词个数和所述提供单元提供的各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
在本发明又一个实施例中,优选地,所述匹配单元进一步用于:将所述第一生成单元中的目标项目名称的分词按顺序依次与第二生成单元中的各个网页的实体词组合中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
在本发明又一个实施例中,如图7所示,项目名称提取的装置可以进一步包括:
第三生成单元701,用于综合目标项目名称和所述匹配单元提供的对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表,所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种项目名称的提取方法,其特征在于,包括:
获取目标项目名称的各个分词,查找所述各个分词在同义词词库中的编码,生成目标项目名称的分词列表,该分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码;
利用各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合,生成并保存各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
2.根据权利要求1所述的方法,其特征在于,
所述提取各个网页的各个实体词之前,进一步包括:将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类;
所述提取各个网页的各个实体词之后,进一步包括:对同类网页中的各个实体词进行去重;
所述提取各个网页的各个实体词,查找所述各个实体词在同义词词库中的编码,包括:提取同类网页中的各个实体词,对同类网页中的各个实体词进行去重,查找同类网页去重后的实体词在所述同义词词库中的编码;
所述查找所述各个实体词在同义词词库中的编码之后,进一步包括:根据目标项目名称,设定阈值p,过滤各个网页中的各个实体词;
所述过滤各个网页中的各个实体词,包括:根据编码规则,将所述去重后的实体词中编码最后一位为“”或“#”的词滤掉不做考虑,根据文本频率计算公式计算同类网页剩余实体词的文本频率,对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数;
所述对比所述文本频率与所述设定阈值p,判断是否滤掉所述文本频率对应的所述实体词,包括:当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词。
3.根据权利要求1所述的方法,其特征在于,
所述提取各个网页的实体词,进一步包括:按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号;
所述构建与目标项目名称对应的各个网页的各个实体词组合,包括:统计所述目标项目名称的分词个数,按照所述目标项目名称的分词个数和所述各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
4.根据权利要求1所述的方法,其特征在于,利用目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述目标项目名称的分词列表与所述实体词组合列表,包括:
将所述目标项目名称的分词按顺序依次与各个网页的实体词组合列表中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
5.根据权利要求1所述的方法,其特征在于,得到对应于所述目标项目名称的同义词之后,进一步包括:
综合目标项目名称和对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表,所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词。
6.一种项目名称的提取装置,其特征在于,包括:
获取单元,用于获取目标项目名称的各个分词;
第一查找单元,用于查找所述获取单元提供的各个分词在同义词词库中的编码,触发第一生成单元;
第一生成单元,用于接收查找单元的触发,生成目标项目名称的分词列表,所述分词列表中包括目标项目名称的各个分词及该各个分词对应的编码;
提取单元,用于提取各个网页的各个实体词;
第二查找单元,用于查找所述各个实体词在同义词词库中的编码;
构建单元,用于利用所述各个实体词,构建与目标项目名称对应的各个网页的各个实体词组合;
第二生成单元,用于将构建单元构建的各个网页的各个实体词组合生成各个网页的实体词组合列表,该各个网页的实体词组合列表中包括各个实体词组合及该各个实体词组合对应的编码;
匹配单元,用于利用所述目标项目各个分词对应的编码和各个网页的各个实体词组合对应的编码,同义匹配所述第一生成单元生成的目标项目名称的分词列表与所述第二生成单元生成的各个网页的实体词组合列表,得到对应于所述目标项目名称的同义词。
7.根据权利要求6所述的装置,其特征在于,进一步包括:分类单元、去重单元、过滤单元,其中,
所述分类单元,用于将所述各个网页进行分类,其中需要结构化的项目名称相同的网页属于同一类,触发所述提取单元;
所述提取单元,进一步用于提取同类网页中的实体词,触发去重单元;
所述去重单元,用于接收所述提取单元的触发,对同类网页的实体词进行去重,触发第二查找单元;
所述第二查找单元,进一步用于查找所述去重单元提供的同类网页去重后的实体词在所述同义词词库中的编码;
所述过滤单元,用于根据编码规则,将所述第二查找单元查找到的去重后的实体词中编码最后一位为“”或“#”的词滤掉,根据目标项目名称,设定阈值p,根据文本频率计算公式计算所述提取单元提取的同类网页中各个实体词的文本频率,对比所述文本频率与所述阈值p,判断是否滤掉所述文本频率对应的所述实体词,当DFj<p时,则过滤掉第j个目标实体词,否则,保留第j个目标实体词;
所述文本频率计算公式为:DFj=Dbj/nb,其中,DFj为第j个目标实体词的文本频率;Dbj为第j个目标实体词出现在b类网页中的网页个数;nb为b类网页的个数。
8.根据权利要求6所述的装置,其特征在于,进一步包括:统计单元,其中,
所述提取单元,进一步用于按照实体词在各个网页中的位置顺序,为所述各个网页的实体词生成序号,形成各个网页的实体词集合,所述各个网页的实体词集合包括:网页的实体词以及该实体词对应的序号;
所述统计单元,用于统计所述目标项目名称的分词个数;
所述构建单元,进一步用于按照所述统计单元统计的目标项目名称的分词个数和所述提供单元提供的各个网页的各个实体词对应序号的连续性,查找能够组合的连续的实体词形成实体词组合,其中,所述实体词组合中实体词个数与所述目标项目名称的分词个数相同,所述实体词组合中的实体词对应的序号是连续的。
9.根据权利要求6所述的装置,其特征在于,所述匹配单元进一步用于:
将所述第一生成单元中的目标项目名称的分词按顺序依次与第二生成单元中的各个网页的实体词组合中的实体词一一对应,对比当前分词的编码与当前实体词组合中的当前实体词的编码是否相同,如果是,则继续对比下一个分词的编码与当前实体词组合中的下一个实体词的编码,否则,结束目标项目名称与当前实体词组合的对比,进行目标项目名称与下一个实体词组合的对比;当目标项目名称的各个分词编码与实体词组合列表中实体词组合的编码完全相同,则得到对应于目标项目名称的同义词。
10.根据权利要求6所述的装置,其特征在于,进一步包括:第三生成单元,
所述第三生成单元,用于综合目标项目名称和所述匹配单元提供的对应于目标项目名称的同义词,生成对应于目标项目名称的同义词列表,所述同义词列表包括:目标项目名称以及目标项目名称对应的同义词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510093192.XA CN104615590A (zh) | 2015-03-02 | 2015-03-02 | 一种项目名称的提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510093192.XA CN104615590A (zh) | 2015-03-02 | 2015-03-02 | 一种项目名称的提取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104615590A true CN104615590A (zh) | 2015-05-13 |
Family
ID=53150042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510093192.XA Pending CN104615590A (zh) | 2015-03-02 | 2015-03-02 | 一种项目名称的提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615590A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN106776616A (zh) * | 2015-11-20 | 2017-05-31 | 北京国双科技有限公司 | 合并对称实体组的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与*** |
CN101833556A (zh) * | 2009-03-12 | 2010-09-15 | 英业达股份有限公司 | 文件内容管理***及其方法 |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
US20130318124A1 (en) * | 2011-02-08 | 2013-11-28 | Fujitsu Limited | Computer product, retrieving apparatus, and retrieval method |
-
2015
- 2015-03-02 CN CN201510093192.XA patent/CN104615590A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101782998A (zh) * | 2009-01-20 | 2010-07-21 | 复旦大学 | 一种违规在线产品信息的智能判断方法与*** |
CN101833556A (zh) * | 2009-03-12 | 2010-09-15 | 英业达股份有限公司 | 文件内容管理***及其方法 |
US20130318124A1 (en) * | 2011-02-08 | 2013-11-28 | Fujitsu Limited | Computer product, retrieving apparatus, and retrieval method |
CN102760134A (zh) * | 2011-04-28 | 2012-10-31 | 北京百度网讯科技有限公司 | 一种同义词的挖掘方法和装置 |
Non-Patent Citations (2)
Title |
---|
曹晶: "同义词挖掘及其在概念信息检索***中的应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
杨关西: "基于上下文的同义词集挖掘研究与实现", 《华南理工大学硕士学位论文 道客巴巴》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045888A (zh) * | 2015-07-28 | 2015-11-11 | 浪潮集团有限公司 | 一种用于hmm的分词训练语料标注方法 |
CN106776616A (zh) * | 2015-11-20 | 2017-05-31 | 北京国双科技有限公司 | 合并对称实体组的方法及装置 |
CN106776616B (zh) * | 2015-11-20 | 2020-03-06 | 北京国双科技有限公司 | 合并对称实体组的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN110837556A (zh) | 摘要生成方法、装置、终端设备及存储介质 | |
JP5616444B2 (ja) | 文書インデックス化およびデータクエリングのための方法およびシステム | |
Reynaert | Character confusion versus focus word-based correction of spelling and OCR variants in corpora | |
CN103123624B (zh) | 确定中心词的方法及装置、搜索方法及装置 | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN105426360A (zh) | 一种关键词抽取方法及装置 | |
CN104008106A (zh) | 一种获取热点话题的方法及装置 | |
CN110457715B (zh) | 融入分类词典的汉越神经机器翻译集外词处理方法 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111104801A (zh) | 基于网址域名的文本分词方法、***、设备及介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及*** | |
CN116050397B (zh) | 一种长文本摘要生成方法、***、设备及存储介质 | |
CN106980664A (zh) | 一种双语可比较语料挖掘方法及装置 | |
Perez-Cortes et al. | Stochastic error-correcting parsing for OCR post-processing | |
CN110929022A (zh) | 一种文本摘要生成方法及*** | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
CN108228546A (zh) | 一种文本特征提取方法、装置、设备及可读存储介质 | |
CN104298732A (zh) | 一种面向网络用户的个性化文本排序及推荐方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
Mann et al. | Multi-field information extraction and cross-document fusion | |
CN116362243A (zh) | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 | |
CN103559177A (zh) | 一种地名识别方法及装置 | |
CN104615590A (zh) | 一种项目名称的提取方法和装置 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150513 |