CN102955837A - 一种基于中文词对关系相似度的类比检索控制方法 - Google Patents

一种基于中文词对关系相似度的类比检索控制方法 Download PDF

Info

Publication number
CN102955837A
CN102955837A CN2011104154039A CN201110415403A CN102955837A CN 102955837 A CN102955837 A CN 102955837A CN 2011104154039 A CN2011104154039 A CN 2011104154039A CN 201110415403 A CN201110415403 A CN 201110415403A CN 102955837 A CN102955837 A CN 102955837A
Authority
CN
China
Prior art keywords
relative
word
predicate
institute
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104154039A
Other languages
English (en)
Inventor
吕钊
梁超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN2011104154039A priority Critical patent/CN102955837A/zh
Publication of CN102955837A publication Critical patent/CN102955837A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供基于中文词对关系相似度类比检索控制方法,其用于基于关键词检索获取目标词,包括:a.获取词对;b.根据所述检索结果抽取包含所述词对的短句;c.根据所述包含所述词对的短句集合抽取词对关系模式集合;d.对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e.对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g.将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复步骤a至e;h.将每一个所述第二中间关系词集合作为目标词集合。本发明基于大规模文本信息统计,在实体关系未知的前提下找出实体对间存在的多种关系,并根据每个关系找出对应的候选项。

Description

一种基于中文词对关系相似度的类比检索控制方法
技术领域
本发明涉及中文词对关系相似度和信息检索技术领域,具体地说是基于中文词对关系相似度的类比检索技术。
背景技术
随着WWW的持续发展和搜索引擎的不断进步,网络搜索变得越来越容易。第一代搜索引擎是以Yahoo为代表的人工目录分类导航检索的网站搜索,它开始了互联网搜索的时代。第二代是以Google为代表的是基于关键词和特殊算法的搜索,是依靠机器抓取的、建立在超链分析基础上的大规模网页搜索,其搜索结果的准确度从网站上升至了网页。目前的搜索引擎还存在一些问题,如单一的搜索引擎不能覆盖整个Internet资源,搜索不够精确,不能真实反映用户意图。下一代搜索引擎的目标是能够模仿人的一些思维和想法,是概念的模糊搜索,它通过分析网页之间的关联,建立一种类似人的思维的更智能化的概念分类方式,通过模仿人的思维模式,对要查找的概念进行关键字联想和分类来扩大搜索的外延和深度。
本发明希望提出一种新的检索控制方法。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于中文词对关系相似度的类比检索控制方法。
根据本发明的一个方面,提供一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤:a.获取词对,其中所述词对为与所述关键词 和所述目标词 相同关系的词对;b. 根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;c. 根据所述包含所述词对的短句集合抽取词对关系模式集合;d. 对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;e. 对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;g. 将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;h. 将每一个所述第二中间关系词集合 作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集 。
优选地,在所述步骤e与所述步骤g之间还包括步骤:f. 对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合,其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。
优选地,所述步骤a包括如下步骤:a’ 在搜索引擎中检索所述词对。
优选地,所述步骤a包括如下步骤:a1. 将所述词对的检索结果中的标题分条目抽取出来。
优选地,所述步骤c包括如下步骤:c1. 抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式;c2. 将所述关系模式按照关系模型进行分组 ,形成所述词对关系模式集合。
优选地,所述步骤c1还包括如下步骤:c11. 将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语;c12. 将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注;c13. 抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语;c14. 将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。
优选地,所述步骤c2还包括如下步骤:c21. 将所述关系模式与所述关系模型进行匹配,具有相同的所述关系模型的所述关系模式分为一组;c22. 将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率;c23. 将每一组中不同的所述关系模式进行相似度计算;c24. 将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率;c25. 将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。
优选地,所述步骤d包括如下步骤:d1. 抽取所述词对关系模式集合中所述第一关系词集合;d2. 将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。
优选地,所述步骤d1还包括如下步骤:d11. 抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语;d12. 将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率;
优选地,所述步骤d2还包括如下步骤:d21. 将所述第一关系词集合中相同的所述关系词进行合并,并累加所述关系词对应的所述频率值;d22. 将经过上述合并的所述关系词根据所述频率值进行排序;d23. 将经过上述排序的所述关系词集合作为所述第二关系词集合。
优选地,所述步骤e包括如下步骤:e1. 将所述第二关系词集合中的所述关系词进行分组;e2. 将每组中所述关系词的所述频率值最高的所述关系词作为候选词;e3. 所述每组选出的候选词集合作为所述第一中间关系词集合;
优选地,所述步骤e1还包括如下步骤:e11. 将所述第二关系词集合中的所述频率值最高的所述关系词作为中心词;e12. 将所述第二关系词集合中的除所述中心词外所述所有的关系词与所述中心词进行相似度计算;e13. 将所述相似度相同的所述关系词分为一组。
优选地,所述步骤f包括如下步骤:f1. 将所述第一中间关系词集合中的所述所有的关系词进行两两相似度计算;f2. 将所述相似度超过第二阈值的所述关系词进行合并,并累加所述关系词对应的所述频率值;f3. 经过上述合并后的关系词集合作为所述第二中间关系词集合。
优选地,所述步骤g前还包括如下步骤:i1. 判断所述第二中间关系词集合是否为所述目标词集合。;i2. 若所述第二中间关系词集合不为所述目标词集合,则继续执行步骤g。
优选地,在所述步骤i2后还包括如下步骤:i3. 若所述第二中间关系词集合为所述目标词集合,则执行步骤h。
本发明基于词对之间的关系相似度对搜索关键词进行类比扩展,假设未知领域信息与已知领域信息在表现形式上具有相似性,通过比较已知领域信息和未知领域信息的关系相似度可以推测出未知领域的相关信息。例如,如果某一品牌产品的用户想搜索其他品牌的产品,她不知道想要的产品的名称或描述自己想要的产品的关键字,但常用品牌的产品及熟知品牌产品如何工作,产品功能和使用场合等等是用户熟知的,这是搜索其他品牌产品的一个重要线索。具体来讲,大多数用户知道ipod,一种苹果公司销售的音乐播放器。如果想要查找微软的相关产品,他们就要找到ipod和微软销售的音乐播放器的类比关系。更具体的就是,提供一个包含三个词条的元组,例如(苹果、iPod、微软),本发明就能把Zune查找出来。本领域技术人员理解,iPod是苹果公司的音乐播放器,Zune是微软的音乐播放器。
潜在关系搜索是一种基于中文词对间类比关系程度进行检索的一种新型检索模式。对于用户的未知领域,可以有效的获取需要的信息。本发明采用的方法基于大规模文本信息统计,可以在实体关系未知的前提下,找出实体对间存在的多种关系,然后根据每个关系找出此关系对应的候选项。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了获得间关系词的控制方法的示意图;
图2示出18种关系模型的示意图;
图3示出本发明第一实施例的,基于中文词对关系相似度的类比检索方法的流程图;
图4示出本发明第一实施例的,抽取词对关系的流程图;以及
图5示出本发明第一实施例的,三次聚类的流程图。
具体实施方式
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了获得间关系词的方法。图示将查询作为例子。具体地看,本图示出本发明提供的六个处理模型,用户将需要检索的词对经过所述六个处理模型的处理最终获得中间关系词集合。具体地,本领域技术人员理解,所述词对为与所述关键词与所述目标词相同关系的词对,例如用户想要通过关键词“SQL Server 2008”检索出目标词“Microsoft”,因为SQL Server 2008是Microsoft的关系数据库管理***,而所述用户已知mySQL是Oracle公司的关系数据库管理***,则所述用户可以使用(mySQL,Oracle)作为所述词对。更为具体地,所述六个处理模型分别为预处理模型,短句抽取模型,关系模式抽取模型,聚类模型,二次聚类模型以及三次聚类模型。首先将所述词对输入所述预处理模型,所述预处理模型借助现有的搜索引擎,如Google、Bing、Baidu和Wikipedia,将词对输入搜索引擎中。从返回的结果页面中可以得到一系列包含词的句子。经过所述短句抽取模型的抽取处理得到所述短句集合。所述短句集合又经过所述关系模式抽取模型的匹配抽取处理得到所述词对关系模式集合。所述聚类模型对所述词对关系模式集合中的所述第一关系词集合进行模式聚类得到按频率排好序的第二关系词集合,所述二次聚类模型对所述第二关系词集合中的所述关系词进行2次聚类得到第一中间关系词集合,其中,所述第二关系词集合经过相似度计算进行分组,选取每组中频率最高的所述关系词得到所述第一中间关系词集合,对于所述第一中间关系词集合经过所述三次聚类模型的聚类处理获得所述第二中间关系词集合。更具体地,本领域技术人员理解,得到所述第二中间关系词集合后,将所述第二中间关系词集合中的所述每一个关系词结合所述关键词形成另一词对,所述另一词对将通过所述六个处理模型经过搜索引擎中搜索。抽取,聚类得出所述每一个关系词对应的更精确的目标词集合。图中输入获取目标词D的方法与图示相同,不再赘述。
 
图2示出18种关系模型。具体地,本图示出的18种关系模式分别为nvXY,XnvY,XYnv,nXvY,nXYv,XnYv,nXY,XnY,XYn,vnXY,XvnY,XYvn,vXnY,vXYn,XvYn,vXY,XvY以及XYv,其中,n为词性为名词的一个词语,v为词性为动词的一个词语,X和Y为所述词对。例如所述词对可以是iPod和苹果,则所述XY为iPod和苹果,具体地,本领域技术人员理解,所述XY的顺序并不影响本发明的实施,因此XY和YX所表达的意义相同,例如所述关系模型nvXY与所述关系模型nvYX为同一种关系模型。所述词对为iPod和苹果时,所述所述关系模型nvXY,其组成首先是一个名词,之后为一个动词,最后是所述词对,例如“软件下载苹果iPod”,其与所述关系模型nvXY相匹配;所述所述关系模型XnvY,其组成首先是所述词对中的一个词语,之后为一个名词,一个动词在所述一个名词后,最后是所述词对中的另一个词语,例如“苹果新品发布iPod”,其与所述关系模型XnvY相匹配;所述所述关系模型XYnv,其组成首先是所述词对,之后为一个名词,之后是一个动词,例如“苹果iPod商品出售”,其与所述关系模型XYnv相匹配;剩余所述15种关系模型匹配方法与上述3种关系模型类似,具体地,在此不予赘述。
 
图3示出本发明第一实施例的,基于中文词对关系相似度的类比检索方法的流程图。具体地,本图示出了从用户输入检索词对至最后获得二维结果集的整个流程图,其一共有7个步骤。首先是步骤201,本发明技术方案提供的预处理模型根据用户输入的词对进行检索,根据搜索引擎返回的搜索结果,将标题分条目抽取。所述搜索引擎优选地,为百度搜索引擎。具体地,本领域技术人员理解,所述词对是用户根据目标词与所述已知关键词的关系,输入的与之相同关系的另一已知词对。例如用户想要通过关键词“SQL Server 2008”检索出目标词“Microsoft”,因为SQL Server 2008是Microsoft的关系数据库管理***,而所述用户已知mySQL是Oracle公司的关系数据库管理***,则所述用户可以使用(mySQL,Oracle)作为所述词对。此后是步骤202,抽取包含所述词对的短句。具体地,本领域技术人员理解,根据上述抽取的标题判断所述词对之间是否存在任何的空格或标点符号,将所述词对之间不存在任何的空格的标点符合的所有标题作为短句形成短句集合,以保证词对出现在一个完整的句子中。例如,当所述词对为“苹果”和“iPod”时,所述标题为“苹果在线_中国苹果门户网站_苹果专卖店苹果软件下载iphoneipod”,则为了保证所述词对出现在一个完整的句子中,该标题抽取出的短句应为“苹果专卖店苹果软件下载iphoneipod”。又例如,当所述词对为“苹果”和“iPod”时,所述标题为“【iPod专区】苹果iPod大全_苹果MP3报价-ZOL中关村在线”,则为了保证所述词对出现在一个完整的句子中,该标题抽取出的短句应为“苹果iPod大全”。步骤202后是步骤203,根据所述短句集合,对每一个短句进行相应的分词,分组匹配,计算频率等操作。将操作后的短句及其频率形成词对关系模式的集合。所述词对关系模式由所述词语组合构成,所述词语组合包括所述词对,至少一个名词或者至少一个动词。例如,当所述词对为“苹果”和“iPod”时,所述词对关系模式可以是“苹果iPod新品出售”其频率值为3或者“苹果新品发布iPod”其频率值为5。具体地,所述词对关系模式的抽取和频率计算将在下文说明,在此不予赘述。形成了词对关系模式的集合后,执行步骤204,提取所述词对关系模式中的关系词,具体地,本领域技术人员理解,所述关系词为其对应关系模式中除所述词对外的词语,例如,当所述词对为“苹果”和“iPod”时,所述词对关系模式为“苹果新品发布iPod”的关系词为“新品”和“发布”,且所述词对关系模式为“苹果新品发布iPod”的频率值为5,则所述关系词为“新品”和“发布”的频率值也都为5。并将所述关系词及其相应的频率值加入所述第一关系词集合。又例如,所述词对关系模式为“苹果iPod新品出售”的关系词为“新品”和“出售”,且所述词对关系模式为“苹果iPod新品出售”的频率值为3,则所述关系词为“新品”和“出售”的频率值也都为3。并将所述关系词及其相应的关系词加入所述第一关系词集合。形成第一关系词集合后,将所述第一关系词集合进行去重和频率累加操作,并根据频率将关系词进行排序形成第一次聚类后的第二关系词集合。具体地,例如所述第一关系词集合内有“新品”其频率值为5,“发布”其频率值为5,“新品”其频率值为3以及“出售”其频率值为3,则首先合并所述关系词“新品”,合并后其频率值为8。经所述频率值排序后得到所述第二关系词集合,其包括“新品”其频率值为8,“发布”其频率值为5,以及“出售”其频率值为3。更具体地,本领域技术人员理解,当所述关系词的频率值相同时,其优选地,可以根据首字母进行排序,其排序情况不影响本发明的实施情况,在此不予赘述。第一次聚类后执行第二次聚类,也就是步骤205,第二次聚类将第一次聚类后的第二关系词集合中频率最高的关系词作为中心词,例如上述例子中的所述关系词“新品”作为所述中心词,并将集合中其他的关系词与所述中心词进行相似度计算,将相似度相同的分为一组,提取每组中频率值最高的关系词形成第一中间关系词集合。之后为第三次聚类,步骤206,通过计算所述关系词集合中两两关系词的相似度,进一步聚类,将相似度超过第二阈值的关系词合并加入新的关系词集合,对所述第二次聚类后形成的关系词集合内的关系词全部进行上述操作后形成的新的关系词集合为第三次聚类后的第二中间关系词集合。三次聚类后,执行步骤207,判断三次聚类后得到第二中间关系词集合是否为目标词集合,如果不是目标词集合。则执行步骤208,提取所述三次聚类后的关系词集合中的关系词与所述欲进行检索的关键词作为所述词对,按上述步骤201至206进行处理,每一个所述三次聚类后的关系词集合中的关系词,根据上述操作都将得到一组候选词集合。步骤207判断所述候选词集合为目标词集合,则最终步骤209,根据所述关系词集合获得二维结果集也就是目标词集合,并将所述二维结果集返回至用户。
 
图4示出本发明第一实施例的,抽取词对关系的流程图。具体地,本图示出了本发明提供的关系模式抽取模型抽取所述输入词对的关系模式并形成所述关系模式集合的整个过程,其共有5个步骤。首先是步骤231,对于上述短句集合中的每一个短句,本发明用中文分词工具将所述短句分词。所述分词工具优选地,可以是ICTCLAS分词工具,其分词及词性标注精度达95%以上。分词后所述短句被分成具有独立语义的词语,每个词语都有词性标注。对于集合中的每个短句中存在没有语义的词语,如停用词和连词。根据词性标注本发明可以去除这些无意义的词语。在本发明的方法中本发明只抽取名词和动词,这些名词和动词代表了整个句子的主干和意义。抽取后的词语组合构成词语组合集合。其后为步骤232,将所述词语组合的集合根据所述句子模式进行分组。具体地,本领域技术人员理解,为了更好地分组,本发明提出了一个包含18种模式的模型。如附图2所示,X代表词语A,Y代表词语B,n代表名词,v代表动词。对于集合中的每一个词语组合,本发明都对其进行句子模式匹配,然后按照其匹配的句子模式归类到18种句子模式对应的不同分组中。步骤232后为步骤233,在聚类的过程中要对分到同一组中的两个不同的词语组合进行相似度计算。具体地,本领域技术人员理解,所述相似度的计算使用同义词林。此后为步骤234,根据所述相似度计算在分组的过程中将句子模式相同且内容相同或相似的词语组合进行频率累加并记录。最后为步骤235,将上述操作后的词语组合及其频率的集合作为词对关系模式的集合。
 
图5示出本发明第一实施例的,三次聚类的流程图。具体地,本图示出了本发明提供的基于中文词对关系相似度的类比检索方法中第一次类聚,第二次类聚以及第三次类聚获得所述第二中间关系词集合的整个过程,其共有9步,首先是步骤241,抽取上述词对关系模式集合中每个关系模式中的关系得到所述第一关系词集合。其后是步骤242,对所述第一关系词集合中的关系词进行去重即将相同的关系词进行合并,并将合并的关系词的出现频率累加。步骤243,所述关系词去重以后,根据每个关系词相适应的频率进行排名,获得所述第二关系词集合。其后为步骤244,对于所述第二关系词集合,本发明选取排名第一的关系词为中心词。计算所述第二关系词集合中的任意关系词与所述中心词的词语相似度。计算完相似度后,为步骤245,根据所述相似度进行二次分组,将所述相似度相同的关系词分到一组中,将每一组中出现频率最高的关系词提取出来作为候选词。其后为步骤246,所有所述候选词构成所述第一中间关系词集合。步骤246后为步骤247,计算所述第一中间关系词集合中关系词两两之间的相似度,进一步对所述关系词进行聚类。其后为步骤248,如果计算结果中两个词的相似度超过所述第二阈值就将关系词合并重新加入新的关系词集合中。最终为步骤249,所述新的关系词集合构成所述第二中间关系词集合。
 
更为具体地,本领域技术人员理解,在一个优选实施例中,可以通过如下步骤来实现本发明所述的控制方法:
步骤一、抽取关系词。首先抓取网页并抽取信息。本发明使用***作为搜索引擎。将词对输入搜索引擎中,将会返回一系列的搜索结果,将这些搜索结果保存为原始语料。从原始语料中将标题分条目抽取出来。为了提高搜索出的候选词D的准确性,需要抽取足够多的语料。
步骤二、找到包含A和B的词条。本发明的目的是找到包含词对的句子。为了找到代表A和B两个词之间语义关系的句法模式,本发明考虑匹配形如的短句,匹配出的字串用t表示。其中p代表标点符号,*代表除空格和标点符号的任意连续字符,并且A和B词之间不存在任何的空格或标点符号。在这个前提下,本发明可以保证A词和B词出现在一个完整的句子中。经过抽取后,本发明得到t的集合。
步骤三、分词,抽取主干和聚类。对于集合T中的每一个短句t,本发明用中文分词工具将t分词。分词后t被分成具有独立语义的词语,每个词语都有词性标注。本发明用表标注后的句子的集合。对于中的每个中存在没有语义的词语,如停用词和连词。根据词性标注本发明可以去除这些无意义的词语。在本发明的方法中本发明只抽取名词和动词,这些名词和动词代表了整个句子的主干和意义。抽取后的词语组合s构成集合。
经过上述处理步骤本发明得到了包含词语碎片的集合。为了对集合进行聚类,本发明提出了一个包含18种模式的模型。如附图2所示,X代表词语A,Y代表词语B,n代表名词,v代表动词。对于集合中的每一个短句s,本发明都对其进行句子模式匹配,然后按照其匹配的句子模式归类到18种句子模式对应的不同分组中。在分组的过程中将句子模式相同且内容相同或相似的句子进行频率累加并记录,为了实现这一目标,在聚类的过程中要对分到同一组中的两个不同的s进行相似度计算。相似度的计算使用同义词林。
经过聚类以后本发明得到包含聚类后模式p的集合,每个模式p对应一个频率值f。
步骤四、关系排名。将集合中的关系词抽取出来,因为在不同的句子结构中抽取出的词语存在大量重复的现象,所以要对关系词进行去重并将出现频率累加。关系词去重以后,根据频率值f进行排名,然后得到一个按频率排好名的词语集合。
步骤五、利用关系相似度二次聚类。对于集合,本发明选取排名第一的关系词为中心词。对于任意的,计算与的词语相似度。计算完相似度后,根据相似度进行二次分组,相似度相同的词语被分到一组中,分组后的数据集合为。对于,按分组取分组中出现频率最高的词语提取出来作为候选词,得到关系词集合。
步骤六、第三次聚类获得关系词。在集合依然存在一些关系相关度非常高的词,我们通过计算关系词两两之间的相关度,进一步对关系词进行聚类。如果两个词的相关度超过阈值就将词语合并重新加入新的关系词集合中,由此我们得到更精确的关系词集合。
步骤七、获得目标词。对于集合中的每一个,按照1到6步对词对进行处理,最后得到目标词集合。对于每一个本发明都得到一组候选词集合。最终我们得到一个二维结果集。
更为具体地,以下示出了本发明的另一个实施例,其通过一个具体的例子实现了本发明所述的控制方法。
我们以{(姚明,叶莉);(林丹,?)}作为例子,将(姚明,叶莉)输入搜索引擎中,我们得到完整的包含(姚明,叶莉)的句子,例如:
        姚明   叶莉爱情童话_在线视频观看_土豆网视频 姚明 叶莉
        杨澜英文专栏泄天机:姚明叶莉宝宝是女儿(图)-青岛新闻网
        姚明老婆叶莉 姚明老婆叶莉身高是多少/详情_姚明老婆叶莉,叶莉身...
利用模版抽取句子后我们得到:
         姚明叶莉爱情童话
         姚明叶莉宝宝是女儿
         姚明老婆叶莉身高是多少
对短句进行分词后得到:
         姚明/n  叶莉/n 爱情/n 童话/n
         姚明/n 叶莉/n 宝宝/n 是/v 女儿/n
         姚明/n 老婆/n 叶莉/n 身高/n 是/v 多少/r
抽取主干后得到:
         姚明/n  叶莉/n 爱情/n 童话/n
         姚明/n 叶莉/n 宝宝/n 是/v
         姚明/n 老婆/n 叶莉/n
对于抽取出的关键词统计词频的结果为(为避免冗余,只列出前十个):
         婚礼/n  13
         爱情/n  12
         婚纱照/n  8
         澳洲/n  7
         结婚照/n  7
         举办/v  6
         拍/v  6
         女儿/n  6
         老婆/n  5
         携手/v  4
二次聚类后的结果为(只列出4组作为示例):
         第一组:
             婚礼 1.0 13
         第二组:
             体育 0.36923076923076925 1
         第三组:
             全家福 0.21721212121212127 1
             照片 0.21721212121212127 2
             合影 0.21721212121212127 1
             结婚照 0.21721212121212127 7
             床头 0.21721212121212127 1
         第四组:
             后代 0.12631578947368424 1
             千金 0.12631578947368424 4
             小孩 0.12631578947368424 1
             妻子 0.12631578947368424 1
             女儿 0.12631578947368424 6
             夫妇 0.12631578947368424 2
             孩子 0.12631578947368424 4
             老婆 0.12631578947368424 5
             宝宝 0.12631578947368424 3
最后我们得到关系词如下所示:
         婚礼  13  1.0  
         喜酒  1  0.896  
         历程  2  0.6153846153846154  
         趣事  4  0.6000000000000001  
         体育  1  0.36923076923076925  
         内幕  2  0.28571428571428575  
         手段  3  0.2424242424242425  
         结婚照  7  0.21721212121212127  
         广告  2  0.18863157894736846  
         爱情  12  0.17142857142857146  
         体育场  1  0.1666976744186047  
         新房  1  0.14933333333333335  
         女儿  6  0.12631578947368424  
         有情人  1  0.12193684210526318  
         美国  2  0.11162790697674421  
         澳洲  7  0.1116279069767442  
         结婚  3  0.07407407407407407  
         新婚  2  0.044444444444444446
第三次聚类后得到:
         婚礼  14
         结婚照  9
         爱情  12
         有情人  1
         结婚  3
         新婚  2
         新房  1
         女儿  7
         体育  1
         体育场   1
         手段  3
         广告  2
         美国  3
         澳洲  1
对于以上关系词,例如(林丹,爱情)进行相同过程处理后,我们得到谢杏芳。对于确定关系的示例,准确匹配到谢杏芳即达到了本发明的目的。
进一步地,本领域技术人员还理解,在另一个变化例中,优选地,提供包含三个关键词A,B,C,利用本发明能找出目标关键词D,其中A与B的关系近似等于C和D的关系。例如,输入词条A =苹果, B = iPod, and C = 微软, 输出Zune作为D,其中(苹果,iPod)和(微软,Zune)的关系是几乎相同的。如果两个实体之间的关系是唯一确定的,我们得到唯一的目标候选词或一组目标候选词集合。如果两个词语具有多种关系,则可以找出每种关系对应的一个或多个目标候选词,进而得到一个具有二维结构的结果集。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (15)

  1. 一种基于中文词对关系相似度的类比检索控制方法,其用于基于至少一个关键词检索获取至少一个目标词,其特征在于,包括如下步骤:
    a.获取词对,其中所述词对为与所述关键词和所述目标词相同关系的词对;
    b. 根据所述检索结果,抽取包含所述词对的短句,其中所述短句为同时包含所述词对的一个完整的句子;
    c. 根据所述包含所述词对的短句集合抽取词对关系模式集合;
    d. 对所述词对关系模式集合中的第一关系词集合进行一次聚类以获得第二关系词集合;
    e. 对所述第二关系词集合进行二次聚类,并将所述二次聚类获得的结果作为第一中间关系词集合;
    g. 将所述第一中间关系词集合中的关系词逐一与所述关键词形成第一词对,重复上述步骤a至步骤e,从而针对每一个所述第一词对得到与所述第一词对对应的第二中间关系词集合,其中,所述关系词为所述关系模式中除所述词对之外的至少一个词语;
    h. 将每一个所述第二中间关系词集合作为目标词集合,其中,每一个所述第二中间关系词集合中的关系词对应一个所述目标词集合,所述第四关系词集合与所述第二中间关系词集合形成二维结果集。
  2. 根据权利要求1所述的控制方法,其特征在于,在所述步骤e与所述步骤g之间还包括步骤:
    f. 对所述第一中间关系词集合进行三次聚类,并将所述三次聚类获得的结果作为所述第一中间关系词集合,
    其中,所述步骤g中对所述每个第一词对重复上述步骤a至步骤f。
  3. 根据权利要求1或2所述的控制方法,其特征在于,所述步骤a包括如下步骤:
    a’ 在搜索引擎中检索所述词对。
  4. 根据权利要求1至3中任一项所述的控制方法,其特征在于,所述步骤a包括如下步骤:
    a1. 将所述词对的检索结果中的标题分条目抽取出来。
  5. 根据权利要求1至4中任一项所述的控制方法,其特征在于,所述步骤c包括如下步骤:
    c1. 抽取所述包含所述词对的短句的集合中所述每一个短句的关系模式;
    c2. 将所述关系模式按照关系模型进行分组,形成所述词对关系模式集合。
  6. 根据权利要求5所述的控制方法,其特征在于,所述步骤c1还包括如下步骤:
    c11. 将所述包含所述词对的短句的集合中所述每一个短句分成具有独立语义的词语;
    c12. 将所述每一个短句中的所述每一个具有独立语义的词语进行词性标注;
    c13. 抽取所述每一个短句中词性为名词和动词的所述具有独立语义的词语;
     c14. 将抽取得到的所述每一个短句中的词语组合作为所述短句的所述关系模式。
  7. 根据权利要求5或6所述的控制方法,其特征在于,所述步骤c2还包括如下步骤:
    c21. 将所述关系模式与所述关系模型进行匹配,具有相同的所述关系模型的所述关系模式分为一组;
    c22. 将每一组中相同的所述关系模式进行合并,并累加所述关系模式的频率;
    c23. 将每一组中不同的所述关系模式进行相似度计算;
    c24. 将所述相似度超过第一阈值的所述关系模式进行合并,并累加所述关系模式的频率;
    c25. 将所有经过上述合并操作的所述关系模式作为所述词对关系模式集合,其中所述每个词对关系模式对应一个频率值。
  8. 根据权利要求1至7中任一项所述的控制方法,其特征在于,所述步骤d包括如下步骤:
    d1. 抽取所述词对关系模式集合中所述第一关系词集合;
    d2. 将所述第一关系词集合进行一次聚类,以获得所述第二关系词集合。
  9. 根据权利要求8所述的控制方法,其特征在于,所述步骤d1还包括如下步骤:
    d11. 抽取所述词对关系模式集合中所述每一个词对关系模式中的关系词,其中,所述关系词为所述词对关系模式中除了所述词对外的词语;
    d12. 将所有所述关系词作为所述第一关系词集合,其中,所述每个关系词对应一个频率值,所述频率值为所述关系词所在所述词对关系模式出现的频率。
  10. 根据权利要求8或9所述的控制方法,其特征在于,所述步骤d2还包括如下步骤:
    d21. 将所述第一关系词集合中相同的所述关系词进行合并,并累加所述关系词对应的所述频率值;
    d22. 将经过上述合并的所述关系词根据所述频率值进行排序;
    d23. 将经过上述排序的所述关系词集合作为所述第二关系词集合。
  11. 根据权利要求1至10中任一项所述的控制方法,其特征在于,所述步骤e包括如下步骤:
    e1. 将所述第二关系词集合中的所述关系词进行分组;
    e2. 将每组中所述关系词的所述频率值最高的所述关系词作为候选词;
    e3. 所述每组选出的候选词集合作为所述第一中间关系词集合;
    根据权利要求11所述的控制方法,其特征在于,所述步骤e1还包括如下步骤:
    e11. 将所述第二关系词集合中的所述频率值最高的所述关系词作为中心词;
    e12. 将所述第二关系词集合中的除所述中心词外所述所有的关系词与所述中心词进行相似度计算;
    e13. 将所述相似度相同的所述关系词分为一组。
  12. 根据权利要求2至12中任一项所述的控制方法,其特征在于,所述步骤f包括如下步骤:
    f1. 将所述第一中间关系词集合中的所述所有的关系词进行两两相似度计算;
    f2. 将所述相似度超过第二阈值的所述关系词进行合并,并累加所述关系词对应的所述频率值;
    f3. 经过上述合并后的关系词集合作为所述第二中间关系词集合。
  13. 根据权利要求1至13中任一项所述的控制方法,其特征在于,所述步骤g前还包括如下步骤:
    i1. 判断所述第二中间关系词集合是否为所述目标词集合。
  14. i2. 若所述第二中间关系词集合不为所述目标词集合,则继续执行步骤g。
  15. 根据权利要求14所述的控制方法,其特征在于,在所述步骤i2后还包括如下步骤:
    i3. 若所述第二中间关系词集合为所述目标词集合,则执行步骤h。
CN2011104154039A 2011-12-13 2011-12-13 一种基于中文词对关系相似度的类比检索控制方法 Pending CN102955837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104154039A CN102955837A (zh) 2011-12-13 2011-12-13 一种基于中文词对关系相似度的类比检索控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104154039A CN102955837A (zh) 2011-12-13 2011-12-13 一种基于中文词对关系相似度的类比检索控制方法

Publications (1)

Publication Number Publication Date
CN102955837A true CN102955837A (zh) 2013-03-06

Family

ID=47764646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104154039A Pending CN102955837A (zh) 2011-12-13 2011-12-13 一种基于中文词对关系相似度的类比检索控制方法

Country Status (1)

Country Link
CN (1) CN102955837A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761225A (zh) * 2014-01-23 2014-04-30 天津大学 一种数据驱动的中文词语义相似度计算方法
CN104182386A (zh) * 2013-05-27 2014-12-03 华东师范大学 词对关系相似度的计算方法
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108921741A (zh) * 2018-04-27 2018-11-30 广东机电职业技术学院 一种互联网+外语拓展学习方法
CN109308299A (zh) * 2018-09-12 2019-02-05 北京字节跳动网络技术有限公司 用于搜索信息的方法和装置
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN113609304A (zh) * 2021-07-20 2021-11-05 广州大学 一种实体匹配方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489739A (zh) * 2001-01-29 2004-04-14 �ֹ��� 响应客户的搜索请求来提供变换过的信息的***及利用计算机的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489739A (zh) * 2001-01-29 2004-04-14 �ֹ��� 响应客户的搜索请求来提供变换过的信息的***及利用计算机的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAKOTO P. KATO 等: "《Query by Analogical Example:Relational Search Using Web Search Engine Indices》", 《CIKM’09》 *
NGUYEN TUAN DUC, DANUSHKA BOLLEGALA, MITSURU ISHIZUKA: "《Using Relational Similarity between Word Pairs for Latent Relational Search on the Web》", 《2010 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182386A (zh) * 2013-05-27 2014-12-03 华东师范大学 词对关系相似度的计算方法
CN103761225B (zh) * 2014-01-23 2017-03-29 天津大学 一种数据驱动的中文词语义相似度计算方法
CN103761225A (zh) * 2014-01-23 2014-04-30 天津大学 一种数据驱动的中文词语义相似度计算方法
CN105095222B (zh) * 2014-04-25 2019-10-15 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105095222A (zh) * 2014-04-25 2015-11-25 阿里巴巴集团控股有限公司 单元词替换方法、搜索方法及装置
CN105528441A (zh) * 2015-12-22 2016-04-27 北京奇虎科技有限公司 基于自动标注的中心词提取方法和装置
CN106354715A (zh) * 2016-09-28 2017-01-25 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN106354715B (zh) * 2016-09-28 2019-04-16 医渡云(北京)技术有限公司 医疗词汇处理方法及装置
CN108491393A (zh) * 2018-03-29 2018-09-04 国信优易数据有限公司 一种情感词情感强度确定方和装置
CN108921741A (zh) * 2018-04-27 2018-11-30 广东机电职业技术学院 一种互联网+外语拓展学习方法
CN109308299A (zh) * 2018-09-12 2019-02-05 北京字节跳动网络技术有限公司 用于搜索信息的方法和装置
CN109308299B (zh) * 2018-09-12 2020-01-14 北京字节跳动网络技术有限公司 用于搜索信息的方法和装置
CN111444713A (zh) * 2019-01-16 2020-07-24 清华大学 新闻事件内实体关系抽取方法及装置
CN111444713B (zh) * 2019-01-16 2022-04-29 清华大学 新闻事件内实体关系抽取方法及装置
CN111753060A (zh) * 2020-07-29 2020-10-09 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN113609304A (zh) * 2021-07-20 2021-11-05 广州大学 一种实体匹配方法和装置
CN113609304B (zh) * 2021-07-20 2023-05-23 广州大学 一种实体匹配方法和装置

Similar Documents

Publication Publication Date Title
Zhang et al. Ad hoc table retrieval using semantic similarity
CN102955837A (zh) 一种基于中文词对关系相似度的类比检索控制方法
CN106649455B (zh) 一种大数据开发的标准化***归类、命令集***
CN103955529B (zh) 一种互联网信息搜索聚合呈现方法
Cafarella et al. Web-scale extraction of structured data
Sambasivam et al. Advanced data clustering methods of mining Web documents.
Wu et al. PTUM: Pre-training user model from unlabeled user behaviors via self-supervision
CN101692223A (zh) 响应于用户输入精炼搜索空间
CN101408885A (zh) 利用统计分布对主题进行建模
CN103488648A (zh) 一种多语种混合检索方法和***
Bin et al. Web mining research
CN101350027A (zh) 内容检索设备和内容检索方法
CN104657376A (zh) 基于节目关系的视频节目的搜索方法和装置
JP2023066404A (ja) 電子商取引プラットフォームで商品マッチングを実行するための方法およびシステム
Zhang et al. Semantic table retrieval using keyword and table queries
Moreira et al. Using rank aggregation for expert search in academic digital libraries
Khalid et al. An effective scholarly search by combining inverted indices and structured search with citation networks analysis
Wu et al. Searching online book documents and analyzing book citations
CN106168947A (zh) 一种相关实体挖掘方法和***
Wang et al. Scalable semantic querying of text
Paparizos et al. Answering web queries using structured data sources
Choi et al. Consento: a new framework for opinion based entity search and summarization
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
Pakojwar et al. Web data extraction and alignment using tag and value similarity
JP2010186474A (ja) 関連度辞書を用いた検索モデリングシステムおよび方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130306