CN102708104A - 对文档排序的方法和设备 - Google Patents

对文档排序的方法和设备 Download PDF

Info

Publication number
CN102708104A
CN102708104A CN2011100858080A CN201110085808A CN102708104A CN 102708104 A CN102708104 A CN 102708104A CN 2011100858080 A CN2011100858080 A CN 2011100858080A CN 201110085808 A CN201110085808 A CN 201110085808A CN 102708104 A CN102708104 A CN 102708104A
Authority
CN
China
Prior art keywords
semantic
document
inquiry
path
notions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100858080A
Other languages
English (en)
Other versions
CN102708104B (zh
Inventor
李建强
刘春辰
赵彧
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201110085808.0A priority Critical patent/CN102708104B/zh
Priority to JP2011268139A priority patent/JP5362807B2/ja
Publication of CN102708104A publication Critical patent/CN102708104A/zh
Application granted granted Critical
Publication of CN102708104B publication Critical patent/CN102708104B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对文档排序的方法和设备,该方法包括步骤:根据用户的查询和本体库,抽取查询语义信息;根据文档、查询和体库,抽取文档语义信息;确定文档语义信息和查询语义信息的关系语义相关度;以及基于关系语义相关度,对文档进行排序。本方法和设备能够有效提高对文档排序的准确度。

Description

对文档排序的方法和设备
技术领域
本发明涉及信息检索领域,特别涉及用于对文档排序的方法与设备。
背景技术
随着电子信息的广泛应用和扩展,在各种分布式***中聚集了大量的多样性信息。如何帮助用户从海量信息中找到有用的信息是一个得到越来越多关注的问题。
信息检索技术是从文档集合中搜索信息,其可以包括:搜索文档中的一部分信息、搜索文档本身、搜索描述文档的元数据、在数据库内部进行搜索,等等。所进行搜索的信息也可以是多种多样的,例如文本、声音、数据,等等。
目前,文档排序主要分为查询相关方法以及查询无关方法。查询相关方法是指当用户进行查询时,根据用户输入的查询内容来对文档进行排序,以使得用户更加准确地得到所关心的信息。在现有的基于语义的文档排序的方法中,主要基于本体库来确定查询和文档的语义相关性,从而按照相关性的大小对文档进行排序。然而,目前的方法仅考虑了查询和文档中的概念上的语义相关性,并没有考虑这些概念之间的关系也存在的语义相关性,而这种关系语义相关性对于理解用户的查询目的以及准确匹配目标文档来说是非常有帮助的。
因此,现有技术的各种文档排序方法经常造成用户无法快速和准确地得到希望的查询结果。
发明内容
针对以上问题,本发明提供了一种对文档排序的方法和设备。
根据本发明的第一方面,提供了一种对文档排序的方法。该方法可以包括步骤:根据用户的查询和本体库,抽取查询语义信息;根据文档、查询和本体库,抽取文档语义信息;确定文档语义信息和查询语义信息的关系语义相关度;以及基于关系语义相关度,对文档进行排序。
根据本发明的第二方面,提供了一种对文档排序的设备。该设备可以包括:查询语义信息抽取装置,配置为根据用户的查询和本体库,抽取查询语义信息;文档语义信息抽取装置,配置为根据文档、查询和本体库,抽取文档语义信息;关系语义相关度确定装置,配置为文档语义信息和查询语义信息的关系语义相关度;以及排序装置,配置为基于关系语义相关度,对文档进行排序。
本发明的方法和设备不仅基于查询与文档之间的概念语义相关度而且基于二者之间的关系语义相关度来对文档排序,通过考虑文档和查询在语义方面的关系,有效提高了查询准确度,使得用户可以更快和更准确地得到希望的查询结果。
通过以下对说明本发明原理的优选实施方式的描述,并结合附图,本发明的其他特征以及优点将会是显而易见的。
附图说明
通过以下结合附图的说明,并且随着对本发明的更全面了解,本发明的其他目的和效果将变得更加清楚和易于理解,其中:
图1是按照本发明的一个实施例的对文档排序的方法的流程图;
图2是按照本发明的另一个实施例的对文档排序的方法的流程图;
图3是按照本发明的一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图;
图4是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图;
图5是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图;以及
图6是按照本发明的一个实施例的对文档排序的设备的方框图。
在所有的上述附图中,相同的标号表示具有相同、相似或相应的特征或功能。
具体实施方式
附图中的流程图和框图,图示了按照本发明各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
现有技术中的文档排序主要分为与查询相关的方法以及与查询无关的方法。与查询相关的方法是指当用户进行查询时,根据用户输入的查询内容来对文档进行排序。与查询无关的方法是指不考虑文档与特定查询的匹配程度,而例如根据文档的内在特性来直接对文档排序。本发明的对文档进行排序的方法属于与查询相关的方法。也就是说,当接收到用户输入的查询后,根据该查询来确定多个文档的排列顺序。
在本发明的一个实施方式中公开了一种对文档排序的方法和设备。本发明的对文档排序的方法是基于用户输入的查询来进行的。本发明的方法可以适用于对多个文档的排序。在根据本发明的一个实施方式中,首先可以根据用户的查询和本体库抽取查询语义信息,并可以根据文档、用户的查询和本体库抽取文档语义信息;然后,可以确定所述文档语义信息和所述查询语义信息的关系语义相关度,并基于所确定的关系语义相关度来对这些文档进行排序。本发明的方法在对文档进行排序的过程中不仅考虑了用户查询中包含的概念以及文档中所包含的概念,而且考虑了用户查询与文档之间的基于关系的语义相关度(在本发明中,也称为“关系语义相关度”),从而有效提高了对文档排序的准确度。
为了清楚起见,首先对本发明中所使用的术语作以解释。
1.本体库
本体库(Ontology)最早是一个哲学的范畴。在目前的应用中,可以将本体库认为是共享概念模型的明确的形式化规范说明。本体库可以用于捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇(也即,概念),并从不同层次的形式化模式上给出这些概念和概念之间相互关系的明确定义。
从语义上讲,概念之间的关系主要有4种,参见表1。
表1概念之间的关系分类
Figure BSA00000468297900041
在实际应用中,概念之间的关系不限于上面列出的4种基本关系,可以根据领域的具体情况定义相应的关系。
目前广泛使用的本体库例如有Wordnet、Framenet、GUM、SENSUS、Mikrokmos等。其中,Wordnet是基于心理语言规则的英文词典,以synsets(在特定的上下文环境中可互换的同义词的集合)为单位组织信息。Framenet是英文词典,采用称为Frame Semantics的描述框架,提供较强的语义分析能力,目前发展为FramenetII。GUM是面向自然语言处理,支持多语种处理,包括基本概念及独立于各种具体语言的概念组织方式。SENSUS也是面向自然语言处理,为机器翻译提供概念结构,包括7万多个概念。Mikrokmos也是面向自然语言处理,支持多语种处理,采用一种语言中间的中间语言TMR表示知识。
2.语义路径
语义路径是包含本体库中的概念之间的一个或多个关系的序列,其中这些概念是基于语义来抽取的,并且这些关系也是基于语义来建立的。假设本体库中的m个关系可以表示为r’1,r’2......,r’m,概念表示为d1,d2......,dm,r1,...,rm,如果ri和di+1为同一概念,其中i大于等于1且小于m,则可以将序列r’1(d1,r1),r’2(d2,r2)......,r’m(dm,rm)称为概念d1和rm间的一条语义路径。
对于一条语义路径a=r’1(d1,r1),r’2(d2,r2)......,r’m(dm,rm),如果将其称为正向语义路径,则可以将语义路径b=r’q(rm,dq),r’q-1(r q-1,dq-1)......,r’p(rp,d1)称为反向语义路径。
举例而言,对于概念A与概念B之间的语义路径而言,可以将“正向”语义路径认为是从概念A到概念B的语义路径,例如可以记为PAB。此时,如果存在从概念B到概念A的语义路径,例如可以记为PBA,则可以将这条语义路径认为是“正向”语义路径的“反向”语义路径。
本领域技术人员应该可以理解,在本发明的实施例中,“正向”和“反向”语义路径是相对的,而不是必需将某条语义路径限定为“正向”或“反向”。
3.查询语义信息
查询语义信息可以包括:查询中包含的概念,例如可以表示为一个查询概念集合;查询中包含的概念之间的语义路径;以及,查询中包含的概念之间的语义路径的数目。
查询语义信息可以实现为多种形式。例如,可以根据图论理论将查询语义信息表示为具有顶点和边的查询图(graph)的形式,查询图中的顶点可以对应于查询语义信息包含的查询概念集合中的各个概念,查询图中的边可以对应于查询语义信息中的每两个概念之间的语义路径,查询图中的边的权重可以对应于查询语义信息中的每两个概念之间的语义路径的数目。又例如,可以将查询语义信息以文本文件形式进行表示,在文本文件中可以描述查询中包含的概念、该概念之间的语义路径;以及,这些语义路径各自的数目。此外,查询语义信息可以表示为任何其他适当的形式。
4.文档语义信息
在本发明中,文档并不是狭义上的普通文件,而是可以包括文档中的一部分信息、文档本身、描述文档的元数据,等等。
文档语义信息可以包括:文档中包含的概念,例如可以表示为一个查询概念集合;文档中包含的概念之间的语义路径;以及,文档中包含的概念之间的语义路径的数目。
文档语义信息可以实现为多种形式。例如,可以根据图论理论将文档语义信息表示为具有顶点和边的文档图的形式,文档图中的顶点可以对应于文档语义信息包含的文档概念集合中的各个概念,文档图中的边可以对应于文档语义信息中的每两个概念之间的语义路径,文档图中的边的权重可以对应于文档语义信息中的每两个概念之间的语义路径的数目。另外,文档语义信息可以以文本文件形式表示,也可以任何其他适当的形式表示。
5.概念语义相关度
在本发明中,概念语义相关度是指基于概念的语义相关度,其表示从概念方面来说用户输入的查询与文档在语义上的相关度。从查询中抽取的概念集在一定程度上反映了用户的信息需求,从文档抽取的概念集在一定程度上反映了文档的内容,计算查询概念集和文档概念集间相关度适用于衡量用户查询和文档间的匹配程度。
6.关系语义相关度
在本发明中,关系语义相关度是指基于关系的语义相关度,其表示从关系方面来说用户输入的查询与文档这两者在语义上的相关度。关系对于理解用户的查询需求和文档的描述内容是至关重要的。例如,用户输入“篮球”和“美国”两个查询关键词,他实际需要的可能是“篮球在美国的销售情况”或“美国篮球比赛的情况”等等。与此同时,存在两个待排序文档,它们均包含“篮球”和“美国”这两个概念,但一个描述“篮球在美国的生产情况”,另一个描述“美国的篮球比赛”,那么对于确定上述两个文档中的哪个与查询更相关的问题,需要抽取用户查询和文档中的潜在语义关系,并计算这两个关系集合相关度,以进一步衡量用户查询和文档是否匹配。本发明通过计算文档描述的语义关系满足用户的语义关系需求的概率,以获取查询和文档间的关系语义相关度。
图1是按照本发明的一个实施例的对文档排序的方法的流程图。
在步骤S101,根据用户的查询和本体库,抽取查询语义信息。
在本发明中,查询语义信息可以包括从用户输入的查询所抽取出的概念以及这些概念之间的语义路径。在本发明的实施例中,步骤S101的抽取查询语义信息的过程可以实现为:根据本体库提取用户的查询所包括的查询概念集合;根据本体库得到所述查询概念集合中的每两个概念之间的语义路径;以及根据查询概念集合中的每两个概念之间的语义路径,确定该每两个概念之间的语义路径数目。
因此,通过步骤S101可以确定用户的查询包含哪些概念,并且可以得到这些概念之间具有哪些语义路径,以及每两个概念之间的语义路径的数目。
在本发明的实施例中,可以通过多种方式对得到的查询概念集合中的每两个概念之间的语义路径的数目进行优化。在一个实施例中,可以通过确定每两个概念之间的正向语义路径集合和反向语义路径集合,来去除重复计数的正向语义路径和反向语义路径,从而得到每两个概念之间的语义路径数目。在另一个实施例中,还可以通过去除正向语义路径集合和/或中的冗余路径,来优化正向语义路径集合和/或反向语义路径集合,从而优化所得到的每两个概念之间的语义路径数目。在又一个实施例中,还可以通过去除对于根据正向语义路径集合与反向语义路径集合所确定出的互逆路径对的计数,来优化所得到的每两个概念之间的语义路径数目。
在步骤S102,根据文档、查询和本体库,抽取文档语义信息。
在本发明中,文档语义信息可以包括从要进行排序的文档中所抽取出的概念以及这些概念之间的语义路径。在本发明的一个实施例中,步骤S102的抽取文档语义信息的过程可以有多种实现,例如:
根据本体库提取文档包括的概念集合和查询包括的概念集合;根据文档包括的概念集合和查询包括的概念集合的交集,得到文档概念集合;根据文档得到文档概念集合中的每两个概念之间的语义路径;以及根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目。
也可预先抽取出文档中的所有概念,并获得所有概念间的语义路径。当接收到查询时获取查询概念集,并将其与文档中的概念进行匹配以获取对应的文档语义信息。因此,通过步骤S102可以确定要进行排序的多个文档中的每个文档都分别包含哪些概念,并且可以得到这些概念之间具有哪些语义路径,以及每两个概念之间的语义路径的数目。
在本发明的实施例中,可以通过多种方式对得到的文档概念集合中的每两个概念之间的语义路径的数目进行优化。在一个实施例中,可以通过确定每两个概念之间的正向语义路径集合和反向语义路径集合,来去除重复计数的正向语义路径和反向语义路径,从而得到每两个概念之间的语义路径数目。在另一个实施例中,还可以通过去除正向语义路径集合和/或中的冗余路径,来优化正向语义路径集合和/或反向语义路径集合,从而优化所得到的每两个概念之间的语义路径数目。在又一个实施例中,还可以通过去除对于根据正向语义路径集合与反向语义路径集合所确定出的互逆路径对的计数,来优化所得到的每两个概念之间的语义路径数目。
应该注意的是,步骤S101与S102不需要一定按照先后顺序进行。在本发明的其他实施例中,可以先执行步骤S102、后执行步骤S101,也可以同时执行步骤S101和S102。图1的实施例示出的步骤S101和S102的执行顺序并不不是对本发明的限定,而仅仅是示例性说明。
在步骤S103,确定文档语义信息和查询语义信息的关系语义相关度。
在本发明的一个实施例中,可以通过获取文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目,来基于这些语义路径的数目确定文档语义信息和查询语义信息的关系语义相关度。图3至图5示出了根据本发明的用于确定文档语义信息和查询语义信息的关系语义相关度的三个示例性实施例,具体将在下文描述。
在步骤S104,基于关系语义相关度,对文档进行排序。
步骤S104可以通过多种方式完成。
在一个实施例中,可以直接将针对每个文档得到的关系语义相关度按照从大到小的顺序或者任何其他适当的顺序来进行排列,从而实现对文档的排序。
在另一个实施例中,可以获取文档与查询的概念语义相关度;基于关系相关度和概念相关度确定文档的分数,然后,按照文档的分数大小对文档进行排序。
在另一个实施例中,可以获取文档与查询的概念语义相关度;根据概念相关度对文档排序;对排序后的文档进行分组;然后,再根据关系相关度对每组文档中的各个文档进行排序。
然后,图1的流程结束。
应该理解的是,本发明的根据文档、查询和本体库来抽取文档语义信息的过程可以通过多种具体实现方式来完成。
在本发明的一个例子中,可以通过用户的查询对文档语义信息的抽取进行触发,继而开始以下处理:根据本体库提取文档包括的概念集合和查询包括的概念集合;根据文档包括的概念集合和查询包括的概念集合的交集,得到文档概念集合;根据文档得到文档概念集合中的每两个概念之间的语义路径;以及根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目。该例子可以作为对查询的在线处理实现。
在本发明的另一个例子中,可以在没有接收到用户查询时(例如离线状态下)完成对文档的预处理,或者可以在处理其他查询时在后台完成对文档的预处理。这样,可以预先根据本体库提取文档中包含的概念和这些概念之间的语义路径,并可以将这些预先提取的概念和语义路径存储在数据库或者存储器中。当用户进行查询时,可以从该数据库或者存储器中查找该文档所包含的概念集合与查询包括的概念集合的交集并根据该交集得到文档概念集合;然后,可以根据数据库或者存储器中存储的语义路径得到文档概念集合中的每两个概念之间的语义路径和确定语义路径数目。该例子可以作为为对查询的离线处理实现。
图2是按照本发明的另一实施例的对文档排序的方法的流程图。
在步骤S201,根据本体库提取用户的查询包括的查询概念集合。
在该步骤中,首先可以接收用户输入的查询内容,例如,用户可能输入“美国篮球”来进行查询以便得到希望查看的文档。在本发明中,文档例如可以是网页、纯文本文件、PDF文件、WORD文件、Powerpoint文件、Excel文件等等,也可以是本领域技术人员可以获得的任何其他文件。
可以通过多种方式来基于本体库确定用户的查询中包含哪些概念。目前已经存在多种方法可以从文本中提取概念,例如“Unsupervised information extraction from unstructured,ungrammatical data sources on the World Wide Web”,InternationalJournal on Document Analysis and Recognition,2007,vol.10,NO.3-4,page 211-226中的概念识别方法;“Efficiently linking text documentswith relevant structured information”,In Proceeding of VLDB2006中的概念识别方法;“Graph-Based Concept Identification andDisambiguation for Enterprise Search”,In Proceeding of WWW2010中的概念识别方法,等等。
假设在本实施例中,可以确定用户输入的查询“美国篮球”中包含的概念是“美国”和“篮球”,从而在步骤S201可以确定查询概念集合为{“美国”,“篮球”}。
在步骤S202,根据本体库,得到查询概念集合中的每两个概念之间的语义路径。
在本体库中,存在很多已知概念以及这些概念之间的语义路径。因此,通过在本体库中查找查询概念集合中的概念“美国”和“篮球”,可以确定本体库中“美国”和“篮球”这两个概念之间存在哪些语义路径。例如,假设存在3条语义路径<produce(美国,篮球)>,<sell(美国,篮球)>,<hold(美国,篮球赛),use(篮球赛,篮球)>,<produce_in(篮球,美国)>。
在步骤S203,根据查询概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目,以得到查询语义信息。
在根据本发明的一个实施例中,可以根据查询概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合,然后可以根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径数目。举例而言,针对包含“美国”和“篮球”这两个概念的查询概念集合,可以根据步骤S202得到的这两个概念之间的语义路径,来查找出从概念“美国”到概念“篮球”的语义路径,从而得到“美国”和“篮球”这两个概念之间的正向语义路径集合。同样,可以根据步骤S202得到的这两个概念之间的语义路径,来查找出从概念“篮球”到概念“美国”的语义路径,从而得到“美国”和“篮球”这两个概念之间的反向语义路径集合。然后,可以将正向语义路径集合的成员数目与反向语义路径集合的成员数目求和,并将这两个数目之和作为概念“美国”和“篮球”之间的语义路径数目。
在根据本发明的另一个实施例中,可以在根据查询概念集合中的每两个概念之间的语义路径确定每两个概念之间的正向语义路径集合和反向语义路径集合之外,去除正向语义路径集合中的冗余路径以优化正向语义路径集合,去除反向语义路径集合中的冗余路径以优化反向语义路径集合,然后可以根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目来得到每两个概念之间的语义路径数目。举例而言,针对包含“美国”和“篮球”这两个概念的查询概念集合,可以根据步骤S202得到的这两个概念之间的语义路径,来查找出从概念“美国”和“篮球”的正向语义路径集合和反向语义路径集合;然后,可以在正向语义路径集合中查找冗余路径和/或可以在反向语义路径集合中查找冗余路径;通过去除正向语义路径集合中的冗余路径和/或去除反向语义路径集合中的冗余路径,可以分别实现对正向语义路径集合和/或反向语义路径集合的优化;随后,可以将优化后的正向语义路径集合的成员数目与优化后的反向语义路径集合的成员数目求和,并将这两个数目之和作为概念“美国”和“篮球”之间的语义路径数目。
在本发明中,如果rm(C1,C2)Λrn(C2,C3)→rp(C1,C3),其中C1、C2和C3是三个概念,r1、...rm、...rn、...rp、...rq表示概念之间的关系,符号“Λ”表示“与”关系,则可以认为概念C1与C3之间的语义路径r1...rmrn...rq相对于另一语义路径r1...rp...rq而言是冗余路径。
在根据本发明的另一个实施例中,可以在根据查询概念集合中的每两个概念之间的语义路径确定每两个概念之间的正向语义路径集合和反向语义路径集合之外,根据正向语义路径集合与反向语义路径集合确定互逆路径对,并根据正向语义路径集合的成员数目、反向语义路径集合的成员数目以及互逆路径对的数目,得到每两个概念之间的语义路径数目。举例而言,针对包含“美国”和“篮球”这两个概念的查询概念集合,可以根据步骤S202得到的这两个概念之间的语义路径,来查找出从概念“美国”和“篮球”的正向语义路径集合和反向语义路径集合;然后,可以根据正向语义路径集合与反向语义路径集合确定互逆路径对;随后,可以用正向语义路径集合的成员数目与反向语义路径集合的成员数目之和减去互逆路径对的数目,作为概念“美国”和“篮球”之间的语义路径数目。
在本发明中,如果概念Ci、Cj间的正向语义路径集合表示为Sij,反向语义路径集合表示为Sji,路径l1是正向语义路径集合Sij的成员,也即l1∈Sij,且l1=r1(C1,C2),...,rm(C2m-1,C2m),路径l2是反向语义路径集合Sji的成员,也即l2∈Sji,且l2=rm -1(C2m,C2m-1),...,r1 -1(C2,C1),其中,r-1为r的逆关系,则(l1,l2)是互逆路径对。
根据用户的查询所包括的查询概念集合、该查询概念集合中的每两个概念之间的语义路径及其数目,可以构建查询语义信息。如前所述,查询语义信息可以实现为多种形式。例如,可以根据图论理论将查询语义信息表示为查询图的形式,查询图中的顶点可以对应于查询语义信息包含的查询概念集合中的各个概念,查询图中的边可以对应于查询语义信息中的每两个概念之间的语义路径,查询图中的边的权重可以对应于查询语义信息中的每两个概念之间的语义路径的数目。又例如,可以将查询语义信息以文本文件形式进行表示。此外,本领域的技术人员完全可以理解,查询语义信息可以表示为多种其他适当的形式,而不限于在此仅作为示例的查询图或者文本文件。
在步骤S204,根据本体库,提取文档包括的概念集合和查询包括的概念集合。
在本发明中,文档例如可以是网页、纯文本文件、PDF文件、WORD文件、Powerpoint文件、Excel文件等等,也可以是本领域技术人员可以获得的任何其他文件。
如前所述,可以通过多种方式来基于本体库确定用户的查询中包含哪些概念,从而可以提取查询包括的概念集合。类似地,可以通过多种方式来基于本体库确定文档中包含的概念,从而可以提取文档包括的概念集合。
应该注意的是,步骤S204的提取文档包括的概念集合和提取查询包括的概念集合可以同时完成或者连续完成,但这仅仅是示例性的,并不是必需如此。
在根据本发明的一个例子中,可以在接收到用户的查询之前提取文档包括的概念集合,也即对文档进行预处理。同时,可以将对文档预处理后得到的概念和概念之间的语义路径存储在数据库或存储器中。然后,当接收到用户的查询时再根据本体库提取查询包括的概念集合,并可以根据对文档预处理后得到的概念和概念之间的语义路径和用户的查询来得到文档概念集合。
在步骤S205,根据文档包括的概念集合和查询包括的概念集合的交集,得到文档概念集合。
在本发明中,文档概念集合与查询概念集合的获取方法不是完全相同的。步骤S201得到的查询概念集合是根据本体库而从用户的查询中直接提取的。在步骤S205中得到的文档概念集合与查询概念集合所包含的概念相同,但这些概念可以分为虚拟概念和一般概念。
根据本体库而从文档提取的概念集合与查询概念集合(即,查询包括的概念集合)这两者的交集得到的概念是一般概念。例如,假设在步骤S204中根据本体库提取的文档包括的概念集合为{“篮球”,“商店”,“比赛”},而根据本体库提取的查询包括的概念集合为{“美国”,“篮球”},则可以确定文档包括的概念集合和查询包括的概念集合的交集为{“篮球”},“篮球”即前述的一般概念。
由于在步骤S204中根据本体库从文档提取的概念并不包含“美国”这一概念,因此在本发明中,当将文档概念集合确定为包含概念“美国”和“篮球”时,可以将文档概念集合{“美国”,“篮球”}中的“美国”认为是虚拟概念,在后续确定文档概念集合中的概念之间的语义路径时,将虚拟概念与一般概念之间的语义路径的数目全部设为0。
在步骤S206,根据文档,得到文档概念集合中的每两个概念之间的语义路径。
与步骤S202不同的是,步骤S206确定文档概念集合中的每两个概念之间的语义路径的基础是该文档,而不是根据本体库。这样,可以更充分地表征该文档自身的特征和属性,从而有利于确定文档与查询的匹配程度。
在步骤S207,根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目,以得到文档语义信息。
在根据本发明的一个实施例中,可以根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合,然后可以根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径数目。
在根据本发明的另一个实施例中,可以在根据文档概念集合中的每两个概念之间的语义路径确定每两个概念之间的正向语义路径集合和反向语义路径集合之外,去除正向语义路径集合中的冗余路径以优化正向语义路径集合,去除反向语义路径集合中的冗余路径以优化反向语义路径集合,然后可以根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目来得到每两个概念之间的语义路径数目。在该实施例中,“冗余路径”的定义与步骤S203中的相同。
在根据本发明的另一个实施例中,可以在根据文档概念集合中的每两个概念之间的语义路径确定每两个概念之间的正向语义路径集合和反向语义路径集合之外,根据正向语义路径集合与反向语义路径集合确定互逆路径对,并根据正向语义路径集合的成员数目、反向语义路径集合的成员数目以及互逆路径对的数目,得到每两个概念之间的语义路径数目。在该实施例中,“互逆路径对”的定义与步骤S203中的相同。
在以上实施例中,应该注意的是,由于在确定正向语义路径集合和反向语义路径集合中的语义路径的数目时,将虚拟概念与一般概念之间的语义路径的数目全部设为0。
根据用户的文档所包括的文档概念集合、该文档概念集合中的每两个概念之间的语义路径及其数目,可以构建文档语义信息。如前所述,文档语义信息可以实现为多种形式。例如,可以根据图论理论将文档语义信息表示为文档图的形式,文档图中的顶点可以对应于文档语义信息包含的文档概念集合中的各个概念,文档图中的边可以对应于文档语义信息中的每两个概念之间的语义路径,文档图中的边的权重可以对应于文档语义信息中的每两个概念之间的语义路径的数目。又例如,可以将文档语义信息以文本文件形式进行表示。此外,本领域的技术人员完全可以理解,文档语义信息可以表示为多种其他适当的形式,而不限于在此仅作为示例的文档图或者文本文件。
在步骤S208,获取文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目。
在步骤S209,基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目,确定文档语义信息和查询语义信息的关系语义相关度。
可以采用多种方法实现步骤S209。图3至图5分别描述了按照本发明的一个实施例的基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目确定文档语义信息和查询语义信息的关系语义相关度的方法。
图3是按照本发明的一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图。
在步骤S301,计算文档语义信息中的语义路径的数目之和,作为文档数目。在此步骤中,可以首先获取文档语义信息中每两个概念之间的语义路径的数目,然后对这数目进行求和。在本发明的其他实施例中,可以对求和后的数目进行优化,例如从求和后的数目中减去冗余路径的数目和/或减去互逆路径对的数目。
在步骤S302,计算查询语义信息中的语义路径的数目之和,作为查询数目。在此步骤中,可以首先获取查询语义信息中每两个概念之间的语义路径的数目,然后对这数目进行求和。在本发明的其他实施例中,可以对求和后的数目进行优化,例如从求和后的数目中减去冗余路径的数目和/或减去互逆路径对的数目。
在步骤S303,将文档数目与查询数目的比值确定为文档语义信息和查询语义信息关系语义相关度。然后,图3的流程结束。
图4是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图。
在步骤S401,获取查询语义信息中所包含的概念集合。
在根据本发明的一个实施例中,假设查询语义信息中所包含的概念集合为{“美国”,“篮球”,“比赛”}。根据本发明,文档语义信息中所包含的概念集合与查询语义信息中所包含的概念集合相同,不同的是文档语义信息中所包含的概念集合可能包括虚拟概念和/或一般概念,例如:全部概念都为一般概念,或者全部概念都为虚拟概念,或者既包含一般概念也包含虚拟概念。
在步骤S402,根据文档语义信息,确定概念集合中的每两个概念之间的文档语义路径数目。
在确定概念集合中的每两个概念之间语义路径的数目时,需要考虑是否存在虚拟概念。如果确定两个概念之间的语义路径的过程中这两个概念中的至少一个是虚拟概念,则这两个概念之间的语义路径的数目为0。
另外,还应该注意的是,在确定概念集合中的每两个概念之间的文档语义路径数目时,基于的是文档语义信息而不是本体库。
在步骤S403,根据查询语义信息,确定概念集合中的每两个概念之间的查询语义路径数目。
应该注意的是,在确定概念集合中的每两个概念之间的查询语义路径数目时,基于的是查询语义信息而不是本体库。
在步骤S404,计算每两个概念之间的文档语义路径数目与查询语义路径数目的比值。
在步骤S405,将比值的乘积确定为文档语义信息和查询语义信息的关系语义相关度。
例如,假设每两个概念之间的文档语义路径数目表示为λi,每两个概念之间的查询语义路径数目表示为ηi,其中i是1至K中的任意一个数,K表示概念集合中所有概念两两组合的数目。文档语义信息和查询语义信息的关系语义相关度ScoreR可以表示为:
Score R = &Pi; i = 1 K &lambda; i &eta; i . - - - ( 1 )
然后,图4的流程结束。
图5是按照本发明的另一个实施例的确定文档语义信息和查询语义信息的关系语义相关度的方法的流程图。
在步骤S501,根据文档语义信息,确定文档生成树集合。
如前所述,根据图论理论,文档语义信息可以表示为文档图的形式。根据图论领域的公知常识,可以将文档图分解为若干生成树(spanning tree),其中每个生成树各不相同并且都不具有闭合回路。从文档图分解出的这些生成树可以构成文档生成树集合。
在步骤S502,根据查询语义信息,确定查询生成树集合。
与步骤S501相似,根据图论理论,查询语义信息也可以表示为查询图的形式,并可以将查询图分解为若干生成树,其中每个生成树各不相同并且都不具有闭合回路。从查询图分解出的这些生成树可以构成查询生成树集合。
在步骤S503,基于文档语义信息中的语义路径的数目,计算文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目。
在步骤S504,基于查询语义信息中的语义路径的数目,计算查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目。
在步骤S505,根据文档语义关系的所有组合数目以及查询语义关系的所有组合数目,确定每个生成树对的语义关联分数。
生成树对是查询生成树集合中的一个查询生成树与文档生成树集合中的一个对应的生成树构成的一对生成树。这一对生成树一一对应。
假设每个文档生成树的每两个顶点(例如,对应概念)之间的边的权重(例如,对应文档语义路径数目)为λ1,λ2,......,λK,并假设每个查询生成树的每两个顶点(例如,对应概念)之间的边的权重(例如,对应查询语义路径数目)为η1,η2,......,ηK,其中K表示概念集合中所有概念两两组合的数目,则每个生成树对的语义关联分数Scoretree可以表示为:
Score tree = &Sigma; i = 1 &lambda; 1 &Sigma; j = 1 &lambda; 2 . . . &Sigma; m = 1 &lambda; k C &lambda; 1 i * C &lambda; 2 j * . . . * C &lambda; k m &Sigma; i = 1 &eta; 1 &Sigma; j = 1 &eta; 2 . . . &Sigma; m = 1 &eta; k C &eta; 1 i * C &eta; 2 j * . . . * C &eta; k m . - - - ( 2 )
在式(2)中,分子表示根据步骤S504得到的文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目,分母表示根据步骤S505得到的查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目。
在步骤S506,将生成树对的语义关联分数的均值确定为文档语义信息和查询语义信息的关系语义相关度。
例如文档语义信息和查询语义信息的关系语义相关度ScoreR可以通过下式计算:
ScoreR=Mean(Scoretree)。                                    (3)
其中“Mean(x)”表示求x的均值。在式(3)中,Mean(Scoretree)表示求各个生成树对的语义关联分数Scoretree的均值。应该理解的是,这里的均值可以是算术平均值,也可以是加权平均值,还可以是本领域技术人员可以使用的任何其他形式的均值。
然后,图5的流程结束。
在本发明的一个实施方式中,由于可以预先获取文档中所有概念之间的文档语义信息,形成文档语义信息集。因此,可以在接收到查询后,获取查询中的概念并形成查询概念集。然后通过查询概念集与文档语义信息集进行匹配,以获取文档语义信息子集。该文档语义信息子集中包括文档语义信息集中的所有与查询概念集中概念匹配的概念的文档语义信息。
然后获取所述文档语义信息子集中的语义路径的数目和所述查询语义信息中的语义路径的数目。并基于所述文档语义信息子集中的语义路径的数目和所述查询语义信息中的语义路径的数目,确定所述文档语义信息和所述查询语义信息的关系语义相关度。
在步骤S210,获取文档与查询的概念语义相关度。
概念语义相关度是指在概念上来说文档与查询的语义相关度。存在多种计算概念语义相关度的方法。
例如,可以基于矢量空间模型来计算概念语义相关度(记为ScoreC)。在该方法中,首先,基于查询概念集(记为Sq)和语义相似度计算模型(例如,“改进的语义相似度计算模型及应用”,吉林大学学报,vol.39,no.1,2009,或者“Using information content toevaluate semantic similarity in a taxonomy”,In IJCAI’95)构建一个n维查询矢量q=(q1,...,qn),其中n为本体中的概念总数,每个概念与矢量q中的一个分量对应。在设置矢量q中的分量的值时,若该分量对应概念Ci(i=1,2,...,n)出现在Sq中,则该分量值为1;否则,将该分量值设定为Ci与Sq中的目标概念间的语义相似度。
其次,为每个文档构建一个n维文档矢量d=(d1,...,dn),di(i=1,2,...,n)反应了概念Ci与文档的相关性,其值可基于概念Ci在文档中的出现频率由TF-IDF算法(”Introduction to ModernInformation Retrieval”,McGraw-Hill,1983)求得,
Figure BSA00000468297900191
其中,freqi,d为概念Ci在文档中的出现频率,
Figure BSA00000468297900192
为文档中出现频率最高的概念的频率值,ni为Ci标记的文档总数,D为检索空间中的文档集合。
最后,可以根据式(4)利用查询矢量q和文档矢量d来计算概念语义相关度ScoreC
Score C = d &times; q | d | &times; | q | . - - - ( 4 )
又例如,可以根据“Categorizing and Ranking Search Engine’sResults by Semantic Similarity”In Proceeding of ICUIMC’08,给出的方法来计算概念语义相关度。该方法从查询中获得一个查询概念集Sq,从文档中获得一个文档概念集Sd,接着计算Sq与Sd中每对概念间的语义相似度,最后将这些求取的相似度值取均值,即得到概念语义相关度ScoreC
应该注意的是,本领域技术人员可以根据已有的其他方法来获取概念语义相关度。以上所述的概念语义相关度获取方法仅仅是示例性的,而不是限制性的。
概念语义相关度可以是预先计算的,并可以存储在本发明的对文档排序的设备可访问的存储设备中。存储设备例如可以是诸如固态盘、磁盘、光盘或软盘之类的本地存储器、可移动存储器或者可经由因特网或其他计算机网络进行下载的存储器。
概念语义相关度也可以是在本发明的实施例的执行过程中(例如在步骤S210)实时计算的。另外,本领域技术人员也可以根据现有的技术条件和技术手段使用任何其他适当的方式获取文档与查询的概念语义相关度,而不限于本文所公开的具体示例。
在步骤S211,基于关系相关度和概念相关度确定文档的分数。
假设在根据本发明的一个实施例中,将关系相关度记为ScoreC,并将概念相关度记为ScoreR。可以利用概念权重(记为λC)和关系权重(记为λR)对关系相关度和概念相关度分别进行加权,其中关系权重λR和概念权重λC的取值均在0至1的区间内,并且关系权重λR与概念权重λC之和为1。通过对加权后的关系相关度和加权后的概念相关度求和可以得到文档的分数,下式描述了该实施例中的文档分数(记为Scored)确定方法:
Scored=λC·ScoreCR·ScoreR                  (5)
在式(5)中,λR∈[0,1],λC∈[0,1],并且λCR=1。
由于关系权重λR与概念权重λC之和为1,因此式(5)可以简化为:
Scored=λ·ScoreC+(1-λ)·ScoreR                (6)
在式(6)中,λ∈[0,1]。
在步骤S212,按照文档的分数大小对文档进行排序。
由于在完成步骤S211后,可以得到需要排序的文档的相应分数,例如需要进行排序的文档是10个,则可以从步骤S211得到10个文档分数。然后在步骤S212可以将这10个文档按照这10个文档分数进行从大到小的顺序、从小到大的顺序或者本领域技术人员自定义的顺序来排序。这10个文档的分数可以表示在概念和关系两方面来说文档与用户输入的查询的语义相关性大小,其中文档的分数越高,则表示该文档与用户的查询的语义相关性越大,反之则表示该文档与用户的查询的语义相关性越小。
在本发明的另一个实施例中,可以将步骤S211和S212替换为以下实施方式:根据概念相关度对文档排序;对排序后的文档进行分组;然后,再根据关系相关度对每组文档中的各个文档进行排序。例如,假设一共存在10个文档需要进行排序,则可以首先根据这10个文档的概念相关度ScoreC来将这10个文档进行粗粒度排序;然后可以将排序后的10个文档划分为若干组,例如当分为2组时每组文档为5个,其中第一组文档的概念相关度全部大于第二组文档的概念相关度;之后,可以对第一组文档中的5个文档按照它们各自的关系相关度分别进行细粒度排序,从而在第一组的5个文档原来顺序的基础上进一步调整这个5个文档的顺序;同样地,可以对第二组文档中的5个文档按照它们各自的关系相关度分别进行细粒度排序。这样,可以得到这10个文档的一种排序形式,这种排序同样考虑了查询与文档之间的概念相关度和关系相关度,也可以表示在概念和关系两方面来说文档与用户输入的查询的语义相关性大小。
然后,图2的流程结束。
图6是按照本发明的一个实施例的对文档排序的设备600的方框图。该设备600可以包括:查询语义信息抽取装置601、文档语义信息抽取装置602、关系语义相关度确定装置603以及排序装置604。查询语义信息抽取装置601可以配置为根据用户的查询和本体库,抽取查询语义信息。文档语义信息抽取装置602可以配置为根据文档、查询和本体库,抽取文档语义信息。关系语义相关度确定装置603可以配置为文档语义信息和查询语义信息的关系语义相关度。排序装置604可以配置为基于关系语义相关度,对文档进行排序。
在根据本发明的一个实施例中,查询语义信息抽取装置601可以包括:用于根据本体库,提取用户的查询所包括的查询概念集合的装置;用于根据本体库,得到查询概念集合中的每两个概念之间的语义路径的装置;以及用于根据查询概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目的装置。
在根据本发明的一个实施例中,用于根据查询概念集合中的每两个概念之间的语义路径确定每两个概念之间的语义路径数目的装置可以包括:用于根据查询概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的另一个实施例中,用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径的数目的装置可以包括:用于去除正向语义路径集合中的冗余路径,以优化正向语义路径集合的装置;用于去除反向语义路径集合中的冗余路径,以优化反向语义路径集合的装置;以及用于根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的另一个实施例中,用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径数目的装置可以包括:用于根据正向语义路径集合与反向语义路径集合确定互逆路径对的装置;以及用于根据正向语义路径集合的成员数目、反向语义路径集合的成员数目以及互逆路径对的数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的一个实施例中,其中文档语义信息抽取装置602可以包括:用于根据本体库,提取文档包括的概念集合和查询包括的概念集合的装置;用于根据文档包括的概念集合和查询包括的概念集合的交集,得到文档概念集合的装置;用于根据文档,得到文档概念集合中的每两个概念之间的语义路径的装置;以及用于根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的语义路径数目的装置。
在根据本发明的另一个实施例中,用于根据文档概念集合中的每两个概念之间的语义路径确定每两个概念之间的语义路径数目的装置可以包括:用于根据文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的另一个实施例中,用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径的数目的装置可以包括:用于去除正向语义路径集合中的冗余路径,以优化正向语义路径集合的装置;用于去除反向语义路径集合中的冗余路径,以优化反向语义路径集合的装置;以及用于根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的另一个实施例中,用于根据正向语义路径集合的成员数目以及反向语义路径集合的成员数目得到每两个概念之间的语义路径数目的装置可以包括:用于根据正向语义路径集合与反向语义路径集合确定互逆路径对的装置;以及用于根据正向语义路径集合的成员数目、反向语义路径集合的成员数目以及互逆路径对的数目,得到每两个概念之间的语义路径数目的装置。
在根据本发明的一个实施例中,关系语义相关度确定装置603可以包括:用于获取文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目的装置;以及用于基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目,确定文档语义信息和查询语义信息的关系语义相关度的装置。
在根据本发明的另一个实施例中,用于基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目确定文档语义信息和查询语义信息的关系语义相关度的装置可以包括:用于计算文档语义信息中的语义路径的数目之和,作为文档数目的装置;用于计算查询语义信息中的语义路径的数目之和,作为查询数目的装置;以及用于将文档数目与查询数目的比值确定为文档语义信息和查询语义信息关系语义相关度的装置。
在根据本发明的另一个实施例中,用于基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目确定文档语义信息和查询语义信息的关系语义相关度的装置可以包括:用于获取查询语义信息中所包含的概念集合的装置;用于根据文档语义信息,确定概念集合中的每两个概念之间的文档语义路径数目的装置;用于根据查询语义信息,确定概念集合中的每两个概念之间的查询语义路径数目的装置;用于计算每两个概念之间的文档语义路径数目与查询语义路径数目的比值的装置;以及用于将比值的乘积确定为文档语义信息和查询语义信息的关系语义相关度的装置。
在根据本发明的另一个实施例中,用于基于文档语义信息中的语义路径的数目和查询语义信息中的语义路径的数目确定文档语义信息和查询语义信息的关系语义相关度的装置可以包括:用于根据文档语义信息,确定文档生成树集合的装置;用于根据查询语义信息,确定查询生成树集合的装置,查询生成树集合中的成员与文档生成树集合中的成员一一对应,形成多个生成树对;用于基于文档语义信息中的语义路径的数目,计算文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目的装置;用于基于查询语义信息中的语义路径的数目,计算查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目的装置;用于根据文档语义关系的所有组合数目以及查询语义关系的所有组合数目,确定每个生成树对的语义关联分数的装置;以及用于将生成树对的语义关联分数的均值确定为文档语义信息和查询语义信息的关系语义相关度的装置。
在根据本发明的一个实施例中,排序装置604可以包括:用于获取文档与查询的概念语义相关度的装置;用于基于关系相关度和概念相关度确定文档的分数的装置;以及用于按照文档的分数大小对文档进行排序的装置。
在根据本发明的另一个实施例中,用于基于关系相关度和概念相关度确定文档的分数的装置可以包括:用于利用关系权重和概念权重对关系相关度和概念相关度分别进行加权的装置,其中关系权重和概念权重的取值均在0至1的区间内,关系权重与概念权重之和为1;以及用于对加权后的关系相关度和加权后的概念相关度求和,得到文档的分数的装置。
在根据本发明的一个实施例中,排序装置604可以包括:用于获取文档与查询的概念语义相关度的装置;用于根据概念相关度对文档排序的装置;用于对排序后的文档进行分组的装置;以及用于根据关系相关度对每组文档中的各个文档进行排序的装置。
本发明还涉及一种计算机程序产品,该计算机程序产品包括用于执行如下的代码:根据用户的查询和本体库,抽取查询语义信息;根据文档、查询和本体库,抽取文档语义信息;确定文档语义信息和查询语义信息的关系语义相关度;以及基于关系语义相关度,对文档进行排序。在使用之前,可以把代码存储在其他计算机***的存储器中,例如,存储在硬盘或诸如光盘或软盘的可移动的存储器中,或者经由因特网或其他计算机网络进行下载。
本发明的实施方式所公开的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器、个人计算机(PC)或大型机执行。在优选实施方式中本发明实现为软件,其包括但不限于固件、驻留软件、微代码等。而且,本发明的实施方式还可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,这些介质提供程序代码以供计算机或任何指令执行***使用或与其结合使用。出于描述目的,计算机可用或计算机可读机制可以是任何有形的装置,其可以包含、存储、通信、传播或传输程序以由指令执行***、装置或设备使用或与其结合使用。
介质可以是电的、磁的、光的、电磁的、红外线的、或半导体的***(或装置)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可移动计算机磁盘、随机访问存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。目前光盘的例子包括紧凑盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。
适合于存储/或执行根据本发明的实施方式的程序代码的***将包括至少一个处理器,其直接地或通过***总线间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间所利用的本地存储器、大容量存储器、以及提供至少一部分程序代码的临时存储以便减少执行期间从大容量存储器必须取回代码的次数的高速缓存存储器。
输入/输出或I/O设备(包括但不限于键盘、显示器、指点设备等等)可以直接地或通过中间I/O控制器耦合到***。网络适配器也可以耦合到***,以使得***能够通过中间的私有或公共网络而耦合到其他***或远程打印机或存储设备。调制解调器、线缆调制解调器以及以太网卡仅仅是当前可用的网络适配器类型的几个例子。说明书中提及的通信网络可以包括各类网络,包括但不限于局域网(“LAN”),广域网(“WAN”),根据IP协议的网络(例如,因特网)以及端对端网络(例如,ad hoc对等网络)。
应当注意,为了使本发明的实施方式更容易理解,上面的描述省略了对于本领域的技术人员来说是公知的、并且对于本发明的实施方式的实现可能是必需的更具体的一些技术细节。提供本发明的说明书是为了说明和描述,而不是用来穷举或将本发明限制为所公开的形式。对本领域的普通技术人员而言,许多修改和变更都是可以的。
因此,选择并描述实施方式是为了更好地解释本发明的原理及其实际应用,并使本领域普通技术人员明白,在不脱离本发明实质的前提下,所有修改和变更均落入由权利要求所限定的本发明的保护范围之内。

Claims (28)

1.一种对文档排序的方法,包括:
根据用户的查询和本体库,抽取查询语义信息;
根据文档、所述查询和所述本体库,抽取文档语义信息;
确定所述文档语义信息和所述查询语义信息的关系语义相关度;以及
基于所述关系语义相关度,对所述文档进行排序。
2.根据权利要求1的方法,其中根据用户的查询和本体库抽取查询语义信息包括:
根据本体库,提取用户的查询所包括的查询概念集合;
根据所述本体库,得到所述查询概念集合中的每两个概念之间的语义路径;以及
根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目。
3.根据权利要求2的方法,其中根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目包括:
根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合;以及
根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
4.根据权利要求1的方法,其中根据文档、所述查询和所述本体库抽取文档语义信息包括:
根据所述本体库,提取文档包括的概念集合和所述查询包括的概念集合;
根据所述文档包括的概念集合和所述查询包括的概念集合的交集,得到文档概念集合;
根据所述文档,得到所述文档概念集合中的每两个概念之间的语义路径;以及
根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目。
5.根据权利要求4的方法,其中根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目包括:
根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合;以及
根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
6.根据权利要求3或5的方法,其中根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目包括:
去除所述正向语义路径集合中的冗余路径,以优化所述正向语义路径集合;
去除所述反向语义路径集合中的冗余路径,以优化所述反向语义路径集合;以及
根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目。
7.根据权利要求3或5的方法,其中根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目包括:
根据所述正向语义路径集合与所述反向语义路径集合确定互逆路径对;以及
根据所述正向语义路径集合的成员数目、所述反向语义路径集合的成员数目以及所述互逆路径对的数目,得到所述每两个概念之间的语义路径数目。
8.根据权利要求1的方法,其中确定所述文档语义信息和所述查询语义信息的关系语义相关度包括:
获取所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目;以及
基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目,确定所述文档语义信息和所述查询语义信息的关系语义相关度。
9.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括:
计算所述文档语义信息中的语义路径的数目之和,作为文档数目;
计算所述查询语义信息中的语义路径的数目之和,作为查询数目;以及
将所述文档数目与所述查询数目的比值确定为所述文档语义信息和所述查询语义信息关系语义相关度。
10.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括:
获取查询语义信息中所包含的概念集合;
根据所述文档语义信息,确定所述概念集合中的每两个概念之间的文档语义路径数目;
根据所述查询语义信息,确定所述概念集合中的每两个概念之间的查询语义路径数目;
计算所述每两个概念之间的文档语义路径数目与查询语义路径数目的比值;以及
将所述比值的乘积确定为所述文档语义信息和所述查询语义信息的关系语义相关度。
11.根据权利要求8的方法,其中基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度包括:
根据所述文档语义信息,确定文档生成树集合;
根据所述查询语义信息,确定查询生成树集合,所述查询生成树集合中的成员与所述文档生成树集合中的成员一一对应,形成多个生成树对;
基于所述文档语义信息中的语义路径的数目,计算所述文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目;
基于所述查询语义信息中的语义路径的数目,计算所述查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目;
根据所述文档语义关系的所有组合数目以及所述查询语义关系的所有组合数目,确定每个生成树对的语义关联分数;以及
将所述生成树对的语义关联分数的均值确定为所述文档语义信息和所述查询语义信息的关系语义相关度。
12.根据权利要求1的方法,其中基于所述关系语义相关度对所述文档进行排序包括:
获取所述文档与所述查询的概念语义相关度;
基于所述关系相关度和所述概念相关度确定所述文档的分数;以及
按照所述文档的分数大小对所述文档进行排序。
13.根据权利要求12的方法,其中基于所述关系相关度和所述概念相关度确定所述文档的分数包括:
利用关系权重和概念权重对所述关系相关度和概念相关度分别进行加权,其中所述关系权重和所述概念权重的取值均在0至1的区间内,所述关系权重与所述概念权重之和为1;以及
对加权后的关系相关度和加权后的概念相关度求和,得到所述文档的分数。
14.根据权利要求1的方法,其中基于所述关系语义相关度,对所述文档进行排序包括:
获取所述文档与所述查询的概念语义相关度;
根据所述概念相关度对文档排序;
对排序后的文档进行分组;以及
根据所述关系相关度对每组文档中的各个文档进行排序。
15.一种对文档排序的设备,包括:
查询语义信息抽取装置,配置为根据用户的查询和本体库,抽取查询语义信息;
文档语义信息抽取装置,配置为根据文档、所述查询和所述本体库,抽取文档语义信息;
关系语义相关度确定装置,配置为所述文档语义信息和所述查询语义信息的关系语义相关度;以及
排序装置,配置为基于所述关系语义相关度,对所述文档进行排序。
16.根据权利要求15的设备,其中所述查询语义信息抽取装置包括:
用于根据本体库,提取用户的查询所包括的查询概念集合的装置;
用于根据所述本体库,得到所述查询概念集合中的每两个概念之间的语义路径的装置;以及
用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置。
17.根据权利要求16的设备,其中用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置包括:
用于根据所述查询概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及
用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
18.根据权利要求15的设备,其中所述文档语义信息抽取装置包括:
用于根据所述本体库,提取文档包括的概念集合和所述查询包括的概念集合的装置;
用于根据所述文档包括的概念集合和所述查询包括的概念集合的交集,得到文档概念集合的装置;
用于根据所述文档,得到所述文档概念集合中的每两个概念之间的语义路径的装置;以及
用于根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置。
19.根据权利要求18的设备,其中用于根据所述文档概念集合中的每两个概念之间的语义路径,确定所述每两个概念之间的语义路径数目的装置包括:
用于根据所述文档概念集合中的每两个概念之间的语义路径,确定每两个概念之间的正向语义路径集合和反向语义路径集合的装置;以及
用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
20.根据权利要求17或19的设备,其中用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目得到所述每两个概念之间的语义路径的数目的装置包括:
用于去除所述正向语义路径集合中的冗余路径,以优化所述正向语义路径集合的装置;
用于去除所述反向语义路径集合中的冗余路径,以优化所述反向语义路径集合的装置;以及
用于根据优化的正向语义路径集合的成员数目以及优化的反向语义路径集合的成员数目,得到所述每两个概念之间的语义路径数目的装置。
21.根据权利要求17或19的设备,其中用于根据所述正向语义路径集合的成员数目以及所述反向语义路径集合的成员数目得到所述每两个概念之间的语义路径数目的装置包括:
用于根据所述正向语义路径集合与所述反向语义路径集合确定互逆路径对的装置;以及
用于根据所述正向语义路径集合的成员数目、所述反向语义路径集合的成员数目以及所述互逆路径对的数目,得到所述每两个概念之间的语义路径数目的装置。
22.根据权利要求15的设备,其中所述关系语义相关度确定装置包括:
用于获取所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目的装置;以及
用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目,确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
23.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括:
用于计算所述文档语义信息中的语义路径的数目之和,作为文档数目的装置;
用于计算所述查询语义信息中的语义路径的数目之和,作为查询数目的装置;以及
用于将所述文档数目与所述查询数目的比值确定为所述文档语义信息和所述查询语义信息关系语义相关度的装置。
24.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括:
用于获取查询语义信息中所包含的概念集合的装置;
用于根据所述文档语义信息,确定所述概念集合中的每两个概念之间的文档语义路径数目的装置;
用于根据所述查询语义信息,确定所述概念集合中的每两个概念之间的查询语义路径数目的装置;
用于计算所述每两个概念之间的文档语义路径数目与查询语义路径数目的比值的装置;以及
用于将所述比值的乘积确定为所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
25.根据权利要求22的设备,其中用于基于所述文档语义信息中的语义路径的数目和所述查询语义信息中的语义路径的数目确定所述文档语义信息和所述查询语义信息的关系语义相关度的装置包括:
用于根据所述文档语义信息,确定文档生成树集合的装置;
用于根据所述查询语义信息,确定查询生成树集合的装置,所述查询生成树集合中的成员与所述文档生成树集合中的成员一一对应,形成多个生成树对;
用于基于所述文档语义信息中的语义路径的数目,计算所述文档生成树集合中的每个文档生成树所描述的文档语义关系的所有组合数目的装置;
用于基于所述查询语义信息中的语义路径的数目,计算所述查询生成树集合中的每个查询生成树所描述的查询语义关系的所有组合数目的装置;
用于根据所述文档语义关系的所有组合数目以及所述查询语义关系的所有组合数目,确定每个生成树对的语义关联分数的装置;以及
用于将所述生成树对的语义关联分数的均值确定为所述文档语义信息和所述查询语义信息的关系语义相关度的装置。
26.根据权利要求15的设备,其中所述排序装置包括:
用于获取所述文档与所述查询的概念语义相关度的装置;
用于基于所述关系相关度和所述概念相关度确定所述文档的分数的装置;以及
用于按照所述文档的分数大小对所述文档进行排序的装置。
27.根据权利要求26的设备,其中用于基于所述关系相关度和所述概念相关度确定所述文档的分数的装置包括:
用于利用关系权重和概念权重对所述关系相关度和概念相关度分别进行加权的装置,其中所述关系权重和所述概念权重的取值均在0至1的区间内,所述关系权重与所述概念权重之和为1;以及
用于对加权后的关系相关度和加权后的概念相关度求和,得到所述文档的分数的装置。
28.根据权利要求15的设备,其中所述排序装置包括:
用于获取所述文档与所述查询的概念语义相关度的装置;
用于根据所述概念相关度对文档排序的装置;
用于对排序后的文档进行分组的装置;以及
用于根据所述关系相关度对每组文档中的各个文档进行排序的装置。
CN201110085808.0A 2011-03-28 2011-03-28 对文档排序的方法和设备 Expired - Fee Related CN102708104B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110085808.0A CN102708104B (zh) 2011-03-28 2011-03-28 对文档排序的方法和设备
JP2011268139A JP5362807B2 (ja) 2011-03-28 2011-12-07 ドキュメントランク付け方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110085808.0A CN102708104B (zh) 2011-03-28 2011-03-28 对文档排序的方法和设备

Publications (2)

Publication Number Publication Date
CN102708104A true CN102708104A (zh) 2012-10-03
CN102708104B CN102708104B (zh) 2015-03-11

Family

ID=46900899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110085808.0A Expired - Fee Related CN102708104B (zh) 2011-03-28 2011-03-28 对文档排序的方法和设备

Country Status (2)

Country Link
JP (1) JP5362807B2 (zh)
CN (1) CN102708104B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN107832319A (zh) * 2017-06-20 2018-03-23 北京工业大学 一种基于语义关联网络的启发式查询扩展方法
CN112765314A (zh) * 2020-12-31 2021-05-07 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6521931B2 (ja) * 2016-11-29 2019-05-29 日本電信電話株式会社 モデル生成装置、クリックログ正解尤度算出装置、文書検索装置、方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893092A (en) * 1994-12-06 1999-04-06 University Of Central Florida Relevancy ranking using statistical ranking, semantics, relevancy feedback and small pieces of text
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11154160A (ja) * 1997-11-21 1999-06-08 Hitachi Ltd データ検索システム
JP2004062806A (ja) * 2002-07-31 2004-02-26 Toshiba Corp 類似文書検索装置及び類似文書検索方法
JP5233424B2 (ja) * 2008-06-11 2013-07-10 セイコーエプソン株式会社 検索装置およびプログラム
KR101048546B1 (ko) * 2009-03-05 2011-07-11 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893092A (en) * 1994-12-06 1999-04-06 University Of Central Florida Relevancy ranking using statistical ranking, semantics, relevancy feedback and small pieces of text
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279264A (zh) * 2015-10-26 2016-01-27 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN105279264B (zh) * 2015-10-26 2018-07-03 深圳市智搜信息技术有限公司 一种文档的语义相关度计算方法
CN107832319A (zh) * 2017-06-20 2018-03-23 北京工业大学 一种基于语义关联网络的启发式查询扩展方法
CN107832319B (zh) * 2017-06-20 2021-09-17 北京工业大学 一种基于语义关联网络的启发式查询扩展方法
CN112765314A (zh) * 2020-12-31 2021-05-07 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN112765314B (zh) * 2020-12-31 2023-08-18 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法

Also Published As

Publication number Publication date
JP5362807B2 (ja) 2013-12-11
CN102708104B (zh) 2015-03-11
JP2012208917A (ja) 2012-10-25

Similar Documents

Publication Publication Date Title
Gerber et al. Defacto—temporal and multilingual deep fact validation
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
Wu et al. Sense-aaware semantic analysis: A multi-prototype word representation model using wikipedia
Pereira et al. Using web information for author name disambiguation
Rong et al. Egoset: Exploiting word ego-networks and user-generated ontology for multifaceted set expansion
US10528662B2 (en) Automated discovery using textual analysis
CN103425687A (zh) 一种基于关键词的检索方法和***
WO2014210387A2 (en) Concept extraction
CN103886099A (zh) 一种模糊概念的语义检索***及方法
Capelle et al. Bing-SF-IDF+ a hybrid semantics-driven news recommender
Alrehamy et al. SemCluster: unsupervised automatic keyphrase extraction using affinity propagation
Jain et al. Automatically incorporating context meaning for query expansion using graph connectivity measures
CN102708104B (zh) 对文档排序的方法和设备
Lesnikova et al. Interlinking english and chinese rdf data using babelnet
Arafat et al. Analyzing public emotion and predicting stock market using social media
Brefeld et al. Document assignment in multi-site search engines
Arif et al. Word sense disambiguation for Urdu text by machine learning
Hajlaoui et al. Enhancing patent expertise through automatic matching with scientific papers
Wang et al. Contextual compositionality detection with external knowledge bases and word embeddings
Alsulami et al. Semantic clustering approach based multi-agent system for information retrieval on web
Radelaar et al. Improving search and exploration in tag spaces using automated tag clustering
Perez-Guadarramas et al. Analysis of OWA operators for automatic keyphrase extraction in a semantic context
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
Ram et al. Co-reference resolution in Tamil text
Kogilavani et al. Multi-document summarisation using genetic algorithm-based sentence extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150311

Termination date: 20170328