CN103324678A - 信息检索方法和装置 - Google Patents

信息检索方法和装置 Download PDF

Info

Publication number
CN103324678A
CN103324678A CN2013102004303A CN201310200430A CN103324678A CN 103324678 A CN103324678 A CN 103324678A CN 2013102004303 A CN2013102004303 A CN 2013102004303A CN 201310200430 A CN201310200430 A CN 201310200430A CN 103324678 A CN103324678 A CN 103324678A
Authority
CN
China
Prior art keywords
expression formula
semantic
semantics expression
attribute
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102004303A
Other languages
English (en)
Other versions
CN103324678B (zh
Inventor
俞声
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310200430.3A priority Critical patent/CN103324678B/zh
Publication of CN103324678A publication Critical patent/CN103324678A/zh
Application granted granted Critical
Publication of CN103324678B publication Critical patent/CN103324678B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息检索方法和装置,用于解决现有技术中根据关键词在文档库中搜索相关文档,得到的搜索结果与用户需求不符的问题。其中,方法包括:获取用户的查询语句,查询语句中包括一个或多个词或词组;对查询语句进行语义识别,获取查询语句对应的第一语义组表达式;将第一语义组表达式与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与第一语义组表达式相匹配的第二语义组表达式;在索引表中获取相匹配的第二语义组表达式的相关文档标识;在文档库中获取与相关文档标识对应的文档;将与相关文档标识对应的文档返回给用户。

Description

信息检索方法和装置
技术领域
本发明涉及一种信息技术领域,尤其涉及一种信息检索方法和装置。
背景技术
现有技术中,文本信息检索方法主要包括:获取关键词,根据关键词在文档库中搜索相关文档,对相关文档进行排序后返回给用户。
但现有技术中,由于关键词不足以反映用户想要表达的意思,因此,可能导致搜索结果与用户需求不符。
发明内容
本发明提供一种信息检索方法和装置,用于解决现有技术中,根据关键词在文档库中搜索相关文档,得到的搜索结果与用户需求不符的问题。
本发明的第一个方面是提供一种信息检索方法,包括:
获取用户的查询语句,所述查询语句中包括一个或多个词或词组;
对所述查询语句进行语义识别,获取所述查询语句对应的第一语义组表达式,所述第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系;
将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式,所述第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系;
在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识;
在文档库中获取与所述相关文档标识对应的文档;
将与所述相关文档标识对应的文档返回给所述用户。
本发明的另一个方面提供一种信息检索装置,包括:
获取模块,用于获取用户的查询语句,所述查询语句中包括一个或多个词或词组;
语义识别模块,用于对所述查询语句进行语义识别,获取所述查询语句对应的第一语义组表达式,所述第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系;
匹配模块,用于将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式,所述第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系;
所述匹配模块还用于在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识,在文档库中获取与所述相关文档标识对应的文档;
发送模块,用于将与所述相关文档标识对应的文档返回给所述用户。
本发明通过对用户的查询语句进行语义识别,获取查询语句对应的第一语义组表达式,根据第一语义组表达式,获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识,根据相关文档标识在文档库中获取对应的文档,提高了搜索结果与用户需求的相关性。
附图说明
图1为本发明提供的信息检索方法一个实施例的流程图;
图2为本发明提供的信息检索方法又一个实施例的流程图;
图3为本发明提供的信息检索装置一个实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1本发明提供的信息检索方法一个实施例的流程图,如图1所示,包括:
101、信息检索装置获取用户的查询语句,查询语句中包括一个或多个词或词组。
其中,查询语句可以为一个或多个词或词组组成的一句话。例如,以医学为例,词、词组可以为“栓塞”、“急性”、“左肺上叶”或“肺部主动脉”等。
102、对查询语句进行语义识别,获取查询语句对应的第一语义组表达式,第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则第一语义组表达式还用于表示多个语义元之间的修饰关系。
首先,需要获取查询语句中的语义元。语义元是语义的单元,在文本中可以由各技术应用领域所关注的实意词语来体现。实意词语可以为查询语句中具有具体含义的词语,如名词、动词、形容词、数词、量词、代词或副词等。例如,当用户的查询语句为“肺部主动脉有急性栓塞”时,实意词语可以为“肺部主动脉”、“急性”和“栓塞”。又例如,当用户的查询语句为“患者肺部没有栓塞”时,实意词语可以为“患者”、“肺部”和“栓塞”。
下文中以实意词语来作为语义元的标识。除此之外,语义元的标识还可以使用实意词语在字典中对应的编码、实意词语对应的图案或者其他可以唯一标识实意词语意义的标识。以医学为例,字典可以为《一体化医学语言***》(Unified Medical Language System,UMLS)、《医学***命名法—临床术语》(Systematized Nomenclature of Medicine--Clinical Terms,SNOMEDCT)、《国家药物文件—参考术语》(National Drug File-ReferenceTerminology,NDF-RT)等。例如,“栓塞”(embolism)在UMLS中的编码是C0013922,在SNOMED CT中的编码是414086009,在NDF-RT中的编码是N0000001067。对于含义相近的两个词“栓塞”和“血栓”,可以采用相同的编码。
其次,确定查询语句中所有语义元的属性,以及语义元之间的修饰关系,属性可以包括肯定或否定属性。例如,查询语句“肺部主动脉有急性栓塞”中“肺部主动脉”、“急性”和“栓塞”的属性都为肯定属性。其中,“肺部主动脉”和“急性”为修饰语义元,“栓塞”为被修饰语义元。
又例如,查询语句“患者肺部没有栓塞”中“患者”和“肺部”的属性为肯定属性,“栓塞”的属性为否定属性。“患者”和“肺部”为修饰语义元,“栓塞”为被修饰语义元。
进一步地,部分实意词语也可以作为属性,如上述查询语句“肺部主动脉有急性栓塞”中的“急性”可以作为实意词语“栓塞”的属性。“患者/家属”“新发/复发”“当前/曾经”等也可以作为属性,可以根据具体的应用环境选择合适的属性。属性还可以为多个,可以将上述属性中的多个同时作为某个实意词语的属性。
再次,根据查询语句中所有语义元的属性,以及语义元之间的修饰关系,生成查询语句对应的第一语义组表达式。例如,查询语句“肺部主动脉有急性栓塞”对应的第一语义组表达式为“栓塞:Y|肺部主动脉:Y|急性:Y”,其中仅使用肯定属性和否定属性,Y表示肯定,N表示否定。语义元标识与属性之间可以用“:”分隔,语义元之间可以用“|”分隔。另外,修饰语义元在语义组表达式中可以没有先后顺序,也可以按照语义元标识的拼写或者编码进行排序。
又例如,查询语句“患者肺部没有栓塞”对应的第一语义组表达式为“栓塞:N|患者:Y|肺部:Y”。
需要说明的是,语义元标识与属性之间的分隔符,以及语义元之间的分隔符也可以用“,”、“/”、“*”、“&”或者“#”等符号,只要语义元之间的分隔符、语义元标识与属性之间的分隔符,两者可以区分开即可。被修饰语义元,可以位于语义组表达式的开始位置、结束位置,或者其他固定位置等。
当查询语句中包含嵌套修饰时,可以将第一语义组表达式中的修饰关系平铺。例如查询语句“左肺上叶亚段动脉有栓塞”中,“左肺上叶”修饰“亚段动脉”,“亚段动脉”修饰“栓塞”,属于嵌套修饰。如果用括号表示嵌套的修饰语,则查询语句的第一语义组表达式为“栓塞:Y(亚段动脉:Y(左肺上叶:Y))”。若将其平铺,则第一语义组表达式为“栓塞:Y|亚段动脉:Y|左肺上叶:Y”。
另外,还可以将查询语句对应的第一语义组表达式中的修饰语义元生成修饰语义元集合;采用修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第一语义组表达式中的被修饰语义元生成语义组表达式,称为派生语义组表达式。例如,第一语义组表达式“栓塞:Y|肺部主动脉:Y|急性:Y”中的修饰语义元为“肺部主动脉”和“急性”,生成的派生语义组表达式为:“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”。
103、信息检索装置将第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与第一语义组表达式相匹配的第二语义组表达式,第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则第二语义组表达式还用于表示多个语义元之间的修饰关系。
另外,信息检索装置还可以将第一语义组表达式对应的派生语义组表达式,与索引表中的第二语义组表达式进行匹配,确定与派生语义组表达式相匹配的语义组表达式。
104、信息检索装置在索引表中获取相匹配的第二语义组表达式的相关文档标识。
其中,索引表中可以包括第二语义组表达式以及第二语义组表达式对应的相关文档标识。相关文档指的是文档库中与第二语义组表达式匹配的文档。
例如,文档库中包含6个文档,各文档标识以及内容如表1所示。
表1:文档示例
Figure BDA00003252906800051
Figure BDA00003252906800061
现有技术中,文档库中文档的关键词为“栓塞”、“急性”、“慢性”、“肺部主动脉”、“左肺上叶”、“左肺下叶”和“亚段动脉”时,根据关键词建立的索引表如表2所示。
表2:基于关键词的索引表
关键词 文档标识
栓塞 1,2,3,4,5,6
急性 2,3,4,6
慢性 1,3,4,6
肺部主动脉 3,4
左肺上叶 1,2,3
左肺下叶 4
亚段动脉 1,2,3,4
用户的查询语句“肺部主动脉有急性栓塞”对应的关键词为“肺部主动脉”、“急性”和“栓塞”,按照上述关键词对文档库进行搜索,得到的同时包含“肺部主动脉”、“急性”和“栓塞”关键词的文档为3和4。但文档4“患者肺部主动脉有慢性栓塞,左肺下叶亚段动脉有急性栓塞”与用户的查询语句“肺部主动脉有急性栓塞”不相符。
而本发明中信息检索装置根据第二语义组表达式预先建立的索引表,如表3所示。
表3:基于语义组表达式的索引表
语义组表达式 文档标识
栓塞:Y 1,2,3,4,6
栓塞:N 5
栓塞:Y|急性:Y 2,3,4
栓塞:N|急性:Y 6
栓塞:Y|慢性:Y 1,3,4,6
栓塞:Y|亚段动脉:Y 1,2,3,4
栓塞:Y|左肺上叶:Y 1,2,3
栓塞:Y|左肺下叶:Y 4
栓塞:Y|亚段动脉:Y|左肺上叶:Y 1,2,3
栓塞:Y|亚段动脉:Y|左肺下叶:Y 4
栓塞:Y|急性:Y|亚段动脉:Y 2,4
栓塞:Y|慢性:Y|亚段动脉:Y 1,3
栓塞:Y|急性:Y|左肺上叶:Y 2
栓塞:Y|急性:Y|左肺下叶:Y 4
栓塞:Y|慢性:Y|左肺上叶:Y 1,3
栓塞:Y|急性:Y|亚段动脉:Y|左肺上叶:Y 2
栓塞:Y|急性:Y|亚段动脉:Y|左肺下叶:Y 4
栓塞:Y|慢性:Y|亚段动脉:Y|左肺上叶:Y 1,3
栓塞:Y|肺部主动脉:Y 3,4
栓塞:Y|肺部主动脉:Y|急性:Y 3
栓塞:Y|肺部主动脉:Y|慢性:Y 4
查询语句的第一语义组表达式为“栓塞:Y|肺部主动脉:Y|急性:Y”,索引表中与其匹配的第二语义组表达式对应的相关文档标识为“3”,搜索结果与用户的查询语句相符。
另外,信息检索装置还可以获取第一语义组表达式的派生语义组表达式在索引表中对应的相关文档标识,以扩大搜索范围。例如:第一语义组表达式对应的派生语义组表达式为:“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”。索引表中上述各派生语义组表达式的相关文档标识分别为:“1,2,3,4,6”、“3,4”和“2,3,4”。
105、在文档库中获取与相关文档标识对应的文档。
其中,文档标识指的是文档库中可以唯一标识文档的编号或存储地址等。本实施例中以文档的编号作为文档标识。例如,当第二语义组表达式的相关文档标识为“3”时,对应的文档内容为“患者肺部主动脉有急性栓塞,左肺上叶亚段动脉有慢性栓塞。”
进一步地,在文档库中获取与相关文档标识对应的文档之前,还可以包括:对相关文档标识进行相关性排序。
例如:第一语义组表达式“栓塞:Y|肺部主动脉:Y|急性:Y”对应的文档标识为“3”;其派生语义组表达式“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”在索引表中的相关文档标识分别为:“1,2,3,4,6”、“3,4”“2,3,4”,对上述语义组表达式的相关文档标识对应的文档进行相关性排序后,得到的相关文档顺序为:“3,4,2,1,6”,排序结束后,信息检索装置可以将排序后的文档返回给用户。
106、将与相关文档标识对应的文档返回给用户。
本实施例中,通过对用户的查询语句进行语义识别,获取查询语句对应的第一语义组表达式,根据第一语义组表达式,获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识,根据相关文档标识在文档库中获取对应的文档,提高了搜索结果与用户需求的相关性。
图2为本发明提供的信息检索方法又一个实施例的流程图,如图2所示,在图1所示实施例的基础上,信息检索装置在将第一语义组表达式与索引表中的各个第二语义组表达式进行匹配之前,还对每篇文档进行标注和索引,包括:
107、信息检索装置对文档库中文档的各语句进行语义识别。
108、信息检索装置确定每个语句中所有语义元的属性,以及语义元之间的修饰关系,属性包括肯定或否定属性。
此处信息检索装置确定各语句中所有语义元的属性,以及语义元之间的修饰关系的过程,与步骤102中确定查询语句中语义元的属性以及语义元之间的修饰关系的过程类似,可以参考步骤102中确定查询语句中语义元的属性以及语义元之间的修饰关系的过程。
109、信息检索装置针对每个语句生成一个第二语义组表达式,第二语义组表达式中包括该语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
进一步地,对一篇文档的各语句生成第二语义组表达式之后,如果被修饰语义元为肯定属性,信息检索装置可以根据各语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合;采用修饰语义元集合中每个真子集所包括的语义元分别与各语句对应的第二语义组表达式中的被修饰语义元生成派生语义组表达式。
110、信息检索装置根据第二语义组表达式和派生语义组表达式更新索引表。
也就是说,如果索引表中包含根据当前文档的各语句生成的当前第二语义组表达式,则在该当前第二语义组表达式对应的文档标识中加入当前文档的标识;如索引表中不包含当前第二语义组表达式,则将当前第二语义组表达式加入索引表,与当前第二语义组表达式对应的文档标识为当前文档的标识。另外,当有一篇新文档加入文档库时,也执行步骤107至110。
本发明实施例中,通过对文档库中所有文档的各语句进行语义识别,生成第二语义组表达式,建立由第二语义组表达式映射至文档标识的索引表,接收到用户的查询语句后,对查询语句进行语义识别,获取查询语句对应的第一语义组表达式,进而获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识,根据相关文档标识在文档库中获取对应的文档,提高了搜索结果与用户需求的相关性。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序和数据可以存储于一计算机可读取存储介质中,数据可以以文件、数据库或者内存数据结构等各种形式存在。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种存储介质。
图3为本发明提供的信息检索装置一个实施例的结构示意图,如图3所示,包括:
获取模块31,用于获取用户的查询语句,查询语句中包括一个或多个词或词组。
语义识别模块32,用于对查询语句进行语义识别,获取查询语句对应的第一语义组表达式,第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则第一语义组表达式还用于表示多个语义元之间的修饰关系。
匹配模块33,用于将第一语义组表达式与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与第一语义组表达式相匹配的第二语义组表达式,第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则第二语义组表达式还用于表示所多个语义元之间的修饰关系。
匹配模块33还用于在索引表中获取相匹配的第二语义组表达式的相关文档标识,在文档库中获取与相关文档标识对应的文档。
发送模块34,用于将与相关文档标识对应的文档返回给用户。
进一步地,语义识别模块32具体可以用于确定查询语句中所有语义元的属性,以及语义元之间的修饰和被修饰关系,属性包括肯定属性或否定属性;针对查询语句生成第一语义组表达式,第一语义组表达式中包括查询语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
更进一步地,匹配模块33将第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与第一语义组表达式相匹配的第二语义组表达式之前,语义识别模块32还用于,对文档库中文档的各语句进行语义识别;确定每个语句中所有语义元的属性,以及语义元之间的修饰关系,属性包括肯定属性或否定属性;针对每个语句生成一个第二语义组表达式,第二语义组表达式中包括该语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
再进一步地,语义识别模块32针对每个语句生成第二语义组表达式后,信息检索装置还可以包括:更新模块。
语义识别模块32针对每个语句生成一个第二语义组表达式之后,语义识别模块还用于,对于每个语句,当被修饰语义元为肯定属性时,将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合;采用修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式,得到派生语义组表达式;
更新模块,用于根据第二语义组表达式和派生语义组表达式,更新索引表。
另外,信息检索装置还可以包括排序模块,排序模块用于在匹配模块33获取与相关文档标识对应的文档之前,对相关文档标识进行相关性排序。
本发明实施例中,通过对用户的查询语句进行语义识别,获取查询语句对应的第一语义组表达式,根据第一语义组表达式,获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识,根据相关文档标识在文档库中获取对应的文档,提高了搜索结果与用户需求的相关性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种信息检索方法,其特征在于,包括:
获取用户的查询语句,所述查询语句中包括一个或多个词或词组;
对所述查询语句进行语义识别,获取所述查询语句对应的第一语义组表达式,所述第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系;
将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式,所述第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系;
在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识;
在文档库中获取与所述相关文档标识对应的文档;
将与所述相关文档标识对应的文档返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述对所述查询语句进行语义识别,获取所述查询语句对应的第一语义组表达式,包括:
确定所述查询语句中所有语义元的属性,以及语义元之间的修饰关系,所述属性包括肯定或否定属性;
针对所述查询语句生成第一语义组表达式,所述第一语义组表达式中包括所述查询语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式之前,还包括:
对文档库中文档的各语句进行语义识别;
确定每个语句中所有语义元的属性,以及语义元之间的修饰关系,所述属性包括肯定或否定属性;
针对每个语句生成一个第二语义组表达式,所述第二语义组表达式中包括该语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
4.根据权利要求3所述的方法,其特征在于,所述针对每个语句生成一个第二语义组表达式之后,还包括:
对于每个语句,当被修饰语义元为肯定属性时,将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合;
采用所述修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式,得到派生语义组表达式;
根据所述第二语义组表达式和所述派生语义组表达式,更新所述索引表。
5.根据权利要求1或2所述的方法,其特征在于,所述在文档库中获取与所述相关文档标识对应的文档之前,还包括:
对所述相关文档标识进行相关性排序。
6.一种信息检索装置,其特征在于,包括:
获取模块,用于获取用户的查询语句,所述查询语句中包括一个或多个词或词组;
语义识别模块,用于对所述查询语句进行语义识别,获取所述查询语句对应的第一语义组表达式,所述第一语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系;
匹配模块,用于将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式,所述第二语义组表达式用于表示一个或多个语义元及其语义属性,若用于表示多个语义元,则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系;
所述匹配模块还用于,在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识;在文档库中获取与所述相关文档标识对应的文档;
发送模块,用于将与所述相关文档标识对应的文档返回给所述用户。
7.根据权利要求6所述的装置,其特征在于,所述语义识别模块,具体用于确定所述查询语句中所有语义元的属性,以及语义元之间的修饰关系,所述属性包括肯定或否定属性;
针对所述查询语句生成第一语义组表达式,所述第一语义组表达式中包括所述查询语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
8.根据权利要求6或7所述的装置,其特征在于,所述匹配模块将所述第一语义组表达式,与预先编制的索引表中的各个第二语义组表达式进行匹配,确定与所述第一语义组表达式相匹配的第二语义组表达式之前,所述语义识别模块还用于对文档库中文档的各语句进行语义识别;确定每个语句中所有语义元的属性,以及语义元之间的修饰关系,所述属性包括肯定或否定属性;针对每个语句生成一个第二语义组表达式,所述第二语义组表达式中包括该语句中所有的语义元标识及其属性标识,以及语义元之间的修饰关系标识。
9.根据权利要求8所述的装置,其特征在于,还包括:更新模块;
所述语义识别模块针对每个语句生成一个第二语义组表达式之后,所述语义识别模块还用于,对于每个语句,当被修饰语义元为肯定属性时,将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合;采用所述修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式,得到派生语义组表达式;
所述更新模块,用于根据所述第二语义组表达式和所述派生语义组表达式,更新所述索引表。
10.根据权利要求6或7所述的装置,其特征在于,还包括:排序模块;
所述匹配模块在文档库中获取与所述相关文档标识对应的文档之前,所述排序模块用于,对所述相关文档标识进行相关性排序。
CN201310200430.3A 2013-05-27 2013-05-27 信息检索方法和装置 Expired - Fee Related CN103324678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310200430.3A CN103324678B (zh) 2013-05-27 2013-05-27 信息检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310200430.3A CN103324678B (zh) 2013-05-27 2013-05-27 信息检索方法和装置

Publications (2)

Publication Number Publication Date
CN103324678A true CN103324678A (zh) 2013-09-25
CN103324678B CN103324678B (zh) 2016-06-01

Family

ID=49193421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310200430.3A Expired - Fee Related CN103324678B (zh) 2013-05-27 2013-05-27 信息检索方法和装置

Country Status (1)

Country Link
CN (1) CN103324678B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索***及其搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
US20110295688A1 (en) * 2010-05-28 2011-12-01 Microsoft Corporation Defining user intent
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295688A1 (en) * 2010-05-28 2011-12-01 Microsoft Corporation Defining user intent
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503265A (zh) * 2016-11-30 2017-03-15 北京赛迈特锐医疗科技有限公司 基于权值的结构化搜索***及其搜索方法

Also Published As

Publication number Publication date
CN103324678B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
US11294970B1 (en) Associating an entity with a search query
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
US10042896B2 (en) Providing search recommendation
RU2564629C1 (ru) Способ кластеризации результатов поиска в зависимости от семантики
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
US8775442B2 (en) Semantic search using a single-source semantic model
CN103136352B (zh) 基于双层语义分析的全文检索***
US20160004766A1 (en) Search technology using synonims and paraphrasing
US20120166414A1 (en) Systems and methods for relevance scoring
US9514098B1 (en) Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US8161063B2 (en) Multimedia object retrieval from natural language queries
US9639522B2 (en) Methods and apparatus related to determining edit rules for rewriting phrases
CN110716749B (zh) 一种基于功能相似度匹配的代码搜索方法
US20130110861A1 (en) Facilitating Extraction and Discovery of Enterprise Services
KR20100041482A (ko) 콘텐츠 검색 장치 및 방법
US20090112845A1 (en) System and method for language sensitive contextual searching
US20190065502A1 (en) Providing information related to a table of a document in response to a search query
JP2011233162A (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
US20090234852A1 (en) Sub-linear approximate string match
Gero et al. Namedkeys: Unsupervised keyphrase extraction for biomedical documents
US9811592B1 (en) Query modification based on textual resource context
US11151317B1 (en) Contextual spelling correction system
CN113190692B (zh) 一种知识图谱的自适应检索方法、***及装置
Rehm et al. Ontology-based XQuery’ing of XML-encoded language resources on multiple annotation layers
CN103324678A (zh) 信息检索方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160601