CN103324678A

CN103324678A - 信息检索方法和装置

Info

Publication number: CN103324678A
Application number: CN2013102004303A
Authority: CN
Inventors: 俞声
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2013-09-25
Anticipated expiration: 2033-05-27
Also published as: CN103324678B

Abstract

本发明提供一种信息检索方法和装置，用于解决现有技术中根据关键词在文档库中搜索相关文档，得到的搜索结果与用户需求不符的问题。其中，方法包括：获取用户的查询语句，查询语句中包括一个或多个词或词组；对查询语句进行语义识别，获取查询语句对应的第一语义组表达式；将第一语义组表达式与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与第一语义组表达式相匹配的第二语义组表达式；在索引表中获取相匹配的第二语义组表达式的相关文档标识；在文档库中获取与相关文档标识对应的文档；将与相关文档标识对应的文档返回给用户。

Description

信息检索方法和装置

技术领域

本发明涉及一种信息技术领域，尤其涉及一种信息检索方法和装置。

背景技术

现有技术中，文本信息检索方法主要包括：获取关键词，根据关键词在文档库中搜索相关文档，对相关文档进行排序后返回给用户。

但现有技术中，由于关键词不足以反映用户想要表达的意思，因此，可能导致搜索结果与用户需求不符。

发明内容

本发明提供一种信息检索方法和装置，用于解决现有技术中，根据关键词在文档库中搜索相关文档，得到的搜索结果与用户需求不符的问题。

本发明的第一个方面是提供一种信息检索方法，包括：

获取用户的查询语句，所述查询语句中包括一个或多个词或词组；

对所述查询语句进行语义识别，获取所述查询语句对应的第一语义组表达式，所述第一语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系；

将所述第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与所述第一语义组表达式相匹配的第二语义组表达式，所述第二语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系；

在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识；

在文档库中获取与所述相关文档标识对应的文档；

将与所述相关文档标识对应的文档返回给所述用户。

本发明的另一个方面提供一种信息检索装置，包括：

获取模块，用于获取用户的查询语句，所述查询语句中包括一个或多个词或词组；

语义识别模块，用于对所述查询语句进行语义识别，获取所述查询语句对应的第一语义组表达式，所述第一语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则所述第一语义组表达式还用于表示所述多个语义元之间的修饰关系；

匹配模块，用于将所述第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与所述第一语义组表达式相匹配的第二语义组表达式，所述第二语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则所述第二语义组表达式还用于表示所述多个语义元之间的修饰关系；

所述匹配模块还用于在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识，在文档库中获取与所述相关文档标识对应的文档；

发送模块，用于将与所述相关文档标识对应的文档返回给所述用户。

本发明通过对用户的查询语句进行语义识别，获取查询语句对应的第一语义组表达式，根据第一语义组表达式，获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识，根据相关文档标识在文档库中获取对应的文档，提高了搜索结果与用户需求的相关性。

附图说明

图1为本发明提供的信息检索方法一个实施例的流程图；

图2为本发明提供的信息检索方法又一个实施例的流程图；

图3为本发明提供的信息检索装置一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1本发明提供的信息检索方法一个实施例的流程图，如图1所示，包括：

101、信息检索装置获取用户的查询语句，查询语句中包括一个或多个词或词组。

其中，查询语句可以为一个或多个词或词组组成的一句话。例如，以医学为例，词、词组可以为“栓塞”、“急性”、“左肺上叶”或“肺部主动脉”等。

102、对查询语句进行语义识别，获取查询语句对应的第一语义组表达式，第一语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则第一语义组表达式还用于表示多个语义元之间的修饰关系。

首先，需要获取查询语句中的语义元。语义元是语义的单元，在文本中可以由各技术应用领域所关注的实意词语来体现。实意词语可以为查询语句中具有具体含义的词语，如名词、动词、形容词、数词、量词、代词或副词等。例如，当用户的查询语句为“肺部主动脉有急性栓塞”时，实意词语可以为“肺部主动脉”、“急性”和“栓塞”。又例如，当用户的查询语句为“患者肺部没有栓塞”时，实意词语可以为“患者”、“肺部”和“栓塞”。

下文中以实意词语来作为语义元的标识。除此之外，语义元的标识还可以使用实意词语在字典中对应的编码、实意词语对应的图案或者其他可以唯一标识实意词语意义的标识。以医学为例，字典可以为《一体化医学语言***》（Unified Medical Language System，UMLS）、《医学***命名法—临床术语》（Systematized Nomenclature of Medicine--Clinical Terms，SNOMEDCT）、《国家药物文件—参考术语》（National Drug File-ReferenceTerminology，NDF-RT）等。例如，“栓塞”（embolism）在UMLS中的编码是C0013922，在SNOMED CT中的编码是414086009，在NDF-RT中的编码是N0000001067。对于含义相近的两个词“栓塞”和“血栓”，可以采用相同的编码。

其次，确定查询语句中所有语义元的属性，以及语义元之间的修饰关系，属性可以包括肯定或否定属性。例如，查询语句“肺部主动脉有急性栓塞”中“肺部主动脉”、“急性”和“栓塞”的属性都为肯定属性。其中，“肺部主动脉”和“急性”为修饰语义元，“栓塞”为被修饰语义元。

又例如，查询语句“患者肺部没有栓塞”中“患者”和“肺部”的属性为肯定属性，“栓塞”的属性为否定属性。“患者”和“肺部”为修饰语义元，“栓塞”为被修饰语义元。

进一步地，部分实意词语也可以作为属性，如上述查询语句“肺部主动脉有急性栓塞”中的“急性”可以作为实意词语“栓塞”的属性。“患者/家属”“新发/复发”“当前/曾经”等也可以作为属性，可以根据具体的应用环境选择合适的属性。属性还可以为多个，可以将上述属性中的多个同时作为某个实意词语的属性。

再次，根据查询语句中所有语义元的属性，以及语义元之间的修饰关系，生成查询语句对应的第一语义组表达式。例如，查询语句“肺部主动脉有急性栓塞”对应的第一语义组表达式为“栓塞:Y|肺部主动脉:Y|急性:Y”，其中仅使用肯定属性和否定属性，Y表示肯定，N表示否定。语义元标识与属性之间可以用“:”分隔，语义元之间可以用“|”分隔。另外，修饰语义元在语义组表达式中可以没有先后顺序，也可以按照语义元标识的拼写或者编码进行排序。

又例如，查询语句“患者肺部没有栓塞”对应的第一语义组表达式为“栓塞:N|患者:Y|肺部:Y”。

需要说明的是，语义元标识与属性之间的分隔符，以及语义元之间的分隔符也可以用“,”、“/”、“*”、“&”或者“#”等符号，只要语义元之间的分隔符、语义元标识与属性之间的分隔符，两者可以区分开即可。被修饰语义元，可以位于语义组表达式的开始位置、结束位置，或者其他固定位置等。

当查询语句中包含嵌套修饰时，可以将第一语义组表达式中的修饰关系平铺。例如查询语句“左肺上叶亚段动脉有栓塞”中，“左肺上叶”修饰“亚段动脉”，“亚段动脉”修饰“栓塞”，属于嵌套修饰。如果用括号表示嵌套的修饰语，则查询语句的第一语义组表达式为“栓塞:Y(亚段动脉:Y(左肺上叶:Y))”。若将其平铺，则第一语义组表达式为“栓塞:Y|亚段动脉:Y|左肺上叶:Y”。

另外，还可以将查询语句对应的第一语义组表达式中的修饰语义元生成修饰语义元集合；采用修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第一语义组表达式中的被修饰语义元生成语义组表达式，称为派生语义组表达式。例如，第一语义组表达式“栓塞:Y|肺部主动脉:Y|急性:Y”中的修饰语义元为“肺部主动脉”和“急性”，生成的派生语义组表达式为:“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”。

103、信息检索装置将第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与第一语义组表达式相匹配的第二语义组表达式，第二语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则第二语义组表达式还用于表示多个语义元之间的修饰关系。

另外，信息检索装置还可以将第一语义组表达式对应的派生语义组表达式，与索引表中的第二语义组表达式进行匹配，确定与派生语义组表达式相匹配的语义组表达式。

104、信息检索装置在索引表中获取相匹配的第二语义组表达式的相关文档标识。

其中，索引表中可以包括第二语义组表达式以及第二语义组表达式对应的相关文档标识。相关文档指的是文档库中与第二语义组表达式匹配的文档。

例如，文档库中包含6个文档，各文档标识以及内容如表1所示。

表1：文档示例

现有技术中，文档库中文档的关键词为“栓塞”、“急性”、“慢性”、“肺部主动脉”、“左肺上叶”、“左肺下叶”和“亚段动脉”时，根据关键词建立的索引表如表2所示。

表2：基于关键词的索引表

关键词	文档标识
		栓塞	1，2，3，4，5，6
急性	2，3，4，6
		慢性	1，3，4，6
肺部主动脉	3，4
		左肺上叶	1，2，3
左肺下叶	4
		亚段动脉	1，2，3，4

用户的查询语句“肺部主动脉有急性栓塞”对应的关键词为“肺部主动脉”、“急性”和“栓塞”，按照上述关键词对文档库进行搜索，得到的同时包含“肺部主动脉”、“急性”和“栓塞”关键词的文档为3和4。但文档4“患者肺部主动脉有慢性栓塞，左肺下叶亚段动脉有急性栓塞”与用户的查询语句“肺部主动脉有急性栓塞”不相符。

而本发明中信息检索装置根据第二语义组表达式预先建立的索引表，如表3所示。

表3：基于语义组表达式的索引表

语义组表达式	文档标识
		栓塞:Y	1，2，3，4，6
栓塞:N	5
		栓塞:Y\|急性:Y	2，3，4
栓塞:N\|急性:Y	6
		栓塞:Y\|慢性:Y	1，3，4，6
栓塞:Y\|亚段动脉:Y	1，2，3，4
		栓塞:Y\|左肺上叶:Y	1，2，3
栓塞:Y\|左肺下叶:Y	4
		栓塞:Y\|亚段动脉:Y\|左肺上叶:Y	1，2，3
栓塞:Y\|亚段动脉:Y\|左肺下叶:Y	4
		栓塞:Y\|急性:Y\|亚段动脉:Y	2，4

栓塞:Y\|慢性:Y\|亚段动脉:Y	1，3
		栓塞:Y\|急性:Y\|左肺上叶:Y	2
栓塞:Y\|急性:Y\|左肺下叶:Y	4
		栓塞:Y\|慢性:Y\|左肺上叶:Y	1，3
栓塞:Y\|急性:Y\|亚段动脉:Y\|左肺上叶:Y	2
		栓塞:Y\|急性:Y\|亚段动脉:Y\|左肺下叶:Y	4
栓塞:Y\|慢性:Y\|亚段动脉:Y\|左肺上叶:Y	1，3
		栓塞:Y\|肺部主动脉:Y	3，4
栓塞:Y\|肺部主动脉:Y\|急性:Y	3
		栓塞:Y\|肺部主动脉:Y\|慢性:Y	4

查询语句的第一语义组表达式为“栓塞:Y|肺部主动脉:Y|急性:Y”，索引表中与其匹配的第二语义组表达式对应的相关文档标识为“3”，搜索结果与用户的查询语句相符。

另外，信息检索装置还可以获取第一语义组表达式的派生语义组表达式在索引表中对应的相关文档标识，以扩大搜索范围。例如：第一语义组表达式对应的派生语义组表达式为：“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”。索引表中上述各派生语义组表达式的相关文档标识分别为：“1，2，3，4，6”、“3，4”和“2，3，4”。

105、在文档库中获取与相关文档标识对应的文档。

其中，文档标识指的是文档库中可以唯一标识文档的编号或存储地址等。本实施例中以文档的编号作为文档标识。例如，当第二语义组表达式的相关文档标识为“3”时，对应的文档内容为“患者肺部主动脉有急性栓塞，左肺上叶亚段动脉有慢性栓塞。”

进一步地，在文档库中获取与相关文档标识对应的文档之前，还可以包括：对相关文档标识进行相关性排序。

例如:第一语义组表达式“栓塞:Y|肺部主动脉:Y|急性:Y”对应的文档标识为“3”；其派生语义组表达式“栓塞:Y”、“栓塞:Y|肺部主动脉:Y”和“栓塞:Y|急性:Y”在索引表中的相关文档标识分别为：“1，2，3，4，6”、“3，4”“2，3，4”，对上述语义组表达式的相关文档标识对应的文档进行相关性排序后，得到的相关文档顺序为：“3，4，2，1，6”，排序结束后，信息检索装置可以将排序后的文档返回给用户。

106、将与相关文档标识对应的文档返回给用户。

本实施例中，通过对用户的查询语句进行语义识别，获取查询语句对应的第一语义组表达式，根据第一语义组表达式，获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识，根据相关文档标识在文档库中获取对应的文档，提高了搜索结果与用户需求的相关性。

图2为本发明提供的信息检索方法又一个实施例的流程图，如图2所示，在图1所示实施例的基础上，信息检索装置在将第一语义组表达式与索引表中的各个第二语义组表达式进行匹配之前，还对每篇文档进行标注和索引，包括：

107、信息检索装置对文档库中文档的各语句进行语义识别。

108、信息检索装置确定每个语句中所有语义元的属性，以及语义元之间的修饰关系，属性包括肯定或否定属性。

此处信息检索装置确定各语句中所有语义元的属性，以及语义元之间的修饰关系的过程，与步骤102中确定查询语句中语义元的属性以及语义元之间的修饰关系的过程类似，可以参考步骤102中确定查询语句中语义元的属性以及语义元之间的修饰关系的过程。

109、信息检索装置针对每个语句生成一个第二语义组表达式，第二语义组表达式中包括该语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

进一步地，对一篇文档的各语句生成第二语义组表达式之后，如果被修饰语义元为肯定属性，信息检索装置可以根据各语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合；采用修饰语义元集合中每个真子集所包括的语义元分别与各语句对应的第二语义组表达式中的被修饰语义元生成派生语义组表达式。

110、信息检索装置根据第二语义组表达式和派生语义组表达式更新索引表。

也就是说，如果索引表中包含根据当前文档的各语句生成的当前第二语义组表达式，则在该当前第二语义组表达式对应的文档标识中加入当前文档的标识；如索引表中不包含当前第二语义组表达式，则将当前第二语义组表达式加入索引表，与当前第二语义组表达式对应的文档标识为当前文档的标识。另外，当有一篇新文档加入文档库时，也执行步骤107至110。

本发明实施例中，通过对文档库中所有文档的各语句进行语义识别，生成第二语义组表达式，建立由第二语义组表达式映射至文档标识的索引表，接收到用户的查询语句后，对查询语句进行语义识别，获取查询语句对应的第一语义组表达式，进而获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识，根据相关文档标识在文档库中获取对应的文档，提高了搜索结果与用户需求的相关性。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序和数据可以存储于一计算机可读取存储介质中，数据可以以文件、数据库或者内存数据结构等各种形式存在。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种存储介质。

图3为本发明提供的信息检索装置一个实施例的结构示意图，如图3所示，包括：

获取模块31，用于获取用户的查询语句，查询语句中包括一个或多个词或词组。

语义识别模块32，用于对查询语句进行语义识别，获取查询语句对应的第一语义组表达式，第一语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则第一语义组表达式还用于表示多个语义元之间的修饰关系。

匹配模块33，用于将第一语义组表达式与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与第一语义组表达式相匹配的第二语义组表达式，第二语义组表达式用于表示一个或多个语义元及其语义属性，若用于表示多个语义元，则第二语义组表达式还用于表示所多个语义元之间的修饰关系。

匹配模块33还用于在索引表中获取相匹配的第二语义组表达式的相关文档标识，在文档库中获取与相关文档标识对应的文档。

发送模块34，用于将与相关文档标识对应的文档返回给用户。

进一步地，语义识别模块32具体可以用于确定查询语句中所有语义元的属性，以及语义元之间的修饰和被修饰关系，属性包括肯定属性或否定属性；针对查询语句生成第一语义组表达式，第一语义组表达式中包括查询语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

更进一步地，匹配模块33将第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与第一语义组表达式相匹配的第二语义组表达式之前，语义识别模块32还用于，对文档库中文档的各语句进行语义识别；确定每个语句中所有语义元的属性，以及语义元之间的修饰关系，属性包括肯定属性或否定属性；针对每个语句生成一个第二语义组表达式，第二语义组表达式中包括该语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

再进一步地，语义识别模块32针对每个语句生成第二语义组表达式后，信息检索装置还可以包括：更新模块。

语义识别模块32针对每个语句生成一个第二语义组表达式之后，语义识别模块还用于，对于每个语句，当被修饰语义元为肯定属性时，将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合；采用修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式，得到派生语义组表达式；

更新模块，用于根据第二语义组表达式和派生语义组表达式，更新索引表。

另外，信息检索装置还可以包括排序模块，排序模块用于在匹配模块33获取与相关文档标识对应的文档之前，对相关文档标识进行相关性排序。

本发明实施例中，通过对用户的查询语句进行语义识别，获取查询语句对应的第一语义组表达式，根据第一语义组表达式，获取索引表中与第一语义组表达式匹配的第二语义组表达式以及相关文档标识，根据相关文档标识在文档库中获取对应的文档，提高了搜索结果与用户需求的相关性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种信息检索方法，其特征在于，包括：

在文档库中获取与所述相关文档标识对应的文档；

将与所述相关文档标识对应的文档返回给所述用户。

2.根据权利要求1所述的方法，其特征在于，所述对所述查询语句进行语义识别，获取所述查询语句对应的第一语义组表达式，包括：

确定所述查询语句中所有语义元的属性，以及语义元之间的修饰关系，所述属性包括肯定或否定属性；

针对所述查询语句生成第一语义组表达式，所述第一语义组表达式中包括所述查询语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

3.根据权利要求1或2所述的方法，其特征在于，所述将所述第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与所述第一语义组表达式相匹配的第二语义组表达式之前，还包括：

对文档库中文档的各语句进行语义识别；

确定每个语句中所有语义元的属性，以及语义元之间的修饰关系，所述属性包括肯定或否定属性；

针对每个语句生成一个第二语义组表达式，所述第二语义组表达式中包括该语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

4.根据权利要求3所述的方法，其特征在于，所述针对每个语句生成一个第二语义组表达式之后，还包括：

对于每个语句，当被修饰语义元为肯定属性时，将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合；

采用所述修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式，得到派生语义组表达式；

根据所述第二语义组表达式和所述派生语义组表达式，更新所述索引表。

5.根据权利要求1或2所述的方法，其特征在于，所述在文档库中获取与所述相关文档标识对应的文档之前，还包括：

对所述相关文档标识进行相关性排序。

6.一种信息检索装置，其特征在于，包括：

所述匹配模块还用于，在所述索引表中获取所述相匹配的第二语义组表达式的相关文档标识；在文档库中获取与所述相关文档标识对应的文档；

7.根据权利要求6所述的装置，其特征在于，所述语义识别模块，具体用于确定所述查询语句中所有语义元的属性，以及语义元之间的修饰关系，所述属性包括肯定或否定属性；

8.根据权利要求6或7所述的装置，其特征在于，所述匹配模块将所述第一语义组表达式，与预先编制的索引表中的各个第二语义组表达式进行匹配，确定与所述第一语义组表达式相匹配的第二语义组表达式之前，所述语义识别模块还用于对文档库中文档的各语句进行语义识别；确定每个语句中所有语义元的属性，以及语义元之间的修饰关系，所述属性包括肯定或否定属性；针对每个语句生成一个第二语义组表达式，所述第二语义组表达式中包括该语句中所有的语义元标识及其属性标识，以及语义元之间的修饰关系标识。

9.根据权利要求8所述的装置，其特征在于，还包括：更新模块；

所述语义识别模块针对每个语句生成一个第二语义组表达式之后，所述语义识别模块还用于，对于每个语句，当被修饰语义元为肯定属性时，将该语句对应的第二语义组表达式中的修饰语义元生成修饰语义元集合；采用所述修饰语义元集合中每个真子集所包括的所有修饰语义元分别与该语句对应的第二语义组表达式中的被修饰语义元生成语义组表达式，得到派生语义组表达式；

所述更新模块，用于根据所述第二语义组表达式和所述派生语义组表达式，更新所述索引表。

10.根据权利要求6或7所述的装置，其特征在于，还包括：排序模块；

所述匹配模块在文档库中获取与所述相关文档标识对应的文档之前，所述排序模块用于，对所述相关文档标识进行相关性排序。