CN109271621B

CN109271621B - 语义消歧处理方法、装置及其设备

Info

Publication number: CN109271621B
Application number: CN201710585495.2A
Authority: CN
Inventors: 何鑫
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2017-07-18
Filing date: 2017-07-18
Publication date: 2023-04-18
Anticipated expiration: 2037-07-18
Also published as: CN109271621A

Abstract

本发明公开了一种语义消歧处理方法、装置及其设备，其中，方法包括：确定筛选文本基本匹配信息并根据其对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息；建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，在匹配成功时根据与对应的孩子节点的匹配结果确定是否反转与父亲节点的匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

Description

语义消歧处理方法、装置及其设备

技术领域

本发明涉及自然语言处理领域，尤其涉及一种语义消歧处理方法、装置及其设备。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。通常，自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。

具体地，举例而言，关键词对于文章内容的匹配查询，由于语言本身的多样性特点，一个关键词可能同时兼有不同的语义，在使用字面内容进行文本匹配时，可能导致***无法区别语义差异，使得匹配到的结果仅仅能够是字面上的一致，但并不能等同语义上的一致。

发明内容

本发明实施例提供一种语义消歧处理方法、装置及其设备，以解决现有技术中，在使用字面内容进行文本匹配时导致***无法区别语义差异，使得匹配到的结果仅仅能够是字面上的一致，但并不能等同语义上的一致的问题。

本发明实施例提供一种语义消歧处理方法，包括：确定筛选文本的基本匹配信息，其中，所述基本匹配信息具有多语义；根据与所述基本匹配信息对应的目标语义和歧义语义，生成与所述基本匹配信息关联的多个限定匹配信息；建立用于筛选与所述基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，所述数据结构包括：与所述基本匹配信息对应的根节点，以及与所述多个限定匹配信息对应的多个子节点，并根据所述目标语义和歧义语义建立与所述根节点和所述多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。

本发明另一实施例提供一种语义消歧处理装置，包括：确定模块，用于确定筛选文本的基本匹配信息，其中，所述基本匹配信息具有多语义；生成模块，用于根据与所述基本匹配信息对应的目标语义和歧义语义，生成与所述基本匹配信息关联的多个限定匹配信息；建立模块，用于建立用于筛选与所述基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，所述数据结构包括：与所述基本匹配信息对应的根节点，以及与所述多个限定匹配信息对应的多个子节点，并根据所述目标语义和歧义语义建立与所述根节点和所述多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。

本发明再一实施例提供一种服务器，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现本发明第一方面实施例所述的语义消歧处理方法。

本发明还一实施例提供一种存储介质，用于存储应用程序，所述应用程序用于执行本发明第一方面实施例所述的语义消歧处理方法。

本发明实施例提供的技术方案可以包括以下有益效果：

通过确定筛选文本的具有多语义的基本匹配信息，并根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，在匹配成功时根据与对应的孩子节点的匹配结果确定是否反转与父亲节点的匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明一个实施例的语义消歧处理方法的流程图；

图2是根据本发明一个实施例的语义消歧数据结构的示意图；

图3是根据本发明另一个实施例的语义消歧处理方法的流程图；

图4是根据本发明另一个实施例的语义消歧数据结构的示意图；

图5是根据本发明又一个实施例的语义消歧数据结构的示意图；

图6是根据本发明再一个实施例的具体语义消歧数据结构的示意图；

图7是根据本发明第一个实施例的语义消歧处理装置的结构示意图；

图8是根据本发明另一个实施例的语义消歧处理装置的结构示意图；

图9是根据本发明一个实施例的语义消歧处理方法的交互流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语义消歧处理方法、装置及其设备。

目前，关键词匹配是直接通过关键词与文章切片部分进行完全匹配的方式进行识别的，并且大多关注点在于如何更高效地匹配大量关键词上，很少涉及语义匹配。

由于现有技术中，一个关键词可能同时兼有不同的语义，在使用字面内容进行文本匹配时，无法区分语义差异会导致匹配结果仅仅是字面上一致，但并不等同语义上的一致，即获取不到最佳的语义匹配结果。

为了解决上述问题，本发明实施例的语义消歧处理方法，在确定具有多语义的基本匹配信息后，再根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，即通过语义消歧数据结构可以过滤掉不符合意图的基本匹配信息对应的语义，达到更精确的语义匹配结果。

下面参考附图和具体的实施例，对本发明实施例的语义消歧处理方法进行具体描述。

图1是根据本发明一个实施例的语义消歧处理方法的流程图，如图1所示，该语义消歧处理方法包括：

步骤101，确定筛选文本的基本匹配信息，其中，基本匹配信息具有多语义。

具体地，在实际应用中，基本匹配信息的形式有很多种，可以根据实际应用需要进行选择设置，举例说明如下：

第一种示例，关键词字符串。

第二种示例，正则表达式。

更具体地，作为一种示例，以筛选文本为“高尔夫汽车相关信息”，确定基本匹配信息的形式为关键词字符串“高尔夫”；作为另一种示例，以筛选文本为“查找关于手机各个性能的对比参考资料”，确定基本匹配信息的形式为正则表达式“了解更多手机性能对比资料”等等。

需要说明的是，基本匹配信息具有多语义，比如上述示例基本匹配信息“高尔夫”为例，其语义可以是“打高尔夫”、“高尔夫球”和“高尔夫汽车”等等。其中，为了能够匹配更多且准确的结果，把基本匹配信息进行“上位”以确保能够涵盖更多内容以进行匹配。

步骤102，根据与基本匹配信息对应的目标语义和歧义语义，生成与基本匹配信息关联的多个限定匹配信息。

具体地，基本匹配信息具有多个语义，包括目标语义和歧义语义，比如继续以上述示例中基本匹配信息“高尔夫”为例，其歧义语义可以是“打高尔夫”和“高尔夫球”；目标语义可以是“高尔夫汽车”。

进一步地，可以采用很多种形式根据与基本匹配信息对应的目标语义和歧义语义，生成与基本匹配信息关联的多个限定匹配信息，举例说明如下：

第一种示例，根据预设的匹配算法生成限定匹配信息。

第二种示例，根据预设的停用词生成限定匹配信息。

第三种示例，根据预设的上下文范围生成限定匹配信息。

具体地，可以根据实际应用需要选择上述方式中的一种或者多种生成限定匹配信息。可以理解的是，限定匹配信息的个数且生成方式的多样性，能够丰富语义消歧数据结构的性能。

具体地，继续以上述示例中基本匹配信息“高尔夫”为例，根据预设的匹配算法生成限定匹配信息可以为“高尔夫游戏大全、高尔夫游戏下载、高尔夫单机游戏、高尔夫游戏推荐”、根据预设的上下文范围生成限定匹配信息为“央视网体育高尔夫频道是最权威的高尔夫专业网站”等等。

步骤103，建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与父亲节点的匹配结果。

具体地，建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构。其中，语义消歧数据结构的形式有很多种，可以根据实际应用需要进行选择设置，举例说明如下：

第一种示例，采用json结构表示语义消歧数据结构。

第二种示例，采用XML结构表示语义消歧数据结构。

可以理解的是，建立的数据结构包括与基本匹配信息对应的根节点、与多个限定匹配信息对应的多个子节点、根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合。

为了本领域人员能够更加清楚上述结构的描述，结合图2以具体例子描述说明如下：

图2是根据本发明一个实施例的语义消歧数据结构的示意图，如图2所示：

具体地，语义消歧数据结构包括：与基本匹配信息对应的根节点A；与多个限定匹配信息对应的多个子节点B、C、D和E；以及根据目标语义和歧义语义建立与根节点A和多个子节点B、C、D和E对应的父亲节点和孩子节点的关系集合。

更具体地，根节点A作为父亲节点其有两个孩子节点B和C；B作为父亲节点其有两个孩子节点D和E；C后面没有节点。

进一步地，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，在匹配成功时根据与对应的孩子节点的匹配结果确定是否反转与父亲节点的匹配结果，比如A的两个孩子节点B和C有任一个与文本匹配成功时，表示A匹配失败、或者是B的两个孩子节点D和E有任一个与文本匹配成功时，表示B匹配失败。在B和C失败的情况下，则认为A匹配成功。可以理解的是，只有孩子节点匹配都不成功时，父亲节点才匹配成功。

需要说明的是，如果匹配失败时，则直接认定未匹配。

综上所述，本发明实施例的语义消歧处理方法，通过确定筛选文本的具有多语义的基本匹配信息，并根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，在匹配成功时根据与对应的孩子节点的匹配结果确定是否反转与父亲节点的匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

基于上述实施例的具体描述，可以知道建立用于筛选与所述基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构有很多种，为了本领域人员更加清楚语义消歧数据结构，下面以采用json结构表示语义消歧数据结构为例进行说明如下：

具体地，采用json结构表示语义消歧数据结构为：

[

{

‘word':‘高尔夫’,

‘invert’:[

{

‘word':‘高尔夫’,

‘invert’:null

},

{

‘word’:‘高尔夫’,

‘invert’:null

}

]

},

…

]。

其中，由基本匹配信息word和表示匹配反转逻辑的invert两部分组成。“word”表示基本匹配信息，即需要在文本中进行匹配的部分。“invert”表示不符合关键词词义的逻辑的集合，其中，逻辑可以是一个不符合词义的关键词，也可以是其他逻辑。举例而言，需要匹配出表示“高尔夫”这款汽车的内容，但是“高尔夫”一词本身存在歧义，因此，在配置基本匹配信息“高尔夫”后，还额外配置了表示歧义意思的两个词在“invert”集合中，其含义是如果匹配到“invert”中的词，则将原先匹配到“高尔夫”的结论进行反转，视为没有匹配到基本匹配信息“高尔夫”。

具体地，被反转的invert集合也是由一系列包括“word”和“invert”的装置单元组成。因此，每一个被反转的逻辑本身也有可能再次被反转，并如此往复递归下去。直到某个装置单元的“invert”为空，表示逻辑链表触底。例如上面的例子，反转中的“高尔夫球”也是一个独立的装置单元，但因为其“invert”为空，表示匹配到“高尔夫球”以后不会再有额外的反转逻辑触发，因此匹配到“高尔夫球”则认为是有效的匹配。

由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

基于上述实施例，在***中加载并构建完整匹配语义消歧数据结构，并将基本匹配信息标置为根节点，对文本采取深度优先的遍历策略匹配整个语义消歧数据结构，并返回关键词的语义匹配结果。具体结合图3描述如下：

图3是根据本发明另一个实施例的语义消歧处理方法的流程图，如图3所示，在上述实施例之后，该语义消歧处理方法还包括：

步骤201，获取待匹配的文本，从语义消歧数据结构的根节点对应的基本匹配信息开始对文本采取深度优先的遍历策略，匹配语义消歧数据结构中的相关节点对应的限定匹配信息，其中，深度优先的遍历策略包括：过滤逻辑与回溯逻辑。

步骤202，根据相关节点的匹配结果确定根节点的全部孩子节点的匹配结果，并输出文本与根节点的基本匹配信息对应的语义匹配结果。

具体地，语义消歧数据结构可以看做一棵多叉树，每一个父亲节点包含基本匹配信息属性，表示自身节点的匹配逻辑，另外还包括若干个孩子节点，孩子节点起到反转父节点匹配结果的作用。

作为一种示例，如图4所示，根节点1表示一个新的基本匹配信息，该基本匹配信息有三个表示反转语义的子节点2、7、8，其中子节点7不再包含任何子节点，因此表示子节点7在这一分支上的结束。而子节点2、8仍然包括各自的反转子节点，因此，当子节点2、8中有成功匹配的逻辑时，还需要继续下钻到更深的层进行反转逻辑的判断。

由此，从图4所示，要判断一个节点是否最终匹配成功，需要综合该节点以及该节点的全部孩子节点的匹配结果才能得出。

可以理解的是，判断一个节点处匹配成功与否需要综合该节点以及该节点的全部孩子节点的匹配结果，因此，需要采取深度优先的遍历策略。深度优先的遍历策略包括：过滤逻辑与回溯逻辑。

其中，过滤逻辑包括将文本与当前节点对应的匹配信息进行匹配，如果匹配失败，则确定当前节点匹配失败，如果匹配成功，则检查当前节点是否包含未访问过的孩子节点，如包括，则对未访问过的孩子节点递归的执行过滤逻辑。即过滤逻辑表示遍历过程初访问到某个节点时的行为，在这个时点上遍历过程还没有访问过该节点的任何孩子节点。

更具体地，过滤逻辑用于判断是否需要继续访问孩子节点的充分必要条件是当前节点的匹配信息与文本是匹配的。即如果当前节点的匹配信息与文本成功匹配，则能够进入反转，否则，无需再进入其反转的孩子节点，直接可以判定为未匹配。

需要说明的是，如果当前节点不包含未访问过的孩子节点，则对当前节点执行回溯逻辑。

具体地，回溯逻辑包括如果当前节点已经不包含未访问过的孩子节点，判断当前节点的全部孩子节点是否都匹配失败，若是，则当前节点匹配成功，若至少一个孩子节点匹配成功，则当前节点匹配失败。即回溯逻辑表示遍历过程最后一次访问到某个节点时的行为，这个时点上遍历过程已经完成了该节点的所有孩子节点的过滤逻辑和回溯逻辑，因此此时该节点上包含其所有孩子节点的遍历信息。

更具体地，回溯逻辑用于综合当前节点和全部孩子节点的匹配信息，得到当前节点的匹配结果。包含两种情况，一种是当前节点的匹配信息未匹配，则直接认定为未匹配；另一种是当前节点的匹配信息匹配，此时若当前节点的全部孩子节点均未匹配，则认定结果为匹配，否则，只要有一个孩子节点的结果为匹配，则反转当前节点匹配信息的匹配结果，即为未匹配。

因此，根据相关节点的匹配结果确定根节点的全部孩子节点的匹配结果，并输出文本与根节点的基本匹配信息对应的语义匹配结果有很多种，举例说明如下：

第一种示例，若根据相关节点的匹配结果确定根节点的全部孩子节点都匹配失败，则输出文本与根节点的基本匹配信息对应的语义匹配成功。

第二种示例，若根据相关节点的匹配结果确定根节点的至少一个孩子节点匹配成功，则输出文本与根节点的基本匹配信息对应的语义匹配失败。

需要说明的是，在对未访问过的孩子节点递归的执行过滤逻辑之前，可以对未访问过的孩子节点对应的限定匹配信息通过trie树或datrie树的数据结构进行表征。由此，可以对多个子节点并列进行处理，提高匹配效率。

综上所述，本发明实施例的语义消歧处理方法，通过获取待匹配的文本，从语义消歧数据结构的根节点对应的基本匹配信息开始对文本采取深度优先的遍历策略，匹配语义消歧数据结构中的相关节点对应的限定匹配信息，其中，深度优先的遍历策略包括：过滤逻辑与回溯逻辑，根据相关节点的匹配结果确定根节点的全部孩子节点的匹配结果，并输出文本与根节点的基本匹配信息对应的语义匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

基于上述实施例，下面结合图4以不同的场景描述如何将基本匹配信息标置为根节点，对文本采取深度优先的遍历策略匹配整个语义消歧数据结构，并返回关键词的语义匹配结果。具体说明如下：

作为一种场景实现，根节点1表示一个新的基本匹配信息，该基本匹配信息有三个表示反转语义的子节点2、7、8，将文本与子节点2对应的匹配信息进行匹配、将文本与子节点7对应的匹配信息进行匹配和将文本与子节点8对应的匹配信息进行匹配，只要子节点2、7、8中有一个子节点匹配成功，表示根节点1匹配失败；只有要子节点2、7、8三个子节点都匹配失败，表示根节点1匹配成功。

比如，只有子节点2匹配成功，需要进一步将子节点2的孩子节点3和6进行匹配，将文本与子节点3对应的匹配信息进行匹配和将文本与子节点6对应的匹配信息进行匹配，只要子节点3和6中有一个子节点匹配成功，表示子节点2匹配失败；只有要子节点3和6两个子节点都匹配失败，表示子节点2匹配成功。比如，只有子节点6匹配成功，需要进一步将子节点6的孩子节点进行匹配，然而根据图4描述，子节点6没有孩子节点不包含未访问过的孩子节点，则对子节点6执行回溯逻辑。

进一步地，子节点6匹配成功表示，子节点2匹配失败，由此，要子节点2、7、8三个子节点都匹配失败，表示根节点1匹配成功。其中，根节点1和子节点6是匹配的。

作为另一种场景实现，根节点1表示一个新的基本匹配信息，该基本匹配信息有三个表示反转语义的子节点2、7、8，将文本与子节点2对应的匹配信息进行匹配、将文本与子节点7对应的匹配信息进行匹配和将文本与子节点8对应的匹配信息进行匹配，只要子节点2、7、8中有一个子节点匹配成功，表示根节点1匹配失败；只有要子节点2、7、8三个子节点都匹配失败，表示根节点1匹配成功。

比如，只有子节点8匹配成功，需要进一步将子节点8的孩子节点9和12进行匹配，将文本与子节点9对应的匹配信息进行匹配和将文本与子节点12对应的匹配信息进行匹配，只要子节点9和12中有一个子节点匹配成功，表示子节点8匹配失败；只有要子节点9和12两个子节点都匹配失败，表示子节点8匹配成功。比如，子节点9和12两个子节点都匹配失败即子节点8匹配成功，开始进入反转，子节点8匹配成功表示根节点1匹配失败，直接判定为未匹配输出结果。

为了本领域人员更加清楚上述场景，下面以结合图5和图6以基本匹配信息分别为“高尔夫”和“大众”为例进行举例说明：

第一种示例，筛选文本为“高尔夫汽车相关信息”，确定基本匹配信息为“高尔夫”。如图5所示，根节点“高尔夫”表示一个新的基本匹配信息，该基本匹配信息有三个表示反转语义的子节点“高尔夫球”、“高尔夫汽车”和“打高尔夫”，将文本与子节点“高尔夫球”对应的匹配信息进行匹配、将文本与子节点“高尔夫汽车”对应的匹配信息进行匹配和将文本与子节点“打高尔夫”对应的匹配信息进行匹配，可以看出子节点“高尔夫汽车”匹配成功，表示根节点“高尔夫”匹配失败。

进一步地，需要将子节点“高尔夫汽车”的孩子节点“高尔夫汽车的性能介绍”和“高尔夫运动者喜欢什么汽车”，将文本与子节点“高尔夫汽车的性能介绍”对应的匹配信息进行匹配和将文本与子节点“高尔夫与汽车的关系”对应的匹配信息进行匹配，只有子节点“高尔夫汽车的性能介绍”匹配成功，需要进一步将子节点“高尔夫汽车的性能介绍”的孩子节点进行匹配，然而子节点“高尔夫汽车的性能介绍”不包含未访问过的孩子节点，则对子节点“高尔夫汽车的性能介绍”执行回溯逻辑。

进一步地，子节点“高尔夫汽车的性能介绍”匹配成功表示，子节点“高尔夫汽车”匹配失败，由此，要子节点“高尔夫球”、“高尔夫汽车”和“打高尔夫”三个子节点都匹配失败，表示根节点“高尔夫”匹配成功。其中，根节点“高尔夫”和子节点“高尔夫汽车的性能介绍”是匹配的。

第二种示例，筛选文本为“大众点评网的真实性”，确定基本匹配信息为“大众”。如图6所示，根节点“大众”表示一个新的基本匹配信息，该基本匹配信息有两个表示反转语义的子节点“大众汽车”和“大众点评”，将文本与子节点“大众汽车”对应的匹配信息进行匹配、将文本与子节点“大众点评”对应的匹配信息进行匹配，要子节点“大众点评”匹配成功，表示根节点“大众”匹配失败。

进一步地，需要将子节点“大众点评”的孩子节点“大众汽车的点评情况”和“大多观众对某某电影的电评”，子节点“大众汽车的点评情况”和“大多观众对某某电影的电评”两个子节点都匹配失败即表示子节点“大众点评”匹配成功，开始进入反转，子节点“大众点评”匹配成功表示根节点“大众”匹配失败，直接判定为未匹配输出结果。

与上述几种实施例提供的语义消歧处理方法相对应，本发明的一种实施例还提供一种语义消歧处理装置，由于本发明实施例提供的语义消歧处理装置与上述几种实施例提供的语义消歧处理方法相对应，因此在前述语义消歧处理方法的实施方式也适用于本实施例提供的语义消歧处理装置，在本实施例中不再详细描述。

图7是根据本发明第一个实施例的语义消歧处理装置的结构示意图，如图7所示，该语义消歧处理装置包括：确定模块11、生成模块12和建立模块13。

确定模块11，用于确定筛选文本的基本匹配信息，其中，基本匹配信息具有多语义。

生成模块12，用于根据与基本匹配信息对应的目标语义和歧义语义，生成与基本匹配信息关联的多个限定匹配信息。

建立模块13，用于建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和所述多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。

第一种示例，关键词字符串。

第二种示例，正则表达式。

进一步地，生成模块12根据与基本匹配信息对应的目标语义和歧义语义，生成与基本匹配信息关联的多个限定匹配信息有很多种，可以根据实际应用需要进行选择设置，举例说明如下：

第一种示例，根据预设的匹配算法生成限定匹配信息。

第二种示例，根据预设的停用词生成限定匹配信息。

第三种示例，根据预设的上下文范围生成限定匹配信息。

第一种示例，采用json结构表示语义消歧数据结构。

第二种示例，采用XML结构表示语义消歧数据结构。

综上所述，本发明实施例的语义消歧处理装置，通过确定筛选文本的具有多语义的基本匹配信息，并根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

基于上述实施例，在***中加载并构建完整匹配语义消歧数据结构，并将基本匹配信息标置为根节点，对文本采取深度优先的遍历策略匹配整个语义消歧数据结构，并返回关键词的语义匹配结果。

图8是根据本发明另一个实施例的语义消歧处理装置的结构示意图，如图8所示，在上述实施例之后，该语义消歧处理装置还包括：获取匹配模块14和处理模块15。

其中，获取匹配模块14，用于获取待匹配的文本，从语义消歧数据结构的根节点对应的基本匹配信息开始对文本采取深度优先的遍历策略，匹配语义消歧数据结构中的相关节点对应的限定匹配信息，其中，深度优先的遍历策略包括：过滤逻辑与回溯逻辑，其中，

过滤逻辑包括：将文本与当前节点对应的匹配信息进行匹配，如果匹配失败，则确定当前节点匹配失败，如果匹配成功，则检查当前节点是否包含未访问过的孩子节点，如包括，则对未访问过的孩子节点递归的执行过滤逻辑。

回溯逻辑包括：如果当前节点已经不包含未访问过的孩子节点，判断当前节点的全部孩子节点是否都匹配失败，若是，则当前节点匹配成功，若至少一个孩子节点匹配成功，则当前节点匹配失败。

处理模块15，用于根据相关节点的匹配结果确定根节点的全部孩子节点的匹配结果，并输出文本与根节点的基本匹配信息对应的语义匹配结果。

需要说明的是，在对未访问过的孩子节点递归的执行过滤逻辑之前，可以对未访问过的孩子节点对应的限定匹配信息通过trie树或datrie树的数据结构进行表征，以提高匹配效率。

进一步地，在本发明可能实现的一种形式中，处理模块15具体用于：

若根据相关节点的匹配结果确定根节点的全部孩子节点都匹配失败，则输出文本与根节点的基本匹配信息对应的语义匹配成功。

若根据相关节点的匹配结果确定根节点的至少一个孩子节点匹配成功，则输出文本与根节点的基本匹配信息对应的语义匹配失败。

综上所述，本发明实施例的语义消歧处理装置，通过获取待匹配的文本，从语义消歧数据结构的根节点对应的基本匹配信息开始对文本采取深度优先的遍历策略，匹配语义消歧数据结构中的相关节点对应的限定匹配信息，其中，深度优先的遍历策略包括：过滤逻辑与回溯逻辑，根据相关节点的匹配结果确定根节点的全部孩子节点的匹配结果，并输出文本与根节点的基本匹配信息对应的语义匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

为了实现上述实施例，本发明还提出了一种服务器。图9是根据本发明一个实施例的语义消歧处理方法的交互流程示意图，在对服务器侧的语义消歧处理的过程为：处理器首先确定筛选文本的基本匹配信息，其中，基本匹配信息具有多语义，接着处理器根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后处理器建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，在孩子节点对应的匹配信息与文本匹配成功时反转其父亲节点与文本的匹配结果。

综上所述，本发明实施例的服务器，通过确定筛选文本的具有多语义的基本匹配信息，并根据与基本匹配信息对应的目标语义和歧义语义生成与基本匹配信息关联的多个限定匹配信息，最后建立用于筛选与基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，数据结构包括：与基本匹配信息对应的根节点，以及与多个限定匹配信息对应的多个子节点，并根据目标语义和歧义语义建立与根节点和多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，在匹配成功时根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。由此，能够提高语义消歧的效率和准确性，达到更优的语义匹配效果。

为了实现上述实施例，本发明还提出了一种存储介质，用于存储应用程序，应用程序用于执行本发明任一项实施例所述的语义消歧处理方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语义消歧处理方法，其特征在于，包括：

确定筛选文本的基本匹配信息，其中，所述基本匹配信息具有多语义；

根据与所述基本匹配信息对应的目标语义和歧义语义，生成与所述基本匹配信息关联的多个限定匹配信息；

建立用于筛选与所述基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，所述数据结构包括：与所述基本匹配信息对应的根节点，以及与所述多个限定匹配信息对应的多个子节点，并根据所述目标语义和歧义语义建立与所述根节点和所述多个子节点对应的父亲节点和孩子节点的关系集合，其中，将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。

2.如权利要求1所述的方法，其特征在于，所述生成与所述基本匹配信息关联的多个限定匹配信息，包括：

根据预设的匹配算法生成所述限定匹配信息；或者，

根据预设的停用词生成所述限定匹配信息；或者，

根据预设的上下文范围生成所述限定匹配信息。

3.如权利要求1或2所述的方法，其特征在于，还包括：

获取待匹配的文本，从所述语义消歧数据结构的根节点对应的基本匹配信息开始对所述文本采取深度优先的遍历策略，匹配所述语义消歧数据结构中的相关节点对应的限定匹配信息，其中，所述深度优先的遍历策略包括：过滤逻辑与回溯逻辑，其中，

所述过滤逻辑包括：将所述文本与当前节点对应的匹配信息进行匹配，如果匹配失败，则确定当前节点匹配失败，如果匹配成功，则检查当前节点是否包含未访问过的孩子节点，如包括，则对所述未访问过的孩子节点递归的执行所述过滤逻辑；

所述回溯逻辑包括：如果当前节点已经不包含未访问过的孩子节点，判断当前节点的全部孩子节点是否都匹配失败，若是，则当前节点匹配成功，若至少一个孩子节点匹配成功，则当前节点匹配失败；

根据所述相关节点的匹配结果确定所述根节点的全部孩子节点的匹配结果，并输出所述文本与所述根节点的基本匹配信息对应的语义匹配结果。

4.如权利要求3所述的方法，其特征在于，在对所述未访问过的孩子节点递归的执行所述过滤逻辑之前，还包括：

对所述未访问过的孩子节点对应的限定匹配信息通过trie树或datrie树的数据结构进行表征。

5.如权利要求3所述的方法，其特征在于，所述根据所述相关节点的匹配结果确定所述根节点的全部孩子节点的匹配结果，并输出所述文本与所述根节点的基本匹配信息对应的语义匹配结果，包括：

若根据所述相关节点的匹配结果确定所述根节点的全部孩子节点都匹配失败，则输出所述文本与所述根节点的基本匹配信息对应的语义匹配成功；

若根据所述相关节点的匹配结果确定所述根节点的至少一个孩子节点匹配成功，则输出所述文本与所述根节点的基本匹配信息对应的语义匹配失败。

6.一种语义消歧处理装置，其特征在于，包括：

确定模块，用于确定筛选文本的基本匹配信息，其中，所述基本匹配信息具有多语义；

生成模块，用于根据与所述基本匹配信息对应的目标语义和歧义语义，生成与所述基本匹配信息关联的多个限定匹配信息；

建立模块，用于建立用于筛选与所述基本匹配信息匹配的且符合目标语义文本的语义消歧数据结构，所述数据结构包括：与所述基本匹配信息对应的根节点，以及与所述多个限定匹配信息对应的多个子节点，并根据所述目标语义和歧义语义建立与所述根节点和所述多个子节点对应的父亲节点和孩子节点的关系集合，其中，若将待匹配的文本与当前的父亲节点对应的匹配信息进行匹配，如果匹配成功，则根据与对应的孩子节点的匹配结果确定是否反转与所述父亲节点的匹配结果。

7.如权利要求6所述的装置，其特征在于，所述生成模块具体用于：

根据预设的匹配算法生成所述限定匹配信息；或者，

根据预设的停用词生成所述限定匹配信息；或者，

根据预设的上下文范围生成所述限定匹配信息。

8.如权利要求6或7所述的装置，其特征在于，还包括：

获取匹配模块，用于获取待匹配的文本，从所述语义消歧数据结构的根节点对应的基本匹配信息开始对所述文本采取深度优先的遍历策略，匹配所述语义消歧数据结构中的相关节点对应的限定匹配信息，其中，所述深度优先的遍历策略包括：过滤逻辑与回溯逻辑，其中，

处理模块，用于根据所述相关节点的匹配结果确定所述根节点的全部孩子节点的匹配结果，并输出所述文本与所述根节点的基本匹配信息对应的语义匹配结果。

9.如权利要求8所述的装置，其特征在于，在对所述未访问过的孩子节点递归的执行所述过滤逻辑之前，还包括：

10.如权利要求8所述的装置，其特征在于，所述处理模块具体用于：

11.一种服务器，其特征在于，包括：

存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-5任一项所述的语义消歧处理方法。

12.一种存储介质，其特征在于，用于存储应用程序，所述应用程序用于执行权利要求1-5任一项所述的语义消歧处理方法。