WO2022078145A1

WO2022078145A1 - 面向本质计算与推理的跨dikw模态文本歧义处理方法

Info

Publication number: WO2022078145A1
Application number: PCT/CN2021/118178
Authority: WO
Inventors: 段玉聪; 胡时京
Original assignee: 海南大学
Priority date: 2020-10-15
Filing date: 2021-09-14
Publication date: 2022-04-21
Also published as: CN112232085B; CN112232085A

Abstract

一种面向本质计算与推理的跨DIKW模态文本歧义处理方法、***、一种电子设备及一种存储介质，所述方法包括：获取目标文本，并确定目标文本中的目标数据资源和目标信息资源（S101）；根据目标数据资源和/或目标信息资源查询目标文本的相关资源，并根据相关资源确定目标文本的文本含义（S102）；若目标文本的文本含义的数量大于1，则获取目标文本的补充资源，并根据补充资源生成目标文本的条件限制文本（S103）；将符合条件限制文本的文本含义作为目标文本的实际文本含义，并根据实际文本含义修改目标文本（S104），该方法能够准确识别并消除文本中存在的歧义。

Description

面向本质计算与推理的跨DIKW模态文本歧义处理方法

本申请要求于2020年10月15日提交中国专利局、申请号为202011103480.6、发明名称为“面向本质计算与推理的跨DIKW模态文本歧义处理方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及软件工程学技术领域，特别涉及一种面向本质计算与推理的跨DIKW模态文本歧义处理方法、***、一种电子设备及一种存储介质。

背景技术

大数据时代的来临，使得数据的规模变得愈发庞大。通过对数据进行关联分析可以获取到很多信息，甚至包括隐私、机密等十分重要的内容，并且数据和信息资源可被概括、逻辑推理成为知识，而知识资源又能反过来作用在数据资源和信息资源上，计算推理出更多新的对特定目标存在价值的数据资源和信息资源，甚至可以对某些特定目标进行预测分析。

歧义是指对文本内容有多种不同目的的理解，即由内容中的类型资源可以进行多种推导得到不同目的的信息资源。产生歧义的原因由两种：一种是由于内容有缺失，缺少部分数据资源或信息资源导致对内容的理解的范围较广，推导时会产生不同目的的理解；另一种是由于内容中存在冗余，冗余的数据资源或信息资源在结合不同的类型资源进行推导时会产生不同目的的理解。相关技术中主要通过机器学习模型实现文本歧义的处理，但是机器学习模型的识别准确率过度依赖训练样本的丰富度，无法对文本歧义进行有效的处理。

因此，如何准确识别并消除文本中存在的歧义是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种面向本质计算与推理的跨DIKW模态文本歧义处理方法、***、一种电子设备及一种存储介质，能够准确识别并消除文本中存在的歧义。

为解决上述技术问题，本申请提供一种面向本质计算与推理的跨DIKW模态文本歧义处理方法，该方法包括：

获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；

将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。

可选的，确定所述目标文本中的目标数据资源和目标信息资源，包括：

确定所述目标文本的资源类型；其中，所述资源类型包括数据资源、信息资源和知识资源，数据资源为数据图谱中的资源，信息资源为信息图谱中的资源，知识资源为知识图谱中的资源；

对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源；其中，所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。

可选的，对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源，包括：

判断所述目标文本是否为数据资源；若是，则将所述目标文本设置为所述目标数据资源；若否，则对所述目标文本执行跨模态转化得到所述目标数据资源；

判断所述目标文本是否为信息资源；若是，则将所述目标文本设置为所述目标信息资源；若否，则对所述目标文本执行跨模态转化得到所述目标信息资源。

可选的，根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，包括：

获取所述目标文本的关联文本；

根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。

可选的，获取所述目标文本的补充资源，包括：

将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源；

和/或，将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的补充资源。

可选的，在判定所述目标文本的文本含义的数量大于1之后，还包括：

判定所述目标文本为缺失数据资源或信息资源的文本；

或，判定所述目标文本为数据资源冗余或信息资源冗余的文本。

可选的，根据所述相关资源确定所述目标文本的文本含义，包括

将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。

本申请还提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理***，该***包括：

文本分析模块，用于获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

含义确定模块，用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

资源补充模块，用于若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；

文本修改模块，用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序执行时实现上述面向本质计算与推理的跨DIKW模态文本歧义处理方法执行的步骤。

本申请还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现上述面向本质计算与推理的跨DIKW模态文本歧义处理方法执行的步骤。

本申请提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理方法，包括：获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。

本申请在获取目标文本之后，确定目标文本中包含的目标数据资源和目标信息资源，进而根据目标数据资源和目标信息资源查询目标文本的相关资源，根据相关资源确定目标文本的文本含义。本申请根据目标文本的补充资源生成目标文本的条件限制文本，将符合条件限制文本的文本含义作为所述目标文本的实际文本含义，进而根据所述实际文本含义修改所述目标文本，消除了目标文本中的歧义。可见，本申请能够准确识别并消除文本中存在的歧义。本申请同时还提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理***、一种存储介质和一种电子设备，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理方法的流程图；

图2为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理***的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的以下实施例可以利用基于数据图谱、信息图谱和知识图谱的多模态内容歧义判断***实现。资源元素可以包括数据资源、信息资源和知识资源三种形态，图谱指对资源元素进行整合的结果，资源元素的图谱包括数据图谱、信息图谱和知识图谱。DIKW指Data(数据)，Information(信息)，knowledge(知识)和Wisdom(智慧)，DIKW模型是可以用于帮助理解数据、信息、知识和智慧之间的关系的模型。

数据图谱是各种数据结构包括数组、链表、栈、队列、树和图等数据资源的集合。数据图谱是通过观察获得的数字或其他类型信息的基本个体项目。信息图谱是通过数据资源和数据资源组合之后的上下文传达的，经过概念映射和相关关系组合之后的适合分析和解释的信息。知识图谱实质是语义网络，包括由信息资源总结出的统计规则的集合。知识图谱蕴含丰富的语义关系，在知识图谱上通过信息推理和实体链接可提高知识图谱的边密度和节点密度，知识图谱的无结构特性使得其自身可以无缝链接。对于本领域技术人员而言，数据图谱、信息图谱、知识图谱、数据资源、信息资源和知识资源等概念均清楚明确，具体可以参见《投入驱动的存储与计算一体化的事务处理效率优化方法》、《Modelling Data,Information and Knowledge for Security Protection of Hybrid IoT and Edge Resources》等文献中的介绍。

本申请所提供的实施例可以应用于遥感领域，即基于与遥感领域相关的数据图谱、信息图谱和知识图谱实现文本歧义处理。

下面请参见图1，图1为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理方法的流程图。

具体步骤可以包括：

S101：获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

其中，在获取目标文本之后，本实施例可以对目标文本执行数据资源提取操作得到目标数据资源，也可以对目标文本执行信息资源提取操作得到目标信息资源。作为一种可行的实施方式，本实施例可以利用包括数据资源和信息资源对应的模板确定符合模板的目标数据资源和目标信息资源。本实施例可以对目标文本进行文本分析，根据文本分析结果确定目标数据资源和目标信息资源。本实施例还可以将包括样本数据资源和样本信息资源的资源集合与目标文本进行文本匹配，得到目标数据资源和目标信息资源。

举例说明本实施例中从目标文本中提取目标数据资源和目标信息资源的过程：

目标文本“夏天夜晚，用户A待在书房。”中的目标数据资源可以包括

(地点：书房)、

(时间：夜晚)、

(季节：夏天)，信息资源可以包括：I ₀(夏天夜晚在书房)；

S102：根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

其中，本实施例可以获取目标文本的关联文本，基于关联文本中的数据资源和信息资源确定目标文本的文本含义，目标文本的任意两个文本含义互不相同，即目标文本的歧义所在。本实施例可以将目标文本得上下文作为关联文本，也可以将其他与目标文本存在联系的文本作为关联文本。在获取所述目标文本的关联文本之后，本实施例可以根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。

在得到目标文本的相关资源之后，本实施例可以将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。例如目标文本为“夜晚，小明在书房”，若关联文本中确定的关联资源为“春节”和“考试”，此时将会得到以下两种文本含义“夜晚，小明在书房守岁”，“夜晚，小明在书房复习”。作为一种可行的实施方式，本实施例可以将相关资源和目标文本显示至人机交互界面，以便用户确定目标文本的文本含义。

S103：若所述目标文本的文本含义的数量大于1，则获取目标文本的补充资源，并根据补充资源生成所述目标文本的条件限制文本；

若所述目标文本的文本含义的数量为1，则说明目标文本中不存在歧义；若所述目标文本的文本含义的数量大于1，则说明目标文本中存在歧义。本实施例中提到的存在歧义的目标文本可以为缺失数据资源或信息资源的文本，文本中内容缺失导致了对内容理解范围的限制的减少。在理解范围较广的情况下，结合不同的知识资源可以推导出不同目的的信息资源。通过增加对内容理解的限制，可以缩小内容的理解范围，以达到在推导出的多种不同目的的信息资源中只保留其中一个，从而消除歧义。基于数据图谱、信息图谱和知识图谱对内容进行建模，内容存在缺失的情况对应在图谱上可分为信息资源存在缺失和数据资源存在缺失两类。本实施例中提到的存在歧义的目标文本也可以为数据资源冗余或信息资源冗余的文本。文本中存在冗余的数据资源或信息资源在某一相同的问题上有多种不同目的的理解。基于数据图谱、信息图谱和知识图谱对内容进行建模。内容存在冗余的情况对应在图谱上可分为信息资源存在冗余和数据资源存在冗余两类。

其中，本实施例可以根据所述目标数据资源从数据图谱中查询所述目标文本的补充资源；本实施例还可以根据目标信息资源从信息图谱中查询所述目标文本的补充资源。

数据图谱中包括大量的数据资源，数据图谱中的数据资源之间存在一定的关联程度，本实施例可以根据数据图谱中的数据资源关联程度查询目标文本的补充资源，例如可以将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源。例如目标数据资源为“冬天”，数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源可以包括“保暖指数”、“降雪概率”等。相应的，信息图谱中包括大量的信息资源，信息图谱中的信息资源之间存在一定的关联程度，本实施例可以根据信息图谱中的信息资源关联程度查询目标文本的补充资源，例如可以将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的补充资源。例如目标信息资源为“爱因斯坦正在上课”，信息图谱中与所述目标信息资源的关联程度大于预设值的信息资源可以包括“爱因斯坦是物理学家”、“爱因斯坦当时已经结婚”等。

S104：将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。

在获得了目标文本的条件限制文本之后，本实施例可以将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义。继续以目标信息资源“爱因斯坦正在上课”为例，目标文本的将会存在以下两个文本含义“1、爱因斯坦的职业是学生”、“2、爱因斯坦的职业是教师”；若补充资源对应的条件限制文本为“爱因斯坦是物理学家，且当时爱因斯坦已经结婚”，可以利用条件限制文本确定目标文本的实际文本含义。本实施例可以根据实际文本含义修改目标文本，以便消除目标文本中的歧义。作为一种可行的实施方式，本实施例可以将条件限制文本和目标文本的每一文本含义显示至人机交互界面，以便用户确定将符合所述条件限制文本的文本含义。

本实施例在获取目标文本之后，确定目标文本中包含的目标数据资源和目标信息资源，进而根据目标数据资源和目标信息资源查询目标文本的相关资源，根据相关资源确定目标文本的文本含义。本实施例根据目标文本的补充资源生成目标文本的条件限制文本，将符合条件限制文本的文本含义作为所述目标文本的实际文本含义，进而根据所述实际文本含义修改所述目标文本，消除了目标文本中的歧义。可见，本实施例能够准确识别并消除文本中存在的歧义。

作为对于图1对应实施例的进一步介绍，可以通过以下方式确定目标文本中的目标数据资源和目标信息资源：确定所述目标文本的资源类型；对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源；其中，所述资源类型包括数据资源、信息资源和知识资源，数据资源为数据图谱中的资源，信息资源为信息图谱中的资源，知识资源为知识图谱中的资源；上述所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。数据信息混合资源为数据资源与信息资源相混合的资源。

具体的，在执行跨模态转化的过程中，可以执行以下操作：判断所述目标文本是否为数据资源；若是，则将所述目标文本设置为所述目标数据资源；若否，则对所述目标文本执行跨模态转化得到所述目标数据资源；判断所述目标文本是否为信息资源；若是，则将所述目标文本设置为所述目标信息资源；若否，则对所述目标文本执行跨模态转化得到所述目标信息资源。

下面通过在实际应用中的实施例说明上述实施例描述的流程。

场景1：对于信息资源存在缺失导致的歧义的处理。

文本内容：“夏天夜晚，用户A待在书房。”可以对应如下数据、信息资源：

由于该内容缺少“用户A待在书房做什么”这一信息资源，因此对于该内容进行理解时会有歧义。例如结合数据资源

“用户待在书房”和知识资源K ₁：“书房是用来学习的地方”，可以推导出用户A待在书房的目的是学习。而结合数据资源

：“晚上”和知识资源K ₂：“人在晚上一般会睡觉”，可以推导出用户A可能目的是在书房睡觉。这两种推导方式在没有其它相关资源的情况下都是正确的，但却产生了不同目的的信息资源，导致了歧义。

上述内容符号化表达如下：

已知：K ₁＝R _IN(T _ACTIVITY(Study),T _PLACE(Studyroom))

K ₂＝R _AT(T _ACTIVITY(Sleep),T _TIME(Night))

可进行推导：

本实施例可以通过增加相关的数据资源或信息资源来缩小内容理解的范围，从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。

方式A1：增加数据资源

若知道相关的数据资源D ₁：卧室的空调是坏的；D ₂：书房的空调是好的。结合已知的数据资源

：“夏天”，和知识资源K ₃：“夏天很热”，就可以推导出卧室温度高而书房温度低。上述数据资源增加了对书房环境的限制，从而将对内容理解的范围缩小至温度相关的领域。再结合知识资源K ₄：“人喜欢在凉快的地方睡觉”，可以推导出书房温度低适合睡觉，支持了之前推导出的“用户A待在书房的目的是睡觉”这一信息资源，从而消除了歧义。

上述内容符号化表达如下：

已知：D ₁＝(T _FACILITY(INS(AIR_CONDITION _Bedroom))|T _CONDITION(Broken))

D ₂＝(T _FACILITY(INS(AIR_CONDITION _Studyroom))|T _CONDITION(Normal))

K ₃＝R _IS(T _SEASON(Summer),T _TEMPERATURE(High))

K ₄＝R _LIKE(T _PERSON,R _IN(T _ACTIVITY(Sleep),R _IS(T _PLACE,T _TEMPERATURE(Low))))

可进行推导：

上述方式A1的算法实现过程如下：

由已知数据资源D ₀、信息资源I ₀结合相关知识资源(即上文提到的相关资源)，推导出不同目的的信息资源I _new1和I _new2。

在数据图谱中检索相关的数据资源D _related(即上文提到的补充资源)。

由D _related结合相关信息资源、知识资源，进一步推导出能缩小理解范围的信息资源I _new3。

判断I _new3与I _new1、I _new2之间的关系，保留I _new3支持的信息资源，删除其它信息资源。

将剩余的唯一信息资源设定为最终结果，消除歧义。

方式A2：增加信息资源

若知道相关的信息资源I ₁：用户A不喜欢学习。结合

“晚上”，和知识资源K ₅：“喜欢学习的人才可能会在晚上学习”，可以推导出用户A不太可能在这个时间在书房学习。该信息资源将“用户A待在书房的目的是学习”这一信息资源排除出了对内容的理解范围，剩下唯一的信息资源“用户A待在书房的目的是睡觉”就是最终结果，从而消除了歧义。

上述内容符号化表达如下：

已知：I ₁＝！R _LIKE(A,T _ACTIVITY(Study))

K ₅＝R _AT(R _DO(T _PERSON(R _LIKE(T _PERSON,T _ACTIVITY(Study))),T _ACTIVITY(Study)),T _TIME(Night))

可以进行推导：

上述方式A2的算法实现过程如下：

在信息图谱中检索相关的信息资源I _related(即上文提到的补充资源)。

由I _related结合相关数据资源、知识资源，进一步推导出能缩小理解范围的信息资源I _new3。

判断I _new3与I _new1、I _new2之间的关系，删除I _new3反对的信息资源，保留其它信息资源。

将剩余的唯一信息资源设定为最终结果，消除歧义。

场景2：对于信息资源存在缺失导致的歧义的处理。

文本内容：“用户A的辈分比用户B的辈分大。”可以对应如下数据、信息资源：

由于该内容缺少“用户A的年龄和用户B的年龄”相关的数据资源，因此基于此内容对“用户A和用户B的年龄大小”这一信息资源存在不同目的的理解。虽然有知识资源K_1：“辈分高有可能年龄大”，可以推导出“用户A可能比用户B年龄大”这一信息资源。但是辈分高且年龄小的例子也有很多，所以仍然无法排除“用户A可能比用户B年龄小”这一信息资源。

上述内容符号化表达如下：

已知：K ₁＝R _{PROBABLY_GREATER_THAN}(T _AGE(T _PERSON(T _SENIORITY(High)),T _AGE(T _PERSON(T _SENIORITY(Low))

可进行推导：

同样也可以通过增加相关的数据资源或信息资源来缩小内容理解的范围，从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。

方式B1：增加数据资源

若知道相关的数据资源D ₁：用户A心智成熟；D ₂：用户B心智天真。结合D ₁、D ₂可以推导出“用户A比用户B更成熟”这一信息资源。上述数据资源增加了在判断“用户A和用户B的年龄大小”时，对用户A和用户B心智成熟关系的限制，将对内容的理解范围进一步缩小。支持了之前推导的“用户A比用户B年龄大”这一信息资源。

上述内容符号化表达如下：

已知：D ₁＝(A|T _MIND(Mature))

D ₂＝(B|T _MIND(Naieve))

可进行推导：

上述方式B1的算法实现过程如下：

由已知数据资源D ₀、信息资源I ₀结合相关知识资源，推导出不同目的的信息资源I _new1和I _new2。

在数据图谱中检索相关的数据资源D _related。

将剩余的唯一信息资源设定为最终结果，消除歧义。

方式B2：增加信息资源

若知道相关的信息资源I ₁：用户B对用户A的态度很尊敬。有知识资源K ₃：“地位低的人对地位高的人态度尊敬”。结合I ₁和K ₃可推导出“用户A比用户B地位高”这一信息资源。上述数据资源增加了在判断“用户A和用户B的年龄大小”时，对用户A和用户B地位关系的限制，将对内容的理解范围进一步缩小。支持了之前推导的“用户A比用户B年龄大”这一信息资源。

上述内容符号化表达如下：

已知：I ₁＝R _RESPECT(B,A)

K ₃＝R _RESPECT(T _PERSON(T _STATUS(Low)),T _PERSON(T _STATUS(High)))

可进行推导：

上述方式B2的算法实现过程如下：

将剩余的唯一信息资源设定为最终结果，消除歧义。

场景3：对于信息资源存在冗余导致的歧义的处理。

文本内容：“用户A喜欢打篮球，用户A讨厌运动。”可以对应如下信息资源：

有知识资源K ₁：打篮球属于运动；K ₂：关系“讨厌”和关系“喜欢”相矛盾。由

和K ₁，用户A讨厌运动，而打篮球属于运动的一种，则可以推导出新的信息资源I _new1：用户A讨厌打篮球，由K ₂可知

与I _new1相矛盾。所以对于“用户A对打篮球的态度”这个问题，

和

有不同目的的理解，即内容中的信息资源存在冗余。

上述内容符号化表示如下：

已知：K ₁＝R _BELONGTO(T _ACTIVITY(PlayBasketball),T _ACTIVITY(Sports))

K ₂＝R _OPPOSE(T _RELATION(Like),T _RELATION(Hate))

可进行推导：

由上述推导可知：冗余的信息资源

和

是矛盾的，所以其中必有一个存在错误。可以通过增加相关的数据资源或信息资源来帮助判断冗余的信息资源的正误，从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。

方式C1：增加数据资源

若知道用户A相关的空间数据资源D ₁：篮球场。有相关知识资源K ₃：

篮球场主要用途是打篮球；K ₄：经常打篮球的人喜欢打篮球。结合D ₁和K ₃，用户A经常出现在篮球场，所以用户A经常打篮球。再结合K ₄，用户A经常打篮球，而经常打篮球的人很可能喜欢打篮球，说明用户A很可能喜欢打篮球，支持了信息资源

在信息资源

有相支持的数据，而信息资源

没有相支持的数据时，倾向于判定

正确而

错误，从而消除了歧义。

上述内容符号化表示如下：

已知:D ₁＝(A|T _PLACE(INS(BasketballCourt))

K ₃＝R _IN(T _ACTIVITY(PlayBasketball),T _PLACE(BasketballCourt))

K ₄＝R _LIKE(T _PERSON(R _DO(person,T _ACTIVITY(PlayBasketball)))，T _ACTIVITY(PlayBasketball))

可进行推导:

上述方式C1的算法实现过程如下：

已知存在冲突的信息资源

和

在数据图谱中检索相关的数据资源D _related。

由D _related结合相关信息资源、知识资源，进一步推导出帮助判断正误的信息资源I _new。

判断I _new与

之间的关系，保留I _new支持的结果，删除另一个结果。

将I _new支持的结果设定为最终结果，消除歧义。

方式C2：增加信息资源

若知道相关的信息资源I ₁：用户A是篮球校队的成员。有相关知识资源K ₅：篮球校队的成员经常打篮球。结合I ₁和K ₅，用户A是篮球校队的成员，所以用户A经常打篮球。用户A经常打篮球，再结合K ₄，用户A经常打篮球，而经常打篮球的人很可能喜欢打篮球，说明用户A很可能喜欢打篮球，支持了信息资源

在信息资源

有相支持的数据，而信息资源

没有相支持的数据时，倾向于判定

正确而

错误，从而消除了歧义。

上述内容符号化表示如下：

已知：I ₁＝R _{IS_A_MEMBER_OF}(A,T _GROUP(INS(BasketballTeam))

K ₅＝R _DO(T _PERSON(R _{IS_A_MEMBER_OF}(person,T _GROUP(BasketballTeam)),T _ACTIVITY(PlayBasketball))

可进行推导:

上述方式C2的算法实现过程如下：

已知存在冲突的信息资源

和

在信息图谱中检索相关的数据资源I _related。

由I _related结合相关数据资源、知识资源，进一步推导出帮助判断正误的信息资源I _new。

判断I _new与

之间的关系，保留I _new支持的结果，删除另一个结果。

将I _new支持的结果设定为最终结果，消除歧义。

场景3：对于数据资源存在冗余导致的歧义的处理。

内容中同时存在数据资源

今天温度为30度；

今天温度为20度。可以对应如下数据资源：

针对“今天的温度”这一问题，数据资源

和

所表示内容相矛盾，说明冗余的数据资源

和

中必有一个存在错误。可以通过增加相关的数据资源或信息资源来帮助判断冗余的数据资源的正误，从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。

方式D1：增加数据资源

若知道数据资源D ₁：季节夏天；D ₂：地点海南。有知识资源K ₁：海南夏天气温较高。结合数据资源D ₁、D ₂和知识资源源K ₁，可以推导出今天的气温应该较高。支持了数据资源

在数据资源

有相支持的数据，而数据资源

没有相支持的数据时，倾向于判定

正确而

错误，从而消除了歧义。

上述内容符号化表示如下：

已知：D ₁＝(T _SEASON(Summer))

D ₂＝(T _PLACE(Hainan))

K ₁＝R _IS(R _IN(T _PLACE(Hainan),T _SEASON(Summer)),T _TEMPERATURE(High))

可进行推导：

上述方式D1的算法实现过程如下：

已知存在冲突的数据资源

和

在数据图谱中检索相关的数据资源D _related。

由D _related结合相关信息资源、知识资源，进一步推导出帮助判断正误的数据资源D _new。

判断D _new与

之间的关系，保留D _new支持的结果，删除另一个结果。

将D _new支持的结果设定为最终结果，消除歧义。

方式D2：增加信息资源

若知道信息资源I ₁：数据资源

来源于气象局；信息资源I ₂：数据资源

来源于网络。有知识资源K ₂：来源于专业机构的数据比来源于网络的数据更可靠。结合信息资源I ₁，I ₂和知识资源K ₂，可以推导出数据资源

比数据资源

要更可靠。由此可以判定

正确而

错误，从而消除了歧义。

上述内容符号化表示如下：

已知：

K ₂＝R _{RELIABLE_THAN}(T _DATA(R _FROM(data,T _INSTITUTE)),T _DATA(R _FROM(data,T _INTERNET)))

可进行推导：

上述方式D2的算法实现过程如下：

已知存在冲突的信息资源

和

在信息图谱中检索相关的信息资源I _related。

由I _related结合相关数据资源，进一步推导出帮助判断正误的信息资源I _new。

判断I _new与

之间的关系，保留I _new支持的结果，删除另一个结果。

将I _new支持的结果设定为最终结果，消除歧义。

无论是歧义现象的检测，还是为了消除歧义增加相关类型资源，都需要完成由原有类型资源向新的类型资源的跨模态转化。作为转化对象的类型资源主要可分为数据资源和信息资源两种，以下针对这转化对象为数据资源和转化对象为信息资源两种情形进行讨论。

模态转化情形1：

若转化对象为数据资源：“用户A的职业”。符号化表示如下：

D ₀＝(A|T _OCCUPATION(INS(Student))

有三种可以推导出D ₀的方式，分别是：由数据资源结合知识资源进行推导、由信息资源结合知识资源进行推导和由数据资源结合信息资源结合知识资源进行推导。以下针对这三种推导模式分别进行讨论。

数据资源结合知识资源进行推导的过程如下：

若有相关的数据资源D ₁：用户A今年10岁。有相关的知识资源K ₁：年龄小于15岁的人应该去上学。结合D ₁和K ₁：用户A今年10岁，他的年龄小于15岁，所以用户A应该去上学。即可进一步推导出“用户A的职业是学生”这一目标数据资源。

上述内容符号化表示如下：

已知:D ₁＝(A|T _AGE(10))

K ₁＝R _SHOULD(T _PERSON(R _LESS THAN(T _AGE,15)),T _ACTIVITY(Education))

可进行推导:

I ₀→D ₀＝(A|T _OCCUPATION(INS(Student))

信息资源结合知识资源进行推导的过程如下：

若有相关的信息资源I ₁：用户A经常去学校；I ₂：用户A没有教师资格证。有知识资源K ₂：学生和教师需要经常去学校；K ₃：教师拥有教师资格证。结合I ₁和K ₂：用户A经常去学校，所以用户A是学生或教师。结合I ₂和K ₃：用户A没有教师资格证，所以用户A不是教师。用户A是学生或教师，并且用户A不是教师，即可进一步推导出“用户A的职业是学生”这一目标数据资源。

上述内容符号化表示如下：

已知:I ₁＝R _{GO_TO}(A,T _PLACE(INS(School)))

I ₂＝！R _OWN(A,T _LICENCE(INS(TeacherCertification)))

K ₂＝R _{GO_TO}(T _OCCUPATION(Student)AND T _OCCUPATION(Teacher),T _PLACE(School))

K ₃＝R _OWN(T _OCCUPATION(Teacher),T _LICENCE(INS(TeacherCertification))

可进行推导:

I ₀→D ₀＝(A|T _OCCUPATION(INS(Student))

数据资源混合信息资源结合知识资源进行推导的过程如下：

若有相关的数据资源D ₁：用户A今年10岁；相关的信息资源I ₁：用户A经常去学校。有知识资源K ₂：学生和教师需要经常去学校；K ₄：教师的年龄一般大于20。结合I ₁和K ₂：用户A经常去学校，所以用户A是学生或教师。结合D ₁和K ₂：用户A今年10岁，而教师的年龄一般大于20岁，所以用户A不是教师。用户A是学生或教师，并且用户A不是教师，即可进一步推导出“用户A的职业是学生”这一目标数据资源。

上述内容符号化表示如下：

已知:D ₁＝(A|T _AGE(10))

I ₁＝R _{GO_TO}(A,T _PLACE(INS(School)))

K ₄＝R _{GREATER_THAN}(T _AGE(T _OCCUPATION(Teacher)),20)

可进行推导:

I ₀→D ₀＝(A|T _OCCUPATION(INS(Student))

模态转化情形2：

若转化对象为信息资源：“用户A喜欢踢足球”。符号化表示如下：

$$I ₀＝R_{LIKE}(A,\T_{ACTIVITY}(INS(Play Soccer))\\$$

有三种推导I ₀的方式，分别是：由数据资源结合知识资源进行推导、由信息资源结合知识资源进行推导和由数据资源结合信息资源结合知识资源进行推导。以下针对这三种推导模式分别进行讨论。

数据资源结合知识资源进行推导的过程如下：

若有用户A相关的空间数据资源D ₁：足球场。有相关知识资源K ₁：

足球场主要用途是踢足球；K ₂：经常踢足球的人喜欢踢足球。结合D ₁和K ₁，用户A经常出现在足球场，所以用户A经常踢足球。再结合K ₂，用户A经常踢足球，而经常踢足球的人很可能喜欢踢足球，即可进一步推导出“用户A喜欢踢足球”这一目标信息资源。

上述内容符号化表示如下：

已知:D ₁＝(A|T _PLACE(INS(SoccerCourt))

K ₁＝R _IN(T _ACTIVITY(PlaySoccer),T _PLACE(SoccerCourt))

K ₂＝R _LIKE(T _PERSON(R _DO(person,T _ACTIVITY(PlaySoccer)))，T _ACTIVITY(PlaySoccer))

可进行推导:

信息资源结合知识资源进行推导的过程如下：

若有信息资源I ₁：用户A是足球校队的成员。有相关知识资源K ₂：经常踢足球的人喜欢踢足球；K ₃：足球校队的成员经常踢足球。结合I ₁和K ₃，用户A是足球校队的成员，所以用户A经常踢足球。再结合K ₂，用户A经常踢足球，而经常踢足球的人很可能喜欢踢足球，即可进一步推导出“用户A喜欢踢足球”这一目标信息资源。

上述内容符号化表示如下：

已知：I ₁＝R _{IS_A_MEMBER_OF}(A,T _GROUP(INS(SoccerTeam))

K ₂＝R _LIKE(T _PERSON(R _DO(person,T _ACTIVITY(PlaySoccer))),T(PlaySoccer))

K ₃＝R _DO(T _PERSON(R _{IS_A_MEMBER_OF}(person,T _GROUP(SoccerTeam)),T _ACTIVITY(PlaySoccer))

可进行推导:

数据资源混合信息资源结合知识资源进行推导的过程如下：

若有用户A相关的阅读数据资源D ₂：足球新闻；以及信息资源I ₂：用户A喜欢运动。有知识资源K ₄：经常看足球新闻的人对足球体育赛事感兴趣；K ₅：运动包括踢足球、打篮球等等。结合D ₂和K ₄，用户A经常阅读足球新闻，所以用户A对足球赛事感兴趣。因为用户A对足球的兴趣可能只停留在看足球比赛上，所以“用户A对足球赛事感兴趣”这一信息不能直接推导出用户A喜欢踢足球。结合I ₂和K ₅，用户A喜欢运动，运动包含踢足球。因为用户A可能对打篮球等运动更感兴趣，所以这一信息也不足以直接推导出用户A喜欢踢足球。但示由于之前推导出用户A对足球赛事感兴趣，再结合“用户A喜欢运动”这一信息，即可推导出“用户A喜欢踢足球”这一目标信息资源。

上述内容符号化表示如下：

已知:D ₂＝(A|T _NEWS(Soccer))

I ₂＝R _LIKE(A|T _ACTIVITY(INS(SportsActivity)))

K ₄＝R _{INTERESTED_IN}(T _PERSON(R _READ(person,T _NEWS(Soccer)))，T _SPORTS(Soccer))

K ₅＝R _INCLUDE(T _ACTIVITY(SportsActivity),T _ACTIVITY(PlaySoccer,PlayBasketball,...))

可进行推导:

请参见图2，图2为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理***的结构示意图；

该***可以包括：

文本分析模块100，用于获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

含义确定模块200，用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

资源补充模块300，用于若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；

文本修改模块400，用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。

进一步的，文本分析模块100包括：

类型确定单元，用于确定所述目标文本的资源类型；其中，所述资源类型包括数据资源、信息资源和知识资源，数据资源为数据图谱中的资源，信息资源为信息图谱中的资源，知识资源为知识图谱中的资源；

模态转化单元，用于对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源；其中，所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。

进一步的，模态转化单元，用于判断所述目标文本是否为数据资源；若是，则将所述目标文本设置为所述目标数据资源；若否，则对所述目标文本执行跨模态转化得到所述目标数据资源；还用于判断所述目标文本是否为信息资源；若是，则将所述目标文本设置为所述目标信息资源；若否，则对所述目标文本执行跨模态转化得到所述目标信息资源。

进一步的，含义确定模块200用于获取所述目标文本的关联文本；还用于根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。

进一步的，资源补充模块300用于将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源；和/或，还用于将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的补充资源。

进一步的，还包括：

文本种类判定模块，用于在判定所述目标文本的文本含义的数量大于1之后，判定所述目标文本为缺失数据资源或信息资源的文本；或，判定所述目标文本为数据资源冗余或信息资源冗余的文本。

进一步的，含义确定模块200用于将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。

由于***部分的实施例与方法部分的实施例相互对应，因此***部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

本申请还提供了一种存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，包括：

获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；

将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。
根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，确定所述目标文本中的目标数据资源和目标信息资源，包括：

确定所述目标文本的资源类型；其中，所述资源类型包括数据资源、信息资源和知识资源，数据资源为数据图谱中的资源，信息资源为信息图谱中的资源，知识资源为知识图谱中的资源；

对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源；其中，所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。
根据权利要求2所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源，包括：

判断所述目标文本是否为数据资源；若是，则将所述目标文本设置为所述目标数据资源；若否，则对所述目标文本执行跨模态转化得到所述目标数据资源；

判断所述目标文本是否为信息资源；若是，则将所述目标文本设置为所述目标信息资源；若否，则对所述目标文本执行跨模态转化得到所述目标信息资源。
根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，包括：

获取所述目标文本的关联文本；

根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。
根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，获取所述目标文本的补充资源，包括：

将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源；

和/或，将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的补充资源。
根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，在判定所述目标文本的文本含义的数量大于1之后，还包括：

判定所述目标文本为缺失数据资源或信息资源的文本；

或，判定所述目标文本为数据资源冗余或信息资源冗余的文本。
根据权利要求1至6任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法，其特征在于，根据所述相关资源确定所述目标文本的文本含义，包括：

将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。
一种面向本质计算与推理的跨DIKW模态文本歧义处理***，其特征在于，包括：

文本分析模块，用于获取目标文本，并确定所述目标文本中的目标数据资源和目标信息资源；

含义确定模块，用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源，并根据所述相关资源确定所述目标文本的文本含义；

资源补充模块，用于若所述目标文本的文本含义的数量大于1，则获取所述目标文本的补充资源，并根据所述补充资源生成所述目标文本的条件限制文本；

文本修改模块，用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义，并根据所述实际文本含义修改所述目标文本。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法的步骤。
一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至7任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法的步骤。