CN112232085B - 面向本质计算与推理的跨dikw模态文本歧义处理方法 - Google Patents

面向本质计算与推理的跨dikw模态文本歧义处理方法 Download PDF

Info

Publication number
CN112232085B
CN112232085B CN202011103480.6A CN202011103480A CN112232085B CN 112232085 B CN112232085 B CN 112232085B CN 202011103480 A CN202011103480 A CN 202011103480A CN 112232085 B CN112232085 B CN 112232085B
Authority
CN
China
Prior art keywords
text
target
resources
resource
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011103480.6A
Other languages
English (en)
Other versions
CN112232085A (zh
Inventor
段玉聪
胡时京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202011103480.6A priority Critical patent/CN112232085B/zh
Publication of CN112232085A publication Critical patent/CN112232085A/zh
Priority to PCT/CN2021/118178 priority patent/WO2022078145A1/zh
Priority to CA3136527A priority patent/CA3136527C/en
Application granted granted Critical
Publication of CN112232085B publication Critical patent/CN112232085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种面向本质计算与推理的跨DIKW模态文本歧义处理方法,所述方法包括:获取目标文本,并确定目标文本中的目标数据资源和目标信息资源;根据目标数据资源和/或目标信息资源查询目标文本的相关资源,并根据相关资源确定目标文本的文本含义;若目标文本的文本含义的数量大于1,则获取目标文本的补充资源,并根据补充资源生成目标文本的条件限制文本;将符合条件限制文本的文本含义作为目标文本的实际文本含义,并根据实际文本含义修改目标文本。本申请能够准确识别并消除文本中存在的歧义。本申请还公开了一种面向本质计算与推理的跨DIKW模态文本歧义处理***、一种电子设备及一种存储介质,具有以上有益效果。

Description

面向本质计算与推理的跨DIKW模态文本歧义处理方法
技术领域
本申请涉及软件工程学技术领域,特别涉及一种面向本质计算与推理的跨DIKW模态文本歧义处理方法、***、一种电子设备及一种存储介质。
背景技术
大数据时代的来临,使得数据的规模变得愈发庞大。通过对数据进行关联分析可以获取到很多信息,甚至包括隐私、机密等十分重要的内容,并且数据和信息资源可被概括、逻辑推理成为知识,而知识资源又能反过来作用在数据资源和信息资源上,计算推理出更多新的对特定目标存在价值的数据资源和信息资源,甚至可以对某些特定目标进行预测分析。
歧义是指对文本内容有多种不同目的的理解,即由内容中的类型资源可以进行多种推导得到不同目的的信息资源。产生歧义的原因由两种:一种是由于内容有缺失,缺少部分数据资源或信息资源导致对内容的理解的范围较广,推导时会产生不同目的的理解;另一种是由于内容中存在冗余,冗余的数据资源或信息资源在结合不同的类型资源进行推导时会产生不同目的的理解。相关技术中主要通过机器学习模型实现文本歧义的处理,但是机器学习模型的识别准确率过度依赖训练样本的丰富度,无法对文本歧义进行有效的处理。
因此,如何准确识别并消除文本中存在的歧义是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种面向本质计算与推理的跨DIKW模态文本歧义处理方法、***、一种电子设备及一种存储介质,能够准确识别并消除文本中存在的歧义。
为解决上述技术问题,本申请提供一种面向本质计算与推理的跨DIKW模态文本歧义处理方法,该方法包括:
获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;
将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本。
可选的,确定所述目标文本中的目标数据资源和目标信息资源,包括:
确定所述目标文本的资源类型;其中,所述资源类型包括数据资源、信息资源和知识资源,数据资源为数据图谱中的资源,信息资源为信息图谱中的资源,知识资源为知识图谱中的资源;
对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源;其中,所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。
可选的,对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源,包括:
判断所述目标文本是否为数据资源;若是,则将所述目标文本设置为所述目标数据资源;若否,则对所述目标文本执行跨模态转化得到所述目标数据资源;
判断所述目标文本是否为信息资源;若是,则将所述目标文本设置为所述目标信息资源;若否,则对所述目标文本执行跨模态转化得到所述目标信息资源。
可选的,根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,包括:
获取所述目标文本的关联文本;
根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。
可选的,获取所述目标文本的补充资源,包括:
将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源;
和/或,将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的相关资源。
可选的,在判定所述目标文本的文本含义的数量大于1之后,还包括:
判定所述目标文本为缺失数据资源或信息资源的文本;
或,判定所述目标文本为数据资源冗余或信息资源冗余的文本。
可选的,根据所述相关资源确定所述目标文本的文本含义,包括
将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。
本申请还提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理***,该***包括:
文本分析模块,用于获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
含义确定模块,用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
资源补充模块,用于若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;
文本修改模块,用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述面向本质计算与推理的跨DIKW模态文本歧义处理方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述面向本质计算与推理的跨DIKW模态文本歧义处理方法执行的步骤。
本申请提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理方法,包括:获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本。
本申请在获取目标文本之后,确定目标文本中包含的目标数据资源和目标信息资源,进而根据目标数据资源和目标信息资源查询目标文本的相关资源,根据相关资源确定目标文本的文本含义。本申请根据目标文本的补充资源生成目标文本的条件限制文本,将符合条件限制文本的文本含义作为所述目标文本的实际文本含义,进而根据所述实际文本含义修改所述目标文本,消除了目标文本中的歧义。可见,本申请能够准确识别并消除文本中存在的歧义。本申请同时还提供了一种面向本质计算与推理的跨DIKW模态文本歧义处理***、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理方法的流程图;
图2为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理***的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的以下实施例可以利用基于数据图谱、信息图谱和知识图谱的多模态内容歧义判断***实现。资源元素可以包括数据资源、信息资源和知识资源三种形态,图谱指对资源元素进行整合的结果,资源元素的图谱包括数据图谱、信息图谱和知识图谱。DIKW指Data(数据),Information(信息),knowledge(知识)和Wisdom(智慧),DIKW模型是可以用于帮助理解数据、信息、知识和智慧之间的关系的模型。
数据图谱是各种数据结构包括数组、链表、栈、队列、树和图等数据资源的集合。数据图谱是通过观察获得的数字或其他类型信息的基本个体项目。信息图谱是通过数据资源和数据资源组合之后的上下文传达的,经过概念映射和相关关系组合之后的适合分析和解释的信息。知识图谱实质是语义网络,包括由信息资源总结出的统计规则的集合。知识图谱蕴含丰富的语义关系,在知识图谱上通过信息推理和实体链接可提高知识图谱的边密度和节点密度,知识图谱的无结构特性使得其自身可以无缝链接。对于本领域技术人员而言,数据图谱、信息图谱、知识图谱、数据资源、信息资源和知识资源等概念均清楚明确,具体可以参见《投入驱动的存储与计算一体化的事务处理效率优化方法》、《Modelling Data,Information and Knowledge for Security Protection of Hybrid IoT and EdgeResources》等文献中的介绍。
本申请所提供的实施例可以应用于遥感领域,即基于与遥感领域相关的数据图谱、信息图谱和知识图谱实现文本歧义处理。
下面请参见图1,图1为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理方法的流程图。
具体步骤可以包括:
S101:获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
其中,在获取目标文本之后,本实施例可以对目标文本执行数据资源提取操作得到目标数据资源,也可以对目标文本执行信息资源提取操作得到目标信息资源。作为一种可行的实施方式,本实施例可以利用包括数据资源和信息资源对应的模板确定符合模板的目标数据资源和目标信息资源。本实施例可以对目标文本进行文本分析,根据文本分析结果确定目标数据资源和目标信息资源。本实施例还可以将包括样本数据资源和样本信息资源的资源集合与目标文本进行文本匹配,得到目标数据资源和目标信息资源。
举例说明本实施例中从目标文本中提取目标数据资源和目标信息资源的过程:
目标文本“夏天夜晚,用户A待在书房。”中的目标数据资源可以包括
Figure BDA0002726176570000061
(地点:书房)、
Figure BDA0002726176570000062
(时间:夜晚)、
Figure BDA0002726176570000063
(季节:夏天),信息资源可以包括:I0(夏天夜晚在书房);
Figure BDA0002726176570000064
Figure BDA0002726176570000065
Figure BDA0002726176570000066
Figure BDA0002726176570000067
S102:根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
其中,本实施例可以获取目标文本的关联文本,基于关联文本中的数据资源和信息资源确定目标文本的文本含义,目标文本的任意两个文本含义互不相同,即目标文本的歧义所在。本实施例可以将目标文本得上下文作为关联文本,也可以将其他与目标文本存在联系的文本作为关联文本。在获取所述目标文本的关联文本之后,本实施例可以根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。
在得到目标文本的相关资源之后,本实施例可以将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。例如目标文本为“夜晚,小明在书房”,若关联文本中确定的关联资源为“春节”和“考试”,此时将会得到以下两种文本含义“夜晚,小明在书房守岁”,“夜晚,小明在书房复习”。作为一种可行的实施方式,本实施例可以将相关资源和目标文本显示至人机交互界面,以便用户确定目标文本的文本含义。
S103:若所述目标文本的文本含义的数量大于1,则获取目标文本的补充资源,并根据补充资源生成所述目标文本的条件限制文本;
若所述目标文本的文本含义的数量为1,则说明目标文本中不存在歧义;若所述目标文本的文本含义的数量大于1,则说明目标文本中存在歧义。本实施例中提到的存在歧义的目标文本可以为缺失数据资源或信息资源的文本,文本中内容缺失导致了对内容理解范围的限制的减少。在理解范围较广的情况下,结合不同的知识资源可以推导出不同目的的信息资源。通过增加对内容理解的限制,可以缩小内容的理解范围,以达到在推导出的多种不同目的的信息资源中只保留其中一个,从而消除歧义。基于数据图谱、信息图谱和知识图谱对内容进行建模,内容存在缺失的情况对应在图谱上可分为信息资源存在缺失和数据资源存在缺失两类。本实施例中提到的存在歧义的目标文本也可以为数据资源冗余或信息资源冗余的文本。文本中存在冗余的数据资源或信息资源在某一相同的问题上有多种不同目的的理解。基于数据图谱、信息图谱和知识图谱对内容进行建模。内容存在冗余的情况对应在图谱上可分为信息资源存在冗余和数据资源存在冗余两类。
其中,本实施例可以根据所述目标数据资源从数据图谱中查询所述目标文本的补充资源;本实施例还可以根据目标信息资源从信息图谱中查询所述目标文本的补充资源。
数据图谱中包括大量的数据资源,数据图谱中的数据资源之间存在一定的关联程度,本实施例可以根据数据图谱中的数据资源关联程度查询目标文本的补充资源,例如可以将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源。例如目标数据资源为“冬天”,数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源可以包括“保暖指数”、“降雪概率”等。相应的,信息图谱中包括大量的信息资源,信息图谱中的信息资源之间存在一定的关联程度,本实施例可以根据信息图谱中的信息资源关联程度查询目标文本的补充资源,例如可以将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的补充资源。例如目标信息资源为“爱因斯坦正在上课”,信息图谱中与所述目标信息资源的关联程度大于预设值的信息资源可以包括“爱因斯坦是物理学家”、“爱因斯坦当时已经结婚”等。
S104:将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本。
在获得了目标文本的条件限制文本之后,本实施例可以将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义。继续以目标信息资源“爱因斯坦正在上课”为例,目标文本的将会存在以下两个文本含义“1、爱因斯坦的职业是学生”、“2、爱因斯坦的职业是教师”;若补充资源对应的条件限制文本为“爱因斯坦是物理学家,且当时爱因斯坦已经结婚”,可以利用条件限制文本确定目标文本的实际文本含义。本实施例可以根据实际文本含义修改目标文本,以便消除目标文本中的歧义。作为一种可行的实施方式,本实施例可以将条件限制文本和目标文本的每一文本含义显示至人机交互界面,以便用户确定将符合所述条件限制文本的文本含义。
本实施例在获取目标文本之后,确定目标文本中包含的目标数据资源和目标信息资源,进而根据目标数据资源和目标信息资源查询目标文本的相关资源,根据相关资源确定目标文本的文本含义。本实施例根据目标文本的补充资源生成目标文本的条件限制文本,将符合条件限制文本的文本含义作为所述目标文本的实际文本含义,进而根据所述实际文本含义修改所述目标文本,消除了目标文本中的歧义。可见,本实施例能够准确识别并消除文本中存在的歧义。
作为对于图1对应实施例的进一步介绍,可以通过以下方式确定目标文本中的目标数据资源和目标信息资源:确定所述目标文本的资源类型;对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源;其中,所述资源类型包括数据资源、信息资源和知识资源,数据资源为数据图谱中的资源,信息资源为信息图谱中的资源,知识资源为知识图谱中的资源;上述所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。数据信息混合资源为数据资源与信息资源相混合的资源。
具体的,在执行跨模态转化的过程中,可以执行以下操作:判断所述目标文本是否为数据资源;若是,则将所述目标文本设置为所述目标数据资源;若否,则对所述目标文本执行跨模态转化得到所述目标数据资源;判断所述目标文本是否为信息资源;若是,则将所述目标文本设置为所述目标信息资源;若否,则对所述目标文本执行跨模态转化得到所述目标信息资源。
下面通过在实际应用中的实施例说明上述实施例描述的流程。
场景1:对于信息资源存在缺失导致的歧义的处理。
文本内容:“夏天夜晚,用户A待在书房。”可以对应如下数据、信息资源:
Figure BDA0002726176570000091
Figure BDA0002726176570000092
Figure BDA0002726176570000093
Figure BDA0002726176570000094
由于该内容缺少“用户A待在书房做什么”这一信息资源,因此对于该内容进行理解时会有歧义。例如结合数据资源
Figure BDA0002726176570000095
“用户待在书房”和知识资源K1:“书房是用来学习的地方”,可以推导出用户A待在书房的目的是学习。而结合数据资源
Figure BDA0002726176570000096
“晚上”和知识资源K2:“人在晚上一般会睡觉”,可以推导出用户A可能目的是在书房睡觉。这两种推导方式在没有其它相关资源的情况下都是正确的,但却产生了不同目的的信息资源,导致了歧义。
上述内容符号化表达如下:
已知:K1=RIN(TACTIVITY(Study),TPLACE(Studyroom))
K2=RAT(TACTIVITY(Sleep),TTIME(Night))
可进行推导:
Figure BDA0002726176570000097
Figure BDA0002726176570000098
Figure BDA0002726176570000099
本实施例可以通过增加相关的数据资源或信息资源来缩小内容理解的范围,从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。
方式A1:增加数据资源
若知道相关的数据资源D1:卧室的空调是坏的;D2:书房的空调是好的。结合已知的数据资源D03:“夏天”,和知识资源K3:“夏天很热”,就可以推导出卧室温度高而书房温度低。上述数据资源增加了对书房环境的限制,从而将对内容理解的范围缩小至温度相关的领域。再结合知识资源K4:“人喜欢在凉快的地方睡觉”,可以推导出书房温度低适合睡觉,支持了之前推导出的“用户A待在书房的目的是睡觉”这一信息资源,从而消除了歧义。
上述内容符号化表达如下:
已知:D1=(TFACILITY(INS(AIR_CONDITIONBedroom))|TCONDITION(Broken))
D2=(TFACILITY(INS(AIR_CONDITIONStudyroom))|TCONDITION(Normal))
K3=RIS(TSEASON(Summer),TTEMPERATURE(High))
K4=RLIKE(TPERSON,RIN(TACTIVITY(Sleep),RIS(TPLACE,TTEMPERATURE(Low))))
可进行推导:
Figure BDA0002726176570000101
Figure BDA0002726176570000102
Figure BDA0002726176570000103
Figure BDA0002726176570000104
上述方式A1的算法实现过程如下:
由已知数据资源D0、信息资源I0结合相关知识资源(即上文提到的相关资源),推导出不同目的的信息资源I new1和Inew2
在数据图谱中检索相关的数据资源Drelated(即上文提到的补充资源)。
由Drelated结合相关信息资源、知识资源,进一步推导出能缩小理解范围的信息资源Inew3
判断Inew3与I new1、Inew2之间的关系,保留Inew3支持的信息资源,删除其它信息资源。
将剩余的唯一信息资源设定为最终结果,消除歧义。
方式A2:增加信息资源
若知道相关的信息资源I1:用户A不喜欢学习。结合D02:“晚上”,和知识资源K5:“喜欢学习的人才可能会在晚上学习”,可以推导出用户A不太可能在这个时间在书房学习。该信息资源将“用户A待在书房的目的是学习”这一信息资源排除出了对内容的理解范围,剩下唯一的信息资源“用户A待在书房的目的是睡觉”就是最终结果,从而消除了歧义。
上述内容符号化表达如下:
已知:I1=!RLIKE(A,TACTIVITY(Study))
K5=RAT(RDO(TPERSON(RLIKE(TPERSON,TACTIVITY(Study))),TACTIVITY(Study)),TTIME(Night))
可以进行推导:
Figure BDA0002726176570000105
Figure BDA0002726176570000106
上述方式A2的算法实现过程如下:
由已知数据资源D0、信息资源I0结合相关知识资源(即上文提到的相关资源),推导出不同目的的信息资源Inew1和Inew2
在信息图谱中检索相关的信息资源Irelated(即上文提到的补充资源)。
由Irelated结合相关数据资源、知识资源,进一步推导出能缩小理解范围的信息资源Inew3
判断Inew3与Inew1、Inew2之间的关系,删除Inew3反对的信息资源,保留其它信息资源。
将剩余的唯一信息资源设定为最终结果,消除歧义。
场景2:对于信息资源存在缺失导致的歧义的处理。
文本内容:“用户A的辈分比用户B的辈分大。”可以对应如下数据、信息资源:
Figure BDA0002726176570000111
Figure BDA0002726176570000112
Figure BDA0002726176570000113
由于该内容缺少“用户A的年龄和用户B的年龄”相关的数据资源,因此基于此内容对“用户A和用户B的年龄大小”这一信息资源存在不同目的的理解。虽然有知识资源K_1:“辈分高有可能年龄大”,可以推导出“用户A可能比用户B年龄大”这一信息资源。但是辈分高且年龄小的例子也有很多,所以仍然无法排除“用户A可能比用户B年龄小”这一信息资源。
上述内容符号化表达如下:
已知:K1=RPROBABLY_GREATER_THAN(TAGE(TPERSON(TSENIORITY(High)),TAGE(TPERSON(TSENIORITY(Low))可进行推导:
Figure BDA0002726176570000114
Figure BDA0002726176570000115
同样也可以通过增加相关的数据资源或信息资源来缩小内容理解的范围,从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。
方式B1:增加数据资源
若知道相关的数据资源D1:用户A心智成熟;D2:用户B心智天真。结合D1、D2可以推导出“用户A比用户B更成熟”这一信息资源。上述数据资源增加了在判断“用户A和用户B的年龄大小”时,对用户A和用户B心智成熟关系的限制,将对内容的理解范围进一步缩小。支持了之前推导的“用户A比用户B年龄大”这一信息资源。
上述内容符号化表达如下:
已知:D1=(A|TMIND(Mature))
D2=(B|TMIND(Naieve))
可进行推导:
Figure BDA0002726176570000121
Figure BDA0002726176570000122
上述方式B1的算法实现过程如下:
由已知数据资源D0、信息资源I0结合相关知识资源,推导出不同目的的信息资源Inew1和Inew2
在数据图谱中检索相关的数据资源Drelated
由Drelated结合相关信息资源、知识资源,进一步推导出能缩小理解范围的信息资源Inew3
判断Inew3与Inew1、Inew2之间的关系,删除Inew3反对的信息资源,保留其它信息资源。
将剩余的唯一信息资源设定为最终结果,消除歧义。
方式B2:增加信息资源
若知道相关的信息资源I1:用户B对用户A的态度很尊敬。有知识资源K3:“地位低的人对地位高的人态度尊敬”。结合I1和K3可推导出“用户A比用户B地位高”这一信息资源。上述数据资源增加了在判断“用户A和用户B的年龄大小”时,对用户A和用户B地位关系的限制,将对内容的理解范围进一步缩小。支持了之前推导的“用户A比用户B年龄大”这一信息资源。
上述内容符号化表达如下:
已知:I1=RRESPECT(B,A)
K3=RRESPECT(TPERSON(TSTATUS(Low)),TPERSON(TSTATUS(High)))
可进行推导:
Figure BDA0002726176570000123
Figure BDA0002726176570000124
上述方式B2的算法实现过程如下:
由已知数据资源D0、信息资源I0结合相关知识资源(即上文提到的相关资源),推导出不同目的的信息资源Inew1和Inew2
在信息图谱中检索相关的信息资源Irelated(即上文提到的补充资源)。
由Irelated结合相关数据资源、知识资源,进一步推导出能缩小理解范围的信息资源Inew3
判断Inew3与Inew1、Inew2之间的关系,删除Inew3反对的信息资源,保留其它信息资源。
将剩余的唯一信息资源设定为最终结果,消除歧义。
场景3:对于信息资源存在冗余导致的歧义的处理。
文本内容:“用户A喜欢打篮球,用户A讨厌运动。”可以对应如下信息资源:
Figure BDA0002726176570000131
Figure BDA0002726176570000132
有知识资源K1:打篮球属于运动;K2:关系“讨厌”和关系“喜欢”相矛盾。由I02和K1,用户A讨厌运动,而打篮球属于运动的一种,则可以推导出新的信息资源Inew1:用户A讨厌打篮球,由K2可知I01与Inew1相矛盾。所以对于“用户A对打篮球的态度”这个问题,I01和I02有不同目的的理解,即内容中的信息资源存在冗余。
上述内容符号化表示如下:
已知:K1=RBELONGTO(TACTIVITY(PlayBasketball),TACTIVITY(Sports))
K2=ROPPOSE(TRELATION(Like),TRELATION(Hate))
可进行推导:
Figure BDA0002726176570000133
Figure BDA0002726176570000134
由上述推导可知:冗余的信息资源
Figure BDA0002726176570000135
Figure BDA0002726176570000136
是矛盾的,所以其中必有一个存在错误。可以通过增加相关的数据资源或信息资源来帮助判断冗余的信息资源的正误,从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。
方式C1:增加数据资源
若知道用户A相关的空间数据资源D1:篮球场。有相关知识资源K3:篮球场主要用途是打篮球;K4:经常打篮球的人喜欢打篮球。结合D1和K3,用户A经常出现在篮球场,所以用户A经常打篮球。再结合K4,用户A经常打篮球,而经常打篮球的人很可能喜欢打篮球,说明用户A很可能喜欢打篮球,支持了信息资源
Figure BDA0002726176570000137
在信息资源
Figure BDA0002726176570000138
有相支持的数据,而信息资源
Figure BDA0002726176570000139
没有相支持的数据时,倾向于判定
Figure BDA00027261765700001310
正确而
Figure BDA00027261765700001311
错误,从而消除了歧义。
上述内容符号化表示如下:
已知:D1=(A|TPLACE(INS(BasketballCourt))
K3=RIN(TACTIVITY(PlayBasketball),TPLACE(BasketballCourt))
K4=RLIKE(TPERSON(RDO(person,TACTIVITY(PlayBasketball))),TACTIVITY(PlayBasketball))
可进行推导:
Figure BDA0002726176570000141
Figure BDA0002726176570000142
Figure BDA0002726176570000143
上述方式C1的算法实现过程如下:
已知存在冲突的信息资源
Figure BDA0002726176570000144
Figure BDA0002726176570000145
在数据图谱中检索相关的数据资源Drelated
由Drelated结合相关信息资源、知识资源,进一步推导出帮助判断正误的信息资源Inew
判断Inew
Figure BDA0002726176570000146
之间的关系,保留Inew支持的结果,删除另一个结果。
将Inew支持的结果设定为最终结果,消除歧义。
方式C2:增加信息资源
若知道相关的信息资源I1:用户A是篮球校队的成员。有相关知识资源K5:篮球校队的成员经常打篮球。结合I1和K5,用户A是篮球校队的成员,所以用户A经常打篮球。用户A经常打篮球,再结合K4,用户A经常打篮球,而经常打篮球的人很可能喜欢打篮球,说明用户A很可能喜欢打篮球,支持了信息资源
Figure BDA0002726176570000147
在信息资源
Figure BDA0002726176570000148
有相支持的数据,而信息资源
Figure BDA0002726176570000149
没有相支持的数据时,倾向于判定
Figure BDA00027261765700001410
正确而
Figure BDA00027261765700001411
错误,从而消除了歧义。
上述内容符号化表示如下:
已知:I1=RIS_A_MEMBER_OF(A,TGROUP(INS(BasketballTeam))
K5=RDO(TPERSON(RIS_A_MEMBER_OF(person,TGROUP(BasketballTeam)),TACTIVITY(PlayBasketball))
可进行推导:
Figure BDA00027261765700001412
Figure BDA00027261765700001413
Figure BDA00027261765700001414
上述方式C2的算法实现过程如下:
已知存在冲突的信息资源
Figure BDA00027261765700001415
Figure BDA00027261765700001416
在信息图谱中检索相关的数据资源Irelated
由Irelated结合相关数据资源、知识资源,进一步推导出帮助判断正误的信息资源Inew
判断Inew
Figure BDA00027261765700001417
之间的关系,保留Inew支持的结果,删除另一个结果。
将Inew支持的结果设定为最终结果,消除歧义。
场景3:对于数据资源存在冗余导致的歧义的处理。
内容中同时存在数据资源
Figure BDA0002726176570000151
今天温度为30度;
Figure BDA0002726176570000152
今天温度为20度。可以对应如下数据资源:
Figure BDA0002726176570000153
Figure BDA0002726176570000154
针对“今天的温度”这一问题,数据资源
Figure BDA0002726176570000155
Figure BDA0002726176570000156
所表示内容相矛盾,说明冗余的数据资源
Figure BDA0002726176570000157
Figure BDA0002726176570000158
中必有一个存在错误。可以通过增加相关的数据资源或信息资源来帮助判断冗余的数据资源的正误,从而消除歧义。以下分别针对增加数据资源和增加信息资源两种情形进行讨论。
方式D1:增加数据资源
若知道数据资源D1:季节夏天;D2:地点海南。有知识资源K1:海南夏天气温较高。结合数据资源D1、D2和知识资源源K1,可以推导出今天的气温应该较高。支持了数据资源
Figure BDA0002726176570000159
在数据资源
Figure BDA00027261765700001510
有相支持的数据,而数据资源
Figure BDA00027261765700001511
没有相支持的数据时,倾向于判定
Figure BDA00027261765700001512
正确而
Figure BDA00027261765700001513
错误,从而消除了歧义。
上述内容符号化表示如下:
已知:D1=(TSEASON(Summer))
D2=(TPLACE(Hainan))
K1=RIS(RIN(TPLACE(Hainan),TSEASON(Summer)),TTEMPERATURE(High))
可进行推导:
Figure BDA00027261765700001514
Figure BDA00027261765700001515
上述方式D1的算法实现过程如下:
已知存在冲突的数据资源
Figure BDA00027261765700001516
Figure BDA00027261765700001517
在数据图谱中检索相关的数据资源Drelated
由Drelated结合相关信息资源、知识资源,进一步推导出帮助判断正误的数据资源Dnew
判断Dnew
Figure BDA00027261765700001518
之间的关系,保留Dnew支持的结果,删除另一个结果。
将Dnew支持的结果设定为最终结果,消除歧义。
方式D2:增加信息资源
若知道信息资源I1:数据资源
Figure BDA00027261765700001519
来源于气象局;信息资源I2:数据资源
Figure BDA00027261765700001520
来源于网络。有知识资源K2:来源于专业机构的数据比来源于网络的数据更可靠。结合信息资源I1,I2和知识资源K2,可以推导出数据资源
Figure BDA00027261765700001521
比数据资源
Figure BDA00027261765700001522
要更可靠。由此可以判定
Figure BDA00027261765700001523
正确而
Figure BDA00027261765700001524
错误,从而消除了歧义。
上述内容符号化表示如下:
已知:I1=RFROM(D01,TINSTITUTE(INS(MeteorologicalBureau))
I2=RFROM(D02,TINTERNET(INS(Website))
K2=RRELIABLE_THAN(TDATA(RFROM(data,TINSTITUTE)),TDATA(RFROM(data,TINTERNET)))
可进行推导:
Figure BDA0002726176570000161
Figure BDA0002726176570000162
上述方式D2的算法实现过程如下:
已知存在冲突的信息资源
Figure BDA0002726176570000163
Figure BDA0002726176570000164
在信息图谱中检索相关的信息资源Irelated
由Irelated结合相关数据资源,进一步推导出帮助判断正误的信息资源Inew
判断Inew
Figure BDA0002726176570000165
之间的关系,保留Inew支持的结果,删除另一个结果。
将Inew支持的结果设定为最终结果,消除歧义。
无论是歧义现象的检测,还是为了消除歧义增加相关类型资源,都需要完成由原有类型资源向新的类型资源的跨模态转化。作为转化对象的类型资源主要可分为数据资源和信息资源两种,以下针对这转化对象为数据资源和转化对象为信息资源两种情形进行讨论。
模态转化情形1:
若转化对象为数据资源:“用户A的职业”。符号化表示如下:
D0=(A|TOCCUPATION(INS(Student))
有三种可以推导出D0的方式,分别是:由数据资源结合知识资源进行推导、由信息资源结合知识资源进行推导和由数据资源结合信息资源结合知识资源进行推导。以下针对这三种推导模式分别进行讨论。
数据资源结合知识资源进行推导的过程如下:
若有相关的数据资源D1:用户A今年10岁。有相关的知识资源K1:年龄小于15岁的人应该去上学。结合D1和K1:用户A今年10岁,他的年龄小于15岁,所以用户A应该去上学。即可进一步推导出“用户A的职业是学生”这一目标数据资源。
上述内容符号化表示如下:
已知:D1=(A|TAGE(10))
K1=RSHOULD(TPERSON(RLESS THAN(TAGE,15)),TACTIVITY(Education))
可进行推导:
Figure BDA0002726176570000171
Figure BDA0002726176570000172
I0→D0=(A|TOCCUPATION(INS(Student))
信息资源结合知识资源进行推导的过程如下:
若有相关的信息资源I1:用户A经常去学校;I2:用户A没有教师资格证。有知识资源K2:学生和教师需要经常去学校;K3:教师拥有教师资格证。结合I1和K2:用户A经常去学校,所以用户A是学生或教师。结合I2和K3:用户A没有教师资格证,所以用户A不是教师。用户A是学生或教师,并且用户A不是教师,即可进一步推导出“用户A的职业是学生”这一目标数据资源。
上述内容符号化表示如下:
已知:I1=RGO_TO(A,TPLACE(INS(School)))
I2=!ROWN(A,TLICENCE(INS(TeacherCertification)))
K2=RGO_TO(TOCCUPATION(Student)AND TOCCUPATION(Teacher),TPLACE(School))
K3=ROWN(TOCCUPATION(Teacher),TLICENCE(INS(TeacherCertification))
可进行推导:
Figure BDA0002726176570000173
Figure BDA0002726176570000174
Figure BDA0002726176570000175
I0→D0=(A|TOCCUPATION(INS(Student))
数据资源混合信息资源结合知识资源进行推导的过程如下:
若有相关的数据资源D1:用户A今年10岁;相关的信息资源I1:用户A经常去学校。有知识资源K2:学生和教师需要经常去学校;K4:教师的年龄一般大于20。结合I1和K2:用户A经常去学校,所以用户A是学生或教师。结合D1和K2:用户A今年10岁,而教师的年龄一般大于20岁,所以用户A不是教师。用户A是学生或教师,并且用户A不是教师,即可进一步推导出“用户A的职业是学生”这一目标数据资源。
上述内容符号化表示如下:
已知:D1=(A|TAGE(10))
I1=RGO_TO(A,TPLACE(INS(School)))
K2=RGO_TO(TOCCUPATION(Student)AND TOCCUPATION(Teacher),TPLACE(School))
K4=RGREATER_THAN(TAGE(TOCCUPATION(Teacher)),20)
可进行推导:
Figure BDA0002726176570000181
Figure BDA0002726176570000182
Figure BDA0002726176570000183
I0→D0=(A|TOCCUPATION(INS(Student))
模态转化情形2:
若转化对象为信息资源:“用户A喜欢踢足球”。符号化表示如下:
$$I0=R_{LIKE}(A,\T_{ACTIVITY}(INS(Play Soccer))\\$$
有三种推导I0的方式,分别是:由数据资源结合知识资源进行推导、由信息资源结合知识资源进行推导和由数据资源结合信息资源结合知识资源进行推导。以下针对这三种推导模式分别进行讨论。
数据资源结合知识资源进行推导的过程如下:
若有用户A相关的空间数据资源D1:足球场。有相关知识资源K1:足球场主要用途是踢足球;K2:经常踢足球的人喜欢踢足球。结合D1和K1,用户A经常出现在足球场,所以用户A经常踢足球。再结合K2,用户A经常踢足球,而经常踢足球的人很可能喜欢踢足球,即可进一步推导出“用户A喜欢踢足球”这一目标信息资源。
上述内容符号化表示如下:
已知:D1=(A|TPLACE(INS(SoccerCourt))
K1=RIN(TACTIVITY(PlaySoccer),TPLACE(SoccerCourt))
K2=RLIKE(TPERSON(RDO(person,TACTIVITY(PlaySoccer))),TACTIVITY(PlaySoccer))
可进行推导:
Figure BDA0002726176570000184
Figure BDA0002726176570000185
信息资源结合知识资源进行推导的过程如下:
若有信息资源I1:用户A是足球校队的成员。有相关知识资源K2:经常踢足球的人喜欢踢足球;K3:足球校队的成员经常踢足球。结合I1和K3,用户A是足球校队的成员,所以用户A经常踢足球。再结合K2,用户A经常踢足球,而经常踢足球的人很可能喜欢踢足球,即可进一步推导出“用户A喜欢踢足球”这一目标信息资源。
上述内容符号化表示如下:
已知:I1=RIS_A_MEMBER_OF(A,TGROUP(INS(SoccerTeam))
K2=RLIKE(TPERSON(RDO(person,TACTIVITY(PlaySoccer))),T(PlaySoccer))
K3=RDO(TPERSON(RIS_A_MEMBER_OF(person,TGROUP(SoccerTeam)),TACTIVITY(PlaySoccer))可进行推导:
Figure BDA0002726176570000191
Figure BDA0002726176570000192
数据资源混合信息资源结合知识资源进行推导的过程如下:
若有用户A相关的阅读数据资源D2:足球新闻;以及信息资源I2:用户A喜欢运动。有知识资源K4:经常看足球新闻的人对足球体育赛事感兴趣;K5:运动包括踢足球、打篮球等等。结合D2和K4,用户A经常阅读足球新闻,所以用户A对足球赛事感兴趣。因为用户A对足球的兴趣可能只停留在看足球比赛上,所以“用户A对足球赛事感兴趣”这一信息不能直接推导出用户A喜欢踢足球。结合I2和K5,用户A喜欢运动,运动包含踢足球。因为用户A可能对打篮球等运动更感兴趣,所以这一信息也不足以直接推导出用户A喜欢踢足球。但示由于之前推导出用户A对足球赛事感兴趣,再结合“用户A喜欢运动”这一信息,即可推导出“用户A喜欢踢足球”这一目标信息资源。
上述内容符号化表示如下:
已知:D2=(A|TNEWS(Soccer))
I2=RLIKE(A|TACTIVITY(INS(SportsActivity)))
K4=RINTERESTED_IN(TPERSON(RREAD(person,TNEWS(Soccer))),TSPORTS(Soccer))
K5=RINCLUDE(TACTIVITY(SportsActivity),TACTIVITY(PlaySoccer,PlayBasketball,...))
可进行推导:
Figure BDA0002726176570000193
Figure BDA0002726176570000194
请参见图2,图2为本申请实施例所提供的一种面向本质计算与推理的跨DIKW模态文本歧义处理***的结构示意图;
该***可以包括:
文本分析模块100,用于获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
含义确定模块200,用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
资源补充模块300,用于若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;
文本修改模块400,用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本。
本实施例在获取目标文本之后,确定目标文本中包含的目标数据资源和目标信息资源,进而根据目标数据资源和目标信息资源查询目标文本的相关资源,根据相关资源确定目标文本的文本含义。本实施例根据目标文本的补充资源生成目标文本的条件限制文本,将符合条件限制文本的文本含义作为所述目标文本的实际文本含义,进而根据所述实际文本含义修改所述目标文本,消除了目标文本中的歧义。可见,本实施例能够准确识别并消除文本中存在的歧义。
进一步的,文本分析模块100包括:
类型确定单元,用于确定所述目标文本的资源类型;其中,所述资源类型包括数据资源、信息资源和知识资源,数据资源为数据图谱中的资源,信息资源为信息图谱中的资源,知识资源为知识图谱中的资源;
模态转化单元,用于对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源;其中,所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。
进一步的,模态转化单元,用于判断所述目标文本是否为数据资源;若是,则将所述目标文本设置为所述目标数据资源;若否,则对所述目标文本执行跨模态转化得到所述目标数据资源;还用于判断所述目标文本是否为信息资源;若是,则将所述目标文本设置为所述目标信息资源;若否,则对所述目标文本执行跨模态转化得到所述目标信息资源。
进一步的,含义确定模块200用于获取所述目标文本的关联文本;还用于根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源。
进一步的,资源补充模块300用于将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源;还用于和/或,将所述信息图谱中与所述目标信息资源的关联程度大于所述预设值的信息资源作为所述目标文本的相关资源。
进一步的,还包括:
文本种类判定模块,用于在判定所述目标文本的文本含义的数量大于1之后,判定所述目标文本为缺失数据资源或信息资源的文本;或,判定所述目标文本为数据资源冗余或信息资源冗余的文本。
进一步的,含义确定模块200用于将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。
由于***部分的实施例与方法部分的实施例相互对应,因此***部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种面向本质计算与推理的跨DIKW模态文本歧义处理方法,其特征在于,包括:
获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;
将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本;
其中,所述数据资源为数据图谱中的资源,所述信息资源为信息图谱中的资源;
其中,根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,包括:
获取所述目标文本的关联文本;
根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源;
其中,获取所述目标文本的补充资源,包括:
将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源。
2.根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法,其特征在于,确定所述目标文本中的目标数据资源和目标信息资源,包括:
确定所述目标文本的资源类型;其中,所述资源类型包括数据资源、信息资源和知识资源,数据资源为数据图谱中的资源,信息资源为信息图谱中的资源,知识资源为知识图谱中的资源;
对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源;其中,所述跨模态转化为数据资源、信息资源、知识资源、数据信息混合资源中任意两种资源之间的转化操作。
3.根据权利要求2所述面向本质计算与推理的跨DIKW模态文本歧义处理方法,其特征在于,对所述目标文本执行跨模态转化得到所述目标数据资源和目标信息资源,包括:
判断所述目标文本是否为数据资源;若是,则将所述目标文本设置为所述目标数据资源;若否,则对所述目标文本执行跨模态转化得到所述目标数据资源;
判断所述目标文本是否为信息资源;若是,则将所述目标文本设置为所述目标信息资源;若否,则对所述目标文本执行跨模态转化得到所述目标信息资源。
4.根据权利要求1所述面向本质计算与推理的跨DIKW模态文本歧义处理方法,其特征在于,在判定所述目标文本的文本含义的数量大于1之后,还包括:
判定所述目标文本为缺失数据资源或信息资源的文本;
或,判定所述目标文本为数据资源冗余或信息资源冗余的文本。
5.根据权利要求1至4任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法,其特征在于,根据所述相关资源确定所述目标文本的文本含义,包括:
将所述相关资源分别与每一所述目标数据资源和每一所述目标信息资源相结合推导所述目标文本的文本含义。
6.一种面向本质计算与推理的跨DIKW模态文本歧义处理***,其特征在于,包括:
文本分析模块,用于获取目标文本,并确定所述目标文本中的目标数据资源和目标信息资源;
含义确定模块,用于根据所述目标数据资源和/或所述目标信息资源查询所述目标文本的相关资源,并根据所述相关资源确定所述目标文本的文本含义;
资源补充模块,用于若所述目标文本的文本含义的数量大于1,则获取所述目标文本的补充资源,并根据所述补充资源生成所述目标文本的条件限制文本;
文本修改模块,用于将符合所述条件限制文本的文本含义作为所述目标文本的实际文本含义,并根据所述实际文本含义修改所述目标文本;
其中,所述数据资源为数据图谱中的资源,所述信息资源为信息图谱中的资源;
其中,所述含义确定模块用于获取所述目标文本的关联文本;还用于根据所述目标数据资源和/或所述目标信息资源从所述关联文本中查询所述目标文本的相关资源;
其中,所述资源补充模块用于将所述数据图谱中与所述目标数据资源的关联程度大于预设值的数据资源作为所述目标文本的补充资源。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至5任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法的步骤。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至5任一项所述面向本质计算与推理的跨DIKW模态文本歧义处理方法的步骤。
CN202011103480.6A 2020-10-15 2020-10-15 面向本质计算与推理的跨dikw模态文本歧义处理方法 Active CN112232085B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011103480.6A CN112232085B (zh) 2020-10-15 2020-10-15 面向本质计算与推理的跨dikw模态文本歧义处理方法
PCT/CN2021/118178 WO2022078145A1 (zh) 2020-10-15 2021-09-14 面向本质计算与推理的跨dikw模态文本歧义处理方法
CA3136527A CA3136527C (en) 2020-10-15 2021-09-14 Cross-dikw-mode ambiguity processing method oriented to essential computing and reasoning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011103480.6A CN112232085B (zh) 2020-10-15 2020-10-15 面向本质计算与推理的跨dikw模态文本歧义处理方法

Publications (2)

Publication Number Publication Date
CN112232085A CN112232085A (zh) 2021-01-15
CN112232085B true CN112232085B (zh) 2021-10-08

Family

ID=74117326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011103480.6A Active CN112232085B (zh) 2020-10-15 2020-10-15 面向本质计算与推理的跨dikw模态文本歧义处理方法

Country Status (2)

Country Link
CN (1) CN112232085B (zh)
WO (1) WO2022078145A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232085B (zh) * 2020-10-15 2021-10-08 海南大学 面向本质计算与推理的跨dikw模态文本歧义处理方法
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及***
CN114039865B (zh) * 2021-08-30 2023-03-31 海南大学 意图计算导向的跨dikw模态传输与优化***
CN113810480B (zh) * 2021-09-03 2022-09-16 海南大学 基于dikw内容对象的情感通讯方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110704641A (zh) * 2019-10-11 2020-01-17 零犀(北京)科技有限公司 一种万级意图分类方法、装置、存储介质及电子设备
CN110969022A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 语义确定方法及相关设备
CN111368548A (zh) * 2018-12-07 2020-07-03 北京京东尚科信息技术有限公司 语义识别方法及装置、电子设备和计算机可读存储介质
CN111538844A (zh) * 2020-03-20 2020-08-14 华为技术有限公司 目标领域知识库的生成、问题解答方法及装置
CN111723188A (zh) * 2020-06-23 2020-09-29 宁波富万信息科技有限公司 用于问答***的基于人工智能的语句显示方法、电子设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US9443005B2 (en) * 2012-12-14 2016-09-13 Instaknow.Com, Inc. Systems and methods for natural language processing
CN105630763B (zh) * 2014-10-31 2019-08-02 国际商业机器公司 用于提及检测中的消歧的方法和***
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
US20200073996A1 (en) * 2018-08-28 2020-03-05 Stitched.IO Limited Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
CN111651570A (zh) * 2020-05-13 2020-09-11 深圳追一科技有限公司 文本语句处理方法、装置、电子设备以及存储介质
CN112232085B (zh) * 2020-10-15 2021-10-08 海南大学 面向本质计算与推理的跨dikw模态文本歧义处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997399A (zh) * 2017-05-24 2017-08-01 海南大学 一种基于数据图谱、信息图谱、知识图谱和智慧图谱关联架构的分类问答***设计方法
CN110969022A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 语义确定方法及相关设备
CN111368548A (zh) * 2018-12-07 2020-07-03 北京京东尚科信息技术有限公司 语义识别方法及装置、电子设备和计算机可读存储介质
CN110633366A (zh) * 2019-07-31 2019-12-31 国家计算机网络与信息安全管理中心 一种短文本分类方法、装置和存储介质
CN110704641A (zh) * 2019-10-11 2020-01-17 零犀(北京)科技有限公司 一种万级意图分类方法、装置、存储介质及电子设备
CN111538844A (zh) * 2020-03-20 2020-08-14 华为技术有限公司 目标领域知识库的生成、问题解答方法及装置
CN111723188A (zh) * 2020-06-23 2020-09-29 宁波富万信息科技有限公司 用于问答***的基于人工智能的语句显示方法、电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Existence Computation Revelation on Entity vs Relationship for Relationship Defined Everything of Semantics;Yucong Duan;《2019 20th IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing (SNPD)》;20191230;全文 *
数据、信息和知识三层图谱架构的推荐服务设计;邵礼旭 等;《计算机科学与探索》;20191230;全文 *

Also Published As

Publication number Publication date
CN112232085A (zh) 2021-01-15
WO2022078145A1 (zh) 2022-04-21

Similar Documents

Publication Publication Date Title
CN112232085B (zh) 面向本质计算与推理的跨dikw模态文本歧义处理方法
JP2017224184A (ja) 機械学習装置
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
CN112559895B (zh) 一种数据处理方法、装置、电子设备及存储介质
Stamatatos et al. Plagiarism and authorship analysis: introduction to the special issue
CN112232082A (zh) 面向本质计算的多模态dikw内容多语义分析方法
CN111930976B (zh) 演示文稿生成方法、装置、设备及存储介质
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
CN111369294B (zh) 软件造价估算方法及装置
KR20140015653A (ko) 컨텐츠 추천 시스템 및 방법
US10296635B2 (en) Auditing and augmenting user-generated tags for digital content
CN108153875B (zh) 语料处理方法、装置、智能音箱和存储介质
CN110516164A (zh) 一种信息推荐方法、装置、设备及存储介质
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
CN117077679A (zh) 命名实体识别方法和装置
CN103377381A (zh) 识别图像的内容属性的方法和装置
CN109145261B (zh) 一种生成标签的方法和装置
Cui et al. Cross-modal alignment with graph reasoning for image-text retrieval
Ahmad What drives journalists’ perceptions of media powers as political image-makers in the emerging democracy of Indonesia?
JP6785693B2 (ja) 情報処理システム、情報処理方法、およびプログラム
Hapazari Challenges faced by unemployed people in Lesotho: A case of Manonyane rural community
CN112445895B (zh) 一种识别用户搜索场景的方法及***
CN115878882A (zh) 用户兴趣的分层表示学习
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
Tamilin et al. Context-driven semantic enrichment of italian news archive

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant