CN111259161B - 本体建立方法、装置及存储介质 - Google Patents
本体建立方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111259161B CN111259161B CN201811459195.0A CN201811459195A CN111259161B CN 111259161 B CN111259161 B CN 111259161B CN 201811459195 A CN201811459195 A CN 201811459195A CN 111259161 B CN111259161 B CN 111259161B
- Authority
- CN
- China
- Prior art keywords
- node
- degree
- words
- concept
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种本体建立方法、装置及存储介质,属于大数据处理技术领域。所述方法包括:对于用于建立本体的至少一个文档,根据至少一个文档确定多个多元组,根据多个多元组确定多个语义关系数据组,然后根据多个语义关系数据组,建立针对至少一个文档的本体。整个建立本体的过程中,无需人工参与,提高了建立本体的效率。
Description
技术领域
本发明涉及大数据处理技术领域,特别涉及一种本体建立方法、装置及存储介质。
背景技术
本体是一种数据结构,该数据结构用于对某些文档采用标准的、规范的方式进行说明,以便于根据该本体对这些文档进行共享。其中,本体包括多个概念和多个概念中存在关联的两个概念之间的概念关系。比如,针对描述雨伞的多个文档建立一个本体,该本体中包括多个概念,比如雨伞、用具、伞把等。其中,概念“雨伞”和概念“用具”之间存在一个概念关系,且该概念关系由“雨伞”指向“用具”。概念“雨伞”和概念“伞把”之间也存在一个概念关系,且该概念关系由“伞把”指向“雨伞”。
相关技术中,当需要建立本体时,获取用户建立本体的至少一个文档,通过人工方式对至少一个文档中每个文档中的词语进行归类,然后根据归类之后的多个词语建立本体。该建立本体的过程中人工参与度较高,严重影响了建立本体的效率。
发明内容
本发明实施例提供了一种本体建立方法、装置及存储介质,可以提高建立本体的效率。所述技术方案如下:
第一方面,提供了一种本体建立方法,所述方法包括:
获取用于建立本体的至少一个文档,并根据所述至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,所述第一类词语是指用于描述对象自身属性的词语,所述第二类词语是指用于指示不同对象之间的关联关系的词语;
确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
根据所述多个语义关系数据组,建立针对所述至少一个文档的本体。
可选地,所述确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多元组中的第二类词语对应的概念关系,包括:
对于所述多个多元组中任一多元组A,从参考数据库中查找与所述多元组A中的两个第一类词语分别对应的两个概念,所述参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系。
可选地,所述从参考数据库中查找所述多元组A中的两个第一类词语分别对应的两个概念,包括:
对于所述多元组A中两个第一类词语中的任一第一类词语B,确定所述至少一个文档中与所述第一类词语B的词义相同的词语;
如果所述至少一个文档中不存在与所述第一类词语B的词义相同的词语,则从所述参考数据库中查找所述第一类词语B对应的概念。
可选地,所述确定所述至少一个文档中与所述第一类词语B的词义相同的词语之后,还包括:
如果所述至少一个文档中存在与所述第一类词语B的词义相同的词语,则确定所述第一类词语B,以及与所述第一类词语B的词义相同的词语分别在所述至少一个文档中的出现次数;
从所述第一类词语B,以及与所述第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从所述参考数据库中查找所述出现次数最大的词语对应的概念,并将查找到的概念作为所述第一类词语B对应的概念。
可选地,所述方法还包括:
如果没有从所述参考数据库中查找到所述第一类词语B对应的概念,则通过LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)算法为所述第一类词语B创建一个概念。
可选地,所述根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系,包括:
从所述参考数据库中确定所述查找到的两个概念之间的路径,得到多条路径;
根据所述多条路径的路径长度,从所述多条路径中选择一条目标路径,所述目标路径中包括至少一个概念关系;
从所述至少一个概念关系中选择与所述多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与所述多元组A中的第二类词语对应的概念关系。
可选地,所述根据所述多个语义关系数据组,建立针对所述至少一个文档的本体,包括:
根据所述多个语义关系数据组,建立语义关系图,所述语义关系图中的一个结点对应所述多个语义关系数据组中的一个概念,所述语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且所述两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向每个结点的结点的数量,每个结点的出度是指每个结点指向的结点的数量;
对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪;
当对所述语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将所述语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;
对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的步骤,直至遍历完所述语义关系图中的所有结点,将最终得到的语义关系图作为针对所述至少一个文档建立的本体。
可选地,所述对所述第一结点进行裁剪,包括:
确定所述语义关系图中的至少一个结点,所述至少一个结点对应的概念所指示的词语在所述至少一个文档中的文档位置与所述第一结点对应的概念所指示的词语在所述至少一个文档中的文档位置相邻;
确定所述至少一个结点中与所述第一结点连接度最大的结点,删除所述至少一个结点中除确定出的结点之外的其他结点,并删除所述其他结点与所述第一结点之间的关系。
可选地,所述确定所述至少一个结点中与所述第一结点连接度最大的结点,包括:
基于第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
所述Wi和所述Wj分别为用于确定连接度的两个结点,所述Sim(Wi,Wj)为结点Wi和结点Wj之间的相似度,所述Rel(Wi,Wj)为结点Wi和结点Wj之间的相关度,所述α和所述β分别为针对相似度配置的加权系数和针对相关度配置的加权系数,所述α和所述β的和为1;
根据按照所述第一公式确定的连接度,确定所述至少一个结点中与所述第一结点连接度最大的结点。
可选地,所述根据按照所述第一公式确定的连接度,确定所述至少一个结点中与所述第一结点连接度最大的结点,包括:
如果按照所述第一公式确定的连接度中的最大连接度小于连接度阈值,则调整所述α和所述β的数值,得到更新之后的第一公式;
基于更新之后的第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
如果按照所述更新之后的第一公式确定的连接度中的最大连接度小于所述连接度阈值,则返回执行调整所述α和所述β的数值的步骤,直至确定出的最大连接度大于或等于所述连接度阈值,将最后一次确定出的最大连接度对应的结点确定为所述至少一个结点中与所述第一结点连接度最大的结点。
可选地,所述对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪之前,还包括:
如果所述语义关系图中存在入度等于0且出度也等于0的孤立结点,将所述孤立结点配置为指向所述语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;
基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的操作。
可选地,所述根据所述至少一个文档确定多个多元组,包括:
对所述至少一个文档中每个文档进行分词处理,得到多个词语;
确定所述多个词语中每个词语的词性;
根据所述多个词语中每个词语的词性和每个词语在所述至少一个文档中的文档位置,确定所述多个多元组。
第二方面,提供了一种本体建立装置,所述装置包括:
获取模块,用于获取用于建立本体的至少一个文档,并根据所述至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,所述第一类词语是指用于描述对象自身属性的词语,所述第二类词语是指用于指示不同对象之间的关联关系的词语;
确定模块,用于确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
建立模块,用于根据所述多个语义关系数据组,建立针对所述至少一个文档的本体。
可选地,所述确定模块包括:
第一查找单元,用于对于所述多个多元组中任一多元组A,从参考数据库中查找与所述多元组A中的两个第一类词语分别对应的两个概念,所述参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
第二查找单元,用于根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系。
可选地,所述第一查找单元,具体用于:
对于所述多元组A中两个第一类词语中的任一第一类词语B,确定所述至少一个文档中与所述第一类词语B的词义相同的词语;
如果所述至少一个文档中不存在与所述第一类词语B的词义相同的词语,则从所述参考数据库中查找所述第一类词语B对应的概念。
可选地,所述第一查找单元,还具体用于:
如果所述至少一个文档中存在与所述第一类词语B的词义相同的词语,则确定所述第一类词语B,以及与所述第一类词语B的词义相同的词语分别在所述至少一个文档中的出现次数;
从所述第一类词语B,以及与所述第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从所述参考数据库中查找所述出现次数最大的词语对应的概念,并将查找到的概念作为所述第一类词语B对应的概念。
可选地,所述装置还包括:
创建单元,用于如果没有从所述参考数据库中查找到所述第一类词语B对应的概念,则通过LDA算法为所述第一类词语B创建一个概念。
可选地,所述第二查找单元,具体用于:
从所述参考数据库中确定所述查找到的两个概念之间的路径,得到多条路径;
根据所述多条路径的路径长度,从所述多条路径中选择一条目标路径,所述目标路径中包括至少一个概念关系;
从所述至少一个概念关系中选择与所述多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与所述多元组A中的第二类词语对应的概念关系。
可选地,所述建立模块包括:
建立单元,用于根据所述多个语义关系数据组,建立语义关系图,所述语义关系图中的一个结点对应所述多个语义关系数据组中的一个概念,所述语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且所述两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向每个结点的结点的数量,每个结点的出度是指每个结点指向的结点的数量;
裁剪单元,用于对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪;
设置单元,用于当对所述语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将所述语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;
所述裁剪单元,还用于对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的步骤,直至遍历完所述语义关系图中的所有结点,将最终得到的语义关系图作为针对所述至少一个文档建立的本体。
可选地,所述裁剪单元,具体用于:
确定所述语义关系图中的至少一个结点,所述至少一个结点对应的概念所指示的词语在所述至少一个文档中的文档位置与所述第一结点对应的概念所指示的词语在所述至少一个文档中的文档位置相邻;
确定所述至少一个结点中与所述第一结点连接度最大的结点,删除所述至少一个结点中除确定出的结点之外的其他结点,并删除所述其他结点与所述第一结点之间的关系。
可选地,所述裁剪单元,还具体用于:
基于第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
所述Wi和所述Wj分别为用于确定连接度的两个结点,所述Sim(Wi,Wj)为结点Wi和结点Wj之间的相似度,所述Rel(Wi,Wj)为结点Wi和结点Wj之间的相关度,所述α和所述β分别为针对相似度配置的加权系数和针对相关度配置的加权系数,所述α和所述β的和为1;
根据按照所述第一公式确定的连接度,确定所述至少一个结点中与所述第一结点连接度最大的结点。
可选地,所述裁剪单元,还具体用于:
如果按照所述第一公式确定的连接度中的最大连接度小于连接度阈值,则调整所述α和所述β的数值,得到更新之后的第一公式;
基于更新之后的第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
如果按照所述更新之后的第一公式确定的连接度中的最大连接度小于所述连接度阈值,则返回执行调整所述α和所述β的数值的步骤,直至确定出的最大连接度大于或等于所述连接度阈值,将最后一次确定出的最大连接度对应的结点确定为所述至少一个结点中与所述第一结点连接度最大的结点。
可选地,所述建立模块还包括:
配置单元,用于如果所述语义关系图中存在入度等于0且出度也等于0的孤立结点,将所述孤立结点配置为指向所述语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;
所述裁剪单元,还用于基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的操作。
可选地,所述获取模块包括:
分词处理单元,用于对所述至少一个文档中每个文档进行分词处理,得到多个词语;
第一确定单元,用于确定所述多个词语中每个词语的词性;
第二确定单元,用于根据所述多个词语中每个词语的词性和每个词语在所述至少一个文档中的文档位置,确定所述多个多元组。
第三方面,提供了一种本体建立装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述第一方面所述的任一项方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的任一方法的步骤。
本发明实施例提供的技术方案带来的有益效果是:
在本发明实施例中,对于用于建立本体的至少一个文档,根据至少一个文档确定多个多元组,根据多个多元组确定多个语义关系数据组,然后根据多个语义关系数据组,建立针对至少一个文档的本体。整个建立本体的过程中,无需人工参与,提高了建立本体的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种本体建立方法流程图;
图2是本发明实施例提供的一种查询概念和概念关系的方法流程图;
图3是本发明实施例提供的一种概念图的示意图;
图4是本发明实施例提供的一种本体建立装置示意图;
图5是本发明实施例提供的一种终端的结构示意图;
图6是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种本体建立方法流程图。如图1所示,该方法包括如下步骤:
步骤101:获取用于建立本体的至少一个文档,并根据至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,第一类词语是指用于描述对象自身属性的词语,第二类词语是指用于指示不同对象之间的关联关系的词语。
在本发明实施例中,为了确保建立的本体能够最大可能描述至少一个文档中的内容,在建立本体时,先根据至少一个文档确定多个多元组。其中,每个多元组包括两个第一类词语和一个第二类词语,第一类词语是指用于描述对象自身属性的词语,比如名词。第二类词语是指用于指示不同对象之间的关联关系的词语,比如动词。且每个多元组中包括的词语均是至少一个文档中的词语,如此可以确保后续建立的本体是根据至少文档中的信息得到的,提高了建立的本体的准确性。
其中,本发明实施例提供的本体建立方法可以由终端来执行,也可以由服务器来执行,本发明实施例在此不做具体限定。因此,用于建立本体的至少一个文档可以是管理员预先输入至终端的,也可以是管理员预先通过终端上传至服务器的。
另外,在一种可能的实现方式中,根据至少一个文档确定多个多元组具体可以为:对至少一个文档中每个文档进行分词处理,得到多个词语;确定多个词语中每个词语的词性;根据多个词语中每个词语的词性和每个词语在至少一个文档中的文档位置,确定多个多元组。
其中,对至少一个文档进行分词处理可以采用基于字符串匹配中的正向最大匹配分词方法,当然也可以采用其他的分词方法,本发明实施例在此不做具体限定。
另外,由于每个词语可能有不同的词性,因此对于可以将多个词语按照各个词语在文档中的位置进行划分,得到多个词语序列,比如,可以将一段文本中的所有词语组合为一个词语序列。此时,确定多个词语中每个词语的词性的实现方式可以为:对于任一词语序列,按照该词语序列包括的每个词语对应的不同的词性,将不同的词性进行组合,得到针对该词语序列的多个词性序列,每个词性序列包括与该词语序列中的词语一一对应的词性。通过评估函数判断该多个词性序列中每个词性序列的概率,从多个词性序列中选择概率最大的词性序列,并将概率最大的词性序列中的词性确定为对应的词语的词性。
另外,由于按照分词处理之后的多个词语是按照在文档中的位置顺序排列的,因此,根据多个词语中每个词语的词性和每个词语在至少一个文档中的文档位置,确定多个多元组的实现方式可以为:对于任一第一类词语,在多个词语中查找排序在该第一类之后且与该第一类词语相邻的第二类词语,再继续查找排序在该第二类词语之后且与该第二类词语相邻的一个第一类词语,将这三个词语组合,便可得到一个多元组。
可选地,由于至少一个文档除了第一类词语和第二类词语之外,可能还存在其他词性的词语,比如副词或介词等,而这些其他词性的词语对建立本体的贡献度不大,因此在上述对至少一个文档中每个文档进行分词处理之前,还可以先对至少一个文档进行无用词过滤操作,以过滤掉至少一个文档中无用的词语。
另外,在本发明实施例中,由于用于建立本体的文档通常数量较多,为了提高建立本体的效率,可以通过基于分布式计算框架的计算模型来执行步骤101。具体地,将至少一个文档划分到不同的分区,各个分区之间可以并行地执行上述步骤101,进而提高了建立本体的速度。其中,将至少一个文档划分到不同的分区可以是指将每个文档划分到一个分区,也可以是指相邻的几个段落划分到一个分区,或者是一个段落划分到一个分区,本发明实施例在此不做具体限定。
其中,当至少一个文档被划分到不同的分区时,下述步骤102是以分区为单位执行的,也即是,各个分区并行地根据划入自身的文档执行步骤102。
步骤102:确定多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组。
由于目前已经存在有大量用于表征概念的数据库,因此,在本发明实施例中,可以基于参考数据库执行步骤102。也即是,基于参考数据库确定每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系。由于确定每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系的实现方式基本相同,因此,下面以多个多元组中任一多元组A为例说明如何确定一个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系。具体地,本发明实施例提供的一种查询概念和概念关系的方法流程图,如图2所示,该方法包括如下两个步骤。
步骤1021:从参考数据库中查找与多元组A中的两个第一类词语分别对应的两个概念,参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库。
其中,参考数据库可以为HowNet(知网)数据库。为了后续便于说明,在此对HowNet数据库进行简单介绍:HowNe数据库是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系的数据库。HowNe数据库采用KDML(Knowledge database mark-up language,知识***描述语言),利用嵌套式的结构,对概念以及概念的属性进行描述。也即是,对于一个复杂的概念用较简单的概念进行解释,较简单的概念再用更简单的概念解释,直到能够用义原表示为止,义原是指能够表达词义的最基本的单元。这种结构其实质是一种隐含的图结构,称之为概念图。
图3是本发明实施例提供的一种概念图的示意图。如图3所示,概念“场馆”在HowNet数据库中的描述可以为:NO.(编号)=129348,W_C(概念名称)=奥运场馆,DEF(定义文件扩展名,Definitions File Name Extension)={facilities|设施,domain(领域)={sports|体育},location(地方)={compete|比赛、exercise|锻炼}。在“场馆”的概念描述中,KDML表示了这样的含义:场馆是一个设施,这个设施所属的领域(Domain)是体育领域,这个设施是比赛的地方(Location),这个设施也是锻炼的地方(Location)。也就是说,场馆是一个用来进行体育比赛和健身锻炼的场所。
基于上述参考数据库的介绍可知,参考数据库中的一个概念可能对应至少一个文档中的一个词语,也可以对应至少一个文档中的多个词语。比如,词语“饭碗”、“职业”、“差事”就是多个词义相近的词,它们代表的是同一个概念。因此,从参考数据库中查找多元组A中的两个第一类词语分别对应的两个概念的实现方式可以为:对于多元组A中两个第一类词语中的任一第一类词语B,确定至少一个文档中与第一类词语B的词义相同的词语;如果至少一个文档中不存在与第一类词语B的词义相同的词语,则从参考数据库中查找第一类词语B对应的概念。
如果至少一个文档中存在与第一类词语B的词义相同的词语,则确定第一类词语B,以及与第一类词语B的词义相同的词语分别在至少一个文档中的出现次数;从第一类词语B,以及与第一类词语B的词义相同的词语中,确定出现次数最大的词语;从参考数据库中查找出现次数最大的词语对应的概念,并将查找到的概念作为第一类词语B对应的概念。
其中,当至少一个文档被划分到不同的分区时,由于各个分区并行地根据划入自身的文档执行步骤102,因此,上述实现方式中,与第一类词语B的词义相同的词语是指:在第一类词语B所在的分区内与第一类词语B的词义相同的词语。
另外,在按照上述方式从参考数据库中查找与第一类词语B对应的概念时,可能存在没有查找到的情况,此时则通过LDA算法为第一类词语B创建一个概念。其中,LDA算法是文本语义分析的一个重要模型。
其中,当至少一个文档被划分到不同的分区时,由于各个分区并行地根据划入自身的文档执行步骤102,此时,为每个分区配置一个LDA列表,对于任一分区,该LDA列表用于存放该分区内没有从参考数据库中查找到对应的概念的词语。因此,通过LDA算法为第一类词语B创建一个概念的实现方式具体可以为:对第一类词语B所在的分区的LDA列表中的所有词语进行概念建模,得到针对该LDA列表的一个概念树,将该概念树添加到参考数据库中,然后再从参考数据库中查找第一类词语B对应的概念,相当于为第一类词语B创建了一个概念。
步骤1022:根据查找到的两个概念,从参考数据库中继续查找与多元组A中的第二类词语对应的概念关系。
由图3可知,参考数据库中的不同的两个概念之间存在的不止一条路径,每条路径上存在不止一个概念关系,因此,步骤1022的实现方式具体可以为:从参考数据库中确定查找到的两个概念之间的路径,得到多条路径;根据多条路径的路径长度,从多条路径中选择一条目标路径,目标路径中包括至少一个概念关系;从至少一个概念关系中选择与多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与多元组A中的第二类词语对应的概念关系。
其中,根据多条路径的路径长度,从多条路径中选择一条目标路径的实现方式可以为:从多条路径中路径长度最大的一条路径作为目标路径。当然,本发明实施例中还可以根据其他原则确定目标路径,本发明实施例在此不做具体限定。
另外,由于在文档中通常存在一些通用的动词,比如“是”“为”等动词,这些动词对于建立本体的贡献度并不大,因此,在从参考数据库中确定查找到的两个概念之间的路径之前,还可以确定多元组A包括的第二类词语的TF-IDF(term frequency–inversedocument frequency,信息检索数据挖掘的常用加权技术)值,根据TF-IDF值确定该第二类词语是否为通用的动词,如果是,则过滤掉该通用的动词,此时则不再执行“从参考数据库中确定查找到的两个概念之间的路径”的步骤,并将多元组A中的第二类词语对应的概念关系设置为空值。如果根据TF-IDF值确定该第二类词语不是通用的动词,则执行上述“从参考数据库中确定查找到的两个概念之间的路径”,以从参考数据库中确定为与多元组A中的第二类词语对应的概念关系。
通过上述步骤101和步骤102可以得到多个语义关系数据组,由于每个语义关系数据组中包括两个概念和这两个概念之间的概念关系,因此可以通过下述步骤103建立针对至少一个文档的本体。
步骤103:根据多个语义关系数据组,建立针对至少一个文档的本体。
在本发明实施例汇总,由于每个语义关系数据组中包括两个概念和这两个概念之间的概念关系,因此可以直接将多个语义关系数据组所指示的网状结构数据作为针对至少一个文档的本体。
可选地,当通过分区模式执行上述步骤101和步骤102时,不同的分区之间可能存在相同的概念,导致多个语义关系数据组所指示的网状结构数据比较臃肿,不利于其他用户从多个语义关系数据组所指示的网状结构数据中查询信息。因此,在本发明实施例中,还可以对多个语义关系数据组所指示的网状结构数据进行裁剪,以提高建立的本体的通用性。
其中,对多个语义关系数据组所指示的网状结构数据进行裁剪的实现方式可以为:根据多个语义关系数据组,建立语义关系图,语义关系图中的一个结点对应多个语义关系数据组中的一个概念,语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向该每个结点的结点的数量,每个结点的出度是指该每个结点指向的结点的数量;对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪;当对语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪的步骤,直至遍历完语义关系图中的所有结点,将最终得到的语义关系图作为针对至少一个文档建立的本体。
其中,根据多个语义关系数据组,建立语义关系图是将多个语义关系数据组中的各个概念按照概念关系进行关联,得到的数据体系称之为语义关系图。
另外,在对语义关系图进行裁剪时,采用的是广度优先的方式遍历语义关系图中所有的结点。其中,广度优先是指先处理入度等于0且出度大于0的结点,再处理入度等于0且出度大于0的结点直接指向的结点,具体过程如上述实现方式。当然,也可以其他的遍历方式来遍历语义关系图中的结点,比如深度优先的遍历方式,本发明实施例在此不做具体限定。
在一种可能的实现方式中,对第一结点进行裁剪具体可以为:确定语义关系图中的至少一个结点,至少一个结点对应的概念所指示的词语在至少一个文档中的文档位置与第一结点对应的概念所指示的词语在至少一个文档中的文档位置相邻;确定至少一个结点中与第一结点连接度最大的结点,删除至少一个结点中除确定出的结点之外的其他结点,并删除其他结点与第一结点之间的关系。
其中,当至少一个文档被划分到不同的分区时,至少一个结点则是指对应的概念所指示的词语与第一结点对应的概念所指示的词语在同一分区内。
另外,连接度是指用于表征两个结点之间的关联程度的一个参数,在本发明实施例总,确定至少一个结点中与第一结点连接度最大的结点的实现方式具体可以为:基于第一公式确定至少一个结点中每个结点与第一结点之间的连接度,根据按照第一公式确定的连接度,确定至少一个结点中与第一结点连接度最大的结点。
Wi和Wj分别为用于确定连接度的两个结点,Joint(Wi,Wj)表示结点Wi和结点Wj之间的连接度,Sim(Wi,Wj)为结点Wi和结点Wj之间的相似度,Rel(Wi,Wj)为结点Wi和结点Wj之间的相关度,α和β分别为针对相似度配置的加权系数和针对相关度配置的加权系数,α和β的和为1。
其中,结点Wi和结点Wj之间的相似度可以通过结点Wi和结点Wj在语义关系图中的路径的长度来确定,本发明实施例在此不再详细阐述。Wi和结点Wj之间的相关度可以通过结点Wi对应的词语和结点Wj对应的词语在至少一个文档中的出现次数来确定。并且,当至少一个文档被划分到不同的分区时,结点Wi对应的词语和结点Wj对应的词语在至少一个文档中的出现次数是指结点Wi对应的词语和结点Wj对应的词语在同一分区中出现次数。因此,通过本发明实施例提供的连接度的确定方式,可以使得连接度结合了词句上下文语境和参考数据库中包含的相似度关系,从而使得确定出的概念关系更加符合两个词语之间的关系。
在上述实现方式中,在确定至少一个结点中每个结点与第一结点之间的连接度之后,可以直接确定连接度最大的结点,这种实现方式操作简单,易于实现。但是实际应用中,可能存在确定至少一个结点中每个结点与第一结点之间的连接度之后,最大的连接度不满足指定要求,这样按照上述实现方式直接确定出连接度最大的结点可能不能代表与第一节点关联度最大的结点。
因此,可选地,如果按照第一公式确定的连接度中的最大连接度小于连接度阈值,则调整α和β的数值,得到更新之后的第一公式;基于更新之后的第一公式确定至少一个结点中每个结点与第一结点之间的连接度;如果按照更新之后的第一公式确定的连接度中的最大连接度小于连接度阈值,则返回执行调整α和β的数值的步骤,直至确定出的最大连接度大于或等于连接度阈值,将最后一次确定出的最大连接度对应的结点确定为至少一个结点中与第一结点连接度最大的结点。
另外,由于在步骤102中,多元组A中的第二类词语对应的概念关系可能为空值,因此,语义关系图中可能存在入度等于0且出度也等于0的孤立结点。对于这些孤立结点,可以先将这些孤立结点并入到其他结点中,然后在对语义关系图进行裁剪。也即是,在对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪之前,还可以执行如下操作:如果语义关系图中存在入度等于0且出度也等于0的孤立结点,将孤立结点配置为指向语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪的操作。通过这种合并的方式,可以确保将步骤102建立的本体中的每个概念都与其他概念之间存在关系。
在本发明实施例中,对于用于建立本体的至少一个文档,根据至少一个文档确定多个多元组,根据多个多元组确定多个语义关系数据组,然后根据多个语义关系数据组,建立针对至少一个文档的本体。整个建立本体的过程中,无需人工参与,提高了建立本体的效率。
图4是本发明实施例提供的一种本体建立装置。如图4所示,该装置400包括:
获取模块401,用于获取用于建立本体的至少一个文档,并根据至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,第一类词语是指用于描述对象自身属性的词语,第二类词语是指用于指示不同对象之间的关联关系的词语;
确定模块402,用于确定多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
建立模块403,用于根据多个语义关系数据组,建立针对至少一个文档的本体。
可选地,确定模块402包括:
第一查找单元,用于对于多个多元组中任一多元组A,从参考数据库中查找与多元组A中的两个第一类词语分别对应的两个概念,参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
第二查找单元,用于根据查找到的两个概念,从参考数据库中继续查找与多元组A中的第二类词语对应的概念关系。
可选地,第一查找单元,具体用于:
对于多元组A中两个第一类词语中的任一第一类词语B,确定至少一个文档中与第一类词语B的词义相同的词语;
如果至少一个文档中不存在与第一类词语B的词义相同的词语,则从参考数据库中查找第一类词语B对应的概念。
可选地,第一查找单元,还具体用于:
如果至少一个文档中存在与第一类词语B的词义相同的词语,则确定第一类词语B,以及与第一类词语B的词义相同的词语分别在至少一个文档中的出现次数;
从第一类词语B,以及与第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从参考数据库中查找出现次数最大的词语对应的概念,并将查找到的概念作为第一类词语B对应的概念。
可选地,装置400还包括:
创建单元,用于如果没有从参考数据库中查找到第一类词语B对应的概念,则通过LDA算法为第一类词语B创建一个概念。
可选地,第二查找单元,具体用于:
从参考数据库中确定查找到的两个概念之间的路径,得到多条路径;
根据多条路径的路径长度,从多条路径中选择一条目标路径,目标路径中包括至少一个概念关系;
从至少一个概念关系中选择与多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与多元组A中的第二类词语对应的概念关系。
可选地,建立模块403包括:
建立单元,用于根据多个语义关系数据组,建立语义关系图,语义关系图中的一个结点对应多个语义关系数据组中的一个概念,语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向每个结点的结点的数量,每个结点的出度是指每个结点指向的结点的数量;
裁剪单元,用于对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪;
设置单元,用于当对语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;
裁剪单元,还用于对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪的步骤,直至遍历完语义关系图中的所有结点,将最终得到的语义关系图作为针对至少一个文档建立的本体。
可选地,裁剪单元,具体用于:
确定语义关系图中的至少一个结点,至少一个结点对应的概念所指示的词语在至少一个文档中的文档位置与第一结点对应的概念所指示的词语在至少一个文档中的文档位置相邻;
确定至少一个结点中与第一结点连接度最大的结点,删除至少一个结点中除确定出的结点之外的其他结点,并删除其他结点与第一结点之间的关系。
可选地,裁剪单元,还具体用于:
基于第一公式确定至少一个结点中每个结点与第一结点之间的连接度;
Wi和Wj分别为用于确定连接度的两个结点,Sim(Wi,Wj)为结点Wi和结点Wj之间的相似度,Rel(Wi,Wj)为结点Wi和结点Wj之间的相关度,α和β分别为针对相似度配置的加权系数和针对相关度配置的加权系数,α和β的和为1;
根据按照第一公式确定的连接度,确定至少一个结点中与第一结点连接度最大的结点。
可选地,裁剪单元,还具体用于:
如果按照第一公式确定的连接度中的最大连接度小于连接度阈值,则调整α和β的数值,得到更新之后的第一公式;
基于更新之后的第一公式确定至少一个结点中每个结点与第一结点之间的连接度;
如果按照更新之后的第一公式确定的连接度中的最大连接度小于连接度阈值,则返回执行调整α和β的数值的步骤,直至确定出的最大连接度大于或等于连接度阈值,将最后一次确定出的最大连接度对应的结点确定为至少一个结点中与第一结点连接度最大的结点。
可选地,建立模块还包括:
配置单元,用于如果语义关系图中存在入度等于0且出度也等于0的孤立结点,将孤立结点配置为指向语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;
裁剪单元,还用于基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对第一结点进行裁剪的操作。
可选地,获取模块401包括:
分词处理单元,用于对至少一个文档中每个文档进行分词处理,得到多个词语;
第一确定单元,用于确定多个词语中每个词语的词性;
第二确定单元,用于根据多个词语中每个词语的词性和每个词语在至少一个文档中的文档位置,确定多个多元组。
在本发明实施例中,对于用于建立本体的至少一个文档,根据至少一个文档确定多个多元组,根据多个多元组确定多个语义关系数据组,然后根据多个语义关系数据组,建立针对至少一个文档的本体。整个建立本体的过程中,无需人工参与,提高了建立本体的效率。
需要说明的是:上述实施例提供的本体建立装置在建立本体时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的本体建立装置与本体建立方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图5是本发明实施例提供的一种终端500的结构框图。该终端500可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本发明中方法实施例提供的本体建立方法。
在一些实施例中,终端500还可选包括有:***设备接口503和至少一个***设备。处理器501、存储器502和***设备接口503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口503相连。具体地,***设备包括:射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。
***设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和***设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和***设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在再一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时,由处理器501根据用户对触摸显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制触摸显示屏505的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏505的显示亮度;当环境光强度较低时,调低触摸显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上述实施例提供的本体建立方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在终端上运行时,使得终端执行上述实施例提供的本体建立方法。
图6是本发明实施例提供的一种服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的***存储器604,以及连接***存储器604和中央处理单元601的***总线605。服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)606,和用于存储操作***613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出***606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到***总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出***606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到***总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器604和大容量存储设备607可以统称为存储器。
根据本申请的各种实施例,服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在***总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机***(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行上述实施例提供的本体建立方法的指令。
本发明实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得移服务器能够执行上述实施例提供的本体建立方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在服务器上运行时,使得服务器执行上述实施例提供的本体建立方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (26)
1.一种本体建立方法,其特征在于,所述方法包括:
获取用于建立本体的至少一个文档,并根据所述至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,所述第一类词语是指用于描述对象自身属性的词语,所述第二类词语是指用于指示不同对象之间的关联关系的词语;
确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
根据所述多个语义关系数据组,建立针对所述至少一个文档的本体。
2.如权利要求1所述的方法,其特征在于,所述确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多元组中的第二类词语对应的概念关系,包括:
对于所述多个多元组中任一多元组A,从参考数据库中查找与所述多元组A中的两个第一类词语分别对应的两个概念,所述参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系。
3.如权利要求2所述的方法,其特征在于,所述从参考数据库中查找所述多元组A中的两个第一类词语分别对应的两个概念,包括:
对于所述多元组A中两个第一类词语中的任一第一类词语B,确定所述至少一个文档中与所述第一类词语B的词义相同的词语;
如果所述至少一个文档中不存在与所述第一类词语B的词义相同的词语,则从所述参考数据库中查找所述第一类词语B对应的概念。
4.如权利要求3所述的方法,其特征在于,所述确定所述至少一个文档中与所述第一类词语B的词义相同的词语之后,还包括:
如果所述至少一个文档中存在与所述第一类词语B的词义相同的词语,则确定所述第一类词语B,以及与所述第一类词语B的词义相同的词语分别在所述至少一个文档中的出现次数;
从所述第一类词语B,以及与所述第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从所述参考数据库中查找所述出现次数最大的词语对应的概念,并将查找到的概念作为所述第一类词语B对应的概念。
5.如权利要求3或4所述的方法,其特征在于,所述方法还包括:
如果没有从所述参考数据库中查找到所述第一类词语B对应的概念,则通过潜在狄利克雷分布LDA算法为所述第一类词语B创建一个概念。
6.如权利要求2所述的方法,其特征在于,所述根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系,包括:
从所述参考数据库中确定所述查找到的两个概念之间的路径,得到多条路径;
根据所述多条路径的路径长度,从所述多条路径中选择一条目标路径,所述目标路径中包括至少一个概念关系;
从所述至少一个概念关系中选择与所述多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与所述多元组A中的第二类词语对应的概念关系。
7.如权利要求1所述的方法,其特征在于,所述根据所述多个语义关系数据组,建立针对所述至少一个文档的本体,包括:
根据所述多个语义关系数据组,建立语义关系图,所述语义关系图中的一个结点对应所述多个语义关系数据组中的一个概念,所述语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且所述两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向每个结点的结点的数量,每个结点的出度是指每个结点指向的结点的数量;
对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪;
当对所述语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将所述语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;
对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的步骤,直至遍历完所述语义关系图中的所有结点,将最终得到的语义关系图作为针对所述至少一个文档建立的本体。
8.如权利要求7所述的方法,其特征在于,所述对所述第一结点进行裁剪,包括:
确定所述语义关系图中的至少一个结点,所述至少一个结点对应的概念所指示的词语在所述至少一个文档中的文档位置与所述第一结点对应的概念所指示的词语在所述至少一个文档中的文档位置相邻;
确定所述至少一个结点中与所述第一结点连接度最大的结点,删除所述至少一个结点中除确定出的结点之外的其他结点,并删除所述其他结点与所述第一结点之间的关系。
10.如权利要求9所述的方法,其特征在于,所述根据按照所述第一公式确定的连接度,确定所述至少一个结点中与所述第一结点连接度最大的结点,包括:
如果按照所述第一公式确定的连接度中的最大连接度小于连接度阈值,则调整所述α和所述β的数值,得到更新之后的第一公式;
基于更新之后的第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
如果按照所述更新之后的第一公式确定的连接度中的最大连接度小于所述连接度阈值,则返回执行调整所述α和所述β的数值的步骤,直至确定出的最大连接度大于或等于所述连接度阈值,将最后一次确定出的最大连接度对应的结点确定为所述至少一个结点中与所述第一结点连接度最大的结点。
11.如权利要求7所述的方法,其特征在于,所述对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪之前,还包括:
如果所述语义关系图中存在入度等于0且出度也等于0的孤立结点,将所述孤立结点配置为指向所述语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;
基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的操作。
12.如权利要求1所述的方法,其特征在于,所述根据所述至少一个文档确定多个多元组,包括:
对所述至少一个文档中每个文档进行分词处理,得到多个词语;
确定所述多个词语中每个词语的词性;
根据所述多个词语中每个词语的词性和每个词语在所述至少一个文档中的文档位置,确定所述多个多元组。
13.一种本体建立装置,其特征在于,所述装置包括:
获取模块,用于获取用于建立本体的至少一个文档,并根据所述至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,所述第一类词语是指用于描述对象自身属性的词语,所述第二类词语是指用于指示不同对象之间的关联关系的词语;
确定模块,用于确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
建立模块,用于根据所述多个语义关系数据组,建立针对所述至少一个文档的本体。
14.如权利要求13所述的装置,其特征在于,所述确定模块包括:
第一查找单元,用于对于所述多个多元组中任一多元组A,从参考数据库中查找与所述多元组A中的两个第一类词语分别对应的两个概念,所述参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
第二查找单元,用于根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系。
15.如权利要求14所述的装置,其特征在于,所述第一查找单元,具体用于:
对于所述多元组A中两个第一类词语中的任一第一类词语B,确定所述至少一个文档中与所述第一类词语B的词义相同的词语;
如果所述至少一个文档中不存在与所述第一类词语B的词义相同的词语,则从所述参考数据库中查找所述第一类词语B对应的概念。
16.如权利要求15所述的装置,其特征在于,所述第一查找单元,还具体用于:
如果所述至少一个文档中存在与所述第一类词语B的词义相同的词语,则确定所述第一类词语B,以及与所述第一类词语B的词义相同的词语分别在所述至少一个文档中的出现次数;
从所述第一类词语B,以及与所述第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从所述参考数据库中查找所述出现次数最大的词语对应的概念,并将查找到的概念作为所述第一类词语B对应的概念。
17.如权利要求15或16所述的装置,其特征在于,所述装置还包括:
创建单元,用于如果没有从所述参考数据库中查找到所述第一类词语B对应的概念,则通过潜在狄利克雷分布LDA算法为所述第一类词语B创建一个概念。
18.如权利要求14所述的装置,其特征在于,所述第二查找单元,具体用于:
从所述参考数据库中确定所述查找到的两个概念之间的路径,得到多条路径;
根据所述多条路径的路径长度,从所述多条路径中选择一条目标路径,所述目标路径中包括至少一个概念关系;
从所述至少一个概念关系中选择与所述多元组A中的第二类词语之间相似度最大的概念关系,并将选择的概念关系确定为与所述多元组A中的第二类词语对应的概念关系。
19.如权利要求13所述的装置,其特征在于,所述建立模块包括:
建立单元,用于根据所述多个语义关系数据组,建立语义关系图,所述语义关系图中的一个结点对应所述多个语义关系数据组中的一个概念,所述语义关系图中两个结点之间的关系为对应的两个概念之间的概念关系,且所述两个结点之间的方向为对应的两个概念之间的概念关系所指示的方向,每个结点配置有入度和出度,且每个结点的入度是指指向每个结点的结点的数量,每个结点的出度是指每个结点指向的结点的数量;
裁剪单元,用于对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪;
设置单元,用于当对所述语义关系图中所有入度等于0且出度大于0的结点均裁剪完时,将所述语义关系图中所有入度等于0且出度大于0的结点指向的结点的入度设置为0;
所述裁剪单元,还用于对除了已经裁剪的结点之外的其他节点,返回执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的步骤,直至遍历完所述语义关系图中的所有结点,将最终得到的语义关系图作为针对所述至少一个文档建立的本体。
20.如权利要求19所述的装置,其特征在于,所述裁剪单元,具体用于:
确定所述语义关系图中的至少一个结点,所述至少一个结点对应的概念所指示的词语在所述至少一个文档中的文档位置与所述第一结点对应的概念所指示的词语在所述至少一个文档中的文档位置相邻;
确定所述至少一个结点中与所述第一结点连接度最大的结点,删除所述至少一个结点中除确定出的结点之外的其他结点,并删除所述其他结点与所述第一结点之间的关系。
22.如权利要求21所述的装置,其特征在于,所述裁剪单元,还具体用于:
如果按照所述第一公式确定的连接度中的最大连接度小于连接度阈值,则调整所述α和所述β的数值,得到更新之后的第一公式;
基于更新之后的第一公式确定所述至少一个结点中每个结点与所述第一结点之间的连接度;
如果按照所述更新之后的第一公式确定的连接度中的最大连接度小于所述连接度阈值,则返回执行调整所述α和所述β的数值的步骤,直至确定出的最大连接度大于或等于所述连接度阈值,将最后一次确定出的最大连接度对应的结点确定为所述至少一个结点中与所述第一结点连接度最大的结点。
23.如权利要求19所述的装置,其特征在于,所述建立模块还包括:
配置单元,用于如果所述语义关系图中存在入度等于0且出度也等于0的孤立结点,将所述孤立结点配置为指向所述语义关系图中的入度等于0且出度大于0的一个结点上,得到更新之后的语义关系图;
所述裁剪单元,还用于基于更新之后的语义关系图,执行对于入度等于0且出度大于0的任一第一结点,对所述第一结点进行裁剪的操作。
24.如权利要求13所述的装置,其特征在于,所述获取模块包括:
分词处理单元,用于对所述至少一个文档中每个文档进行分词处理,得到多个词语;
第一确定单元,用于确定所述多个词语中每个词语的词性;
第二确定单元,用于根据所述多个词语中每个词语的词性和每个词语在所述至少一个文档中的文档位置,确定所述多个多元组。
25.一种本体建立装置,其特征在于,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述权利要求1至权利要求12中的任一项权利要求所述的方法的步骤。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述权利要求1至权利要求12中的任一项权利要求所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811459195.0A CN111259161B (zh) | 2018-11-30 | 2018-11-30 | 本体建立方法、装置及存储介质 |
PCT/CN2019/122159 WO2020108641A1 (zh) | 2018-11-30 | 2019-11-29 | 本体建立方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811459195.0A CN111259161B (zh) | 2018-11-30 | 2018-11-30 | 本体建立方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111259161A CN111259161A (zh) | 2020-06-09 |
CN111259161B true CN111259161B (zh) | 2022-02-08 |
Family
ID=70852655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811459195.0A Active CN111259161B (zh) | 2018-11-30 | 2018-11-30 | 本体建立方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111259161B (zh) |
WO (1) | WO2020108641A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101681353A (zh) * | 2007-03-30 | 2010-03-24 | 纽科股份有限公司 | 用于知识导航和发现的数据结构、***和方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建***及方法 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3891909B2 (ja) * | 2002-09-03 | 2007-03-14 | 日本アイ・ビー・エム株式会社 | 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム |
-
2018
- 2018-11-30 CN CN201811459195.0A patent/CN111259161B/zh active Active
-
2019
- 2019-11-29 WO PCT/CN2019/122159 patent/WO2020108641A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101681353A (zh) * | 2007-03-30 | 2010-03-24 | 纽科股份有限公司 | 用于知识导航和发现的数据结构、***和方法 |
CN101710343A (zh) * | 2009-12-11 | 2010-05-19 | 北京中机科海科技发展有限公司 | 一种基于文本挖掘的本体自动构建***及方法 |
CN103207856A (zh) * | 2013-04-03 | 2013-07-17 | 同济大学 | 一种本体概念及层次关系生成方法 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN108491385A (zh) * | 2018-03-16 | 2018-09-04 | 广西师范大学 | 一种基于依存关系的教学领域本体自动生成方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2020108641A1 (zh) | 2020-06-04 |
CN111259161A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918669B (zh) | 实体确定方法、装置及存储介质 | |
CN110471858B (zh) | 应用程序测试方法、装置及存储介质 | |
CN108717432B (zh) | 资源查询方法及装置 | |
CN109657236B (zh) | 引导信息获取方法、装置、电子装置及存储介质 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
CN109917988B (zh) | 选中内容显示方法、装置、终端及计算机可读存储介质 | |
CN110555102A (zh) | 媒体标题识别方法、装置及存储介质 | |
CN113032587B (zh) | 多媒体信息推荐方法、***、装置、终端和服务器 | |
CN113987326B (zh) | 资源推荐方法、装置、计算机设备及介质 | |
CN108416026B (zh) | 索引生成方法、内容搜索方法、装置及设备 | |
CN111475611B (zh) | 词典管理方法、装置、计算机设备及存储介质 | |
CN110837557B (zh) | 摘要生成方法、装置、设备及介质 | |
CN111782950A (zh) | 样本数据集获取方法、装置、设备及存储介质 | |
CN111259161B (zh) | 本体建立方法、装置及存储介质 | |
CN113222771B (zh) | 一种基于知识图谱确定目标群体的方法、装置及电子设备 | |
CN111640432B (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN111125095B (zh) | 数据前缀添加的方法、装置、电子设备及介质 | |
CN112311652B (zh) | 消息发送方法、装置、终端及存储介质 | |
CN109635153B (zh) | 迁移路径生成方法、装置及存储介质 | |
CN111259252A (zh) | 用户标识识别方法、装置、计算机设备及存储介质 | |
CN113783909B (zh) | 数据需求的生成方法、装置、终端、服务器及存储介质 | |
CN111581481B (zh) | 搜索词推荐方法、装置、电子设备以及存储介质 | |
CN111368057B (zh) | 词组查询方法、装置、计算机设备以及存储介质 | |
CN108446276B (zh) | 确定歌单关键词的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |