CN110245234A

CN110245234A - 一种基于本体和语义相似度的多源数据样本关联方法

Info

Publication number: CN110245234A
Application number: CN201910540840.XA
Authority: CN
Inventors: 丁香乾; 王晓东; 许晓伟
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-03-27
Filing date: 2019-06-21
Publication date: 2019-09-17

Abstract

本发明是一种基于本体和语义相似度的多源数据样本关联方法，包括以下步骤：采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括国家基础信息数据和图片文本；基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；基于各个领域本体概念所对应的属性，对所对应的国家基础信息数据进行属性表识。解决了国家基础信息数据与其图片文本不匹配的问题，能够利用集合包技术得到正确的图片表识数据，并且采取迭代处理的方式能够利用最少的成本最合理利用集合包平台，得到较优的表识效果。

Description

一种基于本体和语义相似度的多源数据样本关联方法

技术领域

本发明属于人口、法人单位等国家基础信息数据以及信用、社保等领域，尤其涉及一种对国家基础信息数据进行正确快速语义表识的一种基于本体和语义相似度的多源数据样本关联方法。

背景技术

对标精准治理、惠民服务等场景的需求，围绕人口、法人单位等国家基础信息数据以及信用、社保等领域数据资源，融合互联网社会面数据，解决多源复杂主体数据条件下的实体标识与关联方法、多模态信息特征结构表达与决策融合的关键技术问题，使具有跨时空、信息异构、非一致、大噪声等特点的政府数据转化为有价值的信息成为急需解决的技术问题。

针对数据融合过程中实体标识 ID 缺失和非一致性问题，研究结构化与非 SQL结构化数据的实体多维度标签识别和对应分析，确定具有全渠道拉通意义的标签作为标识ID，实现样本信息的一致性关联与可靠性评价。研究封闭***数据、社会面数据等关联二义性消除方法，减小一致性误判造成的数据关联偏差和分析失效影响成为急需解决的技术问题。

发明内容

针对现有技术中的问题，本发明的目的是提供一种基于本体和语义相似度的多源数据样本关联方法，对国家基础信息数据进行正确快速语义表识，解决国家基础信息数据缺少表识以及国家基础信息数据和图片文本难以直接抽取语义信息的技术问题。

为实现上述目的，本发明的技术方案是：一种基于本体和语义相似度的多源数据样本关联方法，包括以下步骤：

采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括国家基础信息数据和图片文本；

基于各个领域本体概念对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；

基于各个领域本体概念所对应的属性，对所对应的国家基础信息数据进行属性表识。

进一步的，对图片文本进行分类之前，还包括以下步骤：

采用集合包平台获取国家基础信息数据的表识数据集；

根据表识数据集修正各个国家基础信息数据所对应的领域本体概念。

进一步的，采用集合包平台获取国家基础信息数据的表识数据集，包括以下步骤：

将信息数据作为待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行人工检验；

从集合包平台收集表识结果数据，形成表识数据集。

进一步的，集合包指令包括多条待表识题目，各个待表识题目包括题干和选项；各个题干包括一信息的国家基础信息数据、图片文本和该国家基础信息数据所对应的领域本体概念，各个选项包括国家基础信息数据和所对应的领域本体概念匹配以及国家基础信息数据和所对应的领域本体概念不匹配。

进一步的，收集表识结果数据，包括以下步骤：

选择各个国家基础信息数据所对应的选择人数最多的选项，作为该国家基础信息数据的表识结果数据。

将信息数据作为待表识数据，并将待表识数据分为多个迭代部分；

选取第一部分待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行人工检验；

从集合包平台收集表识结果数据，且在每次收集表识结果数据后，判断全部待表识数据中表识准确率是否小于预设准确率阈值；

如果全部待表识数据中表识准确率小于预设准确率阈值，则选取下一部分待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行迭代人工检验；

如果全部待表识数据中表识准确率大于或等于预设准确率阈值，则停止迭代人工检验并形成国家基础信息数据的表识数据集。

进一步的，当全部待表识数据中表识准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

如果当前人工检验的迭代次数小于预设迭代次数阈值，则选取下一部分待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行迭代人工检验；

如果当前人工检验的迭代次数大于等于预设迭代次数阈值，则停止迭代人工检验并形成国家基础信息数据的表识数据集。

进一步的，信息描述文本包括国家基础信息数据所对应的信息序号、信息标题、信息属性以及信息属性值。

进一步的，采用领域本体概念对图片文本进行分类，包括以下步骤：

将图片文本采用Word2Vector方法训练得到各个词的词矢量；

采用TextRank算法从图片文本中的信息标题、信息属性以及信息属性值中分别提取top-K关键词；

抽取每个关键词的TF-IDF特征和词矢量；

将TF-IDF特征作为每个关键词的权重，对所有关键词集合的词矢量以加权平均的方式合并，得到图片文本的特征矢量矩阵，图片文本的特征矢量矩阵满足以下公式：

Xn＝{X1,X2,......,XN}；

其中，Xn为图片文本的特征矢量矩阵，Xi,i∈(1,N)为各个图片文本的特征矢量，N为图片文本的数量；

采用最近邻算法训练分类器，分类器的特征矢量满足以下公式：

T_train＝(X1,y1),(X2,y2),......,(XN,yN)；

其中，T_train为分类器的特征矢量，yi,i∈(1,N)为分类标签；

从特征矢量矩阵Xn中抽取一信息描述文本的特征矢量Xi，将分类器中与特征矢量Xi最近邻的类别作为所对应的信息描述文本的类别。

进一步的，训练得到各个词的词矢量之前，还包括以下步骤：

对图片文本进行文本格式预处理，文本格式预处理包括统一文本大小写格式和去除文本中标点符号。

进一步的，将分类器中与特征矢量Xi最近邻的类别作为所对应的信息描述文本的类别，包括以下步骤：

计算特征矢量Xi与分类器的特征矢量之间的欧氏距离；

选择分类器中与特征矢量Xi的欧氏距离最小的多个样本；

将多个样本中出现次数最多的分类标签作为所对应的信息描述文本的类别。

进一步的，对所对应的国家基础信息数据进行属性表识，包括以下步骤：

对图片文本的特征矢量矩阵采用K-means聚类算法对信息属性以及信息属性值进行聚合，选取相似度最接近的top-K国家基础信息数据作为一个簇，隶属于同一簇的国家基础信息数据共享所有的信息属性以及信息属性值；

计算各个国家基础信息数据描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离，将与概念属性编辑距离最小的属性的属性值映射到概念属性，作为概念属性的属性值。

本发明所提供的一种基于本体和语义相似度的多源数据样本关联方法具有以下优点：

本发明提供了一种对国家基础信息数据进行正确快速语义表识的技术方案，解决了国家基础信息数据与其图片文本不匹配的问题，能够根据领域本体的概念和概念属性得到国家基础信息数据在预定领域内的部分语义信息，实现对国家基础信息数据的语义层次表识，获得正确的语义表识数据集；能够利用集合包技术得到正确的图片表识数据，并且采取迭代处理的方式能够利用最少的成本最合理利用集合包平台，得到较优的表识效果。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图实施例，对本发明做进一步描述：

实施例1

如图1所示，为了解决国家基础信息数据以及其图片文本包含的语义信息较弱的问题，本发明实施例提供一种基于本体和语义相似度的多源数据样本关联方法，基于领域本体的概念以及领域本体概念属性对国家基础信息数据进行语义表识，具体方法包括以下步骤：

S100：采用领域本体概念C分别作为关键词抓取信息数据，信息数据Itemn包括国家基础信息数据IMGn和图片文本Tn；图片文本Tn可选包括：信息IDn、信息标题titlen、信息属性和信息属性值attributesn＝{key1:value1,......,keyN,valueN}；

其中，IMGn＝{IMG1,IMG2,......,IMGN}，N为国家基础信息数据的数量，IMGi,i∈(1,N)为各个国家基础信息数据。

Tn＝{T1,T2,......,TN}，N为国家基础信息数据描述文本的数量，国家基础信息数据描述文本与国家基础信息数据一一对应，Ti,i∈(1,N)为各个图片文本。

S300：基于领域本体概念C对所对应的图片文本进行分类，根据图片文本的类别对所对应的国家基础信息数据进行类别表识；

S400：基于领域本体概念C所对应的属性，对所对应的国家基础信息数据进行属性表识。

本发明涉及的技术领域可以有网页信息爬取、文本预处理、关键词提取、文本特征表示、相似度计算、分类算法、聚类算法等，其中文本预处理包括分词、词性表识等。总的来说，本发明是语义表识领域中一种对媒体语义表识的方法，利用领域本体和集合包技术实现对媒体的语义表识。基于领域本体的语义表识是指将现实应用中的实体映射到本体概念并标记为本体概念的实例，在此基础上为实体进行语义表识。从本体角度出发，语义表识可以看做添加实例，丰富本体的过程；从语义角度出发，语义表识是根据本体内容，为实体添加语义元素的过程。

领域本体作为一种能在语义和知识层面对信息和数据进行描述的概念模型，为解决内容表识问题提供了一种良好的途径。领域本体能够较好地表达出领域知识的语义层次，因此，基于领域本体通过内容表识可以将普通的信息资源转化为具有知识层次的形式化信息，使庞大的信息资源以语义关联的规范化形式存在。基于电商领域本体的国家基础信息数据表识能够得到图片在预定领域内的部分语义信息。

为了解决国家基础信息数据与其信息描述性文本不匹配的问题，获得正确的表识数据集，本发明进一步还可以包括利用集合包平台对抓取数据的类别进行人工校验的方法。

进一步的，对图片文本进行分类之前，还包括以下步骤：

S200：采用集合包平台获取国家基础信息数据的表识数据集，根据表识数据集修正各个国家基础信息数据所对应的领域本体概念。

从集合包平台收集表识结果数据，形成表识数据集。

进一步的，集合包指令包括多条待表识题目，各个待表识题目包括题干和选项；各个题干包括一信息的国家基础信息数据IMGn、图片文本Tn和该国家基础信息数据IMGn所对应的领域本体概念C，各个选项包括国家基础信息数据IMGn和所对应的领域本体概念C匹配以及国家基础信息数据IMGn和所对应的领域本体概念C不匹配。

即要求集合包平台用户根据每个信息的国家基础信息数据IMGn和图片文本Tn来判断该国家基础信息数据IMGn的领域本体概念C是否正确。如果国家基础信息数据IMGn与领域本体概念C相匹配则为正确，如果不匹配或无法判断则为错误。为了保证集合包表识质量以及有效提高表识准确性，规定每道题目需要同时由多个用户完成，根据多数原则收集正确答案，同时每个用户必须通过测试模式，并且准确率大于设定阈值时才能继续做题，否则指令立即终止。

本发明通过利用集合包技术对数据进行表识的方法，具有成本低，速度快的特点，因此得到了广泛的关注和应用。集合包将原来由企业专职雇员负责处理的工作，化整为零分配给了广大互联网用户，不仅大大减少了企业的成本，其可扩展的特点也使得大数据时代的海量数据表识成为了可能。但是由于数据量过多，意味着需要越来越多的人力物力对这些数据进行表识。因此，如何利用最少的成本达到最优的表识效果是最近研究的热点。

针对国家基础信息数据相关的数据量大以及质量参差不齐的情况，如果全部按照上述的利用集合包平台表识国家基础信息数据数据集方法进行表识，时间和金钱成本将会非常高。本发明可以进一步通过随机抽取待表识数据进行迭代，实现以最少的成本最大化合理利用集合包平台，在原有数据集的基础上不断增加新的数据集，扩大训练集。具体步骤为：对一批待表识数据通过现有表识算法得到的信息类别，将这批信息放入集合包***中进行人工检验，将正确结果添加到现在训练集，重新训练分类器，依次类推，直至分类的准确率达到设定阈值或者迭代累计金额超过预期时停止迭代。

采用集合包平台获取国家基础信息数据的表识数据集，可以包括以下步骤：

(S200-1)将信息数据作为待表识数据，并将待表识数据分为多个迭代部分；

(S200-2)选取第一部分待表识数据加入到集合包指令，并将集合包指令发布到集合包平台进行人工检验；

(S200-3)从集合包平台收集表识结果数据，且在每次收集表识结果数据后，判断全部待表识数据中表识准确率是否小于预设准确率阈值；

进一步地，还可以采用迭代次数来控制迭代过程，即当全部待表识数据中表识准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

此处控制迭代次数超过预设迭代次数阈值时，停止迭代，即上述的迭代累计金额超过预期时停止迭代。可以对迭代金额进行更有效的控制。

在本实施例中利用集合包平台对抓取数据的类别进行人工校验，获得表识国家基础信息数据数据集。将抓取的信息数据作为待表识数据发布到集合包平台，每个集合包指令有若干道待表识题目组成，每道题目由题干和选项组成，题干由Itemn的IMGn、IDn、titlen以及所属本体概念C组成，选项为正确和错误。表识题目例如：

本发明采用领域本体概念对国家基础信息数据进行类别表识，将底层的领域本体概念视为已知的类别集合C＝{C1,C2,......,CN}，例如上面的本体概念BB霜，进一步具有以下属性：适合肤质、规格类型、功效、单品、是否为特殊用途化妆品、妆效等。将待表识的国家基础信息数据描述文本Tn视为待分类的数据，从而将国家基础信息数据的类别表识转化成分类问题，根据信息图形描述文本Tn的特征，划分到类别集合C中。

采用领域本体概念对图片文本进行分类，包括以下步骤：

(S300-1)将图片文本采用Word2Vector方法训练得到各个词的词矢量；具体可以利用100万国家基础信息数据描述文本，包括titlen、信息属性和信息属性值attributesn作为训练语料，通过Google的Word2Vector工具训练得到每个词的Word2vector词矢量；

(S300-2)采用TextRank算法从图片文本中的titlen、信息属性和信息属性值attributesn＝{key1:value1,......,keyN,valueN}中分别提取top-K关键词t_keyword＝{t1,t2,......,tk}和a_keyword＝{a1,a2,......,ak}；

此处采用的TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法，通过把文本分割成若干组成单元(单词、句子)并建立图模型，利用投票机制对文本中的重要成分进行排序，仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank不需要事先对多篇文档进行学习训练,因其简洁有效而得到广泛应用。此处top-K关键词指的是通过排序得到前k个关键词。

(S300-3)根据得到的top-K关键词t_keyword和a_keyword抽取每个关键词的TF-IDF特征和Word2vector词矢量；由此图片文本表示为每个关键词的TF-IDF特征和词矢量；

其中，TF-IDF(termfrequency–inversedocumentfrequency)是一种用于信息检索与数据挖掘的常用加权技术。Word2Vector是一种依据上下文关系的词语语义(词义)特征提取方法，最先由Mikolov等于2013年初在谷歌公司的开源项目中提出。当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2Vector可以依据其上下文关系有效地提取其语义(即词义特征)，并以词矢量的形式给出。

(S300-4)将TF-IDF特征作为每个关键词的权重，对所有关键词集合的Word2vector词矢量以加权平均的方式合并，得到图片文本的特征矢量矩阵，图片文本的特征矢量矩阵满足以下公式：

Xn＝{X1,X2,......,XN}；

T_train＝(X1,y1),(X2,y2),......,(XN,yN)；

其中，T_train为分类器的特征矢量，yi,i∈(1,N)为分类标签；

最近邻算法即为KNN算法，kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

(S300-5)从特征矢量矩阵Xn中抽取一信息描述文本的特征矢量Xi，将分类器中与特征矢量Xi最近邻的类别作为所对应的信息描述文本的类别。

对图片文本进行文本格式预处理，文本格式预处理包括统一文本大小写格式和去除文本中标点符号等。

(S300-5.1)计算特征矢量Xi与分类器的特征矢量T_train之间的欧氏距离；

(S300-5.2)选择分类器中与特征矢量Xi的欧氏距离最小的k个样本；欧几里得度量(euclideanmetric)，也称欧氏距离，是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者矢量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。此处k个样本的数量可以根据需要进行选择，例如100个样本等。

(S300-5.3)将多个样本中出现次数最多的分类标签作为所对应的信息描述文本的类别。

通过以上方法即实现了国家基础信息数据的类别表识。

对所对应的国家基础信息数据进行属性表识，包括以下步骤：

(S400-1)针对国家基础信息数据文本attributesn缺失或者为空的情况，对图片文本的特征矢量矩阵Xn采用K-means聚类算法对信息属性以及信息属性值进行聚合，选取相似度最接近的top-K国家基础信息数据作为一个簇，隶属于同一簇的国家基础信息数据共享所有的信息属性以及信息属性值attributes；

此处K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。

(S400-2)计算各个国家基础信息数据描述文本聚合后的属性和属性值与所对应的领域本体概念的概念属性之间的编辑距离，将与概念属性编辑距离最小的属性的属性值映射到概念属性，作为概念属性的属性值，从而完成国家基础信息数据的属性表识。

具体地，在各个国家基础信息数据描述文本聚合后，得到其领域本体概念C以及候选属性和属性值集合，由C＝{a1:value1,a2:value2,...,an:valuen},i∈(1,n)表示，其中ai表示候选属性，valuei为候选属性对应的属性值。根据领域本体概念C可以得到本体概念C所对应的概念属性集合，由C＝{A1,A2,...,An}表示，Ai为本体概念C所对应的概念属性。分别计算Ai与a1,a2,...,an的编辑距离，将编辑距离最小的属性ak的属性值value映射到Ai，作为Ai的属性值，从而完成本体概念属性的表识。

此处编辑距离(EditDistance)，又称Levenshtein距离，是指两个字串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，***一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。

国家基础信息数据描述文本T1和T2分别具有属性和属性值key1:value1,key2:value2。通过聚类得到属性和属性值key1:(value1-1,value2-1),key2:value2,key3:value3；将其与领域本体C1计算相似度，确定属性A1,A2,A3。

采用此种方法，即实现了国家基础信息数据的属性表识。

通过采用上述国家基础信息数据的语义表识方法，能够根据领域本体的概念和概念属性得到国家基础信息数据在预定领域内的部分语义信息，实现对国家基础信息数据的语义层次表识；能够利用最少的成本最合理利用集合包平台，得到较优的表识效果。在该实施例中，以电商领域的国家基础信息数据表识为例进行了介绍，然而，本发明不仅限于对电商国家基础信息数据的语义表识，还可以应用于其他类别的国家基础信息数据表识，例如人工录入的实体销售国家基础信息数据等等，均属于本发明的保护范围之内。

本发明所提供的一种基于本体和语义相似度的多源数据样本关联方法具有下列优点：

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：包括以下步骤：

采用多个领域本体概念分别作为关键词抓取信息数据，信息数据包括基础信息数据和图片文本；

基于各个领域本体概念所对应的属性，对所对应的基础信息数据进行属性表识。

2.根据权利要求1所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：对图片文本进行分类之前，还包括以下步骤：

采用集合包平台获取国家基础信息数据的表识数据集；

3.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：采用集合包平台获取国家基础信息数据的表识数据集，包括以下步骤：

从集合包平台收集表识结果数据，形成表识数据集。

4.根据权利要求3所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：集合包指令包括多条待表识题目，各个待表识题目包括题干和选项；各个题干包括一信息的国家基础信息数据、图片文本和该国家基础信息数据所对应的领域本体概念，各个选项包括国家基础信息数据和所对应的领域本体概念匹配以及国家基础信息数据和所对应的领域本体概念不匹配。

5.根据权利要求4所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：收集表识结果数据，包括以下步骤：

6.根据权利要求2所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：采用集合包平台获取国家基础信息数据的表识数据集，包括以下步骤：

7.根据权利要求6所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：当全部待表识数据中表识准确率小于预设准确率阈值时，判断当前人工检验的迭代次数是否小于预设迭代次数阈值；

8.根据权利要求1所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：信息描述文本包括国家基础信息数据所对应的信息序号、信息标题、信息属性以及信息属性值。

9.根据权利要求8所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：采用领域本体概念对图片文本进行分类，包括以下步骤：

将图片文本采用Word2Vector方法训练得到各个词的词矢量；

抽取每个关键词的TF-IDF特征和词矢量；

Xn＝{X1,X2,......,XN}；

T_train＝(X1,y1),(X2,y2),......,(XN,yN)；

其中，T_train为分类器的特征矢量，yi,i∈(1,N)为分类标签；

10.根据权利要求9所述的一种基于本体和语义相似度的多源数据样本关联方法，其特征在于：训练得到各个词的词矢量之前，还包括以下步骤：