CN104133848B

CN104133848B - 藏语实体知识信息抽取方法

Info

Publication number: CN104133848B
Application number: CN201410310710.4A
Authority: CN
Inventors: 孙媛
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2014-07-01
Filing date: 2014-07-01
Publication date: 2017-09-19
Anticipated expiration: 2034-07-01
Also published as: CN104133848A

Abstract

本发明涉及一种藏语实体知识信息抽取方法，所述方法包括：从藏汉文本语料信息中，抽取藏汉可比语料信息；从所述藏汉可比语料信息中，抽取出实体等价对；从所述实体等价对中，抽取出藏汉跨语言实体关系；从所述的藏汉跨语言实体关系中，抽取出藏语“实体‑属性‑值”三元组；将所述三元组存储到藏语实体知识语义资源库。本发明在一定程度上解决了藏语训练语料匮乏的问题，将促进不同语言之间的知识共享，为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。

Description

藏语实体知识信息抽取方法

技术领域

本发明涉及一种藏语实体知识信息抽取方法，尤其涉及一种基于自然标注的藏汉跨语言实体知识信息抽取方法。

背景技术

Web内容的***式增长，使得对Web的社会网络研究已经不再局限于对Web结构的分析，而是转向以Web内容为研究对象的分析，其中知识图谱成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念，边代表实体或者概念之间的各种语义关系，其中实体知识信息的抽取是主要研究内容之一。

实体知识信息抽取，要解决的重点问题是实体及其属性关系的抽取。基于机器学习的实体间语义关系抽取要求具有一定规模的训练语料，而语料库的人工标注需要花费大量的时间和人力。因此，利用已有的自然标注数据，自动挖掘海量、真实的文本信息，通过资源丰富的源语言帮助欠资源的目标语言，获取目标语言的相关知识，是解决目标语言信息处理问题的一个方案。

在网络来源信息中，约有21％的中文文章含有“实体—属性—值”的三元组关系信息盒，而目前的藏语文章中缺少信息盒。在信息盒缺失以及藏语标注语料非常少的情况下，无法获取大规模的训练语料以实现藏语实体知识信息的抽取。此外，尽管藏语的显示输出技术、编码技术、输入技术、文字处理技术、网页制作技术等相对来说已比较成熟，然而与汉语、英语等语言的信息处理研究相比仍差距较大，主要表现在词法、句法分析及其相关应用方面。例如，藏语尚缺乏实用的命名实体识别***，在句子和篇章级的信息处理研究方面还处于起步阶段。因此，无法直接将英、汉实体属性及关系抽取中相对成熟的方法应用于藏语。在这种情况下，藏语实体知识信息的获取更多依靠人工的方式，无法实现大规模数据的处理及知识获取。

发明内容

本发明的目的是针对现有技术的缺陷，提供一种藏语实体知识信息抽取方法，可以利用现有的藏汉文本语料资源，以及相对丰富的汉语结构化、半结构化资源，挖掘藏语的实体知识信息，实现大规模数据的处理及知识信息的获取。

为实现上述目的，本发明提供了一种藏语实体知识信息抽取方法，所述方法包括：从藏汉文本语料信息中，抽取藏汉可比语料信息；从所述藏汉可比语料信息中，抽取出实体等价对；从所述实体等价对中，抽取出藏汉跨语言实体关系；从所述的藏汉跨语言实体关系中，抽取出藏语“实体-属性-值”三元组；将所述三元组存储到藏语实体知识语义资源库。

本发明基于自然标注下藏汉语言文本的特点，利用相对丰富的汉语资源，研究与解决跨语言环境下的藏汉可比语料获取、藏汉实体映射、半监督学习的实体关系及属性值抽取等关键技术，实现藏语实体知识信息的挖掘。该发明在一定程度上解决了藏语训练语料匮乏的问题，将促进不同语言之间的知识共享，为藏语知识图谱构建打下基础，为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。

附图说明

图1为本发明提供的藏语实体知识信息抽取方法流程图；

图2为本发明藏语实体知识信息抽取方法双语网页可比语料信息的相似特征示意图；

图3为本发明藏语实体知识信息抽取方法利用跨语言关联获取可比语料信息示意图；

图4为本发明藏语实体知识信息抽取方法藏语实体关系模板构建示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1是本实施例提供的藏语实体知识信息抽取方法流程图，如图1所示，本发明的藏语实体知识信息抽取方法包括：

步骤S101，抽取藏汉可比语料信息。

根据不同网络环境中藏汉文本语料存在形式的差异，采取不同的方法。

具体地，对于网络环境中大量存在的仅仅是网页级别的平行，或者是跨网平行的没有直接跨语言的内部链接的藏汉文本语料，构建基于双语网页的多特征藏汉可比预料获取模型。由于这些文本语料的标题、作者、媒体和发布时间等相关信息已经被标注，同一网络事件具有实时性、一致性等特点，使得双语网页的文本语料具有较多的相似特征。如图2所示。通过对文本语料进行分词，结合数字、网页结构、事件发生时间、网页内容量、标题、关键词等特征，计算相似度，建立藏汉可比语料获取模型。

对于存在直接跨语言内部链接的藏汉文本语料，直接通过跨语言链接功能实现关联，获取藏汉可比语料，如图3所示。

步骤S102，抽取藏汉实体等价对。

根据不同网络环境中藏汉可比语料存在形式的差异，采取不同的方法。

网络中存在着大量自然标注的藏汉实体对，构成了一一对应的藏汉实体等价对，如表1所示。采用基于自然标注的藏汉实体等价对构建方法。具体地，通过搜索引擎在网络中挖掘所有具有一一对应特性的自然标注资源，构建藏汉实体等价对。

表1自然标注的藏汉实体等价对实例

对于未进行自然标注的藏汉文本语料，采用基于平行句对最大字连续交集模型构建藏汉实体等价对。具体地，对藏汉可比语料进行分词，结合可比语料句子长度、词匹配、边界用词等特征，使用判别学***行句对。

其中，词匹配特征是指基于藏汉双语词典对应词的数量和百分比。句子长度特征是指句子对的长度比和长度差。实体边界用词特征是指藏语实体经常和某些特定的词一起出现，例如人名的特征词，职务、职业、头衔和亲属称谓语等，这类词常与姓名共同出现，因此对辨识姓名有指示作用。例如， (老师)、(教授)。此外，从《西藏日报》2007年1月的语料库和青海藏文网一部分语料(共计528,169个音节)中抽取了1,403个人名，其中，藏族人名有995个，译名有408个，得出如表2的统计数据。

表2藏语人名边界用词统计左边用词频度(SNR指人名出现在句首)

右边用词频度

获取平行句对后，利用基于平行句对最大字连续交集模型获取藏汉实体等价对。用{S₀,S₁,…，S_n}表示汉语句子，用{D₀,D₁,…,D_n}表示平行的藏语句子，则平行句对集合为{S₀,D₀；S₁,D₁；…；S_n,D_n}。对汉语进行命名实体识别{entity₀,entity₁,…,entity_m}，并对每个命名实体entity_i建立倒排索引表：

在倒排索引表中每个汉语命名实体对应一组包含实体entity_i的藏语平行句对集合，设D_i,m,D_j,n∈entity_k，D_i,m＝{w_i1,w_i2,…,w_im}，D_j,n＝{w_j1,w_j2,…,w_jn}，w表示字。计算两个藏语句对的最大字连续交集D_i,m∩D_j,n＝P＝{e}＝{w₁,w₂,…,w_k}，得到{e}＝{w₁,w₂,…,w_k}为汉语命名实体entity_k所对应的藏语等价对。

例如：

S₁＝比尔抽烟多吗？

S₂＝比尔对他自己的工作感到很骄傲。

识别汉语句子S₁,S₂中的命名实体，并建立实体“比尔”的倒排索引表，比尔＝{S₁,D₁；S₂,D₂}。在目标语言藏语中求最大字连续交集结果为得到比尔与就是实体等价对。

步骤S103，抽取藏汉跨语言实体关系。

步骤S1031，构建基于藏语浅层语义结构分析的实体关系模板。

借助网络信息中已有信息盒的“实体-属性-值”三元组关系，将汉语实体属性进行回标，获得含有实体和属性的中文句子。利用藏汉平行句对中实体的对应关系，将汉语句子的标注传递给藏语，产生藏语实体关系抽取训练语料。

利用藏语格标记的语法语义作用以及动词信息进行藏语特征选取，从训练语料中抽取关系模板，如图4所示。

具体地，选取特征包括藏语后置谓语和相关格信息，藏语格标记的类型与语法语义作用如表3所示。

表3藏语格标记的类型与语法语义作用

例如，实体对e₁和e₂，(C_pre,e₁,C_mid,e₂,C_post)词汇特征包括：

C_pre：实体1前面相邻2个词；

C_mid：实体1和实体2中间的词，选取格助词前后2个词以及指示词；

C_post：实体2后面的动词和格助词以及前后名词。

实体的分类信息：

人名、地名、机构名、宗教专名、河流、山峰、…

词性特征：

实体e₁和e₂，以及C_pre、C_mid、C_post上下文窗口的所有词词性。

依据藏语语法特点选取特征之后，构建实体关系模板。从训练语料获取的模板是有限的，因此，采用基于熵的特征选择方法来确定关键词，通过层次聚类实现模板的过滤与泛化。

例如：以(家乡)为关键词进行模板扩充：

(卓嘎的家乡在青海。)

(青海是卓嘎的家乡。)

按照关键词的排序，将包含同一关键词的模板归为一类。针对每个关键词的类，对内部样本再进行层次聚类，合并相似的模板，过滤频率较低的不可信模板。

步骤S1032，采用半监督学习方法抽取藏汉跨语言实体关系。

在已有训练语料的基础上，结合大量未标记语料，以半监督学习方法，实现实体关系的抽取。

具体地，用所选特征对关系实体x_i＝(e₁,e₂)进行表示和度量，赋予一个关系类型标注R→(C_pre,e₁,C_mid,e₂,C_post)。设为所有实体对候选关系实例集合，其中n是所有实体对候选关系实例的数目。设是所有关系类别标号的集合，其中r_j代表某一关系类别，R是所有关系类型的数目，建立有标签的数据样本Y_L和无标签的数据样本Y_U。

根据X和Y_L预测出未标签数据的关系类别标注Y_U。构造包含标签数据和未标签数据所有顶点在内的图G＝(V,E)。节点集合V代表数据集中各个有标签样本和未标签样本，任意两个节点x_i和x_j相连的边E为向量空间模型特征的相似度。依据点之间的相似性进行标记的传递直到收敛，推导出未标签节点的标注信息，实现实体关系的抽取。

步骤S104，抽取藏语“实体-属性-值”三元组。

本发明研究关注的实体主要属性包括：

人名：

人名—国籍人名—民族人名—出生日期

人名—出生地人名—性别人名—职务(职业、职称)

人名—所属机构

地名：

地名—类型地名—所属地区

机构名：

机构名—类型机构名—所属地区

通过以上实体属性关系的抽取，得到藏语“实体-属性-值”三元组。

步骤S105，将抽取出的藏语“实体-属性-值”三元组存储到语义资源库。

将以上抽取出的藏语“实体-属性-值”三元组存储到藏语实体知识的语义资源库，如表4所示。

表4藏语实体知识语义资源库

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种藏语实体知识信息抽取方法，其特征在于，所述方法包括：

从藏汉文本语料信息中，抽取藏汉可比语料信息；

从所述藏汉可比语料信息中，抽取出实体等价对；

从所述实体等价对中，抽取出藏汉跨语言实体关系；

从所述的藏汉跨语言实体关系中，抽取出藏语“实体-属性-值”三元组；

将所述三元组存储到藏语实体知识语义资源库；

所述抽取出实体等价对具体为，从自然标注的网页信息中抽取出实体等价对，或者利用平行句对最大字连续交集模型抽取出实体等价对；

建立所述平行句对最大字连续交集模型，具体为对所述藏汉可比语料信息进行藏汉双语分词处理，获取藏汉平行句对；

对所述藏汉平行句对建立汉语命名实体倒排索引表；

在所述倒排索引表中每个所述的汉语命名实体对应的藏汉平行句对集合中，计算两个藏语句对的最大字连续交集，所述的最大字连续交集即为所述汉语命名实体对应的藏语等价对。

2.根据权利要求1所述的方法，抽取藏汉可比语料信息的方法，其特征在于，所述抽取藏汉可比语料信息具体为，利用藏汉双语网页对应的网页信息构建多特征藏汉可比语料获取模型，或者对网络信息进行跨语言链接关联处理，从而获取到所述藏汉可比语料信息。

3.根据权利要求2所述的方法，其特征在于，所述多特征藏汉可比语料获取模型具体为，通过对所述的藏汉文本语料进行分词处理，获取藏汉可比语料相似特征，构建多特征藏汉可比语料获取模型。

4.根据权利要求1所述的方法，其特征在于，所述抽取出藏汉跨语言实体关系具体为，通过分析藏语浅层语义结构构建实体关系模板，利用半监督学习法抽取实体关系。

5.根据权利要求4所述的方法，其特征在于，所述构建实体关系模板具体为，利用藏语格标记的句法语义作用和动词信息分析藏语句子浅层结构，构建藏语实体和属性值的关系模板。

6.根据权利要求5所述的方法，其特征在于，在所述构建实体关系模板之后，还包括：通过层次聚类过滤和泛化所述关系模板。

7.根据权利要求4所述的方法，其特征在于，所述利用半监督学习法抽取实体关系具体为：

以包含两个及以上所述命名实体的句子作为样本，采用向量空间模型计算特征的相似度；

利用所述相似度信息，构建实体对近邻图，在所述近邻图上进行标记的传递，直到收敛，推导出未标记实体对的关系。