CN111723587A

CN111723587A - 一种面向跨语言知识图谱的汉泰实体对齐方法

Info

Publication number: CN111723587A
Application number: CN202010578711.2A
Authority: CN
Inventors: 黄永忠; 吴辉文; 庄浩宇; 徐鑫宇; 张晨昊
Original assignee: Guilin University of Electronic Technology
Current assignee: Beijing Tianyun Xin'an Technology Co ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-09-29

Abstract

本发明公开了一种面向跨语言知识图谱的汉泰实体对齐方法，其特征在于，包括如下步骤：1）双语数据集获取；2）机器翻译模型构建与训练；3）实体抽取；4）实体翻译与匹配。这种方法可以更加有效，更精确的实现双语实体对齐，解决目前跨语言知识图谱构建实体对齐程度较低的问题。

Description

一种面向跨语言知识图谱的汉泰实体对齐方法

技术领域

本发明涉及人工智能领域，属于跨语言知识图谱技术，具体是一种面向跨语言知识图谱的汉泰实体对齐方法。

背景技术

随着人工智能的不断发展，知识在人工智能的各个领域都显现得尤为重要。近年来，跨语言知识图谱的构建成为了当下研究的热点领域。虽然目前网上关于双语对齐的句子越来越丰富，但受限于这些实体对齐的程度较低，多语言实体对齐的准确性往往不够令人满意，跨语言知识图谱的构建也因此受到了限制。

实体主要是包括人名、地名、组织机构名等，一般而言，现阶段比较常用的实体对齐方法是先进行实体识别，然后再通过相应的技术，找出这一实体在不同语言中相同或相近的实体，进而实现多个语种的实体对齐。在对齐的双语句子中，句子中的实体，在对齐句子中都有与其相对应的实体，如果直接使用目前现有的翻译软件，如谷歌翻译、有道翻译或百度翻译等，对于小部分著名的人名、地名等实体，常用的翻译软件翻译精确度较高，但对于大部分非著名的人名、地名、组织机构名等实体，常用的翻译软件难以的对其进行精确的翻译，容易出现误译，导致对齐的效果不佳。

为了提高双语句子中实体对齐的准确性，面对非著名的人名、地名、组织机构名等实体，一种可行的方法就是将现有的双语句子通过机器翻译的方法进行训练，得到相应的机器翻译模型，再通过相应的实体抽取方法，抽取出其中一种语言句子中的实体，最后利用训练好的翻译模型对抽取出的实体进行翻译，从而匹配出对齐句子中另一种语言的实体，达到双语实体对齐。由于训练的翻译模型中包含了双语句子中需要对齐的各个实体词，因此，对于非著名的各类实体，翻译的准确度也会更加精确，提高实体对齐效果。

发明内容

本发明的目的旨在跨语言知识图谱构建过程中，针对现有技术在双语句子中非著名实体对齐精确度不高所面临的问题，而提供一种面向跨语言知识图谱的汉泰实体对齐方法。这种方法可以更加有效，更精确的实现双语实体对齐，解决目前跨语言知识图谱构建实体对齐程度较低的问题。

实现本发明目的的技术方案是：

一种面向跨语言知识图谱的汉泰实体对齐方法，包括如下步骤：

1)双语数据集获取：从Wikidata、YAGO多语言知识库或各大汉泰双语网站中，获取汉泰双语对齐数据，数据集中都为对齐的汉泰双语句子，且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体；

2)机器翻译模型构建与训练：所谓机器翻译(machine translation，简称MT)就是利用计算机将一种自然语言即源语言转换为另一种自然语言即目标语言的过程，输入为源语言句子，输出为相应的目标语言的句子，将步骤1)中获取的双语数据集，通过构建好的机器翻译模型进行训练，得到训练好的汉泰翻译模型，再在步骤4)通过步骤3)对抽取的实体进行翻译，过程为：

1-2)数据预处理：将步骤1)获取的汉泰双语数据集进行预处理，转换成机器翻译模型训练的标准数据格式，先把双语数据集分为汉语句子文件Ch.txt，泰语句子文件Th.txt，Ch.txt中的每一个句子都对应于Th.txt中的每一个句子；

2-2)分词：汉语数据集采用jieba分词工具进行分词，泰语数据集采用cutkum工具进行分词，词与词之间以一个空格进行分隔；

3-2)构建Transformer翻译模型：Transformer模型采用Seq2Seq模型中典型的编码器-解码器即Encoder-Decoder的框架结构，但与Seq2Seq模型不同的是，Transformer的编码器和解码器中并没有使用循环神经网络的结构，其编码器和解码器的主要结构如下所述：

1-3-2)编码器：Transformer模型中的编码层由若干个相同的层堆叠组成，每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成，所述多头注意力在模型中用于实现Self-Attention，和普通的Attention机制相比，Multi-Head Attention机制将输入进行多路线性变换，然后分别计算Attention的结果，并将所有的结果进行拼接，再一次进行线性变换并输出，其中Attention使用的是点积即Dot-Product，为避免因点积结果过大进入softmax的饱和区域，因此，在点积后进行了scale的处理，所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise，全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构；

2-3-2)解码器：解码器和编码器的结构相类似，只是解码器的层比编码器的层再增加了一个多头注意力的子层，用以实现对编码器输出的Attention；

3-3-2)Transformer翻译模型构建：采用百度的PaddlePaddle、Pytorch或TensorFlow框架进行构建；

4-3-2)模型构建完成后，将步骤2-2)中分词后的数据加载到上述Transformer翻译模型中进行训练，得到训练好的Transformer翻译模型即汉泰翻译模型：

Ch-Th-Translation.model；

3)实体抽取：选取目前开源的汉语实体抽取工具如Stanford NLP或采用常用的汉语命名实体识别模型如BiLSTM+CRF、CRF++等抽取出汉语句子中的实体；

4)实体翻译与匹配：实体翻译采用目前常用的翻译软件与Transformer翻译模型结合使用，具体过程如下：

1-4)首先采用目前常用的翻译软件如谷歌翻译、有道翻译或百度翻译将步骤3)中抽取的汉语实体NER-A进行翻译，得到翻译后的实体NER1-A，然后和相应的泰语句子进行匹配，若匹配成功，则进行下一个实体对齐，若匹配失败，则转入步骤2-4)；

2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型Ch-Th-Translation.model进行翻译，得到翻译后的实体NER2-A，再与对应的泰语句子进行匹配，匹配成功，则得到汉语句子中的实体NER-A与泰语句子中相对应的实体NER-B；

3-4)最后，实现对齐的“NER-A：NER-B”，即完成汉泰双语句子中的实体对齐。

与现有技术相比，本发明克服了现有翻译软件对非著名实体翻译精确度不高，对齐效果欠佳等问题，提高了多语种实体对齐质量，降低了跨语言知识图谱构建难度。

附图说明

图1为实施例中Transformer翻译模型的网络结构示意图；

图2为实施例多的头注意力的结构示意图；

图3为实施例中的汉泰双语实体对齐流程示意图；

图4为实施例中的jieba分词关键代码示例示意图；

图5为实施例中的jieba分词后数据示例示意图；

图6为实施例中的cutkum分词关键代码示例示意图；

图7为实施例中的cutkum分词后数据示例示意图；

图8为实施例中的Stanford NLP实体抽取关键代码示例示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

本例以汉泰双语数据集为例，以Python作为开发语言，并以Pycharm软件作为开发环境，

参照图3，一种面向跨语言知识图谱的汉泰实体对齐方法，包括如下步骤：

1)双语数据集获取：从Wikidata、YAGO多语言知识库或各大汉泰双语网站中，获取汉泰双语对齐数据，数据集中都为对齐的汉泰双语句子，且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体，本例如表a所示，Chinese中1-A句子中的汉语实体可在Thai中1-B句子中找到对齐的泰语实体；

表a汉泰对齐句子数据示例

2)机器翻译模型构建与训练：构建Transformer翻译模型，将步骤1)中获取的汉泰双语数据集进行训练，得到训练好的汉泰翻译模型，再在步骤4)通过步骤3)对抽取的实体进行翻译，过程为：

2-2)分词：汉语数据集Ch.txt采用jieba分词工具进行分词，将分词后的数据存入Ch_Seq.txt文件，本例如图4所示jieba分词的关键代码示例，词与词之间以一个空格进行分隔，如图5所示，将泰语数据集Th.txt文件的句子采用cutkum工具对其进行分词，其中图6为cutkum分词的关键代码示例，分词后的数据存入Th_Seq.txt文件，词与词之间同样以一个空格进行分隔，如图7所示；

3-2)构建Transformer翻译模型：Transformer模型采用Seq2Seq模型中典型的编码器-解码器即Encoder-Decoder的框架结构，但与Seq2Seq模型不同的是，Transformer的编码器和解码器中并没有使用循环神经网络的结构，整体网络结构如图1所示，其编码器和解码器的主要结构如下所述：

1-3-2)编码器：Transformer模型中的编码层由若干个相同的层堆叠组成，每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成，所述多头注意力在模型中用于实现Self-Attention，和普通的Attention机制相比，Multi-Head Attention机制将输入进行多路线性变换，然后分别计算Attention的结果，并将所有的结果进行拼接，再一次进行线性变换并输出，如图2所示，其中Attention使用的是点积即Dot-Product，为避免因点积结果过大进入softmax的饱和区域，因此，在点积后进行了scale的处理，所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise，全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构；

3-3-2)Transformer模型构建与训练：采用百度PaddlePaddle框架构建好的Transformer模型，本例采用以下网址下载：

https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/ machine_translation/transformer；

4-3-2)模型构建完成后，将步骤2-2)中分词后的数据加载到上述Transformer模型中进行训练，得到训练好的Transformer翻译模型即汉泰翻译模型：Ch-Th-Translation.model；

3)实体抽取：本实例采用Stanford NLP对汉语句子进行实体抽取，过程为：

1-3)先下载Stanford CoreNLP文件

http://nlp.stanford.edu/software/stanford-corenlp-full-2016-10-31.zip

，解压；再下载中文的模型jar文件

http://nlp.stanford.edu/software/stanford-chinese-corenlp-2016-10-31- models.jar，放至根目录下；

2-3)Stanford NLP实体抽取的关键代码示例如图8所示，利用上述的StanfordNLP工具对汉语Ch.txt文件中的句子1-A进行实体抽取，得到汉语实体NER-A；

1-4)首先采用目前常用的谷歌翻译软件将步骤2-3)中抽取的汉语实体NER-A进行翻译，得到翻译后的实体NER1-A，然后和相应的泰语句子1-B进行匹配，若匹配成功，则进行下一个实体对齐，若匹配失败，则转入步骤2-4)；

2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型Ch-Th-Translation.model进行翻译，得到翻译后的实体NER2-A，再与对应的泰语句子1-B进行匹配，匹配成功，则得到1-A句子中的实体与1-B句子中相对应的实体NER-B，若都匹配失败，则进行下一个实体对齐；

Claims

1.一种面向跨语言知识图谱的汉泰实体对齐方法，其特征在于，包括如下步骤：

1）双语数据集获取：从Wikidata、YAGO多语言知识库或各大汉泰双语网站中，获取汉泰双语对齐数据集，数据集中都为对齐的汉泰双语句子，且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体；

2）机器翻译模型构建与训练：构建Transformer 翻译模型并将步骤1）中获取的双语数据集，通过构建好的Transformer 翻译模型进行训练，得到训练好的汉泰翻译模型，过程为：

1-2）数据预处理：将步骤1）获取的汉泰双语数据集进行预处理，转换成机器翻译模型训练的标准数据格式，先把双语数据集分为汉语句子文件Ch.txt，泰语句子文件Th.txt，Ch.txt中的每一个句子都对应于Th.txt中的每一个句子；

2-2）分词：汉语数据集采用jieba分词工具进行分词，泰语数据集采用cutkum工具进行分词，词与词之间以一个空格进行分隔；

3-2）构建Transformer 翻译模型：Transformer模型采用Seq2Seq 模型中典型的编码器-解码器即Encoder-Decoder的框架结构，但与Seq2Seq模型不同的是，Transformer的编码器和解码器中没有使用循环神经网络的结构，其编码器和解码器的主要结构如下所述：

1-3-2）编码器：Transformer模型中的编码层由一组相同的层堆叠组成，每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成，所述多头注意力在模型中用于实现Self-Attention， Multi-Head Attention机制将输入进行多路线性变换，然后分别计算Attention的结果，并将所有的结果进行拼接，再一次进行线性变换并输出，其中Attention使用的是点积即Dot-Product，在点积后进行了scale的处理，所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise，全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构；

2-3-2）解码器：解码器和编码器的结构相类似，只是解码器的层比编码器的层再增加了一个多头注意力的子层，用以实现对编码器输出的Attention；

3-3-2）Transformer翻译模型构建：采用百度的PaddlePaddle、Pytorch或TensorFlow框架进行构建；

4-3-2）模型构建完成后，将步骤2-2）中分词后的数据加载到上述Transformer翻译模型中进行训练，得到训练好的翻译模型即汉泰翻译模型；

3）实体抽取：选取目前开源的汉语实体抽取工具或采用常用的汉语命名实体识别模型抽取出汉语句子中的实体；

4）实体翻译与匹配：实体翻译采用目前常用的翻译软件与Transformer 翻译模型结合使用，具体过程如下：

1-4）首先采用目前常用的翻译软件将步骤3）中抽取的汉语实体NER-A进行翻译，得到翻译后的实体NER1-A，然后和相应的泰语句子进行匹配，若匹配成功，则进行下一个实体对齐，若匹配失败，则转入步骤2-4）；

2-4）将步骤1-4）匹配失败的实体NER-A利用步骤4-3-2）中训练好的汉泰翻译模型进行翻译，得到翻译后的实体NER2-A，再与对应的泰语句子进行匹配，匹配成功，则得到汉语句子中的实体NER-A与泰语句子中相对应的实体NER-B；

3-4）最后，实现对齐的“NER-A：NER-B”，即完成汉泰双语句子中的实体对齐。