CN111723587A - 一种面向跨语言知识图谱的汉泰实体对齐方法 - Google Patents

一种面向跨语言知识图谱的汉泰实体对齐方法 Download PDF

Info

Publication number
CN111723587A
CN111723587A CN202010578711.2A CN202010578711A CN111723587A CN 111723587 A CN111723587 A CN 111723587A CN 202010578711 A CN202010578711 A CN 202010578711A CN 111723587 A CN111723587 A CN 111723587A
Authority
CN
China
Prior art keywords
chinese
entity
thai
model
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010578711.2A
Other languages
English (en)
Inventor
黄永忠
吴辉文
庄浩宇
徐鑫宇
张晨昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianyun Xin'an Technology Co ltd
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010578711.2A priority Critical patent/CN111723587A/zh
Publication of CN111723587A publication Critical patent/CN111723587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种面向跨语言知识图谱的汉泰实体对齐方法,其特征在于,包括如下步骤:1)双语数据集获取;2)机器翻译模型构建与训练;3)实体抽取;4)实体翻译与匹配。这种方法可以更加有效,更精确的实现双语实体对齐,解决目前跨语言知识图谱构建实体对齐程度较低的问题。

Description

一种面向跨语言知识图谱的汉泰实体对齐方法
技术领域
本发明涉及人工智能领域,属于跨语言知识图谱技术,具体是一种面向跨语言知识图谱的汉泰实体对齐方法。
背景技术
随着人工智能的不断发展,知识在人工智能的各个领域都显现得尤为重要。近年来,跨语言知识图谱的构建成为了当下研究的热点领域。虽然目前网上关于双语对齐的句子越来越丰富,但受限于这些实体对齐的程度较低,多语言实体对齐的准确性往往不够令人满意,跨语言知识图谱的构建也因此受到了限制。
实体主要是包括人名、地名、组织机构名等,一般而言,现阶段比较常用的实体对齐方法是先进行实体识别,然后再通过相应的技术,找出这一实体在不同语言中相同或相近的实体,进而实现多个语种的实体对齐。在对齐的双语句子中,句子中的实体,在对齐句子中都有与其相对应的实体,如果直接使用目前现有的翻译软件,如谷歌翻译、有道翻译或百度翻译等,对于小部分著名的人名、地名等实体,常用的翻译软件翻译精确度较高,但对于大部分非著名的人名、地名、组织机构名等实体,常用的翻译软件难以的对其进行精确的翻译,容易出现误译,导致对齐的效果不佳。
为了提高双语句子中实体对齐的准确性,面对非著名的人名、地名、组织机构名等实体,一种可行的方法就是将现有的双语句子通过机器翻译的方法进行训练,得到相应的机器翻译模型,再通过相应的实体抽取方法,抽取出其中一种语言句子中的实体,最后利用训练好的翻译模型对抽取出的实体进行翻译,从而匹配出对齐句子中另一种语言的实体,达到双语实体对齐。由于训练的翻译模型中包含了双语句子中需要对齐的各个实体词,因此,对于非著名的各类实体,翻译的准确度也会更加精确,提高实体对齐效果。
发明内容
本发明的目的旨在跨语言知识图谱构建过程中,针对现有技术在双语句子中非著名实体对齐精确度不高所面临的问题,而提供一种面向跨语言知识图谱的汉泰实体对齐方法。这种方法可以更加有效,更精确的实现双语实体对齐,解决目前跨语言知识图谱构建实体对齐程度较低的问题。
实现本发明目的的技术方案是:
一种面向跨语言知识图谱的汉泰实体对齐方法,包括如下步骤:
1)双语数据集获取:从Wikidata、YAGO多语言知识库或各大汉泰双语网站中,获取汉泰双语对齐数据,数据集中都为对齐的汉泰双语句子,且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体;
2)机器翻译模型构建与训练:所谓机器翻译(machine translation,简称MT)就是利用计算机将一种自然语言即源语言转换为另一种自然语言即目标语言的过程,输入为源语言句子,输出为相应的目标语言的句子,将步骤1)中获取的双语数据集,通过构建好的机器翻译模型进行训练,得到训练好的汉泰翻译模型,再在步骤4)通过步骤3)对抽取的实体进行翻译,过程为:
1-2)数据预处理:将步骤1)获取的汉泰双语数据集进行预处理,转换成机器翻译模型训练的标准数据格式,先把双语数据集分为汉语句子文件Ch.txt,泰语句子文件Th.txt,Ch.txt中的每一个句子都对应于Th.txt中的每一个句子;
2-2)分词:汉语数据集采用jieba分词工具进行分词,泰语数据集采用cutkum工具进行分词,词与词之间以一个空格进行分隔;
3-2)构建Transformer翻译模型:Transformer模型采用Seq2Seq模型中典型的编码器-解码器即Encoder-Decoder的框架结构,但与Seq2Seq模型不同的是,Transformer的编码器和解码器中并没有使用循环神经网络的结构,其编码器和解码器的主要结构如下所述:
1-3-2)编码器:Transformer模型中的编码层由若干个相同的层堆叠组成,每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成,所述多头注意力在模型中用于实现Self-Attention,和普通的Attention机制相比,Multi-Head Attention机制将输入进行多路线性变换,然后分别计算Attention的结果,并将所有的结果进行拼接,再一次进行线性变换并输出,其中Attention使用的是点积即Dot-Product,为避免因点积结果过大进入softmax的饱和区域,因此,在点积后进行了scale的处理,所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise,全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构;
2-3-2)解码器:解码器和编码器的结构相类似,只是解码器的层比编码器的层再增加了一个多头注意力的子层,用以实现对编码器输出的Attention;
3-3-2)Transformer翻译模型构建:采用百度的PaddlePaddle、Pytorch或TensorFlow框架进行构建;
4-3-2)模型构建完成后,将步骤2-2)中分词后的数据加载到上述Transformer翻译模型中进行训练,得到训练好的Transformer翻译模型即汉泰翻译模型:
Ch-Th-Translation.model;
3)实体抽取:选取目前开源的汉语实体抽取工具如Stanford NLP或采用常用的汉语命名实体识别模型如BiLSTM+CRF、CRF++等抽取出汉语句子中的实体;
4)实体翻译与匹配:实体翻译采用目前常用的翻译软件与Transformer翻译模型结合使用,具体过程如下:
1-4)首先采用目前常用的翻译软件如谷歌翻译、有道翻译或百度翻译将步骤3)中抽取的汉语实体NER-A进行翻译,得到翻译后的实体NER1-A,然后和相应的泰语句子进行匹配,若匹配成功,则进行下一个实体对齐,若匹配失败,则转入步骤2-4);
2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型Ch-Th-Translation.model进行翻译,得到翻译后的实体NER2-A,再与对应的泰语句子进行匹配,匹配成功,则得到汉语句子中的实体NER-A与泰语句子中相对应的实体NER-B;
3-4)最后,实现对齐的“NER-A:NER-B”,即完成汉泰双语句子中的实体对齐。
与现有技术相比,本发明克服了现有翻译软件对非著名实体翻译精确度不高,对齐效果欠佳等问题,提高了多语种实体对齐质量,降低了跨语言知识图谱构建难度。
附图说明
图1为实施例中Transformer翻译模型的网络结构示意图;
图2为实施例多的头注意力的结构示意图;
图3为实施例中的汉泰双语实体对齐流程示意图;
图4为实施例中的jieba分词关键代码示例示意图;
图5为实施例中的jieba分词后数据示例示意图;
图6为实施例中的cutkum分词关键代码示例示意图;
图7为实施例中的cutkum分词后数据示例示意图;
图8为实施例中的Stanford NLP实体抽取关键代码示例示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
本例以汉泰双语数据集为例,以Python作为开发语言,并以Pycharm软件作为开发环境,
参照图3,一种面向跨语言知识图谱的汉泰实体对齐方法,包括如下步骤:
1)双语数据集获取:从Wikidata、YAGO多语言知识库或各大汉泰双语网站中,获取汉泰双语对齐数据,数据集中都为对齐的汉泰双语句子,且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体,本例如表a所示,Chinese中1-A句子中的汉语实体可在Thai中1-B句子中找到对齐的泰语实体;
表a汉泰对齐句子数据示例
Figure BDA0002552306490000041
2)机器翻译模型构建与训练:构建Transformer翻译模型,将步骤1)中获取的汉泰双语数据集进行训练,得到训练好的汉泰翻译模型,再在步骤4)通过步骤3)对抽取的实体进行翻译,过程为:
1-2)数据预处理:将步骤1)获取的汉泰双语数据集进行预处理,转换成机器翻译模型训练的标准数据格式,先把双语数据集分为汉语句子文件Ch.txt,泰语句子文件Th.txt,Ch.txt中的每一个句子都对应于Th.txt中的每一个句子;
2-2)分词:汉语数据集Ch.txt采用jieba分词工具进行分词,将分词后的数据存入Ch_Seq.txt文件,本例如图4所示jieba分词的关键代码示例,词与词之间以一个空格进行分隔,如图5所示,将泰语数据集Th.txt文件的句子采用cutkum工具对其进行分词,其中图6为cutkum分词的关键代码示例,分词后的数据存入Th_Seq.txt文件,词与词之间同样以一个空格进行分隔,如图7所示;
3-2)构建Transformer翻译模型:Transformer模型采用Seq2Seq模型中典型的编码器-解码器即Encoder-Decoder的框架结构,但与Seq2Seq模型不同的是,Transformer的编码器和解码器中并没有使用循环神经网络的结构,整体网络结构如图1所示,其编码器和解码器的主要结构如下所述:
1-3-2)编码器:Transformer模型中的编码层由若干个相同的层堆叠组成,每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成,所述多头注意力在模型中用于实现Self-Attention,和普通的Attention机制相比,Multi-Head Attention机制将输入进行多路线性变换,然后分别计算Attention的结果,并将所有的结果进行拼接,再一次进行线性变换并输出,如图2所示,其中Attention使用的是点积即Dot-Product,为避免因点积结果过大进入softmax的饱和区域,因此,在点积后进行了scale的处理,所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise,全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构;
2-3-2)解码器:解码器和编码器的结构相类似,只是解码器的层比编码器的层再增加了一个多头注意力的子层,用以实现对编码器输出的Attention;
3-3-2)Transformer模型构建与训练:采用百度PaddlePaddle框架构建好的Transformer模型,本例采用以下网址下载:
https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/ machine_translation/transformer
4-3-2)模型构建完成后,将步骤2-2)中分词后的数据加载到上述Transformer模型中进行训练,得到训练好的Transformer翻译模型即汉泰翻译模型:Ch-Th-Translation.model;
3)实体抽取:本实例采用Stanford NLP对汉语句子进行实体抽取,过程为:
1-3)先下载Stanford CoreNLP文件
http://nlp.stanford.edu/software/stanford-corenlp-full-2016-10-31.zip
,解压;再下载中文的模型jar文件
http://nlp.stanford.edu/software/stanford-chinese-corenlp-2016-10-31- models.jar,放至根目录下;
2-3)Stanford NLP实体抽取的关键代码示例如图8所示,利用上述的StanfordNLP工具对汉语Ch.txt文件中的句子1-A进行实体抽取,得到汉语实体NER-A;
4)实体翻译与匹配:实体翻译采用目前常用的翻译软件与Transformer翻译模型结合使用,具体过程如下:
1-4)首先采用目前常用的谷歌翻译软件将步骤2-3)中抽取的汉语实体NER-A进行翻译,得到翻译后的实体NER1-A,然后和相应的泰语句子1-B进行匹配,若匹配成功,则进行下一个实体对齐,若匹配失败,则转入步骤2-4);
2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型Ch-Th-Translation.model进行翻译,得到翻译后的实体NER2-A,再与对应的泰语句子1-B进行匹配,匹配成功,则得到1-A句子中的实体与1-B句子中相对应的实体NER-B,若都匹配失败,则进行下一个实体对齐;
3-4)最后,实现对齐的“NER-A:NER-B”,即完成汉泰双语句子中的实体对齐。

Claims (1)

1.一种面向跨语言知识图谱的汉泰实体对齐方法,其特征在于,包括如下步骤:
1)双语数据集获取:从Wikidata、YAGO多语言知识库或各大汉泰双语网站中,获取汉泰双语对齐数据集,数据集中都为对齐的汉泰双语句子,且汉语句子中存在的实体可在泰语句子中找到其相对齐的实体;
2)机器翻译模型构建与训练:构建Transformer 翻译模型并将步骤1)中获取的双语数据集,通过构建好的Transformer 翻译模型进行训练,得到训练好的汉泰翻译模型,过程为:
1-2)数据预处理:将步骤1)获取的汉泰双语数据集进行预处理,转换成机器翻译模型训练的标准数据格式,先把双语数据集分为汉语句子文件Ch.txt,泰语句子文件Th.txt,Ch.txt中的每一个句子都对应于Th.txt中的每一个句子;
2-2)分词:汉语数据集采用jieba分词工具进行分词,泰语数据集采用cutkum工具进行分词,词与词之间以一个空格进行分隔;
3-2)构建Transformer 翻译模型:Transformer模型采用Seq2Seq 模型中典型的编码器-解码器即Encoder-Decoder的框架结构,但与Seq2Seq模型不同的是,Transformer的编码器和解码器中没有使用循环神经网络的结构,其编码器和解码器的主要结构如下所述:
1-3-2)编码器:Transformer模型中的编码层由一组相同的层堆叠组成,每个层由多头注意力即Multi-Head Attention和全连接的前馈即Feed-Forward网络这两个子层构成,所述多头注意力在模型中用于实现Self-Attention, Multi-Head Attention机制将输入进行多路线性变换,然后分别计算Attention的结果,并将所有的结果进行拼接,再一次进行线性变换并输出,其中Attention使用的是点积即Dot-Product,在点积后进行了scale的处理,所述全连接的前馈网络会对序列中的每个位置进行相同的计算即Position-wise,全连接的前馈网络采用了两次线性变换中间加以ReLU激活的结构;
2-3-2)解码器:解码器和编码器的结构相类似,只是解码器的层比编码器的层再增加了一个多头注意力的子层,用以实现对编码器输出的Attention;
3-3-2)Transformer翻译模型构建:采用百度的PaddlePaddle、Pytorch或TensorFlow框架进行构建;
4-3-2)模型构建完成后,将步骤2-2)中分词后的数据加载到上述Transformer翻译模型中进行训练,得到训练好的翻译模型即汉泰翻译模型;
3)实体抽取:选取目前开源的汉语实体抽取工具或采用常用的汉语命名实体识别模型抽取出汉语句子中的实体;
4)实体翻译与匹配:实体翻译采用目前常用的翻译软件与Transformer 翻译模型结合使用,具体过程如下:
1-4)首先采用目前常用的翻译软件将步骤3)中抽取的汉语实体NER-A进行翻译,得到翻译后的实体NER1-A,然后和相应的泰语句子进行匹配,若匹配成功,则进行下一个实体对齐,若匹配失败,则转入步骤2-4);
2-4)将步骤1-4)匹配失败的实体NER-A利用步骤4-3-2)中训练好的汉泰翻译模型进行翻译,得到翻译后的实体NER2-A,再与对应的泰语句子进行匹配,匹配成功,则得到汉语句子中的实体NER-A与泰语句子中相对应的实体NER-B;
3-4)最后,实现对齐的“NER-A:NER-B”,即完成汉泰双语句子中的实体对齐。
CN202010578711.2A 2020-06-23 2020-06-23 一种面向跨语言知识图谱的汉泰实体对齐方法 Pending CN111723587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578711.2A CN111723587A (zh) 2020-06-23 2020-06-23 一种面向跨语言知识图谱的汉泰实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578711.2A CN111723587A (zh) 2020-06-23 2020-06-23 一种面向跨语言知识图谱的汉泰实体对齐方法

Publications (1)

Publication Number Publication Date
CN111723587A true CN111723587A (zh) 2020-09-29

Family

ID=72568256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578711.2A Pending CN111723587A (zh) 2020-06-23 2020-06-23 一种面向跨语言知识图谱的汉泰实体对齐方法

Country Status (1)

Country Link
CN (1) CN111723587A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN112674734A (zh) * 2020-12-29 2021-04-20 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法
CN113220975A (zh) * 2021-05-20 2021-08-06 北京欧拉认知智能科技有限公司 一种基于图谱的搜索分析方法及***
CN115455981A (zh) * 2022-11-11 2022-12-09 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN106682670A (zh) * 2016-12-19 2017-05-17 Tcl集团股份有限公司 一种台标识别方法及***
CN107633079A (zh) * 2017-09-25 2018-01-26 重庆邮电大学 一种基于数据库与神经网络的车机自然语言人机交互算法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109670178A (zh) * 2018-12-20 2019-04-23 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及装置、计算机可读存储介质
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN106682670A (zh) * 2016-12-19 2017-05-17 Tcl集团股份有限公司 一种台标识别方法及***
CN107633079A (zh) * 2017-09-25 2018-01-26 重庆邮电大学 一种基于数据库与神经网络的车机自然语言人机交互算法
CN109190131A (zh) * 2018-09-18 2019-01-11 北京工业大学 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN109670178A (zh) * 2018-12-20 2019-04-23 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及装置、计算机可读存储介质
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN111159426A (zh) * 2019-12-30 2020-05-15 武汉理工大学 一种基于图卷积神经网络的产业图谱融合方法
CN111259652A (zh) * 2020-02-10 2020-06-09 腾讯科技(深圳)有限公司 双语语料句对齐方法、装置、可读存储介质和计算机设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
BLACK_SHUANG: "图解Transformer模型(Multi-Head Attention)", 《HTTPS://BLOG.CSDN.NET/BLACK_SHUANG/ARTICLE/DETAILS/95384597》, 10 July 2019 (2019-07-10), pages 1 - 3 *
SHIZE KANG等: "Iterative Cross-Lingual Entity Alignment B ased on TransC", 《IEICE TRANS. INF. & SYST.》, 30 May 2020 (2020-05-30), pages 1002 - 1005 *
ZEQUN SUN等: "Cross-lingual Entity Alignment via Joint Attribute-Preserving Embedding", 《ARXIV:1708.05045V2》, 26 September 2017 (2017-09-26), pages 14 *
刘庆峰等: "会议场景下融合外部词典知识的领域个性化机器翻译方法", 《中文信息学报》, vol. 33, no. 10, 15 October 2019 (2019-10-15), pages 31 - 37 *
吴辉文: "泰语分词与实体抽取技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2, 15 February 2022 (2022-02-15), pages 138 - 1336 *
康世泽等: "一种基于实体描述和知识向量相似度的", 《电子学报》, vol. 47, no. 9, 15 September 2019 (2019-09-15), pages 1841 - 1847 *
张金鹏等: "融合人名知识分布特征的汉泰双语人名对齐", 《HTTP://KNS.CNKI.NET/KCMS/DETAIL/11.2127.TP.20190305.1453.002.HTML》, 6 March 2019 (2019-03-06), pages 1 - 11 *
胡弘思等: "基于***的双语可比语料的句子对齐", 《中文信息学报》, vol. 30, no. 1, 15 January 2016 (2016-01-15), pages 198 - 203 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417159A (zh) * 2020-11-02 2021-02-26 武汉大学 一种上下文对齐增强图注意力网络的跨语言实体对齐方法
CN112674734A (zh) * 2020-12-29 2021-04-20 电子科技大学 一种基于监督Seq2Seq模型的脉搏信号噪声检测方法
CN113220975A (zh) * 2021-05-20 2021-08-06 北京欧拉认知智能科技有限公司 一种基于图谱的搜索分析方法及***
CN115455981A (zh) * 2022-11-11 2022-12-09 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质
CN115455981B (zh) * 2022-11-11 2024-03-19 合肥智能语音创新发展有限公司 一种多语种语句的语义理解方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111723587A (zh) 一种面向跨语言知识图谱的汉泰实体对齐方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN107632981B (zh) 一种引入源语组块信息编码的神经机器翻译方法
JP2022028887A (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
Schulz et al. Multi-modular domain-tailored OCR post-correction
CN110765791B (zh) 机器翻译自动后编辑方法及装置
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN112818712B (zh) 基于翻译记忆库的机器翻译方法及装置
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN111680169A (zh) 一种基于bert模型技术的电力科技成果数据抽取方法
Xu et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
Hsu et al. Prompt-learning for cross-lingual relation extraction
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
Serrano et al. Interactive handwriting recognition with limited user effort
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low‐Resource Language
Qi et al. Translation-based matching adversarial network for cross-lingual natural language inference
CN115392255A (zh) 一种面向桥梁检测文本的少样本机器阅读理解方法
Naranpanawa et al. Analyzing subword techniques to improve english to sinhala neural machine translation
CN110414000B (zh) 一种基于模板文档对比的关键词提取方法及***
CN114139610A (zh) 基于深度学习的中医药临床文献数据结构化方法及装置
CN114139561A (zh) 一种多领域神经机器翻译性能提升方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220429

Address after: 100193 room 316, floor 3, building 4, yard 8, Dongbeiwang West Road, Haidian District, Beijing

Applicant after: Beijing Tianyun Xin'an Technology Co.,Ltd.

Address before: 541004 1 Jinji Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Applicant before: GUILIN University OF ELECTRONIC TECHNOLOGY

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200929

WD01 Invention patent application deemed withdrawn after publication