CN110852063B - 基于双向lstm神经网络的词向量生成方法及装置 - Google Patents
基于双向lstm神经网络的词向量生成方法及装置 Download PDFInfo
- Publication number
- CN110852063B CN110852063B CN201911045081.6A CN201911045081A CN110852063B CN 110852063 B CN110852063 B CN 110852063B CN 201911045081 A CN201911045081 A CN 201911045081A CN 110852063 B CN110852063 B CN 110852063B
- Authority
- CN
- China
- Prior art keywords
- neural network
- lstm neural
- bidirectional lstm
- word
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种基于双向LSTM神经网络的词向量生成方法及装置,其中方法包括根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;从多个译员中确定目标译员,根据目标译员的语料对应的编辑行为数据训练词向量模型;将多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;根据目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;将多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务。
Description
技术领域
本发明涉及语言模型技术领域,更具体地,涉及基于双向LSTM神经网络的词向量生成方法及装置。
背景技术
词作为语言中基本的语义单元,将词表征成向量(词向量)作为模型的输入,是当前自然语言处理过程中非常重要和基础步骤。传统方法往往通过独热编码、PMI或PPMI矩阵、共现矩阵和SVD矩阵分解等技术获取词向量。
2012年左右,将深度学习的技术应用于自然语言处理日益流行,基于神经网络的词向量模型随之提出,其中包括Skip-gram,CBOW和GloVe等。这些新的词表征方法更好地捕捉词和词之间的语义相关性,其应用在实体识别,语音识别,文本分类,语言模型,智能问答等任务方向上都取得了不小的进步。
然而,语言中存在一词多义的现象,例如英文单词tie有接近十多种不同的语义,因此一个词对应一个向量的方式并不能充分体现出词的语义。在翻译任务中,如果将相同的翻译稿件由不同译员来翻译,往往会产生不同的翻译结果。这种措辞用句上的个性化来源于每位译员本身的特质,其中包括他们的教育背景,翻译经验,年龄层次等各种方面。如何将这些个性化因子加入模型,从而更好地辅助译员翻译,也是一个需要解决、非常有挑战的研究课题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的基于双向LSTM神经网络的词向量生成方法及装置。
第一个方面,本发明实施例提供一种基于双向LSTM神经网络的词向量生成方法,包括:
根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;
根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;
将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接
优选地,所述根据多个译员的语料初始词向量训练所述第二双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述第二双向LSTM神经网络。
优选地,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
利用目标译员的语料对应的编辑行为数据的字符向量,从语料的正序和反序训练所述词向量模型,以获得训练后的字符向量。
优选地,述根据第一双向LSTM神经网络的输出获得中间词向量,具体为:
将所述多个译员的语料从正序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第一词表征;
将所述多个译员的语料从反序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第二词表征;
将所述第一词表征与第二词表征求和,获得所述中间词向量。
优选地,所述根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络,具体为:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述第二双向LSTM神经网络。
优选地,所述利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络,具体为:
将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述第二双向LSTM神经网络;
之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前序词例的概率为样本标签,再次训练所述第二双向LSTM神经网络。
优选地,所述根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量,具体为:
获取所述第二双向LSTM神经网络产生的用于正序预测的向量和用于反序预测的向量,将所述用于正序预测的向量和用于反序预测的向量求和,获得最终的词向量。
第二个方面,本发明实施例提供一种基于双向LSTM神经网络的词向量生成装置,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的基于双向LSTM神经网络的词向量生成方法及装置,根据多个译员的语料(全量样本)训练第二双向LSTM神经网络,使得第二双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画目标译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将第一双向LSTM神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整第二双向LSTM神经网络,使得第二双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的第二双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于双向LSTM神经网络的词向量生成方法的流程示意图;
图2为本发明实施例的根据语料的正序训练第二双向LSTM神经网络的流程示意图;
图3为本发明实施例的根据语料的反序训练第二双向LSTM神经网络的流程示意图;
图4为本发明实施例提供的基于双向LSTM神经网络的词向量生成装置的结构示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例适用于由字母构成的语言,比如英文、法文、德文、西班牙文等,也适用于由非字母元素构成但是能够便利地映射为字母的语言,比如中文(可以映射为拼音字母)、日文(可以映射为罗马字母)等。为了便于描述,以下各实施例主要针对英文的场景,对本发明实施例的方案进行说明
图1为本发明实施例的基于双向LSTM神经网络的词向量生成方法的流程示意图,该流程的执行主体比如包括以下至少一种设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101、根据多个译员的语料的初始词向量训练第二双向LSTM神经网络。
在本发明实施例中,语料指语言材料,语料是构成语料库的基本单元。译员指翻译人员,用于将某一语言的语料翻译成其他语言的语料。可以理解的是,不同译员可能对同一语料翻译出不同的风格,因此采集多个译员的语料即可获得不同风格的翻译结果,通过将多种风格的翻译结果一同训练,即可获得不具有显著翻译风格——常规翻译风格的模型。本发明实施例的译员的语料是指同一种目标语言的翻译结果,例如都为中译英任务的英文翻译结果。
LSTM(Long Short-Term Memory,长短期记忆网络),LSTM神经网络适合于处理和预测时间序列中间隔和延迟非常长的重要事件,正因为如此,LSTM神经网络相比普通的RNN网络,应用于词向量生成、文本翻译等领域具有更优异、更灵活的优势。本发明实施例利用双向LSTM神经网络具有记忆性的特点,通过利用多个译员的语料的初始词向量以及上下文关系训练第二双向LSTM神经网络,从而获得具有通用翻译风格的第二双向LSTM神经网络。
在本发明实施例中,初始词向量是通过通用语料库通过词向量训练而来的,其目的是提出一个表征词例的通用含义的特征向量,具体地,可以通过下载最新的***的英文单语语料集,并进行分词,然后利用Skip-Gram等算法进行英文词向量的训练,其中一些重要的超参数可以设置为:词向量的维度为300,上下文窗口为5。
可以理解的是,第二双向LSTM神经网络的训练过程分为正、反序两个方向进行,可以概括为,利用语料的前n-1个词例的初始词向量,预测第n个词例出现的概率,当概率的结果符合预设阈值或者样本训练完毕时,再利用语料的后n-1个词例的初始词向量,预测倒数第n个词例出现的概率,当概率的结果符合预设阈值或者样本训练完毕时,第二双向LSTM神经网络停止训练。
S102、从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型。
本发明实施例的词向量模型包括第一双向LSTM神经网络和第二双向LSTM神经网络,第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接。第一双向LSTM神经网络也是双向LSTM神经网络。本发明实施例的词向量模型之所以在第二双向LSTM神经网络的前端设置第一双向LSTM神经网络,其目的是:
第一方面是利用双向LSTM神经网络在特征提取更准确的优势,充分挖掘样本的上下文语义,从而为后续的第二双向LSTM神经网络提供特征更准确的输入量;
第二方面,由于本发明实施例的第一双向LSTM神经网络的输出直接作为第二双向LSTM神经网络的输入,因此第一双向LSTM神经网络的训练并不需要设置额外的标签(额外的标签是指除训练第二双向LSTM神经网络所需的标签以外的标签),从而降低模型训练的复杂度;
第三方面,由于目标译员的语料数量相对于所有译员的语料数量仅是其中的一部分,因此通过一部分语料训练词向量模型能够减少训练的数据量,减少训练耗时;
第四方面,通过将第一双向LSTM神经网络和第二双向LSTM神经网络进行联合训练,使得整个词向量模型融入目标译员的翻译风格,进而利用融入目标译员的翻译风格的第一双向LSTM神经网络的输出,作为后续代替原始词向量的中间词向量。
需要说明的是,本发明实施例并不限制目标译员的具体选择的规则,在实际应用中,目标译员可以是具有更高翻译质量和翻译风格辨识度的译员。
译员的编辑行为数据是指译员在翻译时产生的编辑行为数据,该数据以句子(已分词)中的每个词例(token)为单位进行记录,即根据时序顺序记录用户敲击键盘按键的序列。此序列完成了句子中的某一个词例。
例如,一个英文翻译结果(语料):The skill building is important。通过分词产生的词例为:“The|skill|building|is|important|.”,其中“|”表示分词符号。
对于词例“The”,按键序列为:t->删除->T->h->e;
对于词例“skill”,按键序列为:s->k->i->l->l->s->删除;
对于词例“building”,按键序列为:d->e->v->e->删除->删除->删除->删除->b->u->i->l->d->d->i->n->g->向左->向左->向左->删除;
对于词例“is”,按键序列为“i->s”;
对于词例“important”,按键序列为“i->m->p->o->r->a->n->t->向左->向左->向左->t”;
对于词例“.”,按键序列为“。->删除->.”
上述按键序列中的“->”无实际意义,仅为方便说明按键的输入过程,因此,对于上述语料,该语料对应的编辑行为数据即所有词例的按键序列的集合。
本发明实施例的经过步骤S102训练后的词向量模型,一方面第二双向LSTM神经网络在融合了多种翻译风格的语义后,进一步强化了目标译员的翻译风格的语义,另一方面,第一双向LSTM神经网络也能够融合目标译员的翻译风格的语义。
S103、将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量。
需要说明的是,通过将多个译员的语料输入至训练后的词向量模型,第一双向LSTM神经网络的输出能够体现目标译员翻译风格,通过该输出获得中间词向量。
S104、根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络。
由于目标译员是“多个译员”的子集,因此,步骤S103获得多个译员的语料的中间词向量后,实际上也获得了目标译员的语料的中间词向量。由于步骤S102中训练后的词向量模型的第一双向LSTM神经网络能够刻画出目标译员的翻译风格,因此利用目标译员的语料的中间词向量调整第二双向LSTM神经网络,能够使得第二双向LSTM神经网络更准确地刻画出目标译员的翻译风格,并且由于目标译员的语料较少,微调第二双向LSTM神经网络所需的功耗也较少。
S105、将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量。
可以理解的是,第二双向LSTM神经网络的输出是概率,并不是特征向量,但是在输出概率前,会生成用于预测(概率)的向量,本发明实施例通过将多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,能够获得能够准确刻画上下文整体语义,同时准确翻译目标译员的翻译风格的词向量。
本发明实施例根据多个译员的语料(全量样本)训练第二双向LSTM神经网络,使得第二双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将第一双向LSTM神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整第二双向LSTM神经网络,使得第二双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的第二双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
在上述各实施例的基础上,作为一种可选实施例,所述根据多个译员的语料初始词向量训练所述第二双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述第二双向LSTM神经网络。
具体地,本发明实施例通过下载***的英文单语语料集,利用Skip-Gram算法进行英文词向量的训练,即可获得对应各英文词例的词向量,从而构建出初始词向量库。对于多个语言的语料,通过对每条语料进行分词,然后从初始词向量库中找出对应个分词的词向量,即可获得步骤S101训练第二双向LSTM神经网络所需的初始词向量。
本发明实施例训练第二双向LSTM神经网络的步骤具体为:将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述第二双向LSTM神经网络;之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前续词例的概率为样本标签,再次训练第二双向LSTM神经网络。当第二双向LSTM神经网络输出的概率符合预设阈值或者样本训练完毕时,停止训练。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
以目标译员的语料中在前词例的编辑行为数据的字符向量为样本,以所述在前词例的后续词例的概率为样本标签,训练所述词向量模型,以获得训练后的字符向量。
需要说明的是,本发明实施例在训练词向量模型时,会给每一个编辑行为配置一个初始的字符向量,从而使目标译员的语料的每个词例都能用若干个字符向量进行表征,第二双向LSTM神经网络的正序训练就是给定前n-1个词,预测第n个词,如果预测错误就会Loss,根据Loss并利用反向传播算法对第二双向LSTM神经网络和第一双向LSTM神经网络的模型参数(其中包括字符向量)进行更新以降低Loss,直至Loss低于预设阈值,反序的训练过程与正序的差异仅是输入词的顺序和预测的词顺序相反,其他过程基本一致,在此不再赘述。
在上述各实施例的基础上,作为一种可选实施例,所述根据第一双向LSTM神经网络的输出获得中间词向量,具体为:
将所述多个译员的语料从正序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第一词表征;
将所述多个译员的语料从反序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第二词表征;
将所述第一词表征与第二词表征求和,获得所述中间词向量。
需要说明的是,通过获取训练后的字符向量,使得每一个编辑行为都具有了固定的字符向量,因此也就可以获得每个词例的字符向量,例如词例:apple,通过获取a、p、l和e对应的字符向量,即可获得词例的字符向量,利用获取的每个词例的字符向量,即可按照语料的正序和反序输入至训练后的词向量模型,本发明实施例将双向LSTM神经网络中的正、反序输出的和作为中间词向量。
在上述各实施例的基础上,作为一种可选实施例,所述根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络,包括:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述第二双向LSTM神经网络。
具体地,以语料的正序为例,以所述目标译员的语料中在前词例的中间词向量为样本,以所述在前词例的后续词例的概率为样本标签,训练所述第二双向LSTM神经网络。
图2为本发明实施例的根据语料的正序训练第二双向LSTM神经网络的流程示意图,该第二双向LSTM神经网络用于完成:
t1,z1=f(t0,<s>词向量)
通过z1的值,计算词例表中哪个词是第一个词的概率;p(第一个词是it)的值最大,则第一个词是The;
t2,z2=f(t1,The词向量)
通过z2的值,计算词例表中哪个词是第二个词的概率;p(第二个词是skill)的值最大,则第二个词是skill;
t3,z3=f(t2,skill词向量)
通过z3的值,计算词例表中每个词是第三个词的概率;p(第三个词是building)的值最大,则第三个词是important;
以此类推,最终预测出The skill building is important正序出现的全部概率。
图3为本发明实施例的根据语料的反序训练第二双向LSTM神经网络的流程示意图,该第二双向LSTM神经网络用于完成:
h1,y1=f(h0,important词向量)
通过y1的值,计算词例表中哪个词是倒数第二个词的概率;p(倒数第二个词是is)的值最大,则倒数第二个词是is;
h2,y2=f(h1,is词向量)
通过y2的值,计算词例表中哪个词是第三个词的概率;p(倒数第三个词是building)的值最大,则倒数第三个词是building;
h3,y3=f(h2,building词向量)
通过y3的值,计算词例表中每个词是倒数第四个词的概率;p(倒数第四个词是skill)的值最大,则倒数第四个词是skill;
以此类推,最终预测出The skill building is important反序出现的全部概率。
图4为本发明实施例提供的基于双向LSTM神经网络的词向量生成装置的结构示意图,如图4所示,该基于双向LSTM神经网络的词向量生成装置包括:全量训练模块401、定量训练模块402、中间量生成模块403、调整模块404和输出模块405,其中:
全量训练模块401,用于根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;
定量训练模块402,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块403,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;
调整模块404,用于根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;
输出模块405,用于将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接
本发明实施例提供的基于双向LSTM神经网络的词向量生成装置,具体执行上述各基于双向LSTM神经网络的词向量生成方法实施例流程,具体请详见上述各基于双向LSTM神经网络的词向量生成方法实施例的内容,在此不再赘述。本发明实施例提供的基于双向LSTM神经网络的词向量生成装置根据多个译员的语料(全量样本)训练第二双向LSTM神经网络,使得第二双向LSTM神经网络具有通用的翻译风格,将目标译员的编辑行为数据作为体现译员措辞用句的表征,通过编辑行为数据对词向量模型进行训练,实现通过少量样本增强词向量模型刻画译员翻译风格的目的,之后再利用全量样本输入至训练后的词向量模型,将第一双向LSTM神经网络的输出作为中间词向量,中间词向量相比原始词向量在上下文语义以及目标译员的风格上都更加准确,然后将目标译员的语料的中间词向量调整第二双向LSTM神经网络,使得第二双向LSTM神经网络在刻画目标译员的风格上更加准确,最后将全量样本输入至调整后的第二双向LSTM神经网络,即可获得大量能够准确体现上下文语义同时更符合目标译员的翻译风格的词向量。本发明实施例生成的词向量可以广泛应用于各种自然语言的处理任务(要求词向量作为输入的模型任务)。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序,以执行上述各实施例提供的基于双向LSTM神经网络的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于双向LSTM神经网络的词向量生成方法,例如包括:根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于双向LSTM神经网络的词向量生成方法,其特征在于,包括:
根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;
从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;
根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;
将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接。
2.根据权利要求1所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述根据多个译员的语料初始词向量训练所述第二双向LSTM神经网络,具体为:
从预设的初始词向量库中确定所述多个译员的语料的词向量,作为初始词向量;
利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述第二双向LSTM神经网络。
3.根据权利要求1所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述根据所述目标译员的语料对应的编辑行为数据训练所述词向量模型,具体为:
将每个编辑行为数据用一一对应的、初始化的字符向量进行表征;
利用目标译员的语料对应的编辑行为数据的字符向量,从语料的正序和反序训练所述词向量模型,以获得训练后的字符向量。
4.根据权利要求1所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述根据第一双向LSTM神经网络的输出获得中间词向量,具体为:
将所述多个译员的语料从正序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第一词表征;
将所述多个译员的语料从反序输入至训练后的所述词向量模型,将第一双向LSTM神经网络的输出作为第二词表征;
将所述第一词表征与第二词表征求和,获得所述中间词向量。
5.根据权利要求1所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络,具体为:
利用所述目标译员的语料的中间词向量,从语料的正序和反序,训练所述第二双向LSTM神经网络。
6.根据权利要求2所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述利用所述多个译员的语料的初始词向量,从语料的正序和反序训练所述双向LSTM神经网络,具体为:
将所述多个译员的语料中在前词例为样本,以所述在前词例的后续词例的概率为样本标签,训练所述第二双向LSTM神经网络;
之后将所述多个译员的语料中在后词例为样本,以所述在后词例的前序词例的概率为样本标签,再次训练所述第二双向LSTM神经网络。
7.根据权利要求6所述的基于双向LSTM神经网络的词向量生成方法,其特征在于,所述根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量,具体为:
获取所述第二双向LSTM神经网络产生的用于正序预测的向量和用于反序预测的向量,将所述用于正序预测的向量和用于反序预测的向量求和,获得最终的词向量。
8.一种基于双向LSTM神经网络的词向量生成装置,其特征在于,包括:
全量训练模块,用于根据多个译员的语料的初始词向量训练第二双向LSTM神经网络;
定量训练模块,用于从多个译员中确定目标译员,根据所述目标译员的语料对应的编辑行为数据训练词向量模型;
中间量生成模块,用于将所述多个译员的语料输入至训练后的所述词向量模型,根据第一双向LSTM神经网络的输出获得中间词向量;
调整模块,用于根据所述目标译员的语料的中间词向量调整所述第二双向LSTM神经网络;
输出模块,用于将所述多个译员的语料的中间词向量输入至调整后的第二双向LSTM神经网络,根据第二双向LSTM神经网络产生的用于预测的向量获得最终的词向量;
其中,所述词向量模型包括所述第一双向LSTM神经网络和所述第二双向LSTM神经网络,所述第一双向LSTM神经网络的输出层与所述第二双向LSTM神经网络的输入层连接。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于双向LSTM神经网络的词向量生成方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的基于双向LSTM神经网络的词向量生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045081.6A CN110852063B (zh) | 2019-10-30 | 2019-10-30 | 基于双向lstm神经网络的词向量生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911045081.6A CN110852063B (zh) | 2019-10-30 | 2019-10-30 | 基于双向lstm神经网络的词向量生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852063A CN110852063A (zh) | 2020-02-28 |
CN110852063B true CN110852063B (zh) | 2023-05-05 |
Family
ID=69598898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911045081.6A Active CN110852063B (zh) | 2019-10-30 | 2019-10-30 | 基于双向lstm神经网络的词向量生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852063B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353147B (zh) * | 2020-03-11 | 2023-03-03 | 鹏城实验室 | 口令强度评估方法、装置、设备及可读存储介质 |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及*** |
EP3408755A1 (en) * | 2016-01-26 | 2018-12-05 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
CN109165387A (zh) * | 2018-09-20 | 2019-01-08 | 南京信息工程大学 | 一种基于gru神经网络的中文评论情感分析法 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
TW201926078A (zh) * | 2017-11-30 | 2019-07-01 | 香港商阿里巴巴集團服務有限公司 | 詞向量處理方法、裝置以及設備 |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484682B (zh) * | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
US10733380B2 (en) * | 2017-05-15 | 2020-08-04 | Thomson Reuters Enterprise Center Gmbh | Neural paraphrase generator |
US11030414B2 (en) * | 2017-12-26 | 2021-06-08 | The Allen Institute For Artificial Intelligence | System and methods for performing NLP related tasks using contextualized word representations |
-
2019
- 2019-10-30 CN CN201911045081.6A patent/CN110852063B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3408755A1 (en) * | 2016-01-26 | 2018-12-05 | Koninklijke Philips N.V. | Systems and methods for neural clinical paraphrase generation |
TW201926078A (zh) * | 2017-11-30 | 2019-07-01 | 香港商阿里巴巴集團服務有限公司 | 詞向量處理方法、裝置以及設備 |
CN110119507A (zh) * | 2018-02-05 | 2019-08-13 | 阿里巴巴集团控股有限公司 | 词向量生成方法、装置以及设备 |
CN108874785A (zh) * | 2018-06-01 | 2018-11-23 | 清华大学 | 一种翻译处理方法及*** |
CN109165387A (zh) * | 2018-09-20 | 2019-01-08 | 南京信息工程大学 | 一种基于gru神经网络的中文评论情感分析法 |
CN109614479A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于距离向量的裁判文书推荐方法 |
Non-Patent Citations (3)
Title |
---|
Yuwei Huang ; Xi Yang ; Fuzhen Zhuang ; Lishan Zhang ; Shengquan Yu.Automatic Chinese Reading Comprehension Grading by LSTM with Knowledge Adaptation.Advances in Knowledge Discovery and Data Mining.2018,第10937卷第118-129页. * |
何馨宇 ; 李丽双 ; .基于双向LSTM和两阶段方法的触发词识别.中文信息学报.2017,(第06期),第151-158页. * |
刘婉婉 ; 苏依拉 ; 乌尼尔 ; 仁庆道尔吉 ; .基于LSTM的蒙汉机器翻译的研究.计算机工程与科学.2018,(第10期),第178-184页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110852063A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN108460013B (zh) | 一种基于细粒度词表示模型的序列标注模型及方法 | |
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
Yao et al. | An improved LSTM structure for natural language processing | |
WO2018010455A1 (zh) | 一种基于神经网络的翻译方法及装置 | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN110674646A (zh) | 一种基于字节对编码技术的蒙汉机器翻译*** | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
KR102043353B1 (ko) | 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법 | |
CN111144140B (zh) | 基于零次学习的中泰双语语料生成方法及装置 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112463942A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
Mocialov et al. | Transfer learning for british sign language modelling | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN114298010A (zh) | 一种融合双语言模型和句子检测的文本生成方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和*** | |
Wang et al. | Mongolian named entity recognition with bidirectional recurrent neural networks | |
Basmatkar et al. | Survey on neural machine translation for multilingual translation system | |
CN111985251B (zh) | 翻译质量测评方法及装置 | |
Krishnan et al. | Character based bidirectional LSTM for disambiguating tamil part-of-speech categories | |
CN110866404B (zh) | 基于lstm神经网络的词向量生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |