CN107239443A

CN107239443A - 一种词向量学习模型的训练方法及服务器

Info

Publication number: CN107239443A
Application number: CN201710322632.3A
Authority: CN
Inventors: 谢若冰; 牛艺霖; 刘知远; 孙茂松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2017-10-10

Abstract

本发明实施例提供一种词向量学习模型的训练方法及服务器，所述方法包括：获取训练样本文本中单词对应的词义向量和义原向量；根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。所述服务器执行上述方法。本发明实施例提供的词向量学习模型的训练方法及服务器，通过义原向量或词义向量表示词向量，并训练由词义向量或义原向量表示的词向量对应的词向量学习模型，使其能够充分地表达单词的语义信息。

Description

一种词向量学习模型的训练方法及服务器

技术领域

本发明实施例涉及机器学习技术领域，具体涉及一种词向量学习模型的训练方法及服务器。

背景技术

义原是单词的最小语义单元，可以使用有限个义原描述数量庞大的中文单词的语义。对于每个单词来说，这个单词拥有的义原并没有直观的表现出来，为了进行相应的研究，一些研究人员对每个单词进行了人工标注，通过语言学的知识来为每个单词分配一个或多个义原，并由此形成了一个知识库HowNet(知网)。

词向量是指将单词向量化，词向量包括有不同的维数，每一维数描述了单词的一种特征，将单词转化为词向量可以帮助计算机去理解自然语言，现有技术通过对词向量学习模型进行训练，来预测单词语义信息。但是上述词向量学习模型中的词向量没有关系到单词的最小语义单元——义原，因此，不能充分地表达单词的语义信息。

因此，如何通过义原向量或词义向量训练词向量学习模型中的词向量，使其能够充分地表达单词的语义信息，成为亟须解决的问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种词向量学习模型的训练方法及服务器。

第一方面，本发明实施例提供一种词向量学习模型的训练方法，所述方法包括：

获取训练样本文本中单词对应的词义向量和义原向量；

根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；

将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

第二方面，本发明实施例提供一种词向量学习模型的训练服务器，所述服务器包括：

获取模块，用于获取训练样本文本中单词对应的词义向量和义原向量；

表示模块，用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；

代入模块，用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

第三方面，本发明实施例提供另一种词向量学习模型的训练服务器，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

获取训练样本文本中单词对应的词义向量和义原向量；

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

获取训练样本文本中单词对应的词义向量和义原向量；

本发明实施例提供的词向量学习模型的训练方法及服务器，通过义原向量或词义向量表示词向量，并训练由词义向量或义原向量表示的词向量对应的词向量学习模型，使其能够充分地表达单词的语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例词向量学习模型的训练方法流程示意图；

图2为本发明实施例词向量学习模型的训练服务器结构示意图；

图3为本发明实施例提供的服务器实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例词向量学习模型的训练方法流程示意图，如图1所示，本发明实施例提供的一种词向量学习模型的训练方法，包括以下步骤：

S1：获取训练样本文本中单词对应的词义向量和义原向量。

具体的，服务器获取训练样本文本中单词对应的词义向量和义原向量。需要说明的是：词向量学习模型使用之前需要先进行单词词向量的训练，训练要使用训练样本文本，训练样本文本包括有可作为样本的单词对应的词义向量和义原向量，下面举例说明词义向量和义原向量，以单词“苹果”为例：词义向量可以代表苹果品牌、水果中的苹果；其中代表苹果品牌的词义向量还包括有多个义原向量，如：电脑、手机、方便携带、样式值等最小化的语义单元，即单词词向量、词义向量和义原向量之间的关系是：词向量可以包括一个或多个词义向量；一个词义向量可以包括一个或多个义原向量。可以从知识库HowNet(知网)的原始词集中获取到训练样本文本中单词对应的义原。

S2：根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量。

具体的，服务器根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量。从上述实施例的说明可以看出：用词义向量或义原向量表示词向量，能够使得词向量所表示的语义信息更加丰富。

S3：将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

具体的，服务器将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。已有的词向量学习模型包括有Skip-gram模型等，进行模型训练的方法可以有多种，可以采用后向传播计算参数的梯度，并使用该梯度更新参数，更新的参数可以包括更新词向量、义原向量等。

本发明实施例提供的词向量学习模型的训练方法，通过义原向量或词义向量表示词向量，并训练由词义向量或义原向量表示的词向量对应的词向量学习模型，使其能够充分地表达单词的语义信息。

在上述实施例的基础上，所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量，包括：

在所述训练样本文本中选择一个句子中的一个单词作为目标单词w_i。

具体的，服务器在所述训练样本文本中选择一个句子中的一个单词作为目标单词w_i。可以按顺序或随机选择句子和句子中的单词，选择一个句子中的一个单词作为目标单词w_i，用词义向量或义原向量表示后，再依次选择该句子中的每一个单词作为目标单词w_i，再用词义向量或义原向量表示，直至完成该句子中所有单词用词义向量或义原向量表示，然后在训练样本文本中遍历所有的句子，重复上述的将每一个句子中所有单词用词义向量或义原向量表示的步骤，直至完成训练样本文本中所有单词用词义向量或义原向量表示。

用所述目标单词w_i对应的义原向量总和的平均值表示所述目标单词w_i的词向量。

具体的，服务器用所述目标单词w_i对应的义原向量总和的平均值表示所述目标单词w_i的词向量。可以采用如下公式进行计算：

其中，m代表目标单词w_i的义原向量总数量，S(w_i)表示目标单词w_i的词义向量集合，X(s)表示其中一个词义向量中的义原向量集合，x表示义原向量。简单来说，就是用目标单词w_i的义原向量的平均值表示目标单词w_i的词向量。

本发明实施例提供的词向量学***均值表示目标单词的词向量，并训练义原向量总和的平均值表示目标单词的词向量对应的词向量学习模型，使其能够充分地表达目标单词的语义信息。

具体的，服务器在所述训练样本文本中选择一个句子中的一个单词作为目标单词w_i。可参照上述实施例的说明，此处不再赘述。

将所述目标单词w_i的前K个与后K个单词组成所述目标单词w_i的上下文单词，前K个与后K个单词组成的上下文单词的集合记为C(w_i)。

具体的，服务器将所述目标单词w_i的前K个与后K个单词组成所述目标单词w_i的上下文单词，前K个与后K个单词组成的上下文单词的集合记为C(w_i)。需要说明的是，如果目标单词w_i位于该句子中的句首，则将所述目标单词w_i的后K个单词组成所述目标单词w_i的上下文单词，如果目标单词w_i所在的位置与句首单词之间的单词数不足K个，则将目标单词w_i与句首单词之间的所有单词和后K个单词组成所述目标单词w_i的上下文单词；如果目标单词w_i位于该句子中的句尾，则将所述目标单词w_i的前K个单词组成所述目标单词w_i的上下文单词，如果目标单词w_i所在的位置与句尾单词之间的单词数不足K个，则将目标单词w_i与句尾单词之间的所有单词和前K个单词组成所述目标单词w_i的上下文单词。

用所述目标单词w_i对应的词义向量的加权平均值表示所述目标单词w_i的词向量。

具体的，服务器用所述目标单词w_i对应的词义向量的加权平均值表示所述目标单词w_i的词向量。可以采用如下公式进行计算：

其中，att(s)表示目标单词w_i中的一个词义向量的权值，s表示的是词义向量，S(w_i)表示目标单词w_i的词义向量集合、|S(w_i)|表示目标单词w_i的词义向量集合总值。

特定的一个词义向量的权值的计算公式为：

其中，att(s_j)表示目标单词w_i第j个词义向量的权值，w表示上下文单词的平均词向量，表示第j个词义向量的所有义原向量的平均值，k的取值范围是1～|S(w_i)|。

其中特定的一个的计算公式为：

其中，x是这个词义向量中的一个义原向量、X(s_j)是这个词义向量的所有义原向量集合、|X(s_j)|是这个词义向量的所有义原向量集合总值。

其中w的计算公式为：

其中，w_c表示前K个与后K个单词组成的上下文单词中的一个、C(w_i)表示前K个与后K个单词组成的上下文单词的集合、其中分母中的2K的具体数值需要根据上述实施例中目标单词w_i位于该句子中的句首、句尾等不同情况作相应的调整，以使分母数值等于上下文单词总个数。

或，

用与所述目标单词w_i对应的权重最大的词义向量表示所述目标单词w_i的词向量。

具体的，服务器用与所述目标单词w_i对应的权重最大的词义向量表示所述目标单词w_i的词向量。可以依次根据上述的公式：

计算每一个词义向量的权值，将其中权值最大的词义向量表示所述目标单词w_i的词向量。

本发明实施例提供的词向量学***均值或权重最大的词义向量表示目标单词的词向量，并训练表示后的词向量学习模型，考虑了上下文对于目标单词的影响，能够结合上下文的语义判断目标单词的语义。

在上述实施例的基础上，所述方法还包括：

在所述上下文单词的集合C(w_i)中选择一个上下文单词w_c，用与所述上下文单词w_c对应的词义向量的加权平均值表示所述上下文单词w_c的词向量。

具体的，服务器在所述上下文单词的集合C(w_i)中选择一个上下文单词w_c，用与所述上下文单词w_c对应的词义向量的加权平均值表示所述上下文单词w_c的词向量。可以采用如下公式进行计算：

其中，att(s)表示目标单词w_i的上下文单词w_c中的一个词义向量的权值，s表示的是词义向量，S(w_c)表示目标单词w_i的上下文单词w_c的词向量集合、|S(w_c)|表示目标单词w_i的上下文单词w_c的词义向量集合总值。

特定的一个词义向量的权值的计算公式为：

其中，att(s_j)表示目标单词w_i的上下文单词w_c中的第j个词义向量的权值，w_i表示上下文单词对应的目标单词，表示第j个词义向量的所有义原向量的平均值，k的取值范围是1～|S(w_c)|、|S(w_c)|表示目标单词w_i的上下文单词w_c的词向量集合总值。

其中特定的一个的计算公式为：

本发明实施例提供的词向量学***均值表示所述上下文单词的词向量，并训练表示后的词向量学习模型，能够充分地表达上下文单词的语义信息。

在上述实施例的基础上，所述方法还包括：

将所述目标单词w_i的前K′个与后K′个单词组成所述目标单词w_i的上下文单词，前K′个与后K′个单词组成的上下文单词的集合记为C′(w_i)，其中K′<K。

具体的，服务器将所述目标单词w_i的前K′个与后K′个单词组成所述目标单词w_i的上下文单词，前K′个与后K′个单词组成的上下文单词的集合记为C′(w_i)，其中K′<K。一般来说，选择最靠近目标单词w_i的几个上下文单词已经足够表示目标单词w_i的准确语义，使用更多的词反而可能引入更多误差，因此，可以选择更少的、距离更近的一些单词作为目标单词w_i上下文的单词。

具体的，服务器用所述目标单词w_i对应的词义向量的加权平均值表示所述目标单词w_i的词向量。需要说明的是：将计算w的公式变更如下：

具体步骤及说明可参照上述实施例，不再赘述。

本发明实施例提供的词向量学***均值表示上下文单词的词向量，并训练表示后的词向量学习模型，不仅考虑了上下文单词对于目标单词的影响，还能够更加准确表示目标单词的语义。

在上述实施例的基础上，所述将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，包括：

将由所述义原向量或词义向量表示的所述目标单词w_i代入公式：

中的w_i；

或，

将由所述词义向量表示的所述上下文单词w_c代入上述公式中的w_c；

或，

将由所述词义向量的加权平均值表示的目标单词w_i代入上述公式中的w_i；所述词义向量的加权平均值由公式或由公式进行计算；

其中，w_c是目标单词w_i的上下文单词、C(w_i)是前K个与后K个单词组成的目标单词w_i的上下文单词的集合、C‘(w_i)是前K′个与后K′个单词组成的目标单词w_i的上下文单词的集合、K′<K、W是训练样本文本中单词对应的词义向量和义原向量所在的原始词集，所述原始词集从知网中获取、w_i是目标单词、w′_i是包括所述目标单词w_i在内的所有目标单词集。

具体的，服务器将公式：

代入公式：

中的w_i；

或，

将公式：

或由公式：

计算出的权值最大的词义向量

代入公式：

中的w_c；

或，

其中，w_c是目标单词w_i的上下文单词、C(w_i)是前K个与后K个单词组成的目标单词w_i的上下文单词的集合、C‘(w_i)是前K′个与后K′个单词组成的目标单词w_i的上下文单词的集合、K′<K、W是训练样本文本中单词对应的词义向量和义原向量所在的原始词集，所述原始词集从知网中获取、该知网可以是上文中提及的知识库HowNet、w_i是目标单词、w′_i是包括所述目标单词w_i在内的所有目标单词集。

本发明实施例提供的词向量学习模型的训练方法，通过将由词义向量或义原向量表示的词向量代入词向量学习模型，进一步实现单词的语义信息表达的充分性。

图2为本发明实施例词向量学习模型的训练服务器结构示意图，如图2所示，本发明实施例提供了一种词向量学习模型的训练服务器，包括获取模块1、表示模块2和代入模块3，其中：

获取模块1用于获取训练样本文本中单词对应的词义向量和义原向量，表示模块2用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量，代入模块3用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

具体的，获取模块1用于获取训练样本文本中单词对应的词义向量和义原向量，获取模块1将词义向量和义原向量发送给表示模块2，表示模块2用于根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量，表示模块2将根据词义向量或义原向量表示的词向量代入模块3，代入模块3用于将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

本发明实施例提供的词向量学习模型的训练服务器，通过义原向量或词义向量表示词向量，并训练由词义向量或义原向量表示的词向量对应的词向量学习模型，使其能够充分地表达单词的语义信息。

在上述实施例的基础上，所述表示模块2具体用于：

在所述训练样本文本中选择一个句子中的一个单词作为目标单词w_i；用所述目标单词w_i对应的义原向量总和的平均值表示所述目标单词w_i的词向量。

具体的，所述表示模块2具体用于：

本发明实施例提供的词向量学习模型的服务器具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图3为本发明实施例提供的服务器实体结构示意图，如图3所示，所述服务器包括：处理器(processor)301、存储器(memory)302和总线303；

其中，所述处理器301、存储器302通过总线303完成相互间的通信；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取训练样本文本中单词对应的词义向量和义原向量；根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取训练样本文本中单词对应的词义向量和义原向量；根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取训练样本文本中单词对应的词义向量和义原向量；根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量；将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，并进行模型训练。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的服务器等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种词向量学习模型的训练方法，其特征在于，包括：

获取训练样本文本中单词对应的词义向量和义原向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量，包括：

在所述训练样本文本中选择一个句子中的一个单词作为目标单词w_i；

3.根据权利要求1所述的方法，其特征在于，所述根据所述词义向量或所述义原向量表示所述训练样本文本中的词向量，包括：

将所述目标单词w_i的前K个与后K个单词组成所述目标单词w_i的上下文单词，前K个与后K个单词组成的上下文单词的集合记为C(w_i)；

用所述目标单词w_i对应的词义向量的加权平均值表示所述目标单词w_i的词向量；

或，

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述目标单词w_i的前K′个与后K′个单词组成所述目标单词w_i的上下文单词，前K′个与后K′个单词组成的上下文单词的集合记为C′(w_i)，其中K′<K；

6.根据权利要求1至5任一所述的方法，其特征在于，所述将由所述词义向量或所述义原向量表示的词向量代入已有的词向量学习模型，包括：

<mrow> <munder> <mo>&Pi;</mo> <mrow> <msub> <mi>w</mi> <mi>c</mi> </msub> <mo>&Element;</mo> <mi>C</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mo>&CenterDot;</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>&Sigma;</mo> <mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>&Element;</mo> <mi>W</mi> </mrow> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>w</mi> <mi>c</mi> <mi>T</mi> </msubsup> <mo>&CenterDot;</mo> <msubsup> <mi>w</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

中的w_i；

或，

7.一种词向量学习模型的训练服务器，其特征在于，包括：

8.根据权利要求7所述的服务器，其特征在于，所述表示模块具体用于：

9.一种词向量学习模型的训练服务器，其特征在于，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。