CN115640803A

CN115640803A - 词向量训练方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115640803A
Application number: CN202211066527.5A
Authority: CN
Inventors: 蒿杰; 许天赐; 孙亚强; 周怡; 赵美花; 胡胜杰
Original assignee: Xintiao Technology Guangzhou Co ltd; Guangdong Institute of Artificial Intelligence and Advanced Computing
Current assignee: Xintiao Technology Guangzhou Co ltd; Guangdong Institute of Artificial Intelligence and Advanced Computing
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2023-01-24

Abstract

本发明提供一种词向量训练方法、装置、设备及计算机可读存储介质，该方法包括：确定目标词文本对应的目标词频词典、词序词典以及仿生感受野；根据所述目标词频词典计算所述目标词文本中各词的词频逆序数；根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码；根据所述目标编码确定目标词向量。本发明通过确定仿生感受野，计算词频逆序数以及构建目标编码，训练得到适用于脉冲神经网络的目标词向量。

Description

词向量训练方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及脉冲神经网络与词向量训练领域，尤其涉及一种适用于脉冲神经网络的词向量训练方法、装置、设备及计算机可读存储介质。

背景技术

现有的脉冲神经网络模型多用于计算机视觉领域，诸如图像分类和目标检测等，并在这几类任务上达到了不错的效果。同时，也有部分学者提出了图像数据脉冲化、时序化的方法，而随着发展，视觉领域也已经有了适用于脉冲神经网络的、成熟的标准数据集。然而，在脉冲神经网络中本就具有时序特性的文本数据的研究成果甚少。其中一个主要的原因在于，在现有神经网络中，词嵌入由高维稠密的特征表示，而采用直接对词嵌入进行脉冲转换的方法则会极大地破坏词向量中包含的语义信息，因此，如何训练得到适用于脉冲神经网络的词向量成为了亟待解决的技术问题。

发明内容

本发明提供一种词向量训练方法、装置、设备及计算机可读存储介质，用以解决如何训练得到适用于脉冲神经网络的词向量的技术问题。

本发明提供一种词向量训练方法，包括：

确定目标词文本对应的目标词频词典、词序词典以及仿生感受野；

根据所述目标词频词典计算所述目标词文本中各词的词频逆序数；

根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码；

根据所述目标编码确定目标词向量。

根据本发明提供的一种词向量训练方法，所述确定目标词文本对应的目标词频词典、词序词典以及仿生感受野的步骤包括：

统计目标词文本中各词的出现次数，得到目标词频词典；

根据所述出现次数对所述目标词文本中各词进行排序，得到词序词典；

根据预设窗口大小确定所述目标词文本的仿生感受野。

根据本发明提供的一种词向量训练方法，所述根据所述目标词频词典计算所述目标词文本中各词的词频逆序数的步骤包括：

确定所述目标词文本以外的词文本对应的第一词频词典；

根据所述目标词频词典计算所述目标词文本中各词的第一重要指数；

根据所述第一词频词典计算所述目标词文本中各词的第二重要指数；

根据所述第一重要指数和所述第二重要指数，计算所述目标词文本中各词的词频逆序数。

根据本发明提供的一种词向量训练方法，目标编码包括目标独热编码，所述根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码的步骤包括：

根据所述仿生感受野中各词在所述词序词典中的位置，构建所述目标独热编码。

根据本发明提供的一种词向量训练方法，目标编码还包括行感应编码和词感应编码，所述根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码的步骤还包括：

根据所述仿生感受野中各词在所述词序词典中的位置以及所述仿生感受野中各词的词频逆序数，构建所述词感应编码；

根据所述仿生感受野中各词在所述词序词典中的位置以及预设行权重，构建所述行感应编码。

根据本发明提供的一种词向量训练方法，所述根据所述目标编码确定目标词向量的步骤包括：

将所述词感应编码和所述行感应编码进行点积得到所述仿生感受野中各词的感应权重；

将所述感应权重和所述目标独热编码输入预设神经元层，得到所述预设神经元层输出的目标词向量。

根据本发明提供的一种词向量训练方法，所述将所述感应权重和所述目标独热编码输入预设神经元层，得到所述预设神经元层输出的目标词向量的步骤包括：

将所述感应权重和所述目标独热编码输入预设神经元层，分别激发得到感应脉冲和认知脉冲；

将所述感应脉冲和所述认知脉冲进行叠加，得到目标词向量。

本发明还提供一种词向量训练装置，包括：

词典确定模块，用于确定目标词文本对应的目标词频词典、词序词典以及仿生感受野；

词频逆序数计算模块，用于根据所述目标词频词典计算所述目标词文本中各词的词频逆序数；

目标编码构建模块，用于根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码；

目标词向量确定模块，用于根据所述目标编码，确定目标词向量。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述词向量训练方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述词向量训练方法。

本发明提供的词向量训练方法、装置、设备及计算机可读存储介质，通过确定目标词文本对应的目标词频词典、词序词典以及仿生感受野，进而根据目标词频词典计算目标词文本中各个词的词频逆序数，然后根据词序词典、仿生感受野以及词频逆序数来构建目标编码，最后根据构建的目标编码确定仿生感受野对应的目标词向量，通过确定仿生感受野，计算词频逆序数以及构建目标编码，训练得到适用于脉冲神经网络的高维稀疏的目标词向量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的词向量训练方法的流程示意图之一；

图2是本发明提供的词向量训练方法中仿生感受野的示意图；

图3是本发明提供的词向量训练方法的流程示意图之二；

图4是本发明提供的词向量训练方法中编码构建示意图；

图5是本发明提供的词向量训练装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的词向量训练方法。

请参照图1，本发明提供一种词向量训练方法，包括：

步骤100，确定目标词文本对应的目标词频词典、词序词典以及仿生感受野；

具体地，对一个待处理文案进行分词处理得到包含多个词的词文本，即本实施例中的目标词文本。例如，待处理文案为“眉间尺刚和他的母亲睡下，老鼠便出来咬锅盖，使他听得发烦。他轻轻地叱了几声，最初还有些效验，后来是简直不理他了，格支格支地径自咬。他又不敢大声赶，怕惊醒了白天做得劳乏，晚上一躺就睡着了的母亲。许多时光之后，平静了”对上述待处理文案进行分词得到的目标词文本如图2所示。可以理解的是，上述待处理文案仅供参考，实际的待处理文案可包含成千上万个词。

本实施例中的目标词频词典包含每个词及每个词对应的词频，即每个词在目标词文本中出现的次数。根据每个词在目标词文本中出现的次数，按照出现次数大小进行排序即可得到本实施例中的词序词典，词序词典包含每个词及每个词对应的序号。当两个词在目标词文本中出现的次数相同时，这两个词的序号可随机确定，例如，两个词在目标词文本中出现的次数均为3，而在目标词文本中出现次数为3的词的序号范围为[500，1000]，则这两个词在[500，1000]的范围内随机确定序号。

如图2所示，模拟人在真实阅读文案时的行为，在限定每行词个数的基础上，将目标词文本由一个字符串序列转变为由多行字符串序列组成的二维结构。同时，指定阅读窗口大小，阅读窗口模拟人的阅读行为遍历文本序列，将这样的阅读窗口称为仿生感受野，本实施例以大小为3*5(即三行五列)的仿生感受野为例进行说明。

步骤200，根据所述目标词频词典计算所述目标词文本中各词的词频逆序数；

具体地，目标词频词典包含每个词在目标词文本中出现的次数，可以理解的是，某个词在目标词文本中出现的次数越多重要性越高，但是若该词在其他文案对应的词文本中出现的次数也很多，则说明该词只是常用词，在待处理文案中的重要性反而很低。

因此，首先根据目标词频词典统计目标词文本中各词的出现次数，以及目标词文本中各词在其他文案对应的词文本中出现的次数，若某个词在目标词文本中出现的次数很多，且在其他文案对应的词文本中出现的次数很少，则可以确定该词在待处理文案中的重要性很高，本实施例中的词频逆序数反映的就是每个词在待处理文案中的重要性，词频逆序数越大，则在待处理文案中的重要性越高。

步骤300，根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码；

具体地，本实施例中目标编码的码数与词序词典中的总序数相同，若目标词文本中的总词数为2000，则词序词典中的总序数以及目标编码的码数也为2000，仿生感受野中某个词的词频逆序数为0.73，该词在词序词典中的序数为183，则根据该词在词序词典中的序数以及该词的词频逆序数，确定目标编码中第183个码的码值为0.73，通过该方法可以构建仿生感受野对应的目标编码。

步骤400，根据所述目标编码确定目标词向量。

具体地，构建得到仿生感受野对应的目标编码后，将目标编码输入到神经元层中，将神经元层因此激发的脉冲进行叠加，得到词嵌入，即本实施例中的目标词向量。

本实施例通过确定目标词文本对应的目标词频词典、词序词典以及仿生感受野，进而根据目标词频词典计算目标词文本中各个词的词频逆序数，然后根据词序词典、仿生感受野以及词频逆序数来构建目标编码，最后根据构建的目标编码确定仿生感受野对应的目标词向量，通过确定仿生感受野，计算词频逆序数以及构建目标编码，训练得到适用于脉冲神经网络的高维稀疏的目标词向量。

在一个实施例中，本申请实施例提供的词向量训练方法，还可以包括：

步骤110，统计目标词文本中各词的出现次数，得到目标词频词典；

步骤120，根据所述出现次数对所述目标词文本中各词进行排序，得到词序词典；

步骤130，根据预设窗口大小确定所述目标词文本的仿生感受野。

具体地，目标词文本如图2所示，本实施例中的目标词频词典包含每个词及每个词对应的词频，即每个词在目标词文本中出现的次数。根据每个词在目标词文本中出现的次数，按照出现次数的大小进行排序即可得到本实施例中的词序词典，词序词典包含每个词及每个词对应的序号。当两个词在目标词文本中出现的次数相同时，这两个词的序号可随机确定，例如，两个词在目标词文本中出现的次数均为2，而在目标词文本中出现次数为2的词的序号范围为[600，1200]，则这两个词在[600，1200]的范围内随机确定序号。

如图2所示，模拟人在真实阅读文案时的行为，在限定每行词个数的基础上，将目标词文本由一个字符串序列转变为由多行字符串序列组成的二维结构。同时，指定阅读窗口大小，阅读窗口模拟人的阅读行为遍历文本序列，将这样的阅读窗口称为仿生感受野，本实施例以大小为3*5(三行五列，即本实施例中的预设窗口大小)的仿生感受野为例进行说明。

本实施例通过确定目标词文本对应的目标词频词典、词序词典以及仿生感受野，为后续训练得到适用于脉冲神经网络的目标词向量奠定了技术基础。

请参照图3，在一个实施例中，本申请实施例提供的词向量训练方法，还可以包括：

步骤210，确定所述目标词文本以外的词文本对应的第一词频词典；

步骤220，根据所述目标词频词典计算所述目标词文本中各词的第一重要指数；

步骤230，根据所述第一词频词典计算所述目标词文本中各词的第二重要指数；

步骤240，根据所述第一重要指数和所述第二重要指数，计算所述目标词文本中各词的词频逆序数。

具体地，根据上述实施例中确定目标词文本对应的目标词频词典的方法，进一步确定目标词文本以外的其他词文本对应的第一词频词典。根据目标词频词典计算目标词文本中各词的第一重要指数，目标词文本中各词在目标词文本中出现的次数越大，第一重要指数越大；根据第一词频词典计算目标词文本中各词的第二重要指数，目标词文本中各词在目标词文本以外的其他词文本中出现的次数越大，第二重要指数越小。

然后根据第一重要指数和第二重要指数，计算目标词文本中各词的词频逆序数，在第一重要指数越大且第二重要指数越小的情况下，词频逆序数越大，在第一重要指数越小且第二重要指数越大的情况下，词频逆序数越小。

本实施例通过第一词频词典和目标词频词典计算目标词文本中各词的重要指数，进而根据重要指数计算词频逆序数，为后续训练得到适用于脉冲神经网络的目标词向量奠定了技术基础。

在一个实施例中，目标编码包括目标独热编码，本申请实施例提供的词向量训练方法，还可以包括：

步骤310，根据所述仿生感受野中各词在所述词序词典中的位置，构建所述目标独热编码。

具体地，本实施例中的目标独热编码的码数与词序词典中的总序数相同，若目标词文本中的总词数为2000，则词序词典中的总序数以及目标独热编码的码数也为2000，仿生感受野中某个词的序数为183，则确定目标独热编码中第183个码的码值为1，通过上述方法确定仿生感受野中所有词的序数后，确定目标独热编码中与确定的序数对应的码值为1，目标独热编码中其余非1的码值为0，如图4所示，图4中的010…100即为目标独热编码。

本实施例通过仿生感受野中各词在词序词典中的位置，构建目标独热编码，为后续训练得到适用于脉冲神经网络的目标词向量奠定了技术基础。

在一个实施例中，目标编码还包括行感应编码和词感应编码，本申请实施例提供的词向量训练方法，还可以包括：

步骤320，根据所述仿生感受野中各词在所述词序词典中的位置以及所述仿生感受野中各词的词频逆序数，构建所述词感应编码；

步骤330，根据所述仿生感受野中各词在所述词序词典中的位置以及预设行权重，构建所述行感应编码。

具体地，本实施例中词感应编码的码数与词序词典中的总序数相同，若目标词文本中的总词数为1000，则词序词典中的总序数以及目标编码的码数也为1000，仿生感受野中某个词的词频逆序数为0.73，该词在词序词典中的序数(位置)为183，则根据该词在词序词典中的序数以及该词的词频逆序数，确定词感应编码中第183个码的码值为0.73，通过该方法可以构建仿生感受野对应的词感应编码。

考虑到人在阅读时，注意力虽然主要集中在所读行，但是受视野、记忆等多方面因素的影响，对所读行的上下两行也会有所注意，因此，确定仿生感受野的行权重(即本实施例中的预设行权重)如图4(右下角)所示，仿生感受野中某个词的行权重为0.67，该词在词序词典中的序数为642，则根据仿生感受野中各词在词序词典中的序号以及预设行权重，构建行感应编码。

本实施例通过构建词感应编码和行感应编码，为后续训练得到适用于脉冲神经网络的目标词向量奠定了技术基础。

步骤410，将所述词感应编码和所述行感应编码进行点积得到所述仿生感受野中各词的感应权重；

步骤420，将所述感应权重和所述目标独热编码输入预设神经元层，得到所述预设神经元层输出的目标词向量。

具体地，构建得到目标独热编码、词感应编码以及行感应编码后，将词感应编码和行感应编码进行点积得到仿生感受野中各词的感应权重，根据仿生感受野中各词在词序词典中的序号以及仿生感受野中各词的感应权重，构建得到如图4所示的编码0 0.21 0…0.09 0 0，然后将如图4所示的编码0 0.21 0…0.09 0 0以及目标独热编码输入到预设神经元层，得到预设神经元层输出的目标词向量。

本实施例通过将感应权重和目标独热编码输入到预设神经元层，得到适用于脉冲神经网络的高维稀疏的目标词向量。

步骤421，将所述感应权重和所述目标独热编码输入预设神经元层，分别激发得到感应脉冲和认知脉冲；

步骤422，将所述感应脉冲和所述认知脉冲进行叠加，得到目标词向量。

具体地，本实施例中的预设神经元层包括前神经元层和后神经元层，前神经元层由一个线性层和一个LIF(leaky integrate fire)神经单元构成，后神经元层与前神经元层结构相同，将图4所示的编码0 0.21 0…0.09 0 0以及目标独热编码依次输入到前神经元层中，在进入同一个LIF神经单元后将分别激发两个脉冲。由目标独热编码激发的脉冲为认知脉冲，而由图4所示的编码0 0.21 0…0.09 0 0激发的脉冲称为感应脉冲。将两个脉冲叠加作为前神经元层的输出，且前神经元层的输出为后神经元层的输入，得到后神经元层输出的词嵌入，即本实施例中的目标词向量。

本实施例通过将感应权重和目标独热编码输入到预设神经元层中，将激发得到的脉冲叠加得到适用于脉冲神经网络的高维稀疏的目标词向量。

下面对本发明提供的词向量训练装置进行描述，下文描述的词向量训练装置与上文描述的词向量训练方法可相互对应参照。

请参照图5，本发明还提供一种词向量训练装置，包括：

词典确定模块501，用于确定目标词文本对应的目标词频词典、词序词典以及仿生感受野；

词频逆序数计算模块502，用于根据所述目标词频词典计算所述目标词文本中各词的词频逆序数；

目标编码构建模块503，用于根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码；

目标词向量确定模块504，用于根据所述目标编码，确定目标词向量。

可选地，所述词典确定模块包括：

统计单元，用于统计目标词文本中各词的出现次数，得到目标词频词典；

排序单元，用于根据所述出现次数对所述目标词文本中各词进行排序，得到词序词典；

仿生感受野确定单元，用于根据预设窗口大小确定所述目标词文本的仿生感受野。

可选地，所述词频逆序数计算模块包括：

第一词频词典确定单元，用于确定所述目标词文本以外的词文本对应的第一词频词典；

第一重要指数计算单元，用于根据所述目标词频词典计算所述目标词文本中各词的第一重要指数；

第二重要指数计算单元，用于根据所述第一词频词典计算所述目标词文本中各词的第二重要指数；

词频逆序数计算单元，用于根据所述第一重要指数和所述第二重要指数，计算所述目标词文本中各词的词频逆序数。

可选地，目标编码包括目标独热编码，所述目标编码构建模块包括：

目标独热编码构建单元，用于根据所述仿生感受野中各词在所述词序词典中的位置，构建所述目标独热编码。

可选地，目标编码还包括行感应编码和词感应编码，所述目标编码构建模块还包括：

词感应编码构建单元，用于根据所述仿生感受野中各词在所述词序词典中的位置以及所述仿生感受野中各词的词频逆序数，构建所述词感应编码；

行感应编码构建单元，用于根据所述仿生感受野中各词在所述词序词典中的位置以及预设行权重，构建所述行感应编码。

可选地，所述目标词向量确定模块包括：

编码点积单元，用于将所述词感应编码和所述行感应编码进行点积得到所述仿生感受野中各词的感应权重；

目标词向量确定单元，用于将所述感应权重和所述目标独热编码输入预设神经元层，得到所述预设神经元层输出的目标词向量。

可选地，所述目标词向量确定单元包括：

脉冲激发单元，用于将所述感应权重和所述目标独热编码输入预设神经元层，分别激发得到感应脉冲和认知脉冲；

脉冲叠加单元，用于将所述感应脉冲和所述认知脉冲进行叠加，得到目标词向量。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行词向量训练方法。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的词向量训练方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种词向量训练方法，其特征在于，所述词向量训练方法包括：

根据所述目标编码确定目标词向量。

2.根据权利要求1所述的词向量训练方法，其特征在于，所述确定目标词文本对应的目标词频词典、词序词典以及仿生感受野的步骤包括：

统计目标词文本中各词的出现次数，得到目标词频词典；

根据预设窗口大小确定所述目标词文本的仿生感受野。

3.根据权利要求2所述的词向量训练方法，其特征在于，所述根据所述目标词频词典计算所述目标词文本中各词的词频逆序数的步骤包括：

确定所述目标词文本以外的词文本对应的第一词频词典；

4.根据权利要求1所述的词向量训练方法，其特征在于，目标编码包括目标独热编码，所述根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码的步骤包括：

5.根据权利要求4所述的词向量训练方法，其特征在于，目标编码还包括行感应编码和词感应编码，所述根据所述词序词典、所述仿生感受野以及所述词频逆序数构建目标编码的步骤还包括：

6.根据权利要求5所述的词向量训练方法，其特征在于，所述根据所述目标编码确定目标词向量的步骤包括：

7.根据权利要求6所述的词向量训练方法，其特征在于，所述将所述感应权重和所述目标独热编码输入预设神经元层，得到所述预设神经元层输出的目标词向量的步骤包括：

8.一种词向量训练装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述词向量训练方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述词向量训练方法。