CN109670171B - 一种基于词对非对称共现的词向量表示学习方法 - Google Patents

一种基于词对非对称共现的词向量表示学习方法 Download PDF

Info

Publication number
CN109670171B
CN109670171B CN201811413427.9A CN201811413427A CN109670171B CN 109670171 B CN109670171 B CN 109670171B CN 201811413427 A CN201811413427 A CN 201811413427A CN 109670171 B CN109670171 B CN 109670171B
Authority
CN
China
Prior art keywords
word
occurrence
vector representation
corpus
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811413427.9A
Other languages
English (en)
Other versions
CN109670171A (zh
Inventor
石隽锋
李济洪
王瑞波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Zhonghuida Technology Co.,Ltd.
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201811413427.9A priority Critical patent/CN109670171B/zh
Publication of CN109670171A publication Critical patent/CN109670171A/zh
Application granted granted Critical
Publication of CN109670171B publication Critical patent/CN109670171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然处理领域,具体是一种基于词对非对称共现的词向量表示学习方法。包括以下步骤。S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,S200~依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。本发明采用并行计算的方法同时以两种共现矩阵训练词向量,大幅减少了程序的运行时间。

Description

一种基于词对非对称共现的词向量表示学习方法
技术领域
本发明属于自然处理领域,具体是一种基于词对非对称共现的词向量表示学习方法。
背景技术
在自然处理领域,词在计算机内部的表示方法有很多,典型的有以下几种:
1)one-hot representation,这种方法应用于传统的基于规则的、统计的自然语言处理方法中。它把每个词都表示成一个向量,向量的长度为词表的大小,向量中只有一个维度的值为1,代表当前词,其余维度为0。这种表示不利于词的语义计算。
2)distributional representation,该方法表示的向量长度也是词表的大小,是通过从语料库中统计共现矩阵得到的,共现矩阵的每一行对应一个词,每一列也对应一个词,矩阵中的每个元素表示这两个词语在语料中共现的频次,矩阵中的每一行就是该词对应的词向量,这种表示改进了one-hot表示的词的语义信息,但是,由于词向量的维度非常高且稀疏,在进行词的语义计算的时候效果有限。
3)distributed representation,该表示是由distributional representation通过各种方法降维得到的低维的稠密向量,该表示克服了distributionalrepresentation的缺点,能较好地进行语义计算。
基于Glove模型的低维词表示方法是目前主要的表示学习方法之一,Glove模型其学习算法相对简单,效率高且易于实施。训练出的词向量在语义相似度任务和词语推断任务中有较好的表现。
Glove模型的详细描述参照以下文献:
Pennington J,Socher R,Manning C.Glove:Global Vectors for WordRepresentation[C]//Conference on Empirical Methods in Natural LanguageProcessing.2014:1532-1543.
Glove模型的主要步骤为:设定固定窗口的大小,对每个词(目标词)取它两边的固定窗口内的词语作为上下文,统计共现频次,生成共现矩阵,然后采用随机梯度下降法,训练得到每个词的向量表示。该模型虽然性能较好,但是,没有考虑词语的先后顺序,在统计目标词的共现矩阵时,对目标词左侧和右侧的词语没有区别对待,将目标词左侧和右侧的词语混在一起作为目标词的上下文,因此,由该共现矩阵训练出的词向量,精度有待进一步提高。
发明内容
本发明为了解决上述问题,提供一种基于词对非对称共现的词向量表示学习方法。
本发明采取以下技术方案:一种基于词对非对称共现的词向量表示学习方法,包括以下步骤。
S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数。
S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n。
Figure BDA0001876714380000021
矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号。用
Figure BDA0001876714380000022
Figure BDA0001876714380000023
表示ci、cj第k次共现时在语料中的位置。
Figure BDA0001876714380000024
Figure BDA0001876714380000031
统计左侧共现矩阵和右侧共现矩阵的过程如下:
S201~将矩阵XL和XR的每个值初始化为0;
S202~遍历语料库中的每个词,找到该词在词表中的序号i;
S203~遍历固定窗口内该词左侧共现的每一个词,找到该词在词表中的序号j,根据词i和词j的相对位置计算权值,累加到
Figure BDA0001876714380000032
中,同时,将该权值累加到
Figure BDA0001876714380000033
中;遍历结束生成左侧共现矩阵XL和右侧共现矩阵XR
S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。
训练VL的目标函数为:
Figure BDA0001876714380000034
其中
Figure BDA0001876714380000035
Figure BDA0001876714380000036
分别表示词ci和cj的左侧低维词向量表示,
Figure BDA0001876714380000037
Figure BDA0001876714380000038
Figure BDA0001876714380000039
Figure BDA00018767143800000310
对应的偏置项,
Figure BDA00018767143800000311
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权。
训练VR的目标函数为:
Figure BDA00018767143800000312
其中
Figure BDA00018767143800000313
Figure BDA00018767143800000314
分别表示词ci和cj的右侧低维词向量表示,
Figure BDA00018767143800000315
Figure BDA00018767143800000316
Figure BDA00018767143800000317
Figure BDA00018767143800000318
对应的偏置项,
Figure BDA00018767143800000319
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权。
Figure BDA00018767143800000320
Figure BDA00018767143800000321
的加权方法和Glove模型的相同,该函数如下。
Figure BDA0001876714380000041
与现有技术相比,本发明提出了新的开窗口的方式,即分别取目标词之前、之后的固定窗口内的词作上下文的方式,并将两种开窗口的方式训练出的词向量有效地融合在一起构成词的表示向量,提高了词向量的精度,在词语推断任务中,在公开的测试集上精度有明显提升,并且有利于并行计算。
本发明改进了Glove模型统计共现矩阵的方式。主要以下三个优点:
1.给出了词对共现的非对称方式统计方法,统计左侧共现矩阵和右侧共现矩阵。
2.给出了以两种共现矩阵训练出的向量的有效融合方式,可以得到比相同维度下的对称窗口下精度更高的词表示向量。
3.采用并行计算的方法同时以两种共现矩阵训练词向量,大幅减少了程序的运行时间。
附图说明
图1为本发明流程图。
图2为生成左侧共现矩阵和右侧共现矩阵的流程图。
具体实施方式
如图1欧式,一种基于词对非对称共现的词向量表示学习方法,包括以下步骤,
S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数。
S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n;
Figure BDA0001876714380000051
矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号,用
Figure BDA0001876714380000052
Figure BDA0001876714380000053
表示ci、cj第k次共现时在语料中的位置。
Figure BDA0001876714380000054
Figure BDA0001876714380000055
统计左侧共现矩阵和右侧共现矩阵的过程如下:
S201~将矩阵XL和XR的每个值初始化为0;
S202~遍历语料库中的每个词,找到该词在词表中的序号i;
S203~遍历固定窗口内该词左侧共现的每一个词,找到该词在词表中的序号j,根据词i和词j的相对位置计算权值,累加到
Figure BDA0001876714380000056
中,同时,将该权值累加到
Figure BDA0001876714380000057
中;遍历结束生成左侧共现矩阵XL和右侧共现矩阵XR
S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。
训练VL的目标函数为:
Figure BDA0001876714380000058
其中
Figure BDA0001876714380000059
Figure BDA00018767143800000510
分别表示词ci和cj的左侧低维词向量表示,
Figure BDA00018767143800000511
Figure BDA00018767143800000512
Figure BDA00018767143800000513
Figure BDA00018767143800000514
对应的偏置项,
Figure BDA00018767143800000515
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
训练VR的目标函数为:
Figure BDA0001876714380000061
其中
Figure BDA0001876714380000062
Figure BDA0001876714380000063
分别表示词ci和cj的右侧低维词向量表示,
Figure BDA0001876714380000064
Figure BDA0001876714380000065
Figure BDA0001876714380000066
Figure BDA0001876714380000067
对应的偏置项,
Figure BDA0001876714380000068
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
Figure BDA0001876714380000069
Figure BDA00018767143800000610
的加权方法和Glove模型的相同,该函数如下。
Figure BDA00018767143800000611
实施例:
1.选用English Wikipedia语料,将出现频次较多的100000个词语生成词表。
2.将固定窗口大小设置为10,分别将语料库中的每个词之前的十个词,之后的十个词进行统计,得到左侧共现矩阵、右侧共现矩阵,XL和XR
3.设置初始学习率为0.05,迭代次数为50,分别以XL和XR训练出300维左侧低维词向量表示VL和300维右侧低维词向量表示VR,将它们拼接在一起得到600维的低维词向量表示。
表1为本方法训练得到的词向量表示和Glove模型训练得到的词向量表示在基于语法的词语推断任务上的对比,Glove模型采用对称窗口,固定窗口大小设置为10,初始学习率设置为0.05,迭代次数为50,词向量维数为600维。从English Wikipedia语料分割出四个不同大小的语料,分别包含2亿、5亿、10亿、16亿个单词,文件大小分别为1.09GB、2.71GB、5.42GB、8.64GB。表格中的数据为本发明和Glove模型训练得到的600维词向量完成语法的词语推断任务的准确率对比。
表1本发明和Glove模型在基于语法的词语推断任务上的对比
Figure BDA0001876714380000071
实验结果表明,在不同大小的语料库上,本发明在该任务上的准确率均高于Glove模型,同时,在训练生成相同维数的词表示时,本发明采用并行处理技术,同时训练出VL和VR,再将它们拼接得到的词向量V=[VL,VR],VL和VR的维数是Glove模型训练得到词向量的一半,因此,训练时间可以大幅减少。

Claims (3)

1.一种基于词对非对称共现的词向量表示学习方法,其特征在于:包括以下步骤,
S100~从语料库统计出词表;从给定语料库统计每个词出现的次数,按照频次从高到低排序,ci表示第i个词,fi表示第i个词的频次,1≤i≤n,n为语料库中不同的词语个数;
S200~设定固定窗口大小为w,依次遍历语料库中的词语,统计出左侧共现矩阵和右侧共现矩阵,表示为XL和XR,两个矩阵的大小都为n×n;
Figure FDA0002958107690000011
矩阵的行为词表中的每个词的序号,列也为词表中的每个词的序号,用
Figure FDA0002958107690000012
Figure FDA0002958107690000013
表示ci、cj第k次共现时在语料中的位置;
Figure FDA0002958107690000014
Figure FDA0002958107690000015
S300~设置模型超参数,采用Glove模型的目标函数,分别用XL和XR训练出词语的左侧低维向量表示VL和右侧低维向量表示VR,将它们拼接在一起得到词语的低维向量表示V=[VL,VR]。
2.根据权利要求1所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S200中,统计左侧共现矩阵和右侧共现矩阵的过程如下:
S201~将矩阵XL和XR的每个值初始化为0;
S202~遍历语料库中的每个词,找到该词在词表中的序号i;
S203~遍历固定窗口内该词左侧共现的每一个词,找到该词在词表中的序号j,根据ci和cj的相对位置计算权值,累加到
Figure FDA0002958107690000016
中,同时,将该权值累加到
Figure FDA0002958107690000017
中;遍历结束生成左侧共现矩阵XL和右侧共现矩阵XR
3.根据权利要求2所述的基于词对非对称共现的词向量表示学习方法,其特征在于:所述步骤S300具体采取以下方法,
训练VL的目标函数为:
Figure FDA0002958107690000021
其中
Figure FDA0002958107690000022
Figure FDA0002958107690000023
分别表示词ci和cj的左侧低维词向量表示,
Figure FDA0002958107690000024
Figure FDA0002958107690000025
Figure FDA0002958107690000026
Figure FDA0002958107690000027
对应的偏置项,
Figure FDA0002958107690000028
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
训练VR的目标函数为:
Figure FDA0002958107690000029
其中
Figure FDA00029581076900000210
Figure FDA00029581076900000211
分别表示词ci和cj的右侧低维词向量表示,
Figure FDA00029581076900000212
Figure FDA00029581076900000213
Figure FDA00029581076900000214
Figure FDA00029581076900000215
对应的偏置项,
Figure FDA00029581076900000216
为加权函数,根据词对的共现频次对目标函数中的每一项进行加权;
Figure FDA00029581076900000217
Figure FDA00029581076900000218
的加权方法和Glove模型的相同,该函数如下:
Figure FDA00029581076900000219
CN201811413427.9A 2018-11-23 2018-11-23 一种基于词对非对称共现的词向量表示学习方法 Active CN109670171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811413427.9A CN109670171B (zh) 2018-11-23 2018-11-23 一种基于词对非对称共现的词向量表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811413427.9A CN109670171B (zh) 2018-11-23 2018-11-23 一种基于词对非对称共现的词向量表示学习方法

Publications (2)

Publication Number Publication Date
CN109670171A CN109670171A (zh) 2019-04-23
CN109670171B true CN109670171B (zh) 2021-05-14

Family

ID=66142590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811413427.9A Active CN109670171B (zh) 2018-11-23 2018-11-23 一种基于词对非对称共现的词向量表示学习方法

Country Status (1)

Country Link
CN (1) CN109670171B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781686B (zh) * 2019-10-30 2023-04-18 普信恒业科技发展(北京)有限公司 一种语句相似度计算方法、装置及计算机设备
CN111859910B (zh) * 2020-07-15 2022-03-18 山西大学 一种用于语义角色识别的融合位置信息的词特征表示方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682089A (zh) * 2016-11-26 2017-05-17 山东大学 一种基于RNNs的短信自动安全审核的方法
CN107577668A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于语义的社交媒体非规范词纠正方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779085B2 (en) * 2015-05-29 2017-10-03 Oracle International Corporation Multilingual embeddings for natural language processing
US9880999B2 (en) * 2015-07-03 2018-01-30 The University Of North Carolina At Charlotte Natural language relatedness tool using mined semantic analysis
CN105243083B (zh) * 2015-09-08 2018-09-07 百度在线网络技术(北京)有限公司 文档主题挖掘方法及装置
US20170161275A1 (en) * 2015-12-08 2017-06-08 Luminoso Technologies, Inc. System and method for incorporating new terms in a term-vector space from a semantic lexicon
US10019438B2 (en) * 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法
CN106844342B (zh) * 2017-01-12 2019-10-08 北京航空航天大学 基于增量学习的词向量生成方法和装置
US20180260381A1 (en) * 2017-03-09 2018-09-13 Xerox Corporation Prepositional phrase attachment over word embedding products
CN108460022A (zh) * 2018-03-20 2018-08-28 福州大学 一种文本Valence-Arousal情感强度预测方法及***
CN108399163B (zh) * 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN108829672A (zh) * 2018-06-05 2018-11-16 平安科技(深圳)有限公司 文本的情感分析方法、装置、计算机设备和存储介质
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682089A (zh) * 2016-11-26 2017-05-17 山东大学 一种基于RNNs的短信自动安全审核的方法
CN107577668A (zh) * 2017-09-15 2018-01-12 电子科技大学 基于语义的社交媒体非规范词纠正方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chinese sign language recognition based on gray-level co-occurrence matrix and other multi-features fusion;Yulong Li等;《2009 4th IEEE Conference on Industrial Electronics and Applications》;20090630;全文 *
Topic mover"s distance based document classification;Xinhui Wu等;《2017 IEEE 17th International Conference on Communication Technology (ICCT)》;20180517;全文 *
基于卷积神经网络的图文融合媒体情感预测;蔡国永等;《计算机应用》;20160210;第36卷(第2期);全文 *
采用循环神经网络的情感分析注意力模型;李松如等;《华侨大学学报(自然科学版)》;20180331;第39卷(第2期);全文 *

Also Published As

Publication number Publication date
CN109670171A (zh) 2019-04-23

Similar Documents

Publication Publication Date Title
CN110222349B (zh) 一种深度动态上下文词语表示的方法及计算机
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN107273355B (zh) 一种基于字词联合训练的中文词向量生成方法
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
CN107358948B (zh) 基于注意力模型的语言输入关联性检测方法
Chen et al. Strategies for training large vocabulary neural language models
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN106547737B (zh) 基于深度学习的自然语言处理中的序列标注方法
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
Huang et al. SNDCNN: Self-normalizing deep CNNs with scaled exponential linear units for speech recognition
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和***
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109271516B (zh) 一种知识图谱中实体类型分类方法及***
CN110826338A (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及***
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110489554B (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
CN109670171B (zh) 一种基于词对非对称共现的词向量表示学习方法
CN110858480B (zh) 一种基于n元文法神经网络语言模型的语音识别方法
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及***
CN110874392B (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN114254645A (zh) 一种人工智能辅助写作***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231011

Address after: Room 305, Yunlv Tianxia Maker Space, AB Podium Building, No. 529 South Zhonghuan Street, Xuefu Industrial Park, Shanxi Transformation and Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province, 030006

Patentee after: Shanxi Zhonghuida Technology Co.,Ltd.

Address before: 030006 No. 92, Hollywood Road, Taiyuan, Shanxi

Patentee before: SHANXI University