CN111178046A - 一种基于排序的字向量训练方法 - Google Patents

一种基于排序的字向量训练方法 Download PDF

Info

Publication number
CN111178046A
CN111178046A CN201911305457.2A CN201911305457A CN111178046A CN 111178046 A CN111178046 A CN 111178046A CN 201911305457 A CN201911305457 A CN 201911305457A CN 111178046 A CN111178046 A CN 111178046A
Authority
CN
China
Prior art keywords
word
sentence
matrix
vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911305457.2A
Other languages
English (en)
Inventor
张伯政
吴军
樊昭磊
张述睿
张福鑫
李福友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Msunhealth Technology Group Co Ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN201911305457.2A priority Critical patent/CN111178046A/zh
Publication of CN111178046A publication Critical patent/CN111178046A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于排序的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。

Description

一种基于排序的字向量训练方法
技术领域
本发明涉及人工智能、机器学习、自然语言处理与文本数据挖掘技术领域,具体涉及一种基于排序的字向量训练方法。
背景技术
随着人工智能技术,机器学习技术在自然语言处理领域中的不断融合,越来越多的人工智能技术被应用在了自然语言处理领域。其中以word2vec、Elmo、GPT、BERT等为代表的,语言的表示学习方面的应用更是赢得业界交口称赞。
但是以上各种方法模型,都基于超大规模的语料数据集,对于有些特殊领域,比如古籍文献,尤其是中医学古籍文献,其语料数量并不大,且字义错综复杂,使用传统的语言表示学习方法效果都不理想。
其中以Elmo、GPT、BERT等为代表的方法,所需语料量大于亿字,在小语料环境下,由于其参数量过大,导致小语料环境中极易过学习。
以word2vec中skip-gram和CBOW为代表的方法,仅仅使用到了字与字之间是否构成上下文关系,而字与字之间的出现顺序并未考虑,且上下文语义信息未作利用,导致信息利用率低,在小语料中表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种语料信息利用率可以大幅提升,适合于小语料数据集的基于排序的字向量训练方法。
本发明克服其技术问题所采用的技术方案是:
一种基于排序的字向量训练方法,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为
Figure BDA0002319070780000011
集合中字数最多的句子的字数为Lmax
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为
Figure BDA0002319070780000021
将字向量集合中每个向量进行随机初始化;
d)对句子集合{S1,S2,S3,……,Sn}中的一句子的字的位置信息建立维度为d的向量集合
Figure BDA0002319070780000022
其中Pi为句子中第i个字的位置的向量;
e)通过公式
Figure BDA0002319070780000023
计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵
Figure BDA0002319070780000024
矩阵
Figure BDA0002319070780000025
为一个
Figure BDA0002319070780000031
行d列的矩阵,将矩阵代入公式
Figure BDA0002319070780000033
计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
g)将Q、K代入公式
Figure BDA0002319070780000034
计算出A的值,A为
Figure BDA0002319070780000035
Figure BDA0002319070780000036
列的矩阵,使用Aij表示该矩阵的第i行j列的值,根据公式
Figure BDA0002319070780000037
计算得到矩阵R,矩阵R与A大小相同;
h)将R和V的值代入公式Z=tanh(R×V×WL+B)计算出Z的值,Z为一个
Figure BDA0002319070780000038
Figure BDA0002319070780000039
列的方阵,式中WL为c行d列的参数矩阵,B为维度为d的参数向量;
i)通过公式
Figure BDA00023190707800000310
计算矩阵M的值,矩阵与Z方阵大小相同,式中Zij为方阵Z的第i行j列的值,通过公式Loss=-∑(M·I)得到最终的损失值Loss,式中I为
Figure BDA00023190707800000311
Figure BDA00023190707800000312
列的单位矩阵;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
优选的,步骤a)中语料数据集中所有的句子按句号进行断句。
优选的,步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
优选的,步骤c)中d取值为48。
优选的,步骤d)中d取值为48。
优选的,步骤e)中d取值为48。
优选的,步骤f)中c的取值为20。
本发明的有益效果是:本专利的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。
具体实施方式
下面对本发明做进一步说明。
一种基于排序的字向量训练方法,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为
Figure BDA0002319070780000041
集合中字数最多的句子的字数为Lmax
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为
Figure BDA0002319070780000051
将字向量集合中每个向量进行随机初始化;
d)对句子集合{S1,S2,S3,……,Sn}中的一句子的字的位置信息建立维度为d的向量集合
Figure BDA0002319070780000052
其中Pi为句子中第i个字的位置的向量;
e)通过公式
Figure BDA0002319070780000053
计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵
Figure BDA0002319070780000054
矩阵
Figure BDA0002319070780000055
为一个
Figure BDA0002319070780000061
行d列的矩阵,将矩阵
Figure BDA0002319070780000062
代入公式
Figure BDA0002319070780000063
计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
g)将Q、K代入公式
Figure BDA0002319070780000064
计算出A的值,A为
Figure BDA0002319070780000065
Figure BDA0002319070780000066
列的矩阵,使用Aij表示该矩阵的第i行j列的值,根据公式
Figure BDA0002319070780000067
计算得到矩阵R,矩阵R与A大小相同;
h)将R和V的值代入公式Z=tanh(R×V×WL+B)计算出Z的值,Z为一个
Figure BDA0002319070780000068
Figure BDA0002319070780000069
列的方阵,式中WL为c行d列的参数矩阵,B为维度为d的参数向量;
i)通过公式
Figure BDA00023190707800000610
计算矩阵M的值,矩阵与Z方阵大小相同,式中Zij为方阵Z的第i行j列的值,通过公式Loss=-∑(M·I)得到最终的损失值Loss,式中I为
Figure BDA00023190707800000611
Figure BDA00023190707800000612
列的单位矩阵;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
通过以上的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。
进一步的,步骤a)中语料数据集中所有的句子按句号进行断句。步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
优选的,步骤c)中d取值为48。步骤d)中d取值为48。步骤e)中d取值为48。步骤f)中c的取值为20。

Claims (7)

1.一种基于排序的字向量训练方法,其特征在于,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为
Figure FDA0002319070770000011
集合中字数最多的句子的字数为Lmax
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为
Figure FDA0002319070770000012
将字向量集合中每个向量进行随机初始化;
d)对句子集合{S1,S2,S3,……,Sn}中的一句子的字的位置信息建立维度为d的向量集合
Figure FDA0002319070770000013
其中Pi为句子中第i个字的位置的向量;
e)通过公式
Figure FDA0002319070770000021
计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵
Figure FDA0002319070770000022
矩阵
Figure FDA0002319070770000023
为一个
Figure FDA0002319070770000024
行d列的矩阵,将矩阵
Figure FDA0002319070770000025
代入公式
Figure FDA0002319070770000026
计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
g)将Q、K代入公式
Figure FDA0002319070770000027
计算出A的值,A为
Figure FDA0002319070770000028
Figure FDA0002319070770000029
列的矩阵,使用Aij表示该矩阵的第i行j列的值,根据公式
Figure FDA00023190707700000210
计算得到矩阵R,矩阵R与A大小相同;
h)将R和V的值代入公式Z=tanh(R×V×WL+B)计算出Z的值,Z为一个
Figure FDA00023190707700000211
Figure FDA00023190707700000212
列的方阵,式中WL为c行d列的参数矩阵,B为维度为d的参数向量;
i)通过公式
Figure FDA0002319070770000031
计算矩阵M的值,矩阵与Z方阵大小相同,式中Zij为方阵Z的第i行j列的值,通过公式Loss=-∑(M·I)得到最终的损失值Loss,式中I为
Figure FDA0002319070770000032
Figure FDA0002319070770000033
列的单位矩阵;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
2.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤a)中语料数据集中所有的句子按句号进行断句。
3.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
4.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤c)中d取值为48。
5.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤d)中d取值为48。
6.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤e)中d取值为48。
7.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤f)中c的取值为20。
CN201911305457.2A 2019-12-16 2019-12-16 一种基于排序的字向量训练方法 Pending CN111178046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911305457.2A CN111178046A (zh) 2019-12-16 2019-12-16 一种基于排序的字向量训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911305457.2A CN111178046A (zh) 2019-12-16 2019-12-16 一种基于排序的字向量训练方法

Publications (1)

Publication Number Publication Date
CN111178046A true CN111178046A (zh) 2020-05-19

Family

ID=70646488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911305457.2A Pending CN111178046A (zh) 2019-12-16 2019-12-16 一种基于排序的字向量训练方法

Country Status (1)

Country Link
CN (1) CN111178046A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测***
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
KR101938212B1 (ko) * 2018-05-29 2019-01-15 전남대학교산학협력단 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测***
CN108287820A (zh) * 2018-01-12 2018-07-17 北京神州泰岳软件股份有限公司 一种文本表示的生成方法及装置
KR101938212B1 (ko) * 2018-05-29 2019-01-15 전남대학교산학협력단 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI等: "Attention Is All You Need", 《HTTPS://ARXIV.ORG/ABS/1706.03762》 *
JACOB DEVLIN等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《HTTPS://ARXIV.ORG/ABS/1810.04805》 *
NXF_RABBIT75: "Transformer模型--encoder", 《HTTPS://WWW.CNBLOGS.COM/NXF-RABBIT75/P/11945130.HTML》 *

Similar Documents

Publication Publication Date Title
CN108268444B (zh) 一种基于双向lstm、cnn和crf的中文分词方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN110909549B (zh) 对古汉语进行断句的方法、装置以及存储介质
CN110781306B (zh) 一种英文文本的方面层情感分类方法及***
CN111581374A (zh) 文本的摘要获取方法、装置及电子设备
CN111914825B (zh) 文字识别方法、装置及电子设备
Adeeb et al. Arabic text steganography based on deep learning methods
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN114462385A (zh) 一种文本分段方法及装置
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN115908641A (zh) 一种基于特征的文本到图像生成方法、装置及介质
CN114153974A (zh) 一种基于胶囊网络的字符级文本分类方法
WO2022228127A1 (zh) 要素文本处理方法、装置、电子设备和存储介质
CN113806543B (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN114282555A (zh) 翻译模型训练方法及装置、翻译方法及装置
CN110619120B (zh) 语言模型的训练方法及装置
CN111523325A (zh) 一种基于笔画的中文命名实体识别方法
CN111984783A (zh) 文本生成模型的训练方法、文本生成方法及相关设备
CN111178046A (zh) 一种基于排序的字向量训练方法
CN111428509B (zh) 一种基于拉丁字母的维吾尔语处理方法和***
CN113377908B (zh) 基于可学习多单词对打分器的方面级情感三元组抽取方法
CN110705268B (zh) 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质
CN110852112B (zh) 词向量嵌入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519