CN111178046A - 一种基于排序的字向量训练方法 - Google Patents
一种基于排序的字向量训练方法 Download PDFInfo
- Publication number
- CN111178046A CN111178046A CN201911305457.2A CN201911305457A CN111178046A CN 111178046 A CN111178046 A CN 111178046A CN 201911305457 A CN201911305457 A CN 201911305457A CN 111178046 A CN111178046 A CN 111178046A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- matrix
- vector
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
一种基于排序的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。
Description
技术领域
本发明涉及人工智能、机器学习、自然语言处理与文本数据挖掘技术领域,具体涉及一种基于排序的字向量训练方法。
背景技术
随着人工智能技术,机器学习技术在自然语言处理领域中的不断融合,越来越多的人工智能技术被应用在了自然语言处理领域。其中以word2vec、Elmo、GPT、BERT等为代表的,语言的表示学习方面的应用更是赢得业界交口称赞。
但是以上各种方法模型,都基于超大规模的语料数据集,对于有些特殊领域,比如古籍文献,尤其是中医学古籍文献,其语料数量并不大,且字义错综复杂,使用传统的语言表示学习方法效果都不理想。
其中以Elmo、GPT、BERT等为代表的方法,所需语料量大于亿字,在小语料环境下,由于其参数量过大,导致小语料环境中极易过学习。
以word2vec中skip-gram和CBOW为代表的方法,仅仅使用到了字与字之间是否构成上下文关系,而字与字之间的出现顺序并未考虑,且上下文语义信息未作利用,导致信息利用率低,在小语料中表现不佳。
发明内容
本发明为了克服以上技术的不足,提供了一种语料信息利用率可以大幅提升,适合于小语料数据集的基于排序的字向量训练方法。
本发明克服其技术问题所采用的技术方案是:
一种基于排序的字向量训练方法,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为集合中字数最多的句子的字数为Lmax;
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij;
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为将字向量集合中每个向量进行随机初始化;
e)通过公式计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵矩阵为一个行d列的矩阵,将矩阵代入公式计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
优选的,步骤a)中语料数据集中所有的句子按句号进行断句。
优选的,步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
优选的,步骤c)中d取值为48。
优选的,步骤d)中d取值为48。
优选的,步骤e)中d取值为48。
优选的,步骤f)中c的取值为20。
本发明的有益效果是:本专利的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。
具体实施方式
下面对本发明做进一步说明。
一种基于排序的字向量训练方法,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为集合中字数最多的句子的字数为Lmax;
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij;
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为将字向量集合中每个向量进行随机初始化;
e)通过公式计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵矩阵为一个行d列的矩阵,将矩阵代入公式计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
通过以上的字向量训练方法,相比较现有的Elmo、GPT、BERT等方法,大大缩减了参数量,减少了模型过拟合的可能性,使得模型在小语料数据集上可用度大大提升。而相比较现有的word2vec方法,不仅仅利用到了语料中字与字之间的上下文关系,且利用到了每个字的相对位置关系,利用到了整句的语义理解关系。语料的信息利用率大幅提升,更适合于小语料数据集。
进一步的,步骤a)中语料数据集中所有的句子按句号进行断句。步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
优选的,步骤c)中d取值为48。步骤d)中d取值为48。步骤e)中d取值为48。步骤f)中c的取值为20。
Claims (7)
1.一种基于排序的字向量训练方法,其特征在于,包括如下步骤:
a)给定语料数据集,将语料数据集中所有的句子进行断句,将断句后的n个句子组成集合{S1,S2,S3,……,Sn},其中Si表示句子集合中的第i个句子,1≤i≤n,第i个句子对应的长度为集合中字数最多的句子的字数为Lmax;
b)将句子集合{S1,S2,S3,……,Sn}中出现的字进行编码并建立出现的字与编码对应的字典,将句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字的编码表示为Sij;
c)对字典中的每个字建立字的维度为d的向量,其中d为正整数,将不在字典中的字归为一个维度为d的向量,将字典中的每个字建立字的维度为d的向量和不在字典中的字归为一个维度为d的向量表示为字向量集合{E0,E1,E2,E3,……,Em},其中E0为不在字典中的字的向量,当i≠0时Ei为字典中编码为i的字的向量,m为字典中字的数量,句子集合{S1,S2,S3,……,Sn}中第i个句子的第j个字对应的向量为将字向量集合中每个向量进行随机初始化;
e)通过公式计算位置向量集合,其中d为维度,P(i,2k)为位置向量集合中第i个字的位置的第2k维的值,P(i,2k+1)为位置向量集合中第i个字的位置的第2k+1维的值,k为非负整数,max(2k,2k+1)=d;
f)在句子集合{S1,S2,S3,……,Sn}中随机抽出一个使用字典编码好的句子Si,将该句子中每个字对应的向量组成集合并连接成矩阵矩阵为一个行d列的矩阵,将矩阵代入公式计算出Q、K、V的值,其中WQ、WK、WV为d行c列的参数矩阵,c为正整数;
j)使用优化算法以最小化Loss值为目标,优化步骤c)中的字向量集合{E0,E1,E2,E3,……,Em}、优化步骤f)中的WQ、WK、WV以及优化步骤h)中的WL和B;
k)如果优化达到预计目的则停止优化,优化后的{E0,E1,E2,E3,……,Em}为最终要求得到的字向量集合,如果没有达到预计目的则跳转至步骤f)。
2.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤a)中语料数据集中所有的句子按句号进行断句。
3.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤b)中句子集合{S1,S2,S3,……,Sn}中出现的字使用连续的正整数进行编码,将句子集合中出现的字与正整数编码对应后建立字典,将出现的字输入字典后如果字存在于字典当中,则输出该字对应的正整数编码,如果字不存在在字典当中,则输出0。
4.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤c)中d取值为48。
5.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤d)中d取值为48。
6.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤e)中d取值为48。
7.根据权利要求1所述的基于排序的字向量训练方法,其特征在于:步骤f)中c的取值为20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305457.2A CN111178046A (zh) | 2019-12-16 | 2019-12-16 | 一种基于排序的字向量训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305457.2A CN111178046A (zh) | 2019-12-16 | 2019-12-16 | 一种基于排序的字向量训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178046A true CN111178046A (zh) | 2020-05-19 |
Family
ID=70646488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911305457.2A Pending CN111178046A (zh) | 2019-12-16 | 2019-12-16 | 一种基于排序的字向量训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178046A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227721A (zh) * | 2016-08-08 | 2016-12-14 | 中国科学院自动化研究所 | 汉语韵律层级结构预测*** |
CN108287820A (zh) * | 2018-01-12 | 2018-07-17 | 北京神州泰岳软件股份有限公司 | 一种文本表示的生成方法及装置 |
KR101938212B1 (ko) * | 2018-05-29 | 2019-01-15 | 전남대학교산학협력단 | 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
-
2019
- 2019-12-16 CN CN201911305457.2A patent/CN111178046A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227721A (zh) * | 2016-08-08 | 2016-12-14 | 中国科学院自动化研究所 | 汉语韵律层级结构预测*** |
CN108287820A (zh) * | 2018-01-12 | 2018-07-17 | 北京神州泰岳软件股份有限公司 | 一种文本表示的生成方法及装置 |
KR101938212B1 (ko) * | 2018-05-29 | 2019-01-15 | 전남대학교산학협력단 | 의미와 문맥을 고려한 주제기반 문서 자동 분류 시스템 |
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
Non-Patent Citations (3)
Title |
---|
ASHISH VASWANI等: "Attention Is All You Need", 《HTTPS://ARXIV.ORG/ABS/1706.03762》 * |
JACOB DEVLIN等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《HTTPS://ARXIV.ORG/ABS/1810.04805》 * |
NXF_RABBIT75: "Transformer模型--encoder", 《HTTPS://WWW.CNBLOGS.COM/NXF-RABBIT75/P/11945130.HTML》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268444B (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN110909549B (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN110781306B (zh) | 一种英文文本的方面层情感分类方法及*** | |
CN111581374A (zh) | 文本的摘要获取方法、装置及电子设备 | |
CN111914825B (zh) | 文字识别方法、装置及电子设备 | |
Adeeb et al. | Arabic text steganography based on deep learning methods | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN114462385A (zh) | 一种文本分段方法及装置 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN115908641A (zh) | 一种基于特征的文本到图像生成方法、装置及介质 | |
CN114153974A (zh) | 一种基于胶囊网络的字符级文本分类方法 | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN113806543B (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN114282555A (zh) | 翻译模型训练方法及装置、翻译方法及装置 | |
CN110619120B (zh) | 语言模型的训练方法及装置 | |
CN111523325A (zh) | 一种基于笔画的中文命名实体识别方法 | |
CN111984783A (zh) | 文本生成模型的训练方法、文本生成方法及相关设备 | |
CN111178046A (zh) | 一种基于排序的字向量训练方法 | |
CN111428509B (zh) | 一种基于拉丁字母的维吾尔语处理方法和*** | |
CN113377908B (zh) | 基于可学习多单词对打分器的方面级情感三元组抽取方法 | |
CN110705268B (zh) | 基于人工智能的文章主旨提取方法、装置及计算机可读存储介质 | |
CN110852112B (zh) | 词向量嵌入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |