CN111026848B

CN111026848B - 一种基于相似上下文和强化学习的中文词向量生成方法

Info

Publication number: CN111026848B
Application number: CN201911301344.5A
Authority: CN
Inventors: 杨尚明; 张云; 刘勇国; 李巧勤
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2022-08-02
Anticipated expiration: 2039-12-17
Also published as: CN111026848A

Abstract

本发明公开了一种基于相似上下文和强化学习的中文词向量生成方法，解决了现有的中文词向量生成方法都是考虑基于目标词的相邻上下文和目标词的关系来进行预测的，没有考虑到在中文中有些单词虽然相邻，但是语义不相关的情况，且词向量的表示质量不高问题。本发明方法包括：选取语料库，进行语料库预处理，从而构建中文语料库；对中文目标词进行相似上下文发现，获得与中文目标词的语义相关的相似上下文；构建中文词向量强化学习框架，并进行强化学习，得到中文目标词的词向量表示。本发明能够解决中文相邻词不相关的问题，生成高质量的中文词向量。

Description

一种基于相似上下文和强化学习的中文词向量生成方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于相似上下文和强化学习的中文词向量生成方法。

背景技术

自然语言处理是计算机科学与人工智能领域中的一个重要方向。目前自然语言处理任务有机器翻译、情感分析、文本摘要、文本分类和信息抽取等。在自然语言处理任务中，首先第一步，需要考虑如何让计算机能够表示自然语言。计算机是无法直接表示自然语言的，因此，我们需要设计一种方法把自然语言数学化，让计算机能够进行处理，这就是词向量。词向量就是将自然语言表示为包含语义的实数向量。具体来说，就是将单词映射到向量空间里，并用向量来表示。一般而言，词向量的质量越高，其包含的语义信息就越丰富和精确，也更容易让计算机理解自然语言中的语义，也可以从根本上提高自然语言处理任务的处理结果。所以如何生成高质量的词向量是自然语言处理的基础和重要的研究。

目前关于词向量的研究主要有两个方向：第一，通用词向量方法：适用于各种语言的方法，如中文、英文、日文等，在多种语言上都可以将单词表示为词向量。该类方法又有两种分类，一种是将单词表示为向量空间的一个点向量，一种是将单词表示为高斯分布。第二，特定语言词向量方法：只适用于特定语言的方法，只能将某种语言的单词表示为词向量，其考虑了特定语言的各种细粒度特征，如中文的部首、笔画和拼音等特征，英文的字母、前后缀等。中国专利“CN107273355A一种基于字词联合训练的中文词向量生成方法”提供了一种中文词向量方法。此专利将词语中的字信息作为重要特征，结合上下文词和字，联合训练中文的词向量表示。在基于词本身的词向量模型的基础上，通过引入词的组成汉字信息，在基于上下文词预测目标词的同时，基于上下文字预测目标词。中国专利“CN109815476A一种基于中文语素和拼音联合统计的词向量表示方法”提供了一种中文词向量生成方法。此专利利用汉字的语素和拼音特征，基于上下文词语的语素和拼音联合特征，训练一个三层神经网络预测中心目标词，然后生成词向量。

上述现有方法为词向量的研究，特别是中文词向量的研究奠定了基础，但存在如下缺点：第一，通用词向量方法由于适用于大多数语言，没有考虑特定语言特征，其泛化性强，但准确度较低，不能很好地提高后续自然语言处理任务的精度。第二，中文词向量方法单纯地增加中文特征，而没有改进神经网络基础架构，其准确率不能进一步提高。同时，上述研究方法都是考虑基于目标词的相邻上下文和目标词的关系来进行预测的，没有考虑到在中文中有些单词虽然相邻，但是语义不相关的情况。现有词向量生成方法都是基于词语的相邻上下文的特征预测单词，同时只使用了简单的神经网络架构，没有改进神经网络，不能更好地获得高质量的中文词向量。

发明内容

本发明所要解决的技术问题是现有的中文词向量生成方法都是考虑基于目标词的相邻上下文和目标词的关系来进行预测的，没有考虑到在中文中有些单词虽然相邻，但是语义不相关的情况，且词向量的表示质量不高的问题。本发明提供了解决上述问题的一种基于相似上下文和强化学习的中文词向量生成方法，通过自适应地选择目标词的相似上下文，同时提出中文词向量强化学习框架，与语料库交互并获得反馈，自动学习语料库词语之间的关系，并寻找相似上下文，减小语料库规模，基于相似上下文预测目标词，进而生成中文词向量，避免中文相邻上下文的语义不相关性，增强学习架构性能，减少训练时间，提高中文词向量质量。

本发明通过下述技术方案实现：

一种基于相似上下文和强化学习的中文词向量生成方法，该方法包括：

选取语料库，进行语料库预处理，从而构建中文语料库；

对中文目标词进行相似上下文发现，获得与中文目标词的语义相关的相似上下文；

构建中文词向量强化学习框架，并进行强化学习，得到中文目标词的词向量表示。

本发明通过自适应地选择中文目标词的相似上下文，同时提出中文词向量强化学习框架，与语料库交互并获得反馈，自动学习语料库词语之间的关系，并寻找相似上下文，减小语料库规模，基于相似上下文预测目标词，进而生成中文词向量，避免中文相邻上下文的语义不相关性，增强学习架构性能，减少训练时间，提高中文词向量质量。本发明能够解决中文相邻词不相关的问题，生成高质量的中文词向量。

进一步地，所述语料库预处理包括：对下载的互联网文本进行简繁体转化，去除乱码、英文和标点，中文分词。

进一步地，对中文目标词进行相似上下文发现，包括对中文目标词进行相似上文发现，在中文目标词w_t的历史词汇中寻找和w_t相似的词语，其中，w_t的历史词汇代表在w_t附近，同时也在w_t左边的词，t表示中文目标词的下标，具体步骤如下：

①确定上文窗口大小c；

②计算自适应相似阈值T，其等于中文目标词w_t和范围[w_t-c,w_t+c]内所有词相似性的平均值；

③针对范围[w_t-c,0)内的词w_i，如果和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似上文，相似上文词语数量n₁加1；

④如果n₁＜c，则向左扩展寻找范围，增加c个词语，即在范围[w_t-2c,w_t-c]内寻找相似上文，此时需要更新自适应相似阈值T，其等于中文目标词w_t和范围[w_t-2c,w_t+2c]内所有词相似性的平均值，如果范围内的词和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似上文，相似上文词语数量n₁加1；

⑤一直向左寻找，每次增加c个词并更新自适应阈值T，迭代寻找，直到相似上文词语数量等于c为止。

进一步地，对中文目标词进行相似上下文发现，还包括对中文目标词进行相似下文发现，在中文目标词w_t的未来词汇中寻找和w_t相似的词语，其中，w_t的未来词汇代表在w_t附近，同时也在w_t右边的词，t表示中文目标词的下标，具体步骤如下：

①首先确定下文窗口大小c，其中，下文窗口和上文窗口大小一样大；

③针对范围(0,w_t+c]内的词w_j，如果和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似下文，相似下文词语数量n₂加1；

④如果n₂＜c，则向右扩展寻找范围，增加c个词语，即在范围[w_t+c,w_t+2c]内寻找相似下文，此时需要更新自适应相似阈值T，其等于中文目标词w_t和范围[w_t-2c,w_t+2c]内所有词相似性的平均值，如果范围内的词和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似下文，相似下文词语数量n₂加1；

⑤一直向右寻找，每次增加c个词语并更新自适应阈值T，迭代寻找相似下文，直到相似下文词语数量等于c为止。

进一步地，所述词相似性通过相似度来表示词语语义的相似程度，其中，相似度s(w_i,w_j)的计算公式如下：

式中，w_i和w_j表示中文语料库中的两个词语；

和

表示w_i和w_j的初始词向量；s(w_i,w_j)表示词语间的相似度；i和j表示词的下标；||表示词向量的模长。

进一步地，所述构建中文词向量强化学习框架并进行强化学习过程中：将语料库定义为环境Environment，中文目标词w_t和其相似上下文SC_t定义为状态State，拥有CBOW和SG两种行为的分类器定义为代理Agent；当代理处于环境的一个状态时，其采取一个行为Action，然后环境根据这个行为给出一个回报Reward，代理通过回报判断目前行为的好坏，进行学习，然后在下一个状态采取更好的行为；当代理处理不同状态时，上述过程不断迭代，直到达到设置的最大迭代次数为止，强化学习完成，最后生成中文词向量。

进一步地，所述构建中文词向量强化学习框架并进行强化学习，具体包括如下步骤：

①初始化一个代理π_θ，其参数为θ；

②设置学习率η和最大迭代次数T_max，输入中文语料库E；

③让代理π_θ和环境E进行交互，采样获得N个轨迹片段τ_s＝{τ¹,…,τⁿ,…,τ^N}；

④计算每段轨迹总的回报，计算公式如下：

式中，R(τⁿ)表示第n段轨迹总的回报，τⁿ表示第n段轨迹，

表示第n段轨迹中第t个状态采取某种行为后的回报，t表示第t个状态，|E|表示中文语料库中单词的总数；

⑤计算N段轨迹总回报的期望

式中，

表示N段轨迹总的回报的期望，N表示轨迹的总数，R(τⁿ)表示第n段轨迹总的回报，τⁿ表示第n段轨迹，

表示第n段轨迹中第t个状态采取行为后的回报，t表示第t个状态，|E|表示中文语料库中单词的总数；

⑥计算N段轨迹总回报的期望的梯度

式中，

表示N段轨迹总回报的期望的梯度，N表示轨迹的总数，R(τⁿ)表示N段轨迹总的回报，τⁿ表示第n段轨迹，t表示第t个状态，|E|表示中文语料库中单词的总数，

表示代理π_θ在参数θ的前提下，获得第n段轨迹的概率的梯度，

表示代理π_θ在第n段轨迹的第t个状态下采取的行为，可以为a_cbow(CBOW行为)或者a_sg(SG行为)，

表示第n段轨迹的第t个状态，w_t表示中文目标词，SC_t表示中文目标词的相似上下文，w_i表示相似上下文中的单词，c表示相似上文窗口大小；

⑦更新参数θ

式中，θ表示代理π_θ的参数，

表示N段轨迹总回报的期望的梯度，η表示学习率；

⑧迭代次数加1，如果达到最大迭代次数则停止，输出中文词向量，否则返回②继续迭代训练。

进一步地，CBOW行为基于中文目标词的相似上下文预测目标词，SG行为基于中文目标词预测其相似上下文，其中，CBOW行为、SG行为均为三层神经网络。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明一种基于相似上下文和强化学习的中文词向量生成方法，利用词语之间的相似度，计算相似上下文，代替传统的相邻上下文，避免中文相邻不相关的词语，增加了上下文的语义相关性；

2、本发明一种基于相似上下文和强化学习的中文词向量生成方法，利用强化学习生成中文词向量，可以在各个大小的语料库上生成质量优秀的中文词向量；

3、本发明一种基于相似上下文和强化学习的中文词向量生成方法，本发明训练好的强化学习代理，可以直接应用在新的语料库生成中文词向量，减少了训练时间；

4、本发明一种基于相似上下文和强化学习的中文词向量生成方法，该方法适用范围广，只要给出语料库，就可以进行后续的中文词向量生成；本发明适用于自然语言处理技术领域。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明一种基于相似上下文和强化学习的中文词向量生成方法的总体流程图。

图2是本发明相似上下文发现示意图。

图3是本发明相似上文发现的流程图。

图4是本发明相似下文发现的流程图。

图5是本发明强化学习的模型图。

图6是本发明强化学习的具体流程图。

图7是本发明的类比任务在不同语料大小的扩展性实验结果图。

图8是本发明的相似任务在不同语料大小的扩展性实验结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

如图1至8所示，本发明一种基于相似上下文和强化学习的中文词向量生成方法，该方法包括：

选取语料库，进行语料库预处理，从而构建中文语料库；

本发明总体流程如图1所示，具体实施步骤如下：

步骤1、语料库构建：选取语料库，进行语料库预处理，从而构建中文语料库；

1.1、语料库预处理：将下载的互联网文本利用opencc工具包进行简繁体转换，利用正则表达式去除乱码，英文和标点，利用jieba分词进行中文分词，对文本进行预处理；

1.2、将最后的结果进行存储，构建中文语料库。

步骤2、相似上下文发现：对中文目标词进行相似上下文发现，获得与中文目标词的语义相关的相似上下文；

2.1、词语相似性计算

通过分配所有词一个初始词向量，计算词语之间的相似度s(w_i,w_j)，以表示词语语义的相似程度：

式中，w_i和w_j表示中文语料库中的两个词语；

和

2.2、词语相似上文发现

在中文目标词w_t的历史词汇中寻找和w_t相似的词语，其中，w_t的历史词汇代表在w_t附近，同时也在w_t左边的词，t表示中文目标词的下标，示意图如图2，流程图如图3，具体步骤如下：

①确定上文窗口大小c，也就是针对每个词，需要在上文中寻找多少个语义相似的词(下文窗口和上文窗口大小一样大，即都为c)；

⑤一直向左寻找，每次增加c个词并更新自适应阈值T，迭代寻找，直到相似上文词语数量等于c为止(如果找到语料库边界仍然不够c个词，则停止迭代，以目前的相似上文词语数量为准)。

2.3、词语相似下文发现

在中文目标词w_t的未来词汇中寻找和w_t相似的词语，其中，w_t的未来词汇代表在w_t附近，同时也在w_t右边的词，t表示中文目标词的下标，示意图如图2，流程图如图4，具体步骤如下：

①首先确定下文窗口大小c，也就是针对每个词，需要在下文中寻找多少个语义相似的词语；其中，下文窗口和上文窗口大小一样大；

⑤一直向右寻找，每次增加c个词语并更新自适应阈值T，迭代寻找相似下文，直到相似下文词语数量等于c为止(如果找到语料库边界仍然不够c个词，则停止迭代，以目前的相似下文词语数量为准)。

步骤3、强化学习：构建中文词向量强化学习框架，并进行强化学习，得到中文目标词的词向量表示。

3.1、基础定义

针对中文词向量生成，本发明提出了一个强化学习框架，如图5所示，将语料库定义为环境(Environment)，中文目标词w_t和其相似上下文SC_t定义为状态(State)，拥有CBOW和SG两种行为的分类器定义为代理(Agent)。强化学习过程如下：当代理处于环境的一个状态时，其采取一个行为(Action)，然后环境根据这个行为给出一个回报(Reward)，代理通过回报判断目前行为的好坏，进行学习，然后在下一个状态采取更好的行为，如图5所示。当代理处理不同状态时，上述过程不断迭代，直到达到设置的最大迭代次数，强化学习完成，最后生成中文词向量。具体的定义如下：

①环境(Environment E):中文词向量生成方法的环境就是给定的处理好的中文语料库。

②状态(State S):每个状态s_t定义为中文目标词w_t和它的相似上下文SC_t的组合。环境中有很多状态，每个词和它的相似上下文都构成一个状态。

③行为(Action A):定义代理在不同的状态下可能采取的行为有两个，分别为CBOW行为和SG行为，即A＝{a_CBOW,a_SG}，CBOW行为基于中文目标词的相似上下文预测目标词，SG行为基于中文目标词预测其相似上下文，具体如下：

a)CBOW行为

已知中文目标词w_t的相似上下文SC_t的前提下预测中文目标词w_t，如图5中的Action1部分；CBOW是一个三层的神经网络，对应各层具体为：

输入层：用来输入中文目标词w_t的相似上下文的初始词向量，包含相似上下文SC_t中2c个词的词向量；

投影层：将输入层的2c个向量做累加求和，其输出为

式中，

表示CBOW投影层以中文目标词w_t为输入的前提下的输出；

和

表示中文目标词w_t和词w_t+i的词向量；

输出层：根据相似上下文准确预测中文目标词的可能性p(w_t|SC_t)，其等于中文目标词w_t在语料库中所有词语中的预测权重，通过softmax函数进行计算；

式中，p(w_t|SC_t)表示CBOW根据上下文SC_t准确预测中文目标词w_t的概率；w_j表示语料库中的第j个词语；E表示语料库；

和

表示对应词的输出词向量，t和j表示单词的下标；

CBOW的目标函数为如下的最大似然：

式中，ζ_CBOW是目标函数；p(w_t|SC_t)表示CBOW根据上下文SC_t准确预测中文目标词w_t的概率；E表示语料库；|E|表示语料库词语的总数；t表示单词的下标；

b)SG行为

已知中文目标词w_t的前提下，预测其相似上下文SC_t，使用每个中文目标词作为输入，并预测中文目标词的相似上下文，如图5的Action2部分，SG也是一个三层神经网络，对应各层具体为：

输入层：用来输入w_t的初始词向量

投影层：用于保持当前单词的词向量；实际上，SG中的投影层没有实际的效果，只是为了与CBOW保持一致的结构，其输出为

输出层：根据中文目标词w_t准确预测上下文SC_t的可能性p(w_t+i|w_t)，其等于每个上下文单词在语料库中所有词语中的预测权重，通过softmax函数进行计算；

式中，p(w_t+i|w_t)表示SG根据中文目标词w_t准确预测上下文中每个单词的概率；

SG目标函数为如下的最大似然函数：

式中，ζ_SG是目标函数；|E|表示语料库词语的总数；t和i表示单词的下标；c是上下文数量的一半。

④回报(Reward R):回报r_t是环境对行为的反馈，用来评价代理采取行为的成功或者失败。定义在不同行为下的回报为：

式中，logp_θ()表示代理π_θ在参数θ的前提下，获得第n段轨迹的概率，w_t表示中文目标词，SC_t表示中文目标词的相似上下文，

表示代理π_θ在第n段轨迹的第t个状态下采取的行为，可以为a_cbow(CBOW行为)或者a_sg(SG行为)，w_i表示相似上下文中的单词，c表示相似上文窗口大小。

⑤代理(Agentπ_θ):代理就是一个映射函数π:S→A，可以看作参数为θ的分类器，其输入为状态，输出是采取的行为。

⑥片段(Episode):一个片段就是强化学习的一段从最初状态到最终状态的轨迹，包括每个状态采取的行为和获得的回报，第n段片段定义为

3.2、强化学习过程

中文词向量强化学习过程就是代理持续地和环境进行交互，处于环境不同的状态，然后代理采取不同的行为，环境根据代理的行为给出回报，代理根据回报判断采取行为的好坏，学习在下一个状态应该采取什么行为更好。不停地迭代，直到设置的最大迭代次数为止，如图5所示，其具体步骤如下，流程图如图6所示。

本发明实施例中，选用2008年的搜狗新闻作为语料库，通过语料库预处理，利用opencc工具包进行简繁体转换，利用正则表达式去除乱码，英文和标点，利用jieba分词进行中文分词，最后得到中文语料库，包括3亿个中文单词，词典大小约为420000。

本发明实施例中，对上述标准语料库进行相似上下文发现，相似上下文发现模型如图2所示，流程如图3和图4所示。本发明实施例中，我们设置学习率为0.01，最大迭代次数为4次进行强化学习。强化学习的模型图如图5所示，流程图如图6所示。我们在类比任务，相似任务(WS-240，WS-296)，文本分类和命名实体识别任务上与7个对比方法进行对比，在100％的语料库上进行实验，实验结果如表1所示。然后在25％，50％，75％的语料库上进行扩展性实验，实验结果如图7和图8所示。(本发明方法命名为sc2vec)。

表1实验结果

从实验结果可以看出，本发明方法sc2vec在类比任务，相似任务，文本分类和命名实体识别任务上都取得了最好的结果。在扩展性性实验中，在不同大小的语料中都取得了最好的结果。可以观察出，本发明方法在不同情况都有更好地表现，说明相似上下文克服了相邻上下文的语义不相关性，强化学习增强了学习架构性能，说明本发明的确是一个性能更好，语义信息捕捉更准确的中文词向量生成模型。从各个实验结果可以看出，本发明一种基于相似上下文和强化学习的中文词向量生成方法的可行性。

本发明通过自适应地选择中文目标词的相似上下文，同时提出中文词向量强化学习生成框架，与语料库交互并获得反馈，自动学习语料库词语之间的关系，并寻找相似上下文，减小语料库规模，基于相似上下文预测目标词，进而生成中文词向量，避免中文相邻上下文的语义不相关性，增强学习架构性能，减少训练时间，提高中文词向量质量。本发明能够解决中文相邻词不相关的问题，生成高质量的中文词向量。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于相似上下文和强化学习的中文词向量生成方法，其特征在于，该方法包括：

选取语料库，进行语料库预处理，从而构建中文语料库；

构建中文词向量强化学习框架，并进行强化学习，得到中文目标词的词向量表示；

对中文目标词进行相似上下文发现，包括对中文目标词进行相似上文发现，在中文目标词w_t的历史词汇中寻找和w_t相似的词语，其中，w_t的历史词汇代表在w_t附近，同时也在w_t左边的词，t表示中文目标词的下标，具体步骤如下：

①确定上文窗口大小c；

②计算自适应相似阈值T，其等于中文目标词w_t和范围[w_t-c，w_t+c]内所有词相似性的平均值；

③针对范围[w_t-c，0)内的词w_i，如果和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似上文，相似上文词语数量n₁加1；

④如果n₁＜c，则向左扩展寻找范围，增加c个词语，即在范围[w_t-2c，w_t-c]内寻找相似上文，此时需要更新自适应相似阈值T，其等于中文目标词w_t和范围[w_t-2c，w_t+2c]内所有词相似性的平均值，如果范围内的词和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似上文，相似上文词语数量n₁加1；

⑤一直向左寻找，每次增加c个词并更新自适应阈值T，迭代寻找，直到相似上文词语数量等于c为止；

对中文目标词进行相似上下文发现，还包括对中文目标词进行相似下文发现，在中文目标词w_t的未来词汇中寻找和w_t相似的词语，其中，w_t的未来词汇代表在w_t附近，同时也在w_t右边的词，t表示中文目标词的下标，具体步骤如下：

③针对范围(0，w_t+c]内的词w_j，如果和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似下文，相似下文词语数量n₂加1；

④如果n₂＜c，则向右扩展寻找范围，增加c个词语，即在范围[w_t+c，w_t+2c]内寻找相似下文，此时需要更新自适应相似阈值T，其等于中文目标词w_t和范围[w_t-2c，w_t+2c]内所有词相似性的平均值，如果范围内的词和中文目标词w_t的相似度大于自适应相似阈值T，则将该词确定为相似下文，相似下文词语数量n₂加1；

⑤一直向右寻找，每次增加c个词语并更新自适应阈值T，迭代寻找相似下文，直到相似下文词语数量等于c为止；

所述构建中文词向量强化学习框架并进行强化学习过程中：将语料库定义为环境Environment，中文目标词w_t和其相似上下文SC_t定义为状态State，拥有CBOW和SG两种行为的分类器定义为代理Agent；当代理处于环境的一个状态时，其采取一个行为Action，然后环境根据这个行为给出一个回报Reward，代理通过回报判断目前行为的好坏，进行学习，然后在下一个状态采取更好的行为；当代理处理不同状态时，上述过程不断迭代，直到达到设置的最大迭代次数为止，强化学习完成，最后生成中文词向量；

所述构建中文词向量强化学习框架并进行强化学习，具体包括：

A1：初始化一个代理π_θ，

A2：设置学习率η和最大迭代次数T_max，并输入中文语料库E，作为环境E；

A3：根据代理π_θ和环境E，让代理π_θ和环境E进行交互，采样获得N个轨迹片段τ_s；

A4：根据N个轨迹片段τ_s，计算每段轨迹总的回报；

A5：根据每段轨迹总的回报，计算N段轨迹总回报的期望；

A6：根据轨迹总回报的期望，计算N段轨迹总回报的期望的梯度；

A7：根据轨迹总回报的期望的梯度，更新参数θ；

A8：按照上述过程，迭代次数加1，如果达到最大迭代次数则停止，输出中文词向量，否则返回A2继续迭代训练；

CBOW行为基于中文目标词的相似上下文预测目标词，SG行为基于中文目标词预测其相似上下文，其中，CBOW行为、SG行为均为三层神经网络。

2.根据权利要求1所述的一种基于相似上下文和强化学习的中文词向量生成方法，其特征在于，所述语料库预处理包括：对下载的互联网文本进行简繁体转化，去除乱码、英文和标点，中文分词。

3.根据权利要求1所述的一种基于相似上下文和强化学习的中文词向量生成方法，其特征在于，所述词相似性通过相似度来表示词语语义的相似程度，其中，相似度s(w_i，w_j)的计算公式如下：