CN109086270B

CN109086270B - 基于古诗词语料向量化的自动作诗***及其方法

Info

Publication number: CN109086270B
Application number: CN201810817519.7A
Authority: CN
Inventors: 铉静; 何伟东; 李良炎; 何中市; 吴琼; 郭飞; 张航; 周泽寻; 杜井龙; 王路路; 陈定定; 许祥娟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2022-03-01
Anticipated expiration: 2038-07-24
Also published as: CN109086270A

Abstract

本发明公开了一种基于古诗词语料向量化的自动作诗***及其方法，先将古诗词的字转化为语料向量，搭建LSTM网络模型后训练该模型，输入意象词语至语料处理机构，所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词，将诗歌备选词输入LSTM网络模型，获得诗词草稿，最后根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词，得到定稿诗词，即自动作诗结果。本发明的有益效果：机器能够充分学习诗词中的含义和意境，进而在需要作诗时根据学习后的神经网络直接输入关键字词得到需要的古诗词，利用前人的经验学习获得作诗的能力，满足诗词规律的同时也具有艺术美感。

Description

基于古诗词语料向量化的自动作诗***及其方法

技术领域

本发明涉及计算机自动作诗技术领域，具体的说，涉及一种基于古诗词语料向量化的自动作诗***及其方法。

背景技术

随着计算机技术及硬件计算能力的不断推进，人工智能已越来越接近人们的预想，如机器人AlphaGo能通过计算胜过围棋世界冠军，但在创造性或艺术性的领域，人工智能仍然无法胜任相关工作，如中国古典诗词，是一种语言的艺术，其艺术价值和文学成就源远流长。古诗词同时具备规律性以及抽象性，不同诗体的平仄规律均有规定，每一联还需韵脚匹配，严格的规定使得古诗词具有发音和节奏上的美感，同时由于中华文化的广博，每个字的含义都会有多重内容和不同人的理解，因此，古诗词的创作需要对前人的优秀诗词学习、融汇后才能作出富有美感和意境的诗。

对于计算机及人工智能来说，规律性的工作容易完成，但抽象性的创作和艺术美感是机器作诗的难点：1、如何将自然语言向量化，变成机器能够读懂的语言，并且使得自然语言中所蕴含的信息得到最大量的保存；2、使用什么方法能够计算这些向量，使计算机模拟人类处理自然语言；3、如何构建神经网络的模型才能够更合适的表征文字数据之间的关系，同时花费最小的计算代价；4、如何网络设计优化方法和超参数解决训练问题从而提升模型的最终效果；5、若输入图片进行作诗，如何定位到图片中的景物和主题，并且识别出物体名称；6、平仄和押韵检查换字中需保留机器原作所生成样本的情感。目前，神经网络的学习速率等参数，模型搭建等都是需要在不断的实践中去积累经验，从而得到适合本问题求解的参数模型。

发明内容

为实现机器自动作诗的目的，本发明提出了一种基于古诗词语料向量化的自动作诗***及其方法，将历史上优秀诗歌的每个字转化成语料向量，同时建立语料向量之间的关系，从而使机器能够充分学习诗词中的含义和意境，进而在需要作诗时根据学习后的神经网络直接输入关键字词得到需要的古诗词，利用前人的经验学习获得作诗的能力，满足诗词规律的同时也具有艺术美感。

为达到上述目的，本发明采用的具体技术方案如下：

一种基于古诗词语料向量化的自动作诗***，包括语料处理机构、语料向量库、LSTM网络模型、诗词筛选机构；

所述语料处理机构用于转化语料向量及语料向量的运算；

所述语料向量库用于存储语料向量；

所述LSTM网络模型用于生成诗词草稿；

所述诗词筛选机构用于处理诗词草稿的押韵和平仄运算；

所述语料处理机构与语料向量库双向连接，所述语料处理机构、LSTM网络模型、诗词筛选机构顺次连接。

通过上述设计，自动作诗***通过LSTM网络模型学***仄规律的内容作为最后确定的诗词稿，最终得到作诗结果，而LSTM网络模型学习时需将历史上的优秀诗词经语料处理机构处理为语料向量并存入语料向量库中，得到大量优秀诗词的用语习惯，从而作出更优秀的具有美感的诗词。

进一步描述，所述LSTM网络模型为串行的两层LSTM结构组成的网络模型，所述LSTM网络模型的优化函数为计算随机梯度下降，损失函数为计算交叉熵。

串行的两层LSTM结构组成的网络模型能够更准确地识别字词之间的关系，但由于其得出的数据量更大，可以适当减少其计算结果的数据量。

优选地，所述LSTM网络模型计算后丢弃总数据的20％，学习速率为0.01，迭代次数为700。

一种基于古诗词语料向量化的自动作诗方法，采用如下步骤：

S1，输入古诗词至语料处理机构，所述语料处理机构将古诗词的字转化为语料向量，并将所述语料向量存入语料向量库；

S2，搭建LSTM网络模型；

S3，输入语料训练集至LSTM网络模型，完成对LSTM网络模型的训练；

S4，输入意象词语至语料处理机构，所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词；

S5，所述语料处理机构将诗歌备选词输入LSTM网络模型，获得诗词草稿；

S6，诗词筛选机构根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词，得到定稿诗词，所述定稿诗词即为自动作诗结果。

通过上述设计，输入大量优秀的古诗词进入语料处理机构，通过将每首诗词的每个字向量化处理，如使用skip-gram模型，得到语料向量，从而令计算机能够识别每个字的相关内容，LSTM网络模型能够处理文字之间的连接关系，以此达到理解每个字的含义并分析字与字之间关系的目的，LSTM网络模型的训练过程即为学***仄等规律性的内容，最终完成诗词定稿。

进一步描述，步骤S1的具体内容如下：

S1.1，输入古诗词至语料处理机构，所述语料处理机构拆分古诗词中出现的每个字，记为m个不重复的字，其中出现大于一次的同一个字记为同一个不重复的字；

S1.2，统计每个不重复的字的出现次数及其在每首诗词中出现的上下文相邻的字；

S1.3，所述语料处理机构为每个不重复的字设置随机的n维向量，该n维向量即为该不重复的字的语料向量，将所述语料向量对应存入语料向量库，n∈[180，220]，且n为整数；

S1.4，构建Huffman树，所述Huffman树包括末端节点与中间节点，每个末端节点均为中间节点的子节点，每个中间节点只有2个子节点，每个所述末端节点分别指向语料向量库中一个不重复的字的语料向量，并记该末端节点的节点值为对应不重复的字的出现次数，每个中间节点记节点值为其子节点的节点值总和，节点值越大的末端节点离根节点越近，所述根节点为节点值最大的中间节点；

S1.5，所述Huffman树上语料向量x的上下文相邻的字的选取概率为：

p(context|x)＝Πp_i

其中，p_i为Huffman树上第i个中间节点选取其第一子节点的概率：

x为该中间节点输入的语料向量，θ_i为第i个中间节点上输入的语料向量的权重；

S1.6，利用梯度下降法反复对x、θ_i分别求偏导：

先计算θ_i的偏导：

将新的θ_i对应更新至p(context|x)后再计算x的偏导：

将新的x对应更新到语料向量库；

S1.7，重新选取一个未更新的语料向量x并回到步骤S1.5，直到语料向量库中每个语料向量x都更新过一次，得到新的语料向量库。

通过上述设计，每个不重复的字的n维向量最初为随机设置，但通过偏导运算后对应的语料向量中就与Huffman树的内容一一对应了，即每个语料向量包含了其在输入的大量古诗词所出现的频率、其在每首诗词中紧邻的字的信息，n的取值越大，则对应的信息越丰富，但计算量则相应更大，对x、θ_i计算偏导能够更准确地记录Huffman中的路径，使之计算更精确。

更进一步描述，所述语料训练集为语料向量库中80％的语料向量组成的集合，且该语料训练集中的语料向量按照对应古诗词中的语序排序；

所述语料训练集按照9：1的比例划分为训练语料和验证语料，其中训练语料用于训练调整LSTM网络模型的参数设定，验证语料用于验证校对经训练调整后的LSTM网络模型。

语料向量库的数据需划分为训练语料和验证语料，训练时先输入训练语料进行学习，学习后再输入验证语料验证学习效果，直到达到好的学习效果。

更进一步描述，所述步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词，其具体方法如下：

S4.1，输入图像至图像特征提取模型，所述图像特征提取模型从图像中提取出意象词语；

S4.2，所述语料处理机构为所述意象词语一一匹配语料向量库中对应的语料向量，该语料向量即为诗歌备选词。

意象词语可以手动输入关键字词，语料处理机构再识别这些关键字词后对应匹配语料向量库的语料向量，也可另设图像特征提取模型，该图像特征提取模型可以提取图像中的景象并转化为字词，此时只需输入图像到图像特征提取模型即可得到图像中的关键景物的字词，语料处理机构再对提取的字词进行处理，得到诗歌备选词。

更进一步描述，所述图像特征提取模型为改进的VGG-16卷积神经网络模型，包括依次连接的卷积层组1、池化层、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层，其中，所述卷积层组1、卷积层组2均由2个串接的卷积层组成，所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成，且每个卷积层均连接所述Bounding-box层。

传统的VGG-16卷积神经网络结构为依次连接的2个卷积层、池化层、2个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个全连接层、Softmax层，而上述改进的VGG-16卷积神经网络模型在传统VGG-16的基础上将3个全连接层调整为2个卷积层和Bounding-box层，并令每个卷积层都直接连接Bounding-box层，形成全卷积网络，并由Bounding-box层调节每个卷积层的参数，另外，当输入图像较大，需提取更多景物时可在Bounding-box层前对应加入卷积层。

更进一步描述，所述步骤S4的意象词语为输入一个字词A，所述语料处理机构根据该字词A联想计算得到后续关联词，该字词A与后续关联词组成词串，所述词串即为诗歌备选词；

所述计算后续关联词的方法为根据前一字词的语料向量找出语料向量库中匹配度最高的下一字词，匹配度的计算如下：

其中，a为前一字词的语料向量，b为语料向量库中任一字词的语料向量，则满足cos(a,b)最大的语料向量b所对应的字词即为下一字词。

输入意象词语还可由上述方式实现，即先输入一个字词A，再通过语料处理机构计算语料向量库中与该字词A匹配度最高的字词B，再计算与字词B匹配度最高的字词C，以此类推，最终得到若干匹配出的字词组成词串，将词串输入LSTM网络模型则得到诗词。该方式只提供一个提示词，后续内容完全由机器自动匹配计算出来。

更进一步描述，步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱，步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。

由于汉字的一字多义及近义词因素，不同诗词中对同一事物的描述语可能不尽相同，则设计意象词谱可以将含义相同或相似的字词组成一类，而当输入的词语组成的诗句缺乏美感时，可对应调整该词语，调整方式即为从含义相同或相似的一类字词中选取。

更进一步描述，自动作诗的诗体为七言律诗，其平仄规律为：“中平中仄仄平平-，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。”或“中仄平平仄仄平-，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。”；

其中，平-表示该字的韵脚为平或仄；

则步骤6中平仄规律的选取方法为：所述诗词筛选机构逐字比对诗词草稿与平仄规律是否一致，若不一致，则将不一致的字对应替换为意象词谱中含义相同或相似的字并重新比对平仄规律，直到诗词草稿与平仄规律完全一致。

本发明的有益效果：

1、循环神经网络基于人脑特征和神经元的联结，对于自然语言的学习很接近于人类对自然语言的学习，因此引入了LSTM网络模型后，在大数据的语料上面学习后，机器可以得到一个较好的生成模型，从而处理诗词的逻辑、诗性和意象关系。

2、卷积神经网络在对物体的识别上表现突出，能提取出大部分我们需要的景物特征，也为诗歌创作提供了丰富的关键词和意象主题。

3、因为词向量是通过诗歌语料的词频和其共现性计算出来的，而词与词的共现性也反应了词与词之间的关系，故通过词向量计算其向量的余弦可以反应出词与词的关系远近，因此，可以用此方法进行韵字，平仄的替换，词云的扩展等，结合古诗词的用字分类表，实施起来也方便快捷。

4、诗词的意象词谱可以用于机器生成的关键词输入步骤，并利用意象词谱进行扩展，从而解决大多机器作诗***中出现的主题不一致和随机跳跃问题。

5、诗词的起承转合是作诗中的一大特点和人脑思维过程，本发明使用词串技术，让机器模拟人类的思维方式，是认知工程中的有益实践，可以在一定程度上实现人类写作机制在机器作诗任务中的艺术创作智能。

附图说明

图1是本发明的***结构框图；

图2是实施例的LSTM网络模型的结构示意图；

图3是本发明的方法流程图；

图4是步骤S1的详细流程图；

图5是实施例的Huffman示意图；

图6是本发明的改进的VGG-16卷积神经网络模型结构示意图；

图7是实施例的改进的VGG-16卷积神经网络模型结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1所示，一种基于古诗词语料向量化的自动作诗***，包括语料处理机构、语料向量库、LSTM网络模型、诗词筛选机构；

本实施例所述LSTM网络模型优选为串行的两层LSTM结构组成的网络模型，如图2所示，图中上下两个虚线框分别表示一层LSTM结构，图中的每个a_i,j表示一个神经元，输入的X₁、X₂为古诗词中顺序相连的两个字的语料向量，输出的h即为该两个字的连接关系，即每输入1个两字相连的词，LSTM网络模型就能学习其中的词语关系；

优选地，所述LSTM网络模型的优化函数为计算随机梯度下降，损失函数为计算交叉熵，所述LSTM网络模型计算后丢弃总数据的20％，学习速率为0.01，迭代次数为700。

如图3所示，一种基于古诗词语料向量化的自动作诗方法，采用如下步骤：

S2，搭建LSTM网络模型；

其中，步骤S1的具体内容如图4所示：

S1.3，所述语料处理机构为每个不重复的字设置随机的n维向量，该n维向量即为该不重复的字的语料向量，将所述语料向量对应存入语料向量库，n∈[180，220]，且n为整数，本实施例优选n＝200；

优选地，本实施例节选了两句七言绝句：李白《望庐山瀑布》中的“飞流直下三千尺，疑是银河落九天。”以及杜甫《绝句》中的“窗含西岭千秋雪，门泊东吴万里船。”以此建立Huffman树，其中“千”字出现了2次，其余字只出现1次，因此“千”字的末端节点比其余字的末端节点离根节点更近，同时“千”字的节点值为2，其余字均为1，最终形成如图5所示的Huffman树。

p(context|x)＝Πp_i

S1.6，利用梯度下降法反复对x、θ_i分别求偏导：

先计算θ_i的偏导：

将新的θ_i对应更新至p(context|x)后再计算x的偏导：

将新的x对应更新到语料向量库；

本实施例所采用的语料训练集为语料向量库中80％的语料向量组成的集合，且该语料训练集中的语料向量按照对应古诗词中的语序排序；

本实施例采用输入图像进行作诗的方式，即所述步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词，其具体方法如下：

如图6所示，所述图像特征提取模型为改进的VGG-16卷积神经网络模型，包括依次连接的卷积层组1、池化层(Pool)、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层，其中，所述卷积层组1、卷积层组2均由2个串接的卷积层(Conv)组成，所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成，且每个卷积层均连接所述Bounding-box层。

本实施例优选的改进的VGG-16卷积神经网络模型为图7所示的结构，图中虚线部分为传统的VGG-16卷积神经网络结构卷积部分，即依次连接的2个卷积层、池化层、2个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层，之后依次连接了6个卷积层，最后连接Bounding-box层和Softmax层，与图4的结构相比，图5的结构在Bounding-box层前增加了4个卷积层，从而获取更多图像的特征，每个卷积层的卷积核均为3×3，池化层为2×2。

实施例二：所述步骤S4的意象词语为输入一个字词A，所述语料处理机构根据该字词A联想计算得到后续关联词，该字词A与后续关联词组成词串，所述词串即为诗歌备选词；

步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱，步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。

自动作诗的诗体为七言律诗，其平仄规律为：“中平中仄仄平平-，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。”或“中仄平平仄仄平-，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。中仄中平平仄仄，中平中仄仄平平-。中平中仄平平仄，中仄平平仄仄平-。”；

其中，平-表示该字的韵脚为平或仄；

Claims

1.一种基于古诗词语料向量化的自动作诗方法，其特征在于采用如下步骤：

S2，搭建LSTM网络模型；

S6，诗词筛选机构根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词，得到定稿诗词，所述定稿诗词即为自动作诗结果；

步骤S1的具体内容如下：

S1.5，Huffman树上任一语料向量x的上下文相邻的字的选取概率为：

p(context|x)＝∏p_i

S1.6，利用梯度下降法对x、θ_i分别求偏导：

先计算θ_i的偏导：

将新的θ_i对应更新至p(context|x)后再计算x的偏导：

将新的x对应更新到语料向量库；

2.根据权利要求1所述基于古诗词语料向量化的自动作诗方法，其特征在于：所述语料训练集为语料向量库中80％的语料向量组成的集合，且该语料训练集中的语料向量按照对应古诗词中的语序排序；

3.根据权利要求1所述基于古诗词语料向量化的自动作诗方法，其特征在于：步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词，其具体方法如下：

4.根据权利要求3所述基于古诗词语料向量化的自动作诗方法，其特征在于：所述图像特征提取模型为改进的VGG-16卷积神经网络模型，包括依次连接的卷积层组1、池化层、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层，其中，所述卷积层组1、卷积层组2均由2个串接的卷积层组成，所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成，且每个卷积层均连接所述Bounding-box层。

5.根据权利要求1所述基于古诗词语料向量化的自动作诗方法，其特征在于：步骤S4的意象词语为输入一个字词A，所述语料处理机构根据该字词A联想计算得到后续关联词，该字词A与后续关联词组成词串，所述词串即为诗歌备选词；

计算后续关联词的方法为根据前一字词的语料向量找出语料向量库中匹配度最高的下一字词，匹配度的计算如下：

6.根据权利要求1所述基于古诗词语料向量化的自动作诗方法，其特征在于：步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱，步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。