CN109086270B - 基于古诗词语料向量化的自动作诗***及其方法 - Google Patents

基于古诗词语料向量化的自动作诗***及其方法 Download PDF

Info

Publication number
CN109086270B
CN109086270B CN201810817519.7A CN201810817519A CN109086270B CN 109086270 B CN109086270 B CN 109086270B CN 201810817519 A CN201810817519 A CN 201810817519A CN 109086270 B CN109086270 B CN 109086270B
Authority
CN
China
Prior art keywords
corpus
poetry
word
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810817519.7A
Other languages
English (en)
Other versions
CN109086270A (zh
Inventor
铉静
何伟东
李良炎
何中市
吴琼
郭飞
张航
周泽寻
杜井龙
王路路
陈定定
许祥娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810817519.7A priority Critical patent/CN109086270B/zh
Publication of CN109086270A publication Critical patent/CN109086270A/zh
Application granted granted Critical
Publication of CN109086270B publication Critical patent/CN109086270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于古诗词语料向量化的自动作诗***及其方法,先将古诗词的字转化为语料向量,搭建LSTM网络模型后训练该模型,输入意象词语至语料处理机构,所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词,将诗歌备选词输入LSTM网络模型,获得诗词草稿,最后根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词,得到定稿诗词,即自动作诗结果。本发明的有益效果:机器能够充分学习诗词中的含义和意境,进而在需要作诗时根据学习后的神经网络直接输入关键字词得到需要的古诗词,利用前人的经验学习获得作诗的能力,满足诗词规律的同时也具有艺术美感。

Description

基于古诗词语料向量化的自动作诗***及其方法
技术领域
本发明涉及计算机自动作诗技术领域,具体的说,涉及一种基于古诗词语料向量化的自动作诗***及其方法。
背景技术
随着计算机技术及硬件计算能力的不断推进,人工智能已越来越接近人们的预想,如机器人AlphaGo能通过计算胜过围棋世界冠军,但在创造性或艺术性的领域,人工智能仍然无法胜任相关工作,如中国古典诗词,是一种语言的艺术,其艺术价值和文学成就源远流长。古诗词同时具备规律性以及抽象性,不同诗体的平仄规律均有规定,每一联还需韵脚匹配,严格的规定使得古诗词具有发音和节奏上的美感,同时由于中华文化的广博,每个字的含义都会有多重内容和不同人的理解,因此,古诗词的创作需要对前人的优秀诗词学习、融汇后才能作出富有美感和意境的诗。
对于计算机及人工智能来说,规律性的工作容易完成,但抽象性的创作和艺术美感是机器作诗的难点:1、如何将自然语言向量化,变成机器能够读懂的语言,并且使得自然语言中所蕴含的信息得到最大量的保存;2、使用什么方法能够计算这些向量,使计算机模拟人类处理自然语言;3、如何构建神经网络的模型才能够更合适的表征文字数据之间的关系,同时花费最小的计算代价;4、如何网络设计优化方法和超参数解决训练问题从而提升模型的最终效果;5、若输入图片进行作诗,如何定位到图片中的景物和主题,并且识别出物体名称;6、平仄和押韵检查换字中需保留机器原作所生成样本的情感。目前,神经网络的学习速率等参数,模型搭建等都是需要在不断的实践中去积累经验,从而得到适合本问题求解的参数模型。
发明内容
为实现机器自动作诗的目的,本发明提出了一种基于古诗词语料向量化的自动作诗***及其方法,将历史上优秀诗歌的每个字转化成语料向量,同时建立语料向量之间的关系,从而使机器能够充分学习诗词中的含义和意境,进而在需要作诗时根据学习后的神经网络直接输入关键字词得到需要的古诗词,利用前人的经验学习获得作诗的能力,满足诗词规律的同时也具有艺术美感。
为达到上述目的,本发明采用的具体技术方案如下:
一种基于古诗词语料向量化的自动作诗***,包括语料处理机构、语料向量库、LSTM网络模型、诗词筛选机构;
所述语料处理机构用于转化语料向量及语料向量的运算;
所述语料向量库用于存储语料向量;
所述LSTM网络模型用于生成诗词草稿;
所述诗词筛选机构用于处理诗词草稿的押韵和平仄运算;
所述语料处理机构与语料向量库双向连接,所述语料处理机构、LSTM网络模型、诗词筛选机构顺次连接。
通过上述设计,自动作诗***通过LSTM网络模型学***仄规律的内容作为最后确定的诗词稿,最终得到作诗结果,而LSTM网络模型学习时需将历史上的优秀诗词经语料处理机构处理为语料向量并存入语料向量库中,得到大量优秀诗词的用语习惯,从而作出更优秀的具有美感的诗词。
进一步描述,所述LSTM网络模型为串行的两层LSTM结构组成的网络模型,所述LSTM网络模型的优化函数为计算随机梯度下降,损失函数为计算交叉熵。
串行的两层LSTM结构组成的网络模型能够更准确地识别字词之间的关系,但由于其得出的数据量更大,可以适当减少其计算结果的数据量。
优选地,所述LSTM网络模型计算后丢弃总数据的20%,学习速率为0.01,迭代次数为700。
一种基于古诗词语料向量化的自动作诗方法,采用如下步骤:
S1,输入古诗词至语料处理机构,所述语料处理机构将古诗词的字转化为语料向量,并将所述语料向量存入语料向量库;
S2,搭建LSTM网络模型;
S3,输入语料训练集至LSTM网络模型,完成对LSTM网络模型的训练;
S4,输入意象词语至语料处理机构,所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词;
S5,所述语料处理机构将诗歌备选词输入LSTM网络模型,获得诗词草稿;
S6,诗词筛选机构根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词,得到定稿诗词,所述定稿诗词即为自动作诗结果。
通过上述设计,输入大量优秀的古诗词进入语料处理机构,通过将每首诗词的每个字向量化处理,如使用skip-gram模型,得到语料向量,从而令计算机能够识别每个字的相关内容,LSTM网络模型能够处理文字之间的连接关系,以此达到理解每个字的含义并分析字与字之间关系的目的,LSTM网络模型的训练过程即为学***仄等规律性的内容,最终完成诗词定稿。
进一步描述,步骤S1的具体内容如下:
S1.1,输入古诗词至语料处理机构,所述语料处理机构拆分古诗词中出现的每个字,记为m个不重复的字,其中出现大于一次的同一个字记为同一个不重复的字;
S1.2,统计每个不重复的字的出现次数及其在每首诗词中出现的上下文相邻的字;
S1.3,所述语料处理机构为每个不重复的字设置随机的n维向量,该n维向量即为该不重复的字的语料向量,将所述语料向量对应存入语料向量库,n∈[180,220],且n为整数;
S1.4,构建Huffman树,所述Huffman树包括末端节点与中间节点,每个末端节点均为中间节点的子节点,每个中间节点只有2个子节点,每个所述末端节点分别指向语料向量库中一个不重复的字的语料向量,并记该末端节点的节点值为对应不重复的字的出现次数,每个中间节点记节点值为其子节点的节点值总和,节点值越大的末端节点离根节点越近,所述根节点为节点值最大的中间节点;
S1.5,所述Huffman树上语料向量x的上下文相邻的字的选取概率为:
p(context|x)=Πpi
其中,pi为Huffman树上第i个中间节点选取其第一子节点的概率:
Figure BDA0001740670240000051
x为该中间节点输入的语料向量,θi为第i个中间节点上输入的语料向量的权重;
S1.6,利用梯度下降法反复对x、θi分别求偏导:
先计算θi的偏导:
Figure BDA0001740670240000052
将新的θi对应更新至p(context|x)后再计算x的偏导:
Figure BDA0001740670240000053
将新的x对应更新到语料向量库;
S1.7,重新选取一个未更新的语料向量x并回到步骤S1.5,直到语料向量库中每个语料向量x都更新过一次,得到新的语料向量库。
通过上述设计,每个不重复的字的n维向量最初为随机设置,但通过偏导运算后对应的语料向量中就与Huffman树的内容一一对应了,即每个语料向量包含了其在输入的大量古诗词所出现的频率、其在每首诗词中紧邻的字的信息,n的取值越大,则对应的信息越丰富,但计算量则相应更大,对x、θi计算偏导能够更准确地记录Huffman中的路径,使之计算更精确。
更进一步描述,所述语料训练集为语料向量库中80%的语料向量组成的集合,且该语料训练集中的语料向量按照对应古诗词中的语序排序;
所述语料训练集按照9:1的比例划分为训练语料和验证语料,其中训练语料用于训练调整LSTM网络模型的参数设定,验证语料用于验证校对经训练调整后的LSTM网络模型。
语料向量库的数据需划分为训练语料和验证语料,训练时先输入训练语料进行学习,学习后再输入验证语料验证学习效果,直到达到好的学习效果。
更进一步描述,所述步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词,其具体方法如下:
S4.1,输入图像至图像特征提取模型,所述图像特征提取模型从图像中提取出意象词语;
S4.2,所述语料处理机构为所述意象词语一一匹配语料向量库中对应的语料向量,该语料向量即为诗歌备选词。
意象词语可以手动输入关键字词,语料处理机构再识别这些关键字词后对应匹配语料向量库的语料向量,也可另设图像特征提取模型,该图像特征提取模型可以提取图像中的景象并转化为字词,此时只需输入图像到图像特征提取模型即可得到图像中的关键景物的字词,语料处理机构再对提取的字词进行处理,得到诗歌备选词。
更进一步描述,所述图像特征提取模型为改进的VGG-16卷积神经网络模型,包括依次连接的卷积层组1、池化层、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层,其中,所述卷积层组1、卷积层组2均由2个串接的卷积层组成,所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成,且每个卷积层均连接所述Bounding-box层。
传统的VGG-16卷积神经网络结构为依次连接的2个卷积层、池化层、2个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个全连接层、Softmax层,而上述改进的VGG-16卷积神经网络模型在传统VGG-16的基础上将3个全连接层调整为2个卷积层和Bounding-box层,并令每个卷积层都直接连接Bounding-box层,形成全卷积网络,并由Bounding-box层调节每个卷积层的参数,另外,当输入图像较大,需提取更多景物时可在Bounding-box层前对应加入卷积层。
更进一步描述,所述步骤S4的意象词语为输入一个字词A,所述语料处理机构根据该字词A联想计算得到后续关联词,该字词A与后续关联词组成词串,所述词串即为诗歌备选词;
所述计算后续关联词的方法为根据前一字词的语料向量找出语料向量库中匹配度最高的下一字词,匹配度的计算如下:
Figure BDA0001740670240000071
其中,a为前一字词的语料向量,b为语料向量库中任一字词的语料向量,则满足cos(a,b)最大的语料向量b所对应的字词即为下一字词。
输入意象词语还可由上述方式实现,即先输入一个字词A,再通过语料处理机构计算语料向量库中与该字词A匹配度最高的字词B,再计算与字词B匹配度最高的字词C,以此类推,最终得到若干匹配出的字词组成词串,将词串输入LSTM网络模型则得到诗词。该方式只提供一个提示词,后续内容完全由机器自动匹配计算出来。
更进一步描述,步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱,步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。
由于汉字的一字多义及近义词因素,不同诗词中对同一事物的描述语可能不尽相同,则设计意象词谱可以将含义相同或相似的字词组成一类,而当输入的词语组成的诗句缺乏美感时,可对应调整该词语,调整方式即为从含义相同或相似的一类字词中选取。
更进一步描述,自动作诗的诗体为七言律诗,其平仄规律为:“中平中仄仄平平-,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。”或“中仄平平仄仄平-,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。”;
其中,平-表示该字的韵脚为平或仄;
则步骤6中平仄规律的选取方法为:所述诗词筛选机构逐字比对诗词草稿与平仄规律是否一致,若不一致,则将不一致的字对应替换为意象词谱中含义相同或相似的字并重新比对平仄规律,直到诗词草稿与平仄规律完全一致。
本发明的有益效果:
1、循环神经网络基于人脑特征和神经元的联结,对于自然语言的学习很接近于人类对自然语言的学习,因此引入了LSTM网络模型后,在大数据的语料上面学习后,机器可以得到一个较好的生成模型,从而处理诗词的逻辑、诗性和意象关系。
2、卷积神经网络在对物体的识别上表现突出,能提取出大部分我们需要的景物特征,也为诗歌创作提供了丰富的关键词和意象主题。
3、因为词向量是通过诗歌语料的词频和其共现性计算出来的,而词与词的共现性也反应了词与词之间的关系,故通过词向量计算其向量的余弦可以反应出词与词的关系远近,因此,可以用此方法进行韵字,平仄的替换,词云的扩展等,结合古诗词的用字分类表,实施起来也方便快捷。
4、诗词的意象词谱可以用于机器生成的关键词输入步骤,并利用意象词谱进行扩展,从而解决大多机器作诗***中出现的主题不一致和随机跳跃问题。
5、诗词的起承转合是作诗中的一大特点和人脑思维过程,本发明使用词串技术,让机器模拟人类的思维方式,是认知工程中的有益实践,可以在一定程度上实现人类写作机制在机器作诗任务中的艺术创作智能。
附图说明
图1是本发明的***结构框图;
图2是实施例的LSTM网络模型的结构示意图;
图3是本发明的方法流程图;
图4是步骤S1的详细流程图;
图5是实施例的Huffman示意图;
图6是本发明的改进的VGG-16卷积神经网络模型结构示意图;
图7是实施例的改进的VGG-16卷积神经网络模型结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
如图1所示,一种基于古诗词语料向量化的自动作诗***,包括语料处理机构、语料向量库、LSTM网络模型、诗词筛选机构;
所述语料处理机构与语料向量库双向连接,所述语料处理机构、LSTM网络模型、诗词筛选机构顺次连接。
本实施例所述LSTM网络模型优选为串行的两层LSTM结构组成的网络模型,如图2所示,图中上下两个虚线框分别表示一层LSTM结构,图中的每个ai,j表示一个神经元,输入的X1、X2为古诗词中顺序相连的两个字的语料向量,输出的h即为该两个字的连接关系,即每输入1个两字相连的词,LSTM网络模型就能学习其中的词语关系;
优选地,所述LSTM网络模型的优化函数为计算随机梯度下降,损失函数为计算交叉熵,所述LSTM网络模型计算后丢弃总数据的20%,学习速率为0.01,迭代次数为700。
如图3所示,一种基于古诗词语料向量化的自动作诗方法,采用如下步骤:
S1,输入古诗词至语料处理机构,所述语料处理机构将古诗词的字转化为语料向量,并将所述语料向量存入语料向量库;
S2,搭建LSTM网络模型;
S3,输入语料训练集至LSTM网络模型,完成对LSTM网络模型的训练;
S4,输入意象词语至语料处理机构,所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词;
S5,所述语料处理机构将诗歌备选词输入LSTM网络模型,获得诗词草稿;
S6,诗词筛选机构根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词,得到定稿诗词,所述定稿诗词即为自动作诗结果。
其中,步骤S1的具体内容如图4所示:
S1.1,输入古诗词至语料处理机构,所述语料处理机构拆分古诗词中出现的每个字,记为m个不重复的字,其中出现大于一次的同一个字记为同一个不重复的字;
S1.2,统计每个不重复的字的出现次数及其在每首诗词中出现的上下文相邻的字;
S1.3,所述语料处理机构为每个不重复的字设置随机的n维向量,该n维向量即为该不重复的字的语料向量,将所述语料向量对应存入语料向量库,n∈[180,220],且n为整数,本实施例优选n=200;
S1.4,构建Huffman树,所述Huffman树包括末端节点与中间节点,每个末端节点均为中间节点的子节点,每个中间节点只有2个子节点,每个所述末端节点分别指向语料向量库中一个不重复的字的语料向量,并记该末端节点的节点值为对应不重复的字的出现次数,每个中间节点记节点值为其子节点的节点值总和,节点值越大的末端节点离根节点越近,所述根节点为节点值最大的中间节点;
优选地,本实施例节选了两句七言绝句:李白《望庐山瀑布》中的“飞流直下三千尺,疑是银河落九天。”以及杜甫《绝句》中的“窗含西岭千秋雪,门泊东吴万里船。”以此建立Huffman树,其中“千”字出现了2次,其余字只出现1次,因此“千”字的末端节点比其余字的末端节点离根节点更近,同时“千”字的节点值为2,其余字均为1,最终形成如图5所示的Huffman树。
S1.5,所述Huffman树上语料向量x的上下文相邻的字的选取概率为:
p(context|x)=Πpi
其中,pi为Huffman树上第i个中间节点选取其第一子节点的概率:
Figure BDA0001740670240000111
x为该中间节点输入的语料向量,θi为第i个中间节点上输入的语料向量的权重;
S1.6,利用梯度下降法反复对x、θi分别求偏导:
先计算θi的偏导:
Figure BDA0001740670240000112
将新的θi对应更新至p(context|x)后再计算x的偏导:
Figure BDA0001740670240000121
将新的x对应更新到语料向量库;
S1.7,重新选取一个未更新的语料向量x并回到步骤S1.5,直到语料向量库中每个语料向量x都更新过一次,得到新的语料向量库。
本实施例所采用的语料训练集为语料向量库中80%的语料向量组成的集合,且该语料训练集中的语料向量按照对应古诗词中的语序排序;
所述语料训练集按照9:1的比例划分为训练语料和验证语料,其中训练语料用于训练调整LSTM网络模型的参数设定,验证语料用于验证校对经训练调整后的LSTM网络模型。
本实施例采用输入图像进行作诗的方式,即所述步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词,其具体方法如下:
S4.1,输入图像至图像特征提取模型,所述图像特征提取模型从图像中提取出意象词语;
S4.2,所述语料处理机构为所述意象词语一一匹配语料向量库中对应的语料向量,该语料向量即为诗歌备选词。
如图6所示,所述图像特征提取模型为改进的VGG-16卷积神经网络模型,包括依次连接的卷积层组1、池化层(Pool)、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层,其中,所述卷积层组1、卷积层组2均由2个串接的卷积层(Conv)组成,所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成,且每个卷积层均连接所述Bounding-box层。
本实施例优选的改进的VGG-16卷积神经网络模型为图7所示的结构,图中虚线部分为传统的VGG-16卷积神经网络结构卷积部分,即依次连接的2个卷积层、池化层、2个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层、3个卷积层、池化层,之后依次连接了6个卷积层,最后连接Bounding-box层和Softmax层,与图4的结构相比,图5的结构在Bounding-box层前增加了4个卷积层,从而获取更多图像的特征,每个卷积层的卷积核均为3×3,池化层为2×2。
实施例二:所述步骤S4的意象词语为输入一个字词A,所述语料处理机构根据该字词A联想计算得到后续关联词,该字词A与后续关联词组成词串,所述词串即为诗歌备选词;
所述计算后续关联词的方法为根据前一字词的语料向量找出语料向量库中匹配度最高的下一字词,匹配度的计算如下:
Figure BDA0001740670240000131
其中,a为前一字词的语料向量,b为语料向量库中任一字词的语料向量,则满足cos(a,b)最大的语料向量b所对应的字词即为下一字词。
步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱,步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。
自动作诗的诗体为七言律诗,其平仄规律为:“中平中仄仄平平-,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。”或“中仄平平仄仄平-,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。中仄中平平仄仄,中平中仄仄平平-。中平中仄平平仄,中仄平平仄仄平-。”;
其中,平-表示该字的韵脚为平或仄;
则步骤6中平仄规律的选取方法为:所述诗词筛选机构逐字比对诗词草稿与平仄规律是否一致,若不一致,则将不一致的字对应替换为意象词谱中含义相同或相似的字并重新比对平仄规律,直到诗词草稿与平仄规律完全一致。

Claims (6)

1.一种基于古诗词语料向量化的自动作诗方法,其特征在于采用如下步骤:
S1,输入古诗词至语料处理机构,所述语料处理机构将古诗词的字转化为语料向量,并将所述语料向量存入语料向量库;
S2,搭建LSTM网络模型;
S3,输入语料训练集至LSTM网络模型,完成对LSTM网络模型的训练;
S4,输入意象词语至语料处理机构,所述语料处理机构根据语料向量库中对应每个意象词语的语料向量计算得到诗歌备选词;
S5,所述语料处理机构将诗歌备选词输入LSTM网络模型,获得诗词草稿;
S6,诗词筛选机构根据诗体的押韵和平仄规律选取诗词草稿中最符合所述规律的诗词,得到定稿诗词,所述定稿诗词即为自动作诗结果;
步骤S1的具体内容如下:
S1.1,输入古诗词至语料处理机构,所述语料处理机构拆分古诗词中出现的每个字,记为m个不重复的字,其中出现大于一次的同一个字记为同一个不重复的字;
S1.2,统计每个不重复的字的出现次数及其在每首诗词中出现的上下文相邻的字;
S1.3,所述语料处理机构为每个不重复的字设置随机的n维向量,该n维向量即为该不重复的字的语料向量,将所述语料向量对应存入语料向量库,n∈[180,220],且n为整数;
S1.4,构建Huffman树,所述Huffman树包括末端节点与中间节点,每个末端节点均为中间节点的子节点,每个中间节点只有2个子节点,每个所述末端节点分别指向语料向量库中一个不重复的字的语料向量,并记该末端节点的节点值为对应不重复的字的出现次数,每个中间节点记节点值为其子节点的节点值总和,节点值越大的末端节点离根节点越近,所述根节点为节点值最大的中间节点;
S1.5,Huffman树上任一语料向量x的上下文相邻的字的选取概率为:
p(context|x)=∏pi
其中,pi为Huffman树上第i个中间节点选取其第一子节点的概率:
Figure FDA0003450601740000021
x为该中间节点输入的语料向量,θi为第i个中间节点上输入的语料向量的权重;
S1.6,利用梯度下降法对x、θi分别求偏导:
先计算θi的偏导:
Figure FDA0003450601740000022
将新的θi对应更新至p(context|x)后再计算x的偏导:
Figure FDA0003450601740000023
将新的x对应更新到语料向量库;
S1.7,重新选取一个未更新的语料向量x并回到步骤S1.5,直到语料向量库中每个语料向量x都更新过一次,得到新的语料向量库。
2.根据权利要求1所述基于古诗词语料向量化的自动作诗方法,其特征在于:所述语料训练集为语料向量库中80%的语料向量组成的集合,且该语料训练集中的语料向量按照对应古诗词中的语序排序;
所述语料训练集按照9:1的比例划分为训练语料和验证语料,其中训练语料用于训练调整LSTM网络模型的参数设定,验证语料用于验证校对经训练调整后的LSTM网络模型。
3.根据权利要求1所述基于古诗词语料向量化的自动作诗方法,其特征在于:步骤S4的意象词语为输入图像至图像特征提取模型获得的图像意象词,其具体方法如下:
S4.1,输入图像至图像特征提取模型,所述图像特征提取模型从图像中提取出意象词语;
S4.2,所述语料处理机构为所述意象词语一一匹配语料向量库中对应的语料向量,该语料向量即为诗歌备选词。
4.根据权利要求3所述基于古诗词语料向量化的自动作诗方法,其特征在于:所述图像特征提取模型为改进的VGG-16卷积神经网络模型,包括依次连接的卷积层组1、池化层、卷积层组2、池化层、卷积层组3、池化层、卷积层组4、池化层、卷积层组5、池化层、2个卷积层、Bounding-box层和Softmax层,其中,所述卷积层组1、卷积层组2均由2个串接的卷积层组成,所述卷积层组3、卷积层组4、卷积层组5均由3个串接的卷积层组成,且每个卷积层均连接所述Bounding-box层。
5.根据权利要求1所述基于古诗词语料向量化的自动作诗方法,其特征在于:步骤S4的意象词语为输入一个字词A,所述语料处理机构根据该字词A联想计算得到后续关联词,该字词A与后续关联词组成词串,所述词串即为诗歌备选词;
计算后续关联词的方法为根据前一字词的语料向量找出语料向量库中匹配度最高的下一字词,匹配度的计算如下:
Figure FDA0003450601740000041
其中,a为前一字词的语料向量,b为语料向量库中任一字词的语料向量,则满足cos(a,b)最大的语料向量b所对应的字词即为下一字词。
6.根据权利要求1所述基于古诗词语料向量化的自动作诗方法,其特征在于:步骤S1输入古诗词后还将含义相同或相似的字词分类建立意象词谱,步骤S4所述的诗歌备选词包括输入的意象词语及其在意象词谱中含义相同或相似的字词。
CN201810817519.7A 2018-07-24 2018-07-24 基于古诗词语料向量化的自动作诗***及其方法 Active CN109086270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810817519.7A CN109086270B (zh) 2018-07-24 2018-07-24 基于古诗词语料向量化的自动作诗***及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810817519.7A CN109086270B (zh) 2018-07-24 2018-07-24 基于古诗词语料向量化的自动作诗***及其方法

Publications (2)

Publication Number Publication Date
CN109086270A CN109086270A (zh) 2018-12-25
CN109086270B true CN109086270B (zh) 2022-03-01

Family

ID=64838256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810817519.7A Active CN109086270B (zh) 2018-07-24 2018-07-24 基于古诗词语料向量化的自动作诗***及其方法

Country Status (1)

Country Link
CN (1) CN109086270B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309510B (zh) * 2019-07-02 2023-05-12 中国计量大学 一种基于c-s和gru的看画题诗方法
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN111814488B (zh) * 2020-07-22 2024-06-07 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN112101006A (zh) * 2020-09-14 2020-12-18 中国平安人寿保险股份有限公司 一种诗歌生成方法、装置、计算机设备及存储介质
CN112257775B (zh) * 2020-10-21 2022-11-15 东南大学 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN112434145A (zh) * 2020-11-25 2021-03-02 天津大学 一种基于图像识别和自然语言处理的看图作诗方法
CN112883710A (zh) * 2021-01-13 2021-06-01 戴宇航 用于优化用户创作的诗词的方法
CN113051877B (zh) * 2021-03-11 2023-06-16 杨虡 一种文本内容生成方法、装置、电子设备及存储介质
CN113553822B (zh) * 2021-07-30 2023-06-30 网易(杭州)网络有限公司 古诗词生成模型训练、古诗词生成方法、设备及存储介质
CN116070643B (zh) * 2023-04-03 2023-08-15 武昌理工学院 一种古文到英文的固定风格翻译方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889366A (zh) * 2006-07-13 2007-01-03 浙江大学 哈夫曼解码方法
CN104951554A (zh) * 2015-06-29 2015-09-30 浙江大学 为风景照配上符合其意境的诗句的方法
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及***
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107480132A (zh) * 2017-07-25 2017-12-15 浙江工业大学 一种基于图像内容的古诗词生成方法
CN107832292A (zh) * 2017-11-02 2018-03-23 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380983B2 (en) * 2016-12-30 2019-08-13 Google Llc Machine learning to generate music from text

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1889366A (zh) * 2006-07-13 2007-01-03 浙江大学 哈夫曼解码方法
CN104951554A (zh) * 2015-06-29 2015-09-30 浙江大学 为风景照配上符合其意境的诗句的方法
CN107102981A (zh) * 2016-02-19 2017-08-29 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN105930318A (zh) * 2016-04-11 2016-09-07 深圳大学 一种词向量训练方法及***
CN105955964A (zh) * 2016-06-13 2016-09-21 北京百度网讯科技有限公司 一种自动生成诗歌的方法和装置
CN106569995A (zh) * 2016-09-26 2017-04-19 天津大学 基于语料库和格律规则的汉语古诗词自动生成方法
CN107291693A (zh) * 2017-06-15 2017-10-24 广州赫炎大数据科技有限公司 一种改进词向量模型的语义计算方法
CN107480132A (zh) * 2017-07-25 2017-12-15 浙江工业大学 一种基于图像内容的古诗词生成方法
CN107832292A (zh) * 2017-11-02 2018-03-23 合肥工业大学 一种基于神经网络模型的图像到汉语古诗的转换方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chinese Song Iambics Generation with Neural Attention-based Model;QixinWang et.al;《arXiv:1604.06274v2 [cs.CL]》;20160621;第1-7页 *
Evaluation ofWord Vector Representations by Subspace Alignment;Yulia Tsvetkov et.al;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150921;第2049-2054页 *
中国古典诗词楹联的计算化研究;周昌乐等;《心智与计算》;20121231;第6卷(第2期);第75-82页 *
基于统计抽词和格律的全宋词切分语料库建立;苏劲松等;《中文信息学报》;20070331;第21卷(第2期);第52-57页 *

Also Published As

Publication number Publication date
CN109086270A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086270B (zh) 基于古诗词语料向量化的自动作诗***及其方法
CN108614875B (zh) 基于全局平均池化卷积神经网络的中文情感倾向性分类方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
Ushiku et al. Common subspace for model and similarity: Phrase learning for caption generation from images
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN108153864A (zh) 基于神经网络生成文本摘要的方法
CN110609849B (zh) 一种基于sql语法树节点类型的自然语言生成方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
Liu et al. A multi-modal chinese poetry generation model
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN107679225A (zh) 一种基于关键词的回复生成方法
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN112257775B (zh) 一种基于卷积神经网络和无监督语言模型的由图成诗方法
CN113378547A (zh) 一种基于gcn的汉语复句隐式关系分析方法及装置
Wang et al. A text-guided generation and refinement model for image captioning
CN114254645A (zh) 一种人工智能辅助写作***
Poghosyan et al. Short-term memory with read-only unit in neural image caption generator
CN112464673B (zh) 融合义原信息的语言含义理解方法
CN115688803A (zh) 一种用于框架语义知识库构建的词元一致性框架推荐方法
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN112613316B (zh) 一种生成古汉语标注模型的方法和***
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN111292741A (zh) 智能语音交互机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant