CN106227714A - 一种基于人工智能的获取生成诗词的关键词的方法和装置 - Google Patents

一种基于人工智能的获取生成诗词的关键词的方法和装置 Download PDF

Info

Publication number
CN106227714A
CN106227714A CN201610556319.1A CN201610556319A CN106227714A CN 106227714 A CN106227714 A CN 106227714A CN 201610556319 A CN201610556319 A CN 201610556319A CN 106227714 A CN106227714 A CN 106227714A
Authority
CN
China
Prior art keywords
key word
word
poem
basis
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610556319.1A
Other languages
English (en)
Inventor
和为
王哲
伍海洋
李伟
何中军
胡晓光
刘璇
吴甜
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610556319.1A priority Critical patent/CN106227714A/zh
Publication of CN106227714A publication Critical patent/CN106227714A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的目的是提供一种基于人工智能的获取生成诗词的关键词的方法和装置。根据本发明的方法包括:从诗词请求信息中提取一个或多个基础关键词;当一基础关键词不在诗词语料库中时,获取与该基础关键词对应的一个或多个扩展关键词;由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。本发明的优点在于:通过对基础关键词进行扩展,来实现基础关键词和语料关键词之间的转换,使得诗词自动生成机制能够应对现代语言的不断更新和变化。

Description

一种基于人工智能的获取生成诗词的关键词的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于人工智能的获取生成诗词的关键词的方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。
现有的诗歌生成技术中,通常只能接受关键词的输入,而无法接受长句输入,同时,所接受的关键词通常需要为古诗词中的常用词,并且,诗词的生成过程也主要依赖古诗词的语料库。然而,人们所使用的自然语言发展到今天,已经出现了遇到古诗词中未包含的现代词汇,例如,“火锅”、“周杰伦”等新事物名称或现代人的人名等;并且,一些词汇在现代已经具有了与古时候完全不同的含义。在此情况下,现有的诗词生成方式往往无法实现各种新名词与古诗词韵律之间的融合,无法对生成诗词的所需的自然语言进行准确恰当的认知与处理。
发明内容
本发明的目的是提供一种基于人工智能的获取生成诗词的关键词的方法和装置。
根据本发明的一个方面,提供了一种基于人工智能的获取生成诗词的关键词的方法,其中,所述方法包括以下步骤:
a从诗词请求信息中提取一个或多个基础关键词;
b当一基础关键词不在诗词语料库中时,获取与该基础关键词对应的一个或多个扩展关键词;
c由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
根据本发明的一个方面,提供了一种基于人工智能的获取生成诗词的关键词的取词装置,其中,所述取词装置包括:
提取装置,用于从诗词请求信息中提取一个或多个基础关键词;
第一获取装置,用于当一基础关键词不在诗词语料库中时,获取与该基础关键词对应的一个或多个扩展关键词;
第一选择装置,用于由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
与现有技术相比,本发明具有以下优点:通过对基础关键词进行扩展,来实现基础关键词和语料关键词之间的转换,从而能够自动生成既满足原始的诗词请求信息,又符合古典诗词的韵律、用词等要求的诗词作品。实现了现代语言文化与诗词体裁和用语之间的融合,使得诗词自动生成机制能够应对现代语言的不断更新和变化。从而能够更广泛地满足使用者对于生成的诗词的需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示意出了根据本发明的一种基于人工智能的获取生成诗词的关键词的方法流程图;
图2示意出了根据本发明的一种基于人工智能的获取生成诗词的关键词的取词装置的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一种基于人工智能的获取生成诗词的关键词的方法流程图;其中,根据本发明的方法包括步骤S1、步骤S2和步骤S3。
其中,根据本发明的方法通过包含于计算机设备中的取词装置来实现。所述计算机设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述计算机设备包括网络设备与用户设备。
其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
其中,所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备等方式进行人机交互的电子产品,例如,电脑、平板电脑、智能手机、PDA或掌上游戏机等。
参照图1,在步骤S1中,取词装置从诗词请求信息中提取一个或多个基础关键词。
其中,所述诗词请求信息包括用于生成诗词的请求信息。优选地,所述诗词请求信息包括一个或多个基础关键词。
优选地,所述诗词请求信息采用具有较为复杂结构的长句子形式。
具体地,取词装置采用语义分析、分词等自然语言处理方式,从所述诗词请求信息中提取一个或多个基础关键词。
优选地,取词装置对诗词请求信息中的每个词基于其逆向文档频率(IDF,inversedocument frequency)进行排序,以根据各个词的IDF值排序结果,来选择所需的一个或多个基础关键词。
其中,某一个词的IDF值可通过下述公式(1)获得。
idf t = log | D | | D t | - - - ( 1 )
其中idft为关键词t的IDF值,|D|表示语料库中文档的总数,|Dt|表示包含关键词t的文档数量。
需要说明的是,当采用不同的语料库时,各个关键词的IDF值可能不同,例如,对于同一关键词,采用包含古诗词的诗词语料库,与采用包含所有网页的网页语料库,计算所得的IDF值可能不同。
本领域技术人员应可根据实际情况和需求,来确定所选择的语料库,进而获得相应的关键词的IDF值。例如,对于诗词请求信息中的各个关键词,可直接统计其在诗词语料库中的IDF值;又例如,当发现诗词请求信息中的某一关键词不在诗词语料库中时,可基于网页语料库来计算器IDF值,并用诗词语料库与网页语料库之间的调整权值对IDF值进行调整,等等。此处不再赘述。
接着,在步骤S2中,当一基础关键词不在诗词语料库中时,取词装置获取与该基础关键词对应的一个或多个扩展关键词。
其中,所述诗词语料库包括由诗词构成的语料库。例如,包含唐诗、宋词、元曲等多种素材的语料库。
具体地,当一基础关键词不在诗词语料库中时,取词装置采用多个网页对所述基础关键词进行扩展,以获取与该基础关键词对应的一个或多个扩展关键词。
优选地,取词装置获取与该基础关键词对应的一个或多个网页信息;接着,取词装置分别从所述一个或多个网页信息中提取与所述一个或多个网页信息分别对应的扩展关键词.
其中,所述扩展关键词与所述基础关键词不同。
例如,取词装置基于一基础关键词进行网页查询,以获得与该基础关键词对应的一个或多个结果网页,并基于该基础关键词,从该一个或多个结果网页中提取与该基础关键词相近或相关联的词作为扩展关键词。
其中,取词装置可以通过语义分析等自然语言处理方式,来确定与基础关键词相似或相关联的扩展关键词。
更优选地,取词装置基于所述基础关键词,在网页数据库中进行搜索,以获得多个与该基础关键词对应的网页信息;并基于各个网页信息的质量信息,从多个所述网页信息中选择质量信息满足预定质量条件的一个或多个网页信息。
其中,本领域技术人员应可理解,可以通过网页的访问数、外链数、用户停留时间等等参数来确定网页的质量信息,此处不再赘述。
接着,在步骤S3中,取词装置由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
具体地,取词装置分别判断该一个或多个扩展关键词是否被包含于诗词语料库中,当扩展关键词包含于诗词语料库中时,将该扩展关键词作为语料关键词。
根据本发明的一个示例,取词装置在步骤S1中获得基础关键词“刘德华”,并确定该基础关键词并不包含于诗词语料库中。接着,在步骤S2中,取词装置搜索并获取与该基础关键词“刘德华”的一个或多个网页,以从该一个或多个网页中,获取与该基础关键词对应的多个扩展关键词“天王”、“歌星”、“演员”等,接着,在步骤S3中,取词装置选择包含于诗词语料库中的扩展关键词“天王”,作为与基础关键词“刘德华”对应的语料关键词,以基于此来生成相应的诗句。
优选地,当基础关键词对应一个或多个扩展关键词的时候,取词装置分别获取所述一个或多个扩展关键词的权值信息,并且,基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词,作为与所述基础关键词对应的语料关键词。
其中,所述权值信息用于指示扩展关键词的重要性,例如,扩展关键词在网页数据库中的IDF值,又例如,当扩展关键词包含于诗词语料库中时,该扩展关键词在该诗词语料库中的IDF值等。
更优选地,取词装置从基础关键词对应的多个扩展关键词中,根据各个扩展关键词在网页数据库中的IDF值,选择预定数量的扩展关键词(例如x个);接着,分别判断该预定数量的扩展关键词是否均在诗词语料库中,并对包含于诗词语料库中的扩展关键词(例如y个,其中y≤x)分别获取其在诗词语料库中的IDF值,并基于该IDF值来选择至少一个扩展关键词,作为与该基础关键词对应的语料关键词。
根据本发明的一个优选方案,根据本发明的方法还包括步骤S4(图未示)。
在步骤S4中,当一基础关键词信息包含于语料库中时,取词装置将该基础关键词作为语料关键词。
根据本发明的又一优选方案,本发明的方法还包括步骤S5(图未示)和步骤S6(图未示)。
在步骤S5中,取词装置获取待生成的诗歌体裁。
其中,诗歌体裁包括诗歌的结构样式。例如,五言古诗、七言古诗、五言绝句、五言律诗、以及各类词牌、曲牌等等。
具体地,取词装置可根据用户的输入操作,或者根据预设体裁,来确定待生成的诗歌体裁。
接着,在步骤S6中,取词装置基于所述诗歌体裁,来确定所需的语料关键词的总数N。
具体地,取词装置根据待生成的诗歌的体裁,确定该体裁对应的句子数量,并根据句子数量来确定所需的预料关键词数。
优选地,取词装置将所获得的诗歌体裁中的句子数量作为所需的语料关键词的总数N。
例如,取词装置在步骤S5中确定用户选择七言绝句,则在步骤S6中,取词装置确定所需的语料关键词总数为4个;又例如,取词装置接收到用户的选择五言律诗的选择信息,则在步骤S6中,取词装置确定所需的语料关键词总数为8个;再例如,取词装置收到的体裁为词牌“念奴娇”,则在步骤S6中,取词装置根据该词牌对应的句式,确定对应的语料关键词总数为8个。
根据本方案的优选实施例,所述方法还包括步骤S7(图未示)。
在步骤S7中,当从所述诗词请求信息中提取的多个基础关键词的数量大于N个时,取词装置基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词。
其中,所述取词装置基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词的方式与前述取词装置基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词的方式相似或相近,不再赘述。
根据本方案的又一优选实施例,所述方法还包括步骤S8(图未示)。
在步骤S8中,当已确定的语料关键词少于N个时,对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
根据本方案的又一优选实施例,当已确定的语料关键词少于N个时,取词装置对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
具体地,取词装置通过基于诗词语料库中对各个词进行统计所获得的语言模型概率,来获取与以确定的一个或多个语料关键词对应的关联关键词,并将所获得的上/下文关键词作为语料关键词。
其中,取词装置可以直接根据各个词对应的语言模型概率,获取各个词分别对应的上/下文关键词;或者,取词装置可实时给予语言模型概率对诗词语料库中的某一语料关键词进行统计并获取其语言模型概率,以得到该语料关键词所对应的上/下文关键词。
例如,当获得的语料关键词为“落霞”一词时,取词装置根据对诗词语料库中的诗词的关键词进行统计得到的语言模型概率,可以确定与其对应的最常用的下文关键词为“孤鹜”,并将该下文关键词作为语料关键词。
又例如,当获得的语料关键词为“长江”时,取词装置对诗词语料库中包含“长江”一词的诗词句子进行统计如下:
(1)
无边/落木/萧萧/下,
不尽/长江/滚滚/来。
(2)
孤帆/远景/碧空/尽,
唯见/长江/天际/流。
则从上述两段诗句中,可以确定“长江”的上文关键词包括“不尽”、“唯见”;下文关键词包括“滚滚”、“天际”等。
接着,取词装置可基于语言模型概率,来从中选择相应的上/下文关键词作为语料关键词。
优选地,对于预定需要获得K个语料关键词,且当前已获得m个语料关键词的情况(m<K),用Wi表示第i个主题词,则获得余下K-m个语料关键词的过程可以通过下述公式(2)来表示:
W n + 1 : K = arg max W m + 1 : K P ( W m + 1 : K | W 1 : m ) - - - ( 2 )
其中,Wm+1:K表示第m+1至第K个关键词的序列,P(Wm+1:K|W1:m)表示给定了W1:m(第1个至第m个词的序列)的情况下,Wm+1:K出现的条件概率。
根据马尔可夫假设(Markov Assumption),每个词出现概率只和前n-1个词相关(这里n是一个超参数,一般取5),这里用n元语言模型的方法对P(Wm+1:K|W1:m)求解,所以得到以下公式(3):
P ( W m + 1 : K | W 1 : m ) = Π j = m + 1 K P ( W j | W j - n + 1 , ... , W j - 1 ) - - - ( 3 )
这里Wj-n+1,...,Wj-1表示单词Wj前面的n-1个单词,P(Wj|Wj-n+1,...,Wj-1)表示给定前n-1个单词的情况下,生成Wj的条件概率。
其中,概率P(Wj|Wj-n+1,...,Wj-1)可以采用如下公式(4),通过极大似然估计的方法进行:
P ( W j | W j - n + 1 , ... , W j - 1 ) = C ( W j - n + 1 , ... , W j ) C ( W j - n + 1 , ... , W j - 1 ) - - - ( 4 )
其中,公式(4)中的C(Wj-n+1,...,Wj)表示频次统计,即单词串Wj-n+1,...,Wj在语料库中的出现次数,相似地,C(Wj-n+1,...,Wj-1)表示单词串Wj-n+1,...,Wj-1在语料库中的出现次数。
根据本发明的又一优选方案,根据本发明的方法还包括由取词装置基于所接收的语音信息来确定所述诗词请求信息;和/或,取词装置将所生成的所述诗句转换为语音信息。
其中,本领域技术人员应可根据实际情况和需求来将诗句对应的文本或语音转换为相应的形式,此处不再赘述。
根据本发明的方法,通过对基础关键词进行扩展,来实现基础关键词和语料关键词之间的转换,从而能够自动生成既满足原始的诗词请求信息,又符合古典诗词的韵律、用词等要求的诗词作品。实现了现代语言文化与诗词体裁和用语之间的融合,使得诗词自动生成机制能够应对现代语言的不断更新和变化。从而能够更广泛地满足使用者对于生成的诗词的需求。
图2示意出了根据本发明的一种基于人工智能的获取生成诗词的关键词的取词装置的结构示意图。其中,根据本发明的取词装置包括提取装置1、第一获取装置2和第一选择装置3。
参照图2,提取装置1从诗词请求信息中提取一个或多个基础关键词。
其中,所述诗词请求信息包括用于生成诗词的请求信息。优选地,所述诗词请求信息包括一个或多个基础关键词。
优选地,所述诗词请求信息采用具有较为复杂结构的长句子形式。
具体地,提取装置1采用语义分析、分词等自然语言处理方式,从所述诗词请求信息中提取一个或多个基础关键词。
优选地,提取装置1对诗词请求信息中的每个词基于其逆向文档频率(IDF,inverse document frequency)进行排序,以根据各个词的IDF值排序结果,来选择所需的一个或多个基础关键词。
其中,某一个词的IDF值可通过下述公式(1)获得。
idf t = log | D | | D t | - - - ( 1 )
其中idft为关键词t的IDF值,|D|表示语料库中文档的总数,|Dt|表示包含关键词t的文档数量。
需要说明的是,当采用不同的语料库时,各个关键词的IDF值可能不同,例如,对于同一关键词,采用包含古诗词的诗词语料库,与采用包含所有网页的网页语料库,计算所得的IDF值可能不同。
本领域技术人员应可根据实际情况和需求,来确定所选择的语料库,进而获得相应的关键词的IDF值。例如,对于诗词请求信息中的各个关键词,可直接统计其在诗词语料库中的IDF值;又例如,当发现诗词请求信息中的某一关键词不在诗词语料库中时,可基于网页语料库来计算器IDF值,并用诗词语料库与网页语料库之间的调整权值对IDF值进行调整,等等。此处不再赘述。
接着,当一基础关键词不在诗词语料库中时,第一获取装置2获取与该基础关键词对应的一个或多个扩展关键词。
其中,所述诗词语料库包括由诗词构成的语料库。例如,包含唐诗、宋词、元曲等多种素材的语料库。
具体地,当一基础关键词不在诗词语料库中时,第一获取装置2采用多个网页对所述基础关键词进行扩展,以获取与该基础关键词对应的一个或多个扩展关键词。
优选地,包含于第一获取装置2中国的子获取装置(图未示)获取与该基础关键词对应的一个或多个网页信息;接着,包含于第一获取装置2中国的子提取装置(图未示)分别从所述一个或多个网页信息中提取与所述一个或多个网页信息分别对应的扩展关键词.
其中,所述扩展关键词与所述基础关键词不同。
例如,子获取装置基于一基础关键词进行网页查询,以获得与该基础关键词对应的一个或多个结果网页,并且子提取装置基于该基础关键词,从该一个或多个结果网页中提取与该基础关键词相近或相关联的词作为扩展关键词。
其中,子提取装置可以通过语义分析等自然语言处理方式,来确定与基础关键词相似或相关联的扩展关键词。
更优选地,包含于子获取装置中的搜索装置(图未示)基于所述基础关键词,在网页数据库中进行搜索,以获得多个与该基础关键词对应的网页信息;并且,包含于子获取装置中的第二选择装置(图未示)基于各个网页信息的质量信息,从多个所述网页信息中选择质量信息满足预定质量条件的一个或多个网页信息。
其中,本领域技术人员应可理解,可以通过网页的访问数、外链数、用户停留时间等等参数来确定网页的质量信息,此处不再赘述。
接着,第一选择装置3由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
具体地,第一选择装置3分别判断该一个或多个扩展关键词是否被包含于诗词语料库中,当扩展关键词包含于诗词语料库中时,将该扩展关键词作为语料关键词。
根据本发明的一个示例,提取装置1获得基础关键词“刘德华”,并确定该基础关键词并不包含于诗词语料库中。接着,第一获取装置2搜索并获取与该基础关键词“刘德华”的一个或多个网页,以从该一个或多个网页中,获取与该基础关键词对应的多个扩展关键词“天王”、“歌星”、“演员”等,接着,第一选择装置3选择包含于诗词语料库中的扩展关键词“天王”,作为与基础关键词“刘德华”对应的语料关键词,以基于此来生成相应的诗句。
优选地,当基础关键词对应一个或多个扩展关键词的时候,包含于第一选择装置3中的第二获取装置(图未示)分别获取所述一个或多个扩展关键词的权值信息,并且,包含于第一选择装置3中的第一子选择装置(图未示)基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词,作为与所述基础关键词对应的语料关键词。
其中,所述权值信息用于指示扩展关键词的重要性,例如,扩展关键词在网页数据库中的IDF值,又例如,当扩展关键词包含于诗词语料库中时,该扩展关键词在该诗词语料库中的IDF值等。
更优选地,第一选择装置3从基础关键词对应的多个扩展关键词中,根据各个扩展关键词在网页数据库中的IDF值,选择预定数量的扩展关键词(例如x个);接着,分别判断该预定数量的扩展关键词是否均在诗词语料库中,并对包含于诗词语料库中的扩展关键词(例如y个,其中y≤x)分别获取其在诗词语料库中的IDF值,并基于该IDF值来选择至少一个扩展关键词,作为与该基础关键词对应的语料关键词。
根据本发明的一个优选方案,当一基础关键词信息包含于语料库中时,取词装置将该基础关键词作为语料关键词。
根据本发明的又一优选方案,本发明的取词装置还包括第三获取装置(图未示)和确定装置(图未示)。
第三获取装置获取待生成的诗歌体裁。
其中,诗歌体裁包括诗歌的结构样式。例如,五言古诗、七言古诗、五言绝句、五言律诗、以及各类词牌、曲牌等等。
具体地,第三获取装置可根据用户的输入操作,或者根据预设体裁,来确定待生成的诗歌体裁。
接着,确定装置基于所述诗歌体裁,来确定所需的语料关键词的总数N。
具体地,确定装置根据待生成的诗歌的体裁,确定该体裁对应的句子数量,并根据句子数量来确定所需的预料关键词数。
优选地,确定装置将所获得的诗歌体裁中的句子数量作为所需的语料关键词的总数N。
例如,第三获取装置获得用户选择七言绝句,则确定装置确定所需的语料关键词总数为4个;又例如,第三获取装置接收到用户的选择五言律诗的选择信息,则第三获取装置确定所需的语料关键词总数为8个;再例如,第三获取装置收到的体裁为词牌“念奴娇”,则第三获取装置根据该词牌对应的句式,确定对应的语料关键词总数为8个。
根据本方案的优选实施例,当从所述诗词请求信息中提取的多个基础关键词的数量大于N个时,取词装置基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词。
其中,所述取词装置基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词的方式与前述取词装置基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词的方式相似或相近,不再赘述。
根据本方案的又一优选实施例,当已确定的语料关键词少于N个时,取词装置对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
根据本方案的又一优选实施例,当已确定的语料关键词少于N个时,取词装置对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
具体地,取词装置通过基于诗词语料库中对各个词进行统计所获得的语言模型概率,来获取与以确定的一个或多个语料关键词对应的关联关键词,并将所获得的上/下文关键词作为语料关键词。
其中,取词装置可以直接根据各个词对应的语言模型概率,获取各个词分别对应的上/下文关键词;或者,取词装置可实时给予语言模型概率对诗词语料库中的某一语料关键词进行统计并获取其语言模型概率,以得到该语料关键词所对应的上/下文关键词。
例如,当获得的语料关键词为“落霞”一词时,取词装置根据对诗词语料库中的诗词的关键词进行统计得到的语言模型概率,可以确定与其对应的最常用的下文关键词为“孤鹜”,并将该下文关键词作为语料关键词。
又例如,当获得的语料关键词为“长江”时,取词装置对诗词语料库中包含“长江”一词的诗词句子进行统计如下:
(1)
无边/落木/萧萧/下,
不尽/长江/滚滚/来。
(2)
孤帆/远景/碧空/尽,
唯见/长江/天际/流。
则从上述两段诗句中,可以确定“长江”的上文关键词包括“不尽”、“唯见”;下文关键词包括“滚滚”、“天际”等。
接着,取词装置可基于语言模型概率,来从中选择相应的上/下文关键词作为语料关键词。
优选地,对于预定需要获得K个语料关键词,且当前已获得m个语料关键词的情况(m<K),用Wi表示第i个主题词,则获得余下K-m个语料关键词的过程可以通过下述公式(2)来表示:
W m + 1 : K = arg max W m + 1 : K P ( W m + 1 : K | W 1 : m ) - - - ( 2 )
其中,Wm+1:K表示第m+1至第K个关键词的序列,P(Wm+1:K|W1:m)表示给定了W1:m(第1个至第m个词的序列)的情况下,Wm+1:K出现的条件概率。
根据马尔可夫假设(Markov Assumption),每个词出现概率只和前n-1个词相关(这里n是一个超参数,一般取5),这里用n元语言模型的方法对P(Wm+1:K|W1:m)求解,所以得到以下公式(3):
P ( W m + 1 : K | W 1 : m ) = Π j = m + 1 K P ( W j | W j - n + 1 , ... , W j - 1 ) - - - ( 3 )
这里Wj-n+1,...,Wj-1表示单词Wj前面的n-1个单词,P(Wj|Wj-n+1,...,Wj-1)表示给定前n-1个单词的情况下,生成Wj的条件概率。
其中,概率P(Wj|Wj-n+1,...,Wj-1)可以采用如下公式(4),通过极大似然估计的方法进行:
P ( W j | W j - n + 1 , ... , W j - 1 ) = C ( W j - n + 1 , ... , W j ) C ( W j - n + 1 , ... , W j - 1 ) - - - ( 4 )
其中,公式(4)中的C(Wj-n+1,...,Wj)表示频次统计,即单词串Wj-n+1,...,Wj在语料库中的出现次数,相似地,C(Wj-n+1,...,Wj-1)表示单词串Wj-n+1,...,Wj-1在语料库中的出现次数。
根据本发明的又一优选方案,由取词装置基于所接收的语音信息来确定所述诗词请求信息;和/或,由取词装置将所生成的所述诗句转换为语音信息。
其中,本领域技术人员应可根据实际情况和需求来将诗句对应的文本或语音转换为相应的形式,此处不再赘述。
根据本发明的方案,通过对基础关键词进行扩展,来实现基础关键词和语料关键词之间的转换,从而能够自动生成既满足原始的诗词请求信息,又符合古典诗词的韵律、用词等要求的诗词作品。实现了现代语言文化与诗词体裁和用语之间的融合,使得诗词自动生成机制能够应对现代语言的不断更新和变化。从而能够更广泛地满足使用者对于生成的诗词的需求。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种基于人工智能的获取生成诗词的关键词的方法,其中,所述方法包括以下步骤:
a从诗词请求信息中提取一个或多个基础关键词;
b当一基础关键词不在诗词语料库中时,获取与该基础关键词对应的一个或多个扩展关键词;
c由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
2.根据权利要求1所述的方法,其中,所述步骤b进一步包括以下步骤:
b1获取与该基础关键词对应的一个或多个网页信息;
b2分别从所述一个或多个网页信息中提取与所述一个或多个网页信息分别对应的扩展关键词,其中,所述扩展关键词与所述基础关键词不同。
3.根据权利要求2所述的方法,其中,所述步骤b1进一步包括:
-基于所述基础关键词,在网页数据库中进行搜索,以获得多个与该基础关键词对应的网页信息;
-基于各个网页信息的质量信息,从多个所述网页信息中选择质量信息满足预定质量条件的一个或多个网页信息。
4.根据权利要求1至3中任一项所述的方法,其中,所述步骤c进一步包括以下步骤:
-分别获取所述一个或多个扩展关键词的权值信息;
-基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词,作为与所述基础关键词对应的语料关键词。
5.根据权利要求1至4中任一项所述的方法,其中,所述方法还包括以下步骤:
-当一基础关键词信息包含于语料库中时,将该基础关键词作为语料关键词。
6.根据权利要求1至5中任一项所述的方法,其中,所述方法还包括以下步骤:
-获取待生成的诗歌体裁;
-基于所述诗歌体裁,来确定所需的语料关键词的总数N。
7.根据权利要求6所述的方法,其中,所述方法还包括以下步骤:
-当从所述诗词请求信息中提取的多个基础关键词的数量大于N个时,基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词。
8.根据权利要求6或7所述的方法,其中,所述方法还包括以下步骤:
-当已确定的语料关键词少于N个时,对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
9.根据权利要求1至8中任一项所述的方法,其中,所述方法还包括以下步骤:
-基于所接收的语音信息来确定所述诗词请求信息。
10.根据权利他要求1至9中任一项所述的方法,其中,所述方法还包括以下步骤:
-将所生成的所述诗句转换为语音信息。
11.一种基于人工智能的获取生成诗词的关键词的取词装置,其中,所述取词装置包括:
提取装置,用于从诗词请求信息中提取一个或多个基础关键词;
第一获取装置,用于当一基础关键词不在诗词语料库中时,获取与该基础关键词对应的一个或多个扩展关键词;
第一选择装置,用于由所述一个或多个扩展关键词中,选择包含于所述诗词语料库中的至少一个扩展关键词,作为与该关键词对应的语料关键词,以基于该语料关键词生成相应的诗句。
12.根据权利要求11所述的取词装置,其中,所述第一获取装置进一步包括:
子获取装置,用于获取与该基础关键词对应的一个或多个网页信息;
子提取装置,用于分别从所述一个或多个网页信息中提取与所述一个或多个网页信息分别对应的扩展关键词,其中,所述扩展关键词与所述基础关键词不同。
13.根据权利要求12所述的取词装置,其中,所述子获取装置进一步包括:
搜索装置,用于基于所述基础关键词,在网页数据库中进行搜索,以获得多个与该基础关键词对应的网页信息;
第二选择装置,用于基于各个网页信息的质量信息,从多个所述网页信息中选择质量信息满足预定质量条件的一个或多个网页信息。
14.根据权利要求11至13中任一项所述的方法,其中,所述第一选择装置进一步包括:
第二获取装置,用于分别获取所述一个或多个扩展关键词的权值信息;
第一子选择装置,用于基于所述一个或多个扩展关键词各自的权值信息来从中选择至少一个扩展关键词,作为与所述基础关键词对应的语料关键词。
15.根据权利要求11至14中任一项所述的取词装置,其中,所述取词装置还用于:
-当一基础关键词信息包含于语料库中时,将该基础关键词作为语料关键词。
16.根据权利要求11至15中任一项所述的取词装置,其中,所述取词装置还包括:
第三获取装置,用于获取待生成的诗词体裁;
确定装置,用于基于所述诗歌体裁,来确定所需的语料关键词的总数N。
17.根据权利要求16所述的取词装置,其中,所述取词装置还用于:
-当从所述诗词请求信息中提取的多个基础关键词的数量大于N个时,基于各个基础关键词的权值信息,从所述多个基础关键词中选择N个基础关键词。
18.根据权利要求16或17所述的取词装置,其中,所述取词装置还用于:
-当已确定的语料关键词少于N个时,对所述已确定的语料关键词基于所述诗词语料库进行扩展,以从语料数据库中获得余下个数的语料关键词。
19.根据权利要求11至18中任一项所述的取词装置,其中,所述取词装置还用于:
-基于所接收的语音信息来确定所述诗词请求信息。
20.根据权利他要求11至19中任一项所述的取词装置,其中,所述取词装置还用于:
-将所生成的所述诗句转换为语音信息。
CN201610556319.1A 2016-07-14 2016-07-14 一种基于人工智能的获取生成诗词的关键词的方法和装置 Pending CN106227714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610556319.1A CN106227714A (zh) 2016-07-14 2016-07-14 一种基于人工智能的获取生成诗词的关键词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610556319.1A CN106227714A (zh) 2016-07-14 2016-07-14 一种基于人工智能的获取生成诗词的关键词的方法和装置

Publications (1)

Publication Number Publication Date
CN106227714A true CN106227714A (zh) 2016-12-14

Family

ID=57520060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610556319.1A Pending CN106227714A (zh) 2016-07-14 2016-07-14 一种基于人工智能的获取生成诗词的关键词的方法和装置

Country Status (1)

Country Link
CN (1) CN106227714A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095752A (zh) * 2016-06-07 2016-11-09 北京百度网讯科技有限公司 一种用于自动生成诗歌的方法和装置
CN107944003A (zh) * 2017-12-06 2018-04-20 国云科技股份有限公司 一种古诗词收集和数据分析方法
CN108415893A (zh) * 2018-03-15 2018-08-17 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及***
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
WO2019242001A1 (en) * 2018-06-22 2019-12-26 Microsoft Technology Licensing, Llc Method, computing device and system for generating content
CN110738061A (zh) * 2019-10-17 2020-01-31 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN110852086A (zh) * 2019-09-18 2020-02-28 平安科技(深圳)有限公司 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN111814488A (zh) * 2020-07-22 2020-10-23 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN111950255A (zh) * 2019-05-17 2020-11-17 腾讯数码(天津)有限公司 诗词生成方法、装置、设备及存储介质
CN113010717A (zh) * 2021-04-26 2021-06-22 中国人民解放军国防科技大学 图像诗句描述生成方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1112541A1 (en) * 1998-09-09 2001-07-04 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability
CN102014199A (zh) * 2010-09-16 2011-04-13 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法及终端
CN102385596A (zh) * 2010-09-03 2012-03-21 腾讯科技(深圳)有限公司 一种诗句的搜索方法及装置
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103530291A (zh) * 2012-07-03 2014-01-22 同程网络科技股份有限公司 适用于搜索引擎的关键词投放拓词方法及其装置
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1112541A1 (en) * 1998-09-09 2001-07-04 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability
CN102385596A (zh) * 2010-09-03 2012-03-21 腾讯科技(深圳)有限公司 一种诗句的搜索方法及装置
CN102014199A (zh) * 2010-09-16 2011-04-13 宇龙计算机通信科技(深圳)有限公司 一种信息显示方法及终端
CN103530291A (zh) * 2012-07-03 2014-01-22 同程网络科技股份有限公司 适用于搜索引擎的关键词投放拓词方法及其装置
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103744956A (zh) * 2014-01-06 2014-04-23 同济大学 一种关键词的多样化拓展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔希亮,张宝林主编: "《第二届汉语中介语语料库建设与应用国际学术讨论会论文选集》", 31 December 2013 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095752A (zh) * 2016-06-07 2016-11-09 北京百度网讯科技有限公司 一种用于自动生成诗歌的方法和装置
CN106095752B (zh) * 2016-06-07 2019-06-25 北京百度网讯科技有限公司 一种用于自动生成诗歌的方法和装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及***
CN107944003A (zh) * 2017-12-06 2018-04-20 国云科技股份有限公司 一种古诗词收集和数据分析方法
CN108415893A (zh) * 2018-03-15 2018-08-17 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
WO2019174186A1 (zh) * 2018-03-15 2019-09-19 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
CN108415893B (zh) * 2018-03-15 2019-09-20 平安科技(深圳)有限公司 诗歌自动生成方法、装置、计算机设备及存储介质
WO2019242001A1 (en) * 2018-06-22 2019-12-26 Microsoft Technology Licensing, Llc Method, computing device and system for generating content
CN111950255A (zh) * 2019-05-17 2020-11-17 腾讯数码(天津)有限公司 诗词生成方法、装置、设备及存储介质
CN111950255B (zh) * 2019-05-17 2023-05-30 腾讯数码(天津)有限公司 诗词生成方法、装置、设备及存储介质
CN110414001A (zh) * 2019-07-18 2019-11-05 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110414001B (zh) * 2019-07-18 2023-09-26 腾讯科技(深圳)有限公司 语句生成方法和装置、存储介质及电子装置
CN110852086A (zh) * 2019-09-18 2020-02-28 平安科技(深圳)有限公司 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN110852086B (zh) * 2019-09-18 2022-02-08 平安科技(深圳)有限公司 基于人工智能的古诗词生成方法、装置、设备及存储介质
CN110738061A (zh) * 2019-10-17 2020-01-31 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN110738061B (zh) * 2019-10-17 2024-05-28 北京搜狐互联网信息服务有限公司 古诗词生成方法、装置、设备及存储介质
CN111814488A (zh) * 2020-07-22 2020-10-23 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN111814488B (zh) * 2020-07-22 2024-06-07 网易(杭州)网络有限公司 一种诗词生成方法、装置、电子设备及可读存储介质
CN113010717A (zh) * 2021-04-26 2021-06-22 中国人民解放军国防科技大学 图像诗句描述生成方法、装置和设备

Similar Documents

Publication Publication Date Title
CN106227714A (zh) 一种基于人工智能的获取生成诗词的关键词的方法和装置
Liu et al. Unsupervised paraphrasing by simulated annealing
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN105069102B (zh) 信息推送方法和装置
CN103514299B (zh) 信息搜索方法和装置
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN101470732B (zh) 一种辅助词库的生成方法和装置
CN105069143B (zh) 提取文档中关键词的方法及装置
CN102567509B (zh) 视觉信息辅助的即时通信方法及***
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答***实现方法
CN102955848A (zh) 一种基于语义的三维模型检索***和方法
KR101668725B1 (ko) 잠재 키워드 생성 방법 및 장치
CN103870000A (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及***
CN104978314A (zh) 媒体内容推荐方法及装置
CN105740310B (zh) 一种用于问答***中的自动答案摘要方法及***
CN104133855A (zh) 一种输入法智能联想的方法及装置
CN105096934A (zh) 构建语音特征库的方法、语音合成方法、装置及设备
CN102844755A (zh) 提取命名实体的方法
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
CN106095912A (zh) 用于生成扩展查询词的方法和装置
CN110348919A (zh) 物品推荐方法、装置和计算机可读存储介质
CN115018549A (zh) 广告文案生成方法及其装置、设备、介质、产品
CN109960721A (zh) 基于源内容的多重压缩构造内容

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214

RJ01 Rejection of invention patent application after publication