CN108694160B - 文章生成方法、设备及存储介质 - Google Patents

文章生成方法、设备及存储介质 Download PDF

Info

Publication number
CN108694160B
CN108694160B CN201810462391.7A CN201810462391A CN108694160B CN 108694160 B CN108694160 B CN 108694160B CN 201810462391 A CN201810462391 A CN 201810462391A CN 108694160 B CN108694160 B CN 108694160B
Authority
CN
China
Prior art keywords
topic
sentence
subject
sentences
dimension vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810462391.7A
Other languages
English (en)
Other versions
CN108694160A (zh
Inventor
富饶
徐娟
汪非易
侯培旭
于志安
汤彪
张弓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810462391.7A priority Critical patent/CN108694160B/zh
Publication of CN108694160A publication Critical patent/CN108694160A/zh
Priority to PCT/CN2018/121310 priority patent/WO2019218660A1/zh
Priority to US17/097,405 priority patent/US11288454B2/en
Application granted granted Critical
Publication of CN108694160B publication Critical patent/CN108694160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文章生成方法、设备及计算机存储介质,该方法包括:基于用户输入的需求信息挖掘内容源;利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。

Description

文章生成方法、设备及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种文章生成方法、设备及计算机存储介质。
背景技术
随着用户消费的不断升级,低价格不再是决定用户消费的主要因素,用户更渴望获取多元化信息来支持消费决策。于是包括有多元化信息的头条文章逐步成为各大电商和内容平台炙手可热的需求。目前的文章发布平台主要通过以下三种方式获取文章:
1.人工撰写,以个人或公众号的身份发布内容;
2.外源爬取文章头条,在内容平台中分发;
3.通过模板拼接的形式生成文章。
然而,现有文章获取的方式无论是在数量上还是在质量上都远远不能满足用户对文章内容的需求。具体地,人工编辑难以量化;外源爬取的文章往往不切合平台自身业务,质量不达标且可分发占比率低;模板拼接的文章可应用的领域受限,目前仅在一些体育竞事或股票新闻播报中应用。此外,当前的文章获取方式还存在获取周期长,成本高等缺点。
另外,中国专利公开号CN106874248A公开了一种基于人工智能的文章生成方法和装置,方法包括通过根据文章语料,预先建立模板库之后,选取模板库中的目标基础框架,进而在预设数据库中,根据目标基础框架中各段落所描述的对象和所涉及的字段进行搜索,得到对象对应的各字段内容,并在目标基础框架中的每一段落位置,分别对应填充搜索到的各字段内容,得到文章主体,最后根据在标题库中匹配得到的文章主体的目标标题,以及该文章主体,拼接生成文章。由于基础框架用于指示对应类别的文章中,各段落所描述的对象,以及所述段落所涉及的字段,从而根据预设数据库中的字段内容对基础框架进行填充后能够自动生成文章,避免了人工编辑,解决了现有技术中人工编写文章效率较低的技术问题。
此发明所涉及的文章获取方式属于通过模板拼接的形式生成文章的一种具体实现,故也存在可应用领域受限,且获取周期长,成本高等缺点。
由此可见,现有的文章获取方式均无法基于用户需求来实现文章的自动撰写。
发明内容
本发明的目的是克服现有技术中无法基于用户需求来实现文章的自动撰写,且存在生成周期长,成本高,质量不达标的缺陷。
根据本发明第一方面,提供一种文章生成方法,包括:基于用户输入的需求信息挖掘内容源;利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
根据本发明的一个实施方式,其中,所述基于用户输入的需求信息挖掘内容源包括:解析所述需求信息,得到文章描述对象和/或条件信息;挖掘与所述文章描述对象和/或条件信息相匹配的兴趣点;将对应于所述兴趣点的用户原创内容确定为内容源。
根据本发明的一个实施方式,其中,解析所述需求内容包括以下操作至少之一:对所述需求信息进行分词;对所述需求信息进行词性分析;对所述需求信息进行命名实体识别;以及对所述需求信息进行语义归一化处理。
根据本发明的一个实施方式,其中,所述与所述文章描述对象和/或条件信息相匹配的兴趣点(POI,Point of Interest)为多个;所述挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点之后,将所述内容信息库中对应于所述兴趣点的用户原创内容确定为内容源之前,所述方法进一步包括:获取所述多个兴趣点中每个兴趣点的用户评分;根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;将对应于所述兴趣点的用户原创内容(UGC,User Generated Content)确定为内容源,包括:将对应于所述目标兴趣点的用户原创内容确定为内容源。
根据本发明的一个实施方式,其中,所述利用特定主题生成模型从所述内容源中提取至少一个主题维度向量,包括:通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中提取至少一个主题描述词;通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
根据本发明的一个实施方式,其中,所述依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句包括:对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;将所计算的余弦相似度符合阈值的候选主题句作为对应主题维度向量的主题句。
根据本发明的一个实施方式,其中,所述计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度,包括:针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;通过第二词向量转换模型将所述分词结果转换成句子向量;计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
根据本发明的一个实施方式,其中,所述得到对应于每一个主题维度向量的主题句之后,对所述对应于主题维度向量的主题句进行拼接合成之前,还包括:根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
根据本发明的一个实施方式,其中,所述根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:方式一:针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;如果是,则保留所述主题句;否则,过滤所述主题句;方式二:根据特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选,包括:针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;如果是,则保留所述主题句;否则,过滤所述主题句。
根据本发明的一个实施方式,其中,所述对所述对应于主题维度向量的主题句进行拼接合成之前,所述方法进一步包括:确定所述主题句与对应的主题维度向量之间的思想关联度;根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。
根据本发明的一个实施方式,其中,所述确定所述主题句与对应的主题维度向量之间的思想关联度,包括:通过循环神经网络(RNN,Recurrent Neural Networks)和/或关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
根据本发明的一个实施方式,其中,在对所述每一个主题维度向量的主题句进行拼接合成之前,所述方法进一步包括:采用匹配机制(MMR,Match Making Rating)来对所得到的对应于每一个主题维度向量的主题句进行去重处理。
根据本发明的一个实施方式,其中,所生成的符合所述需求信息的文章还包括图片信息。
根据本发明的一个实施方式,其中,所述方法进一步包括:从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;将所述图片信息与所生成的文章进行融合,以形成图片混合的文章。
根据本发明的一个实施方式,其中,所述方法进一步包括:查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。
根据本发明第二方面,提供一种文章生成设备,包括:内容源挖掘装置,用于基于用户输入的需求信息挖掘内容源;主题维度向量提取装置,用于利用特定主题生成模型从挖掘的内容源中提取至少一个主题维度向量;主题句挖掘装置,用于依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;主题句拼接生成装置,用于对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
根据本发明的一个实施方式,其中,所述内容源挖掘装置包括:解析模块,用于所述需求信息,得到文章描述对象和/或条件信息;挖掘模块,用于挖掘与所述文章描述对象和/或条件信息相匹配的兴趣点;确定模块,用于将对应于所述兴趣点的用户原创内容确定为内容源。
根据本发明的一个实施方式,其中,所述解析模块解析所述需求信息包括以下操作至少之一:对所述需求信息进行分词;对所述需求信息进行词性分析;对所述需求信息进行命名实体识别;以及对所述需求信息进行语义归一化处理。
根据本发明的一个实施方式,其中,所述与所述文章描述对象和/或条件信息相匹配的兴趣点为多个;所述确定模块还用于,在通过所述挖掘模块挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点之后,获取所述多个兴趣点中每个兴趣点的用户评分;根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;所述确定模块还用于,将对应于所述目标兴趣点的用户原创内容确定为内容源。
根据本发明的一个实施方式,其中,所述主题维度向量提取装置包括:提取模块,用于通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中,提取至少一个主题描述词;转换模块,用于通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
根据本发明的一个实施方式,其中,所述主题句挖掘装置包括:分句处理模块,用于对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;计算模块,用于计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;判断模块,用于将所计算的余弦相似度符合特定阈值的候选主题句作为对应主题维度向量的主题句。
根据本发明的一个实施方式,其中,所述计算模块还用于,针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;通过第二词向量转换模型将所述分词结果转换成句子向量;计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
根据本发明的一个实施方式,其中,所述设备还包括主题句筛选装置;所述主题句筛选装置,用于在通过所述主题句拼接生成装置对所述对应于主题维度向量的主题句进行拼接合成之前,根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
根据本发明的一个实施方式,其中,所述主题句筛选装置根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:方式一:针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;如果是,则保留所述主题句;否则,过滤所述主题句;方式二:针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;如果是,则保留所述主题句;否则,过滤所述主题句。
根据本发明的一个实施方式,其中,所述主题句拼接生成装置还用于,在对对应于每一个主题维度向量的主题句进行拼接合成之前,确定所述主题句与对应的主题维度向量之间的思想关联度;根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。
根据本发明的一个实施方式,其中,所述主题句拼接生成装置还用于,通过循环神经网络RNN和关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
根据本发明的一个实施方式,其中,所述主题句拼接生成装置还用于,在对所述每一个主题维度向量的主题句进行拼接合成之前,采用匹配机制MMR方法来对所得到的对应于每一个主题维度向量的主题句进行去重处理。
根据本发明的一个实施方式,其中,所生成的符合所述需求信息的文章还包括图片信息。
根据本发明的一个实施方式,其中,所述设备还包括图文融合装置;所述图文融合装置,用于从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;将所述图片信息与所生成的文章进行融合,以形成图文混合的文章。
根据本发明的一个实施方式,其中,所述设备还包括文章标题生成装置;所述文章标题生成装置,用于查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。
根据本发明第三方面,提供一种文章生成设备,包括:一个或者多个处理器;存储器;存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如上所述的方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如上所述的方法。
本发明实施例基于用户输入的需求信息挖掘内容源,进一步从挖掘的内容源中获取与用户需求关联性强的文章内容,生成符合所述需求信息的文章,从而实现基于用户需求来实现文章的自动撰写,且文章生成周期短,成本低,质量优。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例的文章生成方法的流程图;
图2示出了本发明实施例基于用户输入的需求信息挖掘内容源的实现流程图;
图3示出了本发明一应用示例以“粉家柳州螺蛳粉”为例的基于人工智能所生成的文章的显示效果图;
图4示出了本发明实施例的文章生成设备的组成结构示意图;
图5示出了根据本发明实施方式的文章生成设备的示意图;
图6示出了根据本发明实施方式的基于人工智能的文章生成的计算机可读存储介质的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图对本发明的具体实施方式进行详细描述。
图1示出了本发明实施例的文章生成方法的流程图。如图1所示,该方法包括:
操作101,基于用户输入的需求信息挖掘内容源;
操作102,利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;
操作103,依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及
操作104,对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
这里,在本发明实施例在基于人工智能生成满足用户需求的文章的过程中,用户仅需将需求信息输入至终端,以使终端响应于用户输入的需求信息来自动化执行操作101~104的步骤即可。
其中,所述终端可以是个人计算机(PC,Personal Computer)这种固定的电子设备,还可以为如个人数字助理(PAD)、手提电脑、平板电脑这种便携式的电子设备,当然还可以为如智能手机这种智能移动终端。
下面首先针对终端响应于用户输入的需求信息后执行的操作101进行详细描述。
图2示出了本发明实施例基于用户输入的需求信息挖掘内容源的实现流程图。如图2所示,在本发明一种可能的实现方式中,所述基于用户输入的需求信息挖掘内容源包括:操作1011,解析所述需求信息,得到文章描述对象和/或条件信息;操作1012,挖掘与所述文章描述对象和/或条件信息相匹配的兴趣点;操作1013,将对应于所述兴趣点的用户原创内容确定为内容源。
需要理解的是,所述需求信息为用户输入的任意形式的信息。举例来是,所述需求信息可以包括品牌名、商户名、推荐菜及其地理位置等类型的不同组合形式的信息。当然,在具体应用中,用户通常输入至终端的需求信息可能仅包括用户所感兴趣的地址、类目、品牌等类型的信息,如“静安寺海底捞”;还可能包括用来对地址、类目、品牌等类型进行附加描述的信息。如“中山公园附近好吃的火锅”。
其中,在操作1011解析所述需求信息可以包括以下操作至少之一:对所述需求信息进行分词;对所述需求信息进行词性分析;对所述需求信息进行命名实体识别;以及对所述需求信息进行语义归一化处理。
本领域技术人员可以理解的是,基于用户输入的不同形式的信息,在对需求信息进行解析的过程中会选择性的执行上述所罗列几种操作的部分或全部。另外,在解析得到文章描述对象和/或条件信息的过程中,必然会与线下挖掘存储的包含有大数据量的词库进行信息匹配,以发现诸如品牌名、商户名、推荐菜、地理位置等关键信息。举例来说,对于用户输入的“中山公园附近好吃的火锅”,则通过解析可以得到“火锅”这一类目词的文章描述对象,同时还可以得到“中山公园”这一地理位置的条件信息。
在操作1012-1013的具体实现过程中,由于通过与线下挖掘的词库进行比对的方式,可能挖掘到与所述文章描述对象和/或条件信息相匹配的一个或多个兴趣点。针对挖掘到一个兴趣点的情况,可以直接将对应于所述兴趣点的用户原创内容确定为内容源,比如“粉家柳州螺蛳粉”通过与词库匹配可确定为一家热点商户,于是可以直接对该热点商户下的用户评论确定为内容源,以进行后续的内容挖掘。对于挖掘到多个兴趣点的情况,可以首先对多个兴趣点进行择优筛选,以为后续生成关联度高的文章奠定基础。
根据本发明一种可能的实现方式,所述与所述文章描述对象和/或条件信息相匹配的兴趣点为多个;所述挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点之后,将所述内容信息库中对应于所述兴趣点的用户原创内容确定为内容源之前,所述方法进一步包括:获取所述多个兴趣点中每个兴趣点的用户评分;根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;将对应于所述兴趣点的用户原创内容确定为内容源,包括:将对应于所述目标兴趣点的用户原创内容确定为内容源。
在一示例中,以用户需求“2017热点文艺片”为例,挖掘得到包括《芳华》、《冈仁波齐》和《七十七天》的三个兴趣点,且用户评分分别为8.6、7.5和7.3;进一步可以从所述三个兴趣点中筛选出满足“评分最高”的《芳华》作为目标兴趣点,从而将对应于《芳华》的用户原创内容确定为内容源。
上文已对操作101的基于用户输入的需求信息挖掘内容源的实现过程进行了详细描述,为后续文章生成提高了优质的内容源。下面将通过对操作102~104的具体实现来详细描述如何从内容源获取与用户需求关联性强的文章内容。
在操作102,所述利用特定主题生成模型从所述内容源中提取至少一个主题维度向量,包括:通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中提取至少一个主题描述词;通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
具体地,可以通过词频(TF,Term Frequency)和三层贝叶斯概率模型(LDA,LatentDirichlet Allocation)相结合的特定主题生成模型来从所述内容源所包括的用户原创内容(如文章主题和/或语料)中提取至少一个主题描述词。本领域技术人员应该理解的是,基于TF和LDA相结合的方式来发现主题描述词这一技术实现,通过调用人工构建通用主题知识库,可以提取得到包括但不限于价格、环境、服务等通用主题维度向量的主题描述词。
进一步地,在提取得到至少一个主题描述词之后,通过word2vec模型将所提取的主题描述词转换为至少一个主题维度向量。其中,所述至少一个主题维度向量至少包括如下两种类型,通用主题维度向量和特色主题维度向量。比如,一家咖啡店的主题维度可能挖掘出“服务”、“味道”、“位置”、“猫咪”、“芭菲”、“环境”等主题维度,服务、价格、环境为通用的主题维度,而“猫咪”、“芭菲”是这家咖啡店的特色主题维度(因为咖啡店里有宠物且甜品芭菲是热门甜品)。再比如“粉家柳州螺蛳粉”的例子,如图3所示,该商户的通用主题维度依然是服务、口味、环境等,然而特色主题维度可挖掘出“螺蛳粉”、“肥肠”、“玉米糖水”等。
在操作103,所述依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句可以包括:对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;将所计算的余弦相似度符合阈值的候选主题句作为对应主题维度向量的主题句。
根据本发明一种可能的实现方式,所述计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度,包括:针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;通过第二词向量转换模型将所述分词结果转换成句子向量;计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
具体地,首先在对用户原创内容进行分句和过滤操作的基础上对候选主题句进行分词处理;进一步调用word2vec模型将分词处理结果转换成句子向量;再计算句子向量和主题向量间的余弦相似度,以得到对应主题维度向量的主题句,从而实现主题维度向量和主题句的配对。本领域技术人员应该理解的是,此处的所述第二词向量转换模型与上文所提及的所述第一词向量转换模型同为word2vec模型,属于word2vec模型中互为相反的转换过程。
需要理解的是,通过操作102~103所得到的对应于每一个主题维度向量的主题句可能包括与用户需求相关联的正向积极的内容信息,也可能包括与用户需求相关联的负面信息。从用户需求的角度分析,为了实现积极的宣传效果,用户更加期待展示的文章内容应该是正向积极的,因此在对所述对应于主题维度向量的主题句进行拼接合成之前,还需要进一步包括如下操作:根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
根据本发明一种可能的实现方式,所述根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:
方式一:针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;如果是,则保留所述主题句;否则,过滤所述主题句。比如,一个句子的主题核心词为“口味虾”,这显然不属于该句子对应的主题维度向量“口味”,仅仅是提到了“口味”二字,故利用依存句法分析可将其过滤掉。
方式二:根据特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选,包括:针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;如果是,则保留所述主题句;否则,过滤所述主题句。具体地,可以利用传统情感分析(判断句子是否包含明显负面词)和深度学习情感分析(BiLSTM算法,结合词序判断情感倾向)结合的方法得到主题句的情感倾向分之后,直接保留情感呈正向的主题句。
根据本发明一种可能的实现方式,所述对所述对应于主题维度向量的主题句进行拼接合成之前,所述方法进一步包括:确定所述主题句与对应的主题维度向量之间的思想关联度;根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。具体地,可以通过循环神经网络RNN和/或关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
进一步地,采用匹配机制MMR来对所得到的对应于每一个主题维度向量的主题句进行去重处理,即利用MMR方法对各主题维度下的候选主题句进行相似度判罚,尽量得到各主题维度下相似度小、覆盖信息大的主题句。
最后,对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。比如“粉家柳州螺蛳粉”的例子,如图3所示,该商户的通用主题维度“口味”对应的文章内容为“味道还是非常不错的,立马的炸腐竹、酸豆角、酸笋味道都很不错,干捞的更有味道一些,照片螺蛳粉很好吃,汤底浓郁、微辣,可以加些酸辣椒汁,更加酸酸辣辣的感觉,配料很足很丰富,炸大肠,外面脆脆的,里面酥酥的,减肥的人甚点哈,热量油水太足!”。另外,从图3可以看出,所生成的文章中还包括该商户的通用主题维度“环境”对应的文章内容,以及该商户特色主题维度“招牌推荐菜”下“螺蛳粉”、“肥肠”、“玉米糖水”各自所对应的文章内容。这里不再对每一个主题维度向量的文章内容进行一一具体阐述。
在实际应用中,为了增强所生成文章的可读性,提升用户的视觉感知,可以在生成文章的过程中,增加一些与用户需求相关联的图片信息,以生成包括图片信息的文章。
根据本发明一实施方式,所述方法进一步包括:从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;将所述图片信息与所生成的文章进行融合,以形成图文混合的文章。具体地,可以在操作102挖掘出至少一个主题维度向量之后,从图片知识库中挑选与其相关联的图片信息。比如继续以“粉家柳州螺蛳粉”为例,如图3所示,所生成的文章中包括该商户的通用主题维度“口味”和“环境”以及该商户特色主题维度“招牌推荐菜”下“螺蛳粉”、“肥肠”、“玉米糖水”的对应图片。
根据本发明一实施方式,所述方法进一步包括:查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。例如火锅类目的品牌,可基于特定模板规则拼凑出“风靡全球的火锅!不看看吗?”的文章标题。再以“粉家柳州螺蛳粉”这一商户为例,如图3所示,基于包括美食类目且含有明确品牌名的商户的特定模板规则“小编私藏的绝密美味!可以有!XXXX”,自动生成如“小编私藏的绝密美味!可以有!粉家柳州螺蛳粉”所示的文章标题。
图4示出了本发明实施例的文章生成设备的组成结构示意图。
如图4所示,该文章生成设备40包括:内容源挖掘装置401,用于基于用户输入的需求信息挖掘内容源;主题维度向量提取装置402,用于利用特定主题生成模型从挖掘的内容源中提取至少一个主题维度向量;主题句挖掘装置403,用于依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;主题句拼接生成装置404,用于对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
根据本发明一实施方式,如图4所示,所述内容源挖掘装置401包括:解析模块4011,用于所述需求信息,得到文章描述对象和/或条件信息;挖掘模块4012,用于挖掘与所述文章描述对象和/或条件信息相匹配的兴趣点;确定模块4013,用于将对应于所述兴趣点的用户原创内容确定为内容源。
根据本发明一实施方式,所述解析模块解析所述需求信息包括以下操作至少之一:对所述需求信息进行分词;对所述需求信息进行词性分析;对所述需求信息进行命名实体识别;以及对所述需求信息进行语义归一化处理。
根据本发明一实施方式,所述与所述文章描述对象和/或条件信息相匹配的兴趣点为多个;所述确定模块4013还用于,在通过所述挖掘模块挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点之后,获取所述多个兴趣点中每个兴趣点的用户评分;根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;所述确定模块4013还用于,将对应于所述目标兴趣点的用户原创内容确定为内容源。
根据本发明一实施方式,如图4所示,所述主题维度向量提取装置402包括:提取模块4021,用于通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中,提取至少一个主题描述词;转换模块4022,用于通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
根据本发明一实施方式,如图4所示,所述主题句挖掘装置403包括:分句处理模块4031,用于对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;计算模块4032,用于计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;判断模块4033,用于将所计算的余弦相似度符合特定阈值的候选主题句作为对应主题维度向量的主题句。
根据本发明一实施方式,所述计算模块4032还用于,针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;通过第二词向量转换模型将所述分词结果转换成句子向量;计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
根据本发明一实施方式,如图4所示,所述设备还包括主题句筛选装置405;所述主题句筛选装置405,用于在通过所述主题句拼接生成装置404对所述对应于主题维度向量的主题句进行拼接合成之前,根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
根据本发明一实施方式,所述主题句筛选装置405根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:方式一:针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;如果是,则保留所述主题句;否则,过滤所述主题句;方式二:针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;如果是,则保留所述主题句;否则,过滤所述主题句。
根据本发明一实施方式,所述主题句拼接生成装置404还用于,在对对应于每一个主题维度向量的主题句进行拼接合成之前,确定所述主题句与对应的主题维度向量之间的思想关联度;根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。
根据本发明一实施方式,所述主题句拼接生成装置404还用于,通过循环神经网络RNN和关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
根据本发明一实施方式,所述主题句拼接生成装置404还用于,在对所述每一个主题维度向量的主题句进行拼接合成之前,采用匹配机制MMR方法来对所得到的对应于每一个主题维度向量的主题句进行去重处理。
根据本发明一实施方式,所生成的符合所述需求信息的文章还包括图片信息。
根据本发明一实施方式,如图4所示,所述设备还包括图文融合装置406;所述图文融合装置406,用于从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;将所述图片信息与所生成的文章进行融合,以形成图文混合的文章。
根据本发明一实施方式,如图4所示,所述设备还包括文章标题生成装置407;所述文章标题生成装置407,用于查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。
这里需要指出的是:以上设备实施例中的描述,与上述方法描述是类似的,同方法的有益效果描述,不作赘述。对于本发明设备实施例中未披露的技术细节,请参照本发明方法实施例的描述。
示例性设备
在介绍了本发明示例性实施方式的方法和设备之后,接下来,介绍根据本发明的另一示例性实施方式的文章生成设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施方式中,本发明的文章生成设备可以至少包括一个或多个处理器、以及至少一个存储器。其中,所述存储器存储有程序,当所述程序被所述处理器执行时,使得所述处理器执行本说明书中描述各个步骤,例如,所述处理器可以执行如图1中所示的操作101,基于用户输入的需求信息挖掘内容源;操作102,利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;操作103,依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及操作104,对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
图5示出了根据本发明实施方式的文章生成设备的示意图。
下面参照图5来描述根据本发明的这种实施方式的文章生成设备。图5显示的设备500仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备500以通用计算设备的形式表现,包括但不限于:上述至少一个处理器510、上述至少一个存储器520、连接不同***组件(包括存储器520和处理器510)的总线560。
总线560包括地址总线,控制总线和数据总线。
存储器520可以包括易失性存储器,例如随机存取存储器(RAM)521和/或高速缓存存储器522,还可以进一步包括只读存储器(ROM)523。
存储器520还可以包括一组(至少一个)程序模块524,这样的程序模块524包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
设备500还可以与一个或多个外部设备50(例如键盘、指向设备、蓝牙设备等)通信。这种通信可以通过输入/输出(I/O)接口540进行,并在显示单元530上进行显示。并且,设备500还可以通过网络适配器550与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器550通过总线560与设备500中的其它模块通信。应当明白,尽管图中未示出,但可以结合设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
示例性计算机可读存储介质
在一些可能的实施方式中,本发明的各个方面还可以实现为一种计算机可读存储介质的形式,其包括程序代码,当所述程序代码在被处理器执行时,所述程序代码用于使所述处理器执行上面描述的方法的各个步骤,例如,所述处理器可以执行如图1中所示的操作101,基于用户输入的需求信息挖掘内容源;操作102,利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;操作103,依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及操作104,对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
图6示出了根据本发明实施方式的基于人工智能的文章生成的计算机可读存储介质的示意图。
如图6所示,描述了根据本发明的实施方式的计算机可读存储介质3,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的计算机可读存储介质不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (28)

1.一种文章生成方法,其特征在于,包括:
基于用户输入的需求信息挖掘内容源;其中,所述内容源是在解析所述需求信息解析后,挖掘到的与所述需求信息相关的用户原创内容;
利用特定主题生成模型从挖掘的所述内容源中提取至少一个主题维度向量;所述主题维度向量是根据所述内容源中的主题描述词生成的;
依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及
对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章;
基于用户输入的需求信息挖掘内容源,包括:
解析所述需求信息,得到文章描述对象和/或条件信息;
挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点;
获取所述多个兴趣点中每个兴趣点的用户评分;
根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;
将对应于所述目标兴趣点的用户原创内容确定为内容源。
2.根据权利要求1所述的方法,其特征在于,解析所述需求信息包括以下操作至少之一:
对所述需求信息进行分词;
对所述需求信息进行词性分析;
对所述需求信息进行命名实体识别;以及
对所述需求信息进行语义归一化处理。
3.根据权利要求1所述的方法,其特征在于,所述利用特定主题生成模型从所述内容源中提取至少一个主题维度向量,包括:
通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中提取至少一个主题描述词;
通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
4.根据权利要求1所述的方法,其特征在于,所述依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句包括:
对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;
计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;
将所计算的余弦相似度符合阈值的候选主题句作为对应主题维度向量的主题句。
5.根据权利要求4所述的方法,其特征在于,所述计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度,包括:
针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;
通过第二词向量转换模型将所述分词结果转换成句子向量;
计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
6.根据权利要求1所述的方法,其特征在于,所述得到对应于每一个主题维度向量的主题句之后,对所述对应于主题维度向量的主题句进行拼接合成之前,还包括:
根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
7.根据权利要求6所述的方法,其特征在于,所述根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:
方式一:
针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;
判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;
如果是,则保留所述主题句;否则,过滤所述主题句;
方式二:
根据特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选,包括:
针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;
根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;
如果是,则保留所述主题句;否则,过滤所述主题句。
8.根据权利要求1所述的方法,其特征在于,所述对所述对应于主题维度向量的主题句进行拼接合成之前,所述方法进一步包括:
确定所述主题句与对应的主题维度向量之间的思想关联度;
根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。
9.根据权利要求8所述的方法,其特征在于,所述确定所述主题句与对应的主题维度向量之间的思想关联度,包括:
通过循环神经网络RNN和/或关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
10.根据权利要求1所述的方法,其特征在于,在对每一个所述主题维度向量的主题句进行拼接合成之前,所述方法进一步包括:
采用匹配机制MMR来对所得到的对应于每一个主题维度向量的主题句进行去重处理。
11.根据权利要求1所述的方法,其特征在于,所生成的符合所述需求信息的文章还包括图片信息。
12.根据权利要求11所述的方法,其特征在于,所述方法进一步包括:
从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;
将所述图片信息与所生成的文章进行融合,以形成图文混合的文章。
13.根据权利要求1至12中任一项所述的方法,其特征在于,所述方法进一步包括:
查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;
利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。
14.一种文章生成设备,其特征在于,包括:
内容源挖掘装置,用于基于用户输入的需求信息挖掘内容源;其中,所述内容源是在解析所述需求信息解析后,挖掘到的与所述需求信息相关的用户原创内容;
主题维度向量提取装置,用于利用特定主题生成模型从挖掘的内容源中提取至少一个主题维度向量;所述主题维度向量是根据所述内容源中的主题描述词生成的;
主题句挖掘装置,用于依据所提取的至少一个主题维度向量对所述内容源进行主题句挖掘,得到对应于主题维度向量的主题句;以及
主题句拼接生成装置,用于对所述对应于主题维度向量的主题句进行拼接合成,生成符合所述需求信息的文章;
所述内容源挖掘装置包括:
解析模块,用于解析所述需求信息,得到文章描述对象和/或条件信息;
挖掘模块,用于挖掘与所述文章描述对象和/或条件信息相匹配的兴趣点;
确定模块,用于将对应于所述兴趣点的用户原创内容确定为内容源;
所述确定模块还用于,在通过所述挖掘模块挖掘与所述文章描述对象和/或条件信息相匹配的多个兴趣点之后,获取所述多个兴趣点中每个兴趣点的用户评分;根据每个兴趣点的用户评分从所述多个兴趣点中筛选出满足特定筛选条件的目标兴趣点;
所述确定模块还用于,将对应于所述目标兴趣点的用户原创内容确定为内容源。
15.根据权利要求14所述的设备,其特征在于,所述解析模块解析所述需求信息包括以下操作至少之一:
对所述需求信息进行分词;
对所述需求信息进行词性分析;
对所述需求信息进行命名实体识别;以及
对所述需求信息进行语义归一化处理。
16.根据权利要求14所述的设备,其特征在于,所述主题维度向量提取装置包括:
提取模块,用于通过所述特定主题生成模型,从所述内容源所包括的用户原创内容中,提取至少一个主题描述词;
转换模块,用于通过第一词向量转换模型将所提取的主题描述词转换为至少一个主题维度向量。
17.根据权利要求14所述的设备,其特征在于,所述主题句挖掘装置包括:
分句处理模块,用于对所述内容源中的用户原创内容进行分句和/或过滤操作,得到与所提取的至少一个主题维度向量相对应的一个或多个候选主题句;
计算模块,用于计算每一个候选主题句的句子向量与对应主题维度向量之间的余弦相似度;
判断模块,用于将所计算的余弦相似度符合特定阈值的候选主题句作为对应主题维度向量的主题句。
18.根据权利要求17所述的设备,其特征在于,
所述计算模块还用于,针对候选主题句进行分词处理,得到对应于所述候选主题句的分词结果;通过第二词向量转换模型将所述分词结果转换成句子向量;计算所转换成的句子向量和对应主题维度向量之间的余弦相似度。
19.根据权利要求14所述的设备,其特征在于,所述设备还包括主题句筛选装置;
所述主题句筛选装置,用于在通过所述主题句拼接生成装置对所述对应于主题维度向量的主题句进行拼接合成之前,根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选。
20.根据权利要求19所述的设备,其特征在于,所述主题句筛选装置根据主题核心词和/或特定情感分析算法,对对应于每一个主题维度向量的主题句进行筛选包括如下方式至少之一:
方式一:
针对对应于每一个主题维度向量的任意一个主题句,对所述主题句进行依存句法分析,得到所述主题句的主题核心词;
判断所述主题句的主题核心词是否属于所述主题句所对应的主题维度向量;
如果是,则保留所述主题句;否则,过滤所述主题句;
方式二:
针对对应于每一个主题维度向量的任意一个主题句,利用特定情感分析算法确定所述主题句的情感倾向分;
根据所述主题句的情感倾向分判断所述主题句的情感是否呈正向;
如果是,则保留所述主题句;否则,过滤所述主题句。
21.根据权利要求14所述的设备,其特征在于,
所述主题句拼接生成装置还用于,在对对应于每一个主题维度向量的主题句进行拼接合成之前,确定所述主题句与对应的主题维度向量之间的思想关联度;根据所述主题句与对应的主题维度向量之间的思想关联度,从对应于每一个主题维度向量的主题句中挑选出核心主题句,以对所述核心主题句进行拼接合成。
22.根据权利要求21所述的设备,其特征在于,
所述主题句拼接生成装置还用于,通过循环神经网络RNN和关键词提取算法TextRank,确定所述主题句与对应的主题维度向量之间的思想关联度。
23.根据权利要求14所述的设备,其特征在于,
所述主题句拼接生成装置还用于,在对每一个所述主题维度向量的主题句进行拼接合成之前,采用匹配机制MMR方法来对所得到的对应于每一个主题维度向量的主题句进行去重处理。
24.根据权利要求14所述的设备,其特征在于,所生成的符合所述需求信息的文章还包括图片信息。
25.根据权利要求24所述的设备,其特征在于,所述设备还包括图文融合装置;
所述图文融合装置,用于从特定图片库中挑选与所述至少一个主题维度向量相关联的图片信息;将所述图片信息与所生成的文章进行融合,以形成图文混合的文章。
26.根据权利要求14至25中任一项所述的设备,其特征在于,所述设备还包括文章标题生成装置;
所述文章标题生成装置,用于查找与所生成的文章的内容或所述需求信息相匹配的特定对象定语和/或句子语料;利用查找到的特定对象定语和/或句子语料,通过特定模板规则生成文章标题。
27.一种计算机设备,包括:
一个或者多个处理器;
存储器;
存储在所述存储器中的程序,当被所述一个或者多个处理器执行时,所述程序使所述处理器执行如权利要求1-13中任意一项所述的方法。
28.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行如权利要求1-13中任意一项所述的方法。
CN201810462391.7A 2018-05-15 2018-05-15 文章生成方法、设备及存储介质 Active CN108694160B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810462391.7A CN108694160B (zh) 2018-05-15 2018-05-15 文章生成方法、设备及存储介质
PCT/CN2018/121310 WO2019218660A1 (zh) 2018-05-15 2018-12-14 文章生成
US17/097,405 US11288454B2 (en) 2018-05-15 2020-11-13 Article generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810462391.7A CN108694160B (zh) 2018-05-15 2018-05-15 文章生成方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108694160A CN108694160A (zh) 2018-10-23
CN108694160B true CN108694160B (zh) 2021-01-22

Family

ID=63846300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810462391.7A Active CN108694160B (zh) 2018-05-15 2018-05-15 文章生成方法、设备及存储介质

Country Status (3)

Country Link
US (1) US11288454B2 (zh)
CN (1) CN108694160B (zh)
WO (1) WO2019218660A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694160B (zh) * 2018-05-15 2021-01-22 北京三快在线科技有限公司 文章生成方法、设备及存储介质
CN109657043B (zh) * 2018-12-14 2022-01-04 北京百度网讯科技有限公司 自动生成文章的方法、装置、设备及存储介质
CN109885821B (zh) * 2019-03-05 2023-07-18 中国联合网络通信集团有限公司 基于人工智能的文章撰写方法及装置、计算机存储介质
US11210470B2 (en) * 2019-03-28 2021-12-28 Adobe Inc. Automatic text segmentation based on relevant context
CN110377891B (zh) * 2019-06-19 2023-01-06 北京百度网讯科技有限公司 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN111182332B (zh) * 2019-12-31 2022-03-22 广州方硅信息技术有限公司 视频处理方法、装置、服务器及存储介质
CN111814482B (zh) * 2020-09-03 2020-12-11 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、***和计算机设备
CN112989187B (zh) * 2021-02-25 2022-02-01 平安科技(深圳)有限公司 创作素材的推荐方法、装置、计算机设备及存储介质
CN113342980B (zh) * 2021-06-29 2024-05-17 中国平安人寿保险股份有限公司 Ppt文本挖掘的方法、装置、计算机设备及存储介质
CN114706974A (zh) * 2021-09-18 2022-07-05 北京墨丘科技有限公司 一种技术问题信息挖掘方法、装置与存储介质
CN115204118B (zh) * 2022-07-12 2023-06-27 平安科技(深圳)有限公司 文章生成方法、装置、计算机设备及存储介质
CN115965013B (zh) * 2023-03-16 2023-11-28 北京朗知网络传媒科技股份有限公司 基于需求识别的汽车传媒文章生成方法和装置
US11868313B1 (en) 2023-03-28 2024-01-09 Lede AI Apparatus and method for generating an article

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015106353A1 (en) * 2014-01-15 2015-07-23 Intema Solutions Inc. Item classification method and selection system for electronic solicitation
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及***
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成***
CN106933789A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成***

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence
US8200589B2 (en) * 2006-07-28 2012-06-12 Persistent Systems Limited System and method for network association inference, validation and pruning based on integrated constraints from diverse data
US8296168B2 (en) * 2006-09-13 2012-10-23 University Of Maryland System and method for analysis of an opinion expressed in documents with regard to a particular topic
US20100128042A1 (en) * 2008-07-10 2010-05-27 Anthony Confrey System and method for creating and displaying an animated flow of text and other media from an input of conventional text
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US10235681B2 (en) * 2013-10-15 2019-03-19 Adobe Inc. Text extraction module for contextual analysis engine
CN105095229A (zh) * 2014-04-29 2015-11-25 国际商业机器公司 训练主题模型的方法,对比文档内容的方法和相应的装置
US10073837B2 (en) * 2014-07-31 2018-09-11 Oracle International Corporation Method and system for implementing alerts in semantic analysis technology
US10042923B2 (en) * 2015-04-24 2018-08-07 Microsoft Technology Licensing, Llc Topic extraction using clause segmentation and high-frequency words
US9928300B2 (en) * 2015-07-16 2018-03-27 NewsRx, LLC Artificial intelligence article analysis interface
US9886501B2 (en) * 2016-06-20 2018-02-06 International Business Machines Corporation Contextual content graph for automatic, unsupervised summarization of content
US20180160200A1 (en) * 2016-12-03 2018-06-07 Streamingo Solutions Private Limited Methods and systems for identifying, incorporating, streamlining viewer intent when consuming media
CN106844322A (zh) * 2017-01-22 2017-06-13 百度在线网络技术(北京)有限公司 智能文章生成方法和装置
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
US10380259B2 (en) * 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies
US10776566B2 (en) * 2017-05-24 2020-09-15 Nathan J. DeVries System and method of document generation
US20190266288A1 (en) * 2018-02-28 2019-08-29 Laserlike, Inc. Query topic map
CN108694160B (zh) * 2018-05-15 2021-01-22 北京三快在线科技有限公司 文章生成方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015106353A1 (en) * 2014-01-15 2015-07-23 Intema Solutions Inc. Item classification method and selection system for electronic solicitation
CN106663087A (zh) * 2014-10-01 2017-05-10 株式会社日立制作所 文章生成***
CN106933789A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 旅游攻略生成方法和生成***
CN106503255A (zh) * 2016-11-15 2017-03-15 科大讯飞股份有限公司 基于描述文本自动生成文章的方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Speech Generation for Humanoid Robot Interaction;Ernawati et al.;《2016 Knowledge Creation and Intelligent Computing》;20161115;第99-104页 *
结合注意力机制的新闻标题生成模型;李慧 等;《山西大学学报(自然科学版)》;20171231;第40卷(第4期);第670-675页 *

Also Published As

Publication number Publication date
WO2019218660A1 (zh) 2019-11-21
US20210064823A1 (en) 2021-03-04
CN108694160A (zh) 2018-10-23
US11288454B2 (en) 2022-03-29

Similar Documents

Publication Publication Date Title
CN108694160B (zh) 文章生成方法、设备及存储介质
US10325397B2 (en) Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
US10990768B2 (en) Method and device for translating object information and acquiring derivative information
US20170228459A1 (en) Method and device for mobile searching based on artificial intelligence
CN109271518B (zh) 用于对微博信息进行分类显示的方法和设备
KR102119868B1 (ko) 홍보용 미디어 콘텐츠 제작 시스템 및 그 방법
CN107491477B (zh) 一种表情符号搜索方法及装置
KR101720250B1 (ko) 이미지를 추천하는 장치 및 방법
US20140164507A1 (en) Media content portions recommended
US11822868B2 (en) Augmenting text with multimedia assets
US20140163957A1 (en) Multimedia message having portions of media content based on interpretive meaning
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
CN111178056A (zh) 基于深度学习的文案生成方法、装置及电子设备
KR101647087B1 (ko) 자연어 처리에 기반한 재화 제공 서버 및 방법
CN109325223A (zh) 文章推荐方法、装置及电子设备
CN110737774A (zh) 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN109960721A (zh) 基于源内容的多重压缩构造内容
CN114880514A (zh) 图像检索方法、装置以及存储介质
CN112784156A (zh) 基于意图识别的搜索反馈方法、***、设备及存储介质
WO2012145561A1 (en) Systems and methods for assembling and/or displaying multimedia objects, modules or presentations
CN113407766A (zh) 视觉动画显示方法及相关设备
CN112836057A (zh) 知识图谱的生成方法、装置、终端以及存储介质
KR102592287B1 (ko) 인터랙션을 이용한 메신저 검색 방법, 그리고 이를 구현한 서버 및 어플리케이션
JP2005202485A (ja) 映像提示装置
US12033186B2 (en) Method and system for enabling an interaction between a user and a podcast

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant