CN113361281A

CN113361281A - 一种***生成方法、装置、设备及存储介质

Info

Publication number: CN113361281A
Application number: CN202110894357.9A
Authority: CN
Inventors: 李霞; 孙泽懿; 徐凯波; 王硕
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-09-07
Anticipated expiration: 2041-08-05
Also published as: CN113361281B

Abstract

本申请提供了一种***生成方法、装置、设备及存储介质，其中，该方法包括：将目标文本作为关键词抽取模型的输入数据，得到至少一个关键词；将各关键词作为话术生成模型的输入数据，得到至少一个话术模板；针对每个话术模板中的每个待填充位置，根据各历史关键词在该待填充位置处出现的词频，将在各关键词中确定的第一关键词填充至该待填充位置，以得到目标话术文本；针对每个目标话术文本包括的每个目标字词，根据历史字词在目标***模板的各段落主题下出现的频率，将该目标话术文本填充至与其匹配度最高的段落主题下，以得到目标行业的***；通过上述方法，有利于降低人工工作量和人工成本。

Description

一种***生成方法、装置、设备及存储介质

技术领域

本申请涉及行业***领域，具体而言，涉及一种***生成方法、装置、设备及存储介质。

背景技术

在进行某一行业的行业数据分析时，需要撰写包括该行业的相关信息的行业***文件，现有技术中撰写行业***文件的方式为：人为对收集到的该行业的相关数据资料进行分析和统计，然后以分析和统计后的数据为基础，人为撰写该行业的***，但是基于该行业的大量相关数据资料，对该相关数据资料的分析、统计和撰写都需要耗费大量的人力和时间，使得人工的工作量大、人工成本高。

发明内容

有鉴于此，本申请实施例提供了一种***生成方法、装置、设备及存储介质。

主要包括以下几个方面：

第一方面，本申请实施例提供了一种***生成方法，该方法包括：

将获取到的至少一个目标文本作为关键词抽取模型的输入数据，得到从各所述目标文本中确定的至少一个关键词，其中，所述目标文本为用于描述目标行业的文本，所述关键词为所述目标文本中出现的词频大于或者等于预设阈值的词语；

将关键词组作为话术生成模型的输入数据，得到为所述关键词组匹配的至少一个话术模板，其中，所述关键词组包括各所述关键词；

针对每个话术模板中的每一个待填充位置，根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，其中，与所述第一关键词相同的历史关键词所对应的第一词频大于或者等于与第二关键词相同的历史关键词所对应的第二词频，所述第二关键词包括所述关键词组中除所述第一关键词之外的其他关键词，各所述历史关键词包括在至少一个历史***中确定的关键词，各所述历史***针对的行业领域与所述目标行业所属的行业领域相同；

将所述第一关键词填充至该待填充位置，以得到目标话术文本；

针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，其中，所述目标字词是通过对该目标话术文本进行分词处理得到的，所述历史字词是通过对至少一个历史话术文本进行分词处理得到的，各所述历史话术文本包括：在各所述历史***中位于各所述段落主题下的文本，所述目标***模板针对的行业领域与所述目标行业所属的行业领域相同；

将该目标话术文本填充至与其匹配度最高的段落主题下，以得到所述目标行业的***。

可选的，所述根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，包括：

在所述关键词组中确定至少一个候选关键词，其中，针对每一个候选关键词，在各所述历史关键词中存在与该候选关键词相同的历史关键词；

根据各所述候选关键词对应的目标词频，在各所述候选关键词中确定目标词频最高的候选关键词，以将所述目标词频最高的候选关键词作为所述第一关键词，其中，针对每一个所述候选关键词，该候选关键词对应的目标词频为与该候选关键词相同的历史关键词所对应的词频。

可选的，所述针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，包括：

针对每一个所述段落主题，根据与该目标字词相同的历史字词在该段落主题下出现的频率，确定该目标字词与该段落主题的匹配度；

根据该目标话术文本包括的各目标字词与该段落主题的匹配度，确定该目标话术文本与该段落主题的匹配度。

可选的，所述方法还包括：

将各所述目标文本作为命名实体识别NER模型的输入数据，得到各所述目标文本中的至少一个命名实体，其中，所述NER模型是由携带命名实体批注的各历史***训练得到的；

根据目标历史命名实体在各行业领域的历史命名实体集中的占比，确定各所述命名实体对应的目标行业领域，以将所述目标行业领域作为所述目标行业所属的行业领域，其中，所述目标历史命名实体包括与各所述命名实体相同的历史命名实体。

可选的，所述方法还包括：将各所述历史***作为规则模型的输入数据，得到所述目标***模板，其中，所述目标***模板包括：***的段落数量、段落主题和段落要求。

第二方面，本申请实施例提供了一种***生成装置，所述装置包括：

第一确定模块，用于将获取到的至少一个目标文本作为关键词抽取模型的输入数据，得到从各所述目标文本中确定的至少一个关键词，其中，所述目标文本为用于描述目标行业的文本，所述关键词为所述目标文本中出现的词频大于或者等于预设阈值的词语；

匹配模块，用于将关键词组作为话术生成模型的输入数据，得到为所述关键词组匹配的至少一个话术模板，其中，所述关键词组包括各所述关键词；

第二确定模块，用于针对每个话术模板中的每一个待填充位置，根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，其中，与所述第一关键词相同的历史关键词所对应的第一词频大于或者等于与第二关键词相同的历史关键词所对应的第二词频，所述第二关键词包括所述关键词组中除所述第一关键词之外的其他关键词，各所述历史关键词包括在至少一个历史***中确定的关键词，各所述历史***针对的行业领域与所述目标行业所属的行业领域相同；

第一填充模块，用于将所述第一关键词填充至该待填充位置，以得到目标话术文本；

第三确定模块，用于针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，其中，所述目标字词是通过对该目标话术文本进行分词处理得到的，所述历史字词是通过对至少一个历史话术文本进行分词处理得到的，各所述历史话术文本包括：在各所述历史***中位于各所述段落主题下的文本，所述目标***模板针对的行业领域与所述目标行业所属的行业领域相同；

第二填充模块，用于将该目标话术文本填充至与其匹配度最高的段落主题下，以得到所述目标行业的***。

可选的，所述第二确定模块的配置在用于根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词时，具体用于：

可选的，所述第三确定模块的配置在用于针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度时，具体用于：

可选的，所述***生成装置还包括：

识别模块，用于将各所述目标文本作为命名实体识别NER模型的输入数据，得到各所述目标文本中的至少一个命名实体，其中，所述NER模型是由携带命名实体批注的各历史***训练得到的；

第四确定模块，用于根据目标历史命名实体在各行业领域的历史命名实体集中的占比，确定各所述命名实体对应的目标行业领域，以将所述目标行业领域作为所述目标行业所属的行业领域，其中，所述目标历史命名实体包括与各所述命名实体相同的历史命名实体。

可选的，所述***生成模块还包括：获取模块，用于将各所述历史***作为规则模型的输入数据，得到所述目标***模板，其中，所述目标***模板包括：***的段落数量、段落主题和段落要求。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一所述的***生成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面中任一所述的***生成方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供的***生成方法，在获取到使用目标行业所属领域的至少一个历史***训练的关键词抽取模型和话术生成模型后，使用关键词抽取模型抽取描述目标行业的各目标文本中的关键词，抽取出的每一个关键词均包含目标文本中的核心信息，即：包含目标行业的核心信息，但是各个关键词之间无关联，仅根据各个离散的关键词，相关人员无法准确的理解各关键词所表达的目标行业的相关信息，为了便于相关人员理解目标行业相关信息，在得到各关键词后，通过话术生成模型为由各关键词组成的关键词组匹配至少一个话术模板，话术模板可以将各个离散的关键词连接起来，转化为便于理解的句子，即：通过将各关键词填充到各话术模板中，得到至少一个目标话术文本，各目标话术文本虽然便于相关人员理解其所要表达的信息，但是各目标话术文本之间的顺序混乱，容易扰乱相关人员理解目标行业相关信息时的整体思路，所以本申请再通过将各目标话术文本填充至获取到的目标***模板中的各段落主题下，得到目标行业的***，该***通过不同的段落主题，将属于同一主题的目标话术文本聚集在一起，而且可以使相关人员按照段落主题的先后顺序理解***中的目标行业相关信息，有利于相关人员在理解目标行业相关信息的同时快速理清思路，相对于现有技术中人工撰写行业相关***的方法，本申请实现上述***生成方法所需要的每一个步骤均由服务器来执行，不需要人工的参与，有利于降低人工工作量和人工成本，同时本申请的服务器通过各预设模型以及各预设算法来生成目标行业***的方法，有利于减少生成时间，从而有利于加快行业***的生成效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例一所提供的一种***生成方法的流程图；

图2示出了本申请实施例一所提供的另一种***生成方法的流程图；

图3示出了本申请实施例一所提供的另一种***生成方法的流程图；

图4示出了本申请实施例二所提供的一种***生成装置的结构示意图；

图5示出了本申请实施例三所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于此，本申请实施例提供了一种***生成方法、装置、设备及存储介质，下面通过实施例进行描述。

实施例一

图1示出了本申请实施例一所提供的一种***生成方法的流程图，如图1所示，该方法包括以下步骤：

步骤S101：将获取到的至少一个目标文本作为关键词抽取模型的输入数据，得到从各所述目标文本中确定的至少一个关键词，其中，所述目标文本为用于描述目标行业的文本，所述关键词为所述目标文本中出现的词频大于或者等于预设阈值的词语。

具体的，上述***指的是行业***，目标文本为该***内容的来源，所以上述目标文本指的是与目标行业相关的描述信息，比如：当目标行业为汽车行业时，上述目标文本可以为汽车销量的增速；上述关键词指的是：包含目标文本信息量，对目标文本的理解有作用的词语，比如：数据增长/降低等指标。

需要说明的是，ML Model中的关键词抽取模型抽取关键词的方式包括基于深度学习技术的抽取方式，关于具体的抽取方式可以根据实际情况进行设定，抽取方式比如：TF-IDF（term frequency–inverse document frequency，词频-逆文档频率）、TextRank算法和word2vec（word to vector）等方式，上述抽取关键词方法的基本流程为：首先通过对目标文本进行预处理，得到至少一个候选关键词，其中，上述预处理包括分词处理；其次，使用预设的算法或者使用预先构建的模型，确定各候选关键在上述目标文本中出现的词频；最后，在各候选关键词中选择词频大于或者等于预设阈值的候选关键词，以作为所需的关键词；或者根据各候选关键词的词频由高到低的顺序，选择预设数量的候选关键词作为所需的关键词，上述ML Model表示一个机器学习算法中需要用到的完整模型集合，该合集包括至少一个机器学习模型和算法。

步骤S102：将关键词组作为话术生成模型的输入数据，得到为所述关键词组匹配的至少一个话术模板，其中，所述关键词组包括各所述关键词。

具体的，在得到至少一个关键词后，将得到的所有关键词组成一个组，得到关键词组，然后将该关键词组输入到ML Model中的话术生成模型中，得到为该关键词组预先匹配的至少一个话术模板。

需要说明的是，该话术生成模型是通过以下训练方式得到的：

使用目标行业所属行业领域的至少一个历史***对话术生成模型进行训练，以使话术生成模型根据各历史***中的各关键词所在的文本内容，通过机器学习学习该目标行业所属领域的历史***中的话术风格，以得到各关键词与各话术模板（除关键词以外的文本）之间的对应关系。

举例说明：通过对历史***中的内容“A与B进行组合可以得到C，A可以拆分成D和E”进行机器学习得到对应关系：A、B、C对应于：（）与（）进行组合可以得到（）；A、D、E对应于：（）可以拆分成（）和（），此时，在训练好的话术生成模型中输入由关键词A、B、C、D、E组成的关键词组，可以得到两个话术模板，分别为话术模板：（）与（）进行组合可以得到（），以及话术模板：（）可以拆分成（）和（）。

步骤S103：针对每个话术模板中的每一个待填充位置，根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，其中，与所述第一关键词相同的历史关键词所对应的第一词频大于或者等于与第二关键词相同的历史关键词所对应的第二词频，所述第二关键词包括所述关键词组中除所述第一关键词之外的其他关键词，各所述历史关键词包括在至少一个历史***中确定的关键词，各所述历史***针对的行业领域与所述目标行业所属的行业领域相同。

步骤S104：将所述第一关键词填充至该待填充位置，以得到目标话术文本。

具体的，针对每一个话术模板，该话术模板具有至少一个待填充位置，该待填充位置是用于通过填充关键词以组成完整文本的空白区域，该待填充位置的表现形式可以根据实际情况进行设定，比如：可以是括号，也可以是下划线，具体的表现形式在此不作具体限定；针对每一个待填充位置，第一关键词指的是用于填充该待填充位置的关键词；各历史***针对的行业领域与目标行业所属行业领域相同，换句话说，就是为目标行业所属领域创建的至少一个历史***，比如：目标行业所属领域为计算机领域，则各历史***为当前时间之前的计算机领域的至少一个***；在获取至少一个历史***后，可以根据各历史***中的各关键词在该待填充位置处出现的词频，在关键词组中确定第一关键词。

在确定出第一关键词后，需要将该第一关键词填充至该待填充位置处，针对每一个话术模板，当该话术模板中的每一个待填充位置均被填充完成后，可以得到一个目标话术文本，该目标话术文本指的是将关键词填充至话术模板中的待填充位置后得到的完整的文本，比如：话术模板“（）是（）”在填充关键词“猫”和关键词“哺乳动物”后，得到目标话术文本“猫是哺乳动物”。

需要说明的是，针对关键词中确定的第一关键词，举例说明：目标行业所属领域为计算机领域，各历史关键词包括：深度学习、机器学习、编程、计算、爬取；针对某一个待填充位置，各历史关键词在该待填充位置出现的词频分别为：深度学习-5、机器学习-4、编程-8、计算-3、爬取-6；关键词中包括的关键词有：深度学习、计算、爬取；与关键词“深度学习”相同的历史关键词“深度学习”所对应的词频为5，与关键词“计算”相同的历史关键词“计算”所对应的词频为3，与关键词“爬取”相同的历史关键词“爬取”所对应的词频为6，其中，词频最大的是6，所以关键词“爬取”为第一关键词，关键词“深度学习”和关键词“计算”均为第二关键词。

需要再次说明的是，若不存在与关键词相同的历史关键词，则将与该关键词相同的历史关键词所对应的词频设置为零。

步骤S105：针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，其中，所述目标字词是通过对该目标话术文本进行分词处理得到的，所述历史字词是通过对至少一个历史话术文本进行分词处理得到的，各所述历史话术文本包括：在各所述历史***中位于各所述段落主题下的文本，所述目标***模板针对的行业领域与所述目标行业所属的行业领域相同。

步骤S106：将该目标话术文本填充至与其匹配度最高的段落主题下，以得到所述目标行业的***。

具体的，在获取到至少一个目标话术文本后，针对每一个目标话术文本来说，通过对该目标话术文本进行分词处理，可以得到至少一个目标字词；上述目标***模板针对的行业领域与目标行业所属的行业领域相同，换句话说，目标***模板是为目标行业所属领域创建的一个***模板，比如：目标行业所属领域为计算机领域，则目标***模板为计算机领域的***模板；目标***模板包括至少一个段落主题，针对每一个段落主题，本申请通过机器学习能够确定：各历史***中位于该段落主题下的历史话术文本，从而能够确定对历史话术文本进行分词处理得到的各历史字词在该段落主题下出现的频率（即：词频）。

针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，举例说明：目标话术文本为A的排位在B的排位之前，通过对目标话术文本进行分词处理得到的目标字词包括：A、B、排位、之前，各历史字词包括：A、B、排位、相同，目标***模板中包括段落主题1和段落主题2，各历史字词在段落主题1下出现的频率分别为：A-4、B-1、排位-5、相同7，各历史字词在段落主题2下出现的频率分别为：A-3、B-4、排位-0、相同0；由此可知，对于段落主题1，与目标字词“A”相同的历史字词“A”在段落主题1下出现的频率为4，与目标字词“B”相同的历史字词“B”在段落主题1下出现的频率为1，与目标字词“排位”相同的历史字词“排位”在段落主题1下出现的频率为5，不存在与目标字词“之前”相同的历史字词，所以将与目标字词“之前”相同的历史字词在段落主题1下出现的频率设置为0；对于段落主题2，与目标字词“A”相同的历史字词“A”在段落主题2下出现的频率为3，与目标字词“B”相同的历史字词“B”在段落主题2下出现的频率为4，与目标字词“排位”相同的历史字词“排位”在段落主题2下出现的频率为0，不存在与目标字词“之前”相同的历史字词，所以将与目标字词“之前”相同的历史字词在段落主题2下出现的频率设置为0；由此，可以将该目标话术文本与段落主题1的匹配度设置为10，并将该目标话术文本与段落主题2的匹配度设置为7。

需要说明的是，若不存在与该目标字词相同的历史字词，则将与该目标字词相同的历史字词在各段落主题下出现的频率均设置为零。

需要再次说明的是，上述匹配度的表现形式可以根据实际情况进行设定，比如可以是百分比形式，也可以是分值形式，关于匹配度的具体表现形式在此不作具体限定。

针对每一个目标话术文本，在确定出该目标话术文本与各段落主题的匹配度后，可以在各段落主题中确定出与该目标话术文本匹配度最高的段落主题，并通过槽填充模块将该目标话术文本填充至该确定出的匹配度最高的段落主题下，在通过上述方式将所有目标话术文本填充至目标***模板后，可以得到目标行业的***。

本申请中的***生成方法，在获取到使用目标行业所属领域的至少一个历史***训练的关键词抽取模型和话术生成模型后，使用关键词抽取模型抽取描述目标行业的各目标文本中的关键词，抽取出的每一个关键词均包含目标文本中的核心信息，即：包含目标行业的核心信息，但是各个关键词之间无关联，仅根据各个离散的关键词，相关人员无法准确的理解各关键词所表达的目标行业的相关信息，为了便于相关人员理解目标行业相关信息，在得到各关键词后，通过话术生成模型为由各关键词组成的关键词组匹配至少一个话术模板，话术模板可以将各个离散的关键词连接起来，转化为便于理解的句子，即：通过将各关键词填充到各话术模板中，得到至少一个目标话术文本，各目标话术文本虽然便于相关人员理解其所要表达的信息，但是各目标话术文本之间的顺序混乱，容易扰乱相关人员理解目标行业相关信息时的整体思路，所以本申请再通过将各目标话术文本填充至获取到的目标***模板中的各段落主题下，得到目标行业的***，该***通过不同的段落主题，将属于同一主题的目标话术文本聚集在一起，而且可以使相关人员按照段落主题的先后顺序理解***中的目标行业相关信息，有利于相关人员在理解目标行业相关信息的同时快速理清思路，相对于现有技术中人工撰写行业相关***的方法，本申请实现上述***生成方法所需要的每一个步骤均由服务器来执行，不需要人工的参与，有利于降低人工工作量和人工成本，同时本申请的服务器通过各预设模型以及各预设算法来生成目标行业***的方法，有利于减少生成时间，从而有利于加快行业***的生成效率。

在另一种可行的实施方案中，在执行上述步骤S103时，还可以通过ML Model中的相似度计算模型使用TF-IDF算法确定用于填充上述待填充位置的第一关键词。

在另一种可行的实施方案中，在执行上述步骤S105时，还可以将各历史字词在各段落主题下出现的频率和该目标话术文本包括的各目标字词输入到ML Model中的相似度计算模型中，得到该目标话术文本与各段落主题的相似度，以将该目标话术文本与各段落主题的相似度作为该目标话术文本与各段落主题的匹配度。

在一种可行的实施方案中，图2示出了本申请实施例一所提供的另一种***生成方法的流程图，如图2所示，在执行上述步骤S103时，可以通过以下步骤实现：

步骤S201：在所述关键词组中确定至少一个候选关键词，其中，针对每一个候选关键词，在各所述历史关键词中存在与该候选关键词相同的历史关键词。

步骤S202：根据各所述候选关键词对应的目标词频，在各所述候选关键词中确定目标词频最高的候选关键词，以将所述目标词频最高的候选关键词作为所述第一关键词，其中，针对每一个所述候选关键词，该候选关键词对应的目标词频为与该候选关键词相同的历史关键词所对应的词频。

具体的，针对每一个待填充位置，在获取到各历史关键词在该待填充位置处出现的词频后，在关键词组中确定至少一个候选关键词，其中，每一个候选关键词在各历史关键词中均存在与其相同的历史关键词，在确定出各候选关键词后，针对每一个候选关键词，可以将与该候选关键词相同的历史关键词对应的词频作为该候选关键词对应的目标词频，在确定出各候选关键词对应的目标词频后，在各候选关键词中确定对应目标词频最高的候选关键词，以将该词频最高的候选关键词作为用于填充该待填充位置的第一关键词。

举例说明：历史关键词包括：A、B、C、D、E；各历史关键词对应词频分别为：A-1、B-2、C-3、D-4、E-5；关键词组包括：A、B、D、F、G；由此，在关键词组中确定出候选关键词包括：A、B、D，各候选关键词对应的目标词频分别为：A-1、B-2、D-4，其中，候选关键词D对应的目标词频在各候选关键词对应的目标词频中是最高的，所以确定出的第一关键词为关键词D。

在一种可行的实施方案中，图3示出了本申请实施例一所提供的另一种***生成方法的流程图，如图3所示，在执行上述步骤S105时，可以通过以下步骤实现：

步骤S301：针对每一个所述段落主题，根据与该目标字词相同的历史字词在该段落主题下出现的频率，确定该目标字词与该段落主题的匹配度。

具体的，针对每一个目标字词和每一个段落主题，确定该目标字词与该段落主题的匹配度的方式可以根据实际情况进行设定，比如可以将与该目标字词相同的历史字词在该段落主题下出现的频率作为该目标字词与该段落主题的匹配度，也可以根据与该目标字词相同的历史字词在该段落主题下出现的频率，将预先为该频率设置的匹配度作为该目标字词与该段落主题的匹配度，有关具体的确定该目标字词与该段落主题的匹配度的方式在此不做具体限定。

需要说明的是，有关该目标字词与该段落主题的匹配度的表现形式的说明，参见对步骤S105中的目标话术文本与各段落主题的匹配度的说明，在此不再进行赘述。

步骤S302：根据该目标话术文本包括的各目标字词与该段落主题的匹配度，确定该目标话术文本与该段落主题的匹配度。

具体的，在确定出该目标话术文本包括的每一个目标字词与该段落主题的匹配度后，针对确定该目标话术文本与该段落主题的匹配度的方式，可以根据实际情况进行设定，比如可以将该目标话术文本包括的每一个目标字词与该段落主题的匹配度进行相乘，得到该目标话术文本与该段落主题的匹配度，也可以根据该目标话术文本包括的每一个目标字词与该段落主题的匹配度，确定为各匹配度的数值预先匹配的数值，并将确定出的各数值进行相加，得到该目标话术文本与该段落主题的匹配度，关于具体的确定该目标话术文本与该段落主题的匹配度的方式再次不做具体限定。

需要说明的是，有关该目标话术文本与该段落主题的匹配度的表现形式的说明，参见对步骤S105中的目标话术文本与各段落主题的匹配度的说明，在此不再进行赘述。

在一种可行的实施方案中，上述***生成方法还包括：

将各所述目标文本作为命名实体识别NER模型的输入数据，得到各所述目标文本中的至少一个命名实体，其中，所述NER模型是由携带命名实体批注的各历史***训练得到的。

具体的，将用于描述目标行业的各目标文本输入到ML Model中的NER（NamedEntity Recognition，命名实体识别）模型中，以得到在各目标文本中确定出的至少一个命名实体。

需要说明的是，NER模型是信息提取、问答***、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位；有关NER模型采用的识别方法，可以采用基于CRF（Conditional Random Fields，条件随机场）的命名实体识别方法，该识别方法的基本思路为：首先对目标文本进行分词处理，然后对人名、简单地名和简单组织机构名等命名实体进行识别，最后对复合地名和复合组织机构名等复合型命名实体进行识别，举例说明：目标文本为河北石家庄，先识别河北和石家庄，然后计算他们复合在一起的概率，以根据该概率判断河北石家庄是否是复合命名实体，若是复合命名实体，将其作为一个命名实体。

需要再次说明的是，上述NER模型的识别方法属于有监督的学习方法，所以需要在使用NER模型前，先使用携带命名实体批注的至少一个历史***对该NER模型进行训练。

具体的，在确定各历史***或目标***模板之前，需要确定各历史***或目标***模板所针对的领域，即：需要确定目标行业所属的行业领域，所以需要通过获取的各命名实体确定目标行业所属的行业领域，在预设的各行业领域的历史命名实体集中，确定与各命名实体相同的目标历史命名实体在各历史命名实体集中的占比，以将最大占比所对应的行业领域确定为各命名实体对应的目标行业领域，即：目标行业所属的行业领域。

举例说明，命名实体包括：深度学习、机器学习、价格；总共有两个行业领域，分别为计算机领域和金融领域，计算机领域的历史命名实体集包括：深度学习、机器学习、编程、自然语言处理、人工智能；金融领域的历史命名实体集包括：利率、财政、银行、证券、价格；计算可知，与各命名实体相同的目标历史命名实体在计算机领域的历史命名实体集中的占比为0.4，在金融领域的历史命名实体集中的占比为0.2，各目标历史命名实体在计算机领域的历史命名实体集中的占比最大，所以各命名实体对应的目标行业领域为计算机领域，即：目标行业所属的行业领域为计算机领域。

在另一种可行的实施方案中，通过获取的各命名实体确定目标行业所属的行业领域的方法还可以包括：根据由各命名实体组成的命名实体组与各行业领域的历史命名实体集的相似度，以将最大相似度所对应的行业领域确定为各命名实体对应的目标行业领域，即：目标行业所属的行业领域。

在一种可行的实施方案中，上述***生成方法还包括：将各所述历史***作为规则模型的输入数据，得到所述目标***模板，其中，所述目标***模板包括：***的段落数量、段落主题和段落要求。

具体的，规则模型通过各历史***进行学习，并通过规则计算制定至少一个规则来生成目标***模板，至少一个规则包括：***的段落数量、段落主题和段落要求，所以生成的目标***模板包括***的段落数量、段落主题和段落要求，其中，段落要求包括当前段落中句子的数量要求。

举例说明，目标***模板包括的段落数量为4，各段落主题分别为背景、现状、解决方案、展望，段落要求包括：背景中的字数不超过500字。

实施例二

图4示出了本申请实施例二所提供的一种***生成装置的结构示意图，如图4所示，上述***生成装置包括：

第一确定模块401，用于将获取到的至少一个目标文本作为关键词抽取模型的输入数据，得到从各所述目标文本中确定的至少一个关键词，其中，所述目标文本为用于描述目标行业的文本，所述关键词为所述目标文本中出现的词频大于或者等于预设阈值的词语；

匹配模块402，用于将关键词组作为话术生成模型的输入数据，得到为所述关键词组匹配的至少一个话术模板，其中，所述关键词组包括各所述关键词；

第二确定模块403，用于针对每个话术模板中的每一个待填充位置，根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，其中，与所述第一关键词相同的历史关键词所对应的第一词频大于或者等于与第二关键词相同的历史关键词所对应的第二词频，所述第二关键词包括所述关键词组中除所述第一关键词之外的其他关键词，各所述历史关键词包括在至少一个历史***中确定的关键词，各所述历史***针对的行业领域与所述目标行业所属的行业领域相同；

第一填充模块404，用于将所述第一关键词填充至该待填充位置，以得到目标话术文本；

第三确定模块405，用于针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，其中，所述目标字词是通过对该目标话术文本进行分词处理得到的，所述历史字词是通过对至少一个历史话术文本进行分词处理得到的，各所述历史话术文本包括：在各所述历史***中位于各所述段落主题下的文本，所述目标***模板针对的行业领域与所述目标行业所属的行业领域相同；

第二填充模块406，用于将该目标话术文本填充至与其匹配度最高的段落主题下，以得到所述目标行业的***。

在一种可行的实施方案中，所述第二确定模块403的配置在用于根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词时，具体用于：

在一种可行的实施方案中，所述第三确定模块405的配置在用于针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度时，具体用于：

在一种可行的实施方案中，所述***生成装置还包括：

在一种可行的实施方案中，所述***生成模块还包括：获取模块，用于将各所述历史***作为规则模型的输入数据，得到所述目标***模板，其中，所述目标***模板包括：***的段落数量、段落主题和段落要求。

本申请实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的***、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

实施例三

本申请实施例还提供了一种计算机设备500，图5示出了本申请实施例三所提供的一种计算机设备的结构示意图，如图5所示，该设备包括存储器501、处理器502及存储在该存储器501上并可在该处理器502上运行的计算机程序，其中，上述处理器502执行上述计算机程序时实现上述***生成方法。

具体地，上述存储器501和处理器502能够为通用的存储器和处理器，这里不做具体限定，当处理器502运行存储器501存储的计算机程序时，能够执行上述***生成方法，解决了现有技术中人工的工作量大且人工成本高的问题。

实施例四

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述***生成方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述***生成方法，解决了现有技术中人工的工作量大且人工成本高的问题。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种***生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词，包括：

3.如权利要求1所述的方法，其特征在于，所述针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度，包括：

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

将各所述历史***作为规则模型的输入数据，得到所述目标***模板，其中，所述目标***模板包括：***的段落数量、段落主题和段落要求。

6.一种***生成装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第二确定模块的配置在用于根据各历史关键词在该待填充位置处出现的词频，在所述关键词组中确定第一关键词时，具体用于：

8.如权利要求6所述的装置，其特征在于，所述第三确定模块的配置在用于针对每一个目标话术文本包括的每一个目标字词，根据与该目标字词相同的历史字词在目标***模板的各段落主题下出现的频率，确定该目标话术文本与各段落主题的匹配度时，具体用于：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的***生成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的***生成方法的步骤。