CN113962210A

CN113962210A - 基于nlp技术的报告智能编制方法

Info

Publication number: CN113962210A
Application number: CN202111403752.9A
Authority: CN
Inventors: 谢遵党; 杨顺群; 王楠; 蔺志刚; 王美斋; 邹琮; 常学军; 王陆; 陶玉波
Original assignee: Yellow River Engineering Consulting Co Ltd
Current assignee: Yellow River Engineering Consulting Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-01-21

Abstract

本发明公开了一种基于NLP技术的报告智能编制方法,包括以下步骤：S1，收集行业报告编制标准和规范，构建报告模板库；S2，收集编写所述行业报告所需的数据资料，构建报告素材库；S3，收集最新的互联网数据资料，形成互联网资源库；S4，选取报告编制模板，录入或选择关键词，完成报告主体编制；S5，通过知识图谱技术，辅助完成报告编制。本发明优点在于基于NLP技术给出的报告智能编写方法，基于报告素材库和互联网资源库，为编制人员智能推荐素材，并自动化***报告，提高报告编制的质量和效率，同时借助知识联想功能，保证报告编制的创造性、全面性与严谨性，弥补人为因素的不足。

Description

基于NLP技术的报告智能编制方法

技术领域

本发明涉及专业技术报告编制领域，尤其是涉及基于NLP技术的报告智能编制方法。

背景技术

专业技术报告主要包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案等。现阶段专业技术报告的编制方法一般是参考类似专业技术报告、论文文献和基础资料等直接编制，同时通过互联网信息检索，辅助报告编制，形成最终的成品报告。

然而上述报告编制方法具有以下弊端：1）报告编制效率低，无法高效的获取报告编制所需要的素材与互联网信息资源，需要通过人工手段进行，缺少自动化智能化手段；2）人为因素影响较大，因不同编制人员的水平、经验和报告编写习惯不同，往往导致报告编写质量不一，无法形成标准统一、高质量的报告成果；3）报告编制相关资料分散在每个编制人员的个人电脑中，无法有效实现资源共享，形成有效的知识积累与经验储备。

随着信息技术的快速发展，自然语言处理技术（英文缩写为NLP）日渐成熟，在新闻领域、文学创作领域的文字创作，已经有较多应用，但利用自然语言处理技术辅助专业技术报告的编制，尤其是在专业技术报告领域实现报告的智能编制方面还鲜有应用。

因此，亟需建立一种基于NLP技术的报告智能编制方法来弥补现行报告编制自动化、智能化程度低的问题，提高报告编制的质量和效率。

发明内容

本发明目的在于提供一种基于NLP技术的报告智能编制方法。

为实现上述目的，本发明采取下述技术方案：

本发明所述一种基于NLP技术的报告智能编制方法，包括包括以下步骤：

S1，收集行业报告编制标准和规范，构建报告模板库；

S2，收集编写行业报告所需的数据资料，建报告素材库；

S3，收集最新的互联网数据资料，形成互联网资源库；

S4，选取报告编制模板，录入或选择关键词，完成报告主体编制；

S5，通过知识图谱技术，辅助完成报告编制。

进一步地，步骤S1中，所述行业报告，包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案，能够根据行业领域实时调整；

所述模板包括标题、目录和章节等基本信息。

进一步地，步骤S2中，所述数据资料包括类似报告、相关论文文献和相关基础数据；

所述构建报告素材库是指，通过NPL处理算法，对收集的数据资料进行分段、分句、分词与关键词提取处理，形成数据片段，构建报告素材库；

所述NPL处理算法，包括分段算法、分句算法、分词算法、关键词抽取算法、聚类算法、推荐算法和知识图谱构建算法。

进一步地，步骤S2中，具体包括以下内容：

S2.1，采用条件随机场（英文缩写为CRF）模型和用户自定义词典进行分词；

S2.2，采用词频逆文本频率算法（英文缩写为TF-IDF）与文本排序算法（英文为TextRank）抽取数据资料的关键词。

进一步地，步骤S3中，具体包括以下内容：

S3.1，对报告编制人员录入或选择的关键词进行分词，基于分词结果采集互联网数据资料；

S3.2，采用网络爬虫技术和机器人流程自动化（英文缩写为RPA）采集技术采集互联网数据资料；

S3.3，对互联网数据资料进行筛选，将最新的互联网数据资料入库形成互联网资源库，辅助报告编制人员编写报告。

进一步地，步骤S4中，具体包括以下内容：

S4.1，根据录入或选择关键词，推荐数据片段；

S4.2，通过K均值（英文为K-means）聚类算法进行文本数据类型聚类，推荐同一聚类的数据资料；

S4.3，将推荐的数据资料自动化导入报告。

进一步地，步骤S5中，具体包括以下内容：

S5.1，根据S4步录入或选择的关键词，通过搜索引擎的搜索联想算法，进行搜索关键词联想，将关键词和联想的文本建立连接，构建知识图谱；

S5.2，通过知识图谱中的联想词，重新快速从报告素材库和互联网资源库获取推荐的相关数据资料，辅助报告编制。

本发明优点在于基于NLP技术给出的报告智能编写方法，基于报告素材库和互联网资源库，为编制人员智能推荐素材，并自动化***报告，提高报告编制的质量和效率，同时借助知识联想功能，保证报告编制的创造性、全面性与严谨性，弥补人为因素的不足。

附图说明

图1是本发明所方法流程图。

图2为本发明实施例的报告模板库示意图。

图3为本发明实施例的报告素材库示意图。

图4为本发明实施例的互联网资源库示意图。

图5为本发明实施例的知识图谱联想示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所述一种基于NLP技术的报告智能编制方法，包括以下步骤：

S1，收集行业报告编制标准和规范，构建报告模板库；如图2所示。

所述行业报告，包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案等；根据行业领域能够实时调整；

所述模板包括标题、目录和章节等基本信息；

S2，收集编写行业报告所需的数据资料，建报告素材库；如图3所示。

所述数据资料包括类似报告、相关论文文献和相关基础数据等；

所述建报告素材库是指，通过自然语言（英文缩写为NPL）处理算法，对收集的数据资料进行分段、分句、分词与关键词提取处理，形成数据片段，构建报告素材库；

所述自然语言（英文缩写为NPL）处理算法，包括分段算法、分句算法、分词算法、关键词抽取算法、聚类算法、推荐算法和知识图谱构建算法；

具体包括以下内容：

S2.2，采用词频逆文本频率算法（英文缩写为TF-IDF）与文本排序算法（英文为TextRank）抽取数据资料的关键词；

S3，收集最新的互联网数据资料，形成互联网资源库；如图4所示。

具体包括以下内容：

S3.3，对互联网数据资料进行筛选，将最新的互联网数据资料入库形成互联网资源库，辅助报告编制人员编写报告；

S4，选取报告编制模板，录入或选择关键词，完成报告主体编制；具体包括以下内容：

S4.1，根据录入或选择关键词，推荐数据片段；

S4.3，将推荐的数据资料自动化导入报告；

S5，通过知识图谱技术，辅助完成报告编制；如图5所示。

具体包括以下内容：

本发明所述一种基于NLP技术的报告智能编制方法，基于报告素材库和互联网资源库，为编制人员智能推荐素材，并自动***报告，提高报告编制的质量和效率，同时借助知识联想功能，保证报告编制的创造性、全面性与严谨性，应用于专业技术报告的编制。

Claims

1.一种基于NLP技术的报告智能编制方法，其特征在于：包括以下步骤：

S1，收集行业报告编制标准和规范，构建报告模板库；

S2，收集编写所述行业报告所需的数据资料，构建报告素材库；

S3，收集最新的互联网数据资料，形成互联网资源库；

S5，通过知识图谱技术，辅助完成报告编制。

2.根据权利要求1所述方法，其特征在于：步骤S1中，所述行业报告，包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案，能够根据行业领域实时调整；

所述模板包括标题、目录和章节基本信息。

3.根据权利要求1所述方法，其特征在于：步骤S2中，所述数据资料包括类似报告、相关论文文献和相关基础数据；

所述构建报告素材库是指，通过NPL处理算法，对收集的所述数据资料进行分段、分句、分词与关键词提取处理，形成数据片段，构建报告素材库；

4.根据权利要求1所述方法，其特征在于：步骤S2中，具体包括以下内容：

S2.1，采用条件随机场模型和用户自定义词典进行所述分词；

S2.2，采用词频逆文本频率算法与文本排序算法抽取所述数据资料的所述关键词。

5.根据权利要求1所述方法，其特征在于：步骤S3中，具体包括以下内容：

S3.1，对报告编制人员录入或选择的所述关键词进行所述分词，基于分词结果采集所述互联网数据资料；

S3.2，采用网络爬虫技术和机器人流程自动化采集技术采集互联网数据资料；

S3.3，对互联网数据资料进行筛选，将最新的互联网数据资料入库形成所述互联网资源库，辅助报告编制人员编写报告。

6.根据权利要求1所述方法，其特征在于：步骤S4中，具体包括以下内容：

S4.1，根据录入或选择所述关键词，推荐所述数据片段；

S4.2，通过K均值聚类算法进行文本数据类型聚类，推荐同一所述聚类的所述数据资料；

S4.3，将推荐的数据资料自动化导入报告。

7.根据权利要求1所述方法，其特征在于：步骤S5中，具体包括以下内容：

S5.1，根据S4步录入或选择的所述关键词，通过搜索引擎的搜索联想算法，进行搜索关键词联想，将关键词和联想的文本建立连接，构建所述知识图谱；

S5.2，通过知识图谱中的联想词，重新快速从所述报告素材库和所述互联网资源库获取推荐的相关所述数据资料，辅助报告编制。