CN113962210A - 基于nlp技术的报告智能编制方法 - Google Patents
基于nlp技术的报告智能编制方法 Download PDFInfo
- Publication number
- CN113962210A CN113962210A CN202111403752.9A CN202111403752A CN113962210A CN 113962210 A CN113962210 A CN 113962210A CN 202111403752 A CN202111403752 A CN 202111403752A CN 113962210 A CN113962210 A CN 113962210A
- Authority
- CN
- China
- Prior art keywords
- report
- compiling
- algorithm
- data
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005516 engineering process Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000004801 process automation Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于NLP技术的报告智能编制方法,包括以下步骤:S1,收集行业报告编制标准和规范,构建报告模板库;S2,收集编写所述行业报告所需的数据资料,构建报告素材库;S3,收集最新的互联网数据资料,形成互联网资源库;S4,选取报告编制模板,录入或选择关键词,完成报告主体编制;S5,通过知识图谱技术,辅助完成报告编制。本发明优点在于基于NLP技术给出的报告智能编写方法,基于报告素材库和互联网资源库,为编制人员智能推荐素材,并自动化***报告,提高报告编制的质量和效率,同时借助知识联想功能,保证报告编制的创造性、全面性与严谨性,弥补人为因素的不足。
Description
技术领域
本发明涉及专业技术报告编制领域,尤其是涉及基于NLP技术的报告智能编制方法。
背景技术
专业技术报告主要包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案等。现阶段专业技术报告的编制方法一般是参考类似专业技术报告、论文文献和基础资料等直接编制,同时通过互联网信息检索,辅助报告编制,形成最终的成品报告。
然而上述报告编制方法具有以下弊端:1)报告编制效率低,无法高效的获取报告编制所需要的素材与互联网信息资源,需要通过人工手段进行,缺少自动化智能化手段;2)人为因素影响较大,因不同编制人员的水平、经验和报告编写习惯不同,往往导致报告编写质量不一,无法形成标准统一、高质量的报告成果;3)报告编制相关资料分散在每个编制人员的个人电脑中,无法有效实现资源共享,形成有效的知识积累与经验储备。
随着信息技术的快速发展,自然语言处理技术(英文缩写为NLP)日渐成熟,在新闻领域、文学创作领域的文字创作,已经有较多应用,但利用自然语言处理技术辅助专业技术报告的编制,尤其是在专业技术报告领域实现报告的智能编制方面还鲜有应用。
因此,亟需建立一种基于NLP技术的报告智能编制方法来弥补现行报告编制自动化、智能化程度低的问题,提高报告编制的质量和效率。
发明内容
本发明目的在于提供一种基于NLP技术的报告智能编制方法。
为实现上述目的,本发明采取下述技术方案:
本发明所述一种基于NLP技术的报告智能编制方法,包括包括以下步骤:
S1,收集行业报告编制标准和规范,构建报告模板库;
S2,收集编写行业报告所需的数据资料,建报告素材库;
S3,收集最新的互联网数据资料,形成互联网资源库;
S4,选取报告编制模板,录入或选择关键词,完成报告主体编制;
S5,通过知识图谱技术,辅助完成报告编制。
进一步地,步骤S1中,所述行业报告,包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案,能够根据行业领域实时调整;
所述模板包括标题、目录和章节等基本信息。
进一步地,步骤S2中,所述数据资料包括类似报告、相关论文文献和相关基础数据;
所述构建报告素材库是指,通过NPL处理算法,对收集的数据资料进行分段、分句、分词与关键词提取处理,形成数据片段,构建报告素材库;
所述NPL处理算法,包括分段算法、分句算法、分词算法、关键词抽取算法、聚类算法、推荐算法和知识图谱构建算法。
进一步地,步骤S2中,具体包括以下内容:
S2.1,采用条件随机场(英文缩写为CRF)模型和用户自定义词典进行分词;
S2.2,采用词频逆文本频率算法(英文缩写为TF-IDF)与文本排序算法(英文为TextRank)抽取数据资料的关键词。
进一步地,步骤S3中,具体包括以下内容:
S3.1,对报告编制人员录入或选择的关键词进行分词,基于分词结果采集互联网数据资料;
S3.2,采用网络爬虫技术和机器人流程自动化(英文缩写为RPA)采集技术采集互联网数据资料;
S3.3,对互联网数据资料进行筛选,将最新的互联网数据资料入库形成互联网资源库,辅助报告编制人员编写报告。
进一步地,步骤S4中,具体包括以下内容:
S4.1,根据录入或选择关键词,推荐数据片段;
S4.2,通过K均值(英文为K-means)聚类算法进行文本数据类型聚类,推荐同一聚类的数据资料;
S4.3,将推荐的数据资料自动化导入报告。
进一步地,步骤S5中,具体包括以下内容:
S5.1,根据S4步录入或选择的关键词,通过搜索引擎的搜索联想算法,进行搜索关键词联想,将关键词和联想的文本建立连接,构建知识图谱;
S5.2,通过知识图谱中的联想词,重新快速从报告素材库和互联网资源库获取推荐的相关数据资料,辅助报告编制。
本发明优点在于基于NLP技术给出的报告智能编写方法,基于报告素材库和互联网资源库,为编制人员智能推荐素材,并自动化***报告,提高报告编制的质量和效率,同时借助知识联想功能,保证报告编制的创造性、全面性与严谨性,弥补人为因素的不足。
附图说明
图1是本发明所方法流程图。
图2为本发明实施例的报告模板库示意图。
图3为本发明实施例的报告素材库示意图。
图4为本发明实施例的互联网资源库示意图。
图5为本发明实施例的知识图谱联想示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明所述一种基于NLP技术的报告智能编制方法,包括以下步骤:
S1,收集行业报告编制标准和规范,构建报告模板库;如图2所示。
所述行业报告,包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案等;根据行业领域能够实时调整;
所述模板包括标题、目录和章节等基本信息;
S2,收集编写行业报告所需的数据资料,建报告素材库;如图3所示。
所述数据资料包括类似报告、相关论文文献和相关基础数据等;
所述建报告素材库是指,通过自然语言(英文缩写为NPL)处理算法,对收集的数据资料进行分段、分句、分词与关键词提取处理,形成数据片段,构建报告素材库;
所述自然语言(英文缩写为NPL)处理算法,包括分段算法、分句算法、分词算法、关键词抽取算法、聚类算法、推荐算法和知识图谱构建算法;
具体包括以下内容:
S2.1,采用条件随机场(英文缩写为CRF)模型和用户自定义词典进行分词;
S2.2,采用词频逆文本频率算法(英文缩写为TF-IDF)与文本排序算法(英文为TextRank)抽取数据资料的关键词;
S3,收集最新的互联网数据资料,形成互联网资源库;如图4所示。
具体包括以下内容:
S3.1,对报告编制人员录入或选择的关键词进行分词,基于分词结果采集互联网数据资料;
S3.2,采用网络爬虫技术和机器人流程自动化(英文缩写为RPA)采集技术采集互联网数据资料;
S3.3,对互联网数据资料进行筛选,将最新的互联网数据资料入库形成互联网资源库,辅助报告编制人员编写报告;
S4,选取报告编制模板,录入或选择关键词,完成报告主体编制;具体包括以下内容:
S4.1,根据录入或选择关键词,推荐数据片段;
S4.2,通过K均值(英文为K-means)聚类算法进行文本数据类型聚类,推荐同一聚类的数据资料;
S4.3,将推荐的数据资料自动化导入报告;
S5,通过知识图谱技术,辅助完成报告编制;如图5所示。
具体包括以下内容:
S5.1,根据S4步录入或选择的关键词,通过搜索引擎的搜索联想算法,进行搜索关键词联想,将关键词和联想的文本建立连接,构建知识图谱;
S5.2,通过知识图谱中的联想词,重新快速从报告素材库和互联网资源库获取推荐的相关数据资料,辅助报告编制。
本发明所述一种基于NLP技术的报告智能编制方法,基于报告素材库和互联网资源库,为编制人员智能推荐素材,并自动***报告,提高报告编制的质量和效率,同时借助知识联想功能,保证报告编制的创造性、全面性与严谨性,应用于专业技术报告的编制。
Claims (7)
1.一种基于NLP技术的报告智能编制方法,其特征在于:包括以下步骤:
S1,收集行业报告编制标准和规范,构建报告模板库;
S2,收集编写所述行业报告所需的数据资料,构建报告素材库;
S3,收集最新的互联网数据资料,形成互联网资源库;
S4,选取报告编制模板,录入或选择关键词,完成报告主体编制;
S5,通过知识图谱技术,辅助完成报告编制。
2.根据权利要求1所述方法,其特征在于:步骤S1中,所述行业报告,包括招标文件、投标文件、项目建议书、可行性研究报告、初步设计报告、专题报告和实施方案,能够根据行业领域实时调整;
所述模板包括标题、目录和章节基本信息。
3.根据权利要求1所述方法,其特征在于:步骤S2中,所述数据资料包括类似报告、相关论文文献和相关基础数据;
所述构建报告素材库是指,通过NPL处理算法,对收集的所述数据资料进行分段、分句、分词与关键词提取处理,形成数据片段,构建报告素材库;
所述NPL处理算法,包括分段算法、分句算法、分词算法、关键词抽取算法、聚类算法、推荐算法和知识图谱构建算法。
4.根据权利要求1所述方法,其特征在于:步骤S2中,具体包括以下内容:
S2.1,采用条件随机场模型和用户自定义词典进行所述分词;
S2.2,采用词频逆文本频率算法与文本排序算法抽取所述数据资料的所述关键词。
5.根据权利要求1所述方法,其特征在于:步骤S3中,具体包括以下内容:
S3.1,对报告编制人员录入或选择的所述关键词进行所述分词,基于分词结果采集所述互联网数据资料;
S3.2,采用网络爬虫技术和机器人流程自动化采集技术采集互联网数据资料;
S3.3,对互联网数据资料进行筛选,将最新的互联网数据资料入库形成所述互联网资源库,辅助报告编制人员编写报告。
6.根据权利要求1所述方法,其特征在于:步骤S4中,具体包括以下内容:
S4.1,根据录入或选择所述关键词,推荐所述数据片段;
S4.2,通过K均值聚类算法进行文本数据类型聚类,推荐同一所述聚类的所述数据资料;
S4.3,将推荐的数据资料自动化导入报告。
7.根据权利要求1所述方法,其特征在于:步骤S5中,具体包括以下内容:
S5.1,根据S4步录入或选择的所述关键词,通过搜索引擎的搜索联想算法,进行搜索关键词联想,将关键词和联想的文本建立连接,构建所述知识图谱;
S5.2,通过知识图谱中的联想词,重新快速从所述报告素材库和所述互联网资源库获取推荐的相关所述数据资料,辅助报告编制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111403752.9A CN113962210A (zh) | 2021-11-24 | 2021-11-24 | 基于nlp技术的报告智能编制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111403752.9A CN113962210A (zh) | 2021-11-24 | 2021-11-24 | 基于nlp技术的报告智能编制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113962210A true CN113962210A (zh) | 2022-01-21 |
Family
ID=79471833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111403752.9A Pending CN113962210A (zh) | 2021-11-24 | 2021-11-24 | 基于nlp技术的报告智能编制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113962210A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415559A (zh) * | 2022-10-19 | 2023-07-11 | 国网浙江省电力有限公司开化县供电公司 | 一种在线智能报告编写生成***及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334784A (zh) * | 2008-07-30 | 2008-12-31 | 施章祖 | 计算机辅助报告与知识库产生的方法 |
CN104102713A (zh) * | 2014-07-16 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 推荐结果的展现方法和装置 |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
CN109446344A (zh) * | 2018-11-14 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于大数据的智能分析报告自动生成*** |
CN110148043A (zh) * | 2019-03-01 | 2019-08-20 | 安徽省优质采科技发展有限责任公司 | 基于知识图谱的招标采购信息推荐***及推荐方法 |
CN111694940A (zh) * | 2020-05-14 | 2020-09-22 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN112199931A (zh) * | 2020-09-24 | 2021-01-08 | 联合赤道环境评价有限公司 | 一种基于大数据的环保咨询类报告智能生成方法 |
CN113254574A (zh) * | 2021-03-15 | 2021-08-13 | 河北地质大学 | 一种机关公文辅助生成方法、装置以及*** |
CN113268971A (zh) * | 2021-06-23 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 演示报告智能生成方法、装置、计算机设备及存储介质 |
CN113298435A (zh) * | 2021-06-21 | 2021-08-24 | 中交第二航务工程局有限公司 | 建筑业施工方案智能编制方法及其*** |
CN113569543A (zh) * | 2021-07-13 | 2021-10-29 | 上海核工程研究设计院有限公司 | 一种核电工程自动报告生成技术的实现方法 |
-
2021
- 2021-11-24 CN CN202111403752.9A patent/CN113962210A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101334784A (zh) * | 2008-07-30 | 2008-12-31 | 施章祖 | 计算机辅助报告与知识库产生的方法 |
CN104102713A (zh) * | 2014-07-16 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 推荐结果的展现方法和装置 |
CN106649223A (zh) * | 2016-12-23 | 2017-05-10 | 北京文因互联科技有限公司 | 基于自然语言处理的金融报告自动生成方法 |
CN109446344A (zh) * | 2018-11-14 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于大数据的智能分析报告自动生成*** |
CN110148043A (zh) * | 2019-03-01 | 2019-08-20 | 安徽省优质采科技发展有限责任公司 | 基于知识图谱的招标采购信息推荐***及推荐方法 |
CN111694940A (zh) * | 2020-05-14 | 2020-09-22 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN112199931A (zh) * | 2020-09-24 | 2021-01-08 | 联合赤道环境评价有限公司 | 一种基于大数据的环保咨询类报告智能生成方法 |
CN113254574A (zh) * | 2021-03-15 | 2021-08-13 | 河北地质大学 | 一种机关公文辅助生成方法、装置以及*** |
CN113298435A (zh) * | 2021-06-21 | 2021-08-24 | 中交第二航务工程局有限公司 | 建筑业施工方案智能编制方法及其*** |
CN113268971A (zh) * | 2021-06-23 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 演示报告智能生成方法、装置、计算机设备及存储介质 |
CN113569543A (zh) * | 2021-07-13 | 2021-10-29 | 上海核工程研究设计院有限公司 | 一种核电工程自动报告生成技术的实现方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116415559A (zh) * | 2022-10-19 | 2023-07-11 | 国网浙江省电力有限公司开化县供电公司 | 一种在线智能报告编写生成***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN101404015B (zh) | 自动生成词条层次 | |
CN100458795C (zh) | 一种智能组词输入的方法和一种输入法***及其更新方法 | |
CN102184262A (zh) | 基于web的文本分类挖掘***及方法 | |
CN103092943B (zh) | 一种广告调度的方法和广告调度服务器 | |
CN112352232A (zh) | 分类树生成 | |
US10740406B2 (en) | Matching of an input document to documents in a document collection | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN102609427A (zh) | 舆情垂直搜索分析***及方法 | |
CA3166094A1 (en) | Commodity short title generation method and apparatus | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
CN112334890A (zh) | 主题集细化 | |
CN105760524A (zh) | 一种科学新闻标题的多层次多分类方法 | |
Sivakumar | Effectual web content mining using noise removal from web pages | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN113962210A (zh) | 基于nlp技术的报告智能编制方法 | |
CN103488741A (zh) | 一种基于url的中文多语义名词的在线语义挖掘*** | |
CN104462552A (zh) | 问答页面核心词提取方法和装置 | |
Costa et al. | Semantic enrichment of product data supported by machine learning techniques | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN102103604B (zh) | 检索词核心权重确定方法和装置 | |
CN116304347A (zh) | 一种基于群智知识的Git命令推荐方法 | |
Gupta et al. | Tools of opinion mining | |
Moumtzidou et al. | Discovery of environmental nodes in the web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |