CN109492112A - 一种基于知识图谱的计算机辅助写作科普文章的方法 - Google Patents

一种基于知识图谱的计算机辅助写作科普文章的方法 Download PDF

Info

Publication number
CN109492112A
CN109492112A CN201811246633.5A CN201811246633A CN109492112A CN 109492112 A CN109492112 A CN 109492112A CN 201811246633 A CN201811246633 A CN 201811246633A CN 109492112 A CN109492112 A CN 109492112A
Authority
CN
China
Prior art keywords
article
knowledge
machine learning
writing
computer aided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811246633.5A
Other languages
English (en)
Inventor
赵鑫磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing Encyclopedia Kangxun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Encyclopedia Kangxun Technology Co Ltd filed Critical Beijing Encyclopedia Kangxun Technology Co Ltd
Priority to CN201811246633.5A priority Critical patent/CN109492112A/zh
Publication of CN109492112A publication Critical patent/CN109492112A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种基于知识图谱的计算机辅助写作科普文章的方法,包括:从素材材料库中采集素材材料,并对所述素材材料中的关键词和实体名词进行识别,计算字词依存概率,产生词向量,或者运用其他自然语言处理算法得到相关数据;对所述素材材料进行机器学习,挖掘出相关的专业知识,并对所述素材材料涉及的专业知识进行结构化,形成知识图谱,并生成文章框架;根据编辑人员的写作内容和个人特点提供有针对性的参考资料,生成文章;由人工对机器生成的文章进行重新审定和矫正,并将审定和矫正结果反馈给机器学习端,由机器学习端进行审核,利用知识图谱和之前机器学习训练得到的模型,自动纠正错别字和错词,完成最终文章。本发明利用人工智能技术,辅助编辑人员编写专业的科普文章,提高文章的编写效率和专业性。

Description

一种基于知识图谱的计算机辅助写作科普文章的方法
技术领域
本发明涉及计算机应用技术领域,特别涉及一种基于知识图谱的计算机辅助写作科普文章的方法。
背景技术
传统计算机辅助写作***,如word,只提供了审阅、拼写和语法检测、批注等功能,但是这些功能只能对写作这个行为有一定的辅助能力,提高写作效率,但并不能提高写作质量。再进一步,如Google文档,不但提供了word的大部分辅助功能,还提供了多人协作模式,进一步提高了写作效率,但是对提高写作质量并没有什么帮助。最近很多大企业提出了人工智能辅助写作的方案,号称能够高速高质量的输出文字写作内容,但是从已知渠道了解,也只能写出小说、散文、诗歌等非专业文章,对科普文章的写作帮助有限。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于知识图谱的计算机辅助写作科普文章的方法。
为了实现上述目的,本发明的实施例提供一种基于知识图谱的计算机辅助写作科普文章的方法,包括如下步骤:
步骤S1,从素材材料库中采集素材材料,并对所述素材材料中的关键词和实体名词进行识别;
步骤S2,根据步骤S1中提取的关键词和识别的实体名词,对所述素材材料进行机器学习,挖掘出相关的专业知识,并对所述素材材料涉及的专业知识进行结构化,形成知识图谱,并生成文章框架;
步骤S3,根据编辑人员的写作内容和个人特点提供有针对性的参考资料,并结合步骤S2中的和知识图谱和文章框架,生成文章;
步骤S4,由人工对机器生成的文章进行重新审定和矫正,并将审定和矫正结果反馈给机器学习端,由机器学习端进行审核,利用知识图谱和之前机器学习训练得到的模型,自动纠正错别字和错词,完成最终文章;
步骤S5,根据S4步骤的人工干预部分,反馈给机器学习模块并对知识图谱进行修正。
进一步,在所述步骤S1中,对所述素材材料中文字进行中文自动分词,然后提取出关键词,并识别出实体名词。
进一步,在所述步骤S2中,利用机器学习方法,训练生成文章框架、训练机器自动校对词典的、寻找词语相关性的操作。
进一步,在所述步骤S2中,所述生成文章框架,包括:自动完成给定题目的科普文章的基本结构和框架,辅助写作者完成最基本的文章内容的创作。
进一步,在所述步骤S4中,进一步对相关专业词汇进行通俗化词汇提示。
进一步,在所述步骤S4中,在机器学习端进行审核之后,进一步交由人工审核,专业人士对该科普文章的专业性的确认。
进一步,在所述步骤S4后,还包括如下步骤:将完成的文章根据接收目的端的不同,打包为不同的格式进行发送,并同时发送至素材材料库。
根据本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法,利用机器学习方法,从现有资料内挖掘专业知识形成知识图谱,并根据编辑人员的写作内容和个人特点提供有针对性的参考资料;对相关专业词汇进行通俗化词汇提示,使得产出文章更加通俗易懂;对写作格式进行规范化,自动纠正错别字、错词等,根据标题,自动生成写作模板。利用人工智能技术,辅助编辑人员编写专业的科普文章,提高文章的编写效率和专业性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法的流程图;
图2为根据本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法的示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提出一种基于知识图谱的计算机辅助写作科普文章的方法,可以对现有存在的科普文章受限问题进行有效的优化。
如图1和图2所示,本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法,包括如下步骤:
步骤S1,从素材材料库中采集素材材料,并对素材材料中的关键词和实体名词进行识别。
在本步骤中,素材材料库存储有专业图书、论文、科普文章等素材材料,从素材材料库中采集上述相关的专业图书、论文、科普文章,作为后续机器学习和知识图谱的原始语料和专业参考资料。然后,对素材资料进行中文自动分词,利用文本分类等方法提取关键词,识别出素材资料中的实体名词。其中,关键词是指能够概括一段文字所述内容的词;实体名词包括人名、位置等物体的专有名词。需要说明的是,提取关键词的方法不限于文本分类方法,还可以采用其他方式,在此不再赘述。
需要说明的是,对于素材材料中一些识别不准确的关键词或实体名词作人工干预的标注。
步骤S2,根据步骤S1中提取的关键词和识别的实体名词,对素材材料进行机器学习,挖掘出相关的专业知识,并对素材材料涉及的专业知识进行结构化,形成知识图谱,并生成文章框架。
在本步骤中,对素材材料进行机器学习,包括:训练机器如何生成文章框架、训练机器自动校对词典的、寻找词语相关性等。其在后续工作步骤中,起到了自动生成文章框架,自动纠正错别字,自动提示专业词汇需要用何种通俗词汇来替换等智能操作的作用。
然后根据机器学习挖掘出相关的专业知识,并对素材材料涉及的专业知识进行结构化。即,将采集到的资料所涵盖的知识进行结构化。结合之前的机器学习步骤,保证了后序工作所产生的文章内容具备专业性,调取的参考资料更精准,更进一步可实现智能问答***例如,基于人工智能的提问应答***,比如苹果的siri、微软的小冰。
在形成知识图谱后,生成文章框架。这是生产科普文章的第一步。这一步骤自动完成了给定题目的科普文章的基本结构和框架,辅助写作者完成最基本的文章内容的创作。
步骤S3,根据编辑人员的写作内容和个人特点提供有针对性的参考资料,并结合步骤S2中的和知识图谱和文章框架,生成文章。其中,针对性的参考资料由计算机自动分析推送。这一步骤是辅助步骤,在写作者编写文章的过程,根据写作的内容,自动调出参考资料给写作者做参考。
步骤S4,由人工对机器生成的文章进行重新审定和矫正,并将审定和矫正结果反馈给机器学习端,由机器学习端进行审核,利用知识图谱和之前机器学习训练得到的模型,自动纠正错别字和错词,完成最终文章。
人工修正步骤是人对机器生成内容的重新审定和矫正,这一步骤的操作会将结果反馈给机器学习模块,提高自动化部分的准确率。输出审核是完成文章写作较为末端的任务。分为机器审核和人工审核两个方面。机器审核会利用知识图谱和之前机器学习训练得到的模型来对错别字、词汇等进行审阅校对,提供参考建议。进一步对相关专业词汇进行通俗化词汇提示。
在本发明的一个实施例中,在机器学习端进行审核之后,进一步交由人工审核,专业人士对该科普文章的专业性的确认。
需要说明的是,数据模型是专有名词,不是知识图谱,实际上是机器学习算法经过大量数据训练,最后得到的数学公式。其中,数学公式的函数和自变量根据处理数据的不同,由计算机自动生成。
在步骤S4后,还包括如下步骤:将完成的文章根据接收目的端的不同,打包为不同的格式进行发送,并同时发送至素材材料库。这一步骤是将编写的文章按照其用途打包成不同的格式或发布到不同的地方。同时也将完成的文章送给采集材料这一步骤,形成闭环。
步骤S5,根据S4步骤的人工干预部分,反馈给机器学习模块并对知识图谱进行修正。
具体的,生成文章在步骤S4,步骤5在步骤4之后是对***的自反馈特性,修正后的知识图谱无需对前一步的文章进行校验,这等同于自证。
下面对本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法的工作流程进行说明:
首先,利用知识图谱技术,将专业知识进行了结构化处理,便于在写作过程中能够精准的找到参考资料。然后利用机器学习方法,将上下文中一些人们耳熟能详的词汇替代等效的专业词汇,对相关专业词汇进行通俗化词汇提示,便于理解。再次利用知识图谱结构化的知识,对写成的文章进行一些准确度校对;结合精确控制的生产编审流程,不但提高写作速度,在写作质量上也有了很好的把控。最后,再将完成的稿件送给机器重新学习,不断加强知识图谱和AI的辅助能力,使得***形成一个闭环。
根据本发明实施例的基于知识图谱的计算机辅助写作科普文章的方法,利用机器学习方法,从现有资料内挖掘专业知识形成知识图谱,并根据编辑人员的写作内容和个人特点提供有针对性的参考资料;对相关专业词汇进行通俗化词汇提示,使得产出文章更加通俗易懂;对写作格式进行规范化,自动纠正错别字、错词等,根据标题,自动生成写作模板。利用人工智能技术,辅助编辑人员编写专业的科普文章,提高文章的编写效率和专业性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims (8)

1.一种基于知识图谱的计算机辅助写作科普文章的方法,包括:从素材材料库中采集素材材料,其特征在于,包括如下步骤:
步骤S1,,并对所述素材材料中的关键词和实体名词进行识别;
步骤S2,根据步骤S1中提取的关键词和识别的实体名词,对所述素材材料进行机器学习,挖掘出相关的专业知识,并对所述素材材料涉及的专业知识进行结构化,形成知识图谱,并生成文章框架;
步骤S3,根据编辑人员的写作内容和个人特点提供有针对性的参考资料,并结合步骤S2中的和知识图谱和文章框架,生成文章;
步骤S4,由人工对机器生成的文章进行重新审定和矫正,并将审定和矫正结果反馈给机器学习端,由机器学习端进行审核,利用知识图谱和之前机器学习训练得到的模型,自动纠正错别字和错词,完成最终文章;
步骤S5,根据S4步骤的人工干预部分,反馈给机器学习模块并对知识图谱进行修正。
2.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S1中,对所述素材材料中文字进行中文自动分词,然后提取出关键词,并识别出实体名词。
3.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S2中,利用机器学习方法,训练生成文章框架、训练机器自动校对词典的、寻找词语相关性的操作。
4.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S2中,所述生成文章框架,包括:自动完成给定题目的科普文章的基本结构和框架,辅助写作者完成最基本的文章内容的创作。
5.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S4中,进一步对相关专业词汇进行通俗化词汇提示。
6.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S4中,在机器学习端进行审核之后,进一步交由人工审核,专业人士对该科普文章的专业性的确认。
7.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,在所述步骤S4之后,还包括如下步骤:将完成的文章根据接收目的端的不同,打包为不同的格式进行发送,并同时发送至素材材料库。
8.如权利要求1所述的基于知识图谱的计算机辅助写作科普文章的方法,其特征在于,根据预设标题,自动生成写作模板。
CN201811246633.5A 2018-10-24 2018-10-24 一种基于知识图谱的计算机辅助写作科普文章的方法 Pending CN109492112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811246633.5A CN109492112A (zh) 2018-10-24 2018-10-24 一种基于知识图谱的计算机辅助写作科普文章的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811246633.5A CN109492112A (zh) 2018-10-24 2018-10-24 一种基于知识图谱的计算机辅助写作科普文章的方法

Publications (1)

Publication Number Publication Date
CN109492112A true CN109492112A (zh) 2019-03-19

Family

ID=65691803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811246633.5A Pending CN109492112A (zh) 2018-10-24 2018-10-24 一种基于知识图谱的计算机辅助写作科普文章的方法

Country Status (1)

Country Link
CN (1) CN109492112A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和***
CN110516227A (zh) * 2019-03-28 2019-11-29 苏州八叉树智能科技有限公司 标题文本生成方法、装置、电子设备及计算机可读介质
CN113254574A (zh) * 2021-03-15 2021-08-13 河北地质大学 一种机关公文辅助生成方法、装置以及***
CN113330441A (zh) * 2019-05-31 2021-08-31 株式会社艾飒木兰 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN106844322A (zh) * 2017-01-22 2017-06-13 百度在线网络技术(北京)有限公司 智能文章生成方法和装置
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及***
CN107977472A (zh) * 2017-12-27 2018-05-01 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN108052672A (zh) * 2017-12-29 2018-05-18 北京师范大学 利用群体学习行为促进结构化知识图谱构建***及方法
KR20180086801A (ko) * 2017-01-23 2018-08-01 (주)센솔로지 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치
CN108475289A (zh) * 2016-04-15 2018-08-31 谷歌有限责任公司 用于基于文档的内容向写作者建议内容的***和方法
CN108491550A (zh) * 2018-04-11 2018-09-04 北京深度智耀科技有限公司 一种综述的生成方法、装置以及设备
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和***

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475289A (zh) * 2016-04-15 2018-08-31 谷歌有限责任公司 用于基于文档的内容向写作者建议内容的***和方法
CN107967267A (zh) * 2016-10-18 2018-04-27 中兴通讯股份有限公司 一种知识图谱构建方法、装置及***
CN106650943A (zh) * 2016-10-28 2017-05-10 北京百度网讯科技有限公司 基于人工智能的辅助写作方法和装置
CN106844322A (zh) * 2017-01-22 2017-06-13 百度在线网络技术(北京)有限公司 智能文章生成方法和装置
KR20180086801A (ko) * 2017-01-23 2018-08-01 (주)센솔로지 Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치
CN107977472A (zh) * 2017-12-27 2018-05-01 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN108052672A (zh) * 2017-12-29 2018-05-18 北京师范大学 利用群体学习行为促进结构化知识图谱构建***及方法
CN108491550A (zh) * 2018-04-11 2018-09-04 北京深度智耀科技有限公司 一种综述的生成方法、装置以及设备
CN108563620A (zh) * 2018-04-13 2018-09-21 上海财梵泰传媒科技有限公司 文本自动写作方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CLAIRE GARDENT等: "The WebNLG Challenge: Generating Text from RDF Data", 《PROCEEDINGS OF THE 10TH INTERNATIONAL NATURAL LANGUAGE GENERATION CONFERENCE》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516227A (zh) * 2019-03-28 2019-11-29 苏州八叉树智能科技有限公司 标题文本生成方法、装置、电子设备及计算机可读介质
CN113330441A (zh) * 2019-05-31 2021-08-31 株式会社艾飒木兰 一种专利文章生成装置、专利文章生成方法以及专利文章生成程序
CN110457439A (zh) * 2019-08-06 2019-11-15 北京如优教育科技有限公司 一站式智能写作辅助方法、装置和***
CN113254574A (zh) * 2021-03-15 2021-08-13 河北地质大学 一种机关公文辅助生成方法、装置以及***

Similar Documents

Publication Publication Date Title
CN110807328B (zh) 面向法律文书多策略融合的命名实体识别方法及***
CN109492112A (zh) 一种基于知识图谱的计算机辅助写作科普文章的方法
CN107168945A (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN110348008A (zh) 基于预训练模型和微调技术的医疗文本命名实体识别方法
CN110147451B (zh) 一种基于知识图谱的对话命令理解方法
CN106257455B (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping方法
CN101727902B (zh) 一种对语调进行评估的方法
CN109949799B (zh) 一种语义解析方法及***
CN108052499A (zh) 基于人工智能的文本纠错方法、装置及计算机可读介质
CN101188110B (zh) 提高文本和语音匹配效率的方法
CN105261246A (zh) 一种基于大数据挖掘技术的英语口语纠错***
CN107391479A (zh) 模块化成果库的构建方法
CN109376360B (zh) 一种辅助学习语言的方法和装置
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
JP2018033048A (ja) メタデータ生成システム
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN110362820A (zh) 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和***及设备
CN103488627A (zh) 全篇专利文献翻译方法及翻译***
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
CN111597349B (zh) 一种基于人工智能的轨道交通规范实体关系自动补全方法
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200526

Address after: 100041, room 2, building 3, building 30, Xing Xing street, Shijingshan District, Beijing,

Applicant after: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address before: Room 1401, Building 3, 23 Nanbinhe Road, Xicheng District, Beijing 100055

Applicant before: BEIJING BAIKE KANGXUN TECHNOLOGY Co.,Ltd.