CN106407168A - 一种应用文自动生成方法 - Google Patents

一种应用文自动生成方法 Download PDF

Info

Publication number
CN106407168A
CN106407168A CN201610803388.8A CN201610803388A CN106407168A CN 106407168 A CN106407168 A CN 106407168A CN 201610803388 A CN201610803388 A CN 201610803388A CN 106407168 A CN106407168 A CN 106407168A
Authority
CN
China
Prior art keywords
generation method
practical writing
automatic generation
corpus
described step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610803388.8A
Other languages
English (en)
Inventor
周建设
吕学强
刘秀磊
苗琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Capital Normal University
Beijing Information Science and Technology University
Original Assignee
Capital Normal University
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Capital Normal University, Beijing Information Science and Technology University filed Critical Capital Normal University
Priority to CN201610803388.8A priority Critical patent/CN106407168A/zh
Publication of CN106407168A publication Critical patent/CN106407168A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种应用文自动生成方法,包括以下步骤:步骤1)建立语料库;步骤2)选择多个适用实体并输入其对应的具体内容;步骤3)建立模板库并从中选择一个模板;步骤4)对所选择的模板进行润色。本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。

Description

一种应用文自动生成方法
技术领域
本发明属于文字信息数据处理技术领域,具体涉及一种应用文自动生成方法。
背景技术
随着计算机技术和互联网的快速发展,人们不再仅仅把计算机当做一种写作载体、工具使用,而是开始让计算机发挥更多、更加智能的作用,例如利用计算机进行智能辅助写作,尤其是写作应用文等模板化要求较高的文体文章。由于应用文是一种受限语体,其格式较为固定,模板化程度较高,因此利用计算机自主地组织材料自动生成应用文的可操作性和实用性很强。当前有较多的利用计算机自动生成应用文的方法以及实现这些方法的相关应用软件,但是,其普遍存在如下缺陷:建立的语料库数据量太小、适用实体的选择不够准确、自动生成的应用文中无关内容较多、应用于同一场合的应用文雷同程度较高、自动生成的文章语言刻板枯燥缺乏生动性等。因此,利用现有技术的应用文自动生成方法生成的应用文往往需要经过人工进行大量的修改和润色才能符合使用要求,需要耗费人很多的精力和时间。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的应用文自动生成方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种应用文自动生成方法,包括以下步骤:
步骤1)建立语料库;
步骤2)选择多个适用实体并输入其对应的具体内容;
步骤3)建立模板库并从中选择一个模板;
步骤4)对所选择的模板进行润色。
进一步地,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。
进一步地,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。
进一步地,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。
进一步地,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。
进一步地,所述应用文为运动会开幕词。
进一步地,所述步骤1)具体为:采用爬虫技术,从互联网上抓取3万篇开幕词;采用字符串匹配的方法,选出1200篇运动会开幕词,然后对该1200篇开幕词进行预处理;预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,(2)保留开幕词的分段结构,(3)过滤掉无用标签和连续的空行;
利用经过预处理的开幕词构成语料库。
进一步地,所述步骤2)中的多个适用实体为时间、机构、贵宾和学校概况。
进一步地,所述步骤3)具体为:把语料库中的整篇的运动会开幕词分成段;对称呼段、首段、尾段进行分类。
进一步地,所述步骤4)具体为:根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大***会开幕词。
本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。
附图说明
图1为本发明的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种应用文自动生成方法,包括以下步骤:
步骤1)建立语料库;
所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。
步骤2)选择多个适用实体并输入其对应的具体内容;
所述步骤2)具体为:根据应用文的适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后输入每个适用实体所对应的具体内容。在使用时,用户需要在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“时间”输入栏中输入“春季”或“秋季”,在“机构”输入栏中输入“某大学”等。
步骤3)建立模板库并从中选择一个模板;
所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。用户选择一个模板;如果用户不选模板,那么计算机根据用户输入的适用实体的具体内容自行选择一个模板。
步骤4)对所选择的模板进行润色;
所述步骤4)具体为:对所选择的模板文章的词语、句子进行同义词、同义句的替换。
本实施例以大***会开幕词为例说明本发明的具体实施方式,具体如下:
第一步,建立大***会开幕词的语料库;
采用爬虫技术,从互联网上抓取3万篇开幕词文本,采用字符串匹配的方法,从这3万篇开幕词中选出1200篇大***会开幕词;然后对该1200篇开幕词进行预处理,预处理主要包括以下步骤:(1)去掉开幕词中的无关内容,比如一些广告、网站介绍、链接等;(2)保留开幕词的分段结构,遇到一些换行的标签进行换行,比如</P>、</p>、<br>、<BR>等;(3)过滤掉无用标签和连续的空行;最后,利用经过预处理的开幕词文本构成语料库。
第二步,选择大***会开幕词所适用的多个适用实体并输入其对应的具体内容;
根据运动会开幕词的适用场景选择出多个实体,构成实体候选项集,然后采用TF-IDF算法或TextRank算法对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的时间、机构、贵宾和学校概况四个适用实体,然后,在人机交互界面输入每个适用实体所对应的具体内容,例如在计算机的“机构”输入栏中输入举办大***会的学校名称、在“时间”输入栏中输入“春季”或“秋季”等。
第三步,建立大***会开幕词的模板库并从中选择一个模板;
一般地,一篇运动会开幕词一般分为五段,分别是:称呼段、首段、中间段上、中间段下、尾段。称呼段就是开幕词的开场白,例如,“尊敬的各位来宾,全体运动员、裁判员,老师们、同学们:”。首段就是开幕词的第一段,主要是描述下当时景色,然后在表达一下谢意,例如“春风吹拂,杨柳飘飘,风和日丽,万物复出………,向………表示感谢”。中间段上一般就是介绍学校在体育方面的教育方针以及在体育方面取得的成绩。中间段下一般就是表达对运动员的期望,对工作人员或者观众的要求。尾段就是开幕词的最后一段,主要就是表达对运动会、对运动员们的祝福。
根据运动会开幕词的特点,把语料库中的整篇的大***会开幕词分成段,对称呼段、首段、尾段进行分类。
通过对称呼段的聚类,把称呼段分成尊称类和自然类两类。经过分析开幕词的称呼段,可以发现发表讲话的人的身份不同,首段的敬语会有一些细微的差别。一般发表开幕词讲话的不外乎三类人:学生、老师、学校校长或者某一位领导。身份的不同,会导致讲话的语气会有稍微的不同。学生、老师,一般会用尊称,向领导和参会人员问好,而校长或者领导,更多的是平和、自然、稳重、淡然的语气。所以,学生,老师会用“尊敬的……”,领导们会用“……大家好”。
通过对首段的聚类,将首段分为春季类、秋季类和一般类三种。经过分析大***会开幕词的首段发现:首段有明显的时间特性,一般的首段都会先声明当时的时节,先对时节赞美一番。
通过对尾段的聚类,把尾段分为三类,分别是普通类、祝福类、激励类。为了营造高昂的气氛,结尾会发表一些祝福或者激励的话,如果没有这些话那就是说宣布开幕式结束的话。
本实施例提供18种语体模板。用户在输入交互的适用实体的具体内容后还要选择自己需要的模板,得到一篇模板文章;如果用户不选模板,那么计算机也会根据用户输入的适用实体的具体内容自行选择一个模板,得到一篇模板文章。
第四步,对所选择的模板文章进行润色;
根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大***会开幕词。
本发明提供的应用文自动生成方法,建立的语料库数据量大,适用实体的选择准确,自动生成的应用文中没有无关内容,应用于同一场合的应用文不会产生雷同,文章语言生动,基本不需要人再进行大的修改,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种应用文自动生成方法,其特征在于,包括以下步骤:
1)建立语料库;
2)选择多个适用实体并输入其对应的具体内容;
3)建立模板库并从中选择一个模板;
4)对所选择的模板进行润色。
2.根据权利要求1所述的应用文自动生成方法的步骤1),其特征在于,所述步骤1)具体为:采用爬虫技术,从网上抓取文本,获取所需要的语料;去掉语料中的无关内容,保留其原来的分段结构,然后利用其构成语料库。
3.根据权利要求1所述的应用文自动生成方法的步骤2),其特征在于,所述步骤2)具体为:根据用户输入的应用文适用场景选择出多个实体,构成实体候选项集,然后对实体候选项集进行过滤,再根据阅读文本的经验进行挑选,获得最终的多个适用实体,然后再输入每个适用实体所对应的具体内容。
4.根据权利要求1所述的应用文自动生成方法的步骤3),其特征在于,所述步骤3)具体为:先分析所述语料库中文本的段落结构,然后再分析段内的结构,建立起从篇到段再到句然后到词的模板库。
5.根据权利要求1所述的应用文自动生成方法的步骤4),其特征在于,所述步骤4)具体为:对所选择的模板中的词语、句子分别进行同义词、同义句的替换。
6.根据权利要求1-5所述的应用文自动生成方法,其特征在于,所述应用文为运动会开幕词。
7.根据权利要求1-6所述的应用文自动生成方法,其特征在于,所述步骤1)具体为:采用爬虫技术,从互联网上抓取3万篇开幕词。采用字符串匹配的方法,选出1200篇运动会开幕词。然后对该1200篇开幕词进行预处理。预处理主要包括以下步骤:(1)去掉开幕词中的无关内容。(2)保留开幕词的分段结构。(3)过滤掉无用标签和连续的空行。
利用经过预处理的开幕词构成语料库。
8.根据权利要求1-7所述的应用文自动生成方法,其特征在于,所述步骤2)中的多个适用实体为时间、机构、贵宾和学校概况。
9.根据权利要求1-8所述的应用文自动生成方法,其特征在于,所述步骤3)具体为:把语料库中的整篇的运动会开幕词分成段;对称呼段、首段、尾段进行分类。
10.根据权利要求1-9所述的应用文自动生成方法,其特征在于,所述步骤4)具体为:根据语料库中的运动会开幕词,选择40对同义词,同时以哈尔滨工业大学信息检索实验室的《同义词词林(扩展板)》作为同义词词典对同义词词库进行扩展,将得到的同义词词库中的词语存储到哈希表中;利用哈希表中存储的同义词对所选择的模板文章进行同义词替换,并从语料库中搜索同义句来对所选择的模板文章进行同义句替换,从而完成对所生成的运动会开幕词的润色,自动生成一篇大***会开幕词。
CN201610803388.8A 2016-09-06 2016-09-06 一种应用文自动生成方法 Pending CN106407168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610803388.8A CN106407168A (zh) 2016-09-06 2016-09-06 一种应用文自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610803388.8A CN106407168A (zh) 2016-09-06 2016-09-06 一种应用文自动生成方法

Publications (1)

Publication Number Publication Date
CN106407168A true CN106407168A (zh) 2017-02-15

Family

ID=57999806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610803388.8A Pending CN106407168A (zh) 2016-09-06 2016-09-06 一种应用文自动生成方法

Country Status (1)

Country Link
CN (1) CN106407168A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN108595403A (zh) * 2018-04-28 2018-09-28 掌阅科技股份有限公司 用于辅助撰写的处理方法、计算设备及存储介质
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN111062201A (zh) * 2019-12-20 2020-04-24 北京百度网讯科技有限公司 用于处理信息的方法和装置
US10679439B2 (en) 2016-12-02 2020-06-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for controlling code lock
CN111428472A (zh) * 2020-03-13 2020-07-17 浙江华坤道威数据科技有限公司 一种基于自然语言处理及图像算法的文章自动生成***和方法
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
CN113033182A (zh) * 2021-03-25 2021-06-25 网易(杭州)网络有限公司 文本创作的辅助方法、装置及服务器
WO2021128768A1 (zh) * 2019-12-23 2021-07-01 苏宁易购集团股份有限公司 基于自然语言的体育新闻写作方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070327A1 (en) * 2007-09-06 2009-03-12 Alexander Stephan Loeser Method for automatically generating regular expressions for relaxed matching of text patterns

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070327A1 (en) * 2007-09-06 2009-03-12 Alexander Stephan Loeser Method for automatically generating regular expressions for relaxed matching of text patterns

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张艳: "面向高校师生的应用文机辅写作关键技术研究", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *
金博,滕弘飞,史彦军,王丹虹: "机辅写作: 样本库中写作材料检索方法", 《大连理工大学学报》 *
陈建辉,陈祖芬,陈贞: "应用文格式与内容模板整合开发研究", 《江汉大学学报(自然科学版)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679439B2 (en) 2016-12-02 2020-06-09 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for controlling code lock
WO2018176758A1 (zh) * 2017-03-31 2018-10-04 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
CN106970898A (zh) * 2017-03-31 2017-07-21 百度在线网络技术(北京)有限公司 用于生成文章的方法和装置
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107193792B (zh) * 2017-05-18 2020-10-02 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107463552A (zh) * 2017-07-20 2017-12-12 北京奇艺世纪科技有限公司 一种生成视频主题名称的方法和装置
CN109190095A (zh) * 2018-04-13 2019-01-11 北京爱群游网络信息技术有限公司 一种文章的生成方法及装置
CN108595403A (zh) * 2018-04-28 2018-09-28 掌阅科技股份有限公司 用于辅助撰写的处理方法、计算设备及存储介质
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN111062201A (zh) * 2019-12-20 2020-04-24 北京百度网讯科技有限公司 用于处理信息的方法和装置
WO2021128768A1 (zh) * 2019-12-23 2021-07-01 苏宁易购集团股份有限公司 基于自然语言的体育新闻写作方法、装置及电子设备
CN111428472A (zh) * 2020-03-13 2020-07-17 浙江华坤道威数据科技有限公司 一种基于自然语言处理及图像算法的文章自动生成***和方法
US11928434B2 (en) 2020-09-21 2024-03-12 Beijing Baidu Netcom Science And Technology Co., Ltd. Method for text generation, device and storage medium
CN111832275A (zh) * 2020-09-21 2020-10-27 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
KR20210116379A (ko) * 2020-09-21 2021-09-27 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN111832275B (zh) * 2020-09-21 2022-02-25 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
KR102577514B1 (ko) 2020-09-21 2023-09-12 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
CN113033182A (zh) * 2021-03-25 2021-06-25 网易(杭州)网络有限公司 文本创作的辅助方法、装置及服务器
CN113033182B (zh) * 2021-03-25 2024-03-01 网易(杭州)网络有限公司 文本创作的辅助方法、装置及服务器

Similar Documents

Publication Publication Date Title
CN106407168A (zh) 一种应用文自动生成方法
Underberg et al. Digital ethnography: Anthropology, narrative, and new media
Yudkevich et al. The global academic rankings game: Changing institutional policy, practice, and academic life
Gray et al. All middle class now? Evolving representations of the working class in the neoliberal era: The case of ELT textbooks
Johnson et al. Conceptual and theoretical perspectives in language planning and policy: Situating the ethnography of language policy
Sherris et al. Making signs, translanguaging ethnographies: Exploring urban, rural and educational spaces
Cui et al. Tourist experience of nature in contemporary China: A cultural divergence approach
Reid Designing for the Theatre
Hua Mobile marketing management: Case studies from successful practices
Tongpaeng et al. Thai dance knowledge archive framework based on Labanotation represented in 3D animation
Wolf A cognitive linguistic approach to the cultures of World Englishes: The emergence of a new model
Pahl et al. Materialising literacies
Bianco et al. Improving image captioning descriptiveness by ranking and llm-based fusion
Arantes Towards a green nationalism with Chinese characteristics?
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
Bollini et al. User experience & usability for mobile geo-referenced apps. A case study applied to cultural heritage field
Boehmer et al. Indian Postcolonial
CN113268607A (zh) 知识图谱的构建方法和装置
Huang A study on comprehensive industry data system based on computer exploring big data and resource integration
Thobani Living history, performing coloniality: Towards a postcolonial ethnography
Batabyal Global entrepreneurial trends in the tourism and hospitality industry
Zeng [Retracted] Multimedia Computer‐Aided Industrial System Design Based on the Study of Big Data Mining Algorithm
Minglu et al. Historical Factors Influencing Water Colour Painting Market Environment and Development in China Market Supervisor as a Moderator
Wu Education and social selection in ancient China: semantics, conceptual transformation and social change
Isar Cultural policy in India: An oxymoron?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215

RJ01 Rejection of invention patent application after publication