CN107977472B - 房产类新闻文章自动生成的方法 - Google Patents

房产类新闻文章自动生成的方法 Download PDF

Info

Publication number
CN107977472B
CN107977472B CN201711443090.1A CN201711443090A CN107977472B CN 107977472 B CN107977472 B CN 107977472B CN 201711443090 A CN201711443090 A CN 201711443090A CN 107977472 B CN107977472 B CN 107977472B
Authority
CN
China
Prior art keywords
character
data set
article
initial
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711443090.1A
Other languages
English (en)
Other versions
CN107977472A (zh
Inventor
李作潮
白峻峰
张文战
刘子曜
苏伟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuge Qihang Suzhou Technology Co ltd
Original Assignee
Beijing Zhuge Zhaofang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhuge Zhaofang Information Technology Co ltd filed Critical Beijing Zhuge Zhaofang Information Technology Co ltd
Priority to CN201711443090.1A priority Critical patent/CN107977472B/zh
Publication of CN107977472A publication Critical patent/CN107977472A/zh
Application granted granted Critical
Publication of CN107977472B publication Critical patent/CN107977472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种房产类新闻文章自动生成的方法,包括以下步骤:步骤(1):对数据集进行准备,采集内容包括文章标题,摘要和正文三部分,三部分汇总后形成语句;步骤(2):对步骤(1)中的数据集进行模型设计与训练;步骤(3):基于步骤(2)模型训练完成后,进行文本生成。本发明的优点是:不需要人工控制写作,节约人力;工作高效,协作效率是人工写作的多倍;生成稳定,上下文通常主题可控制,避免出现黄反暴恐内容。

Description

房产类新闻文章自动生成的方法
技术领域
本发明涉及一种房产类新闻文章自动生成的方法。
背景技术
新闻文章发布,既可以增加品牌曝光,又可以带来流量,尤其是搜索引擎长尾流量的收集。但是直接转载,原创性不够好,影响SEO(搜索引擎优化),但是完全靠人工原创,开销较大,因此我们利用人工智能技术,训练了一个房产领域的新闻文章自动生成机器人。并成功运用到我们的内容发部***。
现有的新闻类写作大多有两种,一种是转载新闻,利用爬虫技术,以尽快的速度爬去其他来源的原创文章,发布到自己的网站,另一种是人工原创写作,靠人力创作, 在自动生成文章领域,主要是一些简单的打乱拼接,生成的内容对人并不友好,单纯为了搜索引擎检索引流使用。
现有这些文章发布的方式,分别有较大缺点,人工创作比较消耗人力,爬虫转载,原创性不好,简单的打乱拼接,对人不友好。
发明内容
为克服现有技术的缺陷,本发明提供一种房产类新闻文章自动生成的方法,本发明的技术方案是:
房产类新闻文章自动生成的方法,包括以下步骤:
步骤(1):对数据集进行准备,采集内容包括文章标题,摘要和正文三部分,三部分汇总后形成语句;
步骤(2):对步骤(1)中的数据集进行模型设计与训练;
步骤(3):基于步骤(2)模型训练完成后,进行文本生成。
所述的步骤(1)具体包括:对词频进行统计、***数字处理、以及起始字符和终止字符拼接;所述的词频统计具体为对整个数据集的语料进行词频统计,把数据集中出现频率小于10次的词用设定字符进行替换;所述的***数字处理具体为对数据集中的出现在一起的***数字的位数进行标记;所述的起始字符和终止字符拼接具体为在数据集中的每篇文章的最前面添加标识字符表示文章开始,在每篇文章结尾后面添加标识字符表示文章结束。
所述的步骤(2)的具体方法为:构建编码器-解码器模型,并对该模型的编码器和解码器分开训练:
编码器:通过对起始字符或者当前时刻生成的整段字符作为检索条件去全部训练集检索,得到若干条相关文本集,根据信息检索算法取前若干条即可;对取出的若干条信息进行编码,编码结果作为适合生成的语句;
解码器:对当前生成的语句进行编码;
attention机制的具体步骤如下:编码器输出矩阵与解码器输出矩阵相乘,得到一组权重值向量,权重值向量再次和编码器输出矩阵相乘,得到预测的下一字符的信息,经过一层softmax激活函数,得到最终的预测下一字符的词向量。
所述的步骤(3)的具体方法为:
(3-1)输入起始字句或者随机选取起始字;
(3-2)根据起始字句,检索整个数据集,取前若干条作为编码器输入信息;
(3-3)对检索得到的结果进行编码;
(3-4)对现在的生成语句进行编码;
(3-5)通过attention机制得到下一个字符;
(3-6)通过beam search方法生成一语句直到出现结束符为止。
本发明的优点是:不需要人工控制写作,节约人力;工作高效,协作效率是人工写作的多倍;生成稳定,上下文通常主题可控制,避免出现黄反暴恐内容。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
本发明涉及一种房产类新闻文章自动生成的方法,包括以下步骤:
步骤(1):对数据集进行准备,采集内容包括文章标题,摘要和正文三部分,三部分汇总后形成语句;
步骤(2):对步骤(1)中的数据集进行模型设计与训练;
步骤(3):基于步骤(2)模型训练完成后,进行文本生成。
所述的步骤(1)具体包括:对词频进行统计、***数字处理、以及起始字符和终止字符拼接;所述的词频统计具体为对整个数据集的语料进行词频统计,把数据集中出现频率小于10次的词用设定字符进行替换,例如可以将词频小于10的词语替换成<unk>;所述的***数字处理具体为对数据集中的出现在一起的***数字的位数进行标记,例如将出现在一起的***数字替换成<numN>,尖括号中的N代表数字的位数,例如:1234应该替换成<num4>,342134应该替换成<num6>,所述的起始字符和终止字符拼接具体为在数据集中的每篇文章的最前面添加标识字符表示文章开始,在每篇文章结尾后面添加标识字符表示文章结束,用“<s>”字符表示文章开始,在每篇文章结尾后面添加“</s>”字符表示文章结束。
所述的步骤(2)的具体方法为:构建编码器-解码器模型,并对该模型的编码器和解码器分开训练:
编码器:通过对起始字符或者当前时刻生成的整段字符作为检索条件去全部训练集检索,得到若干条相关文本集,根据信息检索算法取前若干条即可;对取出的若干条信息进行编码,编码结果作为适合生成的语句;
解码器:对当前生成的语句进行编码;
attention机制的具体步骤如下:编码器输出矩阵与解码器输出矩阵相乘,得到一组权重值向量,权重值向量再次和编码器输出矩阵相乘,得到预测的下一字符的信息,再经过一层softmax激活函数,得到最终的预测下一字符的词向量。
所述的步骤(3)的具体方法为:
(3-1)输入起始字句或者随机选取起始字;
(3-2)根据起始字句,检索整个数据集,取前若干条作为编码器输入信息;
(3-3)对检索得到的结果进行编码;
(3-4)对现在的生成语句进行编码;
(3-5)通过attention机制得到下一个字符;
(3-6)通过beam search方法生成一语句直到出现结束符为止。

Claims (1)

1.房产类新闻文章自动生成的方法,其特征在于,包括以下步骤:
步骤(1):对数据集进行准备,采集内容包括文章标题,摘要和正文三部分,三部分汇总后形成语句;
步骤(2):对步骤(1)中的数据集进行模型设计与训练;
步骤(3):基于步骤(2)模型训练完成后,进行文本生成;
所述的步骤(1)具体包括:对词频进行统计、 ***数字处理、以及起始字符和终止字符拼接;所述的词频统计具体为对整个数据集的语料进行词频统计,把数据集中出现频率小于10次的词用设定字符进行替换;所述的***数字处理具体为对数据集中的出现在一起的***数字的位数进行标记;所述的起始字符和终止字符拼接具体为在数据集中的每篇文章的最前面添加标识字符表示文章开始,在每篇文章结尾后面添加标识字符表示文章结束;
所述的步骤(2)的具体方法为:构建编码器-解码器模型,并对该模型的编码器和解码器分开训练:
编码器:通过对起始字符或者当前时刻生成的整段字符作为检索条件去全部训练集检索,得到若干条相关文本集,根据信息检索算法取前若干条即可;对取出的若干条信息进行编码,编码结果作为适合生成的语句;
解码器:对当前生成的语句进行编码;
attention机制的具体步骤如下:编码器输出矩阵与解码器输出矩阵相乘,得到一组权重值向量,权重值向量再次和编码器输出矩阵相乘,得到预测的下一字符的信息,经过一层softmax激活函数,得到最终的预测下一字符的词向量;
所述的步骤(3)的具体方法为:
(3-1)输入起始字句或者随机选取起始字;
(3-2)根据起始字句,检索整个数据集,取前若干条作为编码器输入信息;
(3-3)对检索得到的结果进行编码;
(3-4)对现在的生成语句进行编码;
(3-5)通过attention机制得到下一个字符;
(3-6)通过beamsearch方法生成一语句直到出现结束符为止。
CN201711443090.1A 2017-12-27 2017-12-27 房产类新闻文章自动生成的方法 Active CN107977472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711443090.1A CN107977472B (zh) 2017-12-27 2017-12-27 房产类新闻文章自动生成的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711443090.1A CN107977472B (zh) 2017-12-27 2017-12-27 房产类新闻文章自动生成的方法

Publications (2)

Publication Number Publication Date
CN107977472A CN107977472A (zh) 2018-05-01
CN107977472B true CN107977472B (zh) 2021-11-05

Family

ID=62007995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711443090.1A Active CN107977472B (zh) 2017-12-27 2017-12-27 房产类新闻文章自动生成的方法

Country Status (1)

Country Link
CN (1) CN107977472B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN109492112A (zh) * 2018-10-24 2019-03-19 北京百科康讯科技有限公司 一种基于知识图谱的计算机辅助写作科普文章的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成***及方法
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107145482A (zh) * 2017-03-28 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法及装置、设备与可读介质
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1489088A (zh) * 2003-08-28 2004-04-14 北京英业科技开发有限公司 一种计算机存储及显示文章的方法
CN102385861B (zh) * 2010-08-31 2013-07-31 国际商业机器公司 一种用于从语音内容生成文本内容提要的***和方法
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及***
CN106682387A (zh) * 2016-10-26 2017-05-17 百度国际科技(深圳)有限公司 用于输出信息的方法和装置
CN107391609B (zh) * 2017-07-01 2020-07-31 南京理工大学 一种双向多模态递归网络的图像描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成***及方法
CN106649223A (zh) * 2016-12-23 2017-05-10 北京文因互联科技有限公司 基于自然语言处理的金融报告自动生成方法
CN107145482A (zh) * 2017-03-28 2017-09-08 百度在线网络技术(北京)有限公司 基于人工智能的文章生成方法及装置、设备与可读介质
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题模型的多文档自动文摘方法研究;李庆丰;《中国优秀硕士学位论文全文数据库(电子期刊)》;20130915(第9期);全文 *

Also Published As

Publication number Publication date
CN107977472A (zh) 2018-05-01

Similar Documents

Publication Publication Date Title
CN111694924B (zh) 一种事件抽取方法和***
AU2020103654A4 (en) Method for intelligent construction of place name annotated corpus based on interactive and iterative learning
CN110110054B (zh) 一种基于深度学习的从非结构化文本中获取问答对的方法
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN109918640B (zh) 一种基于知识图谱的中文文本校对方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN116805001A (zh) 适用于垂直领域的智能问答***、方法及其应用
CN112883171B (zh) 基于bert模型的文档关键词抽取方法及装置
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN108829823A (zh) 一种文本分类方法
CN115906815B (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN107977472B (zh) 房产类新闻文章自动生成的方法
Hou et al. Inverse is better! fast and accurate prompt for few-shot slot tagging
CN115408495A (zh) 基于多模态检索和关键词提取的社交文本增强方法与***
Li et al. Abstractive text summarization with multi-head attention
Yu et al. IDCNN-CRF-based domain named entity recognition method
CN115238691A (zh) 基于知识融合的嵌入的多意图识别与槽位填充模型
Xue et al. A method of chinese tourism named entity recognition based on bblc model
CN111104520B (zh) 一种基于人物身份的人物实体链接方法
CN115994522A (zh) 文本处理方法、文章生成方法以及文本处理模型训练方法
CN116402025A (zh) 断句方法、生成方法、训练装置、设备及介质
CN116166768A (zh) 一种基于规则的文本知识抽取方法及***
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法
CN115203236A (zh) 基于模板检索的文本到sql生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Zuochao

Inventor after: Bai Junfeng

Inventor after: Zhang Wenzhan

Inventor after: Liu Ziyao

Inventor after: Su Weijie

Inventor before: Bai Junfeng

Inventor before: Zhang Wenzhan

Inventor before: Liu Ziyao

Inventor before: Su Weijie

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Floor 20, Building 6, Smart Valley Park, the Taihu Lake Software Industrial Park, No. 1421, Wuzhong Avenue, Yuexi Street, Suzhou Economic Development Zone, Jiangsu Province, 215000

Patentee after: Zhuge Qihang (Suzhou) Technology Co.,Ltd.

Address before: No. 506, Xingang center, No. 16, Jiuxianqiao Road, Jiangtai Township, Chaoyang District, Beijing 100015

Patentee before: BEIJING ZHUGE ZHAOFANG INFORMATION TECHNOLOGY Co.,Ltd.