CN114090764A - 一种评论自动生成方法 - Google Patents

一种评论自动生成方法 Download PDF

Info

Publication number
CN114090764A
CN114090764A CN202111376304.4A CN202111376304A CN114090764A CN 114090764 A CN114090764 A CN 114090764A CN 202111376304 A CN202111376304 A CN 202111376304A CN 114090764 A CN114090764 A CN 114090764A
Authority
CN
China
Prior art keywords
comment
comment information
article
keyword
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111376304.4A
Other languages
English (en)
Inventor
夏正新
王东传
赵奇文
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Yizhanshendeng Network Information Technology Co Ltd
Original Assignee
Nanjing Yizhanshendeng Network Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Yizhanshendeng Network Information Technology Co Ltd filed Critical Nanjing Yizhanshendeng Network Information Technology Co Ltd
Priority to CN202111376304.4A priority Critical patent/CN114090764A/zh
Publication of CN114090764A publication Critical patent/CN114090764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种评论自动生成方法,首先建立文章评论模板库,用于存储于文章评论模板库中,作为对应标签的预存评论信息;然后对待评论文章进行拆分,并选取候选关键词,生成相应的查询序列,在文章评论模板库中查询对应的评论信息,并最终整合为待评论文章的评论信息,在待评论文章投放初始,评论量不高的时候生成并自动评论,可以激起浏览者的评论欲望,能够激发用户的创作热情,进而营造活跃的社区评论氛围,有利于用户碰撞出新的想法,激发灵感。

Description

一种评论自动生成方法
技术领域
本发明涉及资讯整合收集技术领域,主要涉及一种评论自动生成方法。
背景技术
随着互联网的飞速发展,人们的日常生活越来越依赖于网络。例如,人们经常会在网络上查找自己所需要的学习资料、信息等内容,也会浏览网络上公开的各种新闻、评论,在遇到自己感兴趣的话题时也会在评论区中留下自己的想法。
当一篇文章或者话题的评论区中的留言信息比较多的时候,就会更容易激发浏览者对该文章或者话题进行评论的欲望。但对于一篇新出现的文章或者话题,在开始的一段时间内的评论总是很少,会显的文章或话题的热度比较低,因此需要一种评论文章的方式,能够自动生成评论内容。
发明内容
发明目的:本发明提供了一种评论自动生成方法,通过预建立文章评论模板库,并对待评论文章进行预处理,生成关键词查询序列,进而获得评论信息。当一篇文章或资讯发布初始阶段,评论量较少时,便自动生成评论并进行投放,起到引导用户评论的作用。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种评论自动生成方法,包括以下步骤:
步骤S1、建立文章评论模板库;
通过爬虫爬取的方式对现有的文章评论信息进行爬取;根据对应文章的主题对爬取的评论信息进行标签化处理并归类;依据评论信息的点赞量和跟帖量对获取的评论信息进行排序,选取前10名的评论信息,存储于文章评论模板库中,作为对应标签的预存评论信息;
步骤S2、对待评论文章进行预处理;
将待评论文章的标题以句子为单位进行分词标注处理,选出若干候选关键词;针对各个关键词的排列组合方式,生成关键词查询序列;
步骤S3、根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,根据预存评论信息中的至少一项,生成待评论文章的评论信息;
步骤S4、将生成待评论文章的评论信息进行排序,最终生成评论。
进一步地,步骤S1中依据评论信息的点赞量和跟帖量对获取的评论信息进行排序,首先根据点赞量高低对评论排序,选取前100个评论,按照跟帖数量从高到低选取前10名的评论信息。
进一步地,步骤S2中针对各个关键词的排列组合方式,生成关键词查询序列具体包括:
首先预设不同类型的关键词数据库,每个关键词在不同数据库中有独立的数据库编码,根据所述数据库编码可以获取关键词在数据库中的数据;基于步骤S2中已经获取的标题中的若干关键词,获取关键词在不同数据库中的编码,根据已有的数据库生成查询序列号,用于匹配预设数据库中的数据信息。
进一步地,步骤S3中根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,具体包括:根据步骤S3获取的查询序列号,匹配步骤S1中生成的不同标签的预存评论信息,并进行填充,生成评论信息。
有益效果:
本发明首先建立文章评论模板库,存储爬取到的评论信息,对需要生成评论的文章进行拆分,并选取候选关键词,生成相应的查询序列,在文章评论模板库中查询对应的评论信息,并最终整合为待评论文章的评论信息,在待评论文章投放初始,评论量不高的时候生成并自动评论,可以激起浏览者的评论欲望,能够激发用户的创作热情,进而营造活跃的社区评论氛围,有利于用户碰撞出新的想法,激发灵感。
附图说明
图1是本发明提供的评论自动生成方法流程图;
图2是本发明提供的评论自动生成及排序方法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明提供的评论自动生成方法如图1-2所示,具体步骤如下:
步骤S1、建立文章评论模板库;
通过爬虫爬取的方式对现有的文章评论信息进行爬取;根据对应文章的主题对爬取的评论信息进行标签化处理并归类;依据评论信息的点赞量和跟帖量对获取的评论信息进行排序,选取前10名的评论信息,存储于文章评论模板库中,作为对应标签的预存评论信息。
其中前10名评论信息的获取包括:首先根据点赞量高低对评论排序,选取前100个评论,按照跟帖数量从高到低选取前10名的评论信息。
步骤S2、对待评论文章进行预处理;
将待评论文章的标题以句子为单位进行分词标注处理,选出若干候选关键词;针对各个关键词的排列组合方式,生成关键词查询序列。生成关键词查询序列具体包括:
首先预设不同类型的关键词数据库,每个关键词在不同数据库中有独立的数据库编码,根据所述数据库编码可以获取关键词在数据库中的数据;基于步骤S2中已经获取的标题中的若干关键词,获取关键词在不同数据库中的编码,根据已有的数据库生成查询序列号,用于匹配预设数据库中的数据信息。
步骤S3、根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,根据预存评论信息中的至少一项,生成待评论文章的评论信息。根据步骤S3获取的查询序列号,匹配步骤S1中生成的不同标签的预存评论信息,并进行填充,生成评论信息。
步骤S4、将生成待评论文章的评论信息进行排序,最终生成评论。
下面提供一个具体实施例进行说明。
首先建立文章评论模板库,利用爬虫爬取网民在各资讯平台发布的评论。并针对文章主体,进行标签化处理,包括企业家、产品、技术等分类以及企业家、名企等排行榜数据库等。
然后针对不同标签,设计对应的评论模型
企业家:XX企业家在XX排行榜中是第XX名;XX企业家XX年在XX排行榜中是第XX名,今年是第XX名。
产品:XX产品是市面上才有的新产品;XX产品是市面上才有的产品,有多少人知道?;XX产品是什么;XX产品都有哪些厂家在卖。
技术:XX技术是市面上才有的技术;XX技术是市面上才有的产品,有多少人知道?;XX技术是什么;XX技术有什么好处。
将待评论文章以句子为单位进行拆分,获取若干段完整句子;对每个完整句子,进行分词标注处理,选出候选关键词;针对各个关键词的排列组合方式,生成关键词查询序列。根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,根据预存评论信息中的至少一项,生成待评论文章的评论,并进行排序,最终生成评论。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种评论自动生成方法,其特征在于,包括以下步骤:
步骤S1、建立文章评论模板库;
通过爬虫爬取的方式对现有的文章评论信息进行爬取;根据对应文章的主题对爬取的评论信息进行标签化处理并归类;依据评论信息的点赞量和跟帖量对获取的评论信息进行排序,选取前10名的评论信息,存储于文章评论模板库中,作为对应标签的预存评论信息;
步骤S2、对待评论文章进行预处理;
将待评论文章的标题以句子为单位进行分词标注处理,选出若干候选关键词;针对各个关键词的排列组合方式,生成关键词查询序列;
步骤S3、根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,根据预存评论信息中的至少一项,生成待评论文章的评论信息;
步骤S4、将生成待评论文章的评论信息进行排序,最终生成评论。
2.一种根据权利要求1所述的评论自动生成方法,其特征在于,所述步骤S1中依据评论信息的点赞量和跟帖量对获取的评论信息进行排序,首先根据点赞量高低对评论排序,选取前100个评论,按照跟帖数量从高到低选取前10名的评论信息。
3.一种根据权利要求1所述的评论自动生成方法,其特征在于,步骤S2中针对各个关键词的排列组合方式,生成关键词查询序列具体包括:
首先预设不同类型的关键词数据库,每个关键词在不同数据库中有独立的数据库编码,根据所述数据库编码可以获取关键词在数据库中的数据;基于步骤S2中已经获取的标题中的若干关键词,获取关键词在不同数据库中的编码,根据已有的数据库生成查询序列号,用于匹配预设数据库中的数据信息。
4.一种根据权利要求3所述的评论自动生成方法,其特征在于,步骤S3中根据生成的关键词查询序列,在文章评论模板库中查找对应标签的预存评论信息,具体包括:根据步骤S3获取的查询序列号,匹配步骤S1中生成的不同标签的预存评论信息,并进行填充,生成评论信息。
CN202111376304.4A 2021-11-19 2021-11-19 一种评论自动生成方法 Pending CN114090764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111376304.4A CN114090764A (zh) 2021-11-19 2021-11-19 一种评论自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111376304.4A CN114090764A (zh) 2021-11-19 2021-11-19 一种评论自动生成方法

Publications (1)

Publication Number Publication Date
CN114090764A true CN114090764A (zh) 2022-02-25

Family

ID=80302475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111376304.4A Pending CN114090764A (zh) 2021-11-19 2021-11-19 一种评论自动生成方法

Country Status (1)

Country Link
CN (1) CN114090764A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306514A (zh) * 2023-05-22 2023-06-23 北京搜狐新媒体信息技术有限公司 一种文本处理方法及装置、电子设备、存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306514A (zh) * 2023-05-22 2023-06-23 北京搜狐新媒体信息技术有限公司 一种文本处理方法及装置、电子设备、存储介质
CN116306514B (zh) * 2023-05-22 2023-09-08 北京搜狐新媒体信息技术有限公司 一种文本处理方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN110633373B (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
CN110309393B (zh) 数据处理方法、装置、设备及可读存储介质
CN110334178B (zh) 数据检索方法、装置、设备及可读存储介质
CN100375090C (zh) 通过任意国家语言的查询来检索匹配的文档的方法和***
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
US7200606B2 (en) Method and system for selecting documents by measuring document quality
CN110298033A (zh) 关键词语料标注训练提取工具
CN111950273A (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN102708096A (zh) 一种基于语义的网络智能舆情监测***及其工作方法
CN102792262A (zh) 使用权利要求分析排序知识产权文档的方法和***
CN103020293A (zh) 一种移动应用的本体库的构建方法及***
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN110209816A (zh) 基于对抗模仿学习的事件识别及分类方法、***、装置
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN114090764A (zh) 一种评论自动生成方法
CN101763424B (zh) 根据文件内容确定特征词并用于检索的方法
CN109284362B (zh) 一种内容检索方法及***
Freitas et al. An ontology-based architecture for cooperative information agents
CN110245215B (zh) 一种文本检索方法和装置
CN110750632B (zh) 一种改进的中文alice智能问答方法及***
Abuzir et al. Constructing the civil engineering thesaurus (CET) using ThesWB
Amrane et al. Semantic indexing of multimedia content using textual and visual information
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
CN111309933A (zh) 文化资源数据自动标注***
CN108491368A (zh) 一种基于人工智能的专利撰写方法及撰写***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination