CN104965934A - 一种基于互联网内容挖掘的一搜成书方法 - Google Patents

一种基于互联网内容挖掘的一搜成书方法 Download PDF

Info

Publication number
CN104965934A
CN104965934A CN201510470165.XA CN201510470165A CN104965934A CN 104965934 A CN104965934 A CN 104965934A CN 201510470165 A CN201510470165 A CN 201510470165A CN 104965934 A CN104965934 A CN 104965934A
Authority
CN
China
Prior art keywords
content
search
book
category index
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510470165.XA
Other languages
English (en)
Inventor
李鼎
周彪
叶营
刘桂霞
孙立
张敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Huarui Digital Technology Co., Ltd.
Original Assignee
Epoch Ltd Of New Media Publishing House
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Epoch Ltd Of New Media Publishing House filed Critical Epoch Ltd Of New Media Publishing House
Priority to CN201510470165.XA priority Critical patent/CN104965934A/zh
Publication of CN104965934A publication Critical patent/CN104965934A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行***化整理,采用自行研发的一键排版功能一键成书,最终达到按需印刷的目的。

Description

一种基于互联网内容挖掘的一搜成书方法
技术领域
本发明涉及一种自动排版成书的方法,尤其是涉及一种基于互联网内容挖掘的一搜成书方法。
背景技术
当前,我们正处于一个信息***的社会。互联网上充斥着海量的、繁杂的信息,加重了获取垂直细分信息的难度。从而催生出一些相关专利和著作的产生,试图解决这一难题。一种互联网信息搜索聚合呈现方法(中国专利ZL201410198228.6)通过抓取网页内容并计算内容相似度,将同质或内容相似度大于设定阀值的页面作为一组,对组内每个页面提取同质和差异性内容,最终融合成一个新的页面。在计算相似度前,需要对文本分词并需要量化每个词的权重,一般采用TF/IDF值表示词的权重,然而中文中多义词和歧义词过多容易产生较大的误差。另外,通过相似度计算将文本分组的方式在某种程度上只能反映出文本间的相关程度,当样本较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于最大值;当n较大时,相关系数的绝对值容易偏小。因此,最终合成的新页面与用户的期望值可能存在一定的误差。生成的新内容仍以网页的方式保存,用户无法在线对存在误差的内容进行二次编辑修改,更不能自动排版成书。
发明内容
本发明设计了一种基于互联网内容挖掘的一搜成书方法,其解决的技术问题是互联网上信息繁杂、分布比较分散,难以获取***性内容,即使获取到***性内容后,难以保存以便再次。
为了解决上述存在的技术问题,本发明采用了以下方案:
一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。
进一步,所述内容爬取并构建分类索引包括以下分步骤:步骤11、选取监控目标网站;步骤12、爬取网站内容;步骤13、解析爬取内容,提取内容主题和关键字,对内容进行分类;步骤14、内容噪声过滤;步骤15、内容本地化;步骤16、针对分类内容构建分类索引。
进一步,用户根据步骤1的构建分类索引搜索成书包括以下分步骤:步骤21、用户选择所需内容类型;步骤22、用户提供搜索关键词;步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容,返回搜索内容;步骤24、对搜索结果聚类;步骤25、对聚类结果采用自动排版算法,自动成书。
该基于互联网内容挖掘的一搜成书方法具有以下有益效果:
(1)本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行***化整理,采用自行研发的一键排版功能一键成书,最终达到按需印刷的目的。
(2)本发明通过构建分类索引能够垂直细分获取分散的互联网数据。
(3)本发明的用户通过简单的提交关键词和内容类型就可以获得***性的主题相关的数据。
附图说明
图1:本发明基于互联网内容挖掘的一搜成书方法的流程方框示意图。
具体实施方式
下面结合图1,对本发明做进一步说明:
1、内容爬取技术模块:
步骤11:监控目标网站,主要监控目标为公共资源网站。
步骤12:使用分布式爬虫***抓取目标网站内容;该分布式爬虫***可以实现网页配置参数,例如,特定网站的链接,特定关键字,所需爬取的某个页面中的特定内容。
步骤13:网站内容解析,主要解析HTML文件获取网页的文本和图片数据。
步骤14:采用jieba分词对文本分词,获取每个词的权重。
步骤15:对抓取的内容采用LDA算法提取文本的主题和关键词,并使用kmeans对文本聚类。
步骤16:过滤文本,主要包括文本的去重和垃圾信息的过滤。去重主要通过皮尔逊和余弦定理理论或通过simhash+汉明距离的处理方式实现,垃圾信息的过滤(主要为广告信息)通过URL模式识别算法实现。
步骤17:数据本地化。需要本地化的数据有页面源数据、页面提取的文本、图片、主题、关键词和分类信息;各网站的数据格式区别较大,数据本地化是为了统一数据格式,以便后续的自动排版成书;另外,数据本地化后,可以对数据进行拆分和组合等二次操作。
步骤 18:针对本地化数据构建分类索引。
2、用户搜索成书模块技术方案如下:
步骤21、用户选择所需内容类型。
步骤22、用户提供搜索关键词。
步骤23:通过内容类型和关键词确定需要扫描的分类索引,通过分布式搜索***获取搜索结果,搜索结果按匹配得分降序依次返回。该分类索引为步骤18构建的分类索引。
步骤24:对搜索结果聚类。获取搜索结果得分最高的前100或者N篇内容,对着100篇或N篇内容采用AP算法对文本聚类,每一个类别作为一个章节。计算每个章节的加权搜索得分,将章节按加权得分的降序排列。获取章节内部文本内的时间或内容原始的发布时间,章节内按时间降序排列。
步骤25:将排序完成的内容依次传递到自行开发的自动排版算法,自动成书。
上面结合附图对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (3)

1. 一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。
2.根据权利要求1所述基于互联网内容挖掘的一搜成书方法,其特征在于,所述内容爬取并构建分类索引包括以下分步骤:步骤11、选取监控目标网站;步骤12、爬取网站内容;步骤13、解析爬取内容,提取内容主题和关键字,对内容进行分类;步骤14、内容噪声过滤;步骤15、内容本地化;步骤16、针对分类内容构建分类索引。
3.根据权利要求1或2所述基于互联网内容挖掘的一搜成书方法,其特征在于,用户根据步骤1的构建分类索引搜索成书包括以下分步骤:步骤21、用户选择所需内容类型;步骤22、用户提供搜索关键词;步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容,返回搜索内容;步骤24、对搜索结果聚类;步骤25、对聚类结果采用自动排版算法,自动成书。
CN201510470165.XA 2015-08-04 2015-08-04 一种基于互联网内容挖掘的一搜成书方法 Pending CN104965934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510470165.XA CN104965934A (zh) 2015-08-04 2015-08-04 一种基于互联网内容挖掘的一搜成书方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510470165.XA CN104965934A (zh) 2015-08-04 2015-08-04 一种基于互联网内容挖掘的一搜成书方法

Publications (1)

Publication Number Publication Date
CN104965934A true CN104965934A (zh) 2015-10-07

Family

ID=54219973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510470165.XA Pending CN104965934A (zh) 2015-08-04 2015-08-04 一种基于互联网内容挖掘的一搜成书方法

Country Status (1)

Country Link
CN (1) CN104965934A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其***
US20110264648A1 (en) * 2010-04-21 2011-10-27 Yahoo! Inc. Selectively adding social dimension to web searches
CN102346778A (zh) * 2011-10-11 2012-02-08 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103294815A (zh) * 2013-06-08 2013-09-11 北京邮电大学 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN104021112A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书***
CN104021113A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书方法
CN104199985A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 一种自定义置顶搜索结果的方法和***、以及搜索服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110264648A1 (en) * 2010-04-21 2011-10-27 Yahoo! Inc. Selectively adding social dimension to web searches
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其***
CN102346778A (zh) * 2011-10-11 2012-02-08 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103294815A (zh) * 2013-06-08 2013-09-11 北京邮电大学 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
CN104021112A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书***
CN104021113A (zh) * 2014-06-23 2014-09-03 时代新媒体出版社有限责任公司 一种基于自动排版的一键成书方法
CN104199985A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 一种自定义置顶搜索结果的方法和***、以及搜索服务器

Similar Documents

Publication Publication Date Title
CN109005145B (zh) 一种基于自动特征抽取的恶意url检测***及其方法
CN104598577B (zh) 一种网页正文的提取方法
Xiang et al. Linguistic steganalysis using the features derived from synonym frequency
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及***
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN101515272B (zh) 提取网页内容的方法和装置
CN103294681B (zh) 一种搜索结果的生成方法和装置
CN106446195A (zh) 基于人工智能的新闻推荐方法及装置
CN104035997A (zh) 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法
CN101281521A (zh) 一种基于多分类器融合的敏感网页过滤方法及***
CN103714176A (zh) 基于最大文本密度的网页正文抽取方法
US20140067784A1 (en) Webpage information detection method and system
CN103150335A (zh) 一种基于联合聚类的煤矿舆情监测***
CN108304502B (zh) 基于海量新闻数据的快速热点检测方法及***
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN104598607A (zh) 推荐搜索短语的方法及***
CN102193944A (zh) 网页主题内容抽取方法
Ma et al. Your Tweets Reveal What You Like: Introducing Cross-media Content Information into Multi-domain Recommendation.
CN109492219A (zh) 一种基于特征分类和情感语义分析的诈骗网站识别方法
CN103761221A (zh) 用于识别敏感文本信息的***和方法
CN102314494A (zh) 一种用于处理网页内容的方法和设备
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN110929683B (zh) 一种基于人工智能的视频舆情监测方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160719

Address after: Shushan district government Shengquan road Hefei city Anhui province 230022 No. 1118 Building 1 floor 4

Applicant after: Anhui Huarui Digital Technology Co., Ltd.

Address before: Hefei City, Anhui province 230088 Shengquan road Chief Cultural District No. 1118

Applicant before: Epoch Ltd of new media publishing house

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151007

WD01 Invention patent application deemed withdrawn after publication