CN111460252A - 一种基于网络舆情分析的自动化搜索引擎方法及*** - Google Patents

一种基于网络舆情分析的自动化搜索引擎方法及*** Download PDF

Info

Publication number
CN111460252A
CN111460252A CN202010182178.8A CN202010182178A CN111460252A CN 111460252 A CN111460252 A CN 111460252A CN 202010182178 A CN202010182178 A CN 202010182178A CN 111460252 A CN111460252 A CN 111460252A
Authority
CN
China
Prior art keywords
topic
content
analysis
hot
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010182178.8A
Other languages
English (en)
Other versions
CN111460252B (zh
Inventor
王晓
赵佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Zhihui Wenchuang Technology Co ltd
Original Assignee
Qingdao Zhihui Wenchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Zhihui Wenchuang Technology Co ltd filed Critical Qingdao Zhihui Wenchuang Technology Co ltd
Priority to CN202010182178.8A priority Critical patent/CN111460252B/zh
Publication of CN111460252A publication Critical patent/CN111460252A/zh
Application granted granted Critical
Publication of CN111460252B publication Critical patent/CN111460252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络舆情分析的自动化搜索引擎方法及***,该***包括平台定位分析模块、舆情分析模块、主题筛选模块和内容推送模块,该***可根据平台自身定制化关键词抓取热点内容,完成自身及外部平台的内容分析;同时,显示内容的传播途径、运营数据、情感走势等曲线,展示出完整科学的传播分析;通过对抓取内容进行溯源,精准追踪内容来源实现精准无误的溯源分析,有利于版权保护;通过专业直观的大数据可视化显示,根据大屏显示,做出该***的统计报告,以方便管理者做数据运营。

Description

一种基于网络舆情分析的自动化搜索引擎方法及***
技术领域
本发明属于自媒体及网络舆情分析领域,特别涉及一种基于网络舆情分析的自动化搜索 引擎方法及***。
背景技术
近年来,互联网已经成为思想文化信息的集散地和社会舆论的放大器。在如今这样一个 知识驱动型的社会中,互联网不仅是广大网民获取知识和信息的重要手段,也成为了纷杂信 息的汇集和发酵平台。
现有的搜索引擎***主要基于大规模网络爬虫和PageRank技术,互联网平台通过大规模 的计算和存储资源搜索并存储互联网上所有的网页数据,根据网页之间的链接构建庞大的关 系图。当用户提出对内容的查询请求时,搜索引擎首先进行关键词匹配,查询内容与用户所 提出的关键词最匹配的网页;接着,根据网页之间的链接对网页进行投票表决,将其他网页 链接最多选出的网页,作为质量最高的网页推荐给用户。这种搜素技术思想简单,查询快速, 是当前所有搜索引擎的核心。但是,这类技术一般不涉及对网页内容的深度处理和理解,并 且,缺少对网络用户群体和用户个体的分析,在个性化推荐方面还不成熟。
当前,正处于互联网信息***时代。各大内容平台越来越看重自己的用户粘度,这就要 求,当前的一些垂直领域,如自媒体平台必须具备在众多信息中快速准确筛选出高价值信息 的能力,以最快最准确的方式,将最符合用户喜好的内容,迅速呈现在用户面前。
所以,市场急需一款专为细分领域设计并开发的基于网络舆情分析的自动化搜索引擎方 法及***。
发明内容
为解决上述技术问题,本发明提供了一种基于网络舆情分析的自动化搜索引擎方法及系 统,以达到为信息舆情收集和分析提供了一种专业、经济、精准、定制化、移植性强的解决 方案目的。
为达到上述目的,本发明的技术方案如下:
一种基于网络舆情分析的自动化搜索引擎方法,包括如下步骤:
步骤一,利用平台定位分析模块通过爬虫获取自身产品中已发布的全部内容,对全部内 容和标题进行两个维度的统计,形成关键词库;
步骤二,借助舆情分析模块根据形成的关键词库,利用爬虫技术,对相似网络平台上相 关主题内容进行爬取,并对爬取的网页内容进行热点分析,获取热点主题,并对热点主题进 行跟踪和评估;
步骤三,采用主题筛选模块基于频繁项挖掘算法对获取的热点主题进行挖掘,快速检索 一定时间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行显示;并且快速 筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本 内容;
步骤四,内容推送模块将符合平台定位的文章或者人为预判有热度潜力的文章发布后, 统计一段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面, 反作用于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文 章数据重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完 成平台定位。
上述方案中,所述步骤二的具体方法如下:
(1)对爬取的内容进行信息预处理,对数据进行清洗、过滤机噪声清除;
(2)利用K-means算法对经过预处理的数据进行聚类分析,得到热点主题;
(3)基于KNN分类算法对热点主题中的热点事件进行跟踪,判定候选的内容是否是热 点内容;
(4)对热点内容进行展示及追踪溯源,完成热点评估。
进一步的技术方案中,所述步骤(2)具体方法如下:
①基于word2vec算法对文本数据进行数字化表示,通过训练一个映射神经网络将大规模 词向量映射到低维数值向量空间;
②在将文本内容进行矢量化处理之后,对主题文本被转发和评论的情况构建关联矩阵, 并从中选出结点总数大于阈值的多个主题不同的转发图,将选出的转发图个数及中心向量作 为K-means算法的聚类个数K和初始化聚类中心向量;
③针对每个文本向量计算与K个聚类中心向量的距离,选距离最近的聚类簇,并归到该 类;
④然后按照聚类结果重新计算K个聚类中心,作为下一轮的初始聚类中心;
⑤重复步骤③和④,直至本轮聚类中心和上一轮聚类中心相同;
⑥最后,输出K个聚类簇的中心,距离中心最近的主题即为热点主题。
进一步的技术方案中,所述步骤(3)具体方法如下:
①利用特征向量对新收集到的报道进行向量表示;
②判断该报道是否是新生事件,若是,构造事件中心向量;否则判断该报道与已有事件 之间的相似度,若相似度大于预定阀值,则将该报道划分到与之相似度最大的事件中;否则, 构造新的事件中心向量,形成新话题;
③重复步骤①和②。
一种基于网络舆情分析的自动化搜索引擎***,包括如下四大模块:
一、平台定位分析模块,通过爬虫获取自身产品中已发布的全部内容,对全部内容和标 题进行两个维度的统计,形成关键词库;
二、舆情分析模块,根据形成的关键词库,利用爬虫技术,对相似网络平台上相关主题 内容进行爬取,并对爬取的网页内容进行热点分析,获取热点主题,并对热点主题进行跟踪 和评估;
三、主题筛选模块,基于频繁项挖掘算法对获取的热点主题进行挖掘,快速检索一定时 间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行显示;并且快速筛选该 主题项中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本内容; 四、内容推送模块,将符合平台定位的文章或者人为预判有热度潜力的文章发布后,统计一 段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面,反作用 于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文章数据 重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完成平台 定位,至此***形成闭环。
通过上述技术方案,本发明提供的基于网络舆情分析的自动化搜索引擎方法及***具有 如下有益效果:
1、专业
基于网络舆情分析的自动化搜索引擎***是一个基于人工智能、大数据的互联网舆情监 测与分析***,是一个符合当前互联网信息***时代的一个兼具创新意识和实用性的产品。 本***针对特定业务场景及垂直领域,做属于符合自媒体行业自己的舆情信息检索***。相 比市面上其他有部分相似功能的产品,本***更加专业,更加有针对性,更加符合特定场景 的业务需求。
2、经济
基于网络舆情分析的自动化搜索引擎***致力于打造用智能代替人工、用大数据寻找纷 杂的信息中的潜在规律的智能化功能,实现在操控上简单易用,为自媒体行业从业者精准获 取及筛选信息节省大量时间。本***只需1-2个人维护即可完成以往5-10人的工作量,用系 统功能代替人力操作,节省了大量人力成本,在降本的同时实现增效。
3、精准
基于网络舆情分析的自动化搜索引擎***通过对所需信息主题关键词的全面设置,通过 爬虫技术抓取海量信息中的符合相应关键词的文章,实现高效精准获取资源。并且可根据不 同关键词的相互组合,判断资源的综合热度潜力,同时,内容推送模块可以统计一段时间内 实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面,反作用于主题筛 选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文章数据重新作用 于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完成平台定位。从 而可以精准筛选文章,为打造专业化细分领域的新媒体运营做出不可忽视的贡献。
4、定制化
基于网络舆情分析的自动化搜索引擎***是一个具有通用性的专业***。由于自媒体行 业有着各个垂直细分领域,要想一套***全面覆盖绝大多数甚至全部的自媒体行业,就需要 该***有着用户自我定制化的特点。用户可以结合自身平台的定位及特点,手动或自动维护 相应的主题关键词,从而让***灵活满足自己的各类细分领域的主题资源获取需求。
5、移植性强
基于网络舆情分析的自动化搜索引擎***具有强大的可移植性,可以同微信公众号、小 程序、网站等各类平台打通,而非仅仅局限于一种或几种媒体平台,实现在各类平台上半自 动/全自动筛选并发布信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种基于网络舆情分析的自动化搜索引擎***示意图;
图2为本发明实施例所公开的舆情分析模块的工作流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述。
本发明提供了一种基于网络舆情分析的自动化搜索引擎***,该***是专为细分领域设 计并开发的融合网络热点话题发现及跟踪的自动化内容推荐***,***包含四个主要模块, 按照流程化的方法实现可根据符合自身特点的定制化关键词,抓取热点内容,完成自身及外 部平台的内容分析;同时,显示内容的传播途径、运营数据、情感走势等曲线,展示出完整 科学的传播分析;通过对抓取内容进行溯源,精准追踪内容来源实现精准无误的溯源分析, 有利于版权保护;通过专业直观的大数据可视化显示,根据大屏显示,做出该***的统计报 告,以方便管理者做数据运营。
如图1所示,该***包括如下四大模块:
一、平台定位分析模块,通过爬虫获取自身产品中已发布的全部内容,对全部内容和标 题进行两个维度的统计,形成关键词库;
二、舆情分析模块,根据形成的关键词库,利用爬虫技术,对相似网络平台上相关主题 内容进行爬取,并对爬取的网页内容进行热点分析,获取热点主题,并对热点主题进行跟踪 和评估;
三、主题筛选模块,基于频繁项挖掘算法对获取的热点主题进行挖掘,快速检索一定时 间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行显示;并且快速筛选该 主题项中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本内容;
四、内容推送模块,将符合平台定位的文章或者人为预判有热度潜力的文章发布后,统 计一段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面,反 作用于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文章 数据重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完成 平台定位,至此***形成闭环。
本发明提供了一种基于网络舆情分析的自动化搜索引擎方法,包括如下步骤:
步骤一,利用平台定位分析模块通过爬虫获取自身产品中已发布的全部内容,对全部内 容和标题进行两个维度的统计,形成关键词库;具体如下:
基于平台定位分析模块实现对平台自身特点和所属领域的精细化定位分析,通过爬虫获 取自身产品中已发布的全部内容,基于Standford汉语分词工具对其进行分词,并且基于查表 法进行停用词过滤。停用词是指经过中文分词后出现的数词、叹词、连词、副词、介词等停 用词,这些词虽然大量出现,但是对于文本内容的表达没有很大帮助,反而会干扰对文本主 题的分析。预先构建一个停用词表,然后依次检查文本中每个词,如果该词出现在停用词表 中,说明该词是停用词,则删除该词。然后,对全部内容和标题进行两个维度的统计,形成 关键词及对应的出现频率,最终以词云、统计表格等其他数据可视化的形式表现出来,以直 观地看出该平台发布过哪些内容以及发布过的重点内容,在此基础上,进一步手动维护(添 加/删除)更加符合平台定位的关键词,形成关键词库。以某公众号为例,抓取公众号全部内 容,完成平台定位分析,由此便可以有侧重地对平台相关领域的互联网内容和近期的热点话 题进行分析。
步骤二,借助舆情分析模块,如图2所示,根据形成的关键词库,利用爬虫技术,对相 似网络平台上相关主题内容进行爬取,在此,可以根据主题人工设定信息来源,如各大国内 外高校/院所官网,Medium,Google(网页),微信,微博,论坛等,同时,也可以对爬虫设定更多的规则,设定相应的筛选条件,具体包括的规则如表1所示。
表1筛选条件和规则
Figure BDA0002412955050000061
接着,对爬取的网页内容进行热点分析。具体方法如下:
(1)对爬取的内容进行信息预处理,对数据进行清洗、过滤机噪声清除;
基于预先制订的规则对网页中的缺失数据进行自动补全、对不规则数据进行规则化处理 以及删除无关字符等,同时,将与内容分析无关的图片、视频、链接等噪声清除,从而得到 标准、干净、连续的数据,然后进行分词、停用词过滤等,基本方法与平台定位分析模块中 的数据预处理方法相同;然后,对抓取到的信息以合理的大数据可视化图形形式展示数据, 以此实现直观表达的效果。主要包括:
a)信息总量统计及详情表;
b)主流媒体报道数量统计及详情表;
c)今日信息量统计及详情表;
d)各省份信息数量分布图;
e)各渠道信息数量分布图(折线图,饼图)及详情表等。
通过运营管理人员对这些数据信息进行二次筛选加工,从而实现对舆情热点事件预判、 舆情发展趋势等深入分析。
(2)利用K-means算法对经过预处理的数据进行聚类分析,得到热点主题;具体方法如 下:
①基于word2vec算法对文本数据进行数字化表示,通过训练一个映射神经网络将大规模 词向量映射到低维数值向量空间;
②在将文本内容进行矢量化处理之后,对主题文本被转发和评论的情况构建关联矩阵, 并从中选出结点总数大于阈值的多个主题不同的转发图,将选出的转发图个数及中心向量作 为K-means算法的聚类个数K和初始化聚类中心向量;
③针对每个文本向量计算与K个聚类中心向量的距离,选距离最近的聚类簇,并归到该 类;
④然后按照聚类结果重新计算K个聚类中心,作为下一轮的初始聚类中心;
⑤重复步骤③和④,直至本轮聚类中心和上一轮聚类中心相同;
⑥最后,输出K个聚类簇的中心,距离中心最近的主题即为热点主题。
(3)基于KNN分类算法对热点主题中的热点事件进行跟踪,判定候选的内容是否是热 点内容;帮助本平台管理人员进一步分析所发现的热点话题与本平台的相关性,同时,精准 追踪内容来源实现版权保护,避免发生侵权对本平台产生不良后果。
热点实践跟踪采用基于KNN(K紧邻)分类的方法进行,通过一种非参数的机器学习方 法,将候选文本内容分类到热点和非热点中。基本思想为:在给定目标内容后,考虑在训练 文本集中与目标报道距离最近(最相似)的K个文本,根据这K个文本的所属类别判定新文 本内容的类别。具体实施过程为:
①利用特征向量对新收集到的报道进行向量表示;
②判断该报道是否是新生事件,若是,构造事件中心向量;否则判断该报道与已有事件 之间的相似度,若相似度大于预定阀值,则将该报道划分到与之相似度最大的事件中;否则, 构造新的事件中心向量,形成新话题;
③重复步骤①和②。
(4)对热点内容进行展示及追踪溯源,完成热点评估。
在事件的跟踪过程中,通过分析短时间内与某一事件相关的报道数量的变化以及用户人 数的变化,可以在一定程度上预测事件的发展状况。当某一事件在短时间内吸引了超过预定 阀值的用户参与时,该事件成为热点事件,由此不断更新爬取的数据集中主题事件的热点属 性,进而不断迭代提高预测准确度。如果内容主题被分类为有可能成为热点内容,则将其优 先推送给平台订阅用户。
步骤三,采用主题筛选模块基于频繁项挖掘算法对获取的热点主题进行挖掘,采用频数 序的字典树存储频繁模式,并利用倾向时间窗口记录模式,通过对主题频数序字典树进行搜 索快速检索一定时间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行直方 图的方式显示,向平台管理人员展示平台近期发表内容最多的主题。并且快速筛选该主题项 中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本内容。
步骤四,内容推送模块将符合平台定位的文章或者人为预判有热度潜力的文章发布后, 统计一段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面, 反作用于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文 章数据重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完 成平台定位。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些 实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理 可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被 限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。

Claims (5)

1.一种基于网络舆情分析的自动化搜索引擎方法,其特征在于,包括如下步骤:
步骤一,利用平台定位分析模块通过爬虫获取自身产品中已发布的全部内容,对全部内容和标题进行两个维度的统计,形成关键词库;
步骤二,借助舆情分析模块根据形成的关键词库,利用爬虫技术,对相似网络平台上相关主题内容进行爬取,并对爬取的网页内容进行热点分析,获取热点主题,并对热点主题进行跟踪和评估;
步骤三,采用主题筛选模块基于频繁项挖掘算法对获取的热点主题进行挖掘,快速检索一定时间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行显示;并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本内容;
步骤四,内容推送模块将符合平台定位的文章或者人为预判有热度潜力的文章发布后,统计一段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面,反作用于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文章数据重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完成平台定位。
2.根据权利要求1所述的一种基于网络舆情分析的自动化搜索引擎方法,其特征在于,所述步骤二的具体方法如下:
(1)对爬取的内容进行信息预处理,对数据进行清洗、过滤机噪声清除;
(2)利用K-means算法对经过预处理的数据进行聚类分析,得到热点主题;
(3)基于KNN分类算法对热点主题中的热点事件进行跟踪,判定候选的内容是否是热点内容;
(4)对热点内容进行展示及追踪溯源,完成热点评估。
3.根据权利要求2所述的一种基于网络舆情分析的自动化搜索引擎方法,其特征在于,所述步骤(2)具体方法如下:
①基于word2vec算法对文本数据进行数字化表示,通过训练一个映射神经网络将大规模词向量映射到低维数值向量空间;
②在将文本内容进行矢量化处理之后,对主题文本被转发和评论的情况构建关联矩阵,并从中选出结点总数大于阈值的多个主题不同的转发图,将选出的转发图个数及中心向量作为K-means算法的聚类个数K和初始化聚类中心向量;
③针对每个文本向量计算与K个聚类中心向量的距离,选距离最近的聚类簇,并归到该类;
④然后按照聚类结果重新计算K个聚类中心,作为下一轮的初始聚类中心;
⑤重复步骤③和④,直至本轮聚类中心和上一轮聚类中心相同;
⑥最后,输出K个聚类簇的中心,距离中心最近的主题即为热点主题。
4.根据权利要求2所述的一种基于网络舆情分析的自动化搜索引擎方法,其特征在于,所述步骤(3)具体方法如下:
①利用特征向量对新收集到的报道进行向量表示;
②判断该报道是否是新生事件,若是,构造事件中心向量;否则判断该报道与已有事件之间的相似度,若相似度大于预定阀值,则将该报道划分到与之相似度最大的事件中;否则,构造新的事件中心向量,形成新话题;
③重复步骤①和②。
5.一种基于网络舆情分析的自动化搜索引擎***,其特征在于,包括如下四大模块:
一、平台定位分析模块,通过爬虫获取自身产品中已发布的全部内容,对全部内容和标题进行两个维度的统计,形成关键词库;
二、舆情分析模块,根据形成的关键词库,利用爬虫技术,对相似网络平台上相关主题内容进行爬取,并对爬取的网页内容进行热点分析,获取热点主题,并对热点主题进行跟踪和评估;
三、主题筛选模块,基于频繁项挖掘算法对获取的热点主题进行挖掘,快速检索一定时间内具有最大频次的主题项,将频次超过用户设定阈值的主题项进行显示;并且快速筛选该主题项中符合平台定位的文章或者人为预判有热度潜力的文章,作为候选的目标文本内容;
四、内容推送模块,将符合平台定位的文章或者人为预判有热度潜力的文章发布后,统计一段时间内实际的高阅读量的文章,并将文章数据再次进行分词关键词统计,一方面,反作用于主题筛选模块,以此不断比对校正筛选热度的正确性;另一方面,该步骤产生的文章数据重新作用于平台定位分析模块,从源头上进一步优化迭代关键词库,用以更加精准完成平台定位,至此***形成闭环。
CN202010182178.8A 2020-03-16 2020-03-16 一种基于网络舆情分析的自动化搜索引擎方法及*** Active CN111460252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010182178.8A CN111460252B (zh) 2020-03-16 2020-03-16 一种基于网络舆情分析的自动化搜索引擎方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010182178.8A CN111460252B (zh) 2020-03-16 2020-03-16 一种基于网络舆情分析的自动化搜索引擎方法及***

Publications (2)

Publication Number Publication Date
CN111460252A true CN111460252A (zh) 2020-07-28
CN111460252B CN111460252B (zh) 2023-07-28

Family

ID=71684307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010182178.8A Active CN111460252B (zh) 2020-03-16 2020-03-16 一种基于网络舆情分析的自动化搜索引擎方法及***

Country Status (1)

Country Link
CN (1) CN111460252B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931060A (zh) * 2020-08-25 2020-11-13 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
CN112418945A (zh) * 2020-11-26 2021-02-26 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析***及方法
CN113177148A (zh) * 2021-05-21 2021-07-27 滨州职业学院 一种数据推送方法、装置和存储介质
CN113297447A (zh) * 2020-02-24 2021-08-24 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析***及方法
CN113596579A (zh) * 2021-07-29 2021-11-02 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113887219A (zh) * 2021-08-12 2022-01-04 南京汇宁桀信息科技有限公司 一种主管部门热线舆情识别与预警方法及***
CN114139210A (zh) * 2021-12-15 2022-03-04 智谷互联网科技(廊坊)有限公司 一种基于智慧业务的大数据安全威胁处理方法及***
CN116433032A (zh) * 2023-04-26 2023-07-14 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014155380A1 (en) * 2013-03-24 2014-10-02 Orca Interactive Ltd System and method for topics extraction and filtering
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送***及方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
CN110046294A (zh) * 2019-03-04 2019-07-23 国网浙江省电力有限公司经济技术研究院 一种基于电力大数据的能源资讯***
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014155380A1 (en) * 2013-03-24 2014-10-02 Orca Interactive Ltd System and method for topics extraction and filtering
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送***及方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN109918641A (zh) * 2019-01-17 2019-06-21 平安城市建设科技(深圳)有限公司 文章主题成分分解方法、装置、设备和存储介质
CN110046294A (zh) * 2019-03-04 2019-07-23 国网浙江省电力有限公司经济技术研究院 一种基于电力大数据的能源资讯***
CN110188265A (zh) * 2019-04-26 2019-08-30 中国科学院计算技术研究所 一种融合用户画像的网络舆情热点推荐方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李钊: "基于大数据的热点医疗新闻***的研究与实现" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297447A (zh) * 2020-02-24 2021-08-24 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于关键词的相关知识产权信息抓取、挖掘及可视化分析***及方法
CN111931060A (zh) * 2020-08-25 2020-11-13 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN111931060B (zh) * 2020-08-25 2023-11-03 腾讯科技(深圳)有限公司 发布平台影响力的评估方法及相关装置、计算机存储介质
CN112163157B (zh) * 2020-09-30 2023-01-10 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
CN112163157A (zh) * 2020-09-30 2021-01-01 腾讯科技(深圳)有限公司 一种文本推荐方法、装置、服务器及介质
CN112418945A (zh) * 2020-11-26 2021-02-26 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析***及方法
CN112418945B (zh) * 2020-11-26 2024-01-12 深圳市中博科创信息技术有限公司 一种基于企业服务门户的经济热点发现分析***及方法
CN113177148A (zh) * 2021-05-21 2021-07-27 滨州职业学院 一种数据推送方法、装置和存储介质
CN113596579B (zh) * 2021-07-29 2023-04-07 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113596579A (zh) * 2021-07-29 2021-11-02 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113887219B (zh) * 2021-08-12 2022-07-05 南京汇宁桀信息科技有限公司 一种主管部门热线舆情识别与预警方法及***
CN113887219A (zh) * 2021-08-12 2022-01-04 南京汇宁桀信息科技有限公司 一种主管部门热线舆情识别与预警方法及***
CN114139210A (zh) * 2021-12-15 2022-03-04 智谷互联网科技(廊坊)有限公司 一种基于智慧业务的大数据安全威胁处理方法及***
CN116433032A (zh) * 2023-04-26 2023-07-14 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法
CN116433032B (zh) * 2023-04-26 2024-04-09 中国农业科学院农业环境与可持续发展研究所 基于网络爬虫方式的智能评估方法

Also Published As

Publication number Publication date
CN111460252B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN111460252B (zh) 一种基于网络舆情分析的自动化搜索引擎方法及***
Yao et al. Towards automatic construction of diverse, high-quality image datasets
US20190213407A1 (en) Automated Analysis System and Method for Analyzing at Least One of Scientific, Technological and Business Information
Gao et al. Multimedia social event detection in microblog
US20090307213A1 (en) Suffix Tree Similarity Measure for Document Clustering
CN112307762B (zh) 搜索结果的排序方法及装置、存储介质、电子装置
CN110543595B (zh) 一种站内搜索***及方法
CN110705288A (zh) 一种基于大数据的舆情分析***
EP3270303A1 (en) An automated monitoring and archiving system and method
Karthikeyan et al. Probability based document clustering and image clustering using content-based image retrieval
Wu et al. An incremental community detection method for social tagging systems using locality-sensitive hashing
CN112732995A (zh) 一种畜牧业新闻资讯推荐***
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Al-Najran et al. A requirements specification framework for big data collection and capture
Worring et al. Multimedia pivot tables for multimedia analytics on image collections
CN116010552A (zh) 一种基于关键词词库的工程造价数据解析***及其方法
Hu et al. EGC: A novel event-oriented graph clustering framework for social media text
CN110717089A (zh) 一种基于网络日志的用户行为分析***及方法
US20230245144A1 (en) System for identifying and predicting trends
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质
CN104809253A (zh) 互联网数据分析***
Delgosha et al. Semantic structures of business analytics research: applying text mining methods
CN109062551A (zh) 基于大数据开发命令集的开发框架
Alagarsamy et al. A fuzzy content recommendation system using similarity analysis, content ranking and clustering
CN115130453A (zh) 互动信息生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant