CN111651657A - 情报监控方法、装置、设备及计算机可读存储介质 - Google Patents
情报监控方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111651657A CN111651657A CN202010502670.9A CN202010502670A CN111651657A CN 111651657 A CN111651657 A CN 111651657A CN 202010502670 A CN202010502670 A CN 202010502670A CN 111651657 A CN111651657 A CN 111651657A
- Authority
- CN
- China
- Prior art keywords
- target
- data source
- key
- keywords
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 238000012806 monitoring device Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000008451 emotion Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 45
- 238000004891 communication Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技技术领域,公开了一种情报监控方法、装置、设备及计算机可读存储介质,所述情报监控方法包括以下步骤:从多个数据源中抓取文本信息;对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库。本发明不断从数据源中采集文本信息,对文本信息进行学习得到热点情报,从而实现追踪特定事件的发展。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种情报监控方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
现有的网络信息获取方案为事前先选定某一特定事件,然后人工提炼关键词,基于关键词对于特定的某几个门户网站进行抓取与特定事件相关的数据。抓取到数据后利用现有成熟模型如循环神经网络或文本分析模型等,对该特定事件的发生进行建模,从而完成对特定事件的相关信息收集。
但是,由于现有的网络信息获取方案的缺点是具有离线性,因此在提取特定事件的相关信息时,只能通过人为提取关键词进行提取信息进行模型分析,以此进行对特定事件的分析,而无法持续追踪该事件的发展。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种情报监控方法、装置、设备及计算机可读存储介质,旨在解决现有技术无法追踪特定事件的发展的技术问题。
为实现上述目的,本发明提供一种情报监控方法,所述情报监控方法包括以下步骤:
从多个数据源中抓取文本信息;
对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
可选地,所述热点情报包括监测数据源和监测关键字,所述从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息的步骤包括:
从所述情报风险数据库中获取监测数据源和监测关键字;
基于所述监测关键字,从所述监测数据源中抓取所述监测关键字对应的目标文本信息。
可选地,所述热点情报包括监测数据源和监测关键内容,所述从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息的步骤包括:
从所述情报风险数据库中获取监测数据源和监测关键内容;
基于所述监测关键内容,从所述监测数据源中抓取所述监测关键内容对应的目标文本信息。
可选地,所述分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容的步骤包括:
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容,以及得到所述目标数据源对应的第一权重集合、所述目标关键字对应的第二权重集合和所述目标关键内容对应的第三权重集合;
所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤包括:
将所述目标数据源和所述第一权重集合关联存储至所述情报风险数据库,将所述目标关键字和所述第二权重集合关联存储至所述情报风险数据库,以及将所述目标关键内容和所述第三权重集合关联存储至所述情报风险数据库;
根据预设的时间衰减量,调节所述第一权重集合、所述第二权重集合和所述第三权重集合中的各权重值。
可选地,所述热点情报包括监测数据源、监测关键字或监测关键内容,所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤之后,还包括:
从所述情报风险数据库中获取监测数据源、监测关键字或监测关键内容;
基于预设的主题配置,在所述显示界面中显示所述监测数据源、所述监测关键字或所述监测关键内容。
可选地,所述分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容的步骤包括:
将所述关键数据源对应的关键字输入至第一主题模型,得到所述目标数据源;
将所述关键字输入至第二主题模型,得到所述目标关键字;
将所述关键内容输入至第三主题模型,得到所述目标关键内容。
可选地,所述从多个数据源中抓取文本信息的步骤包括:
基于预设的数据采集周期,从多个数据源中抓取文本信息。
此外,为实现上述目的,本发明还提供一种情报监控装置,所述情报监控装置包括:
数据采集模块,用于从多个数据源中抓取文本信息;
数据处理模块,用于对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
主题信息监测模块,用于分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
情报应用模块,用于将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
此外,为实现上述目的,本发明还提供一种情报监控设备,所述情报监控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情报监控程序,所述情报监控程序被所述处理器执行时实现如上述的情报监控方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有情报监控程序,所述情报监控程序被处理器执行时实现如上述的情报监控方法的步骤。
本发明通过从多个数据源中抓取文本信息;然后,对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;接着,分别对所述关键数据源、所述关键字和所述关键内容进行主题分类,得到目标数据源、目标关键字和目标关键内容,其中,所述目标数据源以第一主题类型分类,所述目标关键字以第二主题类型分类,所述目标关键内容以第三主题类型分类;之后,将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。在本实施例中,从情报风险数据库存储的目标数据源、目标关键字以及目标关键内容中,获取目标数据源中的热点数据源,以及获取目标关键字中的热点关键字或者获取目标关键内容中的热点关键内容,之后,基于热点关键字或热点关键内容对热点数据源进行采集目标文本信息,从而实现监控热点数据源。在采集到热点数据源的目标文本信息之后,可以将热点数据源中的目标文本信息进行分析和处理,以继续学习新的数据源中的热点信息,并将热点信息存储至情报风险数据库,从而可以继续从不同的数据源中采集新的文本信息进行学习,追踪特定事件的发展。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的情报监控设备结构示意图;
图2为本发明情报监控方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的情报监控设备结构示意图。
本发明实施例情报监控设备可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该情报监控设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,情报监控设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图1中示出的情报监控设备结构并不构成对情报监控设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及情报监控程序。
在图1所示的情报监控设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的情报监控程序。
在本实施例中,情报监控装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的情报监控程序,其中,处理器1001调用存储器1005中存储的情报监控程序时,并执行以下操作:
从多个数据源中抓取文本信息;
对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
从所述情报风险数据库中获取监测数据源和监测关键字;
基于所述监测关键字,从所述监测数据源中抓取所述监测关键字对应的目标文本信息。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
从所述情报风险数据库中获取监测数据源和监测关键内容;
基于所述监测关键内容,从所述监测数据源中抓取所述监测关键内容对应的目标文本信息。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容,以及得到所述目标数据源对应的第一权重集合、所述目标关键字对应的第二权重集合和所述目标关键内容对应的第三权重集合;
所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤包括:
将所述目标数据源和所述第一权重集合关联存储至所述情报风险数据库,将所述目标关键字和所述第二权重集合关联存储至所述情报风险数据库,以及将所述目标关键内容和所述第三权重集合关联存储至所述情报风险数据库;
根据预设的时间衰减量,调节所述第一权重集合、所述第二权重集合和所述第三权重集合中的各权重值。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
从所述情报风险数据库中获取监测数据源、监测关键字或监测关键内容;
基于预设的主题配置,在所述显示界面中显示所述监测数据源、所述监测关键字或所述监测关键内容。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
将所述关键数据源对应的关键字输入至第一主题模型,得到所述目标数据源;
将所述关键字输入至第二主题模型,得到所述目标关键字;
将所述关键内容输入至第三主题模型,得到所述目标关键内容。
进一步地,处理器1001可以调用存储器1005中存储的情报监控程序,还执行以下操作:
基于预设的数据采集周期,从多个数据源中抓取文本信息。
本发明还提供一种情报监控方法,参照图2,图2为本发明方法第一实施例的流程示意图。
在本实施例中,该情报监控方法包括以下步骤:
步骤S10,从多个数据源中抓取文本信息;
一实施例中,数据源为文本信息的数据来源,可以是门户网站或者应用程序等。其中,门户网站可以是一般门户网站或者垂直网站,门户网站是指通向某类综合性互联网信息资源并提供有关信息服务的应用***,门户网站提供新闻、搜索引擎、网络接入、聊天室、电子公告牌、免费邮箱、影音资讯、电子商务、网络社区、网络游戏、免费网页空间等功能网站;垂直网站是指注意力集中在某些特定的领域或某种特定的需求,提供有关这个领域或需求的全部深度信息和相关服务。
在数据采集模块中,从多个数据源中抓取文本信息,以供后续对文本信息进行分析。具体地,从全部的门户网站抓取文本信息,如获取全网的数据源进行分析,使得抓取的文本信息尽可能地多;和/或,基于目标网站类型从目标网站类型对应的门户网站中抓取文本信息,如只抓取社交网站或者游戏网站或者购物网站或者车平台的文本数据;和/或,基于目标业务类型对应的门户网站,抓取关于目标业务类型的文本信息,例如,抓取关于贷款业务的门户网站的文本信息;和/或,基于预设关键字,在门户网站抓取关于预设关键字的文本信息,例如,在预设门户网站中抓取具有“零首付”关键字的文本信息,或者,在预设门户网站中抓取具有“女团”关键字的文本信息。
需要说明的是,从多个数据源中抓取到不同类型的文本信息,包括基于目标网站类型的文本信息、基于目标业务类型的文本信息、或基于预设关键字的文本信息等,按照各个不同类型的文本信息存储,如按照不同类型的文件夹存储。
步骤S20,对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
一实施例中,在数据处理模块中,对文本信息执行过滤操作筛选得到第一目标关键词,对第一目标关键词执行打分操作,计算第一目标关键词的权重,筛选第一目标关键词中大于权重阈值的关键词,得到第二目标关键词。其中,过滤操作包括:分词、实体识别、垃圾过滤、信息的相互校验、情感判断及分类、相关度分析等。具体地,将文本信息通过正则表达式进行数据清洗,对文本信息进行第一种类型的筛选,其中,可以在正则表达式中设置预设的关键词对文本信息进行筛选,如可以在正则表达式中设置一些特定地区名词、特定人名、特定主题的名词对文本信息进行筛选。除了基于正则表达式对文本信息的筛选,还包括:基于命名实体识别对文本信息进行筛选;将文本信息输入至词语的相邻关系网络中,以词语之间的相邻关系,筛选文本信息中一些关键信息;将文本信息输入至TFIDF模型中进行筛选文本信息中,通过TFIDF模型计算文本信息中的词语的词频和逆文本词频,筛选出词频较大和逆文本词频较小的关键词。
之后,基于预设的打分模型,对执行数据清洗操作后的所有关键词即第一目标关键词进行打分评价,计算各个关键字和关键内容的权重,以筛选出权重大于预设权重阈值的关键字和关键内容,并且通过打分后的关键词和关键内容确定关键数据源。
步骤S30,分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
一实施例中,对文本信息进行过滤以及打分后,得到关键数据源、关键字和关键内容,之后,分别对关键数据源、关键字和关键内容进行主题分析,提取关键数据源中的目标数据源,提取关键字中的目标关键字,提取关键内容中的目标关键内容。其中,目标数据源按照第一主题类型分类,目标关键字按照第二主题类型分类,目标关键内容按照第三主题类型分类。例如,第一主题类型为功能类型,按照门户网站的功能类型对关键数据源进行分类,如贷款平台、购物平台、自媒体平台等。第二主题类型为业务类型,按照关键字的业务类型对关键字进行分类,如车平台类型的关键字包括第一车贷、零风险、零首付等关键字。
进一步地,步骤S30包括:
步骤S31,将所述关键数据源对应的关键字输入至第一主题模型,得到所述目标数据源;
步骤S32,将所述关键字输入至第二主题模型,得到所述目标关键字;
步骤S33,将所述关键内容输入至第三主题模型,得到所述目标关键内容。
一实施例中,将关键数据源对应的关键字输入至第一主题模型,以对关键数据源进行主题分析;将关键字输入至第二主题模型,以对关键字进行分析;将关键内容输入至第三主题模型,以对关键内容进行分类。其中,第一主题模型、第二主题模型和第三主题模型为预先基于不同的物料训练好的LSI或LDA等主题模型,每个主题可以映射成一些主题词的线性组合,应用主题模型,可以得到不同主题的数据源或关键字或关键内容,从而分别对关键数据源、关键字和关键内容进行主题分析,实现对数据源或关键字或关键内容的特定主题的提取。
步骤S40,将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
一实施例中,目标数据源、目标关键字以及目标关键内容均属于文本信息中重要的信息,因此将目标数据源、目标关键字以及目标关键内容分别存储至情报风险数据库,从而将文本信息中的重要信息或热点信息存储至情报风险数据库。从情报风险数据库存储的目标数据源、目标关键字以及目标关键内容中,获取目标数据源中的热点数据源,以及获取目标关键字中的热点关键字或者获取目标关键内容中的热点关键内容,之后,基于热点关键字或热点关键内容对热点数据源进行采集目标文本信息,从而实现监控热点数据源。在采集到热点数据源的目标文本信息之后,可以将热点数据源中的目标文本信息进行分析和处理,以继续学习新的数据源中的热点信息,并将热点信息存储至情报风险数据库。其中,热点情报包括热点数据源、热点关键字或热点关键内容。
进一步地,一实施例中,步骤S40之后,还包括:
步骤S50,从所述情报风险数据库中获取监测数据源、监测关键字或监测关键内容;
步骤S60,基于预设的主题配置,在所述显示界面中显示所述监测数据源、所述监测关键字或所述监测关键内容。
一实施例中,热点情报包括监测数据源、监测关键字或监测关键内容。从情报风险数据库存储的目标数据源、目标关键字以及目标关键内容中,获取目标数据源中的热点数据源,并将热点数据源作为监测数据源,或者获取目标关键字中的热点关键字,将热点关键字作为监测关键字;或者获取目标关键内容中的热点关键内容,将热点关键内容作为监测关键内容。其中,热点情报包括监测数据源、监测关键字或监测关键内容。之后,将监测数据源、监测关键字或监测关键内容,按照显示界面中预设的主题配置,以该主题配置对应的显示规则,在显示界面中显示监测数据源或监测关键字或监测关键内容。
进一步地,一实施例中,步骤S10包括:基于预设的数据采集周期,从多个数据源中抓取文本信息。
本实施例提出的情报监控方法,通过从多个数据源中抓取文本信息;然后,对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;接着,分别对所述关键数据源、所述关键字和所述关键内容进行主题分类,得到目标数据源、目标关键字和目标关键内容,其中,所述目标数据源以第一主题类型分类,所述目标关键字以第二主题类型分类,所述目标关键内容以第三主题类型分类;之后,将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。在本实施例中,不断从数据源中采集文本信息,对文本信息进行学习得到的热点情报,从而基于热点情报采集文本信息,从而实现追踪特定事件的发展。
基于第一实施例,提出本发明情报监控方法的第二实施例,在本实施例中,步骤S40包括:
步骤S401,从所述情报风险数据库中获取监测数据源和监测关键字;
步骤S402,基于所述监测关键字,从所述监测数据源中抓取所述监测关键字对应的目标文本信息。
从情报风险数据库存储的目标数据源、目标关键字以及目标关键内容中,获取目标数据源中的热点数据源,并将热点数据源作为监测数据源,以及获取目标关键字中的热点关键字,将热点关键字作为监测关键字。
之后,基于监测关键字从监测数据源中采集与监测关键字相匹配的目标文本信息,从而实现对监控数据源进行监控。在采集到监控数据源的目标文本信息之后,可以将监控数据源中抓取到的目标文本信息进行分析和处理,以继续学习监控数据源中的热点信息,并将热点信息存储至情报风险数据库。
进一步地,一实施例中,所述热点情报包括监测数据源和监测关键内容,所述从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息的步骤包括:
步骤S411,从所述情报风险数据库中获取监测数据源和监测关键内容;
步骤S412,基于所述监测关键内容,从所述监测数据源中抓取所述监测关键内容对应的目标文本信息。
从情报风险数据库存储的目标数据源、目标关键字以及目标关键内容中,获取目标数据源中的热点数据源,并将热点数据源作为监测数据源,以及获取目标关键内容中的热点关键内容,将热点关键内容作为监测关键内容。
之后,基于监测关键内容从监测数据源中采集与监测关键内容相匹配的目标文本信息,从而实现对监控数据源进行监控。在采集到监控数据源的目标文本信息之后,可以将监控数据源中抓取到的目标文本信息进行分析和处理,以继续学习监控数据源中的热点信息,并将热点信息存储至情报风险数据库。
进一步地,一实施例中,所述分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容的步骤包括:
步骤S310,分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容,以及得到所述目标数据源对应的第一权重集合、所述目标关键字对应的第二权重集合和所述目标关键内容对应的第三权重集合;
所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤包括:
步骤S320,将所述目标数据源和所述第一权重集合关联存储至所述情报风险数据库,将所述目标关键字和所述第二权重集合关联存储至所述情报风险数据库,以及将所述目标关键内容和所述第三权重集合关联存储至所述情报风险数据库;
对关键数据源进行主题分析,提取关键数据源中的目标数据源,以及计算得到目标数据源对应的权重集合即第一权重集合;对关键字进行主题分析,提取关键字中的目标关键字,以及计算目标关键字对应的第二权重集合;对关键内容进行主题分析,提取关键内容中的目标关键内容,以及计算目标关键内容对应的第三权重集合。之后,将第一权重集合与目标数据源关联存储至情报风险数据库,将第二权重集合与目标关键字存储至情报风险数据库,以及将第三权重集合与目标关键内容存储至风险情报数据库。
进一步地,基于第一权重集合对目标数据源进行排序,以获取目标数据源中的热点数据源。还可以,基于第二权重集合对目标关键字进行排序,以获取目标关键字中的热点关键字。还可以基于第三权重集合对目标关键内容进行排序,以获取目标关键内容中的热点关键内容。
步骤S330,根据预设的时间衰减量,调节所述第一权重集合、所述第二权重集合和所述第三权重集合中的各权重值。
随着时间的变化,根据预设的第一时间衰减量,减少第一权重集合中各个权重值,根据预设的第二时间衰减量,降低第二权重集合中各个权重值,根据预设的第三时间衰减量,减少第三权重集合中的各权重值。
此外,本发明实施例还提出一种情报监控装置,所述情报监控装置包括:
数据采集模块,用于从多个数据源中抓取文本信息;
数据处理模块,用于对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
主题信息监测模块,用于分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
情报应用模块,用于将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
进一步地,所述情报应用模块,还用于:
从所述情报风险数据库中获取监测数据源和监测关键字;
基于所述监测关键字,从所述监测数据源中抓取所述监测关键字对应的目标文本信息。
进一步地,所述情报应用模块,还用于:
从所述情报风险数据库中获取监测数据源和监测关键内容;
基于所述监测关键内容,从所述监测数据源中抓取所述监测关键内容对应的目标文本信息。
进一步地,所述主题信息监测模块,还用于:
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容,以及得到所述目标数据源对应的第一权重集合、所述目标关键字对应的第二权重集合和所述目标关键内容对应的第三权重集合;
所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤包括:
将所述目标数据源和所述第一权重集合关联存储至所述情报风险数据库,将所述目标关键字和所述第二权重集合关联存储至所述情报风险数据库,以及将所述目标关键内容和所述第三权重集合关联存储至所述情报风险数据库;
根据预设的时间衰减量,调节所述第一权重集合、所述第二权重集合和所述第三权重集合中的各权重值。
进一步地,所述情报应用模块,还用于:
从所述情报风险数据库中获取监测数据源、监测关键字或监测关键内容;
基于预设的主题配置,在所述显示界面中显示所述监测数据源、所述监测关键字或所述监测关键内容。
进一步地,所述主题信息监测模块,还用于:
将所述关键数据源对应的关键字输入至第一主题模型,得到所述目标数据源;
将所述关键字输入至第二主题模型,得到所述目标关键字;
将所述关键内容输入至第三主题模型,得到所述目标关键内容。
进一步地,所述数据采集模块,还用于:
基于预设的数据采集周期,从多个数据源中抓取文本信息。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有情报监控程序,所述情报监控程序被处理器执行时实现如上述中任一项所述的情报监控方法的步骤。
本发明计算机可读存储介质具体实施例与上述情报监控方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种情报监控方法,其特征在于,所述情报监控方法包括以下步骤:
从多个数据源中抓取文本信息;
对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
2.如权利要求1所述的情报监控方法,其特征在于,所述热点情报包括监测数据源和监测关键字,所述从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息的步骤包括:
从所述情报风险数据库中获取监测数据源和监测关键字;
基于所述监测关键字,从所述监测数据源中抓取所述监测关键字对应的目标文本信息。
3.如权利要求1所述的情报监控方法,其特征在于,所述热点情报包括监测数据源和监测关键内容,所述从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息的步骤包括:
从所述情报风险数据库中获取监测数据源和监测关键内容;
基于所述监测关键内容,从所述监测数据源中抓取所述监测关键内容对应的目标文本信息。
4.如权利要求1所述的情报监控方法,其特征在于,所述分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容的步骤包括:
分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容,以及得到所述目标数据源对应的第一权重集合、所述目标关键字对应的第二权重集合和所述目标关键内容对应的第三权重集合;
所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤包括:
将所述目标数据源和所述第一权重集合关联存储至所述情报风险数据库,将所述目标关键字和所述第二权重集合关联存储至所述情报风险数据库,以及将所述目标关键内容和所述第三权重集合关联存储至所述情报风险数据库;
根据预设的时间衰减量,调节所述第一权重集合、所述第二权重集合和所述第三权重集合中的各权重值。
5.如权利要求1所述的情报监控方法,其特征在于,所述热点情报包括监测数据源、监测关键字或监测关键内容,所述将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库的步骤之后,还包括:
从所述情报风险数据库中获取监测数据源、监测关键字或监测关键内容;
基于预设的主题配置,在所述显示界面中显示所述监测数据源、所述监测关键字或所述监测关键内容。
6.如权利要求1所述的情报监控方法,其特征在于,所述分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容的步骤包括:
将所述关键数据源对应的关键字输入至第一主题模型,得到所述目标数据源;
将所述关键字输入至第二主题模型,得到所述目标关键字;
将所述关键内容输入至第三主题模型,得到所述目标关键内容。
7.如权利要求1至6任一项所述的情报监控方法,其特征在于,所述从多个数据源中抓取文本信息的步骤包括:
基于预设的数据采集周期,从多个数据源中抓取文本信息。
8.一种情报监控装置,其特征在于,所述情报监控装置包括:
数据采集模块,用于从多个数据源中抓取文本信息;
数据处理模块,用于对所述文本信息依次执行过滤操作和打分操作,得到多个数据源中的关键数据源,所述文本信息对应的关键字,以及所述文本信息对应的关键内容;
主题信息监测模块,用于分别对所述关键数据源、所述关键字和所述关键内容进行主题分析,提取所述关键数据源中的目标数据源、所述关键字中的目标关键字以及提取所述关键内容中的目标关键内容;
情报应用模块,用于将所述目标数据源、所述目标关键字以及所述目标关键内容存储至情报风险数据库,以从所述情报风险数据库中获取热点情报,基于所述热点情报抓取目标文本信息,将所述目标文本信息作为所述文本信息,执行所述对所述文本信息依次执行过滤操作和打分操作的步骤。
9.一种情报监控设备,其特征在于,所述情报监控设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情报监控程序,所述情报监控程序被所述处理器执行时实现如权利要求1至7中任一项所述的情报监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有情报监控程序,所述情报监控程序被处理器执行时实现如权利要求1至7中任一项所述的情报监控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502670.9A CN111651657B (zh) | 2020-06-04 | 2020-06-04 | 情报监控方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502670.9A CN111651657B (zh) | 2020-06-04 | 2020-06-04 | 情报监控方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651657A true CN111651657A (zh) | 2020-09-11 |
CN111651657B CN111651657B (zh) | 2024-05-24 |
Family
ID=72344997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010502670.9A Active CN111651657B (zh) | 2020-06-04 | 2020-06-04 | 情报监控方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651657B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417845A (zh) * | 2020-11-18 | 2021-02-26 | 武汉大学 | 一种文本评价方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160085818A1 (en) * | 2012-08-02 | 2016-03-24 | Rule 14 | Real-time and adaptive data mining |
CN108628832A (zh) * | 2018-05-08 | 2018-10-09 | 中国联合网络通信集团有限公司 | 一种信息情报关键字获取方法及装置 |
WO2018196553A1 (zh) * | 2017-04-27 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 标识的获取方法及装置、存储介质以及电子装置 |
CN109543089A (zh) * | 2018-11-30 | 2019-03-29 | 南方电网科学研究院有限责任公司 | 一种网络安全情报数据的分类方法、***及相关装置 |
CN109710585A (zh) * | 2018-08-20 | 2019-05-03 | 平安普惠企业管理有限公司 | 多***关联预警方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-06-04 CN CN202010502670.9A patent/CN111651657B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160085818A1 (en) * | 2012-08-02 | 2016-03-24 | Rule 14 | Real-time and adaptive data mining |
WO2018196553A1 (zh) * | 2017-04-27 | 2018-11-01 | 腾讯科技(深圳)有限公司 | 标识的获取方法及装置、存储介质以及电子装置 |
CN108628832A (zh) * | 2018-05-08 | 2018-10-09 | 中国联合网络通信集团有限公司 | 一种信息情报关键字获取方法及装置 |
CN109710585A (zh) * | 2018-08-20 | 2019-05-03 | 平安普惠企业管理有限公司 | 多***关联预警方法、装置、设备及计算机可读存储介质 |
CN109543089A (zh) * | 2018-11-30 | 2019-03-29 | 南方电网科学研究院有限责任公司 | 一种网络安全情报数据的分类方法、***及相关装置 |
Non-Patent Citations (2)
Title |
---|
王连喜;李霞;: "国内微博研究热点分析及主题挖掘――以计算机和图书情报学科为研究对象", 情报杂志, no. 04 * |
金燕;闫晓妍;林琳;: "Web环境下竞争情报自动采集初探", 现代情报, no. 03, 25 March 2009 (2009-03-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417845A (zh) * | 2020-11-18 | 2021-02-26 | 武汉大学 | 一种文本评价方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111651657B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106557513B (zh) | 事件信息推送方法及事件信息推送装置 | |
US20100211551A1 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN109933782B (zh) | 用户情绪预测方法和装置 | |
CN108932291B (zh) | 电网舆情评价方法、存储介质及计算机 | |
KR20150096295A (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
CN108959329B (zh) | 一种文本分类方法、装置、介质及设备 | |
CN108052586A (zh) | 舆情分析方法、***、计算机设备和存储介质 | |
CN106407393A (zh) | 一种用于智能设备的信息处理方法及装置 | |
CN107977678B (zh) | 用于输出信息的方法和装置 | |
CN103713894A (zh) | 一种用于确定用户的访问需求信息的方法与设备 | |
CN107766234A (zh) | 一种基于移动设备的网页健康度的测评方法、装置及*** | |
CN104348871A (zh) | 一种同类账号扩展方法及装置 | |
CN110889036A (zh) | 一种多维度信息的处理方法、装置及终端设备 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN103425767B (zh) | 一种提示数据的确定方法和*** | |
CN111651657B (zh) | 情报监控方法、装置、设备及计算机可读存储介质 | |
CN111582757B (zh) | 欺诈风险的分析方法、装置、设备及计算机可读存储介质 | |
CN113568934A (zh) | 一种数据查询方法、装置、电子设备和存储介质 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN110674123B (zh) | 数据预处理方法、装置、设备及介质 | |
CN116703515A (zh) | 基于人工智能的推荐方法、装置、计算机设备及存储介质 | |
US20130230248A1 (en) | Ensuring validity of the bookmark reference in a collaborative bookmarking system | |
CN115526659A (zh) | 基于调查问卷的数据分析方法、装置、设备及存储介质 | |
CN114418623A (zh) | 基于用户兴趣进行广告推送的方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |