CN117951357A - 一种基于大数据的科技标准动态监测方法及*** - Google Patents
一种基于大数据的科技标准动态监测方法及*** Download PDFInfo
- Publication number
- CN117951357A CN117951357A CN202410339778.9A CN202410339778A CN117951357A CN 117951357 A CN117951357 A CN 117951357A CN 202410339778 A CN202410339778 A CN 202410339778A CN 117951357 A CN117951357 A CN 117951357A
- Authority
- CN
- China
- Prior art keywords
- data
- weight value
- target
- reference object
- candidate data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012544 monitoring process Methods 0.000 title claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 238000013515 script Methods 0.000 claims abstract description 15
- 230000009193 crawling Effects 0.000 claims abstract description 10
- 230000000875 corresponding effect Effects 0.000 claims description 29
- 230000008451 emotion Effects 0.000 claims description 10
- 230000002596 correlated effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 abstract description 12
- 238000004590 computer program Methods 0.000 description 11
- 238000011144 upstream manufacturing Methods 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- OFBQJSOFQDEBGM-UHFFFAOYSA-N Pentane Chemical compound CCCCC OFBQJSOFQDEBGM-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于大数据的科技标准动态监测方法及***,包括所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;对所述备选数据进行解析处理,得到解析结果。本发明通过电数字数据处理技术,实现了基于大数据的科技标准动态监测。
Description
技术领域
本申请涉及电数字数据处理技术技术领域,尤其涉及一种基于大数据的科技标准动态监测方法及***。
背景技术
技术的发展惠及众多领域,为人们的生产、生活提供了较大的便利。
例如,公开(公告)号:CN106777001B,专利标题:“公安遥感监测应用标准体系数据库的构建方法”(主分类号:G06F16/21),由基础通用类、获取与处理类、***服务类、管理支撑类组成,其确定了遥感应用标准与公安管理法规标准、信息技术及公安地理信息标准、高分数据标准及其他标准一起,构成完整的重点地区遥感监测应用标准体系框架。一方面,能够说明电数字数据处理技术在标准相关技术领域大有可为;另一方面,也能够说明在该领域的技术挖掘还具有较为宽泛的扩展前景。
现有的产品生产场景中,由某一企业掌握产品生产的全产业链的情况较少,大多数企业的生产、业务都需要上下游之间的配合。例如某手机用芯片的生产厂商,其上游包含晶圆生产企业,其下游包含手机组装企业,该手机用芯片生产厂商的业务情况受到上下游的限制。通常情况下,该生产厂商只要着眼于其自身生产的手机用芯片对应的科技标准动态即可,在手机用芯片对应的科技标准发生变化时,及时调整其自身的生产行为,以适应调整后的科技标准。然而,当其上下游企业涉及科技标准出现调整时,也难免会影响到该生产厂商。实际生产环境中,上下游之间的关系实际上嵌套的情况可能更复杂,则有可能导致该生产厂商的经营被其上下游企业对应的科技标准的调整限制,甚至可能造成损失。
有鉴于此,如何通过技术的手段对上下游企业的科技标准的动态进行监测,成为亟待解决的技术问题。
发明内容
本申请实施例提供了一种基于大数据的科技标准动态监测方法及***,以至少部分的解决上述技术问题。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种基于大数据的科技标准动态监测方法,所述方法包括:
确定参考对象;所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;
采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;
采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;
对所述备选数据进行解析处理,得到解析结果;所述解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值;所述权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关;
判断当前时刻是否满足监测展示条件;所述监测展示条件包括:基于科技标准展示对象更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值;
若是,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息;所述展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一;所述目标数据是权重值大于所述权重值阈值的备选数据;
展示所述展示信息。
在本说明书一个可选的实施例中,所述方法还包括:
所述权重值还与在预设的第一指定历史时间段内,表达负面情感极性的、相似度大于预设的相似度阈值的所述备选数据的出现频率负相关。
在本说明书一个可选的实施例中,所述方法还包括:
所述权重值还与其所属的备选数据对应的参考对象与所述目标对象的关联度正相关;所述关联度与以下至少之一正相关:
所述参考对象与所述目标对象的业务范围重叠层度;
在所述参考对象与所述目标对象为上下游关系时,所述参考对象与所述目标对象在预设的第二指定时间段内业务频率。
在本说明书一个可选的实施例中,所述方法还包括:
所述第二指定时间段中包含未来时刻的情况下的所述权重值,大于所述第二指定时间段中不包含未来时刻的情况下的所述权重值。
在本说明书一个可选的实施例中,所述方法还包括:
所述第二指定时间段中既包含未来时刻、又包含历史时刻的情况下的所述权重值,大于所述第二指定时间段中仅包含未来时刻的情况下的所述权重值。
在本说明书一个可选的实施例中,基于所述目标数据,生成展示信息,包括:
按照段落结构,对所述目标数据进行划分,得到若干个字段,作为目标字段;
基于所述目标字段中包含的词汇,从所述科技标准中确定出与其对应的段落,作为目标段落;
以批注的方式,将所述目标字段添加至其对应的目标段落中,得到所述展示信息。
在本说明书一个可选的实施例中,所述方法还包括:
在所述目标字段的语义与所述目标段落的语义存在差异时,为所述目标字段添加突出标识。
第二方面,本申请实施例还提供一种基于大数据的科技标准动态监测***,所述***包括:
参考对象确定模块,配置为:确定参考对象;所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;
可用关键词确定模块,配置为:采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;
备选数据确定模块,配置为:采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;
解析结果确定模块,配置为:对所述备选数据进行解析处理,得到解析结果;所述解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值;所述权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关;
判断模块,配置为:判断当前时刻是否满足监测展示条件;所述监测展示条件包括:基于科技标准展示对象更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值;
展示信息生成模块,配置为:若当前时刻满足所述监测展示条件,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息;所述展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一;所述目标数据是权重值大于所述权重值阈值的备选数据;
展示模块,配置为:展示所述展示信息。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行第一方面所述的方法步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行第一方面所述的方法步骤。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书中的方法及***能够基于技术的手段实现标准信息动态的自动关联和抓取,及时跟踪全球有关科技标准的政策法规、战略规划、科研成果等,实时跟踪与推送前沿与热点内容,支持用户便捷了解科技标准的最新发展动态。进一步的,本说明书中的方法采用NLP模型以及Scrapy框架的爬虫脚本,能够较为高效的实现对上下游、以及竞品相关的科技标准的动态的监督。此外,本说明书中的方法还能够对监测的结果进行展示。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的一种基于大数据的科技标准动态监测方法的过程示意图;
图2为本说明书实施例中一种电子设备的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其它元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
以下结合附图,详细说明本申请各实施例提供的技术方案。
如图1所示,本说明书中的基于大数据的科技标准动态监测方法包含以下步骤:
S100:确定参考对象。
本说明书中的目标对象和参考对象都是某一企业。参考对象可能不唯一。参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象。
通常情况下,目标对象的业务范围是唯一的,例如,某手机用芯片生产厂商业务范围是生产手机用芯片,其通常不会在涉及诸如酒店管理这样的业务范围。如果目标对象的业务范围不单一,则对其业务范围进行拆分,得到的拆分结果与业务范围一一对应。之后,针对其中某一拆分结果执行本说明书中的方法。
此外,参考对象也可能存在其业务范围不唯一的情况,则同样对其业务范围进行拆分,取其中与目标对象的目标的业务范围相同的作为参考。
S102:采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词。
属性信息是用于表征参考对象的特征的信息。例如,某厂商A自研的芯片a在市场上独一无二,则该“芯片a”可以作为厂商A的特征。某厂商B设计的芯片基于6G技术,属于行业内先进产品,则“6G技术”可以作为厂商B的特征。采用NLP模型得到的关键词,就是用于表征这些特征的词汇。
NLP(Neuro Linguistic Programming)模型是基于NLP神经语言程式的模型,是人工智能的一个领域。相关技术中的NLP模型,在条件允许的情况下,均适用于本说明书。
S104:采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据。
爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫脚本即为能够实现爬虫功能的脚本。
Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。相关技术中,基于Scrapy框架的爬虫脚本在条件允许的情况下,均适用于本说明书。
预设的数据库可以是某一范围内(例如,距当前时刻一年之内的)的可获得的数据的集合,可以简单理解为公开的网络资源。
本说明书中的备选数据是与参考对象相关的数据。备选数据不唯一,不同的所述备选数据对应于不同的预设维度。预设的维度可以从多个角度对备选数据进行区分。例如芯片的型号(如前述的“芯片a”)、例如涉及的技术范围(如前述的“6G技术”)等、再例如企业的唯一标识(如前述的“企业A”)。维度可以是根据人工经验预设的;此外,相关技术中,能够用于实现维度划分的技术手段在条件允许的情况下,均适用于本说明书。本说明书中的备选数据是传达某信息的完整的数据,例如描述“芯片a”性能的一段文字。
本说明书中方法针对的科技标准是某一个特定的科技标准(例如,标准编号为GBXXXX),而不是几个或者一系列的科技标准。在目标对象的业务范围涉及的科技标准不唯一的情况下,可以针对其中的某一个、或者几个科技标准依次执行本说明书中的方法。由此,爬虫脚本爬取也是有针对性的,其爬取的备选数据是与标准编号为GBXXXX的科技标准相关数据。例如,标准编号为GBXXXX的科技标准限定的是甲、乙、丙、以及丁四个指标,而不涉及戊这个指标。则爬虫脚本首先确定网页信息中包含甲、乙、丙、以及丁中的至少一项,然后提取其中关于甲、乙、丙、或者丁的相关数据。若该网页信息中还包含戊,则戊的相关数据不会被爬取到。
S106:对所述备选数据进行解析处理,得到解析结果。
相关技术中,能够实现数据提取、情感极性分析的技术手段,在条件允许的情况下,均可以作为本说明书中的解析处理过程可采用的技术手段。本说明书中的解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值。
其中,权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关(重复度即为重复出现的程度。重复度越高表明频繁出现,越重要。例如,备选数据对应的维度是“6G技术”,若备选数据对应的参考对象是10个,那么该备选数据的权重值可能就比对应的参考对象是8个的备选数据的权重值大。适用于涉及的参考对象不唯一的情况。)、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关(相似度平均值越高,表明该备选数据对应的是行业群体行为,值得重视。相似度可以通过属性信息计算获得)。
可见,本步骤中的权重值能够体现出哪些备选数据更加重要。
S108:判断当前时刻是否满足监测展示条件。
本说明书中的监测展示条件包括:基于科技标准展示对象(例如制定科技标准的对象、制定科技标准的对象的信息公示部门等。科技标准发生更新通常是需要公示的)更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值。
权重值较高表明发生了值得注意的事件,例如,对应的维度是“6G技术”的备选数据的权重值大于权重值阈值,表明“6G技术”出现了较为关键的事件,值得关注。
需要说明的是,某一科技标准(例如“6G技术”标准)并非为某一部门、机关自行制定或者调整。科技标准的指定或者调整,通常需要行业中的领军企业集体参与,在科技标准的制定或者调整完成之前,由于这些领军企业参与了其过程,则这些领军企业一定程度的能够预见到科技标准的制定或者调整的结果,在市场竞争的状态下,为了提高企业宣传的力度、掌握技术发展的先机,这些企业会在科技标准制定或者调整完成之前,就将其符合科技标准制定或者调整结果的科技动态发布出来。而这些信息,也是本说明书中的方法的考察重点之一,权重值则能够一定程度的区分出这些考察重点。
本说明书中的权重值阈值可以是基于专家经验得到的。
S110:若是,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息。
本说明书中的展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一。所述目标数据是权重值大于所述权重值阈值的备选数据。
在本说明书一个可选的实施例中,按照段落结构,对目标数据进行划分,得到若干个字段,作为目标字段(相关技术中,能够从段落中提取出字段的技术手段,在条件允许的情况下,均可以适用于本说明书);基于目标字段中包含的词汇,从所述科技标准中确定出与其对应的段落,作为目标段落;以批注的方式,将所述目标字段添加至其对应的目标段落中,得到所述展示信息。在所述目标字段的语义与所述目标段落的语义存在差异时,为所述目标字段添加突出标识(例如高亮显示等)。
S112:展示所述展示信息。
相关技术中,能够实现信息展示的技术手段,均可以应用于本说明书。
本说明书中的方法能够基于技术的手段实现标准信息动态的自动关联和抓取,及时跟踪全球有关科技标准的政策法规、战略规划、科研成果等,实时跟踪与推送前沿与热点内容,支持用户便捷了解科技标准的最新发展动态。进一步的,本说明书中的方法采用NLP模型以及Scrapy框架的爬虫脚本,能够较为高效的实现对上下游、以及竞品相关的科技标准的动态的监督。此外,本说明书中的方法还能够对监测的结果进行展示。
在本说明书一个可选的实施例中,对权重值构成影响的因素还有其他。具体地,所述权重值还与在第一指定历史时间段(时长可以是经验值)内,表达负面情感极性的、相似度大于预设的相似度阈值的所述备选数据的出现频率负相关。通常情况下,对科技标准的制定或者调整多是正向的,例如,针对某一有害物质的含量,大多数情况下不会出现科技标准的相关内容的取值越调整越高的情况。而且,科技标准的制定和调整多是由专业部门指导下完成的,不会出现不利的结果。在科技标准制定或者调整的结果最终公开之前,若出现涉及科技标准的某一项内容的负面信息,则有可能是某些人(例如不法分子)有意为之的有组织的行为,其目的可能是混淆视听。这种信息应当予以提防。
此外,所述权重值还与其所属的备选数据对应的参考对象与所述目标对象的关联度正相关。关联度用于表征参考对象与目标对象之间的关联程度。本说明书中的关联度与以下至少之一正相关:所述参考对象与所述目标对象的业务范围重叠层度(业务范围重叠的程度越高,表明两者之间为竞品关系。例如,企业A与企业B均为生产手机用芯片的企业,则两者的重叠度为3。企业C与企业D均为生产手机用型号为YYY的芯片的企业,则两者的重叠度为10);在所述参考对象与所述目标对象为上下游关系时,所述参考对象与所述目标对象在第二指定时间段内业务频率(业务频率越高,表明两者之间业务方面的影响越深刻,其影响更应该着重考虑)。
进一步的,所述第二指定时间段中包含未来时刻的情况下的所述权重值,大于所述第二指定时间段中不包含未来时刻的情况下的所述权重值,以提高对未来时刻中存在的风险的预见性。可选的,所述第二指定时间段中既包含未来时刻、又包含历史时刻的情况下的所述权重值(表明上下游企业之间的关联较深,若出现由于科技标准的调整造成的风险,更换上下游企业的成本较高),大于所述第二指定时间段中仅包含未来时刻的情况下的所述权重值。
进一步地,本说明书还提供一种基于大数据的科技标准动态监测***,所述***包括:
参考对象确定模块,配置为:确定参考对象;所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;
可用关键词确定模块,配置为:采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;
备选数据确定模块,配置为:采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;
解析结果确定模块,配置为:对所述备选数据进行解析处理,得到解析结果;所述解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值;所述权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关;
判断模块,配置为:判断当前时刻是否满足监测展示条件;所述监测展示条件包括:基于科技标准展示对象更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值;
展示信息生成模块,配置为:若当前时刻满足所述监测展示条件,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息;所述展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一;所述目标数据是权重值大于所述权重值阈值的备选数据;
展示模块,配置为:展示所述展示信息。
该***能够执行前述任一实施例中的方法,并能够获得相同或相似的技术效果,此处不再赘述。
图2是本申请的一个实施例电子设备的结构示意图。请参考图2,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图2中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成一种基于大数据的科技标准动态监测***。处理器,执行存储器所存放的程序,并具体用于执行前述任意一种基于大数据的科技标准动态监测方法。
上述如本申请图1所示实施例揭示的一种基于大数据的科技标准动态监测方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1中一种基于大数据的科技标准动态监测方法,并实现图1所示实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,执行前述的任意一种基于大数据的科技标准动态监测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的***。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令***的制造品,该指令***实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于大数据的科技标准动态监测方法,其特征在于,所述方法包括:
确定参考对象;所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;
采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;
采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;
对所述备选数据进行解析处理,得到解析结果;所述解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值;所述权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关;
判断当前时刻是否满足监测展示条件;所述监测展示条件包括:基于科技标准展示对象更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值;
若是,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息;所述展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一;所述目标数据是权重值大于所述权重值阈值的备选数据;
展示所述展示信息。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
所述权重值还与在预设的第一指定历史时间段内,表达负面情感极性的、相似度大于预设的相似度阈值的所述备选数据的出现频率负相关。
3.如权利要求1所述方法,其特征在于,所述方法还包括:
所述权重值还与其所属的备选数据对应的参考对象与所述目标对象的关联度正相关;所述关联度与以下至少之一正相关:
所述参考对象与所述目标对象的业务范围重叠层度;
在所述参考对象与所述目标对象为上下游关系时,所述参考对象与所述目标对象在预设的第二指定时间段内业务频率。
4.如权利要求3所述方法,其特征在于,所述方法还包括:
所述第二指定时间段中包含未来时刻的情况下的所述权重值,大于所述第二指定时间段中不包含未来时刻的情况下的所述权重值。
5.如权利要求3所述方法,其特征在于,所述方法还包括:
所述第二指定时间段中既包含未来时刻、又包含历史时刻的情况下的所述权重值,大于所述第二指定时间段中仅包含未来时刻的情况下的所述权重值。
6.如权利要求1所述方法,其特征在于,基于所述目标数据,生成展示信息,包括:
按照段落结构,对所述目标数据进行划分,得到若干个字段,作为目标字段;
基于所述目标字段中包含的词汇,从所述科技标准中确定出与其对应的段落,作为目标段落;
以批注的方式,将所述目标字段添加至其对应的目标段落中,得到所述展示信息。
7.如权利要求6所述方法,其特征在于,所述方法还包括:
在所述目标字段的语义与所述目标段落的语义存在差异时,为所述目标字段添加突出标识。
8.一种基于大数据的科技标准动态监测***,其特征在于,所述***包括:
参考对象确定模块,配置为:确定参考对象;所述参考对象是与目标对象业务范围存在至少部分的重叠,或者与所述目标对象为上下游关系的对象;
可用关键词确定模块,配置为:采用NLP模型,对所述参考对象的属性信息进行解构,得到若干个关键词,作为可用关键词;
备选数据确定模块,配置为:采用基于Scrapy框架的爬虫脚本,根据所述可用关键词,对预设的数据库中的数据进行爬取,得到与所述可用关键词匹配的数据,作为备选数据;不同的所述备选数据对应于不同的预设维度;
解析结果确定模块,配置为:对所述备选数据进行解析处理,得到解析结果;所述解析结果中表示出所述备选数据的生成时间、情感极性、以及权重值;所述权重值和其所属的所述备选数据在所有备选数据中对应于不同的所述参考对象的重复度正相关、和其所属的所述备选数据对应的所述参考对象在所有所述备选数据各自对应的所述参考对象的相似度平均值正相关;
判断模块,配置为:判断当前时刻是否满足监测展示条件;所述监测展示条件包括:基于科技标准展示对象更新的数据,确定科技标准发生更新;和/或,某一所述备选数据的权重值大于预设的权重值阈值;
展示信息生成模块,配置为:若当前时刻满足所述监测展示条件,则基于更新后的所述科技标准、目标数据中至少之一,生成展示信息;所述展示信息表示出所述科技标准更新的内容、所述目标数据的解析结果至少之一;所述目标数据是权重值大于所述权重值阈值的备选数据;
展示模块,配置为:展示所述展示信息。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行所述权利要求1~7之任一所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行所述权利要求1~7之任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410339778.9A CN117951357A (zh) | 2024-03-25 | 2024-03-25 | 一种基于大数据的科技标准动态监测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410339778.9A CN117951357A (zh) | 2024-03-25 | 2024-03-25 | 一种基于大数据的科技标准动态监测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117951357A true CN117951357A (zh) | 2024-04-30 |
Family
ID=90796310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410339778.9A Pending CN117951357A (zh) | 2024-03-25 | 2024-03-25 | 一种基于大数据的科技标准动态监测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117951357A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704622A (zh) * | 2017-10-27 | 2018-02-16 | 成都艾薇尼尔信息技术有限公司 | 一种基于大数据分析的智能商业服务*** |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN109409678A (zh) * | 2018-09-28 | 2019-03-01 | 南方电网科学研究院有限责任公司 | 一种应用于电网的高效多功能技术标准信息*** |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测***及方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN113807645A (zh) * | 2021-07-26 | 2021-12-17 | 北京清博智能科技有限公司 | 一种基于开源情报的产业链风险推演方法 |
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
US20230306466A1 (en) * | 2022-03-28 | 2023-09-28 | The Dun & Bradstreet Corporation | Artificial intellegence engine for generating semantic directions for websites for entity targeting |
CN117333037A (zh) * | 2023-10-16 | 2024-01-02 | 山东出版数字融合产业研究院有限公司 | 一种面向出版大数据的产业大脑构建方法及装置 |
-
2024
- 2024-03-25 CN CN202410339778.9A patent/CN117951357A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704622A (zh) * | 2017-10-27 | 2018-02-16 | 成都艾薇尼尔信息技术有限公司 | 一种基于大数据分析的智能商业服务*** |
CN108491438A (zh) * | 2018-02-12 | 2018-09-04 | 陆夏根 | 一种科技政策检索分析方法 |
CN109409678A (zh) * | 2018-09-28 | 2019-03-01 | 南方电网科学研究院有限责任公司 | 一种应用于电网的高效多功能技术标准信息*** |
CN111831802A (zh) * | 2020-06-04 | 2020-10-27 | 北京航空航天大学 | 一种基于lda主题模型的城市领域知识检测***及方法 |
CN112115331A (zh) * | 2020-09-21 | 2020-12-22 | 朱彤 | 基于分布式网络爬虫与nlp的资本市场舆情监测方法 |
CN113807645A (zh) * | 2021-07-26 | 2021-12-17 | 北京清博智能科技有限公司 | 一种基于开源情报的产业链风险推演方法 |
CN114706972A (zh) * | 2022-03-21 | 2022-07-05 | 北京理工大学 | 一种基于多句压缩的无监督科技情报摘要自动生成方法 |
US20230306466A1 (en) * | 2022-03-28 | 2023-09-28 | The Dun & Bradstreet Corporation | Artificial intellegence engine for generating semantic directions for websites for entity targeting |
CN117333037A (zh) * | 2023-10-16 | 2024-01-02 | 山东出版数字融合产业研究院有限公司 | 一种面向出版大数据的产业大脑构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | CITIESData: a smart city data management framework | |
US9922032B2 (en) | Featured co-occurrence knowledge base from a corpus of documents | |
US20180150377A1 (en) | Automated software compliance analysis | |
US9305302B2 (en) | Weighting sentiment information | |
CN110390198B (zh) | 一种对小程序的风险巡检方法、装置及电子设备 | |
CN105550594A (zh) | 安卓应用文件的安全性检测方法 | |
CN111783016B (zh) | 一种网站分类方法、装置及设备 | |
Nokhbeh Zaeem et al. | PrivacyCheck v2: A tool that recaps privacy policies for you | |
CN112364133A (zh) | 岗位画像生成方法、装置、设备及存储介质 | |
Lippi et al. | The force awakens: Artificial intelligence for consumer law | |
US20120110073A1 (en) | Social network informed mashup creation | |
CN116821750A (zh) | 一种基于人工智能的数据安全风险监测追溯*** | |
CN110634030A (zh) | 应用的业务指标挖掘方法、装置及设备 | |
CN117093653B (zh) | 一种信息化资源共享方法及*** | |
US20210342247A1 (en) | Mathematical models of graphical user interfaces | |
CN110689211A (zh) | 网站服务能力的评估方法及装置 | |
EP3994646A1 (en) | Analysis of intellectual-property data in relation to products and services | |
Meierhofer et al. | Data products | |
US9396433B2 (en) | Determining related data points from multi-modal inputs | |
CN115118574A (zh) | 一种数据处理方法、装置及存储介质 | |
CN110675028A (zh) | 基于区块链的食品***方法、装置、设备及*** | |
CN113849503A (zh) | 一种开放式大数据处理***、方法及介质 | |
CN117272982A (zh) | 基于大型语言模型的协议文本检测方法及装置 | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
CN117951357A (zh) | 一种基于大数据的科技标准动态监测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |