CN108229810B - 基于网络信息资源的行业分析***及方法 - Google Patents
基于网络信息资源的行业分析***及方法 Download PDFInfo
- Publication number
- CN108229810B CN108229810B CN201711475066.6A CN201711475066A CN108229810B CN 108229810 B CN108229810 B CN 108229810B CN 201711475066 A CN201711475066 A CN 201711475066A CN 108229810 B CN108229810 B CN 108229810B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- industry
- network information
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims description 27
- 230000003993 interaction Effects 0.000 claims abstract description 30
- 238000007405 data analysis Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 238000007418 data mining Methods 0.000 claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000003058 natural language processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000008520 organization Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000012800 visualization Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 239000000463 material Substances 0.000 abstract description 3
- 238000005065 mining Methods 0.000 abstract description 2
- 238000011144 upstream manufacturing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 238000011161 development Methods 0.000 description 9
- 230000018109 developmental process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000010485 coping Effects 0.000 description 3
- 230000009193 crawling Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息分析领域,提出了一种基于网络信息资源的行业分析***,旨在解决行业信息分析需要消耗大量的人力物力,且无法达到实时性的问题。该***包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,数据采集模块,配置为采集与行业相关的网络信息;数据预处理模块,配置为对上述网络信息进行结构化处理,与平台数据进行融合,构建产业结构树;数据分析模块,配置为通过自然语言处理技术和数据挖掘算法分析上述平台数据,提取与上述关键词相关的数据作为交互数据;前台交互模块,配置为于通过上述交互数据与用户终端进行交互。本发明实现从海量网络信息中挖掘有价值的数据,为用户实时地呈现行业的分析结果。
Description
技术领域
本发明涉及计算机网络信息应用领域,具体涉及网络信息资源的数据挖掘应用领域,特别涉及一种基于网络信息资源的行业分析***及方法。
背景技术
随着信息技术的快速发展,各领域的信息数据呈现出***式增长,也给这些行业的工作者带来了巨大的挑战和压力,如何从这些海量数据中,挖掘出有价值的行业信息,实时追踪产业信息变化,了解产业上下游分工和竞争对手的发展动向,辅助行业管理层、决策层针对市场变化,做出快速有效的应对策略,具有重要的借鉴意义。
行业分析,是一种***性的行业信息整合分析结果,对于企业发现行业商机、把握市场脉搏、评估投资风险等方面,具有重要的借鉴意义。通常由企业内部或专业的市场研究公司,收集相关数据,并结合相关的从业经验来进行行业分析报告。由于行业分析报告需要调研后编制,需要消耗大量的人力物力,且无法达到实时性,这与瞬息万变的信息时代,存在巨大的反差。
发明内容
为了解决现有技术中的上述问题,即为了解决在行业分析报告需要调研后编制,需要消耗大量的人力物力,且无法达到实时性的问题,本发明采用以下技术方案以解决上述问题:
第一方面,本申请提供了基于网络信息资源的行业分析***,该***包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,上述数据采集模块,配置为采集与用户所关注行业相关的网络信息;上述数据预处理模块,配置为对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树和产业结构的领域知识树节点之间的关联关系;上述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析上述平台数据和领域知识树,提取与上述行业相关的数据作为交互数据;上述前台交互模块,配置为通过上述交互数据与用户终端进行交互。
在一些示例中,上述数据采集模块包括垂直网络爬虫和学术网络爬虫,上述垂直网络爬虫,配置为根据预设的第一初始种子节点,通过分析统一资源定位符从行业垂直网站抓取网页信息;上述学术网络爬虫,配置为根据预设的第二初始种子节点从学术网站抓取学术文章。
在一些示例中,上述数据预处理模块包括数据结构化子模块、平台数据子模块、领域术语提取子模块和领域知识树子模块,上述数据结构化子模块,配置为对上述垂直网络爬虫收集的垂直网页信息进行结构化分析;上述平台数据子模块,配置为存储平台用户以及收集的网络信息数据,并为上述分析模块提供数据;上述领域术语提取子模块,配置为从上述学术网络爬虫所爬取的学术文章中提取领域相关术语;上述领域知识树子模块,配置为结合领域专家知识,对提取的所述领域术语进行结构化组织,构建产业结构的领域知识树,并分析上述领域知识树的节点之间的产业关联关系。
在一些示例中,上述领域术语提取子模块,进一步配置为分析学术网络爬虫获取的学术文章,使用文本分析方法分析文章标题、关键词和摘要中的词频,提取领域专业术语。
在一些示例中,上述数据分析模块包括实体识别子模块和数据挖掘子模块,上述实体识别子模块,配置为通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;上述数据挖掘子模块,配置为利用有监督的机器学***台的操作数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。
在一些示例中,上述前台交互模块包括可视化子模块和地图子模块,上述可视化子模块,配置为通过领域知识树、地图、折线图、柱状图和列表综合的方式将上述数据分析模块分析的结果数据与用户进行交互;上述地图子模块,配置为用户呈现所选取区域的区域地图。
第二方面,本申请提供了一种基于网络信息资源的行业分析方法,该方法包括:采集与用户所关注行业相关的网络信息;对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构树;通过自然语言处理技术和数据挖掘算法分析所述平台数据,提取与所述行业相关的数据作为交互数据;通过所述交互数据与用户终端进行交互。
在一些示例中,上述与行业相关的网络信息包括网页信息和学术文章,上述采集与用户所关注行业相关的网络信息,包括:根据预设的第一初始种子节点,利用垂直网络爬虫通过分析上述第一初始种子节点所包含的统一资源定位符从行业垂直网站抓取网页信息;根据预设的第二初始种子节点,利用学术网络爬虫为从学术网站抓取学术文章。
在一些示例中,上述对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树,包括对垂直网络爬虫采集的垂直网页信息进行结构化分析;从上述学术网络爬虫所爬取的学术文章中提取领域相关术语;结合领域专家知识,对提取的领域术语以及关键技术进行结构化组织,构建产业结构树,并分析结构树节点之间的产业关联关系。
在一些示例中,上述从上述学术网络爬虫所爬取的学术文章中提取领域相关术语,包括:为分析学术网络爬虫获取的学术文章,使用文本分析算法分析文章标题、关键词和摘要中的词频,提取领域专业术语。
在一些示例中,上述通过自然语言处理方法和数据挖掘算法分析上述平台数据,提取与上述行业相关的数据作为交互数据,包括:通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;利用有监督的机器学***台的数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。
在一些示例中,上述通过上述交互数据与用户终端进行交互,包括:通过领域知识树、地图、折线图、柱状图和列表综合的方式将上述交互数据与用户进行交互;为用户呈现所选取区域的地图。
本申请提供的基于网络信息资源的行业分析***及方法,数据采集模块采集与用户所在行业相关的信息,通过数据预处理模块将上述信息进行结构化处理,并构建行业的领域知识树,利用数据分析模块对预处理后的信息进行分析挖掘得到行业信息的分析结果,通过前台交互模块与用户进行交互。实现了从海量数据中,挖掘出有价值的行业信息,实时追踪产业信息变化,了解产业上下游分工和竞争对手信息,辅助行业管理层、决策层针对市场变化,做出快速有效的应对策略。
附图说明
图1是根据本申请的基于网络信息资源的行业分析***的一实施例的结构示意图;
图2是本申请的实施例中垂直网络爬虫爬取网页信息流程的基本框架图;
图3是本申请的实施例中领域知识树子模块构建的机器人行业产业链知识树的示例性应用的示意图;
图4a是在行业产业链中构建的产业节点的上下游节点关系示意图;
图4b是在行业产业链中构建的机器人产业链中***集成产业节点的上下游节点关系示意图;
图5是本申请实施例中利用文本分析算法执行文本分词、词性标注和句法分析的实例结果示意图;
图6是应用于本申请的基于网络信息资源的行业分析方法的一实施例示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请的基于网络信息资源的行业分析***可以包括数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,上述数据采集模块,配置为采集与用户所关注行业相关的网络信息;上述数据预处理模块,配置为对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树;上述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析上述平台数据和领域知识树,提取与上述关键词相关的数据作为交互数据;上述前台交互模块,配置为通过上述交互数据与用户终端进行交互。
在本实施例中,上述数据采集模块是根据用户提供的关键词或关键信息采集行业相关的网络信息,这里,可以采集与用户所关注的行业相关的信息,如,与用户同行业的企业的信息、上下游企业的信息;还可以采集与用户所关注行业的发展相关的信息,如该行业发展的技术前沿,学术前沿等信息。
上述数据预处理模块对上述网络信息进行预处理,上述预处理可以为对上述与用户所关注行业相关的网络信息结构化处理,可以从上述信息中提取与行业相关的公司、公司的产品、公司分布区域、公司求购等分类信息;还可以对行业发展建立分类前沿信息,从其中获取产业发展趋势、技术发展监控等信息。
上述数据分析模块通过对上述数据预处理模块建立的结构化数据和分类信息进行分析挖掘,结合用户在平台的操作信息,向用户推荐用户可能感兴趣的产品、公司和新闻等信息。
上述前台交互模块可以通过交互界面与用户交互,交互界面可以是通过各种图表的形式展示产业变化趋势、产业地域分布、上下游分析、竞争对手、潜在买家等信息;用户可以直观的、随时、随地的获得行业信息。
本申请的上述实施例提供的***通过对用户所关注的行业相关的信息进行分析挖掘,为用户展现分析挖掘得到的行业信息。
图1示出了可以应用本申请的基于网络信息资源的行业分析***的一具体实施例的示例性***结构示意图。
具体地,如图1所示,基于网络信息资源的行业分析***的数据采集模块、数据预处理模块、数据分析模块和前台交互模块,分别实现数据采集、数据预处理、数据分析和前台交互功能。
上述数据采集模块包括垂直网络爬虫101和学术网络爬虫102。上述垂直网络爬虫101配置为根据预设的第一初始种子节点,通过分析统一资源定位符(Uniform ResourceLocator,URL)从行业垂直网站抓取网页信息。具体地,可以为根据行业选择具有代表性的网站,作为垂直网络爬虫的第一初始种子节点。上述垂直网络爬虫101通过分析网站的URL进行与用户关注行业相关的网页信息的爬取。上述网页信息包括该行业的相关企业的新闻、该行业的机构信息、产品和求购信息等。
上述学术网络爬虫102,配置为根据预设的第二初始种子节点从学术网站抓取学术文章。这里,可以将基于学术会议和学术期刊作为学术网络爬虫的第二初始节点。上述学术网络爬虫102根据上述第二初始种子节点从学术网站、学术期刊或学术会议中爬取相关的学术文章,获取该行业的发展前沿信息。
上述垂直网络爬虫101和学术网络爬虫102可以根据实际需求,按照固定周期运行,为进行实时的行业分析提供数据支撑。例如,因行业信息更新频率较高,上述垂直网络爬虫101可以每隔1小时运行一次,使得所获取的信息能够尽可能达到实时的效果;而知识领域或学术领域的信息更新频率可以比较低一些,上述学术网络爬虫102,可以每天或者每月运行一次。
作为示例,图2示出了上述垂直网络爬虫101爬取与行业相关数据的流程。
步骤2.1:根据用户所关注的行业选择具有代表性的网站,作为模块201的种子URL,其中,模块201中存储网络爬虫的初始种子;
步骤2.2:将模块201的种子URL压入模块202的待抓取URL队列;
步骤2.3:模块203读取从待抓取URL队列中读取URL,并使用URL过滤器204对选定的URL进行过滤,具体可以是对所读取的URL进行解析,只保留和新闻、公司相关的网页URL;
步骤2.4:模块205的下载器从垂直网站上爬取过滤后的URL网页,并使用模块206保存网页内容;
步骤2.5:将模块206的网页保存到网页数据库209中,同时,把爬取成功的网页URL压入到模块207的已抓取的URL队列208中;
步骤2.6:使用模块206从网页中提取URL,并对其中的已爬取URL进行过滤,把未爬取的URL压入到模块202;
步骤2.7:判断模块202的队列中,是否还有未抓取的网页URL,如果有,则跳转到步骤2.3,否则,网络爬虫对行业相关数据的爬取结束。
在本实施例中,上述数据预处理模块包括数据结构化子模块103、平台数据子模块105、领域术语提取子模块104和领域知识树子模块106。上述数据结构化子模块103配置为对上述垂直网络爬虫101所爬取的网页内容进行解析和结构化处理,并与平台数据子模块105中的平台数据合并,为数据的进一步分析处理提供基础数据。对于上述垂直网络爬虫101所爬取的新闻网页,上述数据结构化子模块103利用利用网页解析工具,如,BeautifulSoup、lxml等,提取上述新闻网页的新闻标题、发布时间、网页内容等。作为示例,表1中示出了利用网页解析工具对上述垂直网络爬虫101所爬取新闻网页的进行解析得到的新闻数据表。
表1新闻数据表,
上述垂直网络爬虫101获取的企业机构信息中包括与企业相关的公司的信息,获取公司网页内容,利用网页解析工具解析该公司网页内容,提取出上述公司网页内容所指示的公司的名称、地址、产品、求购和公司介绍等信息。作为示例,参考表2,表2示出了上述利用网页解析工具对上述垂直网络爬虫101所爬取的公司网页进行解析得到的公司数据表。
表2公司数据
上述领域术语提取子模块104利用网页解析工具对上述学术网络爬虫102获取的学术文章进行分析,进而提取学术文章的领域术语。由于学术文章所包含的标题、关键词和摘要是该学术文章的核心内容的提炼,因此对学术文章的分析可以是首先对学术文章的标题、关键词和摘要的分析,然后根据需要对学术文章的内容进行分析。上述领域术语提取子模块104内嵌各种文本分析算法,利用上述领域术语提取子模块104所内嵌的文本分析算法分析上述学术文章。具体地,上述利用文本分析算法分析学术文章,可以为使用词频-反文档频率算法(term frequency-inverse document frequency,TF-IDF)和潜在语义分析算法(Latent Dirichilet Allocation,LDA)提取学术文章的文本的关键词,使用聚类方法分析学术文章标题、关键词和摘要中的词频,抽取出现次数大于设定阈值的词语,作为领域知识树中子节点的领域术语。上述领域知识树中各子节点的领域术语所构成的术语集合可以用于分析网络信息数据与领域知识树之间的关系。作为示例,参考表3,表3示出了学术文章的数据结构,文本分析算法基于表3的数据结构所示的内容对学术文章进行分析。
表3学术文章数据表
上述平台数据子模块105配置为上述数据分析模块进行数据分析提供基础数据和预处理过的数据。上述平台数据子模块105中存储各类信息,包括平台中的用户操作行为、公司产品、求购需求、公司新闻、公司信息和地域信息等。上述用户操作行为为用户在***平台中的操作行为,如浏览新闻、点击产品、发布需求等,用于跟踪记录用户的行为信息,为算法分析用户兴趣,提供数据支撑。上述公司产品可以为公司用户在平台中所发布的产品信息,如产品名称、产品简介、产品功能、产品的参数等信息。上述求购需求可以使用户在平台中发布的求购信息,如,求购产品名称、参数、价位、限定区域等。上述公司新闻可以为公司用户在平台中发布的新闻信息,包括新闻标题、作者、内容等。上述公司信息可以为公司用户在***平台中的注册信息,如,公司名称、注册地址、主营业务等;上述地域信息可以为***平台中构建的中国地理信息,包括省市的全称、简称、经纬坐标和区域,为分析网络信息以及定位公司位置信息所使用。
上述领域知识树子模块106配置为结合专家知识和所提取的领域专业术语,构建领域知识树和产业结构的领域知识树节点之间的关联关系。上述领域知识树子模块106可以根据公司用户所在的行业的提取的数据信息构建行业产业的领域知识树。上述构建行业产业的领域知识树,首先构建产业链节点,分别为产业链上游、产业链中游和产业链下游节点;然后,根据网络爬虫所爬取的网页信息和专家知识分别构建产业链上游节点、产业链中游节点和产业链下游节点的子节点;最后继续以各上述子节点为中间节点,构建各上述中间节点的子节点,从而构建出公司用户所在行业产业链的领域知识树。作为示例,图3示出了上述领域知识树子模块106构建的机器人产业链的领域知识树。在机器人产业链中,分为产业链上游节点、产业链中游节点和产业链下游节点。产业链上游节点为供应商,包括原材料、零部件等子节点;产业链下游节点为售后服务和应用,包括合作商子节点、代理商子节点、第三方服务子节点和解决方案子节点等;产业链中游节点为行业主营业务,作为领域树主干,包括机器人本体节点和机器人集成节点,在机器人集成节点下包括多层子节点,例如机器人集成节点的子节点有智能机器人节点,智能机器人节点下有工业机器人子节点,工业机器人节点下有搬用机器人子节点等。
图4示出了上述领域知识树子模块106所构建的机器人产业链上下游产业节点的示意图。其中,图4a示出了设计各节点的上下游节点关系,图4b示出了机器人产业链中一具体示例的产业链节点示意图,如,在机器人产业链中,当产业节点为“***集成”,那么上游产业节点包括传感器、控制器等,下游产业节点包括第三方、代理商等。
在本实施例中,上述数据分析模块包括实体识别子模块107和数据挖掘子模块108,上述实体识别子模块107配置为通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;上述数据挖掘子模块108,配置为利用有监督的机器学***台的数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。
上述实体识别子模块107包括文本分词、词性标注、句法分析、地域识别、机构名识别和领域术语识别六个单元,上述文本分词、词性标注和句法分析,用于构建实体识别特征。以“机器人是自动执行工作的机器装置”为例,进行文本分词、词性标注和句法分析,结果如图5所示,从中提取的实体识别特征,如表4所示;然后融合条件随机场(ConditionalRandom Fields,CRF)和基于规则的方法,针对每条信息,发现识别其包含的地域实体、机构名实体和领域术语实体。
表4实体识别特征
上述数据挖掘子模块108,利用监督学***台中的数据,如发布的产品、求购等信息,推理其关注的产业节点,推荐其感兴趣的产品、公司和新闻。
在本实施例中,上述前台交互模块包括可视化子模块和地图子模块,上述可视化子模块配置为通过领域知识树109、折线图111、柱状图112和列表113综合的方式将所述数据分析模块分析的结果数据与用户进行交互;上述地图子模块,配置为用户呈现所选取区域的地图,可以作为该区域的区域地图。
上述与用户交互的可视化子模块,通过领域知识树109、折线图111、柱状图112和列表113的方式为用户呈现各类分析结果信息。
上述领域知识树109,为用户呈现用户所关注行业的领域知识树结构,供用户来选择查看的产业节点。
上述地图子模块为用户呈现中国各省市的区域,当选择某个省市,会自动跳转到该省的省地图。
上述折线图111为用户呈现某地区某产业节点的新闻热度随时间的变化趋势。
上述柱状图112,为用户呈现某地区某产业节点的新闻热度分布。
上述列表113,以列表的方式为用户呈现上下游公司、竞争对手和潜在买家,以及推荐的新闻等信息。
本申请上述实施例所提供的***通过数据采集模块在海量数据中抽取与用户所在行业相关的信息;数据预处理模块通过对所抽取的信息进行数据结构化处理;构建领域知识树。数据分析模块分析和挖掘处理后的信息,并结合专家知识分析产业发展趋势,为用户提供行业分析报告;前台交互模块与用户进行信息交互,为用户提供与产业相关的信息。使得用户可以及时掌握产业各节点的实时变化,了解产业上下游分工和竞争对手的信息,辅助行业管理层或决策层针对市场变化,做出快速有效的应对策略。
参考图6,本申请提供一种基于网络信息资源的行业分析方法,该方法包括如下步骤:
步骤601,采集与用户所关注行业相关的网络信息。
在本实施例中,应用于本申请的电子设备(可以为服务器或应用平台)利用网络爬虫从与行业相关的网站获取与行业相关的网络信息。这里,与用户所关注行业相关的网站可以为用户所在或所从事行业内及上下游产业的公司的网站,还可以为与行业产业相关的技术及学术论坛或网站。上述网络爬虫可以为垂直网络爬虫,还可以为学术网络爬虫。上述垂直网络爬虫从领域相关的网站,收集新闻、机构、产品和求购信息。上述学术网络爬虫,从领域相关的学术会议和学术期刊网站中,抓取相关的学术文章。上述网络信息可以为上述新闻、机构、产品和求购信息,还以为学术文章。
在一些优选的实施方案中,上述与用户所关注行业相关的网络信息包括网页信息和学术文章,上述采集与用户所关注行业相关的网络信息,包括:根据预设的第一初始种子节点,利用垂直网络爬虫通过分析上述第一初始种子节点的统一资源定位符从行业垂直网站抓取网页信息。根据预设的第二初始种子节点,利用学术网络爬虫为从学术网站抓取学术文章。这里,上述第一初始种子节点是根据行业选择具有代表性的网站,作为网络爬虫的初始种子节点。上述第二初始种子节点可以是基于学术会议和学术期刊作作为初始种子节点。上述网络爬虫通过分析URL,爬取相关网页信息或学术文章。
步骤602,对上述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树。
在本实施例中,上述服务器或应用平台对上述网络信息进行数据预处理,构建产业结构树。这里,上述数据预处理可以为对垂直网络爬虫采集的垂直网页信息进行结构化分析;还可以为对学术网络爬虫所爬取的学术文章中提取领域相关术语和关键技术,并结合领域专家知识,对提取的领域术语以及关键技术进行结构化组织,构建产业结构树,并分析结构树节点之间的产业关联关系。进一步地,从学术网络爬虫所爬取的学术文章中提取与行业相关行业或产业相关术语和关键技术信息,可以为分析学术网络爬虫获取的学术文章,使用文本分析算法分析文章标题、关键词和摘要中的词频,提取领域专业术语。上述文本分析算法可以为TF-IDF、LDA、聚类等算法。
步骤603,通过自然语言处理方法和数据挖掘算法分析平台数据和领域知识树,提取与行业相关的数据作为交互数据。
在本实施例中,可以利用自然语言处理方法从新闻、公司、产品、求购等网络信息中,识别地域实体、领域术语实体和机构名实体;可以利用数据挖掘算法根据识别出的领域术语实体和领域知识树节点之间的关系,对新闻、公司、产品、求购等信息的知识节点分类分析,并根据这些信息所处的地域和发布的时间进行统计,基于知识节点的新闻热度变化,形成对产业趋势变化的跟踪。
进一步地,上述通过自然语言处理方法和数据挖掘算法分析平台数据,提取与行业相关的数据作为交互数据,包括通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别平台数据中所包含的地域实体、机构名实体和领域术语实体;利用有监督的机器学***台的数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品。
步骤604,通过交互数据与用户终端进行交互。
在本实施例中,通过应用平台提供的交互应用与用户进行信息交互。这里,交互应用可以为可视化的应用,如折线图、柱状图、列表的形式显示分析结果。具体地:
使用折线图,为用户呈现所选择的地域范围内,所选择的领域知识树节点的产业趋势变化。
使用柱状图,为用户呈现所选择的地域范围内,所选择的领域知识树节点的地域分布状况。
使用列表,为用户呈现所选择的地域范围内,所选择的领域知识树节点的上下游企业展示;使用列表,为用户推荐其感兴趣的公司;使用列表,为用户推荐其感兴趣的产品;使用列表,为用户推荐其感兴趣的新闻。
本申请的上述实施例所提供的方法能够从海量数据中,抽取有效信息,为用户呈现产业各节点的实时变化,了解产业上下游分工和竞争对手,辅助行业管理层、决策层等,针对市场变化,做出快速有效的应对策略。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于网络信息资源的行业分析***,其特征在于,所述***包括:数据采集模块、数据预处理模块、数据分析模块和前台交互模块,其中,
所述数据采集模块,配置为采集与用户所关注行业相关的网络信息;
所述数据预处理模块,配置为对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树和产业结构的领域知识树节点之间的关联关系;
所述数据分析模块,配置为通过自然语言处理方法和数据挖掘算法分析所述平台数据和所述领域知识树,提取与所述行业相关的数据作为交互数据;所述数据分析模块包括实体识别子模块和数据挖掘子模块,所述实体识别子模块,配置为通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别所述平台数据中所包含的地域实体、机构名实体和领域术语实体;所述数据挖掘子模块,配置为利用有监督的机器学***台的操作数据,推理所述用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品;
所述前台交互模块,配置为通过所述交互数据与用户终端进行交互。
2.根据权利要求1所述的基于网络信息资源的行业分析***,其特征在于,所述数据采集模块包括垂直网络爬虫和学术网络爬虫,
所述垂直网络爬虫,配置为根据预设的第一初始种子节点,通过分析统一资源定位符从行业垂直网站抓取网页信息;
所述学术网络爬虫,配置为根据预设的第二初始种子节点从学术网站抓取学术文章。
3.根据权利要求2所述的基于网络信息资源的行业分析***,其特征在于,所述数据预处理模块包括数据结构化子模块、平台数据子模块、领域术语提取子模块和领域知识树子模块,
所述数据结构化子模块,配置为对所述垂直网络爬虫所爬取的垂直网页信息进行结构化分析;
所述平台数据子模块,配置为存储平台用户以及收集的网络信息数据,并为所述分析模块提供数据;
所述领域术语提取子模块,配置为从所述学术网络爬虫所爬取的学术文章中提取领域相关术语;
所述领域知识树子模块,配置为结合领域专家知识,对提取的所述领域术语进行结构化组织,构建产业结构的领域知识树,并分析产业结构的领域知识树节点之间的产业关联关系。
4.根据权利要求3所述的基于网络信息资源的行业分析***,其特征在于,所述领域术语提取子模块,进一步配置为分析所述学术网络爬虫获取的学术文章,使用文本分析方法分析文章标题、关键词和摘要中的词频,提取领域专业术语。
5.根据权利要求1所述的基于网络信息资源的行业分析***,其特征在于,所述前台交互模块包括可视化子模块和地图子模块,
所述可视化子模块,配置为通过领域知识树、地图、折线图、柱状图和列表综合的方式将所述数据分析模块分析的结果数据与用户进行交互;
所述地图子模块,配置为用户呈现所选取区域的地图。
6.一种基于网络信息资源的行业分析方法,其特征在于,所述方法包括:
采集与用户所关注行业相关的网络信息;
对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树;
通过自然语言处理方法和数据挖掘算法分析所述平台数据和所述领域知识树,提取与所述行业相关的数据作为交互数据;其包括:通过文本分词、词性标注和句法分析来构建实体识别特征,融合条件随机场和基于规则的方法,识别所述平台数据中所包含的地域实体、机构名实体和领域术语实体;利用有监督的机器学***台的数据,推理用户所关注的产业节点,使用基于内容的推荐算法,为用户推荐个性化的新闻、公司和产品;
通过所述交互数据与用户终端进行交互。
7.根据权利要求6所述的基于网络信息资源的行业分析方法,其特征在于,所述与行业相关的网络信息包括网页信息和学术文章,所述采集与用户所关注行业相关的网络信息,包括:
根据预设的第一初始种子节点,利用垂直网络爬虫通过分析所述第一初始种子节点所包含的统一资源定位符从行业垂直网站抓取网页信息;
根据预设的第二初始种子节点,利用学术网络爬虫为从学术网站抓取学术文章。
8.根据权利要求7所述的基于网络信息资源的行业分析方法,其特征在于,所述对所述网络信息进行结构化处理,与预设的平台数据进行融合,构建产业结构的领域知识树,包括:
对所述垂直网络爬虫采集的垂直网页信息进行结构化分析;
从所述学术网络爬虫所爬取的学术文章中提取领域相关术语;
结合领域专家知识,对提取的领域术语进行结构化组织,构建产业结构的领域知识树,并分析所述领域知识树的节点之间的产业关联关系。
9.根据权利要求8所述的基于网络信息资源的行业分析方法,其特征在于,所述从所述学术网络爬虫所爬取的学术文章中提取领域相关术语,包括:
为分析学术网络爬虫获取的学术文章,使用文本分析算法分析文章标题、关键词和摘要中的词频,提取领域专业术语。
10.根据权利要求6所述的基于网络信息资源的行业分析方法,其特征在于,所述通过所述交互数据与用户终端进行交互,包括:
通过领域知识树、地图、折线图、柱状图和列表综合的方式将所述交互数据与用户进行交互;
为用户呈现所选取区域的地图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711475066.6A CN108229810B (zh) | 2017-12-29 | 2017-12-29 | 基于网络信息资源的行业分析***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711475066.6A CN108229810B (zh) | 2017-12-29 | 2017-12-29 | 基于网络信息资源的行业分析***及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229810A CN108229810A (zh) | 2018-06-29 |
CN108229810B true CN108229810B (zh) | 2021-02-05 |
Family
ID=62646986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711475066.6A Active CN108229810B (zh) | 2017-12-29 | 2017-12-29 | 基于网络信息资源的行业分析***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229810B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255034A (zh) * | 2018-08-08 | 2019-01-22 | 数据地平线(广州)科技有限公司 | 一种基于产业链的行业知识图谱构建方法 |
CN110020226B (zh) * | 2018-08-20 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 基于大数据的数据展示方法、用户设备、存储介质及装置 |
CN109299362B (zh) * | 2018-09-21 | 2023-04-14 | 平安科技(深圳)有限公司 | 相似企业推荐方法、装置、计算机设备及存储介质 |
CN109543045A (zh) * | 2018-11-15 | 2019-03-29 | 厦门笨鸟电子商务有限公司 | 一种全球产业链的展示方法 |
CN110020092A (zh) * | 2018-11-20 | 2019-07-16 | 皮商云集(厦门)科技有限公司 | 基于网络爬虫的皮革行业数据中心*** |
CN110175239A (zh) * | 2019-04-23 | 2019-08-27 | 成都数联铭品科技有限公司 | 一种知识图谱的构建方法及*** |
CN110263233B (zh) * | 2019-05-06 | 2023-04-07 | 平安科技(深圳)有限公司 | 企业舆情库构建方法、装置、计算机设备及存储介质 |
CN111275364A (zh) * | 2020-03-28 | 2020-06-12 | 苏州中灏文化科技有限公司 | 一种基于产业图谱的区域性协同制造管理服务平台 |
CN112464668A (zh) * | 2020-11-26 | 2021-03-09 | 南京数脉动力信息技术有限公司 | 一种提取智能家居行业动态信息的方法和*** |
CN113326870B (zh) * | 2021-05-11 | 2023-08-04 | 中科迅(深圳)科技有限公司 | 一种基于大数据的多平台旅游数据融合*** |
CN113987146B (zh) * | 2021-10-22 | 2023-01-31 | 国网江苏省电力有限公司镇江供电分公司 | 一种电力内网专用的智能问答*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446065B1 (en) * | 1996-07-05 | 2002-09-03 | Hitachi, Ltd. | Document retrieval assisting method and system for the same and document retrieval service using the same |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析***及方法 |
-
2017
- 2017-12-29 CN CN201711475066.6A patent/CN108229810B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446065B1 (en) * | 1996-07-05 | 2002-09-03 | Hitachi, Ltd. | Document retrieval assisting method and system for the same and document retrieval service using the same |
CN103455636A (zh) * | 2013-09-27 | 2013-12-18 | 浪潮齐鲁软件产业有限公司 | 一种基于互联网税务数据自动抓取与智能分析的方法 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN104573016A (zh) * | 2015-01-12 | 2015-04-29 | 武汉泰迪智慧科技有限公司 | 一种基于行业的垂直舆情分析***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108229810A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229810B (zh) | 基于网络信息资源的行业分析***及方法 | |
Johnson et al. | Web content mining techniques: a survey | |
Vargiu et al. | Exploiting web scraping in a collaborative filtering-based approach to web advertising. | |
CN102270331B (zh) | 基于可视化搜索的网络购物导航方法 | |
US20210042866A1 (en) | Method and apparatus for the semi-autonomous management, analysis and distribution of intellectual property assets between various entities | |
WO2011080899A1 (ja) | 情報推薦方法 | |
WO2020037917A1 (zh) | 一种用户行为数据推荐方法、服务器及计算机可读介质 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN103914478A (zh) | 网页训练方法及***、网页预测方法及*** | |
CN106991175B (zh) | 一种客户信息挖掘方法、装置、设备以及存储介质 | |
JP2006309515A (ja) | 情報配信方法および情報配信サーバ | |
CN102473190A (zh) | 为网页分配关键词 | |
KR101801257B1 (ko) | 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술 | |
CN103177036A (zh) | 一种标签自动提取方法和*** | |
CN104391978A (zh) | 用于浏览器的网页收藏处理方法及装置 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112685564A (zh) | 一种智能科技政策分类、推送方法、以及*** | |
Al-Najran et al. | A requirements specification framework for big data collection and capture | |
Dias et al. | Automating the extraction of static content and dynamic behaviour from e-commerce websites | |
CN112328806A (zh) | 一种数据的处理方法、***、计算机设备和存储介质 | |
KR20190048781A (ko) | 온라인 의견 정보 수집 및 분석 시스템 | |
US9165053B2 (en) | Multi-source contextual information item grouping for document analysis | |
TW201421265A (zh) | 智慧型新聞分析系統 | |
Anh | Web Scraping: A Big Data Building Tool And Its Status In The Fintech Sector In Viet Nam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee after: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES Patentee after: Zhongke (Luoyang) robot and intelligent equipment Research Institute Address before: 100190 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES Patentee before: INNOVATION INSTITUTE FOR ROBOT AND INTELLIGENT EQUIPMENT (LUOYANG), CASIA |
|
CP01 | Change in the name or title of a patent holder |