CN111708774A - 一种基于大数据的产业分析*** - Google Patents

一种基于大数据的产业分析*** Download PDF

Info

Publication number
CN111708774A
CN111708774A CN202010298191.XA CN202010298191A CN111708774A CN 111708774 A CN111708774 A CN 111708774A CN 202010298191 A CN202010298191 A CN 202010298191A CN 111708774 A CN111708774 A CN 111708774A
Authority
CN
China
Prior art keywords
data
enterprise
industry
model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010298191.XA
Other languages
English (en)
Other versions
CN111708774B (zh
Inventor
崔晓君
陈俊琰
王怡宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EAST CHINA INSTITUTE OF TELECOMMUNICATIONS
Original Assignee
EAST CHINA INSTITUTE OF TELECOMMUNICATIONS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EAST CHINA INSTITUTE OF TELECOMMUNICATIONS filed Critical EAST CHINA INSTITUTE OF TELECOMMUNICATIONS
Priority to CN202010298191.XA priority Critical patent/CN111708774B/zh
Publication of CN111708774A publication Critical patent/CN111708774A/zh
Application granted granted Critical
Publication of CN111708774B publication Critical patent/CN111708774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators
    • G06F9/45529Embedded in an application, e.g. JavaScript in a Web browser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据的产业分析***,包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;产业发展相关数据库模块用于存储某产业发展相关数据资源;数据分析模型模块用于存储数据分析模型;数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;用户端界面模块与数据分析模型模块连接,用于显示分析结果。本发明的产业分析***能够为产业发展提供数据支撑,基于数据分析做出决策。

Description

一种基于大数据的产业分析***
技术领域
本发明属于产业分析***技术领域,涉及一种基于大数据的产业分析***。
背景技术
数据资源作为信息社会的重要生产要素、无形资产和社会财富,已成为国家基础性战略资源。通过对数据进行深入分析,能够总结经验、发现规律、预测趋势、辅助决策。经济发展进入新常态,会出现很多新情况、新问题,急需科学研判、及时应对,把政策工具箱的工具备好、备足,这就对传统的产业监测调度方式提出了更高的要求。
政府决策迫切需要掌握产业发展相关信息,包括从宏观到微观各个层面的信息,为产业转型升级、招商引资、企业发展扶持等政策的制定和调整提供量化决策依据,以实现更加精准有效的开展有关配套工作,引导和推动着上海大数据产业快速、健康、有序的发展。企业发展迫切需要掌握产业发展动态,市场发展动态。
目前产业发展研究工作的推动和研究以比较分散的方式开展,主要分别对各个因素开展研究,或者是基于专家经验,难以满足快速推进中的某一产业发展需要。通过建立产业大数据分析平台,可以解决这一问题,给政府部门掌握产业发展现状,制定决策提供有效帮助,有效促进产业发展。
发明内容
为了克服上述技术的不足,本发明的目的在于提供了一种基于大数据的产业分析***,可以分析影响该产业发展的相关因素,总结经验、发现规律、预测趋势、辅助决策,为产业发展提供数据支撑,基于数据分析做出决策而非仅仅是专家经验。
为达到上述目的,本发明采用的技术方案如下:
一种基于大数据的产业分析***,包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;
产业发展相关数据库模块用于存储某产业发展相关数据资源;产业发展相关数据库模块通过数据治理,形成高度可用的数据资产,面向数据基础平台模块和数据分析模型模块提供支撑,支持数据查询和业务分析的需要;
产业发展相关数据库模块的技术实现主要依靠以下技术:
(1)能支持实时大数据处理的国产新型数据库,其具有以下功能:
(1.1)大规模并行处理:存储建立在HDFS上、将计算中间结果放在内存中;
(1.2)列式存储2.0:增强型元数据、字典编码数据、数据自动排序;
(1.3)动态数据分配:广播小数据表、大表哈希值动态再分配、Join本地化、管道;
(1.4)内存计算:向量化处理、基于底层虚拟机(LLVM)的动态编译;
(1.5)OLTP/OLAP双分析引擎:兼容OLTP和OLAP数据分析处理需求;
(2)数据接口***与人机接口***,其包括:
(2.1)机器类数据接口与采集处理***,其包括:
(2.1.1)基础设施运行环境数据引擎处理子***,能够适配并可配置MIB信息等;
(2.1.2)SYSLOG日之类数据引擎处理子***;
(2.1.3)大数据产业及相关企业信息收集处理子***;
(2.2)业务类数据接口***,业务综合数据接口应支持多种接口格式与人机交互混合模式,以适应多来源冷、热数据的接入处理等,业务数据接口格式种类扩展支持与更新管理,应对不同来源的大数据相关业务数据能够支持RestAPI/SNMP/SYSLOG/文件等多种格式的接口支持,支持实时、定时、条件触发等更新频率模式,并可配置,相关接口协议规范与标准定制列举如下:
(2.2.1)SYSLOG接口,物联网、机器设备数据标准工业接口规范,包括服务器主机、通用网络设备、专用安全设备的***日志应通过SYSLOG协议发送至安全管控***,安全管控***通过约定的SYSLOG消息格式,解析日志信息,并对日志信息进行规范、分析、关联等处理;
(2.2.2)SNMP接口,物联网设备、服务器主机、通用网络设备、专用安全设备的***日志应实现基本的SNMP协议MIB库,安全管控***通过SNMP协议方式采集设备基本信息、采集设备运行性能协议以及接收设备SNMP Trap事件通知信息;
(2.2.3)REST接口,REST接口协议是WebService(Web服务)的一种实现方式,主要应用于***间的接口实现,移动警务平台中,除了在设备管理层面上使用通用的SNMP、SYSLOG协议以外,软件***间、策略配置下发等场景应使用REST接口协议实现,一般情况下,应采用请求响应模式实现监测信息报送、策略与指令下发等,请求与响应通信协议应采用HTTP1.1 over SSL/TLS,请求响应模式应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB,在网络反向不可达的情况下,可采用消息推送模式实现策略指令下发,通信协议应采用HTTP2.0的WEBSOCKET over SSL/TLS,应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB;
(2.2.4)应用***日志接口,应用***日志接口采用标准的SDK接口,用来发送终端应用/业务域日志数据,为保证采集性能,应用接口支持按集群方式部署,可根据要采集的日志量及并发数的大小,选择集群的节点数;
(2.3)人机接口***服务,其包括:
(2.3.1)前端人机接口***,为产业数万家企业建立主动服务的交互式数据采集人机接口;
(2.3.2)安全平台数据交换前置服务平台,为产业分析平台建立安全数据通讯平台等;
(2.3.3)企业相关数据清点与梳理服务、接口协商与定制服务;
数据分析模型模块用于存储数据分析模型;
数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后(将分析目标与相关数据匹配以顺利实现调取是已知技术,例如分析目标是针对近五年成立的企业进行分析,则从数据库中调用成立时间年份大于2015年的企业数据;又例如分析目标是针对“核心企业”,则从数据库中调用打有“核心企业”标签的企业数据),从数据分析模型模块中调取相关模型(将分析目标与相关模型匹配以顺利实现调取是已知技术,例如分析目标是“根据产业链进行分类”,则在分析模块中根据模型名称,手动选择“产业链模型”进行调用),将相关数据输入到相关模型中;数据基础平台模块为***建设提供有力的平台支撑,缩短开发周期,降低***建设风险,提升性能和稳定性;进行数据维护,包括数据补全与更新;进行数据查询,可进行向导式搜索和自定义报表,对于查询结果,具备条件筛选、排序、向上汇总、向下钻取、简单运算、条件格式等,支持结果的导出和打印;进行可视化展示,可通过内置多种智能可视化算法,实现海量数据的多维多终端立体呈现;
数据基础平台模块的技术实现依靠一个可视化的大数据管理、分析与展现的平台,功能如下:
(a)基于元数据的数据管理:为用户构建一套规范、统一、通用的大数据资源;
(b)常规多维分析+开放建模:为用户提供多维分析、基于R语言的建模分析;
(c)兼容传统、大数据存储:兼容关系型DB、Hadoop、NoSQL等存储类型;
(d)可视化动态图表分析:为用户提供拖拽式、符合国人操作习惯的图表展示方式;
数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;
用户端界面模块与数据分析模型模块连接,用于显示分析结果;用户端模块包括产业经济运行、产业管理、生产力布局等重点应用,每个业务应用均包含三部分内容,即现状监测、专题分析和趋势研判;
用户端界面模块的技术实现主要依靠以下技术:
1)HTML
HTML是建立Web界面所需的最核心技术;这是一种用于描述浏览器所显示的文档结构的基于标签的语言;
2)CSS(层叠样式表)
在web应用程序中,用于指定HTML内容在屏幕上的呈现方式;
3)JavaScript
面向对象的JavaScript,同时支持面向对象、命令式和声明式;
4)超链接
web应用程序中的超链接通常包含预先设定的请求参数,这些数据项不需由用户输人,而是由服务器将其插人用户单击的超链接的目标URL中,大数据产业分析***中项目储备库、友情链接等都是以这种方式开发;
5)表单
接收用户输入;
6)文档对象模型DOM
7)Ajax(Asynchronous JavaScript and XML,异步的JavaScript和XML)
AJAX是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下;
大数据产业***使用Ajax,一些用户操作将由客户端脚本代码进行处理,并且不需要重新加载整个页面;相反,脚本会“在后台”执行请求,并且通常会收到较小的响应,用于动态更新一部分用户界面;
Ajax使用的核心技术XML Http Request,经过一定程度的标准整合之后,这种技术现在已转化为一个本地JavaScript对象,客户端脚本可以通过该对象提出“后台”请求,而无须窗口级别的导航事件;
8)JSON(JavaScript Object Notation,JavaScript对象表示法)
大数据产业***用JSON来存储和交换文本信息,是轻量级的文本数据交换格式;
Ajax应用程序经常使用JSON,以替换最初用于数据传输的XML格式,JSON比XML更小、更快,更易解析;
通常,如果用户执行某个操作,客户端JavaScript将使用XML Http Request将该操作传送到服务器,服务器则返回一个包含JSON格式的数据的轻量级响应,然后,客户端脚本将处理这些数据,并对用户界面进行相应地更新;
9)同源策略
大数据产业地图***核心:防止不同来源的内容相互干扰,只允许相同来源的内容进行交互;
从一个网站收到的内容可以读取并修改从该站点收到的其他内容,但不得访问从其他站点收到的内容,如果不使用同源策略,那么,当不知情的用户浏览到某个恶意网站时,在该网站上运行的脚本代码将能够访问这名用户同时访问的任何其他网站的数据和功能;
用户端界面模块提供用户结果查看功能,用户可查看产业经济运行、产业管理、生产力布局等提供现状监测、专题分析和趋势研判数据分析结果。
作为优选的方案:
如上所述的一种基于大数据的产业分析***,某产业发展相关数据资源包括与某产业发展相关的行业数据、企业数据、区域数据和技术数据。
如上所述的一种基于大数据的产业分析***,数据分析模型包括产业分类模型、产业链模型和企业绩效评估模型;产业分类模型用于根据待分类企业的企业经营范围,确定企业的产业分类;产业链模型用于通过加权评分法,根据待分类企业的数据,在“资源”、“技术”、“应用”、“产业支撑”四个类别中的评分,确定企业在产业链中的位置,即在产业链中的类别;企业绩效评估模型用于根据与企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力相关的数据(即企业的注册资本、上市情况、业务收入、研发投入等数据)对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分后,计算加权总分得到企业绩效。
如上所述的一种基于大数据的产业分析***,产业分类模型结构相对简单,采用决策树算法,决策树分类很符合人类分类时的思想,决策树分类时会提出很多不同的问题,判断样本的某个特征,然后综合所有的判断结果给出样本的类别,产业分类模型的建立流程如下:
(1)开始;
(2)以企业数据集(样本全集)作为根节点创建树;
(3)创建节点;
(4)判断企业数据集(样本全集)是否为空,如果是,则返回上一节点后,结束;反之,则进入下一步;
(5)判断当前节点数据集(样本子集)是否属于同类属性,如果是,则记为叶节点并标记为类C后,结束;反之,则进入下一步;
(6)判断候选属性集是否为空,如果是,则记为S中含样本数量最多的类C后,结束;反之,则进入下一步;
(7)计算集合中每个企业条件属性的信息增益率;
(8)选择候选集中最大的信息增益作为当前节点的分割属性;
(9)根据分割属性的值确定企业数据集(样本子集),建立相应分支;
(10)对企业数据集(样本子集)连续递归运行函数,返回步骤(2);
产业分类模型的工作流程如下:
(1)开始;
(2)输入待分类企业的经营范围数据;
(3)通过决策树算法,对企业进行产业分类;
(4)结束。
如上所述的一种基于大数据的产业分析***,企业的产业链划分标准相对模糊,一家企业可能同时存在于产业链中的多个位置,因此,单一的产业链划分方法无法满足实际需求,为了能够准确地对企业进行产业链位置划分,本发明采用加权评分方式,其中,分类算法采用随机森林模型,评分方法采用指数加权平均法,大数据产业链模型研究所使用的数据集维度较多、数据量较大,随机森林算法能够有效地解决这些问题,其优点主要体现在:
(1)在当前的很多数据集上,相对其他算法有很大优势,表现良好;
(2)能够处理很高维度的数据,并且不需要做特征选择;
(3)训练速度快,容易做成并行化方法(训练时树与树之间相互独立);
(4)在训练过程中,能够检测到不同维度数据间的相互影响;
(5)在处理不平衡的数据集时,可以平衡误差;
(6)如果有很大一部分的特征遗失,仍可以维持准确度;
产业链模型的工作流程如下:
(1)开始;
(2)数据集获取:获取企业的工商信息、知识产权、企业运营历史数据作为原始数据集,并构建大数据产业链分类指标,分别为:“资源”、“技术”、“应用”和“产业支撑”;
(3)数据标注:将原始数据集依据大数据产业链分类指标来标注企业在产业链中的类别;
(4)数据预处理:对原始数据集中的数据进行数据匹配及异常值去除操作;
(5)数据集划分:将原始数据集中的数据按照3:1的比例进行划分训练集与测试集;
(6)构建随机森林:在训练集上应用传统随机森林算法构建用于预测企业在产业链中位置的随机森林;
(7)随机森林模型训练:利用训练集中的数据训练N棵决策树的随机森林模型,N为大于1的整数,每棵决策树都随机的从训练集中随机抽取企业数据进行训练,采用增益熵来选择合适的属性节点,每棵树从训练集中随机抽取样本和属性特征来生成各自的节点,直到所有决策树把自己抽样出的样本分类完;
(8)模型评估与校正:将测试集输入训练好的随机森林模型进行分类,将分类结果与实际结果进行统计,并计算预测准确率,分类结果与实际结果都为企业在产业链中的类别,当预测准确率小于设定值(设定值可根据实际需求进行设定)时,计算每棵决策树得到的分类结果并计算其AUC值,基于AUC值从目前的随机森林模型中提取出相对高精度的决策树集合,再根据相似性对其进行聚类,划分为不同的类簇,最后从不同类簇中选取精度高的决策树集合来迭代更新现有随机森林模型;当预测准确率大于等于设定值,不对随机森林模型进行更新;
(9)获取待分类企业的数据;
(10)对数据进行数据匹配及异常值去除操作;
(11)将数据输入到训练好的随机森林模型,由其输出分类结果;
(12)结束。
如上所述的一种基于大数据的产业分析***,企业绩效评估模型的流程如下:
(1)开始;
(2)分别对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分;
综合能力得分a=a1+a2+a3,当注册资本>50000时,a1=100;当注册资本<100时,a1=45;当100≤注册资本≤50000时,a1=注册资本1/8×25;当企业为上市公司时,a2在区间[90,100]内随机取值;当企业为未上市公司时,a2在区间[50,60]内随机取值;当主营业务收入>50000时,a3=100;当主营业务收入<100时,a3=45;当100≤主营业务收入≤50000时,a3=主营业务收入1/8×25;
研发能力得分b=b1+b2+b3+b4,当研发资金>10000时,b1=100;当研发资金<10时,b1=45;当10≤研发资金≤10000时,b1=研发资金1/8×31;当研发人数>1000时,b2=100;当研发人数<5时,b2=50;当5≤研发人数≤1000时,b2=研发人数1/8×42;当专利数量>50时,b3=100;当专利数量<2时,b3=45;当2≤专利数量≤50时,b3=专利数量1/4×38;当软著数量≥5时,b4=100;当软著数量=4时,b4=90;当软著数量=3时,b4=80;当软著数量=2时,b4=70;当软著数量=1时,b4=60;当软著数量=0时,b4=50;
行业影响力得分c=c1+c2,当企业为上市公司时,c1=60+主营业务收入1/8×10;当企业为非上市公司时,c1=40+主营业务收入1/8×10;当大数据业务收入>20000时,c2=100;当大数据业务收入<50时,c2=45;当50≤大数据业务收入≤20000时,c2=大数据业务收入1/8×29;
持续运营能力得分d=d1+d2+d3,d1=市场占有率×0.5+经济效益×0.25+主营业务收入×0.25;当风险投资与利用外资之和>10000时,d2=100;当风险投资与利用外资之和<1时,d2=30;当1≤风险投资与利用外资之和≤10000时,d2=(风险投资+利用外资)1/8×32;当营业利润>10000时,d3=100;当营业利润<1时,d3=30;当1≤营业利润≤10000时,d3=营业利润1/8×32;
数据应用能力得分e=e1+e2+e3,当数据软资产>2000时,e1=100;当数据软资产<10时,e1=45;当10≤数据软资产≤2000时,e1=数据软资产1/8×38;当数据硬资产>2000时,e2=100;当数据硬资产<10时,e2=45;当10≤数据硬资产≤2000时,e2=数据硬资产1/8×38;当数据产品成交额>10000时,e3=100;当数据产品成交额<10时,e3=45;当10≤数据产品成交额≤10000时,e3=数据产品成交额1/8×32;
其中,注册资本、主营业务收入、研发资金、大数据业务收入、经济效益、风险投资、利用外资、营业利润、数据软资产、数据硬资产和数据产品成交额的单位为万元人民币;研发人数的单位为人,专利数量和软著数量的单位为个,市场占有率的单位为%(以当前数据集中同类企业总和计算);
(3)计算加权总分g得到企业绩效,g=w1×a+w2×b+w3×c+w4×d+w5×e,w1=0.3,w2=0.25,w3=0.1,w4=0.15,w5=0.2;
(4)结束。
如上所述的一种基于大数据的产业分析***,数据基础平台模块提供大数据存储、计算、分析、可视化、日常运维服务支撑,数据基础平台包括数据交换平台、大数据平台、信息发布平台、GIS地理信息平台、基础组件平台、报表分析平台以及***管理平台。
有益效果:
本发明通过建设一种基于大数据的产业分析***,把某一产业相关经济数据汇聚到一起,在此基础上进行适时监测调度,及时发现问题、及时预警、及时应对,以保持经济的平稳运行,在此基础上,结合海量历史数据变化,通过调整相关因子变量,对某一产业发展趋势预测,最终为政府科学制定产业发展扶持政策提供量化依据。
附图说明
图1为基于大数据的产业分析***的框架图;
图2为请求响应模式的工作流程图;
图3为消息推送模式的工作流程图;
图4为产业分类模型的结构示意图;
图5为产业分类模型的建立流程图;
图6和图7为产业链模型的工作流程图;
图8为企业绩效评估模型的结构示意图。
具体实施方式
下面结合具体实施方式,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
一种基于大数据的产业分析***,如图1所示,由产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块组成。
产业发展相关数据库模块用于存储某产业发展相关数据资源,包括与某产业发展相关的行业数据、企业数据、区域数据和技术数据;产业发展相关数据库模块通过数据治理,形成高度可用的数据资产,面向数据基础平台模块和数据分析模型模块提供支撑,支持数据查询和业务分析的需要;
产业发展相关数据库模块的技术实现主要依靠以下技术:
(1)能支持实时大数据处理的国产新型数据库,其具有以下功能:
(1.1)大规模并行处理:存储建立在HDFS上、将计算中间结果放在内存中;
(1.2)列式存储2.0:增强型元数据、字典编码数据、数据自动排序;
(1.3)动态数据分配:广播小数据表、大表哈希值动态再分配、Join本地化、管道;
(1.4)内存计算:向量化处理、基于底层虚拟机(LLVM)的动态编译;
(1.5)OLTP/OLAP双分析引擎:兼容OLTP和OLAP数据分析处理需求;
(2)数据接口***与人机接口***,其包括:
(2.1)机器类数据接口与采集处理***,其包括:
(2.1.1)基础设施运行环境数据引擎处理子***,能够适配并可配置MIB信息等;
(2.1.2)SYSLOG日之类数据引擎处理子***;
(2.1.3)大数据产业及相关企业信息收集处理子***;
(2.2)业务类数据接口***,业务综合数据接口应支持多种接口格式与人机交互混合模式,以适应多来源冷、热数据的接入处理等,业务数据接口格式种类扩展支持与更新管理,应对不同来源的大数据相关业务数据能够支持RestAPI/SNMP/SYSLOG/文件等多种格式的接口支持,支持实时、定时、条件触发等更新频率模式,并可配置,相关接口协议规范与标准定制列举如下:
(2.2.1)SYSLOG接口,物联网、机器设备数据标准工业接口规范,包括服务器主机、通用网络设备、专用安全设备的***日志应通过SYSLOG协议发送至安全管控***,安全管控***通过约定的SYSLOG消息格式,解析日志信息,并对日志信息进行规范、分析、关联等处理;
(2.2.2)SNMP接口,物联网设备、服务器主机、通用网络设备、专用安全设备的***日志应实现基本的SNMP协议MIB库,安全管控***通过SNMP协议方式采集设备基本信息、采集设备运行性能协议以及接收设备SNMP Trap事件通知信息;
(2.2.3)REST接口,REST接口协议是WebService(Web服务)的一种实现方式,主要应用于***间的接口实现,移动警务平台中,除了在设备管理层面上使用通用的SNMP、SYSLOG协议以外,软件***间、策略配置下发等场景应使用REST接口协议实现,一般情况下,应采用请求响应模式实现监测信息报送、策略与指令下发等,请求响应模式的工作流程如图2所示,请求与响应通信协议应采用HTTP1.1 over SSL/TLS,请求响应模式应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB,在网络反向不可达的情况下,可采用消息推送模式实现策略指令下发,具体流程如图3所示,通信协议应采用HTTP2.0的WEBSOCKET over SSL/TLS,应使用HTTP作为接口实现协议,接口参数、返回结果均使用JSON对象,数据包大小不超过5MB;
(2.2.4)应用***日志接口,应用***日志接口采用标准的SDK接口,用来发送终端应用/业务域日志数据,为保证采集性能,应用接口支持按集群方式部署,可根据要采集的日志量及并发数的大小,选择集群的节点数;
(2.3)人机接口***服务,其包括:
(2.3.1)前端人机接口***,为产业数万家企业建立主动服务的交互式数据采集人机接口;
(2.3.2)安全平台数据交换前置服务平台,为产业分析平台建立安全数据通讯平台等;
(2.3.3)企业相关数据清点与梳理服务、接口协商与定制服务。
数据分析模型模块用于存储数据分析模型;数据分析模型包括产业分类模型、产业链模型和企业绩效评估模型;
产业分类模型用于根据待分类企业的企业经营范围,确定企业的产业分类;产业分类模型结构相对简单,采用决策树算法,决策树分类很符合人类分类时的思想,决策树分类时会提出很多不同的问题,判断样本的某个特征,然后综合所有的判断结果给出样本的类别,产业分类模型的结构如图4所示,产业分类模型的建立流程(见图5)如下:
(1)开始;
(2)以企业数据集(样本全集)作为根节点创建树;
(3)创建节点;
(4)判断企业数据集(样本全集)是否为空,如果是,则返回上一节点后,结束;反之,则进入下一步;
(5)判断当前节点数据集(样本子集)是否属于同类属性,如果是,则记为叶节点并标记为类C后,结束;反之,则进入下一步;
(6)判断候选属性集是否为空,如果是,则记为S中含样本数量最多的类C后,结束;反之,则进入下一步;
(7)计算集合中每个企业条件属性的信息增益率;
(8)选择候选集中最大的信息增益作为当前节点的分割属性;
(9)根据分割属性的值确定企业数据集(样本子集),建立相应分支;
(10)对企业数据集(样本子集)连续递归运行函数,返回步骤(2);
产业分类模型的工作流程如下:
(1)开始;
(2)输入待分类企业的经营范围数据;
(3)通过决策树算法,对企业进行产业分类;
(4)结束;
产业链模型用于通过加权评分法,根据待分类企业的数据,在“资源”、“技术”、“应用”、“产业支撑”四个类别中的评分,确定企业在产业链中的位置,即在产业链中的类别;企业的产业链划分标准相对模糊,一家企业可能同时存在于产业链中的多个位置,因此,单一的产业链划分方法无法满足实际需求,为了能够准确地对企业进行产业链位置划分,本发明采用加权评分方式,其中,分类算法采用随机森林模型,评分方法采用指数加权平均法,大数据产业链模型研究所使用的数据集维度较多、数据量较大,随机森林算法能够有效地解决这些问题,其优点主要体现在:
(1)在当前的很多数据集上,相对其他算法有很大优势,表现良好;
(2)能够处理很高维度的数据,并且不需要做特征选择;
(3)训练速度快,容易做成并行化方法(训练时树与树之间相互独立);
(4)在训练过程中,能够检测到不同维度数据间的相互影响;
(5)在处理不平衡的数据集时,可以平衡误差;
(6)如果有很大一部分的特征遗失,仍可以维持准确度;
产业链模型的工作流程如下:
(1)开始;
(2)数据集获取:获取企业的工商信息、知识产权、企业运营历史数据作为原始数据集,并构建大数据产业链分类指标,分别为:“资源”、“技术”、“应用”和“产业支撑;
(3)数据标注:将原始数据集依据大数据产业链分类指标来标注企业在产业链中的类别;
(4)数据预处理:对原始数据集中的数据进行数据匹配及异常值去除操作;
(5)数据集划分:将原始数据集中的数据按照3:1的比例进行划分训练集与测试集;
(6)构建随机森林:在训练集上应用传统随机森林算法构建用于预测企业在产业链中位置的随机森林;
(7)随机森林模型训练:利用训练集中的数据训练N棵决策树的随机森林模型,N为大于1的整数,每棵决策树都随机的从训练集中随机抽取企业数据进行训练,采用增益熵来选择合适的属性节点,每棵树从训练集中随机抽取样本和属性特征来生成各自的节点,直到所有决策树把自己抽样出的样本分类完;
(8)模型评估与校正:将测试集输入训练好的随机森林模型进行分类,将分类结果与实际结果进行统计,并计算预测准确率,分类结果与实际结果都为企业在产业链中的类别,当预测准确率小于设定值(设定值可根据实际需求进行设定)时,计算每棵决策树得到的分类结果并计算其AUC值,基于AUC值从目前的随机森林模型中提取出相对高精度的决策树集合,再根据相似性对其进行聚类,划分为不同的类簇,最后从不同类簇中选取精度高的决策树集合来迭代更新现有随机森林模型;当预测准确率大于等于设定值,不对随机森林模型进行更新;
(9)获取待分类企业的数据;
(10)对数据进行数据匹配及异常值去除操作;
(11)将数据输入到训练好的随机森林模型,由其输出分类结果;
(12)结束;
步骤(1)~(8)对应图6,步骤(9)~(12)对应图7;
企业绩效评估模型用于根据与企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力相关的数据(即企业的注册资本、上市情况、业务收入、研发投入等数据)对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分后,计算加权总分得到企业绩效;企业绩效评估模型的结构如图8所示,企业绩效评估模型的流程如下:
(1)开始;
(2)分别对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分;
综合能力得分a=a1+a2+a3,当注册资本>50000时,a1=100;当注册资本<100时,a1=45;当100≤注册资本≤50000时,a1=注册资本1/8×25;当企业为上市公司时,a2在区间[90,100]内随机取值;当企业为未上市公司时,a2在区间[50,60]内随机取值;当主营业务收入>50000时,a3=100;当主营业务收入<100时,a3=45;当100≤主营业务收入≤50000时,a3=主营业务收入1/8×25;
研发能力得分b=b1+b2+b3+b4,当研发资金>10000时,b1=100;当研发资金<10时,b1=45;当10≤研发资金≤10000时,b1=研发资金1/8×31;当研发人数>1000时,b2=100;当研发人数<5时,b2=50;当5≤研发人数≤1000时,b2=研发人数1/8×42;当专利数量>50时,b3=100;当专利数量<2时,b3=45;当2≤专利数量≤50时,b3=专利数量1/4×38;当软著数量≥5时,b4=100;当软著数量=4时,b4=90;当软著数量=3时,b4=80;当软著数量=2时,b4=70;当软著数量=1时,b4=60;当软著数量=0时,b4=50;
行业影响力得分c=c1+c2,当企业为上市公司时,c1=60+主营业务收入1/8×10;当企业为非上市公司时,c1=40+主营业务收入1/8×10;当大数据业务收入>20000时,c2=100;当大数据业务收入<50时,c2=45;当50≤大数据业务收入≤20000时,c2=大数据业务收入1/8×29;
持续运营能力得分d=d1+d2+d3,d1=市场占有率×0.5+经济效益×0.25+主营业务收入×0.25;当风险投资与利用外资之和>10000时,d2=100;当风险投资与利用外资之和<1时,d2=30;当1≤风险投资与利用外资之和≤10000时,d2=(风险投资+利用外资)1/8×32;当营业利润>10000时,d3=100;当营业利润<1时,d3=30;当1≤营业利润≤10000时,d3=营业利润1/8×32;
数据应用能力得分e=e1+e2+e3,当数据软资产>2000时,e1=100;当数据软资产<10时,e1=45;当10≤数据软资产≤2000时,e1=数据软资产1/8×38;当数据硬资产>2000时,e2=100;当数据硬资产<10时,e2=45;当10≤数据硬资产≤2000时,e2=数据硬资产1/8×38;当数据产品成交额>10000时,e3=100;当数据产品成交额<10时,e3=45;当10≤数据产品成交额≤10000时,e3=数据产品成交额1/8×32;
其中,注册资本、主营业务收入、研发资金、大数据业务收入、经济效益、风险投资、利用外资、营业利润、数据软资产、数据硬资产和数据产品成交额的单位为万元人民币;研发人数的单位为人,专利数量和软著数量的单位为个,市场占有率的单位为%(以当前数据集中同类企业总和计算);
(3)计算加权总分g得到企业绩效,g=w1×a+w2×b+w3×c+w4×d+w5×e,w1=0.3,w2=0.25,w3=0.1,w4=0.15,w5=0.2;
(4)结束。
数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后(将分析目标与相关数据匹配以顺利实现调取是已知技术,例如分析目标是针对近五年成立的企业进行分析,则从数据库中调用成立时间年份大于2015年的企业数据;又例如分析目标是针对“核心企业”,则从数据库中调用打有“核心企业”标签的企业数据),从数据分析模型模块中调取相关模型(将分析目标与相关模型匹配以顺利实现调取是已知技术,例如分析目标是“根据产业链进行分类”,则在分析模块中根据模型名称,手动选择“产业链模型”进行调用),将相关数据输入到相关模型中;数据基础平台模块为***建设提供有力的平台支撑,缩短开发周期,降低***建设风险,提升性能和稳定性;进行数据维护,包括数据补全与更新;进行数据查询,可进行向导式搜索和自定义报表,对于查询结果,具备条件筛选、排序、向上汇总、向下钻取、简单运算、条件格式等,支持结果的导出和打印;进行可视化展示,可通过内置多种智能可视化算法,实现海量数据的多维多终端立体呈现;
数据基础平台模块提供大数据存储、计算、分析、可视化、日常运维服务支撑,数据基础平台包括数据交换平台、大数据平台、信息发布平台、GIS地理信息平台、基础组件平台、报表分析平台以及***管理平台;
数据基础平台模块的技术实现依靠一个可视化的大数据管理、分析与展现的平台,功能如下:
(a)基于元数据的数据管理:为用户构建一套规范、统一、通用的大数据资源;
(b)常规多维分析+开放建模:为用户提供多维分析、基于R语言的建模分析;
(c)兼容传统、大数据存储:兼容关系型DB、Hadoop、NoSQL等存储类型;
(d)可视化动态图表分析:为用户提供拖拽式、符合国人操作习惯的图表展示方式。
数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果。
用户端界面模块与数据分析模型模块连接,用于显示分析结果;用户端模块包括产业经济运行、产业管理、生产力布局等重点应用,每个业务应用均包含三部分内容,即现状监测、专题分析和趋势研判;
用户端界面模块的技术实现主要依靠以下技术:
1)HTML
HTML是建立Web界面所需的最核心技术;这是一种用于描述浏览器所显示的文档结构的基于标签的语言;
2)CSS(层叠样式表)
在web应用程序中,用于指定HTML内容在屏幕上的呈现方式;
3)JavaScript
面向对象的JavaScript,同时支持面向对象、命令式和声明式;
4)超链接
web应用程序中的超链接通常包含预先设定的请求参数,这些数据项不需由用户输人,而是由服务器将其插人用户单击的超链接的目标URL中,大数据产业分析***中项目储备库、友情链接等都是以这种方式开发;
5)表单
接收用户输入;
6)文档对象模型DOM
7)Ajax(Asynchronous JavaScript and XML,异步的JavaScript和XML)
AJAX是与服务器交换数据并更新部分网页的艺术,在不重新加载整个页面的情况下;
大数据产业***使用Ajax,一些用户操作将由客户端脚本代码进行处理,并且不需要重新加载整个页面;相反,脚本会“在后台”执行请求,并且通常会收到较小的响应,用于动态更新一部分用户界面;
Ajax使用的核心技术XML Http Request,经过一定程度的标准整合之后,这种技术现在已转化为一个本地JavaScript对象,客户端脚本可以通过该对象提出“后台”请求,而无须窗口级别的导航事件;
8)JSON(JavaScript Object Notation,JavaScript对象表示法)
大数据产业***用JSON来存储和交换文本信息,是轻量级的文本数据交换格式;
Ajax应用程序经常使用JSON,以替换最初用于数据传输的XML格式,JSON比XML更小、更快,更易解析;
通常,如果用户执行某个操作,客户端JavaScript将使用XML Http Request将该操作传送到服务器,服务器则返回一个包含JSON格式的数据的轻量级响应,然后,客户端脚本将处理这些数据,并对用户界面进行相应地更新;
9)同源策略
大数据产业地图***核心:防止不同来源的内容相互干扰,只允许相同来源的内容进行交互;
从一个网站收到的内容可以读取并修改从该站点收到的其他内容,但不得访问从其他站点收到的内容,如果不使用同源策略,那么,当不知情的用户浏览到某个恶意网站时,在该网站上运行的脚本代码将能够访问这名用户同时访问的任何其他网站的数据和功能;
用户端界面模块提供用户结果查看功能,用户可查看产业经济运行、产业管理、生产力布局等提供现状监测、专题分析和趋势研判数据分析结果。

Claims (7)

1.一种基于大数据的产业分析***,其特征是:包括产业发展相关数据库模块、数据分析模型模块、数据基础平台模块和用户端界面模块;
产业发展相关数据库模块用于存储某产业发展相关数据资源;
数据分析模型模块用于存储数据分析模型;
数据基础平台模块同时与产业发展相关数据库模块和数据分析模型模块连接,用于根据分析目标从产业发展相关数据库模块中调取相关数据后,从数据分析模型模块中调取相关模型,将相关数据输入到相关模型中;
数据分析模型模块还用于在相关数据输入到相关模型中后,输出分析结果;
用户端界面模块与数据分析模型模块连接,用于显示分析结果。
2.根据权利要求1所述的一种基于大数据的产业分析***,其特征在于,某产业发展相关数据资源包括与某产业发展相关的行业数据、企业数据、区域数据和技术数据。
3.根据权利要求1所述的一种基于大数据的产业分析***,其特征在于,数据分析模型包括产业分类模型、产业链模型和企业绩效评估模型;
产业分类模型用于根据待分类企业的企业经营范围,确定企业的产业分类;
产业链模型用于通过加权评分法,根据待分类企业的数据,在“资源”、“技术”、“应用”、“产业支撑”四个类别中的评分,确定企业在产业链中的位置,即在产业链中的类别;
企业绩效评估模型用于根据与企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力相关的数据对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分后,计算加权总分得到企业绩效。
4.根据权利要求3所述的一种基于大数据的产业分析***,其特征在于,产业分类模型的建立流程如下:
(1)开始;
(2)以企业数据集作为根节点创建树;
(3)创建节点;
(4)判断企业数据集是否为空,如果是,则返回上一节点后,结束;反之,则进入下一步;
(5)判断当前节点数据集是否属于同类属性,如果是,则记为叶节点并标记为类C后,结束;反之,则进入下一步;
(6)判断候选属性集是否为空,如果是,则记为S中含样本数量最多的类C后,结束;反之,则进入下一步;
(7)计算集合中每个企业条件属性的信息增益率;
(8)选择候选集中最大的信息增益作为当前节点的分割属性;
(9)根据分割属性的值确定企业数据集,建立相应分支;
(10)对企业数据集连续递归运行函数,返回步骤(2);
产业分类模型的工作流程如下:
(1)开始;
(2)输入待分类企业的经营范围数据;
(3)通过决策树算法,对企业进行产业分类;
(4)结束。
5.根据权利要求3所述的一种基于大数据的产业分析***,其特征在于,产业链模型的工作流程如下:
(1)开始;
(2)数据集获取:获取企业的工商信息、知识产权、企业运营历史数据作为原始数据集,并构建大数据产业链分类指标,分别为:“资源”、“技术”、“应用”和“产业支撑;
(3)数据标注:将原始数据集依据大数据产业链分类指标来标注企业在产业链中的类别;
(4)数据预处理:对原始数据集中的数据进行数据匹配及异常值去除操作;
(5)数据集划分:将原始数据集中的数据按照3:1的比例进行划分训练集与测试集;
(6)构建随机森林:在训练集上应用传统随机森林算法构建用于预测企业在产业链中位置的随机森林;
(7)随机森林模型训练:利用训练集中的数据训练N棵决策树的随机森林模型,N为大于1的整数,每棵决策树都随机的从训练集中随机抽取企业数据进行训练,采用增益熵来选择合适的属性节点,每棵树从训练集中随机抽取样本和属性特征来生成各自的节点,直到所有决策树把自己抽样出的样本分类完;
(8)模型评估与校正:将测试集输入训练好的随机森林模型进行分类,将分类结果与实际结果进行统计,并计算预测准确率,分类结果与实际结果都为企业在产业链中的类别,当预测准确率小于设定值时,计算每棵决策树得到的分类结果并计算其AUC值,基于AUC值从目前的随机森林模型中提取出相对高精度的决策树集合,再根据相似性对其进行聚类,划分为不同的类簇,最后从不同类簇中选取精度高的决策树集合来迭代更新现有随机森林模型;当预测准确率大于等于设定值,不对随机森林模型进行更新;
(9)获取待分类企业的数据;
(10)对数据进行数据匹配及异常值去除操作;
(11)将数据输入到训练好的随机森林模型,由其输出分类结果;
(12)结束。
6.根据权利要求3所述的一种基于大数据的产业分析***,其特征在于,企业绩效评估模型的流程如下:
(1)开始;
(2)分别对企业综合能力、研发能力、行业影响力、持续运营能力和数据应用能力进行打分;
综合能力得分a=a1+a2+a3,当注册资本>50000时,a1=100;当注册资本<100时,a1=45;当100≤注册资本≤50000时,a1=注册资本1/8×25;当企业为上市公司时,a2在区间[90,100]内随机取值;当企业为未上市公司时,a2在区间[50,60]内随机取值;当主营业务收入>50000时,a3=100;当主营业务收入<100时,a3=45;当100≤主营业务收入≤50000时,a3=主营业务收入1/8×25;
研发能力得分b=b1+b2+b3+b4,当研发资金>10000时,b1=100;当研发资金<10时,b1=45;当10≤研发资金≤10000时,b1=研发资金1/8×31;当研发人数>1000时,b2=100;当研发人数<5时,b2=50;当5≤研发人数≤1000时,b2=研发人数1/8×42;当专利数量>50时,b3=100;当专利数量<2时,b3=45;当2≤专利数量≤50时,b3=专利数量1/4×38;当软著数量≥5时,b4=100;当软著数量=4时,b4=90;当软著数量=3时,b4=80;当软著数量=2时,b4=70;当软著数量=1时,b4=60;当软著数量=0时,b4=50;
行业影响力得分c=c1+c2,当企业为上市公司时,c1=60+主营业务收入1/8×10;当企业为非上市公司时,c1=40+主营业务收入1/8×10;当大数据业务收入>20000时,c2=100;当大数据业务收入<50时,c2=45;当50≤大数据业务收入≤20000时,c2=大数据业务收入1/8×29;
持续运营能力得分d=d1+d2+d3,d1=市场占有率×0.5+经济效益×0.25+主营业务收入×0.25;当风险投资与利用外资之和>10000时,d2=100;当风险投资与利用外资之和<1时,d2=30;当1≤风险投资与利用外资之和≤10000时,d2=(风险投资+利用外资)1/8×32;当营业利润>10000时,d3=100;当营业利润<1时,d3=30;当1≤营业利润≤10000时,d3=营业利润1/8×32;
数据应用能力得分e=e1+e2+e3,当数据软资产>2000时,e1=100;当数据软资产<10时,e1=45;当10≤数据软资产≤2000时,e1=数据软资产1/8×38;当数据硬资产>2000时,e2=100;当数据硬资产<10时,e2=45;当10≤数据硬资产≤2000时,e2=数据硬资产1/8×38;当数据产品成交额>10000时,e3=100;当数据产品成交额<10时,e3=45;当10≤数据产品成交额≤10000时,e3=数据产品成交额1/8×32;
其中,注册资本、主营业务收入、研发资金、大数据业务收入、经济效益、风险投资、利用外资、营业利润、数据软资产、数据硬资产和数据产品成交额的单位为万元人民币;研发人数的单位为人,专利数量和软著数量的单位为个,市场占有率的单位为%;
(3)计算加权总分g得到企业绩效,g=w1×a+w2×b+w3×c+w4×d+w5×e,w1=0.3,w2=0.25,w3=0.1,w4=0.15,w5=0.2;
(4)结束。
7.根据权利要求1所述的一种基于大数据的产业分析***,其特征在于,数据基础平台包括数据交换平台、大数据平台、信息发布平台、GIS地理信息平台、基础组件平台、报表分析平台以及***管理平台。
CN202010298191.XA 2020-04-16 2020-04-16 一种基于大数据的产业分析*** Active CN111708774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010298191.XA CN111708774B (zh) 2020-04-16 2020-04-16 一种基于大数据的产业分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010298191.XA CN111708774B (zh) 2020-04-16 2020-04-16 一种基于大数据的产业分析***

Publications (2)

Publication Number Publication Date
CN111708774A true CN111708774A (zh) 2020-09-25
CN111708774B CN111708774B (zh) 2023-03-10

Family

ID=72536675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010298191.XA Active CN111708774B (zh) 2020-04-16 2020-04-16 一种基于大数据的产业分析***

Country Status (1)

Country Link
CN (1) CN111708774B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579625A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构数据治理方法及装置
CN112801137A (zh) * 2021-01-04 2021-05-14 中国石油天然气集团有限公司 一种基于大数据的石油管材质量动态评价方法及***
CN113393179A (zh) * 2021-08-18 2021-09-14 江苏中协智能科技有限公司 一种基于时序差分的数据集成***
CN113793223A (zh) * 2021-09-17 2021-12-14 上海企庭实业股份有限公司 全球企业家多层次服务体系人工智能算法数据库模块***
CN116842182A (zh) * 2023-08-31 2023-10-03 北京上奇数字科技有限公司 一种基于深度学习的未来产业创新方向识别方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021750A1 (en) * 2004-07-05 2008-01-24 Hiroaki Masuyama Enterprise Evaluation Device, Enterprise Evaluation Program and Enterprise Evaluation Method
CN104182389A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的大数据分析商业智能服务***
CN108846567A (zh) * 2018-06-04 2018-11-20 广东京信软件科技有限公司 基于大数据多因素关联的企业上下规监管分析方法及***
CN109255030A (zh) * 2018-09-21 2019-01-22 青岛黄海学院 一种基于大数据的招商决策平台
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析***
US20190087383A1 (en) * 2017-09-19 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Intelligent big data system, and method and apparatus for providing intelligent big data service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021750A1 (en) * 2004-07-05 2008-01-24 Hiroaki Masuyama Enterprise Evaluation Device, Enterprise Evaluation Program and Enterprise Evaluation Method
CN104182389A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义的大数据分析商业智能服务***
US20190087383A1 (en) * 2017-09-19 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Intelligent big data system, and method and apparatus for providing intelligent big data service
CN108846567A (zh) * 2018-06-04 2018-11-20 广东京信软件科技有限公司 基于大数据多因素关联的企业上下规监管分析方法及***
CN109272155A (zh) * 2018-09-11 2019-01-25 郑州向心力通信技术股份有限公司 一种基于大数据的企业行为分析***
CN109255030A (zh) * 2018-09-21 2019-01-22 青岛黄海学院 一种基于大数据的招商决策平台

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
修国林等: "基于敏捷型BI的矿业集团生产信息分析模型", 《中国矿业》 *
饶小康: "水利工程灌浆大数据平台设计与实现", 《长江科学院院报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579625A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构数据治理方法及装置
CN112801137A (zh) * 2021-01-04 2021-05-14 中国石油天然气集团有限公司 一种基于大数据的石油管材质量动态评价方法及***
CN113393179A (zh) * 2021-08-18 2021-09-14 江苏中协智能科技有限公司 一种基于时序差分的数据集成***
CN113393179B (zh) * 2021-08-18 2022-06-28 江苏中协智能科技有限公司 一种基于时序差分的数据集成***
CN113793223A (zh) * 2021-09-17 2021-12-14 上海企庭实业股份有限公司 全球企业家多层次服务体系人工智能算法数据库模块***
CN113793223B (zh) * 2021-09-17 2023-11-14 上海企庭实业股份有限公司 全球企业家多层次服务体系人工智能算法数据库模块***
CN116842182A (zh) * 2023-08-31 2023-10-03 北京上奇数字科技有限公司 一种基于深度学习的未来产业创新方向识别方法及***

Also Published As

Publication number Publication date
CN111708774B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN111708774B (zh) 一种基于大数据的产业分析***
CN110825882B (zh) 一种基于知识图谱的信息***管理方法
CN109033387A (zh) 一种融合多源数据的物联网搜索***、方法及存储介质
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN109145168A (zh) 一种专家服务机器人云平台
CN111192176A (zh) 一种支持教育信息化评估的在线数据采集方法及装置
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
Zhang Application of data mining technology in digital library.
CN116894152A (zh) 一种多源数据调研与实时分析方法
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与***
Howard et al. The impact of information quality on information research
CN116226494B (zh) 一种用于信息搜索的爬虫***及方法
CN113836395B (zh) 一种基于异构信息网络的服务开发者按需推荐方法及***
CN115269862A (zh) 一种基于知识图谱的电力问答与可视化***
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN115098029A (zh) 数据处理方法及装置
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
KR20220095654A (ko) 소셜 데이터 수집 분석 시스템
KR20220074571A (ko) 마케팅 지식 그래프의 채널 기반 정보 수집을 위한 딥러닝 sns 콘텐츠 임베딩 방법 및 그 장치
CN110716994A (zh) 一种支持异构地理数据资源检索的检索方法及装置
CN113868322B (zh) 一种语义结构解析方法、装置、设备及虚拟化***、介质
CN109522466A (zh) 一种分布式爬虫***
CN117972113B (zh) 基于属性知识图谱的专利授权预测评估的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant