CN109189828A - 一种基于复杂网络的业务部门间数据价值评估的方法 - Google Patents
一种基于复杂网络的业务部门间数据价值评估的方法 Download PDFInfo
- Publication number
- CN109189828A CN109189828A CN201810934690.6A CN201810934690A CN109189828A CN 109189828 A CN109189828 A CN 109189828A CN 201810934690 A CN201810934690 A CN 201810934690A CN 109189828 A CN109189828 A CN 109189828A
- Authority
- CN
- China
- Prior art keywords
- keyword
- department
- business
- data
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及大数据技术领域,尤其是一种基于复杂网络的业务数据价值评估的方法。本发明通过获取分析业务部门间的业务数据,对各关键字进行统计分析,得出各业务部门数据的关键字的权重;在统计出关键字权重的基础上,基于各业务部门的关系,构建基于关键字的复杂网络,从而通过统计业务部门间的各关键字的复杂网络的度,再基于关键字的权重,计算出业务部门间的数据价值评估标准。本方法通过对业务数据的价值评估,为业务部门的数据价值提供了一种价值评估的方法,从而可使业务部门了解部门内的数据对于其他业务部门的价值,从而可促使各业务单位愿意提供数据,体现数据的价值,提高数据的流动,促进部门数据的交流。
Description
技术领域
本发明涉及大数据技术领域,尤其是一种基于复杂网络的业务数据价值评估的方法。
背景技术
随着信息***的大发展,各类政府部门、大企业等都拥有了自己的信息***。经过几年甚至十几年的业务积累,各主体都积累了大量的业务数据。另外,随着最近几年大数据的兴起,有很多的企业需要对相关的业务数据进行分析,从而获取数据中的价值。这就形成了有需要、有供给的一种市场情况。但按现在的情况,要形成一个高可用的数据共享交互的情况,需解决以下问题:
1.为什么我要向你提供数据?这是一个最根本的问题,拥有业务数据的部门或企业,在外来的请求获取数据时,第一反应是我的数据,为什么要给你,即使是数据无需保密的,也不会轻易提供给外面的人,这就是涉及到一个如何提高业务部门共享数据的积极性的问题;
2.从需要业务数据的部门来讲,假如业务部门愿意提供数据,但是提供的数据,不是我想要的,我向对方请求后,获取的数据还不一定是我的想的,欠了人情不说还没讨到好,所以这就需要一个有效的获取方法;
3.共享数据与获取数据,这个过程最好是在不影响各业务数据部门间的原来数据源的基础上实现,最好实现无成本的数据共享、获取的对接,从而减少业务部门共享数据的成本。
以上的问题,基于一个关键的问题,两个部门间的数据共享,如何进行业务数据的价值评估。相对来说,两个部门间的业务关联大,部门间的数据共享就大;关联的业务小,但是有时会相互间使用到数据,则相互间的共享数据价值就大。由于为了更好地促进业务数据的发展,需要有一个高效可行的业务数据共享的价值评估方法,在共享业务数据前,解决共享数据的价值评估,从而提高业务数据部门间的数据共享积极性。
发明内容
本发明解决的技术问题在于提供一种基于复杂网络的业务数据价值评估的方法;为各业务部门间数据共享利用时,提供一种共享数据的价值评估方法。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:收集业务部门的业务数据,包括结构化数据及非结构化数据,包括文本数据;
步骤2:构建字典树,把业务数据作为输入,分析获取各业务部门的关键字及出现的次数;
步骤3:整理各业务部门通过字典树分析得出的关键字,对于通用的、无代表性的关键字进行删除,包括“的”、数字;
步骤4:构建复杂网络的各个节点,节点的信息包括:关键字、业务部门、以及关键字次数作为权重;
步骤5:把各业务部门所形成的所有节点,以节点为个体,按关键字作为关联,从而形成复杂网络,各个连接的边,就是各业务部门间的关联度;
步骤6:分析形成的复杂网络,统计各部门间的关键字节点的边的数量,结合各关键字的权重,计算出各部门间的两两数据关联值,形成业务部门之间数据价值量化的评估标准。
所述的方法还包括:
步骤7:在进行数据共享时,业务数据提供部门通过获取要共享的数据,进行关键字获取后,结合业务数据需要的部门,在价值量化评估标准间进行比对,从而得出业务数据共享的量化价值。
所述的方法还包括:
步骤8:通过以上形成的业务数据价值评估标准,在每隔一段时间需重新计算,形成最新的标准内容,以适应各业务部门不断发展的业务数据内容。
所述的字典树即TrieTree算法,实现字符串的出现频率统计,分别将各业务部门中获取的业务数据进行输入计算,获取各业务部门的关键字的出现频率。
所述的步骤3整理业务部门的关键字,主要获取高频出现的关键字;对于单字的关键词,则过滤获取,包括“的”、“得”、“地”等结构助词;获取关键字的频率,可与业务部门进行沟通后获取。
所述的步骤4中,关键字用于各节点的关联的判断;业务部门用于标明关键字的归属;关键字次数用于计算各关键字间的关联重要性。
所述的步骤5,如果需要形成的网络数据量大、节点多,可通过基于分布式的计算算法进行实现。
所述的步骤6对形成的关键字的复杂网络的计算,分别记录关键字节点两两业务部门的关联关系及各关键字的权重,取两两关键字的权重的平均作为两个关键字的关联值,并把部门间的关系、关键字、关联值进行保存,形成部门间数据共享价值量化的评估标准;
在通过计算各部门间的关键字的关联度的时候,业务部门间可能存在间接关联的情况,此情况需对业务部门进行关联值按半折计算。
所述的步骤7从获取的共享数据中按字典树提取出此共享数据的关键字,并结合获取数据的部门,通过形成的评估标准,计算出共享数据的评估价值。
本发明的有益效果是:
本发明方法通过获取分析种类业务部门间的业务数据,对各关键字进行统计分析,得出各业务部门的数据的关键字的权重;在统计出关键字权重的基础上,基于各业务部门的关系,构建基于关键字的复杂网络,从而通过统计业务部门间的各关键字的复杂网络的度,再基于关键字的权重,计算出业务部门间的数据价值评估标准。通过对业务数据的价值评估,为业务部门的数据价值提供了一种价值评估的方法,从而可使业务部门了解部门内的数据对于其他业务部门的价值,从而可促使各业务单位愿意提供数据,体现数据的价值,提高数据的流动,促进部门数据的交流。
附图说明
下面结合附图对本发明进一步说明:
附图1是本发明业务部门间数据共享价值评估标准生成流程图;
附图2是本发明业务数据获取价值评估流程图。
具体实施方式
如图1、2所示,本发明包括如下步骤:
步骤1:收集业务部门的业务数据,包括结构化数据及非结构化数据,如文本数据等;
步骤2:通过Java构建字典树(TrieTree算法),把业务数据按文本数据进入输入,分析获取各业务部门的关键字及出现的次数;
步骤3:整理各业务部门通过字典树分析得出的关键字,删除无用的共性关键词数据;
步骤4:搭建复杂网络算法,按算法的要求建立各关键词节点,节点的信息包括:关键字、业务部门、以及关键字次数作为权重;
步骤5:把各业务部门所形成的所有节点,以节点为个体,按关键字作为关联,从而形成复杂网络,各个连接的边,就是各业务部门间的关联度;
步骤6:统计各部门间的关键字节点的边的数量,获取各关键字的权重,计算各部门间的两两数据关联值,形成业务部门之间数据价值量化的评估标准;
步骤7:在进行数据共享时,业务数据提供部门通过获取要共享的数据,进行关键字获取后,结合业务数据需要的部门,在价值量化评估标准间进行比对,计算出业务数据共享的量化价值;
步骤8:每隔一段时间按以上1至6的步骤重新计算,形成最新的标准内容,以适应各业务部门不断发展的业务数据内容。
Claims (11)
1.一种基于复杂网络的业务部门间数据价值评估的方法,其特征在于:所述的方法包括如下步骤:
步骤1:收集业务部门的业务数据,包括结构化数据及非结构化数据,包括文本数据;
步骤2:构建字典树,把业务数据作为输入,分析获取各业务部门的关键字及出现的次数;
步骤3:整理各业务部门通过字典树分析得出的关键字,对于通用的、无代表性的关键字进行删除,包括“的”、数字;
步骤4:构建复杂网络的各个节点,节点的信息包括:关键字、业务部门、以及关键字次数作为权重;
步骤5:把各业务部门所形成的所有节点,以节点为个体,按关键字作为关联,从而形成复杂网络,各个连接的边,就是各业务部门间的关联度;
步骤6:分析形成的复杂网络,统计各部门间的关键字节点的边的数量,结合各关键字的权重,计算出各部门间的两两数据关联值,形成业务部门之间数据价值量化的评估标准。
2.根据权利要求1所述的方法,其特征在于:所述的方法还包括:
步骤7:在进行数据共享时,业务数据提供部门通过获取要共享的数据,进行关键字获取后,结合业务数据需要的部门,在价值量化评估标准间进行比对,从而得出业务数据共享的量化价值。
3.根据权利要求2所述的方法,其特征在于:所述的方法还包括:
步骤8:通过以上形成的业务数据价值评估标准,在每隔一段时间需重新计算,形成最新的标准内容,以适应各业务部门不断发展的业务数据内容。
4.根据权利要求3所述的方法,其特征在于:所述的字典树即TrieTree算法,实现字符串的出现频率统计,分别将各业务部门中获取的业务数据进行输入计算,获取各业务部门的关键字的出现频率。
5.根据权利要求3所述的方法,其特征在于:所述的步骤3整理业务部门的关键字,主要获取高频出现的关键字;对于单字的关键词,则过滤获取,包括“的”、“得”、“地”等结构助词;获取关键字的频率,可与业务部门进行沟通后获取。
6.根据权利要求4所述的方法,其特征在于:所述的步骤3整理业务部门的关键字,主要获取高频出现的关键字;对于单字的关键词,则过滤获取,包括“的”、“得”、“地”等结构助词;获取关键字的频率,可与业务部门进行沟通后获取。
7.根据权利要求3至6任一项所述的方法,其特征在于:所述的步骤4中,关键字用于各节点的关联的判断;业务部门用于标明关键字的归属;关键字次数用于计算各关键字间的关联重要性。
8.根据权利要求3至6任一项所述的方法,其特征在于:所述的步骤5,如果需要形成的网络数据量大、节点多,可通过基于分布式的计算算法进行实现。
9.根据权利要求7所述的方法,其特征在于:所述的步骤5,如果需要形成的网络数据量大、节点多,可通过基于分布式的计算算法进行实现。
10.根据权利要求3至6任一项所述的方法,其特征在于:所述的步骤6对形成的关键字的复杂网络的计算,分别记录关键字节点两两业务部门的关联关系及各关键字的权重,取两两关键字的权重的平均作为两个关键字的关联值,并把部门间的关系、关键字、关联值进行保存,形成部门间数据共享价值量化的评估标准;
在通过计算各部门间的关键字的关联度的时候,业务部门间可能存在间接关联的情况,此情况需对业务部门进行关联值按半折计算。
11.根据权利要求3至6任一项所述的方法,其特征在于:所述的步骤7从获取的共享数据中按字典树提取出此共享数据的关键字,并结合获取数据的部门,通过形成的评估标准,计算出共享数据的评估价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934690.6A CN109189828A (zh) | 2018-08-16 | 2018-08-16 | 一种基于复杂网络的业务部门间数据价值评估的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810934690.6A CN109189828A (zh) | 2018-08-16 | 2018-08-16 | 一种基于复杂网络的业务部门间数据价值评估的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109189828A true CN109189828A (zh) | 2019-01-11 |
Family
ID=64918321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810934690.6A Withdrawn CN109189828A (zh) | 2018-08-16 | 2018-08-16 | 一种基于复杂网络的业务部门间数据价值评估的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189828A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN113191879A (zh) * | 2021-05-21 | 2021-07-30 | 中国工商银行股份有限公司 | 基于复杂网络的数据报送方法、装置、***及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278325A1 (en) * | 2004-06-14 | 2005-12-15 | Rada Mihalcea | Graph-based ranking algorithms for text processing |
CN101482865A (zh) * | 2008-01-07 | 2009-07-15 | 日电(中国)有限公司 | 基于总体综合关系图的实体分类设备和方法 |
CN103052951A (zh) * | 2010-08-06 | 2013-04-17 | 国际商业机器公司 | 字符串生成方法、程序和*** |
CN105183767A (zh) * | 2015-07-31 | 2015-12-23 | 山东大学 | 一种基于企业网络的企业业务相似度计算方法与*** |
CN107038261A (zh) * | 2017-05-28 | 2017-08-11 | 海南大学 | 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法 |
CN107515886A (zh) * | 2016-06-17 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种数据表的识别方法、装置和*** |
CN108038627A (zh) * | 2017-12-27 | 2018-05-15 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
-
2018
- 2018-08-16 CN CN201810934690.6A patent/CN109189828A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050278325A1 (en) * | 2004-06-14 | 2005-12-15 | Rada Mihalcea | Graph-based ranking algorithms for text processing |
CN101482865A (zh) * | 2008-01-07 | 2009-07-15 | 日电(中国)有限公司 | 基于总体综合关系图的实体分类设备和方法 |
CN103052951A (zh) * | 2010-08-06 | 2013-04-17 | 国际商业机器公司 | 字符串生成方法、程序和*** |
CN105183767A (zh) * | 2015-07-31 | 2015-12-23 | 山东大学 | 一种基于企业网络的企业业务相似度计算方法与*** |
CN107515886A (zh) * | 2016-06-17 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种数据表的识别方法、装置和*** |
CN107038261A (zh) * | 2017-05-28 | 2017-08-11 | 海南大学 | 一种基于数据图谱、信息图谱和知识图谱的处理架构资源可动态抽象的语义建模方法 |
CN108038627A (zh) * | 2017-12-27 | 2018-05-15 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
Non-Patent Citations (1)
Title |
---|
肖斌: "网络热点话题实时发现技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263073A (zh) * | 2019-06-20 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN110263073B (zh) * | 2019-06-20 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 一种数据价值评估方法及相关装置 |
CN113191879A (zh) * | 2021-05-21 | 2021-07-30 | 中国工商银行股份有限公司 | 基于复杂网络的数据报送方法、装置、***及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103100B (zh) | 一种容错的基于图谱架构的智能语义搜索方法 | |
CN104317789B (zh) | 构建乘客社交网络的方法 | |
WO2015085961A1 (zh) | 构建用户画像的方法及装置 | |
CN111324602A (zh) | 一种实现面向金融大数据分析可视化方法 | |
CN107665444A (zh) | 一种基于用户在线行为的网络广告即时效应评价方法及*** | |
CN106202536A (zh) | 基于xbrl的全球数据标准化平台***及其构建方法 | |
CN104268271A (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN106484709A (zh) | 一种日志数据的审计方法和审计装置 | |
CN110533212A (zh) | 基于大数据的城市内涝舆情监测预警方法 | |
CN109754219A (zh) | 一种基于城市管理的大数据管理及分析平台*** | |
CN103793489A (zh) | 一种在线社交网络中社群话题的发现方法 | |
CN102346901A (zh) | 一种互联网药品交易主体信用评估***及其方法 | |
CN106294334A (zh) | 一种微博舆情指标体系的计算方法及装置 | |
CN104199938B (zh) | 基于rss的农用土地信息发送方法和*** | |
CN104378370A (zh) | 一种云计算中隐私数据的安全使用方法 | |
CN109189828A (zh) | 一种基于复杂网络的业务部门间数据价值评估的方法 | |
Wu et al. | [Retracted] Research on Evaluation Model of Hospital Informatization Level Based on Decision Tree Algorithm | |
CN102737125B (zh) | 基于Web时态对象模型的过时网页信息自动发现方法 | |
CN110349678A (zh) | 一种基于高效用正负序列规则挖掘的中药销售***及其工作方法 | |
CN107832312A (zh) | 一种基于深度语义辨析的文本推荐方法 | |
Peralta | Data freshness and data accuracy: A state of the art | |
CN105589916B (zh) | 显式和隐式兴趣知识的提取方法 | |
CN107480270A (zh) | 一种基于用户反馈数据流的实时个性化推荐方法及*** | |
Zhang et al. | Application of data mining technology based on data center | |
KR101693727B1 (ko) | 소셜 네트워크를 활용한 연구개발 관점의 사회적 이슈 재구성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190111 |