CN112784077A - 一种分类提取数据资产价值方法及装置 - Google Patents

一种分类提取数据资产价值方法及装置 Download PDF

Info

Publication number
CN112784077A
CN112784077A CN202110283997.6A CN202110283997A CN112784077A CN 112784077 A CN112784077 A CN 112784077A CN 202110283997 A CN202110283997 A CN 202110283997A CN 112784077 A CN112784077 A CN 112784077A
Authority
CN
China
Prior art keywords
data
value
library
value library
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110283997.6A
Other languages
English (en)
Inventor
王茜
白峰
刘守仓
杜威
赵晓华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Big Data Group Co ltd
Original Assignee
Shaanxi Big Data Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Big Data Group Co ltd filed Critical Shaanxi Big Data Group Co ltd
Priority to CN202110283997.6A priority Critical patent/CN112784077A/zh
Publication of CN112784077A publication Critical patent/CN112784077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分类提取数据资产价值方法及装置,该方法包括:从不同数据源获取具有不同的特征和不同的价值的待分类数据;通过数据转换器将所述待分类数据中的图片、音频、视频数据转化为文字数据;通过数据分类器将所述文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库通过数据提取器从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据。采用本发明实施例,解决了目前数据资产分类过程中数据分析片面不准确,数据资产价值较低,反应数据结果不理想的弊端,达到更加全面和精准的对数据资产进行分类和提取,使得最终的价值数据更加具有全面性和准确性的目标。

Description

一种分类提取数据资产价值方法及装置
技术领域
本发明涉及数据分析技术领域,尤其是涉及一种分类提取数据资产价值方法及装置。
背景技术
随着大数据时代的来临,政府和企业打造了各种各样的大数据中心,帮助政府、企业和个人创造更多的便民服务和企业价值。在大数据中心的建设过程中,首先需要完成的就是数据的汇聚工作,汇聚来自各个部门、外部供应商、上下游厂商、互联网数据,这些数据形形色色、各种各样,其中有非常有价值的核心数据、有中等价值数据、也有非常大量的价值含量低无法直接使用的数据,这些数据的价值分类提取是一个非常庞大、耗时耗力的工程。传统数据处理过程中,通常这些数据提取过程会把非关系型的图片数据、语音数据和视频数据剔除,只保留关系型数据,之后这些数据会按照逻辑回归、判别分析等方法为主要的处理模型,对数据形成一个大概的不是特别准确的提取,但是这种处理方式会导致数据的准确率大大降低,失去了大数据的核心价值。
发明内容
本发明的目的在于提供一种分类提取数据资产价值方法及装置,旨在解决现阶段数据资产分类准确率低的问题。
本发明提供一种分类提取数据资产价值方法,包括:
S101从不同数据源获取具有不同的特征和不同的价值的待分类数据;
S102通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
S103通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
S104通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据。
本发明还提供了一种分类提取数据资产价值装置,包括:
获取数据模块201:从不同数据源获取具有不同的特征和不同的价值的待分类数据;
数据转换模块202:通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
数据分类模块203:通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
数据提取模块204:通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据。
本发明实施例还提供一种分类提取数据资产价值设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述分类提取数据资产价值方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现上述分类提取数据资产价值方法的步骤。
采用本发明实施例,解决了目前数据资产分类过程中数据分析片面不准确,数据资产价值较低,反应数据结果不理想的弊端,达到更加全面和精准的对数据资产进行分类和提取,使得最终的价值数据更加具有全面性和准确性的目标。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的分类提取数据资产价值方法的流程图;
图2是本发明实施例的分类提取数据资产价值方法的细节流程图;
图3是本发明实施例的分类提取数据资产价值装置示意图;
图4是本发明实施例的分类提取数据资产价值设备示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种分类提取数据资产价值方法,图1是本发明实施例的一种分类提取数据资产价值方法的流程图,图2是本发明实施例的分类提取数据资产价值方法的细节流程图,如图1和图2所示,根据本发明实施例的一种分类提取数据资产价值方法具体包括:
S101,从不同数据源获取具有不同的特征和不同的价值的待分类数据。
S102,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
在本发明实例中,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据具体包括:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将待分类数据中的图片、音频、视频数据转化为文字数据,相比于传统方法的单一结构化处理方式,这种方式扩大了数据源的范围,解决了非结构化数据剔除在分类环节外的情况。
S103,通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
在本发明实例中,通过数据分类器将文字数据进行价值分类具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将文字数据进行价值分类。
其中规则库和价值系数库是按照国家规定、行业规定和行业默认俗成的规则制定,跟传统意义的逻辑回归、判别分析方法使用的规则库类似,不同于传统意义的是,这套分类方法增加了语义和语境分析,这个分类方法结合了人工智能中对于文字语义、语境、情感、表达内容的深层次挖掘,将非结构化的不能单纯机器字符判断的内容涵盖在了数据价值分类过程中,最终按照不同的价值系数形成了高、中、低三种不同价值系数的数据库,这种方式打破了传统意义上的简单数据分类过程,极大的丰富了数据分类范围和内容,提升了数据的涵盖面和准确性。
S104,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
在本发明实例中,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据具体包括:通过数据提取器,使用预先设置的不同提取规则从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
预先设置的不同提取规则具体包括:数学算法和搭建数据波动模型。
在本发明实例中,第一类信息直接按照平均数进行数据整合提取,第二类按照机器学习如决策树、BP神经网络、随机森林等算法进行提取,第三类搭建数据波动模型,用于影响前两类数据,最终形成最接近真实的商品价格,用于指导实际的业务开展。
在本发明实例中,对某地区某一类商品价格的影响影子的数据资产提取,方法首先会根据当前国家出台的指导价格和地区政府的实际颁发的文件制定基础的影响因子,之后方法会根据当地居民对此类商品的需求、当地居民对不同价格的接受度和当地的经济繁荣度等设立不同的价值系数库,并在方法中数值化这些价格系数,通过建立商品价格分析模型用于最终指导分类提取的价值依据,将不同的数据信息按照不同的价值系数存储在3类不同的价值库中。
采用本发明实施例,解决了目前数据资产分类过程中数据分析片面不准确,数据资产价值较低,反应数据结果不理想的弊端,达到更加全面和精准的对数据资产进行分类和提取,使得最终的价值数据更加具有全面性和准确性的目标。
装置实施例
根据本发明实施例,提供了一种分类提取数据资产价值装置,图3是本发明实施例的一种分类提取数据资产价值装置的示意图,如图3所示,根据本发明实施例的一种分类提取数据资产价值装置具体包括:
获取数据模块301,从不同数据源获取具有不同的特征和不同的价值的待分类数据。
数据转换模块302,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
在本发明实施例中,数据转换模块302具体包括:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将待分类数据中的图片、音频、视频数据转化为文字数据。
数据分类模块303,通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
在本发明实施例中,数据分类模块303具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将文字数据进行价值分类。
数据提取模块304,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
在本发明实施例中,数据提取模块304具体包括:通过数据提取器,使用预先设置的不同提取规则从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
预先设置的不同提取规则包括:数学算法和搭建数据波动模型。
本发明实施例是与上述方法实施例对应的装置实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
设备实施例一
本发明实施例提供一种分类提取数据资产价值设备,如图3所示,包括:存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序,计算机程序被处理器402执行时实现如下方法步骤:
S101,从不同数据源获取具有不同的特征和不同的价值的待分类数据。
S102,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
在本发明实例中,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据具体包括:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将待分类数据中的图片、音频、视频数据转化为文字数据。
S103,通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
在本发明实例中,通过数据分类器将文字数据进行价值分类具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将文字数据进行价值分类。
S104,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
在本发明实例中,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据具体包括:通过数据提取器,使用预先设置的不同提取规则从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
预先设置的不同提取规则具体包括:数学算法和搭建数据波动模型。
设备实施例二
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器402执行时实现如下方法步骤:
S101,从不同数据源获取具有不同的特征和不同的价值的待分类数据。
S102,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据;
在本发明实例中,通过数据转换器将待分类数据中的图片、音频、视频数据转化为文字数据具体包括:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将待分类数据中的图片、音频、视频数据转化为文字数据。
S103,通过数据分类器将文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
在本发明实例中,通过数据分类器将文字数据进行价值分类具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将文字数据进行价值分类。
S104,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
在本发明实例中,通过数据提取器从核心价值库、中等价值库和低等价值库中分别提取出价值数据具体包括:通过数据提取器,使用预先设置的不同提取规则从核心价值库、中等价值库和低等价值库中分别提取出价值数据;
预先设置的不同提取规则具体包括:数学算法和搭建数据波动模型。
本实施例计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种分类提取数据资产价值方法,其特征在于,包括:
S1从不同数据源获取具有不同的特征和不同的价值的待分类数据;
S2通过数据转换器将所述待分类数据中的图片、音频、视频数据转化为文字数据;
S3通过数据分类器将所述文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
S4通过数据提取器从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据。
2.根据权利要求1所述的方法,其特征在于,通过数据转换器将所述待分类数据中的图片、音频、视频数据转化为文字数据具体包括:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将所述待分类数据中的图片、音频、视频数据转化为文字数据。
3.根据权利要求1所述的方法,其特征在于,通过数据分类器将所述文字数据进行价值分类具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将所述文字数据进行价值分类。
4.根据权利要求1所述的方法,其特征在于,通过数据提取器从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据具体包括:通过数据提取器,使用预先设置的不同提取规则从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据。
5.根据权利要求4所述的方法,其特征在于,所述预先设置的不同提取规则具体包括:数学算法和搭建数据波动模型。
6.一种分类提取数据资产价值装置,其特征在于,包括:
获取数据模块,用于从不同数据源获取具有不同的特征和不同的价值的待分类数据;
数据转换模块,用于通过数据转换器将所述待分类数据中的图片、音频、视频数据转化为文字数据;
数据分类模块,用于通过数据分类器将所述文字数据进行价值分类,得到核心价值库、中等价值库和低等价值库;
数据提取模块,用于通过数据提取器从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据。
7.根据权利要求6所述的装置,其特征在于,所述数据转换模块具体用于:通过数据转换器采用图片识别技术、语音识别技术和视频信息提取技术将所述待分类数据中的图片、音频、视频数据转化为文字数据;所述数据分类模块具体包括:通过数据分类器按照语义、语境、规则库、价值系数库的分类规则将所述文字数据进行价值分类。
8.根据权利要求6所述的装置,其特征在于,所述数据提取模块具体用于:通过数据提取器,使用预先设置的不同提取规则从所述核心价值库、中等价值库和低等价值库中分别提取出价值数据;所述预先设置的不同提取规则包括:数学算法和搭建数据波动模型。
9.一种分类提取数据资产价值设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的分类提取数据资产价值方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至5中任一项所述的分类提取数据资产价值方法的步骤。
CN202110283997.6A 2021-03-17 2021-03-17 一种分类提取数据资产价值方法及装置 Pending CN112784077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110283997.6A CN112784077A (zh) 2021-03-17 2021-03-17 一种分类提取数据资产价值方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110283997.6A CN112784077A (zh) 2021-03-17 2021-03-17 一种分类提取数据资产价值方法及装置

Publications (1)

Publication Number Publication Date
CN112784077A true CN112784077A (zh) 2021-05-11

Family

ID=75762729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110283997.6A Pending CN112784077A (zh) 2021-03-17 2021-03-17 一种分类提取数据资产价值方法及装置

Country Status (1)

Country Link
CN (1) CN112784077A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657181A (zh) * 2018-12-13 2019-04-19 平安科技(深圳)有限公司 互联网信息链式存储方法、装置、计算机设备及存储介质
CN110991441A (zh) * 2019-12-13 2020-04-10 王文斌 基于图像识别的资产评估方法、装置以及计算机存储介质
CN111475706A (zh) * 2020-03-30 2020-07-31 中国科学院自动化研究所南京人工智能芯片创新研究院 一种全天候自动检测重要消息的ai分析预警方法
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657181A (zh) * 2018-12-13 2019-04-19 平安科技(深圳)有限公司 互联网信息链式存储方法、装置、计算机设备及存储介质
CN110991441A (zh) * 2019-12-13 2020-04-10 王文斌 基于图像识别的资产评估方法、装置以及计算机存储介质
CN111475706A (zh) * 2020-03-30 2020-07-31 中国科学院自动化研究所南京人工智能芯片创新研究院 一种全天候自动检测重要消息的ai分析预警方法
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
WO2021047186A1 (zh) 咨询对话处理的方法、装置、设备及存储介质
CN109685056B (zh) 获取文档信息的方法及装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
WO2021051598A1 (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
CN107145485B (zh) 用于压缩主题模型的方法和装置
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN110209772B (zh) 一种文本处理方法、装置、设备及可读存储介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
US11379435B2 (en) System and method for automated document generation
CN116226747A (zh) 数据分类模型的训练方法、数据分类方法和电子设备
US20220408155A1 (en) System and method for providing media content
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN112784077A (zh) 一种分类提取数据资产价值方法及装置
CN115690816A (zh) 一种文本要素提取方法、装置、设备和介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN114187448A (zh) 文档图像识别方法和装置、电子设备、计算机可读介质
CN114120341A (zh) 简历文档识别模型训练方法、简历文档识别方法及装置
CN115204128A (zh) 一种配置文件生成方法、装置和计算机可读存储介质
Sethi et al. An automated system for identification of tweets requiring customer service concern
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN115471893B (zh) 训练人脸识别模型、人脸识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination