CN117453805B - 一种不确定性数据的可视化分析方法 - Google Patents

一种不确定性数据的可视化分析方法 Download PDF

Info

Publication number
CN117453805B
CN117453805B CN202311774201.2A CN202311774201A CN117453805B CN 117453805 B CN117453805 B CN 117453805B CN 202311774201 A CN202311774201 A CN 202311774201A CN 117453805 B CN117453805 B CN 117453805B
Authority
CN
China
Prior art keywords
data
analysis
target
uncertainty
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311774201.2A
Other languages
English (en)
Other versions
CN117453805A (zh
Inventor
卢智嘉
韩明
杨蓓
王现彬
杨丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shijiazhuang University
Original Assignee
Shijiazhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shijiazhuang University filed Critical Shijiazhuang University
Priority to CN202311774201.2A priority Critical patent/CN117453805B/zh
Publication of CN117453805A publication Critical patent/CN117453805A/zh
Application granted granted Critical
Publication of CN117453805B publication Critical patent/CN117453805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种不确定性数据的可视化分析方法,属于可视化分析技术领域,其方法包括:获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定;确定目标数据的历史应用业务以及历史处理手段;根据所有判定结果以及确定结果,对目标数据进行定性分析;若定性分析结果为不确定性数据,则获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式;基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示。解决了往往需要按照规定方式对不同需求下的数据进行相同处理的的问题。

Description

一种不确定性数据的可视化分析方法
技术领域
本发明涉及可视化分析技术领域,特别涉及一种不确定性数据的可视化分析方法。
背景技术
目前,随着大数据时代的到来,不确定性数据在实际应用中非常常见,例如金融市场、气象预测、医疗诊断等领域,导致大量的不确定数据被收集并存储,例如随机变量、缺失值,如何有效地分析这些数据,提取有价值的信息,对于决策的制定具有至关重要的作用。传统的数据分析方法往往需要按照规定方式对不同需求下的数据进行相同的处理,比如,当存在两种不同的需求时,一般情况下采用规定的可视化方式1可以对需求1进行可视化有效分析,但是采用规定的可视化方式1对需求2的可视化分析有效性会严重下降,但是还是会采用规定的可视化方式1对需求1和需求2进行一样的处理,最后对需求2的可视化处理效果会达不到要求,这明显不能满足分析需求,因此,如何对不确定性数据进行针对性的可视化分析,成为了当前研究的热点和实际应用的迫切需求。
因此,本发明提出一种不确定性数据的可视化分析方法。
发明内容
本发明提供一种不确定性数据的可视化分析方法,通过获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定,确定目标数据的历史应用业务以及历史处理手段,根据判定结果和确定结果,对目标数据进行定性分析,若定性分析结果为不确定性数据,则获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式,以此来解决背景技术中往往需要按照一样规定的可视化方式对不同需求下的数据进行相同可视化处理的问题。
本发明提出一种不确定性数据的可视化分析方法,该方法包括:
步骤1:获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定;
步骤2:确定目标数据的历史应用业务以及历史处理手段;
步骤3:根据所有判定结果以及确定结果,对目标数据进行定性分析;
步骤4:若定性分析结果为不确定性数据,则获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式;
步骤5:基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示。
优选的,获取目标数据并按照数据类型划分为数据集合,并按照类型规则特征对相应数据集合进行判定,包括:
基于特征提取模型对所述目标数据中的每项子数据进行分析,确定每项子数据的数据特征,并根据特征-类型映射表,获取得到每项子数据的数据类型;
将同数据类型的所有子数据划分为同类数据,并得到数据集合;
基于数据-规则特征数据库获取与每个数据类型匹配的规则特征,并对相应数据集合进行判定。
优选的,确定目标数据的历史应用业务以及历史处理手段,包括:
根据目标数据的来源日志,溯源确定所述目标数据的数据来源,并确定目标数据的服务模块;
从每个服务模块的服务数据库中调取与目标数据匹配的历史应用业务;
对所述历史应用业务进行运行分析,确定所述历史应用业务基于目标数据的使用情况和处理逻辑;
基于所述目标数据的使用情况和处理逻辑确定目标数据的历史处理手段。
优选的,根据所有判定结果以及确定结果,对目标数据进行定性分析,包括:
根据所有判定结果确定数据集合是否为粗粒度数据集合,若是,确认目标数据为不确定性数据;
否则,判断目标数据是否经过缺失值处理或数据集成处理,若是,确认目标数据为不确定性数据,若否,确认目标数据为确定性数据。
优选的,获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式,包括:
若定性分析结果为不确定性数据,则获取对应目标数据涉及的有效类型;
确定所述目标数据涉及的有效类型中各类型数据所占的比重;
基于各类型数据所占的比重,反向推论目标数据的分析目的和分析目标;
基于所述分析目的和分析目标确定目标数据的分析需求,根据目标数据的分析需求确定可视化指标;
基于可视化指标从指标-方式映射表中选择可视化分析方式。
优选的,基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示,包括:
基于可视化分析方式确定目标数据的展示形式;
基于所述展示形式确定对于目标数据的可视化处理工具;
对目标数据进行数据清洗和转换处理,获取处理后的数据;
利用可视化处理工具对处理后的数据进行可视化分析,获取分析结果,将分析结果进行展示。
优选的,基于类型-规则特征数据库获取与每个数据类型匹配的类型规则特征,包括:
定义每类数据的数据领域;
基于每类数据的数据领域对该类数据进行领域特征分析,获取第一分析特征;
对每类数据的第一分析特征进行标准化处理,获取第二分析特征;
将每类数据的第二分析特征输入到数据-规则特征数据库中获取该类数据的规则特征。
优选的,从每个服务模块的服务数据库中调取与目标数据匹配的历史应用业务,包括:
从所述服务数据库确定目标数据基于相应服务模块的历史服务应用;
从历史服务应用中筛选出应用成功的应用,并确定所述应用成功的应用的业务因子和场景因子;
基于业务因子和场景因子确定目标数据的历史应用业务。
优选的,获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定之前,还包括:
将目标数据划分为多个完整子数据;
确定每个完整子数据的数据类型,根据每个完整子数据的数据类型选择合适的投放业务领域;
将每个完整子数据输入到对应投放业务领域中获取对应完整子数据的业务精度估计结果;
确认所述业务精度估计结果是否符合数据格式标准,若是,确认对应完整子数据初步符合标准,若否,确认对应完整子数据不符合标准;
在确认对应完整子数据初步符合标准后,将相应完整子数据划分为多个阶段数据;
对每个阶段数据进行奇异量分解获得该阶段数据对应的奇异数据分量;
获取每个阶段数据对应的奇异数据分量的样本熵;
根据每个阶段数据对应的奇异数据分量的样本熵获取该阶段数据的数据特征相关参数;
将每个阶段数据对应的数据特征相关参数进行排列组合以获得目标数据对应的数据特征相关参数集;
基于矢量分析模型,获取得到所述数据特征相关参数集对应的特征矢量;
利用所述特征矢量进行模型构建,得到目标数据估计模型;
利用所述目标数据估计模型对所述目标数据进行参数追踪,获取追踪结果;
根据所述追踪结果确认目标数据中各数据参数的相关性指数;
根据所述目标数据中各数据参数的相关性指数判断目标数据的时效性;
确认所述时效性是否大于等于预设阈值,若是,确认所述目标数据进一步符合标准,并进行数据类型划分,否则,确认所述目标数据不符合标准,重新获取目标数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种不确定性数据的可视化分析方法的流程图;
图2为本发明实施例中对数据集合进行类型特征判定的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供一种不确定性数据的可视化分析方法,如图1所示,该方法包括:
步骤1:获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定;
步骤2:确定目标数据的历史应用业务以及历史处理手段;
步骤3:根据所有判定结果以及确定结果,对目标数据进行定性分析;
步骤4:若定性分析结果为不确定性数据,则获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式;
步骤5:基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示。
该实施例中,数据类型是计算机编程中用于存储和处理数据的类型,常见的数据类型包括整型、浮点型、字符型、字符串。
该实施例中,数据集合是一个用于存储和组织数据的结构,通常用于存储来自于不同来源或类型的数据,并允许对这些数据进行处理、分析和操作,数据集合可以是一个数组、列表、字典。
该实施例中,匹配规则特征是用于描述和匹配两个或多个数据元素之间相似特征的标准,匹配规则可以基于不同的特征,例如:元素的长度、元素的范围、元素的数据类型,可以按照类型规则特征对相应数据集合进行判定,例如检查数据集合中的每个元素是否符合某种类型的规则,例如是否为数字类型的数据集合,或者是否符合某种字符串长度的规则。
该实施例中,历史应用业务是指某个数据用到了哪些业务或场景中。
该实施例中,历史处理手段可以是数据清洗、数据转换、数据分组。
该实施例中,定性分析是指判断数据所述确定性数据还是不确定性数据。
其中,不确定性数据是指在某个过程中,存在不确定的因素或随机变量,导致结果是未知的、不可预测的,这些不确定因素可能是由随机数生成器产生的,也可能是难以预测的自然现象所导致,不确定性数据通常包括概率分布、统计量、置信区间、方差。
确定性数据是指结果是已知的、可预测的数据,比如实验数据、历史数据、数学模型数据。
该实施例中,分析需求指在分析目标数据时,确定最终目标数据的需求的,比如是需要统计数量、或者是需要观察起伏变化情况。
该实施例中,可视化分析方式包括:折线图、柱状图、饼图、散点图。
上述技术方案的有益效果是:通过匹配规则特征对数据类型划分成的数据集合进行判定,确定目标数据的历史应用业务业务和处理手段,从而对目标数据进行定性分析,若为不确定数据,根据目标数据的有效类型以及目标数据的分析需求,选择可视化分析方法,能够根据数据类型和分析需求选择合适的可视化分析方法,避免了对不同需求下的数据都需要按照规定方式进行相同处理的问题。
实施例2:
本发明提供一种不确定性数据的可视化分析方法,如图2所示,获取目标数据并按照数据类型划分为数据集合,并按照类型规则特征对相应数据集合进行判定,包括:
S01:基于特征提取模型对所述目标数据中的每项子数据进行分析,确定每项子数据的数据特征,并根据特征-类型映射表,获取得到每项子数据的数据类型;
S02:将同数据类型的所有子数据划分为同类数据,并得到数据集合;
S03:基于数据-规则特征数据库获取与每个数据类型匹配的规则特征,并对相应数据集合进行判定。
该实施例中,特征提取模型是一种广泛应用于机器学习领域的技术,它是指自动从原始数据中提取出对模型有用的特征。
该实施例中,子数据是指为了对目标数据进行进一步区分数据类型而对目标数据类型进行划分后的数据类型,数据子类型和父类型是对应存在的,父类型是指被划分的原有数据实体。
该实施例中,数据特征是指数据对象或数据集合所具有的一些属性或特征,这些特征是对数据进行分类、聚类、降维、编码方面的有用信息,常见数据特征包括:
数值特征:包括整数、浮点数、双精度浮点数,适用于数值类型的数据。
字符特征:包括文本字符串,适用于文本类型的数据。
布尔特征:包括布尔值,适用于二进制数据类型。
该实施例中,特征-类型映射表特征-类型映射表是一种用于表示数据特征和数据类型的映射关系的数据结构,通常用于存储具有多类型属性的数据。
该实施例中,数据类型是计算机编程中用于存储和处理数据的类型,常见的数据类型包括整型、浮点型、字符型、字符串。
该实施例中,数据集合是一个用于存储和组织数据的结构,通常用于存储来自于不同来源或类型的数据,并允许对这些数据进行处理、分析和操作,数据集合可以是一个数组、列表、字典。
上述技术方案的有益效果是:确定目标数据中每项子数据的数据特征,对子数据进行同类数据的划分得到数据集合,能够实现数据的共享和操作,再根据特征-类型映射表确定每项子数据的数据类型,对数据集合进行判定,能够快速确定数据的类型以及特征,为后续对目标数据的定性奠定了基础。
实施例3:
本发明提供一种不确定性数据的可视化分析方法,确定目标数据的历史应用业务以及历史处理手段,包括:
根据目标数据的来源日志,溯源确定所述目标数据的数据来源,并确定目标数据的服务模块;
从每个服务模块的服务数据库中调取与目标数据匹配的历史应用业务;
对所述历史应用业务进行运行分析,确定所述历史应用业务基于目标数据的使用情况和处理逻辑;
基于所述目标数据的使用情况和处理逻辑确定目标数据的历史处理手段。
该实施例中,来源日志是指在计算机***中产生的目标数据的记录,通常包括操作信息、错误信息、警告信息。
该实施例中,数据来源是指目标数据存在于哪个日志里,比如是操作信息里的某个操作过程数据。
该实施例中,数据的服务模块是指将数据进行处理、存储和管理的模块,包括:数据采集模块、数据处理模块、数据存储模块。
该实施例中,服务数据库是一种数据库管理***,它提供了一种通过数据库应用程序来访问数据库的方法,服务数据库可以通过调用一个对象或模块来连接数据库,从而在应用程序中使用数据库中的数据。
该实施例中,数据的处理逻辑通常是指在应用程序中对数据进行处理的过程,在处理数据时,进行的如读取、写入、修改、删除一系列操作,每个操作都需要有一个特定的处理逻辑,以确定数据的最终状态。例如,在创建一个新的数据对象时,需要进行数据的初始化;在读取数据时,需要进行数据的读取和验证;在修改数据时,需要进行数据的读取、验证、更新和写入。
上述技术方案的有益效果是:通过目标数据的来源日志追溯目标数据的数据来源,并确定目标数据的服务模块从服务数据库中调取数据的历史应用业务,能够快速确定目标数据的使用情况和服务模块,了解数据的历史背景,进一步的,确定目标数据的历史处理手段,能够发现处理数据的难点,提高数据处理效率。
实施例4:
本发明提供一种不确定性数据的可视化分析方法,根据所有判定结果以及确定结果,对目标数据进行定性分析,包括:
根据所有判定结果确定数据集合是否为粗粒度数据集合,若是,确认目标数据为不确定性数据;
否则,判断目标数据是否经过缺失值处理或数据集成处理,若是,确认目标数据为不确定性数据,若否,确认目标数据为确定性数据。
该实施例中,粗粒度数据是指数据中存在缺失、不准确或错误的数据值。
该实施例中,数据集成处理是指将多个数据源或多个数据表通过一定的方法进行合并,从而得到一个完整数据集的过程。
上述技术方案的有益效果是:通过判断数据集合是否为粗粒度数据集合,若是,确认目标数据为不确定性数据,否则,判断目标数据是否经过处理,以此来进一步判断目标数据是否为不确定性数据,通过双重判定能够提高判定结果的准确度。
实施例5:
本发明提供一种不确定性数据的可视化分析方法,获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式,包括:
若定性分析结果为不确定性数据,则获取对应目标数据涉及的有效类型;
确定所述目标数据涉及的有效类型中各类型数据所占的比重;
基于各类型数据所占的比重,反向推论目标数据的分析目的和分析目标;
基于所述分析目的和分析目标确定目标数据的分析需求,根据目标数据的分析需求确定可视化指标;
基于可视化指标从指标-方式映射表中选择可视化分析方式。
该实施例中,有效类型可以是整型、浮点型、字符型、字符串。
该实施例中,所占的比重是指比如共有50个数据,整型数据有25个,那么整型数据所占的比重是50%。
该实施例中,反向推论目标数据的分析目的和分析目标是指比如分析目的是确定产品的销售额,则需要关注整型数据,那么分析目标就是销售额和收入。
该实施例中,指标-方式映射表是一种用于描述指标与其影响因素之间的映射关系的表格,通常用于分析指标的构成,确定哪些因素对指标的影响最大,比如要分析产品成本与生产效率之间的关系,可以创建一个指标-方式映射表,表格可以包括以下:
指标:产品成本。
影响因素:工人工资、原材料成本、设备维护费用。
权重:工人工资占成本总额的40%,原材料成本占成本总额的30%,设备维护费用占成本总额的10%。
该实施例中,获取对应目标数据涉及的有效类型,包括:
根据目标数据构建不确定性数据集,运用数据区间以及统计分析方式将不确定数据集中的每一个不确定性数据对象进行表示;
创建有序队列和结果队列并将二者进行一一关联;
将每一个不确定性数据对象输入到有序队列中,获取该不确定性数据对象在结果队列的第一输出属性值;
根据每个不确定性数据对象在结果队列的输出属性值和其他不确定性数据对象在结果队列的第二输出属性值计算出该不确定性数据对象与其他不确定性数据对象之间的关联指数:
;其中,/>表示为第i个不确定性数据对象与第j个不确定性数据对象之间的关联指数,/>表示为第i个不确定性数据对象的第一输出属性值,/>表示为第j个不确定性数据对象的第二输出属性值,/>表示为关联限制指标因子,表示为第i个不确定性数据对象与第j个不确定性数据对象之间的数据类型一致性因子,/>表示为第i个不确定性数据对象与第j个不确定性数据对象在不确定性数据集中的数据间隔区间距离,/>表示为同类型数据的默认数据间隔参考区间距离,/>表示为同类型数据的数据间隔参考区间距离限制因子;
筛选关联指数大于等于预设阈值的目标不确定性数据对象,并将其确认为不确定性数据的有效数据;
分别获取每个有效数据所对应的当下数据类型,进而将所有当下数据类型进行并处理,得到对应目标数据涉及的有效类型。
该实施例中,统计分析是指运用统计方法,例如描述性统计、参数估计,对每个不确定性数据对象进行详细分析,确定每个数据对象的统计值。
该实施例中,有序队列是一种数据输入结构,存储了数据对应的属性。
该实施例中,结果队列是一种数据输出结构,用于存储处理完成的数据的数据属性的结果,因此,可以通过数据输入直接得到相关的输出值。
该实施例中,预设阈值是预先设定好的。
上述技术方案的有益效果是:通过获取不确定性数据涉及的有效类型以及有效类型中各类型数据所占的比重,能够有效并快速的确定数据类型组成,进一步的,反向推出数据的分析目的和分析目标,确定目标数据的可视化指标,选择可视化分析方式,使数据更直观,易于理解,通过对不确定性数据进行指数计算,便于确定有效类型,为后续筛选可视化分析方式提供便利。
实施例6:
本发明提供一种不确定性数据的可视化分析方法,基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示,包括:
基于可视化分析方式确定目标数据的展示形式;
基于所述展示形式确定对于目标数据的可视化处理工具;
对目标数据进行数据清洗和转换处理,获取处理后的数据;
利用可视化处理工具对处理后的数据进行可视化分析,获取分析结果,将分析结果进行展示。
该实施例中,展示形式可以是表格、统计图、散点图。
该实施例中,可视化处理工具可以是:数据转换工具、数据可视化工具、数据导出工具。
上述技术方案的有益效果是:通过目标数据的展示形式确定对于目标数据 的可视化处理工具,对数据进行清洗和转换处理,对处理后的数据进行可视化分析,能够快速查看数据的分布情况,如数据的范围、数据的集中趋势,也能够能够更直观地展示数据的特征和趋势。
实施例7:
本发明提供一种不确定性数据的可视化分析方法,基于类型-规则特征数据库获取与每个数据类型匹配的类型规则特征,包括:
定义每类数据的数据领域;
基于每类数据的数据领域对该类数据进行领域特征分析,获取第一分析特征;
对每类数据的第一分析特征进行标准化处理,获取第二分析特征;
将每类数据的第二分析特征输入到数据-规则特征数据库中获取该类数据的规则特征。
该实施例中,数据领域是指数据所包含的具体含义或信息类别,通常用来描述数据的属性或结构,包括数据的类别、结构、关系、层次、特征。比如:
文本数据的数据领域包括文本的类别、主题、关键词、语义。
图像数据的数据领域包括图像的类别、风格、主题、颜色、纹理。
该实施例中,领域特征分析是指对领域特征进行分析和提取,以便于机器学习模型更好地理解和描述领域数据,比如:在文本数据中,领域特征分析可以是文本数据中的关键词、主题、情感信息,以便于文本分类、情感分析。
在计算机视觉中,领域特征分析可以用来提取图像数据中的类别、特征、场景等信息,以便于图像分类、目标检测。
该实施例中,数据-规则特征是指对领域特征进行分类、聚类或生成规则,比如:在自然语言处理中,数据-规则特征可以用来提取文本数据中的规则,如命名规则、语法规则。在计算机视觉中,数据-规则特征可以用来提取图像数据中的规则,如形状规则、大小规则。
上述技术方案的有益效果是:通过定义每类数据的数据领域,对每类数据进行领域特征分析,获取第一分析特征,再进行标准化处理,获取第二分析特征,以此来获取每类数据的规则特征,能够提高数据聚类和分类的效果,进一步的,有利于规则的抽取和验证。
实施例8:
本发明提供一种不确定性数据的可视化分析方法,从每个服务模块的服务数据库中调取与目标数据匹配的历史应用业务,包括:
从所述服务数据库确定目标数据基于相应服务模块的历史服务应用;
从历史服务应用中筛选出应用成功的应用,并确定所述应用成功的应用的业务因子和场景因子;
基于业务因子和场景因子确定目标数据的历史应用业务。
该实施例中,历史服务应用可以是处理数据、查询数据、调取数据。
该实施例中,业务因子可以理解为业务特征或业务变量,通常是指在某个业务场景下,影响业务绩效的因素,这些因素可能是客观存在的,也可能是主观因素,比如人员、设备、流程、市场、技术。
该实施例中,场景因子是指应用成功的应用在什么场景下应用的以及应用过程中,影响结果的场景因素,比如***版本、软件版本。
上述技术方案的有益效果是:提高获取目标数据相应服务模块的历史应用服务应用,并筛选出应用成功的应用,确定场景因子和业务因子,从而确定目标数据的历史应用业务,能够快速确定目标数据的服务模块,同时,可以发现数据中的模式和趋势,了解目标数据的应用模式。
实施例9:
本发明提供一种不确定性数据的可视化分析方法,获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定之前,还包括:
将目标数据划分为多个完整子数据;
确定每个完整子数据的数据类型,根据每个完整子数据的数据类型选择合适的投放业务领域;
将每个完整子数据输入到对应投放业务领域中获取对应完整子数据的业务精度估计结果;
确认所述业务精度估计结果是否符合数据格式标准,若是,确认对应完整子数据初步符合标准,若否,确认对应完整子数据不符合标准;
在确认对应完整子数据初步符合标准后,将相应完整子数据划分为多个阶段数据;
对每个阶段数据进行奇异量分解获得该阶段数据对应的奇异数据分量;
获取每个阶段数据对应的奇异数据分量的样本熵;
根据每个阶段数据对应的奇异数据分量的样本熵获取该阶段数据的数据特征相关参数;
将每个阶段数据对应的数据特征相关参数进行排列组合以获得目标数据对应的数据特征相关参数集;
基于矢量分析模型,获取得到所述数据特征相关参数集对应的特征矢量;
利用所述特征矢量进行模型构建,得到目标数据估计模型;
利用所述目标数据估计模型对所述目标数据进行参数追踪,获取追踪结果;
根据所述追踪结果确认目标数据中各数据参数的相关性指数;
根据所述目标数据中各数据参数的相关性指数判断目标数据的时效性;
确认所述时效性是否大于等于预设阈值,若是,确认所述目标数据进一步符合标准,并进行数据类型划分,否则,确认所述目标数据不符合标准,重新获取目标数据。
该实施例中,选择合适的业务投放领域主要是基于数据分析,根据不同数据类型的数据特征和潜在需求来确定合适的投放领域,比如根据用户特征和需求选择目标受众,根据产品特征和需求选择热门产品。
该实施例中,业务精度估计是指对于子数据所作的估计或预测其精确度。通常受到许多因素的影响,如市场变化、竞争状况、公司策略。
该实施例中,数据格式标准包括数据结构、数据类型、数据交换格式、数据存储格式、数据访问和处理规则方面,根据具体应用领域的需求,数据格式标准可以采用不同的格式,如XML、JSON、CSV、XMLRPC等。
该实施例中,奇异量分解是指在处理大量数据时,自动检测数据集中的异常或异质行为。
该实施例中,奇异数据分量是指在分量分析中,某个数据分量的分布与其它分量不同,或者数据分量的取值范围、数量级、正负值等方面与其它分量不同,奇异数据分量可能是由于数据分布的不规则性,或者由于数据取值范围或数量级的不同,导致统计分析结果不准确,从而产生不同的假设或结论。
该实施例中,样本熵是一个用于衡量数据集不确定性和分散程度的指标。
该实施例中,数据特征相关参数通常是指机器学习中用来描述数据特征的参数,比如:
特征:特征是数据中的一个或多个变量,它们可以用来描述数据的某些属性,在图像识别任务中,图像中的像素值可以被视为特征。
特征工程:特征工程是指对原始数据进行转换和提取,以创建新的特征,在自然语言处理任务中,可以采用词向量化等技术来提取文本数据的特征。
该实施例中,对于每个阶段的数据,需要对其数据特征相关参数进行提取,并将它们存储在一个列表或数组中,然后对每个阶段的数据集进行排列组合,可以是将每个阶段的数据集中的数据特征相关参数列表进行合并,得到一个列表或数组,表示所有阶段数据集的特征相关参数,最后需要将上述结果存储在一个新的数据集中,这个新数据集就是目标数据集对应的数据特征相关参数集。
该实施例中,矢量分析模型是用于分析多变量数据的统计方法,主要通过比较各变量之间的相关系数来揭示变量之间的关系进行预测,矢量分析的常见应用包括,如聚类分析、因子分析、多元回归分析。
该实施例中,数据特征相关参数集对应的特征矢量是指将每个阶段数据集中的数据特征相关参数提取出来后,将这些特征参数按照线性组合的方式形成的一个特征矢量,这个特征矢量代表了各个阶段数据集中的数据特征的相关性和方向。
该实施例中,目标数据估计模型是指用于预测目标数据集的模型,目标数据集是指需要预测的目标数据集,例如医疗数据集、金融数据集。
该实施例中,参数追踪是一种技术,用于跟踪程序中的各个参数,通过参数追踪,可以了解程序在执行不同操作时,各个参数的值和变化情况。
该实施例中,相关性指数是一个用来衡量两个变量之间线性关系强度的统计量,其值范围在-1到1之间,越接近1表示两个变量之间线性关系越强,越接近-1表示两个变量之间线性关系越弱,接近0表示两个变量之间没有线性关系。
该实施例中,数据时效性是指数据随时间变化的程度和速度,数据时效性通常用于描述数据变化的快慢和数据更新周期。
上述技术方案的有益效果是:通过完整子数据的数据类型选择合适的业务投放领域,获取业务精度估计结果,判断完整子数据是否符合数据初步符合标准,能够筛选出符合数据格式标准的数据,减少数据量,进一步的,将相应完整子数据划分为多个阶段数据,对每个阶段数据进行奇异量分解获得该阶段数据对应的奇异数据分量,能够确定数据的分布是否规则,确定对数据的影响,同时,将每个阶段数据对应的数据特征相关参数进行排列组合以获得目标数据对应的数据特征相关参数集,构建目标数据估计模型,对参数进行追踪,判断目标数据的时效性,能够为后面数据类型的划分选择最优化的数据,提高划分质量。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种不确定性数据的可视化分析方法,其特征在于,该方法包括:
步骤1:获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定;
步骤2:根据所有判定结果,对目标数据进行定性分析;
步骤3:若定性分析结果为不确定性数据,则获取目标数据涉及的有效类型以及目标数据的分析需求,来选择可视化分析方式;
步骤4:基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示;
其中,步骤3,包括:
若定性分析结果为不确定性数据,则获取对应目标数据涉及的有效类型;
确定所述目标数据涉及的有效类型中各类型数据所占的比重;
基于各类型数据所占的比重,反向推论目标数据的分析目的和分析目标;
基于所述分析目的和分析目标确定目标数据的分析需求,根据目标数据的分析需求确定可视化指标;
基于可视化指标从指标-方式映射表中选择可视化分析方式;
其中,获取对应目标数据涉及的有效类型,包括:
根据目标数据构建不确定性数据集,运用数据区间以及统计分析方式将不确定性数据集中的每一个不确定性数据对象进行表示;
创建有序队列和结果队列并将二者进行一一关联;
将每一个不确定性数据对象输入到有序队列中,获取该不确定性数据对象在结果队列的第一输出属性值;
根据每个不确定性数据对象在结果队列的输出属性值和其他不确定性数据对象在结果队列的第二输出属性值计算出该不确定性数据对象与其他不确定性数据对象之间的关联指数:
;其中,/>表示为第i个不确定性数据对象与第j个不确定性数据对象之间的关联指数,/>表示为第i个不确定性数据对象的第一输出属性值,表示为第j个不确定性数据对象的第二输出属性值,/>表示为关联限制指标因子,/>表示为第i个不确定性数据对象与第j个不确定性数据对象之间的数据类型一致性因子,/>表示为第i个不确定性数据对象与第j个不确定性数据对象在不确定性数据集中的数据间隔区间距离,/>表示为同类型数据的默认数据间隔参考区间距离,/>表示为同类型数据的数据间隔参考区间距离限制因子;
筛选关联指数大于等于预设阈值的目标不确定性数据对象,并将其确认为不确定性数据的有效数据;
分别获取每个有效数据所对应的当下数据类型,进而将所有当下数据类型进行合并处理,得到对应目标数据涉及的有效类型。
2.根据权利要求1所述的不确定性数据的可视化分析方法,其特征在于,获取目标数据并按照数据类型划分为数据集合,并按照类型规则特征对相应数据集合进行判定,包括:
基于特征提取模型对所述目标数据中的每项子数据进行分析,确定每项子数据的数据特征,并根据特征-类型映射表,获取得到每项子数据的数据类型;
将同数据类型的所有子数据划分为同类数据,并得到数据集合;
基于数据-规则特征数据库获取与每个数据类型匹配的规则特征,并对相应数据集合进行判定。
3.根据权利要求1所述的不确定性数据的可视化分析方法,其特征在于,根据所有判定结果,对目标数据进行定性分析,包括:
根据所有判定结果确定数据集合是否为粗粒度数据集合,若是,确认目标数据为不确定性数据;
否则,判断目标数据是否经过缺失值处理或数据集成处理,若是,确认目标数据为不确定性数据,若否,确认目标数据为确定性数据。
4.根据权利要求1所述的不确定性数据的可视化分析方法,其特征在于,基于可视化分析方式对目标数据进行可视化分析,并将分析结果进行展示,包括:
基于可视化分析方式确定目标数据的展示形式;
基于所述展示形式确定对于目标数据的可视化处理工具;
对目标数据进行数据清洗和转换处理,获取处理后的数据;
利用可视化处理工具对处理后的数据进行可视化分析,获取分析结果,将分析结果进行展示。
5.根据权利要求2所述的不确定性数据的可视化分析方法,其特征在于,基于类型-规则特征数据库获取与每个数据类型匹配的类型规则特征,包括:
定义每类数据的数据领域;
基于每类数据的数据领域对该类数据进行领域特征分析,获取第一分析特征;
对每类数据的第一分析特征进行标准化处理,获取第二分析特征;
将每类数据的第二分析特征输入到数据-规则特征数据库中获取该类数据的规则特征。
6.根据权利要求1所述的不确定性数据的可视化分析方法,其特征在于,获取目标数据并按照数据类型划分为数据集合,并按照匹配规则特征对相应数据集合进行判定之前,还包括:
将目标数据划分为多个完整子数据;
确定每个完整子数据的数据类型,根据每个完整子数据的数据类型选择合适的投放业务领域;
将每个完整子数据输入到对应投放业务领域中获取对应完整子数据的业务精度估计结果;
确认所述业务精度估计结果是否符合数据格式标准,若是,确认对应完整子数据初步符合标准,若否,确认对应完整子数据不符合标准;
在确认对应完整子数据初步符合标准后,将相应完整子数据划分为多个阶段数据;
对每个阶段数据进行奇异量分解获得该阶段数据对应的奇异数据分量;
获取每个阶段数据对应的奇异数据分量的样本熵;
根据每个阶段数据对应的奇异数据分量的样本熵获取该阶段数据的数据特征相关参数;
将每个阶段数据对应的数据特征相关参数进行排列组合以获得目标数据对应的数据特征相关参数集;
基于矢量分析模型,获取得到所述数据特征相关参数集对应的特征矢量;
利用所述特征矢量进行模型构建,得到目标数据估计模型;
利用所述目标数据估计模型对所述目标数据进行参数追踪,获取追踪结果;
根据所述追踪结果确认目标数据中各数据参数的相关性指数;
根据所述目标数据中各数据参数的相关性指数判断目标数据的时效性;
确认所述时效性是否大于等于预设阈值,若是,确认所述目标数据进一步符合标准,并进行数据类型划分,否则,确认所述目标数据不符合标准,重新获取目标数据。
CN202311774201.2A 2023-12-22 2023-12-22 一种不确定性数据的可视化分析方法 Active CN117453805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311774201.2A CN117453805B (zh) 2023-12-22 2023-12-22 一种不确定性数据的可视化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311774201.2A CN117453805B (zh) 2023-12-22 2023-12-22 一种不确定性数据的可视化分析方法

Publications (2)

Publication Number Publication Date
CN117453805A CN117453805A (zh) 2024-01-26
CN117453805B true CN117453805B (zh) 2024-03-15

Family

ID=89591382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311774201.2A Active CN117453805B (zh) 2023-12-22 2023-12-22 一种不确定性数据的可视化分析方法

Country Status (1)

Country Link
CN (1) CN117453805B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081764A (zh) * 2011-01-11 2011-06-01 上海海洋大学 一种基于uldb的海洋环境监测数据管理***
CN102800128A (zh) * 2012-08-09 2012-11-28 中国人民解放军信息工程大学 利用散点图矩阵和回归分析建立地形描述精度模型的方法
CN106919755A (zh) * 2017-03-01 2017-07-04 清华大学 一种基于数据的云制造***不确定性量化分析方法及装置
CN113314100A (zh) * 2021-07-29 2021-08-27 腾讯科技(深圳)有限公司 口语测试的评估、结果显示方法、装置、设备及存储介质
CN115757689A (zh) * 2022-09-21 2023-03-07 中国人民解放军军事科学院军事科学信息研究中心 一种信息查询***、方法及设备
CN116796233A (zh) * 2023-06-30 2023-09-22 北京字跳网络技术有限公司 数据分析方法、装置、计算机可读介质及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951682B8 (zh) * 2017-03-01 2019-05-10 大连理工大学 一种基于不确定性的山丘区水文模型与数据精度匹配方法
CN110441823B (zh) * 2019-08-09 2021-06-01 浙江财经大学 基于多源数据融合的地层对比不确定性可视化方法
CN111024484B (zh) * 2019-11-28 2021-07-13 上海交通大学 纤维增强复合材料随机力学性能预测方法
CN114036347B (zh) * 2021-11-18 2022-06-03 北京中关村软件园发展有限责任公司 一种支持数字融合业务的云平台及工作方法
CN114742289A (zh) * 2022-03-31 2022-07-12 大连理工大学 一种面向生产工艺参数的高斯过程稳健优化方法
CN116415840B (zh) * 2023-02-02 2023-12-05 北京三维天地科技股份有限公司 一种基于机器学习模型的指标自动预警方法及***
CN116756616A (zh) * 2023-06-26 2023-09-15 北京字跳网络技术有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN116993298A (zh) * 2023-08-25 2023-11-03 中原工学院 一种基于制造业全价值链的信息协同管理方法及***
CN117114206B (zh) * 2023-10-23 2024-01-26 北京联创高科信息技术有限公司 一种煤矿水害指标数据趋势的计算方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081764A (zh) * 2011-01-11 2011-06-01 上海海洋大学 一种基于uldb的海洋环境监测数据管理***
CN102800128A (zh) * 2012-08-09 2012-11-28 中国人民解放军信息工程大学 利用散点图矩阵和回归分析建立地形描述精度模型的方法
CN106919755A (zh) * 2017-03-01 2017-07-04 清华大学 一种基于数据的云制造***不确定性量化分析方法及装置
CN113314100A (zh) * 2021-07-29 2021-08-27 腾讯科技(深圳)有限公司 口语测试的评估、结果显示方法、装置、设备及存储介质
CN115757689A (zh) * 2022-09-21 2023-03-07 中国人民解放军军事科学院军事科学信息研究中心 一种信息查询***、方法及设备
CN116796233A (zh) * 2023-06-30 2023-09-22 北京字跳网络技术有限公司 数据分析方法、装置、计算机可读介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Visualization and Visual Knowledge Discovery from Big Uncertain Data;Carson K. Leung等;《2022 26th International Conference Information Visualisation (IV)》;20230123;全文 *
不确定性数据聚类算法及其并行化研究;何少元;中国优秀硕士学位论文全文数据库 信息科技辑;20200215;全文 *
多维数据的不确定性可视相关分析;张怡等;计算机辅助设计与图形学学报;20180615;第第30卷卷(第第6期期);全文 *

Also Published As

Publication number Publication date
CN117453805A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
JPH0877010A (ja) データ分析方法および装置
CN111427974A (zh) 数据质量评估管理方法和装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN116894152B (zh) 一种多源数据调研与实时分析方法
CN116542800A (zh) 基于云端ai技术的智能化财务报表分析***
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN117453764A (zh) 一种数据挖掘分析方法
Goyle et al. Dataassist: A machine learning approach to data cleaning and preparation
CN110874366A (zh) 数据处理、查询方法和装置
CN117592450A (zh) 基于员工信息整合的全景档案生成方法及***
CN116933130A (zh) 一种基于大数据的企业行业分类方法、***、设备及介质
CN112631889A (zh) 针对应用***的画像方法、装置、设备及可读存储介质
CN117453805B (zh) 一种不确定性数据的可视化分析方法
CN116595418A (zh) 一种科技成果多维画像构建方法
CN113420153B (zh) 一种基于话题库和事件库的专题制作方法、装置及设备
CN115034762A (zh) 一种岗位推荐方法、装置、存储介质、电子设备及产品
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
Yang et al. Evaluation and assessment of machine learning based user story grouping: A framework and empirical studies
Yalaoui et al. A survey on data quality: principles, taxonomies and comparison of approaches
CN117556118B (zh) 基于科研大数据预测的可视化推荐***及方法
JP3452308B2 (ja) データ分析装置
Ur-Rahman Textual Data Mining for Knowledge Discovery and Data Classification: A Comparative Study
JP6886935B2 (ja) データ分析支援システムおよびデータ分析支援方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant