CN116244367A

CN116244367A - 一种基于多模型的自定义算法的可视化大数据分析平台

Info

Publication number: CN116244367A
Application number: CN202211713475.6A
Authority: CN
Inventors: 顾升高; 赵滟; 胡杨; 刘昌斯; 冉迅; 贾丽敏; 徐莲花; 闫震震; 曹剑青; 卫文娜; 耿丽娜; 李欣悦; 张豫; 李燃; 于慧敏; 马晶晶; 杨晖
Original assignee: China Aerospace Academy Of Systems Science And Engineering
Current assignee: China Aerospace Academy Of Systems Science And Engineering
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-09

Abstract

一种基于多模型的自定义算法的可视化大数据分析平台，属于大数据技术领域。本发明通过内置数据管理、数据处理、机器学习、文本分析等常用的算法模型，实现了技术能力不足的业务人员面向海量数据分析需求，对大数据进行模型构建、数据分析、数据流转等数据处理，并可直接对数据模型进行修改、观察数据走向查看每一步处理结果。大大降低了业务员人员对数据模型建设的参与门槛。

Description

一种基于多模型的自定义算法的可视化大数据分析平台

技术领域

本发明涉及一种基于多模型的自定义算法的可视化大数据分析平台，属于大数据技术领域。

背景技术

当前，在大型国企和大型上市企业中，日常业务数据分析量逐渐繁杂且急剧增加，企业数据分析与处理的过程十分复杂，传统数据处理和分析方式的时效性、便捷性、可视性已经不能适应业务人员海量数据分析时候的需求，为此大数据处理、分析方式、深度挖掘方式都需要新的处理技术来应对新时代下的业务需求。

目前传统的方式都是偏向于代码方式，只有技术能力较强的编程人员能够对大数据进行模型构建、数据分析、数据流转等数据处理过程，开发人员需要借助特定的建模处理工具，使用特定的编程语言，实现定制化的代码，并且需要十分复杂的环境配置才能完成全部建模过程，最终处理数据的性能取决于开发人员的对代码的设计和算法的易用性，并且最终产出物十分冗杂，当模型需要修改、观察数据走向或查看每一步处理结果时十分不方便，因此其适用的业务场景和建模支撑功能都有较为有限。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种基于多模型的自定义算法的可视化大数据分析平台，通过内置数据管理、数据处理、机器学习、文本分析等常用的算法模型，实现了技术能力不足的业务人员面向海量数据分析需求，对大数据进行模型构建、数据分析、数据流转等数据处理，并可直接对数据模型进行修改、观察数据走向查看每一步处理结果。大大降低了业务员人员对数据模型建设的参与门槛。

本发明的技术解决方案是：一种基于多模型的自定义算法的可视化大数据分析平台，包括数据源管理模块、大数据处理模块、可视化模型构建模块和模型解析模块；

所述数据源管理模块用于维护数据分析所用的数据源，并进行权限分配与管理，添加的数据信息可以作为数据分析的输入，以实现企业分析数据的统一接入、按需分发以及数据控制；

所述大数据处理模块用于从数据源管理模块中绑定的数据源中根据需求抽取业务数据，并进行数据清洗转化，将原数据源中分散、零乱、标准不统一的数据***整合；

所述可视化模型构建模块用于根据需求构建算法模型和语言模型以及模型计算流程；所述算法模型包括针对不同模型输入数据和处理需求的算法；所述语言模型用于使用与模型输入数据相对应的语言工具对模型输入数据进行解析计算处理；

所述模型解析模块用于接收模型输入数据，并根据构建的模型和模型计算流程进行相应的数据处理计算。

进一步地，所述数据管理中的数据源包括：

关系型数据库：通过Java JDBC连接访问不同类型的数据库，将数据库中的物理表转化为数据模型；

SQL数据集：建立SQL查询，将数据源中的一张或者多张物理表转化为数据模型；

大数据引擎：基于Hadoop生态体系，支持Spark SQL和Impala数据源；

接口数据：通过配置API接口地址和参数，实现非关系型数据转化为数据模型。

进一步地，所述大数据处理采集非同源数据，经过数据抽取E、数据传输、转换和清洗T、数据转载与调试L的ETL过程，形成有效集成的数据资源；具体包括：

数据抽取，确定数据库中与分析相关并涉及主题的数据，以确定抽取的数据字段和数据记录；

数据转换，针对不同颗粒度和格式的数据，进行数据标准化操作；

数据转载，将抽取、转换后的数据加载到数据库中。

进一步地，所述算法模型中的算法包括：

数据管理：调用数据源管理绑定的数据源连接，或大数据处理模块清洗后的数据，获取数据及输出数据；

数据处理：根据处理规则对输入该节点的数据进行自动处理；

机器学习：对输入的数据进行训练，并对预测数据进行预测；

文本分析：针对非结构化数据进行处理；

自定义组件：由数据分析人员自定义编程语言。

进一步地，所述算法模型中的数据管理节点支持数据输入和数据输出；具体包括：

(1)构建可视化模型的第一步是从输入中选取相应的节点作为挖掘分析的数据源：

文件输入节点支持从txt、excel、csv文件获取数据作为算法模型数据源；

关系数据库支持关系数据库元信息维护，实现数据分析人员将关系数据库作为输入数据源，支持关系型数据库；

API输入支持将API接口数据作为数据源输入，进行挖掘分析；

(2)数据输出节点为挖掘分析流程结果提供多种类型数据源输出方式；支持的算法包括文件输出、关系数据库输出：

文件输出节点支持将流程结果数据以txt、excel、csv格式输出；

关系数据库输出支持数据分析人员将流程过程数据和处理结果数据保存到关系型数据库表中，包括输出到关系型数据库。

进一步地，所述算法模型中的数据处理节点支持算法类型；具体包括：

数据过滤，根据设定的过滤条件实现对输入的数据进行过滤和筛选；

数据去重，根据设定的去重条件对输入的数据进行处理，去除重复行；

排序，根据设定的排序条件对输入的数据进行升序或降序排序；

数据标准化，根据设定的标准化条件对输入的数据进行归一化；

分类汇总，根据设定的汇总条件对输入的数据按照分类变量和分析的数据列进行分类计算；

异常值处理，根据设定的异常值条件对输入的数据进行异常值检测，并根据替换条件进行异常值处理。

进一步地，所述算法模型中的机器学习节点支持分类、回归、聚类、关联规则和时序模式；具体包括：

分类算法，根据选择的算法和设定的算法参数，将输入的数据映射到训练好的群组或类；

回归算法，根据选择的算法和设定的算法参数，对输入的数据预测未来趋势；

聚类算法，根据选择的算法和设定的算法参数，将输入的数据在没有给定划分类的情况下，根据信息相似度进行信息聚类；

关联规则算法，根据选择的算法和设定的算法参数，揭示输入的数据之间的没有直接表现出来的相互关系；

时间序列算法，根据选择的算法和设定的算法参数，对输入的数据基于时间或其他序列进行预测未来的值。

进一步地，所述算法模型中的文本分析节点支持算法类型：

分词，对输入的文本信息流进行词语切分并标注词性，将原始字符串序列转换为带标签的词序列；

关键词抽取，根据设定的参数从输入的文本信息流中抽取关键词信息和关键词的权重；

词频统计，根据设定的参数从输入的文本信息流中某一词语或短语出现的频率进行统计；

文本过滤，根据设定的参数从输入的文本信息流中选取需要的信息，或剔除不需要的信息；

文本相似度，根据设定的参数计算两个输入的文本信息流的相似度；

文本摘要，根据设定的参数从输入的文本信息流中总结提取其中需要的内容。

进一步地，所述语言模型包括：

采用自定义Java组件输入的JAVA编程语言进行解析，调用Java计算引擎对数据进行处理，返回计算的数据；

采用JavaScript组件对输入的数据进行解析，调用JavaScript计算引擎对数据进行处理，Java调用JavaScript算法，通过父节点获取输入的数据集，调用javax.script对JavaScript代码进行解析，对数据进行出来，返回计算的数据；

采用Python组件对输入的数据进行解析，调用Python计算引擎对数据进行处理，Java调用Python算法包，将需要执行的数据存入本地，将地址负载到python运行命令中，通过java.lang.Runtime，运行Python算法包读取本地数据进行计算并且返回，Java通过返回的数据，对结果进行解析，返回计算的数据。

一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，所述的计算机程序被处理器执行时实现所述方法的步骤。

本发明与现有技术相比的优点在于：

(1)本发明支持海量数据的处理和分析，能够满足日益复杂和庞大的业务数据分析需求。

(2)本发明针对分析人员针对特殊业务需求的分析，支持分析人员可以在线编辑基于Java、JavaScript或者Python语言的算法，或者提交代码包，实现数据分析专用功能。

(3)本发明充分利用RESTFUL接口进行传输优势，实现数据分析人员自由组合使用各算子模块，快速完成数据分析任务，实现从基础数据到决策信息的高效转化。

附图说明

图1为本发明应用示意图；

图2为数据分析平台作业基本流程示意图；

图3为自定义Python组件流程示意图；

图4为自定义JavaScript组件示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

以下结合说明书附图对本申请实施例所提供的一种基于多模型的自定义算法的可视化大数据分析平台做进一步详细的说明，具体实现方式可以包括(如图1～4所示)：数据源管理、大数据处理、可视化模型构建和模型解析模块。

通过搭建web应用来为分析人员提供操作界面及RESTFUL接口进行传输。用户可直接对流入的数据编写代码对数据进行处理，完成自定义算法的搭建

(1)数据源管理模块

数据源管理模块通过连接业务***数据库和大数据分析引擎，并进行权限分配与管理，添加的数据信息可以作为数据分析的输入，以实现企业分析数据的统一接入、按需分发以及数据控制。

(2)大数据处理模块

大数据处理模块通过数据抽取(E)、数据传输、转换和清洗(T)、数据转载与调试(L)的ETL过程，形成有效集成的数据资源，保证了后续数据分析的输入数据质量。

(3)可视化模型构建模块

可视化模型主要分为多模型构建和多语言构建。

多模型构建可以支持多种算子组件的选择和组合，包括如下类型组件：

1)数据管理可以调用数据源管理绑定的数据源连接，获取数据及输出数据；

2)数据处理可以根据处理规则对输入该节点的数据进行自动处理；

3)机器学习可以对输入的数据进行训练，并对预测数据进行预测；

4)文本分析可以针对非结构化数据进行处理；

5)自定义组件可以允许数据分析人员自定义编程语言；

多语言构建可以支持如下种类语言的自定义编程：

6)采用自定义Java组件输入的JAVA编程语言进行解析，调用Java计算引擎对数据进行处理，返回计算的数据；

7)采用JavaScript组件对输入的数据进行解析，调用JavaSctipt计算引擎对数据进行处理，Java调用JavaScript算法，通过父节点获取输入的数据集，调用javax.script对JavaScript代码进行解析，对数据进行出来，返回计算的数据；

8)采用Python组件对输入的数据进行解析，调用Python计算引擎对数据进行处理，Java调用Python算法包，将需要执行的数据存入本地，将地址负载到python运行命令中，通过java.lang.Runtime，运行Python算法包读取本地数据进行计算并且返回，Java通过返回的数据，对结果进行解析，返回计算的数据。

(4)模型解析模块

通过Restful接口将上一步的分析模型信息发送到模型解析模块，该模块通过对信息进行解析，获取分析模型的输入组件、数据处理、机器学习、文本分析、输出组件等不同组件之间的计算流程，基于组件与组件之间的连线关系，明确各个组件之间的依赖关系和计算顺序。数据流从输入组件开始，获取数据，之后每一个节点通过Restful接口获取父节点的输出数据和组件的配置信息，调用各组件的计算引擎，对数据进行处理，并通过Restful接口将处理后的数据发送给下一个计算节点，直至全部的节点计算完毕，并根据输出节点的配置信息输出数据。

每一个组件的数据处理结果，均在流向下一个组件前，转换成JSON字符串存入数据库和缓存，以便数据分析人员查看每一个组件的计算结果是否符合预期，并及时修改组件配置信息，使得构建的分析模型满足数据分析人员的数据分析需求。

在本申请实施例所提供的方案中，一种基于多模型的自定义算法的可视化大数据分析平台，包括数据源管理模块、大数据处理模块、可视化模型构建模块和模型解析模块；

进一步，通过建立统一的数据规范，对接入的各类数据源进行管理，将所有待分析的数据进行统一模型化、标准化，为大数据处理模块和可视化模型构建奠定稳固的基础。所述数据管理中的数据源包括：

关系型数据库：MYSQL、Sql Server、Oracle等，通过Java JDBC连接访问不同类型的数据库，将数据库中的物理表转化为数据模型；

大数据引擎：基于Hadoop生态体系，专为大规模数据处理而设计的快速通用的计算引擎，支持Spark SQL和Impala数据源；

在一种可能实现的方式中，所述大数据处理采集非同源数据，经过数据抽取(E)、数据传输、转换和清洗(T)、数据转载与调试(L)的ETL过程，形成有效集成的数据资源。

(1)数据抽取，确定数据库中与分析相关并涉及主题的数据，以确定抽取的数据字段和数据记录；

(2)数据转换，针对不同颗粒度和格式的数据，进行数据标准化操作；

(3)数据转载，将抽取、转换后的数据加载到数据库中。

进一步，在一种可能实现的方式中，所述算法模型中的算法包括：

文本分析：针对非结构化数据进行处理；

自定义组件：由数据分析人员自定义编程语言。

在一种可能实现的方式中，所述算法模型中的数据管理节点支持数据输入和数据输出。

(1)构建可视化模型的第一步是从输入中选取相应的节点作为挖掘分析的数据源。支持的算法包括文件输入、关系数据库输入、API接口输入：

文件输入节点支持从txt、excel、csv文件获取数据作为算法模型(挖掘分析)数据源；

关系数据库支持关系数据库元信息维护，实现数据分析人员将关系数据库作为输入数据源，支持Mysql、Oracle、SQL Server等关系型数据库；

API输入支持将API接口数据作为数据源输入，进行挖掘分析(算法模型)。

(2)数据输出节点为挖掘分析流程结果提供多种类型数据源输出方式。支持的算法包括文件输出、关系数据库输出：

关系数据库输出支持数据分析人员将流程过程数据和处理结果数据保存到关系型数据库表中，包括输出到Mysql、Oracle、SQL Server等关系型数据库。

在一种可能实现的方式中，所述算法模型中的数据处理节点支持算法类型。

(1)数据过滤，能够根据设定的过滤条件实现对输入的数据进行过滤和筛选；

(2)数据去重，能够根据设定的去重条件对输入的数据进行处理，去除重复行；

(3)排序，能够根据设定的排序条件对输入的数据进行升序或降序排序；

(4)数据标准化，能够根据设定的标准化条件对输入的数据进行归一化，如最大值最小值归一化或Z标准化等；

(5)分类汇总，能够根据设定的汇总条件对输入的数据按照分类变量和分析的数据列进行分类计算，如最大值、最小值、平均值、数量统计、求和、方差、中位数等；

(6)异常值处理，能够根据设定的异常值条件对输入的数据进行异常值检测，并根据替换条件进行异常值处理。

在一种可能实现的方式中，所述算法模型中的机器学习节点支持分类、回归、聚类、关联规则和时序模式。

(1)分类算法，能够根据选择的算法和设定的算法参数，将输入的数据映射到训练好的群组或类。支持的算法包括逻辑回归分类、随机森林分类、决策树分类、BP神经网络分类、贝叶斯网络分类、SVM分类；

(2)回归算法，能够根据选择的算法和设定的算法参数，对输入的数据预测未来趋势。支持的算法包括线性回归、决策树回归、随机森林回归、BP神经网络回归、SVM回归；

(3)聚类算法，能够根据选择的算法和设定的算法参数，将输入的数据在没有给定划分类的情况下，根据信息相似度进行信息聚类。支持的算法包括K-means聚类、模糊聚类；

(4)关联规则算法，能够根据选择的算法和设定的算法参数，揭示输入的数据之间的没有直接表现出来的相互关系。支持的算法包括Apriori关联、FP-Tree关联；

(5)时间序列算法，能够根据选择的算法和设定的算法参数，对输入的数据基于时间或其他序列进行预测未来的值。支持的算法包括ARIMA算法、指数平滑算法、移动平均算法和灰色预测算法。

在一种可能实现的方式中，所述算法模型中的文本分析节点支持算法类型：

(1)分词，对输入的文本信息流进行词语切分并标注词性，将原始字符串序列转换为带标签的词序列；

(2)关键词抽取，根据设定的参数从输入的文本信息流中抽取关键词信息和关键词的权重；

(3)词频统计，根据设定的参数从输入的文本信息流中某一词语或短语出现的频率进行统计；

(4)文本过滤，根据设定的参数从输入的文本信息流中选取需要的信息，或剔除不需要的信息；

(5)文本相似度，根据设定的参数计算两个输入的文本信息流的相似度；

(6)文本摘要，根据设定的参数从输入的文本信息流中总结提取其中的主要内容。

在一种可能实现的方式中，所述语言模型包括：

本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行图1所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使5得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，

从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及0其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims

1.一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，包括数据源管理模块、大数据处理模块、可视化模型构建模块和模型解析模块；

2.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述数据管理中的数据源包括：

3.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述大数据处理采集非同源数据，经过数据抽取E、数据传输、转换和清洗T、数据转载与调试L的ETL过程，形成有效集成的数据资源；具体包括：

数据转载，将抽取、转换后的数据加载到数据库中。

4.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述算法模型中的算法包括：

文本分析：针对非结构化数据进行处理；

自定义组件：由数据分析人员自定义编程语言。

5.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述算法模型中的数据管理节点支持数据输入和数据输出；具体包括：

API输入支持将API接口数据作为数据源输入，进行挖掘分析；

6.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述算法模型中的数据处理节点支持算法类型；具体包括：

7.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述算法模型中的机器学习节点支持分类、回归、聚类、关联规则和时序模式；具体包括：

8.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述算法模型中的文本分析节点支持算法类型：

9.根据权利要求1所述的一种基于多模型的自定义算法的可视化大数据分析平台，其特征在于，所述语言模型包括：

10.一种计算机可读存储介质，所述的计算机可读存储介质存储有计算机程序，其特征在于，所述的计算机程序被处理器执行时实现如权利要求1～权利要求9任一所述方法的步骤。