WO2022257436A1

WO2022257436A1 - 基于无线通信网络数据仓库构建方法、***、设备及介质

Info

Publication number: WO2022257436A1
Application number: PCT/CN2021/142266
Authority: WO
Inventors: 张秉致; 何世文; 易云山; 王良鹏; 张祥伍; 黄永明; 尤肖虎
Original assignee: 网络通信与安全紫金山实验室
Priority date: 2021-06-08
Filing date: 2021-12-29
Publication date: 2022-12-15
Also published as: CN113259972A; CN113259972B

Abstract

一种基于无线通信网络数据仓库构建方法包括：对原始数据进行预处理，生成原始数据表，并基于不同的时间粒度和维度从原始数据中汇总关键性能指标，生成关键性能指标数据表；对原始数据表和关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，通过内生关联推理后得到初始数据分类模型；根据初始数据分类模型，对原始数据表和关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表；根据用户输入的需求字段对初始数据分类模型进行关联推理输出关联字段，计算关联字段间关联性的权值并排序，输出择优关联模型；以及根据择优关联模型，从轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对需求字段的数据仓库。

Description

基于无线通信网络数据仓库构建方法、***、设备及介质

相关申请的交叉引用

本申请要求于2021年06月08日提交中国专利局、申请号为202110634448.9、发明名称为“基于无线通信网络数据仓库构建方法、***、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及智能无线通信网络技术领域，尤其涉及一种基于无线通信网络数据仓库构建方法、***、设备及介质。

背景技术

无线通信是指多个节点间不经由导体或缆线传播进行的远距离传输通讯。商用无线通信从最初的1G发展到目前的5G，以及未来的6G，通信的流量带宽越来越大，功能越来越强大。一个无线通信网络从使用终端、接入网到核心网都涉及许多复杂的数据，有成千上万个数据字段和指标，涉及不同的软硬件、功能、以及协议栈。对无线通信网络运行过程中形成的各类数据进行有效归集与合理使用，能够最大发掘无线通信网络的服务潜能，促进无线通信网络技术优势的进一步发挥。

大数据和人工智能技术的不断进步，促使无线通信朝着智能化的趋势发展，而这一实现的前提是无线大数据。无线通信数据的采集主要由电信运营商、电信设备提供商、应用服务提供商完成。采集节点包括终端侧的智能手机以及各类传感器等、接入侧的宏/微基站和核心网侧的专用数据采集单元。采集手段包括原始数据记录和深度包解析(Deep Packet Inspection，DPI)等。

数据仓库是针对具体的分析需求案例，将采集的原始数据进行综合、归类和分析利用的数据集合。传统的数据仓库构建都是基于现有的领域知识进行数据建模，在面对关联关系相对复杂的无线通信网络数据，无法完整精准地提取符合分析需求的数据，从而影响分析结果的精准度。

发明内容

根据本申请的各种实施例，提供一种基于无线通信网络数据仓库构建方法、***、设备及介质。

在一方面，提供一种基于无线通信网络数据仓库构建方法，包括：对原始数据进行预处理，生成原始数据表，并基于不同的时间粒度和维度从所述原始数据中汇总关键性能指标，生成关键性能指标数据表；对所述原始数据表和所述关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，通过内生关联推理后得到初始数据分类模型；根据所述初始数据分类模型，对所述原始数据表和所述关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表，所述轻度汇聚数据表包括不同类的原始数据分表和关键性能指标数据分表；根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型；以及根据所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库，所述数据仓库中汇总有与需求字段相关联的信息。

在一个实施例中，所述维度包括用户、小区、流程。

在一个实施例中，所述原始数据包括无线通信网络的接入网数据和核心网数据，所述原始数据通过采集软件，采集存储到以hive为软件架构的数据平台，通过空值、无效值的剔除，按照时间范围进行分区存储。

在一个实施例中，所述对预处理的数据进行知识抽取包括：通过利用所述原始数据表的字段和所述关键性能指标数据表的关键性能指标字段之间存在的相应的关联性执行知识抽取，将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵，并对每个矢量矩阵中的权值初始化。

在一个实施例中，所述构建关联规则并生成知识图谱包括：以无线通信网络协议为依据，确定关联规则，根据所述关联规则采用不同的权值定义所述关联性的强弱，并将所述权值赋值到知识抽取生成的所述若干个矢量矩阵中；以及将所述若干个矢量矩阵拆分成若干个三元组，每个所述三元组包含两个关联字段以及矢量矩阵中的权值，并且以图的形式存储，生成若干个字段之间关联性的知识图谱。

在一个实施例中，所述权值的赋值通过可视化的界面进行输入填充，或者以文本文件的形式批量加载。

在一个实施例中，所述通过内生关联推理后得到初始数据分类模型，包括：

通过预设的马尔科夫逻辑网络模型关联推理算法，对所述原始数据表和所述关键性能指标数据表中的字段进行分类，形成初始数据分类模型。

在一个实施例中，所述根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型，包括：将用户输入的需求字段与初始数据分类模型进行关联推理，分析得出初始数据分类模型中与所述需求字段存在关联的若干个关联类，以及每个所述关联类中与所述需求字段存在关联的若干个关联字段；计算与所述需求字段存在关联的所述关联字段间关联性的权值，所述关联字段包含关联的所述原始数据表的字段以及关联的所述关键性能指标字段；以及对每个所述关联类中的关联字段按照所述关联性的权值进行排序，提取权值大的若干位关联字段及其所在的轻度汇聚数据表，将所述权值大的若干位关联字段的关联字段名、表名按照预定的数据结构存储，输出择优关联模型。

在一个实施例中，所述需求字段包括数据字段、时间粒度、字段阈值。

在一个实施例中，所述根据输出的所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库包括：根据输出的所述择优关联模型，编写相应的数据抽取-转换-装载程序；所述数据抽取-转换-装载程序用于从所述轻度汇聚数据表中提取相应的符合需求的关联数据，分别以关联类关键性能指标分表、关联类数据分表的形式存储，所述关联类关键性能指标分表和所述关联类数据分表构成针对所述需求字段的数据仓库。

在另一方面，提供一种基于无线通信网络数据仓库构建***，包括：数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元；

所述数据明细处理单元包括预处理模块和关键性能指标汇总模块，所述预处理模块用于对原始数据进行预处理，生成原始数据表；所述关键性能指标汇总模块用于根据不同的时间粒度和维度从原始数据中汇总关键性能指标，生成关键性能指标数据表；

所述内生关联建模单元用于对所述数据明细处理单元预处理得到的所述原始数据表和所述关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，进行内生关联推理，以生成初始数据分类模型，根据所述初始数据分类模型构建初始分类的轻度汇聚数据表，并将所述轻度汇聚数据表输出至数据仓库构建单元；

所述需求关联推理单元用于根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型；并且

所述数据仓库构建单元用于根据输出的所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库，所述数据仓库中汇总有与所述需求字段相关联的信息。

在一个实施例中，所述维度包括用户、小区、流程。

在一个实施例中，所述内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块；

所述知识抽取模块用于对预处理得到的所述原始数据表和所述关键性能指标数据表进行知识抽取，将预处理后的所述原始数据表的字段、所述关键性能指标数据表的关键性能指标字段，汇总整合成若干个矢量矩阵，并对每个所述矢量矩阵中的权值初始化；

所述关联规则模块用于以无线通信网络协议为依据，构建缓慢变化的关联规则，根据所述关联规则，对所述知识抽取模块形成的所述若干个矢量矩阵中的权值进行赋值，并实时保存赋值后的所述若干个矢量矩阵；

所述知识图谱构建模块用于将所述关联规则模块存储的若干个矢量矩阵拆分成若干个三元组，每个所述三元组包含两个关联字段以及矢量矩阵中的权值，并且以图的形式存储，生成若干个字段之间关联性的知识图谱；

所述内生关联推理模块用于对所述知识图谱构建模块提供的所述知识图谱，通过预设的关联推理算法，将所述原始数据表和所述关键性能指标数据表中的字段进行分类，生成初始数据分类模型，根据所述初始数据分类模型对所述原始数据表和所述关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表，并将所述轻度汇聚数据表通过后端程序输出给所述数据仓库构建单元。

在一个实施例中，所述预设的关联推理算法是基于马尔科夫逻辑网络模型算法。

在一个实施例中，所述需求关联推理单元包括具体需求输入模块、关联字段推理模块、权重排序择优模块和关联模型输出模块；

所述具体需求输入模块用于输入用户对数据仓库的具体需求字段，所述需求字段包括数据字段、时间粒度、字段阈值；

所述关联字段推理模块用于在接收到所述具体需求输入模块传输的需求字段后，将所述需求字段与所述内生关联建模单元生成的所述初始数据分类模型进行关联推理，得到所述初始数据分类模型中与所述需求字段存在关联的若干个关联类和以及每个所述关联类中与所述需求字段存在关联的若干个关联字段，计算与所述需求字段存在关联的所述关联字段间关联性的权值；所述关联字段包含关联的所述原始数据表的字段以及关联的关键性能指标字段；

所述权重排序择优模块用于将所述关联字段推理模块输出的所述关联字段按照权值进行排序，提取权值排前的若干位关联字段，将所述权值排前的若干位关联字段按照原始数据表的字段、关键性能指标字段两种类型输出给所述关联模型输出模块；

所述关联模型输出模块用于将所述权重排序择优模块输出的两种类型的所述关联字段，结合所述具体需求输入模块输入的所需求字段，生成符合需求的择优关联模型，传输给所述数据仓库构建单元。

在一个实施例中，所述数据仓库构建单元包括模型分表ETL模块和关联数据提取ETL模块，所述模型分表ETL模块用于接收所述内生关联建模单元传输的所述初始分类数据模型，对预处理后的所述原始数据表以及汇总的所述关键性能指标数据表进行分表处理，生成若干个轻度汇聚数据表；所述关联数据提取ETL模块用于接收所述需求关联推理单元传输的所述择优关联模型，根据所述轻度汇聚数据表生成若干个关联数据分表，构建针对所述需求字段的数据仓库。

在另一方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。

在另一方面，提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于被处理器执行时实现以上任一所述的一种基于无线通信网络数据仓库构建方法。

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

图1为根据本申请一实施例的方法流程图；

图2为根据本申请一实施例的装置结构示意图。

具体实施方式

以下结合附图对本申请的一种基于无线通信网络数据仓库构建方法、***、设备及介质做进一步的说明和解释。

如图1所示，其示出了根据本申请一实施例的基于无线通信网络数据仓库构建方法的示例性流程图。

所述方法具体包括以下步骤：

步骤S01，对原始数据进行预处理，生成原始数据表，并从原始数据中汇总出关键性能指标(Key Performance Indicator，KPI)，生成关键性能指标数据表。

关键性能指标的汇总可以基于不同的时间粒度和维度，在维度上包含用户、小区、流程等多种维度。其中原始数据包括无线通信网络的接入网数据和核心网数据两部分。原始数据通过各种采集软件，采集存储到以hive为软件架构的数据平台，通过初步的空值、无效值的剔除，按照时间范围进行分区存储。然后以不同的时间粒度，对各类原始数据的关键性能指标进行计算，生成对应的关键性能指标数据表。

以原始数据表中的通信数据为例，基于单位时间的时间粒度，统计原始数据表中不同通信流程单位时间内的成功失败次数，并汇总关键性能指标，包括：注册成功次数、注册失败次数、UE鉴权成功次数、UE鉴权失败次数、PDU_Session资源建立请求成功次数、PDU_Session资源建立请求失败次数、5G切出成功次数和5G切出失败次数。

在一个实施例中，以核心网N1接口的数据作为原始数据，N1数据包含的信令流程分类如下表1所示：

表格1

如上表1所示，将N1的数据宽表，经过脏数据处理，去除冗余字段。同时分别统计不同单类信令，例如注册流程在15分钟、一个小时，一天时间粒度下的成功失败次数，形成不同时间粒度关键性能指标统计数据，导入对应的关键性能指标数据表。

本申请所提供的基于无线通信网络数据仓库构建方法，根据原始数据的来源，可应用在不同的网络协议中，包括无线通信数据，既可应用在网络层以上，也可应用在物理层和数据链路层的数据。

步骤S02，对预处理得到的原始数据表和关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，通过内生关联推理后得到初始数据分类模型。

内生关联指的是事物内部各元素隐藏的关联关系，包含原始数据表的字段、关键性能指标数据表的关键性能指标字段之间隐藏的关联关系。内生关联分析指代的是通过建立数据、图结构分析模型等方法，实现对协议规定的无线通信网络内部的一些体现、影响业务数据流向及网络性能的数据、指标间隐藏关联关系的挖掘。

将预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段都作为无线通信网络的知识，这些字段之间存在或远或近的关联性，可以利用字段之间存在的关联性执行知识抽取。例如，原始数据的某个字段值的变化会影响另一些字段值的变化。关键性能指标字段是通过对原始数据部分字段的信息进行汇总而得到的，原始数据部分字段的字段值的变化影响着关键性能指标字段的字段值的变化。关键性能指标字段与关键性能指标字段也存在着影响关系，一个关键性能指标字段的字段值的变化会导致另一些关键性能指标字段的字段值也发生变化。

通过知识抽取，将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵，并对每个矢量矩阵中的权值初始化，如权值的初值均设置为0。

以无线通信网络协议为依据，包括对3GPP协议、行业规范的理解，确定关联规则，根据关联规则可以用不同的权值定义这种关联性的强弱，并将权值赋值到知识抽取生成的若干个矢量矩阵中，即采用某种缓慢变化的关联规则后，对权值进行赋值，如下表2所示，w表示两个字段之间的权值：

表格2

	字段1	字段2	字段3	…	字段N
字段1	0	w ₁₂	w ₁₃		w _1n
字段2	w ₁₂	0	w ₂₃		w _2n
字段3	w ₁₃	w ₂₃	0		w _3n
…	…	…	…	0	…
字段N	w _1n	w _2n	w _3n		0

这些矢量矩阵可以拆分成若干个三元组，每个三元组包含两个关联字段，以及矩阵中的权值。例如字段1和字段2之间的三元组可表示为(字段1，权值w12，字段2)。三元组可以以图的形式存储。结合不同算法，例如K-means算法，可以生成若干张字段之间关联性的知识图谱。

本申请的一个实施例中，图三元组(以图的形式存储的三元组)的存储方式可以使用Neo4j图数据库。本申请有效厘清无线通信网络复杂关系，通过对隐藏在数据背后的字段之间的内生关联进行挖掘，将无线通信网络中的各种数据字段之间的关系以知识图谱的形式进行表征。

生成知识图谱后，利用预设的关联推理算法，例如马尔科夫逻辑网络模型关联推理算法，可以将原始数据表、关键性能指标数据表中的字段划分成若干类。这些分类，形成一个初始的对预处理的原始数据表、关键性能指标数据表的初始数据分类模型。

在一个实施例中，以核心网N1接口的数据作为原始数据，通过对核心网N1接口的数据进行预处理，生成原始数据表和关键性能指标数据表。其中原始数据表中包含N1接口数据的字段，关键性能指标数据表中包含关键性能指标字段。N1接口数据的字段、关键性能指标字段共包含100多个字段，对这100多个字段进行内生关联推理，获取N1接口数据的字段和关键性能指标字段之间隐藏的关联关系，生成初始数据分类模型。在本实施例中，通过马尔科夫逻辑网络模型关联推理算法将N1接口数据的字段和关键性能指标字段划分为若干分类，进而生成初始数据分类模型，该实施例中，生成的初始数据分类模型部分内容如下表3所示：

表格3

步骤S03，根据内生关联推理生成的初始数据分类模型，构建初始分类的轻度汇聚数据表。

得到内生关联推理生成的初始数据分类模型，就可以对预处理的原始数据表、关键性能指标表进行拆分，生成不同类的原始数据分表和关键性能指标数据分表，定义为初始分类的轻度汇聚数据表，作为后续需求关联推理处理的基础数据。

步骤S04，根据用户输入的需求字段对初始数据分类模型进行关联推理输出关联字段，计算关联字段间关联性的权重并排序，并输出择优关联模型；

轻度汇聚数据表不能直接作为提供具体应用的分析数据，需要结合具体的应用需求，做进一步处理，才能使用。数据应用者即用户基于传统的通信知识提出对数据仓库的具体需求字段，并输入需求字段。需求字段包括数据字段、时间粒度、字段阈值。将这些需求字段与初始数据分类模型进行关联推理，可以分析出哪些数据分类中的哪些关联字段与需求字段存在关联。这里的关联字段包含原始数据表的字段以及关键性能指标字段。

在一个实施例中，步骤S04包括：将用户输入的需求字段与初始数据分类模型进行关联推理，分析得出初始数据分类模型中与需求字段存在关联的若干个关联类，以及每个关联类中与需求字段存在关联的若干个关联字段；计算与需求字段存在关联的所有关联字段间关联性的权值，关联字段包含原始数据表的字段以及关键性能指标字段；以及对每个关联类中的关联字段按照关联性的权值进行排序，提取权值大的若干位关联字段及其所在的轻度汇聚数据表，将权值大的若干位关联字段的关联字段名、表名按照预定的数据结构存储，输出择优关联模型。

示例地，以核心网N1接口的数据作为原始数据，针对N1数据的分析需求，通过分析可以得出M个数据类与需求字段存在关联，称作关联类1，关联类2，…，关联类M。每个关联类中又有若干个关联字段与需求字段是存在关联的，并且可以计算出这种关联性的权值。对每个关联类中的关联字段按照关联性的权值进行排序，选取排前的若干位字段，例如选取权值排前的前10位字段。这10个字段中可能既有原始数据的字段，也有关键性能指标字段，将这两类字段和字段所在的轻度汇聚数据表提取出来，以一定的数据结构存储，就构成了一个符合需求的择优关联模型。

步骤S05，根据输出的择优关联模型，从轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对需求字段的相应数据仓库。

生成的数据仓库中汇总有与需求字段相关联的信息，例如可以汇总所有与需求字段相关联的信息，从而可以方便数据分析人员根据所述数据仓库更精准直接的对数据做分析应用。

在一个实施例中，获取到符合需求的择优关联模型后，通过编写相应的数据抽取-转换-装载(Extract-Transform-Load，ETL)程序，就可以从轻度汇聚数据表中提取到相应的符合应用需求的关联数据，分别以关联类关键性能指标分表、关联类数据分表的形式存储，这些关联类的关联数据分表就构成一个针对需求字段的数据仓库，便于数据分析人员更精准直接的对数据做分析应用。

本申请通过关联推理分析出不同需求的关联字段，有效提高无线通信网络的数据仓库主题的有效信息，生成针对需求字段的数据仓库，数据仓库中汇总所有与需求字段相关联的信息，进而提高后期数据处理的准确性，并为研究人员提供更多有价值的参考字段，同时避免在一些无效信息上浪费时间和精力，方便研究人员进行更有针对性的数据分析与研究，为无线通信网络性能提升调优的研究提供更加有力的支持。此外，本申请有利于无线网络的性能优化，如在故障检测场景中，通过本申请构建的数据仓库，为故障检测提供更加针对性以及更加全面和准确的数据分析。

进一步参考附图2，其示出了本实施例提供的一种基于无线通信网络数据仓库构建***的结构性框图。该***包括数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元。

数据明细处理单元包括预处理模块和关键性能指标汇总模块。预处理模块用于对原始数据进行预处理，生成原始数据表。原始数据包括无线通信网络的接入网数据和核心网数据两部分。原始数据通过各种采集软件，采集存储到以hive为软件架构的数据平台。预处理模块中以shell语言编写hive的执行脚本，再采用调度工具定时执行，周期性完成相关的处理过程，并存储到hive数据平台。关键性能指标汇总模块用于从原始数据中汇总关键性能指标，生成关键性能指标数据表。

内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块。内生关联建模单元用于对数据明细处理单元预处理得到的原始数据表和关键性能指标数据表进行知识抽取，以图的形式存储相应的关联规则，然后构建知识图谱，最后进行内生关联推理，从而生成初始数据分类模型并输出。

在一个实施例中，知识抽取模块用于将预处理得到的各类原始数据表的各种字段、关键性能指标表的关键性能指标字段，根据传统的通信领域的知识，汇总整合成若干个矢量矩阵，并对每个矢量矩阵中的权值初始化，即在构建关联规则之前，矢量矩阵中的权值都设为0。

关联规则模块用于构建缓慢变化的关联规则，包括以无线通信网络协议为依据，对知识抽取模块形成的矢量矩阵中的权值进行赋值，并实时保存赋值后的矢量矩阵。

在一个实施例中，权值的赋值通过可视化的界面进行输入填充，或者以文本文件的形式批量加载。

知识图谱构建模块用于将关联规则模块存储的若干个矢量矩阵拆分成若干个三元组，每个三元组包含两个关联字段以及矢量矩阵中的权值，是根据关联规则模块存储的矢量矩阵；将原始数据表的字段、关键性能指标字段之间的关联关系以图的形式在图数据库软件中存储，并结合不同的数据算法，生成关键性能指标、算法类型的三元组信息，表示为(属性字段、生效关系、统计指标)，(统计指标，算法关系，算法类型数据指标)；其中三元组中的生效关系，算法关系，采用权值的形式表示，存储在图数据库中，构建一张内生关联推理所需的知识图谱。

在一个实施例中，以信令流程为例，关联规则的图三元组表示为(流程类型，流程关系，属性字段)，流程根据其涉及的属性字段，可以存储多个三元组。

内生关联推理模块，用于对知识图谱构建模块提供的知识图谱，基于预设的关联推理算法做相关的算法的推理，预设的关联推理算法可以是基于马尔科夫逻辑网络模型算法；将原始数据表和关键性能指标数据表中的字段做相应的分类，生成初始数据分类模型；根据初始数据分类模型对原始数据表、关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表，并将轻度汇聚数据表通过后端程序输出给数据仓库构建单元。

需求关联推理单元，用于在接收到用户输入的具体的需求字段后，将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理，得到相应的择优关联模型，并输出给数据仓库构建单元，包括具体需求输入模块、关联字段推理模块、权重排序择优模块、关联模型输出模块。

具体需求输入模块，是一个前端显示的软件模块，用于输入用户对数据仓库的需求字段，需求字段包括但不限于数据字段、时间粒度、字段阈值。

关联字段推理模块是在接收到具体需求输入模块传输的需求字段后，基于预设算法，如基于马尔科夫逻辑网络模型算法，将需求字段与内生关联建模单元生成的初始数据分类模型进行关联推理，得到需求字段在初始数据分类模型中的若干关联类以及其中关联的原始数据表的字段、关联的关键性能指标字段的权值。

权重排序择优模块用于将关联字段推理模块输出的关联字段按照权值进行排序，然后再选择权值排前的若干位关联字段，将选择的权值排前的若干位关联字段按照关联原始数据表的字段、关联关键性能指标字段两种类型输出给关联模型输出模块。

关联模型输出模块，将权重排序择优模块输出的两种类型的关联字段，结合具体需求输入模块输入的时间粒度、字段阈值等条件下的需求字段，生成符合需求的择优关联模型，传输给数据仓库构建单元。

数据仓库构建单元，包括模型分表ETL模块，和关联数据提取ETL模块，分别用于接收内生关联建模单元和需求关联推理单元传输的数据模型，对数据做两阶段的处理，最后生成数据仓库。

模型分表ETL模块用于接收内生关联建模单元传输的初始分类数据模型，对预处理后的原始数据表以及汇总的关键性能指标数据表进行分表处理，生成若干个轻度汇聚数据表。

关联数据提取ETL模块用于接收需求关联推理单元传输的择优关联模型，对轻度汇聚数据表进行操作，生成若干个关联数据分表，构建成针对需求字段的数据仓库。

在一个实施例中，ETL的脚本由后端程序根据数据模型，生成处理脚本，然后通过前端配置执行周期后，通过调度软件周期执行。

上述基于无线通信网络数据仓库构建***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于服务器中的处理器中，也可以以软件形式存储于服务器中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现以上任一实施例所述的一种基于无线通信网络数据仓库构建方法。存储器可为各种类型的存储器，可为随机存储器、只读存储器、闪存等。处理器可为各种类型的处理器，例如，中央处理器、微处理器、数字信号处理器或图像处理器等。

一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于被处理器执行时实现以上任一实施例所述的一种基于无线通信网络数据仓库构建方法。存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

如在本申请中所使用的，术语“组件”、“模块”和“***”等旨在表示计算机相关的实体，它可以是硬件、硬件和软件的组合、软件、或者执行中的软件。例如，组件可以是但不限于是，在处理器上运行的进程、处理器、对象、可执行码、执行的线程、程序和/或计算机。作为说明，运行在服务器上的应用程序和服务器都可以是组件。一个或多个组件可以驻留在进程和/或执行的线程中，并且组件可以位于一个计算机内和/或分布在两个或更多的计算机之间。

以上所述仅是本申请的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种基于无线通信网络数据仓库构建方法，包括：

对原始数据进行预处理，生成原始数据表，并基于不同的时间粒度和维度从所述原始数据中汇总关键性能指标，生成关键性能指标数据表；

对所述原始数据表和所述关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，通过内生关联推理后得到初始数据分类模型；

根据所述初始数据分类模型，对所述原始数据表和所述关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表，所述轻度汇聚数据表包括不同类的原始数据分表和关键性能指标数据分表；

根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型；以及

根据所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库，所述数据仓库中汇总有与所述需求字段相关联的信息。
根据权利要求1所述的方法，其中，所述维度包括用户、小区、流程。
根据权利要求1所述的方法，其中，所述原始数据包括无线通信网络的接入网数据和核心网数据，所述原始数据通过采集软件，采集存储到以hive为软件架构的数据平台，通过空值、无效值的剔除，按照时间范围进行分区存储。
根据权利要求1所述的方法，其中，所述对预处理的数据进行知识抽取包括：

通过利用所述原始数据表的字段和所述关键性能指标数据表的关键性能指标字段之间存在的相应的关联性执行知识抽取，将所述预处理后的原始数据表的字段、关键性能指标数据表的关键性能指标字段汇总整合成若干个矢量矩阵，并对每个矢量矩阵中的权值初始化。
根据权利要求4所述的方法，其中，所述构建关联规则并生成知识图谱包括：

以无线通信网络协议为依据，确定关联规则，根据所述关联规则采用不同的权值定义所述关联性的强弱，并将所述权值赋值到知识抽取生成的所述若干个矢量矩阵中；以及

将所述若干个矢量矩阵拆分成若干个三元组，每个所述三元组包含两个关联字段以及矢量矩阵中的权值，并且以图的形式存储，生成若干个字段之间关联性的知识图谱。
根据权利要求5所述的方法，所述权值的赋值通过可视化的界面进行输入填充，或者以文本文件的形式批量加载。
根据权利要求1所述的方法，其中，所述通过内生关联推理后得到初始数据分类模型，包括：

通过预设的马尔科夫逻辑网络模型关联推理算法，对所述原始数据表和所述关键性能指标数据表中的字段进行分类，形成初始数据分类模型。
根据权利要求1所述的方法，其中，所述根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型，包括：

将用户输入的需求字段与初始数据分类模型进行关联推理，分析得出初始数据分类模型中与所述需求字段存在关联的若干个关联类，以及每个所述关联类中与所述需求字段存在关联的若干个关联字段；

计算与所述需求字段存在关联的所述关联字段间关联性的权值，所述关联字段包含关联的所述原始数据表的字段以及关联的所述关键性能指标字段；以及

对每个所述关联类中的关联字段按照所述关联性的权值进行排序，提取权值大的若干位关联字段及其所在的轻度汇聚数据表，将所述权值大的若干位关联字段的关联字段名、表名按照预定的数据结构存储，输出择优关联模型。
根据权利要求1所述的方法，其中，所述需求字段包括数据字段、时间粒度、字段阈值。
根据权利要求1所述的方法，其中：所述根据输出的所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库包括：

根据输出的所述择优关联模型，编写相应的数据抽取-转换-装载程序；所述数据抽取-转换-装载程序用于从所述轻度汇聚数据表中提取相应的符合需求的关联数据，分别以关联类关键性能指标分表、关联类数据分表的形式存储，所述关联类关键性能指标分表和所述关联类数据分表构成针对所述需求字段的数据仓库。
一种基于无线通信网络数据仓库构建***，包括：数据明细处理单元、内生关联建模单元、需求关联推理单元和数据仓库构建单元；

所述数据明细处理单元包括预处理模块和关键性能指标汇总模块，所述预处理模块用于对原始数据进行预处理，生成原始数据表；所述关键性能指标汇总模块用于根据不同的时间粒度和维度从所述原始数据中汇总关键性能指标，生成关键性能指标数据表；

所述内生关联建模单元用于对所述数据明细处理单元预处理得到的所述原始数据表和所述关键性能指标数据表进行知识抽取，构建关联规则并生成知识图谱，进行内生关联推理，以生成初始数据分类模型，根据所述初始数据分类模型构建初始分类的轻度汇聚数据表，并将所述轻度汇聚数据表输出至数据仓库构建单元；

所述需求关联推理单元用于根据用户输入的需求字段对所述初始数据分类模型进行关联推理输出关联字段，计算所述关联字段间关联性的权值并排序，输出择优关联模型；并且

所述数据仓库构建单元用于根据输出的所述择优关联模型，从所述轻度汇聚数据表中，进行数据的抽取、转换、装载，生成针对所述需求字段的数据仓库，所述数据仓库中汇总有与所述需求字段相关联的信息。
根据权利要求11所述的***，其中，所述维度包括用户、小区、流程。
根据权利要求11所述的***，其中，所述原始数据包括无线通信网络的接入网数据和核心网数据，所述原始数据通过采集软件，采集存储到以hive为软件架构的数据平台，通过空值、无效值的剔除，按照时间范围进行分区存储。
根据权利要求11所述的***，其中：所述内生关联建模单元包括知识抽取模块、关联规则模块、知识图谱构建模块和内生关联推理模块；

所述知识抽取模块用于对预处理得到的所述原始数据表和所述关键性能指标数据表进行知识抽取，将预处理后的所述原始数据表的字段、所述关键性能指标数据表的关键性能指标字段，汇总整合成若干个矢量矩阵，并对每个所述矢量矩阵中的权值初始化；

所述关联规则模块用于以无线通信网络协议为依据，构建缓慢变化的关联规则，根据所述关联规则，对所述知识抽取模块形成的所述若干个矢量矩阵中的权值进行赋值，并实时保存赋值后的所述若干个矢量矩阵；

所述知识图谱构建模块用于将所述关联规则模块存储的所述若干个矢量矩阵拆分成若干个三元组，每个所述三元组包含两个关联字段以及矢量矩阵中的权值，并且以图的形式存储，生成若干个字段之间关联性的知识图谱；

所述内生关联推理模块用于对所述知识图谱构建模块提供的所述知识图谱，通过预设的关联推理算法，将所述原始数据表和所述关键性能指标数据表中的字段进行分类，生成初始数据分类模型，根据所述初始数据分类模型对所述原始数据表和所述关键性能指标数据表进行拆分，构建初始分类的轻度汇聚数据表，并将所述轻度汇聚数据表通过后端程序输出给所述数据仓库构建单元。
根据权利要求14所述的***，其中，所述预设的关联推理算法是基于马尔科夫逻辑网络模型算法。
根据权利要求14所述的***，其中，所述权值的赋值通过可视化的界面进行输入填充，或者以文本文件的形式批量加载。
根据权利要求12所述的***，其中：所述需求关联推理单元包括具体需求输入模块、关联字段推理模块、权重排序择优模块和关联模型输出模块；

所述具体需求输入模块用于输入用户对数据仓库的需求字段，所述需求字段包括数据字段、时间粒度、字段阈值；

所述关联字段推理模块用于在接收到所述具体需求输入模块传输的需求字段后，将所述需求字段与所述内生关联建模单元生成的所述初始数据分类模型进行关联推理，得到所述初始数据分类模型中与所述需求字段存在关联的若干个关联类以及每个所述关联类中与所述需求字段存在关联的若干个关联字段，计算与所述需求字段存在关联的所述关联字段间关联性的权值；所述关联字段包含关联的所述原始数据表的字段以及关联的关键性能指标字段；

所述权重排序择优模块用于将所述关联字段推理模块输出的所述关联字段按照所述权值进行排序，提取权值排前的若干位关联字段，将所述权值排前的若干位关联字段按照原始数据表的字段、关键性能指标字段两种类型输出给所述关联模型输出模块；

所述关联模型输出模块用于将所述权重排序择优模块输出的两种类型的所述关联字段，结合所述具体需求输入模块输入的所述需求字段，生成符合需求的择优关联模型，传输给所述数据仓库构建单元。
根据权利要求12所述的***，其中：所述数据仓库构建单元包括模型分表ETL模块和关联数据提取ETL模块，所述模型分表ETL模块用于接收所述内生关联建模单元传输的所述初始分类数据模型，对预处理后的所述原始数据表以及汇总的所述关键性能指标数据表进行分表处理，生成若干个轻度汇聚数据表；所述关联数据提取ETL模块用于接收所述需求关联推理单元传输的所述择优关联模型，根据所述轻度汇聚数据表生成若干个关联数据分表，构建针对所述需求字段的数据仓库。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-11中任一项所述的基于无线通信网络数据仓库构建方法。
一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于被处理器执行时实现如权利要求1-11中任一项所述的基于无线通信网络数据仓库构建方法。