CN110750685B

CN110750685B - 一种数据入库方法及装置

Info

Publication number: CN110750685B
Application number: CN201910936699.5A
Authority: CN
Inventors: 王静云; 郭景赞; 田元兵; 乔自知; 郭省力; 李德屹; 李京辉; 金雨超
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-08-26
Anticipated expiration: 2039-09-29
Also published as: CN110750685A

Abstract

本发明的实施例公开一种数据入库方法及装置，涉及计算机领域。能够通过采用多维度层次聚类算法实现网络数据的自动入库，减少运维成本。该方法包括：获取用户终端的网络数据样本，并从网络数据样本中抽取类别最少的一列数据作为特征样本；对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组；将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置。本发明实施例应用于网络***。

Description

一种数据入库方法及装置

技术领域

本发明的实施例涉及计算机领域，尤其涉及一种数据入库方法及装置。

背景技术

随着5G的发展，网络数据的海量性和类型复杂性迫切需要实现智能的数据分析和处理***。针对各个厂商上报的原始数据，解析后的数据处理入库需要大量的人工和时间成本去适应不同类型、实时变化的网络数据。目前的数据入库操作需要人工配置库表结构(表名以及库表的字段和类型)，然而数据库表名、表字段、字段类型以及字段顺序的变化等会导致入库的失败。由于网络数据类型的多样性特性以及实时性的需求，现有的网络数据入库方法由于需要消耗大量的人力和时间成本去做数据库库表结构构建的操作，自动化能力较低，无法满足智能运维的要求。

发明内容

本发明的实施例提供一种数据入库方法及装置，能够通过采用多维度层次聚类算法实现网络数据的自动入库，减少运维成本。

为达到上述目的，本发明采用如下技术方案：

第一方面，提供一种数据入库方法，该方法包括：获取用户终端的网络数据样本，并从网络数据样本中抽取类别最少的一列数据作为特征样本；对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组；将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置。

在上述方法中，首先通过获取用户终端的网络数据样本，并从网络数据样本中抽取类别最少的一列数据作为特征样本；使得网络数据在后续存入数据库时更加规范。然后，对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组；来提高网络数据分类的自动化能力。最后，将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置；以便解决现有技术中需要消耗大量的人力和时间成本去做数据库库表结构构建的问题，减少了网络数据入库的运维成本。

第二方面，提供一种数据入库装置，该数据入库装置包括：获取单元，用于获取用户终端的网络数据样本；处理单元，用于从获取单元获取的网络数据样本中抽取类别最少的一列数据作为特征样本；处理单元，还用于对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组；处理单元，还用于将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置。

可以理解地，上述提供的数据入库装置用于执行上文所提供的第一方面对应的方法，因此，其所能达到的有益效果可参考上文第一方面对应的方法以及下文具体实施方式中对应的方案的有益效果，此处不再赘述。

第三方面，提供了一种数据入库装置，该数据入库装置的结构中包括处理器和存储器，存储器用于与处理器耦合，保存该数据入库装置必要的程序指令和数据，处理器用于执行存储器中存储的程序指令，使得该数据入库装置执行第一方面的方法。

第四方面，提供一种计算机存储介质，计算机存储介质中存储有计算机程序代码，当计算机程序代码在数据入库装置上运行时，使得该数据入库装置执行上述第一方面的方法。

第五方面，提供一种计算机程序产品，该计算机程序产品储存有上述计算机软件指令，当计算机软件指令在数据入库装置上运行时，使得该数据入库装置执行如上述第一方面的方法的程序。

附图说明

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种数据入库方法的流程示意图；

图2为本发明的实施例提供的一种数据入库装置的结构示意图；

图3为本发明的实施例提供的又一种数据入库装置的结构示意图；

图4为本发明的实施例提供的再一种数据入库装置的结构示意图。

具体实施方式

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

还需要说明的是，本发明实施例中，“的(英文：of)”，“相应的(英文：corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

据互联网数据中心多年的研究结果表明，全球网络数据量大约每2年翻一番，每年产生的网络数据量按指数增长，网络数据增速符合摩尔定律，预计到2020年，全球网络总数据量将达到35ZB。如何对这些海量的网络数据进行有效采集、加载、分析和处理已成为大数据应用的一个重要环节及基础。现有的网络数据入库方法由于需要消耗大量的人力和时间成本去做数据库库表结构构建的操作，自动化能力较低，无法满足智能运维的要求。

针对现有技术中存在的问题，参照图1，本发明实施例提供一种数据入库方法，该方法包括：

101、获取用户终端的网络数据样本，并从网络数据样本中抽取类别最少的一列数据作为特征样本。

其中，获取用户终端的网络数据样本，具体包括：采集用户终端的网络数据，并对网络数据按照字段key_m-特征值value_mn的列表格式进行解析处理生成网络数据样本；其中m表示列，n表示行。

需要说明的是，用户终端的网络数据至少包括以下的一项或多项：用户终端网络配置数据、接入网数据以及核心网数据等。key或者value的形式可以数值类型或者涉及各种类型的字符串(如中文或英文等)。

示例性的，数据采集模块的数据输入，通过对用户终端的网络数据文件进行解析处理后，生成统一的数据类型为键值对(key-value)的列表格式，作为数据清洗模块的数据特征输入网络数据样本[key_m-value_mn]。其中，m表示列，n表示行也可以表示类别，处理的网络数据文件类型包括有xml、csv以及txt等。键值对列表[keys-values]为一个list，且由多个键值对构成，第i个样本数学表达表示为：[key₁-value₁₁，key₂-value₂₁，key₃-value₃₁，…，key_m-value_m1]。每个键或字段key代表一个维度的数据特征，value为该字段key对应的值。如式(1-1)所示的网络数据样本；其中。每行代表一个输入样本，每列代表一维特征样本。

可选的，由于考虑到网络数据在采集时可能会存在错误、无效等特征值；因此，采集用户终端的网络数据之后，还包括：对网络数据采用机器学习算法进行清洗处理网络数据中重复以及无效的特征值。

102、对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组。

其中，对特征样本进行相似度计算生成特征样本的相似度矩阵，具体包括：

对特征样本根据以下公式(1-2)和(1-3)进行相似度计算生成特征样本的相似度矩阵：

D(x,x)＝D(y,y)＝0(1-3)；

其中，x和y分别表示特征样本中不同的数据。

103、将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置。

需要说明的是，层次聚类树的预设顺序可以是将层次聚类树中的网络数据按照层次聚类树的层次划分结构(如层次聚类树是按照从上至下的顺序进行分层)将层次聚类树中对应的网络数据输入至数据库库表中。具体的，将网络数据对应输入至层次聚类构建的表名、表字段以及字段的数据类型的库表中。

为了更好的理解，本发明实施例针对上述方法进行示例性说明，具体如下：

采集用户终端的网络数据如表1所示。

表1

对表1中的网络数据样本通过解析处理后生成如表2所示的key_m-value_mn的列表格式。

表2

样例编号
			1	begin Time:2019-06-18T03:00:00+08:00	duration:PTS900
2	begin Time:2019-06-18T03:00:00+08:00	duration:PTS3600
			3	begin Time:2019-06-18T04:00:00+08:00	duration:PTS1200
4	begin Time:2019-06-18T03:00:00+08:00	duration:PTS900
			5	begin Time:2019-06-18T04:00:00+08:00	duration:PTS900
6	begin Time:2019-06-18T04:00:00+08:00	duration:PTS3600

由于key为beginTime中对应的数据类别value_n为两类，key为duration对应的数据类别value_n为三类。因此，现以key为beginTime示例计算对应value间的相似度矩阵，那么value_n如表3所示：

表3

value<sub>1</sub>	2019-06-18T03:00:00+08:00
		value<sub>2</sub>	2019-06-18T03:00:00+08:00
value<sub>3</sub>	2019-06-18T04:00:00+08:00
		value<sub>4</sub>	2019-06-18T03:00:00+08:00
value<sub>5</sub>	2019-06-18T04:00:00+08:00
		value<sub>6</sub>	2019-06-18T04:00:00+08:00

对表3内的数据根据公式(1-2)和(1-3)进行相似度计算，生成如下所示的矩阵：

那么，根据上述矩阵生成的新类数据组一共包括两组：一组为value₁、value₂、value₄；另一组为value₃、value₅、value₆。若层次聚类树的预设顺序是按照从上之下将网络数据输入至数据库库表中；按照表名、表字段以及字段的数据类型建立名称为T03的库表，其中T03为表名、beginTime为表字段、字符串为beginTime字段的对应数据类型；英文表示为Tablename:T03；fields:{begingTime:string}，Tablename为表名；fileds包含该表的字段以及对应字段类型信息。那么将value₁、value₂、value₄对应的网络数据输入至名称为T03的库表中，包含有beginTime字段，其中beginTime的数据类型为字符串；value₃、value₅、value₆同理。需要说明的是，上述仅对beginTime-value_n进行了分析，因此该库表中只包含begin Time对应的网络数据(如库表T03中只包含beginTime对应2019-06-18T03:00:00+08:00的网络数据)。

更详细的，以begin Time对应的value_n分析获得的同类型value₁、value₂、value₄为例，结合表1中duration对应的网络数据依据上述步骤更进一步的分析，将value₁、value₂、value₄分为两组，一组为value₁、value₄；一组为value₂。因此，构建库表名称为T03_PTS900的库表，包含beginTime和duration字段，其中beginTime和duration的数据类型都是字符串；英文表示为Tablename:T03_PTS900；fields:{begingTime:string,duration:string}，其中“_”可以使用别的连接字符代替。并且将value₁和value₄对应的网络数据输入至该库表中。需要说明的是，上述在对beginTime-value_n进行了分析的基础上对duration-value_n也进行了分析，因此该库表中包含begin Time对应的网络数据以及duration对应的网络数据(如库表T03_PTS900中包含beginTime对应2019-06-18T03:00:00+08:00的网络数据以及duration对应的PTS900)。

另外，在网络数据样本中抽取类别最少的一列数据作为特征样本执行完步骤101-103后，将网络数据样本中的该列特征样本去除后，对剩余数据按照步骤101-103继续执行，直到网络数据样本中的特征样本的列数(维度)小于设定的阈值Tn(如Tn＝2，表示维度＝2为步骤101-103循环执行后终止的条件)。

在上述方法中，首先通过获取用户终端的网络数据样本，并从网络数据样本中抽取类别最少的一列数据作为特征样本；使得网络数据在后续存入数据库时更加规范。然后，对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组；来提高网络数据分类的自动化能力。最后，将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置；解决现有技术中需要消耗大量的人力和时间成本去做数据库库表结构构建的问题，减少了网络数据入库的运维成本。

本发明实施例可以根据上述方法实施例对数据入库装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图2给出了上述实施例中涉及的数据入库装置20的一种可能的结构示意图，该数据入库装置20包括：

获取单元201，用于获取用户终端的网络数据样本。

处理单元202，用于从获取单元201获取的网络数据样本中抽取类别最少的一列数据作为特征样本。

处理单元202，还用于对特征样本进行相似度计算生成特征样本的相似度矩阵，并根据相似度矩阵将特征样本中的数据进行分类生成新类数据组。

处理单元202，还用于将新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置。

在一种示例性的方案中，处理单元202，具体用于对特征样本根据以下公式进行相似度计算生成特征样本的相似度矩阵：

D(x,x)＝D(y,y)＝0；

其中，x和y分别表示特征样本中不同的数据。

在一种示例性的方案中，获取单元201，具体用于采集用户终端的网络数据，并对网络数据按照关键字key_m-特征值value_mn的列表格式进行解析处理生成网络数据样本；其中m表示列，n表示行。

在一种示例性的方案中，处理单元202，还用于对网络数据采用机器学习算法进行清洗处理网络数据中重复以及无效的特征值。

由于本发明实施例中的数据入库装置可以应用于实施上述方法实施例，因此，其所能获得的技术效果也可参考上述方法实施例，本发明实施例在此不再赘述。

在采用集成的单元的情况下，图3示出了上述实施例中所涉及的数据入库装置20的一种可能的结构示意图。数据入库装置20包括：处理模块301、通信模块302和存储模块303。处理模块301用于对数据入库装置20的动作进行控制管理，例如，处理模块301用于支持数据入库装置20执行图1中的过程102、103。通信模块302用于支持数据入库装置20与其他实体的通信。存储模块303用于存储数据入库装置20的程序代码和数据。

其中，处理模块301可以是处理器或控制器，例如可以是中央处理器(centralprocessing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。通信模块302可以是收发器、收发电路或通信接口等。存储模块303可以是存储器。

当处理模块301为如图4所示的处理器，通信模块302为图4的收发器，存储模块303为图4的存储器时，本申请实施例所涉及的数据入库装置20可以为如下的数据入库装置20。

参照图4所示，该数据入库装置20包括：处理器401、收发器402、存储器403和总线404。

其中，处理器401、收发器402、存储器403通过总线404相互连接；总线404可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器401可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-apecificintegratedcircuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

存储器403可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。收发器402用于接收外部设备输入的内容，处理器401用于执行存储器403中存储的应用程序代码，从而实现本申请实施例中的数据入库方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本发明实施例还提供一种计算机程序产品，该计算机程序产品可直接加载到存储器中，并含有软件代码，该计算机程序产品经由计算机载入并执行后能够实现上述的数据入库方法。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种数据入库方法，其特征在于，包括：

获取用户终端的网络数据样本，并从所述网络数据样本中抽取类别最少的一列数据作为特征样本；

对所述特征样本进行相似度计算生成所述特征样本的相似度矩阵，并根据所述相似度矩阵将所述特征样本中的数据进行分类生成新类数据组；

将所述新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置；具体包括：所述层次聚类树中的网络数据按照所述层次聚类树的层次划分结构将所述层次聚类树中对应的网络数据输入至所述层次聚类树构建的表名、表字段以及字段的数据类型的表中；

对所述特征样本进行相似度计算生成所述特征样本的相似度矩阵，具体包括：

对所述特征样本根据以下公式进行相似度计算生成所述特征样本的相似度矩阵：

D(x,x)＝D(y,y)＝0；

其中，x和y分别表示所述特征样本中不同的数据。

2.根据权利要求1所述的数据入库方法，其特征在于，所述获取用户终端的网络数据样本，具体包括：

采集所述用户终端的网络数据，并对所述网络数据按照字段key_m-特征值value_mn的列表格式进行解析处理生成所述网络数据样本；其中m表示列，n表示行。

3.根据权利要求2所述的数据入库方法，其特征在于，所述采集所述用户终端的网络数据之后，还包括：

对所述网络数据采用机器学习算法进行清洗处理所述网络数据中重复以及无效的特征值。

4.一种数据入库装置，其特征在于，包括：

获取单元，用于获取用户终端的网络数据样本；

处理单元，用于从所述获取单元获取的所述网络数据样本中抽取类别最少的一列数据作为特征样本；

所述处理单元，还用于对所述特征样本进行相似度计算生成所述特征样本的相似度矩阵，并根据所述相似度矩阵将所述特征样本中的数据进行分类生成新类数据组；

所述处理单元，还用于将所述新类数据组按照层次聚类树的预设顺序输入至数据库库表的相应位置；具体包括：所述层次聚类树中的网络数据按照所述层次聚类树的层次划分结构将所述层次聚类树中对应的网络数据输入至所述层次聚类树构建的表名、表字段以及字段的数据类型的表中；

所述处理单元，具体用于对所述特征样本根据以下公式进行相似度计算生成所述特征样本的相似度矩阵：

D(x,x)＝D(y,y)＝0；

其中，x和y分别表示所述特征样本中不同的数据。

5.根据权利要求4所述的数据入库装置，其特征在于，包括：

所述获取单元，具体用于采集所述用户终端的网络数据，并对所述网络数据按照关键字key_m-特征值value_mn的列表格式进行解析处理生成所述网络数据样本；其中m表示列，n表示行。

6.根据权利要求4所述的数据入库装置，其特征在于，包括：

所述处理单元，还用于对所述网络数据采用机器学习算法进行清洗处理所述网络数据中重复以及无效的特征值。

7.一种数据入库装置，其特征在于，所述数据入库装置的结构中包括处理器和存储器，存储器用于与处理器耦合，保存所述数据入库装置的程序指令和数据，处理器用于执行存储器中存储的程序指令，使得所述数据入库装置执行如权利要求1-3任一项所述的数据入库方法。

8.一种计算机存储介质，其特征在于，计算机存储介质中存储有计算机程序代码，当计算机程序代码在数据入库装置上运行时，使得所述数据入库装置执行如权利要求1-3任一项所述的数据入库方法。