CN109582795A

CN109582795A - 基于全生命周期的数据处理方法、设备、***和介质

Info

Publication number: CN109582795A
Application number: CN201811462678.6A
Authority: CN
Inventors: 朱细智
Original assignee: Beijing Qianxin Technology Co Ltd
Current assignee: Beijing Qianxin Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-05
Anticipated expiration: 2038-11-30
Also published as: CN109582795B

Abstract

本公开提供了一种基于全生命周期的数据处理方法，包括：S1，获取数据，并对数据进行聚类，得到N个数据类别；S2，从N个数据类别中提取M个特定数据类别；S3，从数据中获取符合特定数据类别的样本；S4，对数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新执行上述S1～S3；S5，根据样本生成分类模型，计算分类模型的匹配度，若匹配度小于第二预设阈值，重复执行上述操作直到建立的分类模型的匹配度不小于第二预设阈值。本公开还提供了一种基于全生命周期的数据处理设备、***和介质。通过实时监控或定时扫描待处理数据和样本，实现对待处理数据和样本的全生命周期管理。

Description

基于全生命周期的数据处理方法、设备、***和介质

技术领域

本公开涉及数据处理领域，具体涉及一种基于全生命周期的数据处理方法、设备、***和介质。

背景技术

现有对数据进行自动聚类及分类的方法通常通过对待处理数据进行自动聚类，从聚类结果中确定若干关键业务类，并从聚类结果中筛选若干样本，根据样本构建有效的分类模型。

现有技术中缺少了对数据及样本的管理，导致当对数据或样本进行新增、修改及删除操作时，无法确定是否需要重新进行数据处理以及何时重新进行数据处理，不利于构建有效的分类模型。

发明内容

本公开鉴于上述问题，提供了一种基于全生命周期的数据处理方法、设备、***和介质。通过对数据的增加、删除及修改进行实时监控和/或定时扫描，完成数据的全生命周期管理，从而确定是否需要重新进行数据处理以及何时重新进行数据处理。

本公开的一个方面提供了一种基于全生命周期的数据处理方法，包括：S1，获取数据，并对所述数据进行聚类，得到N个数据类别；S2，从所述N个数据类别中提取M个特定数据类别；S3，从所述数据中获取符合所述特定数据类别的样本；S4，对所述数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新执行上述S1～S3；S5，根据所述样本生成分类模型，计算所述分类模型的匹配度，若所述匹配度小于第二预设阈值，重复执行上述操作直到建立的所述分类模型的匹配度不小于所述第二预设阈值。

可选地，所述操作包括新增、删除或修改所述数据或样本。

可选地，所述对所述数据或样本的操作进行计数还包括：当修改所述数据或样本时，若该修改在预设规则之内，该修改不计入所述操作数量。

可选地，通过实时监控和/或定时扫描来判断所述数据或样本是否发生新增、删除或修改。

可选地，所述判断所述数据或样本是否发生新增、删除或修改还包括：指定待监控和/或待扫描的所述数据或样本的路径；若所述路径下新增一所述数据或样本时，将该数据或样本的身份信息录入数据库；若所述路径下删除一所述数据或样本时，从所述数据库中删除该数据或样本的所述身份信息；若所述路径下一所述数据或样本被修改时，计算该数据或样本的所述身份信息，并将该身份信息更新至所述数据库中。

可选地，通过定时扫描来判断所述数据或样本是否发生新增、删除或修改还包括：定时遍历所述路径下的所述数据或样本，若为第一次遍历，记录每一所述数据或样本的所述身份信息，将每一所述数据或样本的所述身份信息录入所述数据库，否则，查询所述数据库，判断所述数据或样本是否发生新增、删除或修改。

可选地，所述身份信息包括所述数据或样本的名称和MD5值。

本公开另一方面还提供了一种基于全生命周期的数据处理电子设备，包括：处理器；存储器，其存储有计算机可执行程序，该程序在被所述处理器执行时，使得所述处理器执行上述基于全生命周期的数据处理方法。

本公开另一方面还提供了一种基于全生命周期的数据处理***，所述基于全生命周期的数据处理***包括：聚类模块，用于获取数据，并对所述数据进行聚类，得到N个数据类别；样本确定模块，用于从所述N个数据类别中提取M个特定数据类别，从所述数据中获取符合所述特定数据类别的样本；管理模块，用于对所述数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新执行聚类模块和样本确定模块；分类模型生成模块，用于根据所述样本生成分类模型；分类模型验证模块，用于计算所述分类模型的匹配度，若所述匹配度小于第二预设阈值，重复执行上述模块直到建立的所述分类模型的匹配度不小于所述第二预设阈值。

本公开另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于全生命周期的数据处理方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例提供的基于全生命周期的数据处理方法的流程图。

图2示意性示出了根据本公开实施例提供的数据全生命周期管理的流程图。

图3示意性示出了根据本公开的电子设备的框图。

图4示意性示出了本公开实施例的基于全生命周期的数据处理***的框图。

具体实施方式

根据结合附图对本公开示例性实施例的以下详细描述，本公开的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本公开中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本公开原理的各种实施例只是说明，不应该以任何方式解释为限制公开的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本公开的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

数据的全生命周期是指数据从创建和初始存储，到数据过时被删除。文件服务器是一存储有大量文件的器件，用于向服务器提供文件。本公开实施例提供的基于全生命周期的数据处理方法，以企业客户的文件服务器为例进行说明，其中，文件是数据的一种形式，本公开实施例中的文件可以理解为数据。

图1示意性示出了根据本公开实施例提供的基于全生命周期的数据处理方法的流程图。图2示意性示出了根据本公开实施例提供的数据全生命周期管理的流程图。结合图2，对图1所述方法进行详细说明，如图1所示，该方法包括如下操作：

S1，获取待处理的数据，对待处理数据进行自动聚类，得到N个数据类别。

首先，指定待处理文件的路径，利用特征工程技术自动提取待处理文件的语义特征，其中，语义特征是与文件主题相近的若干词语。

然后，选择自动聚类算法，根据语义特征对待处理文件进行自动聚类，得到N个用数字标签(如1，2，3……N)表示的数据类别，其中，同一数据类别中的文件相似度较高，不同数据类别中的文件相似度较低。

S2，从N个数据类别中提取M个特定数据类别，从待处理的数据中获取符合特定数据类别的样本。

首先，对自动聚类得到的N个数据类别进行文件移动、文件合并等，得到Y个数据类别，根据每一数据类别表达的主题将这Y个数据类别的数字标签修改为文字标签(如经济、体育、医疗、法律、军事、能源……)。

其次，企业客户根据其需求从这Y个数据类别中确认M个特定数据类别，对于每一特定数据类别，均从待处理文件中获取适量的符合该特定数据类别的文件作为数据样本。

然后，通过企业客户确定每一特定数据类别的关键词，以医疗数据类别为例，确定其关键词为“医院、手术、药物、医疗器械、健康、体检、疾病、心脏病、自闭症、精神病、艾滋病、肿瘤、癌症、康复训练”。

最后，根据得到的关键词，利用关键字匹配技术，分别对每一特定数据类别中的数据样本进行匹配，筛选出包含关键词种类越多且关键词出现次数越多的数据样本作为样本，该样本用于生成分类模型。

S3，对数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新进行数据处理。

首先，根据不同的任务类型，制定实时监控任务或定时扫描任务，也可以同时制定实时监控任务和定时扫描任务，例如，对于实时性要求不高的任务，可以制定定时扫描任务，对于实时性要求高的任务，可以制定实时监控任务或同时制定这两种任务。

对于实时监控任务，执行以下子操作：

S311，创建实时监控inotify实例，指定待监控的文件和样本的路径以及待监控的事件。其中，inotify实例用于监控文件***，并及时发出相关的事件警告，如删除、读、写和卸载操作等；待监控的事件包括新增、删除或修改上述待监控的文件和样本。

S312，通过通用网络文件***(Common Internet File System，CIFS)或网络文件***(Network File System，NFS)文件共享协议将待监控的文件或样本的路径挂载到待监控的路径下，实施监控该文件或样本的路径下的是否有新增、删除或修改文件或样本的操作。

S313，若监控路径下新增一文件或样本时，记录该新增文件或样本的名称并计算其MD5值，将其名称和MD5值录入数据库进行管理，操作数量加1。其中，MD5值是由消息摘要算法生成的一个128位的散列值，用于确保信息传输的完整一致，名称和MD5值形成了文件或样本的身份信息；数据库是以一定方式存储在一起且与应用程序彼此独立的数据集合，本实施例的数据库中存储有待监控文件或样本的名称和MD5值。

S314，若监控路径下某一文件或样本被删除时，根据该文件或样本的名称查询数据库，并删除数据库中该文件或样本的MD5值和名称，操作数量加1。

S315，若监控路径下某一文件或样本被修改时，判断此次修改是否在预设规则之内，若在，此次修改不计入操作数量，即此次修改可忽略不计；否则，计算被修改的文件或样本的MD5值，根据其名称查询数据库，将计算后的MD5值更新到数据库中该文件或样本对应的MD5字段，并且操作数量加1。其中，预设规则是根据人工经验所制定的规则，例如，仅修改一个词语，而被修改文件或样本包含5000字，则此次修改是可忽略不计的，即此次修改在预设规则之内。

S316，当操作数量不小于第一预设阈值时，重新执行以上操作，即重新开始进行数据处理。

对于定时扫描任务，执行以下子操作：

S321，创建crontab定时任务，指定定时扫描的文件和样本的路径及时间周期。其中，crontab命令常见于Unix和类Unix的操作***之中，用于设置周期性被执行的指令。

S322，通过CIFS或NFS文件共享协议将待监控的文件或样本的路径挂载到被定时扫描的路径下，定时递归遍历指定路径下的所有文件或样本，记录各样本或文件的名称及MD5值，其中，第一次遍历需将指定路径下的所有文件或样本全部录入数据库进行管理，后续只需查询数据库判断指定路径下的文件或样本是否发生新增、删除或修改操作。

S323，若该路径下新增一文件或样本时，记录该新增文件或样本的名称并计算其MD5值，将其名称和MD5值录入数据库进行管理，操作数量加1。

S324，若该路径下某一文件或样本被删除时，根据该文件或样本的名称查询数据库，并删除数据库中该文件或样本的MD5值和名称，操作数量加1。

S325，若该路径下某一文件或样本被修改时，判断此次修改是否在预设规则之内，若在，此次修改不计入操作数量；否则，计算被修改的文件或样本的MD5值，根据其名称查询数据库，将计算后的MD5值更新到数据库中该文件或样本对应的MD5字段，并且操作数量加1。

S326，当操作数量不小于第一预设阈值时，重新执行以上操作，即重新开始进行数据处理。

S4，根据样本生成分类模型，计算分类模型的匹配度，若分类模型匹配度小于第二预设阈值，重复执行上述操作，直到建立的分类模型匹配度不小于第二预设阈值。

首先，利用特征工程技术自动提取样本的语义特征，人工挑选出样本的语义特征与特定数据类别表达的主题相关程度最高的多个语义特征作为最具代表性的语义特征。

然后，选择分类算法，根据得到的最具代表性的语义特征生成分类模型。导入样本，根据得到的分类模型对该样本进行分类，并计算该分类模型的匹配度，匹配度选自准确度、查准率、查全率、F1值、分类报告、混淆矩阵、ROC曲线和ROC曲线下的面积中的一个及以上。

最后，判断分类模型的匹配度与第二预设阈值之间的关系，若所述匹配度小于第二预设阈值，重复执行以上操作直到建立的分类模型的匹配度不小于第二预设阈值。以匹配度包括检出率、准确率和F1值为例，假定检出率的预设阈值为95％，准确率的预设阈值为98％，F1值的预设阈值为96.5％，则当分类模型的检出率不小于95％、准确率不小于98％且F1值不小于96.5％时发布该分类模型，该分类模型用于执行数据分类业务；否则，重复执行以上操作，直到建立的新的分类模型的检出率不小于95％、准确率不小于98％且F1值不小于96.5％时发布该分类模型。

如图3所示，电子设备300包括处理器310、计算机可读存储介质320。该电子设备300可以执行上面参考图1和参考图2描述的方法，以进行消息处理。

具体地，处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行参考图1和参考图2描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质320，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体***、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质320可以包括计算机程序321，该计算机程序321可以包括代码/计算机可执行指令，其在由处理器310执行时使得处理器310执行例如上面结合图1和图2所描述的方法流程及其任何变形。

计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序321中的代码可以包括一个或多个程序模块，例如包括321A、模块321B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器310执行时，使得处理器310可以执行例如上面结合图1和图2所描述的方法流程及其任何变形。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

如图4所示，基于全生命周期的数据处理***包括聚类模块410、样本确定模块420、管理模块430、分类模型生成模块440及分类模型验证模块450。

具体地，聚类模块410，用于获取待处理的数据，自动提取待处理数据的语义特征，选择自动聚类算法，根据待处理数据的语义特征对待处理数据进行自动聚类，得到N个数据类别。

样本确定模块420，用于对自动聚类后的N个数据类别进行移动、合并等，得到Y个数据类别，从这Y个数据类别中确认M个特定数据类别，从待处理数据中获取适量符合该特定数据类别的数据作为数据样本，确定每一特定数据类别的关键词，利用关键字匹配技术对数据样本进行匹配，筛选出包含关键词种类越多且关键词出现次数越多的数据样本作为样本。

管理模块430，用于实时监控和/或定时扫描待处理数据或样本，当新增或删除待处理数据或样本时，操作数量加1，当修改待处理数据或样本，且修改不在预设规则之内时，操作数量加1，当操作数量不小于第一预设阈值时，重新执行上述模块。

分类模型生成模块440，用于自动提取样本的语义特征，人工挑选出样本语义特征与特定数据类别表达的主题相关程度最高的多个语义特征作为最具代表性的语义特征，选择分类算法，根据最具代表性的语义特征生成分类模型。

分类模型验证模块450，用于根据得到的分类模型对样本进行分类，计算该分类模型的匹配度，若匹配度小于第二预设阈值，重复执行以上模块直到建立的分类模型的匹配度不小于第二预设阈值。

可以理解的是，聚类模块410、样本确定模块420、管理模块430、分类模型生成模块440及分类模型验证模块450可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，聚类模块410、样本确定模块420、管理模块430、分类模型生成模块440及分类模型验证模块450中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式的适当组合来实现。或者，聚类模块410、样本确定模块420、管理模块430、分类模型生成模块440及分类模型验证模块450中的至少一个可以至少被部分地实现为计算机程序模块，当该程序被计算机运行时，可以执行相应模块的功能。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已参照本公开的特定示例性实施例示出并描述本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种基于全生命周期的数据处理方法，其特征在于，包括：

S1，获取数据，并对所述数据进行聚类，得到N个数据类别；

S2，从所述N个数据类别中提取M个特定数据类别；

S3，从所述数据中获取符合所述特定数据类别的样本；

S4，对所述数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新执行上述S1～S3；

S5，根据所述样本生成分类模型，计算所述分类模型的匹配度，若所述匹配度小于第二预设阈值，重复执行上述操作直到建立的所述分类模型的匹配度不小于所述第二预设阈值。

2.根据权利要求1所述的基于全生命周期的数据处理方法，其特征在于，所述操作包括新增、删除或修改所述数据或样本。

3.根据权利要求2所述的基于全生命周期的数据处理方法，其特征在于，所述对所述数据或样本的操作进行计数还包括：

当修改所述数据或样本时，若该修改在预设规则之内，该修改不计入所述操作数量。

4.根据权利要求2所述的基于全生命周期的数据处理方法，其特征在于，通过实时监控和/或定时扫描来判断所述数据或样本是否发生新增、删除或修改。

5.根据权利要求2述的基于全生命周期的数据处理方法，其特征在于，所述判断所述数据或样本是否发生新增、删除或修改还包括：

指定待监控和/或待扫描的所述数据或样本的路径；

若所述路径下新增一所述数据或样本时，将该数据或样本的身份信息录入数据库；

若所述路径下删除一所述数据或样本时，从所述数据库中删除该数据或样本的所述身份信息；

若所述路径下一所述数据或样本被修改时，计算该数据或样本的所述身份信息，并将该身份信息更新至所述数据库中。

6.根据权利要求5所述的基于全生命周期的数据处理方法，其特征在于，通过定时扫描来判断所述数据或样本是否发生新增、删除或修改还包括：

定时遍历所述路径下的所述数据或样本，若为第一次遍历，记录每一所述数据或样本的所述身份信息，将每一所述数据或样本的所述身份信息录入所述数据库，否则，查询所述数据库，判断所述数据或样本是否发生新增、删除或修改。

7.根据权利要求5所述的基于全生命周期的数据处理方法，其特征在于，所述身份信息包括所述数据或样本的名称和MD5值。

8.一种基于全生命周期的数据处理电子设备，其特征在于，包括：

处理器；

存储器，其存储有计算机可执行程序，该程序在被所述处理器执行时，使得所述处理器执行如权利要求1-7中基于全生命周期的数据处理方法。

9.一种基于全生命周期的数据处理***，其特征在于，所述基于全生命周期的数据处理***包括：

聚类模块，用于获取数据，并对所述数据进行聚类，得到N个数据类别；

样本确定模块，用于从所述N个数据类别中提取M个特定数据类别，从所述数据中获取符合所述特定数据类别的样本；

管理模块，用于对所述数据或样本的操作进行计数，当操作数量不小于第一预设阈值时，重新执行聚类模块和样本确定模块；

分类模型生成模块，用于根据所述样本生成分类模型；

分类模型验证模块，用于计算所述分类模型的匹配度，若所述匹配度小于第二预设阈值，重复执行上述模块直到建立的所述分类模型的匹配度不小于所述第二预设阈值。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中基于全生命周期的数据处理方法。