CN115982645A

CN115982645A - 信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质

Info

Publication number: CN115982645A
Application number: CN202310100386.2A
Authority: CN
Inventors: 魏明; 李卜
Original assignee: Primeton Information Technology Co ltd
Current assignee: Primeton Information Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-18

Abstract

本发明涉及一种信创环境下基于机器学习实现数据标注的方法，其中，该方法包括：(1)对获取到的原始数据进行数据清洗；(2)合并来自多个数据源的数据，进行数据集成处理；(3)对获取到的数据进行降维操作；(4)对数据进行形式上的数据变换处理；(5)将数据进行词向量化处理，以获取不同特征之间的相似性；(6)使用注意力模块对获取到的数据进行注意力增强操作；(7)利用趋向性粒子搜索算法对神经网络进行优化。本发明还涉及一种相应的装置、处理器及其存储介质。采用了本发明的该信创环境下基于机器学习实现数据标注的方法、装置、处理器及其存储介质，能有效提高模型对数据标签的分类精度，提高模型的自适应细化能力。

Description

信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质

技术领域

本发明涉及计算机软件技术领域，尤其涉及数据治理和人工智能技术领域，具体是指一种信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质。

背景技术

随着分布式存储、分布式计算等相关技术的成熟，大数据产业也获得了快速的发展，无论是政府和企业都看到了大数据中所孕育的巨大的价值，开始对过去众多业务***所累积的庞大的数据进行价值挖掘，而要实现数据进行价值挖掘，对数据进行标注是非常关键的一个环节。但是要让这些海量数据释放出其蕴含的强大力量，必须要保证这些数据的准确性、可靠性以及及时性，如果没有合适、高效的数据标注方法仅靠人力是难以完成的，因此我们有必要为用户提供一套行之有效的方法来协助用户在信创环境下进行数据标注。通过一种基于机器学习的数据自动标注方法可以解决目前在信创环境下基于人工的数据标注耗时耗力的问题，从而满足政府和企业数据标注需求；但是现有技术所采用的方法大多精确率难以得到保障，而基于深层网络的模型容易消耗大量的计算资源，代价较高。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够有效解决数据资源消耗的信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质如下：

该信创环境下基于机器学习实现数据标注的方法，其主要特点是，所述的方法包括以下步骤：

(1)对获取到的原始数据进行数据清洗；

(2)待完成数据清洗后，合并来自多个数据源的数据，进行数据集成处理；

(3)采用主成分分析法对获取到的数据进行降维操作，以降低数据集的大小；

(4)采用标准化变换方法和正则化变换方法对数据进行形式上的数据变换处理；

(5)将经过数据变换后得到的数据进行词向量化处理，以获取不同特征之间的相似性；

(6)使用注意力模块对获取到的数据进行注意力增强操作，以获取新的特征向量；

(7)利用趋向性粒子搜索算法对神经网络进行优化，并通过获得数据标签以实现数据分类处理。

较佳地，所述的步骤(1)包括：对获取到的数据进行缺失值处理、重复值去除、降低噪声和去除离群点的数据清洗处理，其中，

采用全局填充法进行缺失值的补全处理；

通过显示唯一一行来降低储存消耗，从而实现重复值的去除处理；

采用噪声光滑分箱法对噪声进行处理，以降低噪声；

所述的离群点则通过箱线图进行识别并将其剔出。

较佳地，所述的步骤(2)具体为：

在实体识别方面，将根据数值范围、数据类型、名字、含义等来对属性进行集成；

在相关性分析方面，通过检验不同数据源中字段的相关性进行数据集成处理。

较佳地，所述的步骤(6)具体包括以下步骤：

(6.1)设计一挤压和通道网络注意力模块对获取到的特征向量进行挤压操作，并使用全局平均池化将一个通道的整个空间特征转换为一个全局空间特征作为该通道的表示，具体通过以下公式表示：

其中，X_m(i,j)表示第m个特征映射X_m在(i,j)位置上的通道特征值，i表示第i行，j表示第j列，H为输入数据的长，W为输入数据的宽，F_sq()表示进行挤压操作，即GAP操作，Z_m表示挤压操作的输出特征；

(6.2)待获取全局特征之后，通过激励操作抓取通道间的相关性，得到新的特征向量。

较佳地，所述的步骤(6.2)具体为：

采用含有两个全连接层的神经网络结构，第一个全连接层负责降维，并采用ReLU函数激活后，再采用第二个全连接层恢复原始的维度，同时引入Sigmoid形式的门控机制，以得到0至1之间的权重值，从而对原始的每个原始特征乘以对应通道的权重，得到新的特征向量，其运算过程如下：

u＝F_ex(Z,W)＝f(W_Uδ(W_x))；

其中，f()和δ()分别表示Sigmoid函数和ReLU函数，W_U为低维特征映射通过卷积层时通道数以一定比率增加后得到的权重，W_X为卷积层的权重，u表示最终获得的通道统计量，u_m表示第m个通道缩放描述符，与X_m逐通道相乘得到Hadamard乘积，

表示Hadamard乘积，F_ex()表示对输入特征进行加权，Z表示输入特征，W表示权重，δ()表示利用卷积层的权重进行加权。

较佳地，所述的步骤(7)具体包括以下步骤：

(7.1)初始化趋向性粒子搜索算法的种群；

(7.2)评估算子的适应度值，确定相应算子的初始位置；

(7.3)引入时间控制机制，按照以下方式更新时间控制参数c(t)，以决定算子的运动类型：

其中，t为指定迭代次数，Max_iter为最大迭代次数，rand()为随机函数；

(7.4)根据算子的主动运动和被动运动的两种运动类型，分别按照以下公式更新算子位置X_i(t+1)：

X_i(t+1)＝X_i(t)+rand(0,1)×trend；

trend＝X^*-df；

df＝e_cμ；

其中，trend为算子的搜索趋势，X_i(t)算子位置，X^*为最优算子位置，e_c为吸引力控制因子，μ为所有算子的平均位置，df为最优算子位置与所有算子平均位置之间的差值；

(7.5)重新计算适应度值及更新算子最优位置；

(7.6)判断当前经过运算的算子是否满足最大迭代次数，若满足，则输出当前算子的最优位置和全局最优解，完成数据分类；否则，返回步骤(7.4)重新进行迭代计算。

该信创环境下基于机器学习实现数据标注的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现上述所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

该信创环境下基于机器学习实现数据标注的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

采用了本发明的该信创环境下基于机器学习实现数据标注的方法、装置、处理器及其计算机可读存储介质，在对数据进行标注时，所采用的注意力增强操作，能有效提高模型对数据标签的分类精度，提高模型的自适应细化能力；同时，所采用的趋向性粒子搜索算法替代了传统的误差反向传播算法对神经网络进行优化，避免了梯度消失和梯度***的现象，同时该优化算法相比较于现有的神经网络优化算法而言，不易陷入参数搜索的局部最优解情况，相较于现有技术而言，具有较为突出的实用性。

附图说明

图1为本发明的信创环境下基于机器学习实现数据标注的方法的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1所示，该信创环境下基于机器学习实现数据标注的方法，其中，所述的方法包括以下步骤：

(1)对获取到的原始数据进行数据清洗；

作为本发明的优选实施方式，所述的步骤(1)包括：对获取到的数据进行缺失值处理、重复值去除、降低噪声和去除离群点的数据清洗处理，其中，

采用全局填充法进行缺失值的补全处理；

采用噪声光滑分箱法对噪声进行处理，以降低噪声；

所述的离群点则通过箱线图进行识别并将其剔出。

作为本发明的优选实施方式，所述的步骤(2)具体为：

作为本发明的优选实施方式，所述的步骤(6)具体包括以下步骤：

作为本发明的优选实施方式，所述的步骤(6.2)具体为：

u＝F_ex(Z,W)＝f(W_Uδ(W_X))；

作为本发明的优选实施方式，所述的步骤(7)具体包括以下步骤：

(7.1)初始化趋向性粒子搜索算法的种群；

(7.2)评估算子的适应度值，确定相应算子的初始位置；

X_i(t+1)＝X_i(t)+rand(0,1)×trend；

trend＝X^*-df；

df＝e_cμ；

(7.5)重新计算适应度值及更新算子最优位置；

在实际应用当中，本技术方案的该信创环境下基于机器学习实现数据标注的方法，具体包括如下步骤：

步骤一：对原始数据进行数据清洗

对原始数据进行数据清洗，主要包括缺失值处理、重复值去除、降低噪声和去除离群点等。

首先，在缺失值处理与重复值去除操作中，采用全局填充法进行缺失值的补全；对于重复值，可显示唯一一行来降低储存消耗。

然后，在处理噪声和离群点时，在实际的数据治理任务中，观测值、真实数据、噪声3者之间的关系如下：

观测值＝真实数据+噪声

噪声和离群点的区别在于：噪声是数据集中的随机误差值；离群点是和大部分观测值明显不同的观测值，可能是真实的数据，也可能是由噪声产生的数据，是在数据集中可能极端大或极端小，或是极端远离大部分数值的值。

本发明采用噪声光滑分箱法对噪声进行处理，离群点则可以通过箱线图进行识别并将其剔出。

步骤二：对数据进行数据集成

数据集成是合并来自多个数据源的数据，解决实体识别、冗余和不一致等问题。

在实体识别方面，如对两个数据库中的两个表，由于同一个属性会有不同的名字，可以根据数值范围、数据类型、名字、含义等来对属性进行集成，例如在表A中的cs_id代表企业名称id，而在表B中，id代表公司id。

在相关性分析方面，主要检验不同数据源中字段的相关性。比如使用卡方检验检测标称属性，相关系数和协方差检验数值属性。相关性分析可以识别冗余字段，然后根据挖掘需求进行剔除或保留。

步骤三：对数据进行降维操作

在数据挖掘过程中，对于庞大的原始数据，通常需要采用一系列的数据规约方法对数据进行简化，以降低数据集的大小，保证数据挖掘的效果。本发明采用主成分分析法对数据进行降维操作。

步骤四：对数据进行数据变换

在实际应用中，需要对数据进行形式上的变换，常用变换方法包括标准化和正则化。标准化方法可缩放数据的范围，将不同量纲的属性统一归为无量纲数据；正则化方法可对连续特征使用概念分层，对数据进行离散化等。

步骤五：对数据进行词向量化

对数据通过词向量化表示，可以获得不同特征之间的相似性，并且通过以上方法处理后的数据不能直接作为模型训练时的输入，需要将其转化为词向量然后输入模型中进行训练。因此要对数据进行词向量化得到对应的词向量。

步骤六：使用注意力模块进行注意力增强操作

设计一种挤压和通道网络注意力模块，首先对特征向量进行挤压操作，使用全局平均池化将一个通道的整个空间特征转换为一个全局空间特征作为该通道的表示。可以用下式表示：

其中，X_m(i,j)表示第m个特征映射X_m在(i,j)位置上的通道特征值，F_sq()表示挤压操作也就是GAP操作，i表示第i行，j表示第j列，H为输入数据的长，W为输入数据的宽，F_sq()表示进行挤压操作操作，Z_m表示挤压操作的输出特征。

得到全局描述特征后，接下来通过激励操作抓取通道间的相关性。采用含有两个全连接层的神经网络结构，第一个全连接层负责降维，采用ReLU函数激活后，再采用第二个全连接层恢复原始的维度，并引入Sigmoid形式的门控机制，该机制可以灵活学习到各个通道间的非线性关系，得到0至1之间的权重值，对原始的每个原始特征乘以对应通道的权重，得到新的特征向量，运算过程如下：

u＝F_ex(Z,W)＝f(W_Uδ(W_X))

其中，f()和δ()分别表示Sigmoid函数和ReLU函数，W_U是低维特征映射通过卷积层时通道数以一定比率增加后得到的权重，W_X的作用是减少通道数目，是卷积层的权重。通过训练这两个权重得到一个一维的激励权重来激活每一层通道。u表示最终获得的通道统计量。u_m表示第m个通道缩放描述符，与X_m逐通道相乘得到Hadamard乘积，

表示Hadamard乘积。F_ex()表示对输入特征进行加权，Z表示输入特征，W表示权重，δ()表示利用卷积层的权重进行加权。

步骤七：使用改进的神经网络进行数据分类

本发明提出一种趋向性粒子搜索算法对神经网络进行优化，趋向性搜索算法假定算子能够主动运动和被动运动，即算子要么跟随趋势，要么在算子群内部移动，但跟随趋势的算子更容易搜索到最优解。

搜索趋势是由所有搜索算子向目前位于最佳位置的算子的所有向量的平均值决定的，如下式所示：

trend＝X^*-df

df＝e_cμ

其中，n_pop为算子群体规模，X^*为最优算子的位置，e_c是吸引力控制因子，μ为所有算子的平均位置，df为最优算子位置与所有算子平均位置之间的差值。

基于算子所有维度的正态分布假设，平均位置的±βσ领域内包含所有算子的可能性，其中σ是分布的标准差。因此

f

df＝β×σ×rand(0,1)

令σ＝rand^α(0,1)×μ，则

df＝β×rand^f(0,1)×rand_α(0,1)×μ

对上式化简如下：

df＝β×rand(0,1)μ

其中，e_c＝β×rand(0,1)，故

每个算子的位置更新公式如下：

X_i(t+1)＝X_i(t)+rand(0,1)×trend

即

X_i(t+1)＝X_i(t)+rand(0,1)×(X^*-β×rand(0,1)×μ)

其中，β＞0是分布系数，与

的模有关。在本技术方案中取β＝3。

在算子种群中，算子分别有两种运动方式：主动运动和被动运动。算子种群刚成形时，多数算子进行被动运动，经过一段时间后，它们逐渐进行主动运动。被动运动是算子围绕自身位置所做的运动，相应的每个算子运动后的位置更新公式如下：

X_i(t+1)＝X_i(t+γ×rand(0,1×(U_b-L_b)

其中，U_b和L_b分别表示搜索空间的上界和下界；γ＞0是运动运动系数，与围绕算子位置所做的位移有关。本发明中取γ＝0.1。

为了模拟主动运动的形式，随机选择两个算子i，j来决定运动的方向。当算子j所在位置的优先解数量超过算子i所在位置的优先解数量时，则算子i向算子j移动；如果算子j所在位置的优先解数量少于算子i所在位置的优先解数量，则算子i向远离算子j的方向运动。

方向移动公式：

其中，

其中，X是神经网络中需要优化的参数，f是位置X的目标函数，在神经网络中可以是模型的分类评价指标。因此，算子的新位置即神经网络中需要优化的参数更新如下：

为了能够始终决定算子的运动形式，引入了时间控制机制。这不仅能够控制算子种群的运动形式，还能够控制算子种群朝大趋势的运动方向。大趋势中含有大量优先解吸引着算子，随着时间的推移，越来越多的算子聚集在一起就形成了算子群。当外界环境发生改变时，种群中的算子会向另一股大趋势移动，从而形成另一个算子群。引入时间控制机制来模拟这种情况，该机制包括一个时间控制函数c(t)和一个常数C_o，用于调节算子在跟随大趋势和算子群内部运动之间的运动。时间控制函数是随时间从0-1波动的随机值，公式如下：

其中，t是指定迭代次数，Max_iter是最大迭代次数。若c(t)≥0.5进行大趋势移动，否则进行群内运动。

算子种群通常都是随机初始化的，这样做的弊端就是收敛速度慢，且容易因种群多样性低而陷入局部最优的趋势。为了提高初始种群的多样性，引入了逻辑斯谛混沌映射，此映射是最简单的混沌映射之一，能够提供比随机选择更多的初始种群多样性且不易过早收敛。逻辑斯谛混沌映射的方式为：

X_i+1＝ηX_i(1-X_i),0≤X₀≤1

其中，X_i是第i个算子位置的混沌映射值；X₀用于产生初始种群，X₀∈(0,)1，

参数η取值为4.5。

当算子移动超出搜索边界时，它将会向边界反方向移动。移动公式如下：

其中，X_i,d是第i只算子在d维中的位置；X′_i,d是在检查边界条件后的更新位置。U_b,d和L_b,d分别是搜索空间中d维的上界和下界。

综上，趋向性粒子搜索算法的流程：

(1)初始化趋向性粒子搜索算法的种群。

(2)评估适应度值，确定初始位置。

(3)更新时间控制参数c(t)。

(4)根据算子的两种运动类型分别更新算子位置。

(5)重新计算适应度值及更新算子最优位置。

(6)判断是否满足最大迭代次数，若满足，则输出最优位置和全局最优解；否则，返回步骤(4)重新迭代计算。

通过上述算法，优化神经网络的参数，优化的参数集合为[W_ne,B_ne]，其中，W_ne代表神经元的权重参数，B_ne代表神经元的阈值参数。本步骤中采用的神经网络层数为2层，分类器采用Softmax函数。经过2层神经网络后，获得数据的标签。

该信创环境下基于机器学习实现数据标注的装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

该信创环境下基于机器学习实现数据标注的处理器，其中，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的方法包括以下步骤：

(1)对获取到的原始数据进行数据清洗；

2.根据权利要求1所述的信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的步骤(1)包括：对获取到的数据进行缺失值处理、重复值去除、降低噪声和去除离群点的数据清洗处理，其中，

采用全局填充法进行缺失值的补全处理；

采用噪声光滑分箱法对噪声进行处理，以降低噪声；

所述的离群点则通过箱线图进行识别并将其剔出。

3.根据权利要求1所述的信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的步骤(2)具体为：

4.根据权利要求2或3所述的信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的步骤(6)具体包括以下步骤：

5.根据权利要求4所述的所述的信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的步骤(6.2)具体为：

u＝F_ex(Z,W)＝f(W_Uδ(W_X))；

6.根据权利要求5所述的信创环境下基于机器学习实现数据标注的方法，其特征在于，所述的步骤(7)具体包括以下步骤：

(7.1)初始化趋向性粒子搜索算法的种群；

(7.2)评估算子的适应度值，确定相应算子的初始位置；

X_i(t+1)＝X_i(t)+rand(0,1)×trend；

trend＝X^*-df；

df＝e_cμ；

(7.5)重新计算适应度值及更新算子最优位置；

7.一种信创环境下基于机器学习实现数据标注的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现权利要求1至6中任一项所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

8.一种信创环境下基于机器学习实现数据标注的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至6中任一项所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1至6中任一项所述的信创环境下基于机器学习实现数据标注的方法的各个步骤。