CN114863209A

CN114863209A - 类别比例引导的无监督领域适应建模方法、***、设备及介质

Info

Publication number: CN114863209A
Application number: CN202210425027.XA
Authority: CN
Inventors: 吕文君; 康宇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-05
Anticipated expiration: 2042-04-21
Also published as: CN114863209B

Abstract

本申请公开了一种类别比例引导的无监督领域适应建模方法、***、设备及介质，包括：数据准备与初始化：收集训练数据集，所述训练数据集至少包括一训练样本

训练源域分类：将源域样本进行随机傅里叶特征变换，得到源域映射样本矩阵

训练目标域分类：将目标域样本进行傅里叶特征变换，其中傅里叶特征变换的参数与随机种子与源域中的RFF保持一致，得到目标域映射样本矩阵H_t，目标域分类器描述为f_t(x)＝φ(x)B_t，进而得到最优的源域输出权重矩阵

输出目标域分类：输出

得到目标域分类器。

Description

类别比例引导的无监督领域适应建模方法、***、设备及介质

技术领域

本申请涉及适应建模技术领域，尤其涉及一种类别比例引导的无监督领域适应建模方法、***、设备及介质。

背景技术

机器学习可以用于解决复杂未知模型的建模问题，在很多领域得到了广泛的应用。由于建模是数据驱动的，因此模型准确度与数据质量紧密相关。现实中往往无法获得所有的数据，所以训练数据和真实场景产生的数据具有较大的概率分布偏差，容易导致模型精度下降甚至失效的问题。例如，在地球物理测井解释中，新井的测井数据与已解释井的测井数据分布偏差较大，为机器学习在测井解释模型建立的应用带来了较大的挑战。对于分布差异问题，可以采用领域适应方法来解决，对于目标域没有任何标签的场景，则限定到无监督领域适应。领域适应方法主要包括：基于样本加权、基于分布对齐和基于模型调整的领域适应方法。其中样本加权主要用于较小的分布偏差场景；分布对齐依赖于目标域伪标签的质量，而且多数针对的是边缘分布和条件分布差异的场景；模型调整具有最广阔的使用度，但是往往需要目标域存在一定的标签，难以胜任目标域无标签的场景。综上，已有的技术不适用先验分布差异的场景。

发明内容

本申请的主要目的在于提供一种类别比例引导的无监督领域适应建模方法、装置、设备及介质，旨在解决分类任务中源域和目标域的边缘分布和先验分布均发生变化的领域适应技术问题。

为实现上述目的，本申请提供一种类别比例引导的无监督领域适应建模方法，包括以下步骤：

数据准备与初始化：收集训练数据集，所述训练数据集至少包括一训练样本

输出目标域分类：输出

得到目标域分类器。

优选的，所述训练样本

中：d为样本的初始特征维度，样本对应的标签为

表示实数域，标签采用独热编码；

设收集的源域样本有n_s个，且每个样本均有标签，则源域样例集合为

为源域第i个样本，

为

对应的标签；目标域样本有n_t，但是没有任何标签，目标域样本集合为

为目标域的第i个样本；

人工设定训练平衡系数γ₁,η₁,η₂>0，人工设定比例矩阵

Ξ＝diag(p)，

为目标域类别比例向量。

优选的，所述源域映射样本矩阵

k为映射后样本维度，源域分类器描述为f_s(x)＝φ(x)B_S，

为映射函数，

为再生核希尔伯特空间，通过求解以下优化问题求解

即：

其中，

优选的，所述源域和目标域的特征变换方式完全一致，目标域分类器f_t(x)＝φ(x)B_t中通过求解以下优化问题求解

即：

其中，L为根据

得到的图拉普拉斯矩阵。

优选的，所述目标域分类器f_t(x)＝φ(x)B_t采用梯度下降法进行训练，即：

其中，δ表示学习率，

表示第r步学习得到的B_t，

表示第r+1步学习得到的B_t，且

本申请还涉及一种类别比例引导的无监督领域适应建模***，包括：

数据准备与初始化模块：用于收集训练数据集，所述训练数据集至少包括一个训练样本

训练源域分类器，将源域样本进行随机傅里叶特征变换，得到源域映射样本矩阵

训练目标域分类器：将目标域样本进行傅里叶特征变换，得到目标域映射样本矩阵H_t，目标域分类器描述为f_t(x)＝φ(x)B_t；

输出目标域分类器：输出

得到目标域分类器。

本申请还涉及一种类别比例引导的无监督领域适应建模设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的一种类别比例引导的无监督领域适应建模方法的步骤。

本申请还涉及一种计算机可读存储介质，所述计算机可读存储介质上存储有实现类别比例引导的无监督领域适应建模方法的程序，所述实现类别比例引导的无监督领域适应建模方法的程序被处理器执行以实现上述类别比例引导的无监督领域适应建模方法的步骤。

本申请相对于现有技术，能够有效应对分类任务中源域和目标域的边缘分布和先验分布均发生变化的领域适应技术问题，同时具有非线性拟合能力强、训练速度快、模型准确度高的优点。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请类别比例引导的无监督领域适应建模方法流程示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例1

本申请实施例提供一种类别比例引导的无监督领域适应建模方法，参照图1，包括：

步骤一、数据准备与初始化

收集训练数据集，所述训练数据集至少包括一训练样本，样本

d为样本的初始特征维度，样本对应的标签为

表示实数域，标签采用独热编码，c为类别总数；

为源域第i个样本，

为

为目标域的第i个样本；

人工设定训练平衡系数γ₁,η₁,η₂>0，人工设定比例矩阵

Ξ＝diag(p)，

为目标域类别比例向量；

步骤二、训练源域分类器

将源域样本进行随机傅里叶特征(Random Fourier Features,RFF)变换，得到源域映射样本矩阵

k为映射后样本维度，源域分类器可描述为f_s(x)＝φ(x)B_s，

为映射函数，

为再生核希尔伯特空间，B_s为源域输出权重矩阵，通过求解以下优化问题求解

即：

其中，

B_s的求解是解析的，进而得到最优的源域输出权重矩阵

步骤三、训练目标域分类器

将目标域样本进行RFF变换，其中RFF变换的参数与随机种子与源域中的RFF保持一致，即源域和目标域的特征变换方式完全一致，得到目标域映射样本矩阵H_t，目标域分类器可描述为f_t(x)＝φ(x)B_t，B_t为源域输出权重矩阵，通过求解以下优化问题求解

即：

其中，L为根据

得到的图拉普拉斯矩阵；B_t的求解需要采用梯度下降法，进而得到最优的源域输出权重矩阵

T表示矩阵转置，tr为矩阵的迹；

进一步的，所述目标域分类器f_t(x)＝φ(x)B_t采用梯度下降法进行训练，即：

其中，δ表示学习率，

表示第r步学习得到的B_t，

表示第r+1步学习得到的B_t，且

步骤四、输出目标域分类器

输出

得到目标域分类器。

实施例2

本实施例以地球物理测井解释为例进行说明：例如未解释井的沉积相为深湖相，往往发育大段的泥岩，设分类目标为泥岩和砂岩，步骤如下：

步骤一、数据准备与初始化

采集某一深度的地球物理测井曲线(如声波测井曲线、伽马射线测井曲线和自然电位测井曲线)组成测井样本

d表示使用的测井种类总数(即特征维度)，样本对应的标签为

表示实数域，标签采用独热编码，标签的物理意义可为泥岩和砂岩，c为类别总数；

对于已解释井，可以得到有标签的源域，如果沿深度有n_s个深度点的测井值，则收集的源域样本有n_s个，且每个样本均有标签，则源域样例集合为

为源域第i个样本，

为

对应的标签；未解释井，即为无标签的目标域，需要进行预测，如果沿深度有n_t个深度点的测井值，则收集的目标域样本有n_t个，但是没有任何标签，目标域样本集合为

为目标域的第i个样本；

人工设定训练平衡系数γ₁,η₁,η₂>0，人工设定比例矩阵

Ξ＝diag(p)，

为目标域类别比例向量；例如未解释井的沉积相为深湖相，往往发育大段的泥岩，设分类目标为泥岩和砂岩，则可设置

如果未解释井的沉积相为滨浅湖相，往往发育大段的砂岩或者泥岩砂岩交替出现，则可设置

具体设置根据地质学家实际经验为准。

步骤二、训练源域分类器

k为映射后样本维度，源域分类器可描述为f_s(x)＝φ(x)B_S，

为映射函数，

即：

其中，

B_S的求解是解析的，进而得到最优的源域输出权重矩阵

步骤三、训练目标域分类器

即：

其中，L为根据

T表示矩阵转置，tr为矩阵的迹；

其中，δ表示学习率，

表示第r步学习得到的B_t，

表示第r+1步学习得到的B_t，且

步骤四、输出目标域分类器

输出

得到目标域分类器。

下面给出上述技术文档中的进一步说明：

本发明涉及的随机傅里叶特征变换见论文Rahimi,Ali,and Benjamin Recht.“Random features for large-scale kernel machines.”Advances in neuralinformation processing systems 20(2007)，具体可以采用算法1中涉及的特征变换方法。

图拉普拉斯矩阵构造涉及的样本相似性可以采用欧式距离，并且需要对图拉普拉斯矩阵进行归一化处理。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利处理范围。