CN112215238B - 一种通用特征提取模型构建方法、***及装置 - Google Patents
一种通用特征提取模型构建方法、***及装置 Download PDFInfo
- Publication number
- CN112215238B CN112215238B CN202011182994.5A CN202011182994A CN112215238B CN 112215238 B CN112215238 B CN 112215238B CN 202011182994 A CN202011182994 A CN 202011182994A CN 112215238 B CN112215238 B CN 112215238B
- Authority
- CN
- China
- Prior art keywords
- model
- original data
- feature
- training
- denoising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种通用特征提取模型构建方法、***及装置。该方法包括:服务端确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;服务端将所确定的全部特征类型、以及去噪模型下发到每个终端;每个终端根据全部特征类型,确定本地原始数据的缺失特征类型,并基于缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;每个终端对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;服务端与***中一个或多个终端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
Description
技术领域
本说明书实施例涉及模型训练领域,尤其涉及一种通用特征提取模型构建方法、***及装置。
背景技术
在用户使用终端时,终端可以采集到许多与用户操作相关的数据,例如,操作对象、操作行为、操作时间或操作频率等等,可以将用户在一段时间内操作相关的数据作为一个整体,看作是体现用户操作特征的原始数据,一条原始数据中可以包含了对应于一个或多个操作特征类型的特征值,例如,对应于特征“操作对象”的特征值、对应于特征“操作行为”的特征值,等等。
终端针对一个用户所采集到的原始数据可以应用在多种场景中。例如,广告投放、页面推送以及风险防控等。举一个具体的例子,终端1针对一个用户采集到对应于操作对象的特征值为“游戏小程序”,也就是说,该用户在终端1上只对游戏小程序进行过操作,进而可以确定该用户偏好游戏,故可以针对性地向该用户推送游戏相关的广告。
但是,不同终端所采集的原始数据中包含的操作特征类型可能并不相同。例如,终端1采集“操作对象”和“操作行为”两种特征的特征值作为原始数据,而终端2采集“操作行为”和“操作时间”两种特征的特征值作为原始数据。
由于不同终端所采集的原始数据包含的特征不同,需要针对包含不同类型特征值的原始数据进行专门的分析,分析效率较低,因此,为了便于分析,亟需从原始数据中提取出对应于通用特征的特征值进行统一的分析。
发明内容
为了解决上述问题,本说明书提供了以下技术方案。
一种通用特征提取模型构建方法,应用于包含服务端和至少2个终端的***,包括:
服务端根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
服务端将所确定的全部特征类型、以及所述去噪模型下发到每个终端;
每个终端根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
每个终端对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
服务端与所述***中一个或多个终端联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
一种通用特征提取模型构建方法,包括:
确定多条原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
根据所述全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含所述全部特征类型特征值的标准数据;
对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
利用所述训练样本集训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
一种基于上述方法构建的通用特征提取模型的通用特征提取方法,包括:
获取待提取原始数据;
在所述待提取原始数据包括所述全部特征类型的情况下,将所述待提取原始数据输入所述通用特征提取模型,得到所述通用特征提取模型的输出作为所述待提取原始数据的通用特征。
一种通用特征提取模型构建***,包含服务端和至少2个终端:
服务端用于:根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;将所获取的全部特征类型、以及所述去噪模型下发到每个终端;与所述***中一个或多个终端联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型;
每个终端用于:根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;每个终端对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;与所述服务端联合训练所述去噪模型。
一种通用特征提取模型构建装置,包括:
模型构建单元用于:确定多条原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
数据扩展单元用于:根据所述全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
样本获取单元用于:对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
模型训练单元:利用所述训练样本集训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
一种基于上述方法构建的通用特征提取模型的通用特征提取装置,包括:
获取单元:用于获取待提取原始数据;
提取单元:用于在所述待提取原始数据包括所述全部特征类型的情况下,将所述待提取原始数据输入所述通用特征提取模型,得到所述通用特征提取模型的输出作为所述待提取原始数据的通用特征。
通过上述技术方案,利用无标签的原始数据得到训练样本,采用自监督学习的方式构建并训练去噪模型,从而利用去噪模型的隐藏层构建通用特征提取模型。以使通用特征提取模型可以利用去噪模型的隐藏层的去噪能力,针对利用原始数据得到的标准数据进行去噪,进而可以从原始数据中提取出通用特征,便于之后的分析,提高分析效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种通用特征提取模型构建方法的流程示意图;
图2是本说明书实施例提供的一种去噪模型的结构示意图;
图3是本说明书实施例提供的一种通用特征提取模型的结构示意图;
图4是本说明书实施例提供的一种联合训练的流程示意图;
图5是本说明书实施例提供的一种联邦学习中单轮迭代的原理示意图;
图6是本说明书实施例提供的一种去噪模型训练的原理示意图;
图7是本说明书实施例提供的另一种通用特征提取模型构建方法的流程示意图;
图8是本说明书实施例提供的一种通用特征提取方法的流程示意图;
图9是本说明书实施例提供的一种通用特征提取模型构建装置的结构示意图;
图10是本说明书实施例提供的另一种通用特征提取模型构建装置的结构示意图;
图11是本说明书实施例提供的另一种通用特征提取模型构建装置的结构示意图;
图12是本说明书实施例提供的一种通用特征提取装置的结构示意图;
图13是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本说明书公开的范围。
在用户使用终端时,终端可以采集到许多与用户操作相关的数据,例如,操作对象、操作行为、操作时间或操作频率等等,可以将用户在一段时间内操作相关的数据作为一个整体,看作是体现用户操作特征的原始数据,一条原始数据中可以包含了对应于一个或多个操作特征类型的特征值。例如,对应于特征“操作对象”的特征值、对应于特征“操作行为”的特征值,等等。
原始数据具体可以是由终端采集的、包含至少一个操作特征类型对应的特征值的数据。其中,并不限定原始数据所包含的具体操作特征类型以及操作特征的数量,只要能够反映用户的操作即可,并且不限定原始数据的格式、采集原始数据的方式。
为了便于理解,本说明书提供了下面的一种实例,用于示例性说明。
例如,用户在60分钟内使用终端,先使用交友应用30分钟,又打开游戏应用游玩了20分钟,之后再使用交友应用10分钟。因此,终端可以采集到与该用户操作相关的原始数据,包括:对应于特征“操作对象”的特征值可以是“交友应用、游戏应用”,对应于特征“操作时间”的特征值可以是“40分钟、20分钟”。
当然,上述实例仅仅用于示例性说明,并不能限定本说明书公开的范围。
在终端采集到原始数据之后,这些原始数据可以应用在多种场景中。例如,广告投放、页面推送以及风险防控等。
举一个具体的例子,终端1针对一个用户采集到对应于“操作对象”的特征值为“游戏小程序”,也就是说,该用户在终端1上只对游戏小程序进行过操作,进而可以确定该用户偏好游戏,故可以针对性地向该用户推送游戏相关的广告。
在其他实例中,可以收集这些原始数据用于模型训练。具体可以是根据原始数据以及对应的表示用户喜好的标签,训练一个用于根据用户操作特征进行推荐的模型。
当然,上述实例仅仅用于示例性说明,本说明书并不限定原始数据的具体应用。
但是,不同终端所采集的原始数据中包含的特征值对应的操作特征类型可能并不相同。例如,终端1采集“操作对象”和“操作行为”两种特征的特征值作为原始数据,而终端2采集“操作行为”和“操作时间”两种特征的特征值作为原始数据。
由于不同终端所采集的原始数据包含的特征值对应的特征类型不同,在收集不同终端所采集的原始数据用于分析时,需要针对包含不同类型特征值的原始数据进行专门的分析,分析效率较低。
本说明书并不限定具体的分析形式。作为一种可选的示例,分析的形式具体可以是模型训练。在利用不同终端采集的原始数据进行模型训练时,需要针对包含不同类型特征值的原始数据分别进行模型构建和模型训练,训练效率较低。
为了便于分析,亟需从原始数据中提取出对应于通用特征的特征值进行统一的分析。其中,通用特征可以具有统一的格式,位于相同的特征空间,并且可以从包含不同类型特征值的原始数据中提取出来。
本说明书并不限定具体的通用特征的形式,也不限定确定通用特征的方法,
而针对统一格式的通用特征,可以便于进行统一的分析,无需分别进行专门的分析,从而提高分析效率。
从模型训练的实例进行理解,利用统一格式的通用特征,可以构建一个通用的模型用于训练,从而提高训练效率。
因此,为了解决上述问题,本说明书提供了一种通用特征提取模型构建方法,通过该方法可以构建一个用于从原始数据中提取通用特征的模型,进而可以使用该模型从原始数据中提取通用特征,提高分析效率。
如图1所示,为本说明书提供的一种通用特征提取模型构建方法的流程示意图。该方法可以应用于包含服务端和至少2个节点设备的***。其中节点设备具体可以是终端,并且不限定该***中包含的节点设备数量。该方法可以至少包括以下步骤。
S101:服务端根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型。
终端所提供的原始数据,具体可以是一条或多条实际的原始数据,也可以是所采集的原始数据中包含的全部特征类型,从而保护终端上的实际原始数据不会泄露给服务端、或者在将实际原始数据传输到服务端的过程中泄露出去。本实施例并不限定终端提供的原始数据的具体形式。
相对应地,确定所有原始数据中所包含的全部特征类型,具体可以是根据每个终端所提供的实际原始数据中包含的特征值对应的特征类型,确定所有终端提供的实际原始数据所包含的全部特征值对应的全部特征类型。也可以是根据每个终端所提供的特征类型,确定所有终端提供的全部特征类型。其中,相同的特征类型可以只确定一次。
为了便于进一步的理解,可以将每个终端提供的原始数据所包含的全部特征类型看作一个终端所采集的特征类型集合,确定所有原始数据中所包含的全部特征类型具体可以是,确定全部的终端对应的特征类型集合的并集。
下面提供一个具体的实例进行说明。
3个终端提供的原始数据可以分别是“操作对象、操作时间”、“操作对象、操作频率”、以及“操作对象、操作时长、操作行为”。
服务端根据上述3个终端提供的原始数据,可以确定所有原始数据中所包含的全部特征类型为“操作对象、操作时间、操作频率、操作时长、操作行为”。
当然,该实例仅仅用于示例性说明,并不能限定本实施例公开的范围。
在确定全部特征类型之后,可以根据所确定的全部特征类型构建去噪模型。因此,去噪模型的输入特征具体可以包括所确定的全部特征类型。
而去噪模型的具体形式可以是深度学习模型。其中,去噪模型可以包括输入层、隐藏层和输出层,而隐藏层的数量可以是一个或多个,本实施例并不限定。
为了便于理解去噪模型,下面提供一种去噪模型示例的结构示意图,用于示例性说明,并不能限定本实施例的范围。
如图2所示,为本说明书提供的一种去噪模型的结构示意图。去噪模型中可以包括1个输入层、1个输出层、以及3个隐藏层。
去噪模型具体可以用于帮助构建通用特征提取模型。具体的构建过程可以参见下文,此处暂不赘述。
S102:服务端将所确定的全部特征类型、以及去噪模型下发到每个终端。
服务端可以将S101中确定的全部特征类型、以及构建的初始去噪模型下发到每个终端,以便于每个终端可以根据接收到的全部特征类型进行补充,并利用自身的原始数据对初始的去噪模型进行训练。
S103:每个终端根据全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据。
首先对标准数据进行解释。
标准数据可以是包含了S101中所确定的全部特征类型对应的特征值的数据。因此,每条原始数据经过缺失值填充后可以扩展为标准数据,可以统一所包含的特征类型。
本实施例并不限定具体的预设缺失值填充算法,具体可以是将预设的固定值填充到本地的原始数据中;可以是从其他包含缺失特征类型的原始数据中、缺失特征类型对应的特征值中确定特征值填充到本地的原始数据中;也可以是综合其他包含缺失特征类型的原始数据中、缺失特征类型对应的特征值,将利用特征值进行计算后得到的结果填充到本地的原始数据中。
不同的缺失特征类型之间,可以使用相同或不同的缺失值填充算法,本实施例对此并不限定。
而为了避免终端之间泄露真实的原始数据,可以是由其他存储有包含缺失特征类型的原始数据的终端,在针对特征值进行计算后,可以将计算结果发送到终端。
下面提供具体的实例进行说明。
针对目标终端,确定本地原始数据的缺失特征类型为“操作频率”,为了填充缺失特征类型的缺失值,其他存储有包含“操作频率”的原始数据的终端针对本地原始数据的“操作频率”特征值进行计算,得到平均值为3,并将3发送到目标终端,填充到本地原始数据中,作为“操作频率”的特征值。
当然,并不限定具体的计算方法,也可以是计算众数、中位数等。上述实例仅仅用于示例性说明,并不能限定本实施例公开的范围。
经过缺失值填充后,可以将每条原始数据扩展为包含全部特征类型的特征值的标准数据,从而可以统一各个终端上的数据所包含的特征类型。
而得到的标准数据中包含了对应于S101中所确定的全部特征类型对应的特征值,从而可以作为S101中所构建的去噪模型的输入,进而方便之后的去噪模型训练。
当然,在具体将标准数据输入去噪模型之前,可以将标准数据转化为向量,再输入去噪模型。具体可以包括将标准数据中非数字形式的特征值转化为数字形式。
为了便于进一步的理解,下面提供两个表格针对S103进行解释。
如下表表1所示,包括了4条真实的原始数据。其中为了方便表示,将包含的特征值对应的特征类型放在表格的第一行。
具体的原始数据可以见表1。
序号 | 操作时间 | 操作对象 | 操作频率 | 操作时长 | 操作行为 |
1 | 12:00-15:00 | 游戏应用 | 2小时 | ||
2 | 15:00-18:00 | 3 | 10次点击 | ||
3 | 视频应用 | 1小时 | |||
4 | 视频应用 | 5 | 9次点击 |
表1
根据表1可见,原始数据中由于终端的不同,采集的特征类型并不相同。因此,可以使用上述的缺失值填充算法进行填充。
其中,针对操作时间和操作对象,可以随机根据其他原始数据的操作时间的特征值进行填充。
针对操作频率和操作时长,可以根据其他原始数据的操作频率特征值的平均值进行填充。
针对操作行为,可以根据预设的固定值进行填充。其中,针对游戏应用、以及1.5小时的操作时长,预设的操作行为固定值为50次点击。针对食品应用、以及1.5小时的操作时长,预设的操作行为固定值为30次点击。
填充后得到的标准数据可以如下表表2所示。
序号 | 操作时间 | 操作对象 | 操作频率 | 操作时长 | 操作行为 |
1 | 12:00-15:00 | 游戏应用 | 4 | 2小时 | 50次点击 |
2 | 15:00-18:00 | 视频应用 | 3 | 1.5小时 | 10次点击 |
3 | 12:00-15:00 | 视频应用 | 4 | 1小时 | 30次点击 |
4 | 15:00-18:00 | 视频应用 | 5 | 1.5小时 | 9次点击 |
表2
当然,上述实例仅仅用于示例性说明,并不能限定本实施例。
S104:每个终端对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
本实施例并不限定具体的加噪方式,作为一种可选的实例。
对标准数据进行加噪处理,得到训练样本集,具体可以是:针对扩展得到的任意一条标准数据i,通过添加Mi种不同的噪声得到Mi条加噪标准数据;将所述Mi组加噪标准数据分别作为样本特征值,并将该条标准数据i作为样本标签值,得到Mi个有标签样本。
当然,本实施例并不限定添加的具体噪声种类,其中不同的噪声具体可以包括高斯噪声、泊松噪声、乘性噪声或者脉冲噪声等等。
通过针对标准数据进行加噪处理,可以根据标准数据本身得到用于训练去噪模型的训练样本集。其中,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
通过这种方式,针对无标签的原始数据或标准数据也可以进行模型训练。
而加噪后的标准数据包含S101中所确定的全部特征类型对应的特征值,因此,也可以作为去噪模型的输入。
显然,利用S104中得到的训练样本集,可以训练去噪模型,使得训练得到的去噪模型具有降噪能力。
S105:服务端与***中一个或多个终端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
服务端与***中一个或多个终端可以利用各个终端本地在S104中得到的训练样本集,联合训练去噪模型。
具体的联合训练的解释在下文说明,此处暂不赘述。
下面首先针对去噪模型隐藏层进行解释。
经过上述联合训练后得到的去噪模型,本身具有一定的去噪能力。具体可以是去噪模型通过隐藏层提取特征后,可以将加噪后的标准数据映射到加噪前的标准数据。
并且,去噪模型的隐藏层针对加噪后的标准数据提取特征后,可以将加噪后的标准数据映射到同一特征空间,提取得到的特征的格式相同。
由于通用特征提取模型需要针对不同终端所采集的、包含不同特征类型对应的特征值的原始数据提取通用特征,而通用特征提取模型的输入是统一的形式,因此,在针对原始数据提取通用特征之前,需要针对原始数据进行预处理,得到对应的标准数据,再将标准数据输入到通用特征提取模型中。
本实施例并不限定具体的预处理方式,只要能够将原始数据转化为标准数据即可。具体可以参考S103中填充过程。通过预设的缺失值填充算法将原始数据中缺失的特征类型的特征值填充进去,得到标准数据。
需要注意的是,这里的标准数据可以是包含S101所确定的全部特征类型的数据。使用标准数据的原因一方面是为了统一不同终端所采集的原始数据的形式,另一方面是为了适应通用特征提取模型的输入。
而需要提取通用特征的原始数据,可能缺少S101所确定的全部特征类型中的部分特征类型,也可能包含S101所确定的全部特征类型中不存在的特征类型。
因此,在针对原始数据进行预处理时,可以包括填充原始数据缺失的部分特征类型,也可以包括删除原始数据中包含的、但S101所确定的全部特征类型中不存在的特征类型。
尽管通过缺失值填充的方法可以将原始数据转化为标准数据,但这是通过算法得到的缺失值,并不是实际数据,导致填充后得到的标准数据存在一定噪声。
因此,待输入通用特征提取模型的原始数据经过预处理后,填充得到的标准数据存在一定噪声,可以认为是加噪后的实际数据,从而可以利用上述去噪模型的隐藏层进行去噪,得到更贴合实际数据的标准数据。
而上述去噪模型的隐藏层针对输入的标准数据所提取出的特征可以在同一特征空间,因此,可以利用隐藏层的输出得到通用特征。
下面针对如何利用去噪模型的隐藏层构建通用特征提取模型进行解释。
本实施例并不限定具体的构建方法,作为一种可选的实例,训练后的去噪模型可以包括N个隐藏层。为了便于描述,可以将隐藏层按照先后顺序描述为Pi,针对任一隐藏层Pi,Pi的输入可以是Pi-1的输出;其中,2≤i≤N。
具体的构建方法可以是:利用训练后得到的去噪模型中隐藏层P1至Pk共k个隐藏层的信息构建通用特征提取模型,通用特征提取模型的输入可以是隐藏层P1的输入,具体可以是将原始数据进行填充后得到的标准数据。
而通用特征提取模型的输出、即通用特征可以包含隐藏层P1至Pk的k个输出;其中,1≤k≤N。具体可以是将隐藏层P1至Pk的k个输出进行拼接组合得到通用特征。
在另一种实例中,通用特征也可以是Pk的输出。
当然,上述实例仅仅用于示例性说明,并不能限定本实施例公开的范围。
为了便于进一步的理解,下面提供一种通用特征提取模型示例的结构示意图。
如图3所示,为本说明书提供的一种通用特征提取模型的结构示意图。
通用特征提取模型是利用3个去噪模型隐藏层构建的。因此,通用特征提取模型中包括了1个输入层、3个去噪模型隐藏层以及1个输出层。其中,3个去噪模型隐藏层的输出都输入到输出层中。
当然,上述实例仅仅用于示例性说明,并不能限定本实施例的范围。
上述实施例通过利用无标签的原始数据得到训练样本,采用自监督学习的方式构建并训练去噪模型,从而利用去噪模型的隐藏层构建通用特征提取模型。以使通用特征提取模型可以利用去噪模型的隐藏层的去噪能力,针对利用原始数据得到的标准数据进行去噪,进而可以从原始数据中提取出通用特征,便于之后的分析,提高分析效率。
为了方便对上述提高分析效率的效果的理解,下面给出一种可选的实例。
例如,使用通用特征提取模型从原始数据中提取的通用特征,可以根据实际需求,增加对应的标签后直接进行对应的模型训练。
作为更具体的实例,利用不同终端采集的用户操作相关的原始数据进行填充得到标准数据,利用通用特征提取模型从标准数据中提取出通用特征。而不同终端所采集的原始数据可以具有对应的标签“用户喜好”的标签值,例如,游戏、视频、音乐、社交等等。利用通用特征、以及原始数据的标签值,可以直接进行模型训练,得到用于根据通用特征预测用户喜好的模型。
因此,在针对原始数据进行分析时,可以从不同终端进行数据采集,采集的原始数据也可以包含不同特征类型,扩展了数据获取来源,并且可以较为方便地进行分析,提高了分析效率。
当然,上述实例仅仅用于示例性说明,并不能限定本实施例的范围。
下面针对上述S105中的联合训练进行解释。
本实施例并不限定具体的服务端和终端进行联合训练的具体方法。下面的几种实例都用于示例性说明,并不能限定本实施例的范围。
1)联合训练可以是联邦学习。
服务端可以与***中的终端进行联邦学习,并不限定参与联邦学习的终端数量。联邦学习中每轮迭代与服务端交互的终端数量也不限定。
本实施例并不限定具体的联邦学习的方法,作为一种可选的实例,如图4所示,为本说明书提供的一种联合训练的流程示意图,该方法可以应用于包括服务端和多个节点设备的***中,具体的节点设备可以是终端。当然,并不限定该***中节点设备的数量。其中具体的联邦学习的步骤可以至少包括以下步骤。
S201:***中一个或多个终端基于本地的训练样本集和当前去噪模型,确定当前模型训练特征,并将当前模型训练特征发送到服务端。
S202:服务端综合接收到的当前模型训练特征,确定综合模型训练特征,并将综合模型训练特征下发到每个终端。
S203:每个终端基于接收到的综合模型训练特征更新本地的当前去噪模型。
S204:判断当前是否满足预设的循环停止条件。如果否,执行S201。如果是,则停止执行。
在联邦学习中,服务端与终端之间交互传输的模型训练特征,具体可以是当前去噪模型的损失函数的梯度值,也可以是当前去噪模型的参数集。
模型训练特征为梯度的情况下,S201中可以是由终端根据本地的训练样本集、以及当前的去噪模型,直接计算损失函数的梯度值得到的。在S203中根据综合后的梯度更新本地当前去噪模型时,可以是根据梯度更新当前的去噪模型参数集。使得参与联邦学习的各个终端的去噪模型可以保持一致。
模型训练特征为模型参数集的情况下,S201中可以是由终端利用本地的训练样本集,针对当前的去噪模型进行训练,更新去噪模型参数集,具体的训练迭代次数并不限定,不同终端的迭代次数也可以不同。在S203中,根据综合后的模型参数集,直接替换本地经过训练的去噪模型的参数集,使得参与联邦学习的各个终端的去噪模型可以保持一致。
当然,S202中服务端确定综合模型训练特征的方法也不限定。作为一种可选的实例,可以是计算加权平均值,权重可以根据终端的训练样本集中的样本数量确定。
为了便于理解,下面给出一个示例的原理图,如图5所示,为本说明书提供的一种联邦学习中单轮迭代的原理示意图。联邦学习中,并不限定参与单轮迭代的终端数量。
其中,服务端与3个终端进行联邦学习,在单轮迭代中交互的模型训练特征为模型损失函数的梯度。
每个终端根据本地基于原始数据得到的训练样本集、以及当前的去噪模型,计算得到当前损失函数的梯度值,并将梯度值都上传到服务端。
服务端根据3个梯度值求平均值,得到综合梯度值,下发到3个终端上。
3个终端根据综合梯度值更新当前的去噪模型。
图5仅仅用于示例性说明,并不能限定本实施例公开的范围。
显然,利用联邦学习,只传输模型训练特征,可以使得终端的原始数据不会泄露出去,保证数据安全。此外,模型训练特征在服务端和终端之间的交互传输可以是加密的,其他设备难以解密得到交互传输的模型训练特征,进一步保证了数据安全。
2)联合训练可以是服务端综合终端的训练样本集进行训练。
作为另一种可选的实例,服务端可以直接获取各个终端的训练样本集,综合各个终端的训练样本集后,针对去噪模型进行训练。
这种方法可以较为方便地进行通用特征提取,无需复杂的交互过程,训练效率较高。
下面针对具体的去噪模型训练过程进行描述。
本实施例并不限定具体的去噪模型,作为一种可选的实例,去噪模型具体可以是堆叠式降噪自动编码器。
如图6所示,为本说明书提供的一种去噪模型训练的原理示意图。
其中,去噪模型包括1个输入层、3个隐藏层和1个输出层。
针对一个不具有噪声的数据样本,先进行加噪,再将加噪后的数据样本作为样本特征值输入去噪模型的输入层,而对应的样本标签值为加噪前的数据样本。
利用输出层针对样本特征值的预测输出值,与样本标签值之间的差异,计算损失并更新去噪模型。
具体的训练过程可以是针对去噪模型的每一个隐藏层,逐个进行训练。在任一隐藏层满足训练停止条件后,可以针对下一个隐藏层进行训练。
作为一种可选的实例,去噪模型可以包括N个隐藏层;针对任一隐藏层Pi,Pi的输入是Pi-1的输出;其中,2≤i≤N。
具体的训练过程可以至少包括:利用训练样本集训练隐藏层P1,直到满足隐藏层P1的训练停止条件;针对任一隐藏层Pi,利用隐藏层Pi-1的输出和对应的标签值训练隐藏层Pi,直到满足隐藏层Pi的训练停止条件。
显然,针对去噪模型中的隐藏层,可以利用上一隐藏层的输出和对应的标签值进行训练。
当然,上述实例仅仅用于示例性说明,并不能限定本实施例的范围。
综合上述联合训练和去噪模型训练的解释,在联合训练具体为联邦学习的情况下,服务端与终端之间交互的可以是当前正在训练的单个隐藏层的损失函数的梯度;可以是整体的去噪模型的损失函数的梯度;可以是当前正在训练的单个隐藏层的参数集;可以是整体的去噪模型的参数集。
上述实施例是通过服务端和终端之间的交互完成的,而其中,终端所执行的操作也可以由服务端执行。
作为另一种实施例,可以由各个终端将本地采集的原始数据发送到服务端,由服务端执行原始数据的填充、构建模型和训练样本集、训练去噪模型、构建通用特征提取模型等操作。
如图7所示,为本说明书提供的另一种通用特征提取模型构建方法的流程示意图。该方法可以应用于服务端或任一计算设备,可以至少包括以下步骤。
S301:接收一个或多个终端发送的多条原始数据。
S302:确定多条原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;去噪模型为深度学习模型。
S303:根据全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据。
S304:对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
S305:利用训练样本集训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
上述步骤的解释具体可以参见上述方法实施例,此处不再赘述。
当然,如果一个计算设备中已经存储有多条原始数据,也可以直接执行上述S302-S305构建通用特征提取模型。
下面对上述几个方法实施例的部分技术效果进行总结。
1)通过联邦学习进行去噪模型的训练,从而一方面有效利用了多个终端的数据联合建模,解决了数据孤岛问题,另一方面解决了用户数据隐私问题,保证了终端数据不出域,保护了用户数据隐私安全,防止数据滥用风险。
2)由于采用了去噪模型的隐藏层构建通用特征提取模型,最终提取得到的通用特征是一个维度相同的、抽象的表征向量,能够有效的克服不同终端采集的原始数据的特征缺失和分布差异大等问题,并且对噪声和缺失值具有很高的稳定性。
3)去噪模型并不依附于任何特定任务,因此,去噪模型隐藏层所提取的特征更能够反映用户本身的特征,而不是为特定的任务服务的特征。并且,由于去噪模型是使用自监督学习进行训练的,针对终端无标签的情况也能进行训练,因此,利用去噪模型隐藏层所提取的通用特征在其他具体的场景和任务中具有更高的扩展性和通用性。
除了上述实施例,本说明书还提供了一种通用特征提取方法。具体可以是利用上述实施例中构建的通用特征提取模型,从原始数据中提取通用特征。
如图8所示,为本说明书提供的一种通用特征提取方法的流程示意图。该方法可以应用于任一计算设备。该方法可以至少包括以下步骤。
S401:获取待提取原始数据。
其中,待提取原始数据可以是需要提取通用特征的原始数据,原始数据具体可以是终端采集到的的、用户在一段时间内操作相关的数据。
S402:在待提取原始数据包括全部特征类型的情况下,将待提取原始数据输入通用特征提取模型,得到通用特征提取模型的输出作为待提取原始数据的通用特征。
在原始数据包含了S101中确定的全部特征类型的情况下,原始数据可以直接输入通用特征提取模型,从而得到模型的输出作为对应的通用特征。
而在原始数据并未包含S101中确定的全部特征类型的情况下,该方法还可以包括以下步骤。
S403:在待提取原始数据没有包括全部特征类型的情况下,根据全部特征类型,确定待提取原始数据的缺失特征类型,并基于预设的缺失值填充算法对待提取原始数据进行填充,将待提取原始数据扩展为包含全部特征类型特征值的待提取标准数据。
具体可以参见上述方法实施例S103和S105中的解释。
S404:将待提取标准数据输入通用特征提取模型,得到通用特征提取模型的输出作为待提取原始数据的通用特征。
本实施例可以利用上述方法实施例中构建的通用特征提取模型,针对不同终端采集的原始数据,提取出通用特征,便于之后的分析,提高分析效率。
除了上述方法实施例,本说明书还提供了对应的装置实施例、***实施例。
***实施例。
本说明书还提供了一种通用特征提取模型构建***,***中可以包含服务端和至少2个终端。
其中服务端可以用于:根据多个终端提供的原始数据,可以确定所有原始数据中所包含的全部特征类型;可以针对所获取的全部特征类型构建去噪模型;去噪模型可以是深度学习模型;可以将所获取的全部特征类型、以及去噪模型下发到每个终端;可以与***中一个或多个终端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
每个终端可以用于:根据全部特征类型,可以确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;每个终端可以对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;与服务端联合训练去噪模型。
每个终端可以具体用于:针对扩展得到的任意一条标准数据i,通过添加Mi种不同的噪声得到Mi条加噪标准数据;将Mi组加噪标准数据分别作为样本特征值,并将该条标准数据i作为样本标签值,得到Mi个有标签样本。
服务端可以具体用于:循环执行以下步骤,直到满足预设的循环停止条件:接收***中一个或多个终端基于本地的训练样本集和当前去噪模型,确定并发送的当前模型训练特征;综合接收到的当前模型训练特征,确定综合模型训练特征,并将综合模型训练特征下发到每个终端,以使每个终端基于接收到的综合模型训练特征更新本地的当前去噪模型。
训练后的去噪模型可以包括N个隐藏层;针对任一隐藏层Pi,Pi的输入是Pi-1的输出;2≤i≤N。相对应的,服务端可以具体用于:利用训练后的去噪模型中隐藏层P1至Pk共k个隐藏层的信息构建通用特征提取模型,通用特征提取模型的输入为隐藏层P1的输入,通用特征提取模型的输出包含隐藏层P1至Pk的k个输出;1≤k≤N。
去噪模型可以包括N个隐藏层;针对任一隐藏层Pi,Pi的输入是Pi-1的输出;2≤i≤N;***中的服务端和终端在训练去噪模型时,具体可以用于:利用训练样本集训练隐藏层P1,直到满足隐藏层P1的训练停止条件;针对任一隐藏层Pi,利用隐藏层Pi-1的输出和对应的标签值训练隐藏层Pi,直到满足隐藏层Pi的训练停止条件。
装置实施例一。
如图9所示,为本说明书提供的一种通用特征提取模型构建装置的结构示意图,该装置可以应用于服务端,可以至少包括以下单元。
构建单元501:可以用于根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;去噪模型为深度学习模型。
下发单元502:可以用于将全部特征类型、以及去噪模型下发到每个终端,以使每个终端根据全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;并对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
第一训练单元503:可以用于与***中一个或多个终端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
装置实施例二。
如图10所示,为本说明书提供的另一种通用特征提取模型构建装置的结构示意图,该装置可以应用于终端,可以至少包括以下单元。
扩展单元601:可以用于根据接收到的全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据。
加噪单元602:可以用于对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
第二训练单元603:可以用于与服务端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型;去噪模型为深度学习模型。
其中,全部特征类型可以是由服务端根据多个终端提供的原始数据确定并下发到终端的;去噪模型可以是由服务端针对所获取的全部特征类型构建并下发到终端的。
装置实施例三。
如图11所示,为本说明书提供的另一种通用特征提取模型构建装置的结构示意图,该装置可以至少包括以下单元。
模型构建单元701:可以用于确定多条原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;去噪模型为深度学习模型。
数据扩展单元702:可以用于根据全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据。
样本获取单元703:可以用于对标准数据进行加噪处理,得到训练样本集,训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值。
模型训练单元704:可以用于利用训练样本集训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
装置实施例四。
如图12所示,为本说明书提供的一种通用特征提取装置的结构示意图,该装置可以利用上述方法实施例中构建的通用特征提取模型。该装置可以至少包括以下单元。
获取单元801:可以用于获取待提取原始数据。
提取单元802:可以用于在待提取原始数据包括全部特征类型的情况下,将待提取原始数据输入通用特征提取模型,得到通用特征提取模型的输出作为待提取原始数据的通用特征。
提取单元802还可以用于:在待提取原始数据没有包括全部特征类型的情况下,根据全部特征类型,确定待提取原始数据的缺失特征类型,并基于预设的缺失值填充算法对待提取原始数据进行填充,将待提取原始数据扩展为包含全部特征类型特征值的待提取标准数据;将待提取标准数据输入通用特征提取模型,得到通用特征提取模型的输出作为待提取原始数据的通用特征。
上述***实施例和装置实施例的解释可以参见上述方法实施例。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现本说明书提供的一种通用特征提取模型构建方法或者一种通用特征提取方法。
图13示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本说明书提供的一种通用特征提取模型构建方法或者一种通用特征提取方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护。
Claims (16)
1.一种通用特征提取模型构建方法,应用于包含服务端和至少2个终端的***,包括:
服务端根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
服务端将所确定的全部特征类型、以及所述去噪模型下发到每个终端;
每个终端根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
每个终端对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
服务端与所述***中一个或多个终端联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
2.根据权利要求1所述的方法,所述对标准数据进行加噪处理,得到训练样本集,包括:
针对扩展得到的任意一条标准数据i,通过添加Mi种不同的噪声得到Mi条加噪标准数据;将所述Mi条加噪标准数据分别作为样本特征值,并将该条标准数据i作为样本标签值,得到Mi个有标签样本。
3.根据权利要求1所述的方法,所述服务端与所述***中一个或多个终端联合训练所述去噪模型,包括:
循环执行以下步骤,直到满足预设的循环停止条件:
所述***中一个或多个终端基于本地的训练样本集和当前去噪模型,确定当前模型训练特征,并将当前模型训练特征发送到服务端;
服务端综合接收到的当前模型训练特征,确定综合模型训练特征,并将所述综合模型训练特征下发到每个终端,以使每个终端基于接收到的综合模型训练特征更新本地的当前去噪模型。
4.根据权利要求1所述的方法,训练后的去噪模型包括N个隐藏层;针对任一隐藏层Pi,Pi的输入是Pi-1的输出;2≤i≤N;
所述利用训练后的去噪模型隐藏层信息构建通用特征提取模型,包括:
利用训练后的去噪模型中隐藏层P1至Pk共k个隐藏层的信息构建通用特征提取模型,所述通用特征提取模型的输入为隐藏层P1的输入,所述通用特征提取模型的输出包含隐藏层P1至Pk的k个输出;1≤k≤N。
5.根据权利要求1所述的方法,所述去噪模型包括N个隐藏层;针对任一隐藏层Pi,Pi的输入是Pi-1的输出;2≤i≤N;
所述训练所述去噪模型,包括:
利用所述训练样本集训练隐藏层P1,直到满足隐藏层P1的训练停止条件;
针对任一隐藏层Pi,利用隐藏层Pi-1的输出和对应的标签值训练隐藏层Pi,直到满足隐藏层Pi的训练停止条件。
6.一种通用特征提取模型构建方法,应用于服务端,包括:
根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
将所述全部特征类型、以及所述去噪模型下发到每个终端,以使每个终端根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;并对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
与所述终端中的一个或多个联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
7.一种通用特征提取模型构建方法,应用于终端,包括:
根据接收到的全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
与服务端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型;所述去噪模型为深度学习模型;
其中,所述全部特征类型是由服务端根据多个终端提供的原始数据确定并下发到终端的;所述去噪模型是由服务端针对所述全部特征类型构建并下发到终端的。
8.一种通用特征提取模型构建方法,包括:
确定多条原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
根据所述全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含所述全部特征类型特征值的标准数据;
对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
利用所述训练样本集训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
9.一种基于权利要求1-8任一项所述方法构建的通用特征提取模型的通用特征提取方法,包括:
获取待提取原始数据;
在所述待提取原始数据包括所述全部特征类型的情况下,将所述待提取原始数据输入所述通用特征提取模型,得到所述通用特征提取模型的输出作为所述待提取原始数据的通用特征。
10.根据权利要求9所述的方法,还包括:
在所述待提取原始数据没有包括所述全部特征类型的情况下,根据所述全部特征类型,确定所述待提取原始数据的缺失特征类型,并基于预设的缺失值填充算法对所述待提取原始数据进行填充,将所述待提取原始数据扩展为包含全部特征类型特征值的待提取标准数据;
将所述待提取标准数据输入所述通用特征提取模型,得到所述通用特征提取模型的输出作为所述待提取原始数据的通用特征。
11.一种通用特征提取模型构建***,包含服务端和至少2个终端:
服务端用于:根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;将所获取的全部特征类型、以及所述去噪模型下发到每个终端;与所述***中一个或多个终端联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型;
每个终端用于:根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;每个终端对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;与所述服务端联合训练所述去噪模型。
12.一种通用特征提取模型构建装置,应用于服务端,包括:
构建单元:用于根据多个终端提供的原始数据,确定所有原始数据中所包含的全部特征类型;针对所获取的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
下发单元:用于将所述全部特征类型、以及所述去噪模型下发到每个终端,以使每个终端根据所述全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;并对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
训练单元:用于与所述终端中的一个或多个联合训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
13.一种通用特征提取模型构建装置,应用于终端,包括:
扩展单元:用于根据接收到的全部特征类型,确定本地原始数据的缺失特征类型,并基于预设的缺失值填充算法对本地原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
加噪单元:用于对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
训练单元:用于与服务端联合训练去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型;所述去噪模型为深度学习模型;
其中,所述全部特征类型是由服务端根据多个终端提供的原始数据确定并下发到终端的;所述去噪模型是由服务端针对所获取的全部特征类型构建并下发到终端的。
14.一种通用特征提取模型构建装置,包括:
模型构建单元:用于确定多条原始数据中所包含的全部特征类型;针对所确定的全部特征类型构建去噪模型;所述去噪模型为深度学习模型;
数据扩展单元:用于根据所述全部特征类型,确定每条原始数据的缺失特征类型,并基于预设的缺失值填充算法对该条原始数据进行填充,将每条原始数据扩展为包含全部特征类型特征值的标准数据;
样本获取单元:用于对标准数据进行加噪处理,得到训练样本集,所述训练样本集中每条训练样本以加噪后的标准数据为特征值,以加噪前的标准数据为标签值;
模型训练单元:用于利用所述训练样本集训练所述去噪模型,利用训练后的去噪模型隐藏层信息构建通用特征提取模型。
15.一种基于权利要求1-8任一项所述方法构建的通用特征提取模型的通用特征提取装置,包括:
获取单元:用于获取待提取原始数据;
提取单元:用于在所述待提取原始数据包括所述全部特征类型的情况下,将所述待提取原始数据输入所述通用特征提取模型,得到所述通用特征提取模型的输出作为所述待提取原始数据的通用特征。
16.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求6-8任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182994.5A CN112215238B (zh) | 2020-10-29 | 2020-10-29 | 一种通用特征提取模型构建方法、***及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011182994.5A CN112215238B (zh) | 2020-10-29 | 2020-10-29 | 一种通用特征提取模型构建方法、***及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215238A CN112215238A (zh) | 2021-01-12 |
CN112215238B true CN112215238B (zh) | 2022-06-07 |
Family
ID=74057537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011182994.5A Active CN112215238B (zh) | 2020-10-29 | 2020-10-29 | 一种通用特征提取模型构建方法、***及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215238B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560105B (zh) * | 2021-02-19 | 2021-09-07 | 支付宝(杭州)信息技术有限公司 | 保护多方数据隐私的联合建模方法及装置 |
CN112836767A (zh) * | 2021-03-03 | 2021-05-25 | 深圳前海微众银行股份有限公司 | 联邦建模方法、装置、设备、存储介质及程序产品 |
CN113988225B (zh) * | 2021-12-24 | 2022-05-06 | 支付宝(杭州)信息技术有限公司 | 建立表征提取模型、表征提取、类型识别的方法和装置 |
CN116418686A (zh) * | 2021-12-31 | 2023-07-11 | 华为技术有限公司 | 模型的数据处理方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9412153B2 (en) * | 2014-12-11 | 2016-08-09 | Sony Corporation | Using depth for recovering missing information in an image |
CN109492420B (zh) * | 2018-12-28 | 2021-07-20 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法、终端、***及介质 |
CN110288094B (zh) * | 2019-06-10 | 2020-12-18 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数训练方法及装置 |
CN110597799B (zh) * | 2019-09-17 | 2023-01-24 | 上海仪电(集团)有限公司中央研究院 | 一种时序数据缺失值自动填补方法、***和设备 |
CN111091231B (zh) * | 2019-11-25 | 2022-04-15 | 珠海格力电器股份有限公司 | 预测模型训练方法、时间预测方法、训练装置及终端 |
CN111291816B (zh) * | 2020-02-17 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 针对用户分类模型进行特征处理的方法及装置 |
CN111461874A (zh) * | 2020-04-13 | 2020-07-28 | 浙江大学 | 一种基于联邦模式的信贷风险控制***及方法 |
CN111709788A (zh) * | 2020-06-18 | 2020-09-25 | 安徽迪科数金科技有限公司 | 一种基于数据隐私保护的精准营销*** |
CN111814962B (zh) * | 2020-07-09 | 2024-05-10 | 平安科技(深圳)有限公司 | 识别模型的参数获取方法、装置、电子设备及存储介质 |
CN111813869B (zh) * | 2020-08-21 | 2021-03-23 | 支付宝(杭州)信息技术有限公司 | 一种基于分布式数据的多任务模型训练方法及*** |
-
2020
- 2020-10-29 CN CN202011182994.5A patent/CN112215238B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112215238A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215238B (zh) | 一种通用特征提取模型构建方法、***及装置 | |
CN108108821B (zh) | 模型训练方法及装置 | |
US11269962B2 (en) | Inductive matrix completion and graph proximity for content item recommendation | |
US11354700B2 (en) | Adaptive lead generation for marketing | |
US10127294B2 (en) | Idempotency of application state data | |
CN109872242B (zh) | 信息推送方法和装置 | |
CN109472296A (zh) | 一种基于梯度提升决策树的模型训练方法及装置 | |
CN105938557A (zh) | 图像识别方法、图像识别装置 | |
CN103281375B (zh) | 一种第三方应用的联系人管理方法及装置、*** | |
CN113572752B (zh) | 异常流量的检测方法和装置、电子设备、存储介质 | |
CN110474820B (zh) | 流量回放方法、装置、电子设备 | |
CN110070076B (zh) | 用于选取训练用样本的方法和装置 | |
WO2015038444A2 (en) | Strength based modeling for recommendation system | |
CN112396456A (zh) | 广告推送方法、装置、存储介质以及终端 | |
CN110705635B (zh) | 用于生成隔离森林的方法和装置 | |
JP2022549986A (ja) | サードパーティシステムからの拡張現実データの効果的なストリーミング | |
CN115374141B (zh) | 虚拟形象的更新处理方法及装置 | |
CN112148744A (zh) | 页面展示方法、装置、电子设备和计算机可读介质 | |
CN111787042A (zh) | 用于推送信息的方法和装置 | |
CN111160738A (zh) | 事件处理方法、装置、存储介质及电子装置 | |
CN110033381A (zh) | 一种针对视障群体的保险推荐方法和装置 | |
CN113742593A (zh) | 用于推送信息的方法和装置 | |
US20230053859A1 (en) | Method and apparatus for outputting information | |
CN114546343A (zh) | 活动页面的生成方法和装置 | |
CN111949860B (zh) | 用于生成相关度确定模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40044726 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |