CN111563067B

CN111563067B - 一种特征处理方法及装置

Info

Publication number: CN111563067B
Application number: CN202010372184.XA
Authority: CN
Inventors: 吴作鹏
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2023-04-14
Anticipated expiration: 2040-05-06
Also published as: CN111563067A

Abstract

本发明公开了一种特征处理方法及装置，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。本发明针对单次模型训练时的迭代模型标识和模型评估得分均记录在日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。

Description

一种特征处理方法及装置

技术领域

本发明涉及计算机技术领域，更具体的说，涉及一种特征处理方法及装置。

背景技术

在应用机器学习技术解决生产问题的过程中，通常需要进行大量的模型训练以得到效果最好的模型。在模型训练过程中，需要对大量特征的效果进行评估，尤其是通过特征衍生方式构造的大量特征，这些特征中，有些特征会对模型产生正向效果，有些特征会对模型产生干扰效果。现有在对这些特征进行评估时，通常采用逐渐增加或是逐渐减少的方式来迭代训练模型，并根据各个特征的最终评估得分高低，筛选得到效果好的特征。

目前在筛选特征的过程中，由于是采用迭代训练方式来评估特征的好坏，因此一旦因为各种不确定因素导致模型在训练过程中意外终止，可能就需要重新开始迭代训练流程。若重新开始迭代训练，则程序崩溃前在模型训练上花费的时间就浪费掉，从而导致整个模型训练过程需要花费较长时间。

发明内容

有鉴于此，本发明公开一种特征处理方法及装置，以实现在特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少模型重复训练时间的浪费，提高特征处理效率。

一种特征处理方法，包括：

基于本次特征迭代的所有待评估特征的特征组合，生成一个与所述特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称；

判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，其中，所述日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分；

如果是，则对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

可选的，当所述迭代模型标识为MD5值时，所述基于本次特征迭代的所有待评估特征的特征组合，生成一个与所述特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称，具体包括：

对所述特征组合采用MD5信息摘要算法，生成一个MD5值，并将所述MD5值作为本次特征迭代的日志文件名称。

可选的，还包括：

如果否，则对所述所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将所述迭代模型标识和所述当前模型评估得分以对应关系的形式存储至以所述迭代模型标识为日志文件名称的日志文件中。

可选的，在获取所述当前模型评估得分之后，还包括：

判断本次特征迭代是否为所有特征迭代的最后一次特征迭代；

如果是，则从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合最为筛选得到的最佳特征组合。

一种特征处理装置，包括：

标识生成单元，用于基于本次特征迭代的所有待评估特征的特征组合，生成一个与所述特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称；

第一判断单元，用于判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，其中，所述日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分；

解析单元，用于在所述第一判断单元判断为是的情况下，对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

可选的，所述标识生成单元具体用于：

可选的，还包括：

训练单元，用于在所述第一判断单元判断为否的情况下，对所述所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将所述迭代模型标识和所述当前模型评估得分以对应关系的形式存储至以所述迭代模型标识为日志文件名称的日志文件中。

可选的，还包括：

第二判断单元，用于在所述解析单元或所述训练单元获取所述当前模型评估得分之后，，判断本次特征迭代是否为所有特征迭代的最后一次特征迭代；

查找单元，用于在所述第二判断单元判断为是的情况下，从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合最为筛选得到的最佳特征组合。

从上述的技术方案可知，本发明公开了一种特征处理方法及装置，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种特征处理方法流程图；

图2为本发明实施例公开的另一种特征处理方法流程图；

图3为本发明实施例公开的另一种特征处理方法流程图；

图4为本发明实施例公开的一种特征处理装置的结构示意图；

图5为本发明实施例公开的另一种特征处理装置的结构示意图；

图6为本发明实施例公开的另一种特征处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种特征处理方法及装置，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。

参见图1，本发明一实施例公开的一种特征处理方法流程图，该方法包括步骤：

步骤S101、基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称；

其中，迭代模型标识用于区分不同的迭代步骤，且相同的迭代步骤生成的迭代模型标识是相同的。

可选的，迭代模型标识可以为采用MD5信息摘要算法得到的MD5。

步骤S101的实现过程具体可以包括：对本次特征迭代的所有待评估特征的特征组合采用MD5信息摘要算法，生成一个MD5值，并将所述MD5值作为本次特征迭代的日志文件名称。

MD5信息摘要算法(MD5 Message-Digest Algorithm)是一种被广泛使用的密码散列函数，可以产生出一个128位(16字节)的散列值(hash value)，用于确保信息传输完整一致。

当然，在实际应用中，还可以采用其他的方法，比如哈希算法生成迭代模型标识，具体依据实际情况而定，本发明在此不做限定。

其中，特征组合包括：模型特征、评估算法和模型参数。

本发明为训练任务确定了一个迭代模型标识，该迭代模型标识为基于所有待评估特征的特征组合生成的一个MD5值，该MD5值作为本次特征迭代的唯一标识，可以保证所有待评估特征发生变动前的迭代模型标识是一致的。

具体的，将所有待评估特征的特征组合拼接成一个字符串，对所述字符串采用MD5信息摘要算法生成一个MD5值，并将该MD5值作为日志文件名称，以保证所有待评估特征在变动前，基于该MD5值，可以很方便地找到日志记录。

举例说明，假设有三个待评估特征，分别为：age、family_dep和employed_time，将这三个待评估特征组合拼接成一个字符串″agefamily_depemployed_time″，对该字符串采用MD5信息摘要算法生成一个MD5值为：BCCABC92B7A7138F8146EF08606A67EB。这样可以保证无论待评估特征组合成的字符串有多长，都可以转换成一个长度为32位的字符串，即MD5值。

步骤S102、判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，如果是，则执行步骤S103；

其中，本发明在单次模型训练完成后，都会将单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，存储至以该迭代模型标识为日志文件名称的日志文件中。

因此，日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，所述迭代模型标识为基于单次模型训练时的待评估特征的特征组合得到。

可以理解，在本次特征迭代训练之前，可能已经生成了多个日志文件，在查找与本次特征迭代生成的迭代模型标识相同的日志文件时，将与本次特征迭代生成的迭代模型标识名称相同的日志文件，记为目标日志文件。

需要说明的是，在特征筛选过程中，需要对所有待评估特征进行多次特征迭代训练，每次特征迭代训练完成后均生成一个日志文件，为便于区分各个日志文件，在首次特征迭代训练时，可以″迭代模型标识″加″01″后缀为日志文件名称，对首次特征迭代训练过程生成的日志文件进行命名；第二次特征迭代训练时，可以″迭代模型标识″加″02″后缀为日志文件名称，对第二次特征迭代训练过程生成的日志文件进行命名，依次类推。

步骤S103、对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

综上可知，本发明公开的特征处理方法，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。

为进一步优化上述实施例，参见图2，本发明另一实施例公开的一种特征处理方法流程图，在步骤S102之后，且在步骤S102判断为否的情况下，还可以包括步骤：

步骤S104、对所述所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将所述迭代模型标识和所述当前模型评估得分以对应关系的形式存储至以所述迭代模型标识为日志文件名称的日志文件中。

在实际应用中，可以根据待评估特征、评估算法和模型参数，生成特征迭代信息，基于所述特征迭代信息执行特征迭代过程，进行对所有待评估特征的模型训练。

其中，可以将本次特征迭代计算得到的MD5值和训练得到的当前模型评估得分，组合成key：value的形式记录在日志文件中。

为进一步优化上述实施例，参见图3，本发明另一实施例公开的一种特征处理方法流程图，在图2所示实施例的基础上，在得到本次特征迭代的当前模型评估得分之后，也即在步骤S103和步骤S104之后，还可以包括步骤：

步骤S105、判断本次特征迭代是否为所有特征迭代的最后一次特征迭代，如果否，则返回执行步骤S101，如果是，则执行步骤S106；

在进行特征筛选时，通常需要执行多次特征迭代过程，只有当所有的特征迭代过程均结束后，才可以筛选出最优的特征组合。

因此，在每次特征迭代结束后，都需要判断本次特征迭代是否为所有特征迭代的最后一次特征迭代，如果否，则继续执行下一次的特征迭代，如果是，则继续执行后续的特征筛选操作。

步骤S106、从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合最为筛选得到的最佳特征组合。

综上可知，本发明公开的特征处理方法，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。当未查找到目标日志文件时，会继续对所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将该迭代模型标识和当前模型评估得分以对应关系的形式存储至以迭代模型标识为日志文件名称的日志文件中，以便于后续使用。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。同时，本发明后续无需额外处理，在所有特征迭代完成后，就可以筛选出最佳特征组合。

与上述方法实施例相对应，本发明还公开了一种特征处理装置。

参见图4，本发明一实施例公开的一种特征处理装置的结构示意图，该装置包括：

标识生成单元201，用于基于本次特征迭代的所有待评估特征的特征组合，生成一个与所述特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称；

特征组合包括：模型特征、评估算法和模型参数。

因此，标识生成单元201具体可以用于：

第一判断单元202，用于判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，其中，所述日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分；

解析单元203，用于在所述第一判断单元202判断为是的情况下，对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

综上可知，本发明公开的特征处理装置，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。

为进一步优化上述实施例，参见图5，本发明另一实施例公开的一种特征处理装置的结构示意图，在图4所示实施例的基础上，还可以包括：

训练单元204，用于在所述第一判断单元202判断为否的情况下，对所述所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将所述迭代模型标识和所述当前模型评估得分以对应关系的形式存储至以所述迭代模型标识为日志文件名称的日志文件中。

为进一步优化上述实施例，参见图6，本发明另一实施例公开的一种特征处理装置的结构示意图，在图5所示实施例的基础上，还可以包括：

第二判断单元205，用于在所述解析单元203或所述训练单元204获取所述当前模型评估得分之后，，判断本次特征迭代是否为所有特征迭代的最后一次特征迭代；

查找单元206，用于在所述第二判断单元205判断为是的情况下，从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合最为筛选得到的最佳特征组合。

其中，当第二判断单元205判断为否的情况下，则返回执行标识生成单元201。

综上可知，本发明公开的特征处理装置，基于本次特征迭代的所有待评估特征的特征组合，生成一个与特征组合唯一对应的迭代模型标识，并将该迭代模型标识作为本次特征迭代的日志文件名称，当查找到日志文件名称与迭代模型标识相同的日志文件，即目标日志文件时，对目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。当未查找到目标日志文件时，会继续对所有待评估特征进行模型训练，得到本次特征迭代的当前模型评估得分，并将该迭代模型标识和当前模型评估得分以对应关系的形式存储至以迭代模型标识为日志文件名称的日志文件中，以便于后续使用。由于本发明针对单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分，均记录在以迭代模型标识为日志文件名称的日志文件中，因此当特征迭代过程因不确定因素终止时，通过计算特征迭代终止时的迭代模型标识，就可以从以该迭代模型标识为日志文件名称的日志文件中获取相对应的模型评估得分，从而减少了模型重复训练时间的浪费，提高了特征处理效率。同时，本发明后续无需额外处理，在所有特征迭代完成后，就可以筛选出最佳特征组合。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句″包括一个......″限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种特征处理方法，其特征在于，包括：

判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，其中，所述日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分；

如果是，则将日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

2.根据权利要求1所述的特征处理方法，其特征在于，当所述迭代模型标识为MD5值时，所述基于本次特征迭代的所有待评估特征的特征组合，生成一个与所述特征组合唯一对应的迭代模型标识，并将所述迭代模型标识作为本次特征迭代的日志文件名称，具体包括：

3.根据权利要求1所述的特征处理方法，其特征在于，还包括：

4.根据权利要求3所述的特征处理方法，其特征在于，在获取所述当前模型评估得分之后，还包括：

如果是，则从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合为筛选得到的最佳特征组合。

5.一种特征处理装置，其特征在于，包括：

第一判断单元，用于判断是否存在日志文件名称与所述迭代模型标识相同的日志文件，其中，所述日志文件中记录有单次模型训练时计算得到的迭代模型标识以及训练得到的模型评估得分；

解析单元，用于在所述第一判断单元判断为是的情况下，将日志文件名称与所述迭代模型标识相同的日志文件，记为目标日志文件，对所述目标日志文件进行解析，并从解析后的目标日志文件中获取本次特征迭代的当前模型评估得分。

6.根据权利要求5所述的特征处理装置，其特征在于，所述标识生成单元具体用于：

7.根据权利要求5所述的特征处理装置，其特征在于，还包括：

8.根据权利要求7所述的特征处理装置，其特征在于，还包括：

第二判断单元，用于在所述解析单元或所述训练单元获取所述当前模型评估得分之后，判断本次特征迭代是否为所有特征迭代的最后一次特征迭代；

查找单元，用于在所述第二判断单元判断为是的情况下，从所有迭代过程生成的各个模型评估得分中，查找到模型评估得分最高的特征组合为筛选得到的最佳特征组合。