CN114443639A - 处理数据表及自动训练机器学习模型的方法和*** - Google Patents

处理数据表及自动训练机器学习模型的方法和*** Download PDF

Info

Publication number
CN114443639A
CN114443639A CN202011205070.2A CN202011205070A CN114443639A CN 114443639 A CN114443639 A CN 114443639A CN 202011205070 A CN202011205070 A CN 202011205070A CN 114443639 A CN114443639 A CN 114443639A
Authority
CN
China
Prior art keywords
data table
fields
splicing
machine learning
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011205070.2A
Other languages
English (en)
Inventor
王海
焦英翔
李文昊
涂威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN202011205070.2A priority Critical patent/CN114443639A/zh
Priority to PCT/CN2021/128150 priority patent/WO2022089652A1/zh
Priority to EP21885378.6A priority patent/EP4239491A4/en
Publication of CN114443639A publication Critical patent/CN114443639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种处理数据表及自动训练机器学习模型的方法和***。所述处理数据表的方法包括:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。

Description

处理数据表及自动训练机器学习模型的方法和***
技术领域
本公开总体说来涉及数据处理领域,更具体地讲,涉及一种处理数据表的方法及***、自动训练机器学习模型的方法及***。
背景技术
在线广告、推荐***、金融市场分析、医疗等现实业务环境中,数据来源广泛,往往存储在不同的数据表当中。与此同时,用户行为或商品交易量等数据会随时间发生变化,因此存在大量时序关系型数据。
在机器学习应用中,需要建模经验丰富的科学家通过不断的尝试和试错,才能基于多个有关联的数据表,构建出有价值的特征用以提升机器学习模型的效果。
发明内容
本公开的示例性实施例在于提供一种处理数据表的方法及***,以解决现有技术存在的不能便捷有效地处理多个数据表以得到机器学习样本的问题。此外,本公开的示例性实施例还提供一种自动训练机器学习模型的方法及***,以解决现有技术存在的无法有效地从数据拼接开始即自动化地执行机器学习的问题。
根据本公开的示例性实施例,提供一种处理数据表的方法,包括:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
可选地,将所述多个数据表拼接成一个基础样本表的步骤包括:按照将具有关联关系的两个数据表中的一个数据表中的字段基于关联字段拼接到另外一个数据表,直至拼接到指定数据表的拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
可选地,按照所述拼接顺序将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表的步骤包括:按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表;针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段;从拼接后的指定数据表中删除筛选出的聚合字段,以得到基础样本表。
可选地,在按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表的步骤中,当除指定数据表之外的任一数据表中的字段能够不需要聚合处理而直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,将该数据表的字段直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表;当除指定数据表之外的任一数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,在按照所述拼接顺序将该字段从其初始所在的数据表拼接到指定数据表的过程中,每当需要进行聚合处理才能将该数据表的字段或该数据表的字段的聚合字段拼接到下一数据表时,将对该数据表的字段或该数据表的字段的聚合字段分别进行各种聚合处理后得到的各个聚合字段拼接到下一数据表,其中,所述各种聚合处理包括基于各个时间窗口的各种时序聚合处理和/或各种非时序聚合处理。
可选地,按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表的步骤包括:针对除指定数据表之外的每个数据表中的除与其要拼接到的数据表之间的关联字段之外的每个字段,生成按照所述拼接顺序将该字段直接或分别进行各种聚合处理后拼接到指定数据表的拼接路径;针对所述每个字段,按照该字段的拼接路径直接或分别进行聚合处理后将该字段拼接到指定数据表。
可选地,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段的步骤包括:针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中的每个聚合字段,基于拼接后的指定数据表中的未经过聚合处理的字段和该聚合字段训练对应的机器学习模型;从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出:对应的机器学习模型的效果较差的聚合字段作为特征重要性较低的聚合字段。
可选地,所述表关系配置信息包括:最大拼接次数,其中,按照所述拼接顺序将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表的步骤包括:确定所述多个数据表之中是否存在按照所述拼接顺序最终拼接到指定数据表需要拼接的次数超过最大拼接次数的数据表;当确定存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表和确定的数据表之外的数据表中的字段拼接到指定数据表形成基础样本表;当确定不存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
可选地,基于所述基础样本表中的字段生成关于所述字段的衍生特征并将生成的衍生特征并入所述基础样本表的步骤包括:(a)对当前的特征搜索空间中的特征进行第i轮衍生,并从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征,其中,i的初始值为1,特征搜索空间的初始值为基础样本表中的特征重要性最高的第一预定数量的字段;(b)当i小于预设阈值时,将特征搜索空间更新为基础样本表中除已被作为特征搜索空间之外的特征重要性最高的第一预定数量的字段,令i=i+1,并返回执行步骤(a);(c)当i大于或等于预设阈值时,将前i轮筛选出的衍生特征并入所述基础样本表。
可选地,对当前的特征搜索空间中的特征进行第i轮衍生的步骤包括:分别对当前的特征搜索空间中的每个特征进行各种一阶处理以生成各个一阶衍生特征;和/或,分别对当前的特征搜索空间中的每两个特征进行各种二阶处理以生成各个二阶衍生特征;和/或,分别对当前的特征搜索空间中的每三个特征进行各种三阶处理以生成各个三阶衍生特征,其中,一阶处理为仅以单个特征为处理对象的处理;二阶处理为基于两个特征对该两个特征中的至少一个进行的处理;三阶处理为基于三个特征对该三个特征中的至少一个进行的处理。
可选地,从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征的步骤包括:针对第i轮生成的衍生特征中的每个衍生特征,基于当前的特征搜索空间中的特征和该衍生特征训练对应的机器学习模型;从第i轮生成的衍生特征中筛选出:对应的机器学习模型的效果满足预设条件的衍生特征。
可选地,时序聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值;非时序聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值。
可选地,获取关于多个数据表的表关系配置信息的步骤包括:根据用户在屏幕中执行的输入操作,获取关于所述多个数据表的表关系配置信息,其中,所述输入操作包括:用于指定两两数据表之间具有关联关系的输入操作。
根据本公开的另一示例性实施例,提供一种自动训练机器学习模型的方法,包括:通过执行如上所述的方法的步骤而得到的包括多条机器学习样本的样本表;基于所述样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
根据本公开的另一示例性实施例,提供一种处理数据表的***,包括:配置信息获取装置,适于获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;拼接装置,适于基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;样本表生成装置,适于基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
可选地,拼接装置适于按照将具有关联关系的两个数据表中的一个数据表中的字段基于关联字段拼接到另外一个数据表,直至拼接到指定数据表的拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
可选地,拼接装置包括:拼接单元,适于按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表;筛选单元,适于针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段;基础样本表生成单元,适于从拼接后的指定数据表中删除筛选出的聚合字段,以得到基础样本表。
可选地,拼接单元适于当除指定数据表之外的任一数据表中的字段能够不需要聚合处理而直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,将该数据表的字段直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表;拼接单元适于当除指定数据表之外的任一数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,在按照所述拼接顺序将该字段从其初始所在的数据表拼接到指定数据表的过程中,每当需要进行聚合处理才能将该数据表的字段或该数据表的字段的聚合字段拼接到下一数据表时,将对该数据表的字段或该数据表的字段的聚合字段分别进行各种聚合处理后得到的各个聚合字段拼接到下一数据表,其中,所述各种聚合处理包括基于各个时间窗口的各种时序聚合处理和/或各种非时序聚合处理。
可选地,拼接单元适于针对除指定数据表之外的每个数据表中的除与其要拼接到的数据表之间的关联字段之外的每个字段,生成按照所述拼接顺序将该字段直接或分别进行各种聚合处理后拼接到指定数据表的拼接路径;并针对所述每个字段,按照该字段的拼接路径直接或分别进行聚合处理后将该字段拼接到指定数据表。
可选地,筛选单元适于针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中的每个聚合字段,基于拼接后的指定数据表中的未经过聚合处理的字段和该聚合字段训练对应的机器学习模型;并从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出:对应的机器学习模型的效果较差的聚合字段作为特征重要性较低的聚合字段。
可选地,所述表关系配置信息包括:最大拼接次数,其中,拼接装置适于确定所述多个数据表之中是否存在按照所述拼接顺序最终拼接到指定数据表需要拼接的次数超过最大拼接次数的数据表;其中,当确定存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表和确定的数据表之外的数据表中的字段拼接到指定数据表形成基础样本表;当确定不存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
可选地,样本表生成装置适于执行以下处理:(a)对当前的特征搜索空间中的特征进行第i轮衍生,并从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征,其中,i的初始值为1,特征搜索空间的初始值为基础样本表中的特征重要性最高的第一预定数量的字段;(b)当i小于预设阈值时,将特征搜索空间更新为基础样本表中除已被作为特征搜索空间之外的特征重要性最高的第一预定数量的字段,令i=i+1,并返回执行处理(a);(c)当i大于或等于预设阈值时,将前i轮筛选出的衍生特征并入所述基础样本表。
可选地,样本表生成装置适于执行以下处理:分别对当前的特征搜索空间中的每个特征进行各种一阶处理以生成各个一阶衍生特征;和/或,分别对当前的特征搜索空间中的每两个特征进行各种二阶处理以生成各个二阶衍生特征;和/或,分别对当前的特征搜索空间中的每三个特征进行各种三阶处理以生成各个三阶衍生特征,其中,一阶处理为仅以单个特征为处理对象的处理;二阶处理为基于两个特征对该两个特征中的至少一个进行的处理;三阶处理为基于三个特征对该三个特征中的至少一个进行的处理。
可选地,样本表生成装置适于针对第i轮生成的衍生特征中的每个衍生特征,基于当前的特征搜索空间中的特征和该衍生特征训练对应的机器学习模型;并从第i轮生成的衍生特征中筛选出:对应的机器学习模型的效果满足预设条件的衍生特征。
可选地,时序聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值;非时序聚合处理包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值。
可选地,配置信息获取装置适于根据用户在屏幕中执行的输入操作,获取关于所述多个数据表的表关系配置信息,其中,所述输入操作包括:用于指定两两数据表之间具有关联关系的输入操作。
根据本公开的另一示例性实施例,提供一种自动训练机器学习模型的***,包括:如上所述的处理数据表的***;训练装置,适于基于所述处理数据表的***得到的包括多条机器学习样本的样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;确定装置,适于从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
根据本公开的另一示例性实施例,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的处理数据表的方法或如上所述的自动训练机器学习模型的方法。
根据本公开的另一示例性实施例,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的处理数据表的方法或如上所述的自动训练机器学习模型的方法。
根据本公开示例性实施例的处理数据表的方法及***,提供了一种便捷有效的数据表处理方式,既提高了处理效率降低了特征工程的使用门槛,也便于提取有效特征形成机器学习样本以提高机器学习模型的效果。
此外,根据本公开示例性实施例的自动训练机器学习模型的方法及***,既可自动训练出满足需求的机器学习模型,大大降低了机器学习的门槛,进一步地,由于得到的机器学习样本包括有效特征信息,从而能够进一步提高训练出的对应的机器学习模型的效果。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本公开示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本公开示例性实施例的处理数据表的方法的流程图;
图2示出根据本公开示例性实施例的将多个数据表拼接成一个基础样本表的方法的流程图;
图3示出根据本公开示例性实施例的生成衍生特征并将生成的衍生特征并入基础样本表的方法的流程图;
图4示出根据本公开示例性实施例的自动训练机器学习模型的方法的流程图;
图5示出根据本公开示例性实施例的处理数据表的***的框图;
图6示出根据本公开示例性实施例的拼接装置的框图;
图7示出根据本公开示例性实施例的自动训练机器学习模型的***的框图。
具体实施方式
现将详细参照本公开的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本公开。
图1示出根据本公开示例性实施例的处理数据表的方法的流程图。这里,作为示例,所述方法可通过计算机程序来执行,也可由专门的用于执行机器学***台等来执行。
参照图1,在步骤S10,获取关于多个数据表的表关系配置信息。
所述表关系配置信息包括:两两数据表之间的关联关系,例如,数据表A与数据表B之间具有关联关系。进一地,作为示例,所述表关系配置信息还可包括以下项之中的至少一项:两两数据表之间的关联关系所基于的关联字段、两两数据表之间的关联关系的具体类型、最大拼接次数、所述多个数据表中的至少一个数据表的类型、拼接终点。应该理解,所述表关系配置信息还可包括其他适当的用于配置多个数据表之间的拼接方式的信息,本公开对此不作限制。
作为示例,可根据用户在屏幕中执行的输入操作,获取关于所述多个数据表的表关系配置信息。作为示例,所述输入操作可包括:用于指定两两数据表之间具有关联关系的输入操作。此外,作为示例,所述输入操作还可包括以下项之中的至少一项:用于指定两两数据表之间的关联关系的类型的输入操作、用于指定两两数据表之间的关联关系所基于的关联字段的输入操作、用于指定所述多个数据表中的至少一个数据表的类型的输入操作、用于指定所允许的最大拼接次数的输入操作、用于指定作为拼接终点的数据表的输入操作。
这里,数据表中的每条数据记录可被看作关于一个事件或对象的描述,对应于一个示例或样例。在数据记录中,包括反映事件或对象在某方面的表现或性质的属性信息,即字段。例如,数据表的一行对应一条数据记录,数据表的一列对应一个字段。在具有基于关联字段的关联关系的两个数据表中,一个数据表中对应的关联字段的含义,与另一个数据表中对应的关联字段的含义相同,从而能够基于这两个关联字段将这两个数据表中的数据记录对应起来,以实现拼接。例如,在拼接时可将这两个数据表中的这两个关联字段的字段值相同的数据记录拼接在一起。应该理解,这两个关联字段的字段名称可以相同,也可以不同。例如,一个关联字段可为“ID”字段,与其相应的关联字段可为“UserID”字段,两者虽然字段名称不同,但所描述的业务信息实质上相同,都是用于描述用户的ID号。例如,在具有基于关联字段的关联关系的两个数据表中,一个数据表中对应的关联字段可为该数据表的主键,另一个数据表中对应的关联字段可为该主键的外键。
作为示例,两两数据表之间的关联关系的类型可包括:一对一、一对多、多对一和多对多。具体地,数据表A和数据表B之间基于关联字段C具有关联关系,如果数据表A中关联字段C的同一个字段值仅可能在一条数据记录中出现,且数据表B中关联字段C的同一个字段值仅可能在一条数据记录中出现,则数据表A和数据表B之间的关联关系的类型为:一对一;如果数据表A中关联字段C的同一个字段值仅可能在一条数据记录中出现,且数据表B中关联字段C的同一个字段值可能在多条数据记录中出现,则数据表A和数据表B之间的关联关系的类型为:一对多;如果数据表A中关联字段C的同一个字段值可能在多条数据记录中出现,且数据表B中关联字段C的同一个字段值仅可能在一条数据记录中出现,则数据表A和数据表B之间的关联关系的类型为:多对一;如果数据表A中关联字段C的同一个字段值可能在多条数据记录中出现,且数据表B中关联字段C的同一个字段值可能在多条数据记录中出现,则数据表A和数据表B之间的关联关系的类型为:多对多。
作为示例,数据表的类型可包括但不限于以下项之中的至少一项:静态表、时序表、切片表。应该理解,数据表的类型还可包括其他适当的类型,本公开对此不作限制。
在步骤S20,基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表。
作为示例,可按照将具有关联关系的两个数据表中的一个数据表中的字段基于两者间的关联字段拼接到另外一个数据表,直至拼接到指定数据表的拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
具体说来,可基于所述多个数据表之中两两数据表之间的关联关系,确定所述多个数据表的拼接顺序,然后,按照该拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。例如,如果数据表A和数据表B具有关联关系,数据表B和数据表C具有关联关系,数据表C和数据表D具有关联关系,数据表D和数据表E具有关联关系,数据表E和数据表F具有关联关系,数据表E为指定数据表(也即,前面所提的拼接终点),则拼接顺序可为:数据表A→数据表B→数据表C→数据表D→数据表E、以及数据表F→数据表E,例如,数据表A的字段需先拼接到数据表B,然后再从数据表B拼接到数据表C,直至拼接到数据表E;数据表B的字段需先拼接到数据表C,然后再从数据表C拼接到数据表D,接下来从数据表D拼接到数据表E;数据表F的字段拼接到数据表E。
此外,作为示例,可确定所述多个数据表之中是否存在按照所述拼接顺序最终拼接到指定数据表需要拼接的次数超过最大拼接次数的数据表;当确定存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表和确定的数据表之外的数据表中的字段拼接到指定数据表形成基础样本表,即,按照所述拼接顺序最终拼接到指定数据表需要拼接的次数超过最大拼接次数的数据表不参与拼接;当确定不存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
后面将会结合图2来描述步骤S20的示例性实施例。
在步骤S30,基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
作为示例,一个衍生特征可以是基于至少一个字段生成的。
后面将会结合图3来描述步骤S30的示例性实施例。
图2示出根据本公开示例性实施例的将多个数据表拼接成一个基础样本表的方法的流程图。
如图2所示,在步骤S201,按照所述拼接顺序将除指定数据表之外的数据表中的字段直接(即,无需对字段值进行聚合处理)或分别进行各种聚合处理后拼接到指定数据表。
作为示例,当除指定数据表之外的任一数据表中的字段能够不需要聚合处理而直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,可将该数据表的字段直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表。
作为示例,当除指定数据表之外的任一数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,在按照所述拼接顺序将该字段从其初始所在的数据表拼接到指定数据表的过程中,每当需要进行聚合处理才能将该数据表的字段或该数据表的字段的聚合字段拼接到下一数据表时,可将对该数据表的字段或该数据表的字段的聚合字段分别进行各种聚合处理后得到的各个聚合字段拼接到下一数据表。此外,当该数据表的字段或该数据表的字段的聚合字段能够不需要聚合处理而直接拼接到下一数据表时,可将该数据表的字段或该数据表的字段的聚合字段直接拼接到下一数据表。数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表,可理解为:数据表中的字段在从其初始所在的数据表按照所述拼接顺序拼接到指定数据表的过程中,至少有一次只有进行聚合处理才能继续向下拼接。
例如,当需要将一个数据表(即,待拼接的数据表)拼接到另一个数据表(即,拼接到的数据表)时,如果待拼接的数据表与拼接到的数据表之间的关联关系为:一对一、或一对多时,则可将待拼接的数据表的字段直接拼接到所述拼接到的数据表;如果待拼接的数据表与拼接到的数据表之间的关联关系为:多对一、或多对多时,则需对待拼接的数据表的字段分别进行各种聚合处理后拼接到所述拼接到的数据表。这里,对待拼接的数据表的字段分别各种聚合处理后拼接到所述拼接到的数据表的字段即为所述待拼接的数据表的字段的聚合字段。应该理解,对一个字段分别进行n种聚合处理,将会得到n个聚合字段。例如,数据表1需要拼接到数据表2,数据表2需要拼接到数据表3,且需要对数据表1的字段进行聚合处理后才能拼接到数据表2,需要对数据表2的字段进行聚合处理后才能拼接到数据表3,针对数据表1除与数据表2之间的关联字段之外的字段a,可对字段a分别进行n种聚合处理,并将字段a的n个聚合字段拼接到数据表2,在将数据表2拼接到数据表3时,可对字段a的n个聚合字段再分别进行n种聚合处理,并将聚合结果n*n个聚合字段拼接到数据表3。作为示例,当待拼接的数据表的类型为切片表时,可将待拼接的数据表以last-join的方式拼接到所述拼接到的数据表。
作为示例,所述各种聚合处理可包括基于各个时间窗口的各种时序聚合处理和/或各种非时序聚合处理。作为示例,所述表关系配置信息还可包括以下项之中的至少一项:所述各种时序聚合处理的类型、所述各种非时序聚合处理的类型、所述各个时间窗口的大小。作为示例,所述各种时序聚合处理的类型、所述各种非时序聚合处理的类型、所述各个时间窗口的大小可由用户指定。应该理解,在不同时间窗口下的同一种时序聚合处理也属于不同的聚合处理;基于不同的聚合基准字段进行同一种聚合处理也属于不同的聚合处理。
作为示例,可根据字段的类型,来对字段进行聚合处理。作为示例,数据表中各字段的类型可由用户指定。作为示例,可根据用户在屏幕中显示的用于设置数据表内字段的类型的图形界面中执行的输入操作,设置数据表内的字段的类型。
作为示例,字段的类型可包括但不限于以下项之中的至少一项:singlestring(单字符串型)、arraystring(数组字符串型)、kvstring(Key-value字符串型)、continuenum(连续值型)、time(时间戳型)。
作为示例,时序聚合处理的类型可包括但不限于以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值。
作为示例,非时序聚合处理的类型可包括但不限于以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值。
此外,作为示例,可针对除指定数据表之外的每个数据表中的除与其要拼接到的数据表之间的关联字段之外的每个字段,生成按照所述拼接顺序将该字段直接或分别进行各种聚合处理后拼接到指定数据表的拼接路径;针对所述每个字段,按照该字段的拼接路径直接或分别进行聚合处理后将该字段拼接到指定数据表。从而底层计算引擎可根据拼接路径对除指定数据表之外的每个数据表中的字段进行处理并拼接到指定数据表上。
在步骤S202,针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段。
在步骤S203,从拼接后的指定数据表中删除筛选出的聚合字段,以得到基础样本表。
换言之,完成拼接后得到的指定数据表中的未经过聚合处理而得到的字段直接保留,而其中的曾经过聚合处理才得到的字段(也即,聚合字段),仅保留特征重要性较高的聚合字段。
可使用各种适当的方法来筛选特征重要性较低的聚合字段。作为示例,针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,可针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中的每个聚合字段,基于拼接后的指定数据表中的未经过聚合处理的字段和该聚合字段训练对应的机器学习模型;从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出:对应的机器学习模型的效果较差的聚合字段作为特征重要性较低的聚合字段。
由于相应的机器学***均绝对误差,Mean Absolute Error)或对数损失函数(logloss)等。
作为示例,针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,可从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性最低的一定数量的聚合字段,而该数量可基于该字段初始所在的数据表中的字段总数量而确定。
根据本公开的将多个数据表拼接成一个基础样本表的方式,能够自动挖掘关联表的有效特征信息形成基础样本表。
图3示出根据本公开示例性实施例的生成衍生特征并将生成的衍生特征并入基础样本表的方法的流程图。
如图3所示,在步骤S301,对当前的特征搜索空间中的特征进行第i轮衍生,并从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征,其中,i的初始值为1。
作为示例,特征搜索空间的初始值可为基础样本表中的特征重要性最高的第一预定数量的字段。此外,也可使用其他适当的方法来确定特征搜索空间的初始值,例如,可使用meta-learning(元学习)来确定特征搜索空间的初始值。
作为示例,对当前的特征搜索空间中的特征进行第i轮衍生的步骤可包括:
分别对当前的特征搜索空间中的每个特征进行各种一阶处理以生成各个一阶衍生特征;
和/或,分别对当前的特征搜索空间中的每两个特征进行各种二阶处理以生成各个二阶衍生特征;
和/或,分别对当前的特征搜索空间中的每三个特征进行各种三阶处理以生成各个三阶衍生特征。从而,可将生成的一阶衍生特征和/或二阶衍生特征和/或三阶衍生特征之中的至少一项,作为第i轮衍生的衍生特征。
作为示例,一阶处理可为仅以单个特征为处理对象的处理;二阶处理可为基于两个特征对该两个特征中的至少一个进行的处理;三阶处理可为基于三个特征对该三个特征中的至少一个进行的处理。
作为示例,可由用户指定一阶处理的方式、二阶处理的方式、三阶处理的方式。例如,一阶处理的方式可包括:对连续特征进行离散化处理。二阶处理的方式可包括:对两个特征进行组合和/或聚合处理,和/或以一个特征为聚合基准来对另一特征进行聚合处理。例如,三阶处理的方式可包括:对三个特征进行组合和/或聚合处理,和/或以一个特征为聚合基准来对另两个特征进行聚合处理,和/或以两个特征为聚合基准来对另一特征进行聚合处理。
作为示例,从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征的步骤可包括:针对第i轮生成的衍生特征中的每个衍生特征,基于当前的特征搜索空间中的特征和该衍生特征训练对应的机器学习模型;从第i轮生成的衍生特征中筛选出:对应的机器学习模型的效果满足预设条件的衍生特征。
在步骤S302,确定i是否小于预设阈值。
在步骤S303,当i小于预设阈值时,将特征搜索空间更新为基础样本表中除已被作为特征搜索空间之外的特征重要性最高的第一预定数量的字段,令i=i+1,并返回执行步骤S301。
在步骤S304,当i大于或等于预设阈值时,将前i轮筛选出的衍生特征并入所述基础样本表。
作为示例,进行每轮衍生时,可仅使用基础样本表中的部分数据记录,每轮可选择合适数量的数据记录且不同轮选择的数量可以相同或不同,可根据计算要求(考虑计算配置、计算所需时间等多方面)进行合理设置,并且,由于需要验证相应机器学习模型的效果,因此需要验证样本,每轮所使用的基础样本表中的部分数据记录可根据时序切分成本轮的训练样本和验证样本。最后,可按照前i轮筛选出的衍生特征的具体形式,针对基础样本表中的全部数据记录生成衍生特征并并入基础样本表。
此外,作为示例,每轮选择的衍生特征数量可相同或不同;每轮所使用的特征搜索空间中的字段的数量可相同或不同。
根据本公开的示例性实施例,能够自动基于基础样本表中的字段进一步衍生出有价值的特征信息,以提高样本表中的特征的全面性和有效性。
根据本公开的示例性实施例,用户仅需要在任意两个数据表之间建立关联关系即可获得基于多个数据表拼接出的包括较全面的有价值的特征信息的样本表。用户操作简便、直观且便于理解,从而能够让无特征工程相关经验的用户也能够构建出效果较好的用于机器学习模型训练的样本表。
图4示出根据本公开示例性实施例的自动训练机器学***台来执行。
如图4所示,在步骤S10,获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系。
在步骤S20,基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;
在步骤S30,基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。应该理解,步骤S10至步骤S30可参照上述结合图1至图3描述的具体实施方式来实现,在此不再赘述。
在步骤S40,基于所述样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型。
作为示例,可使用random search(随机搜索)、grid search(网格搜索)、贝叶斯优化、超参数优化算法hyperband等适当的算法来基于所述样本表分别训练使用不同机器学习算法及不同超参数的机器学习模型。
在步骤S50,从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
根据本公开的示例性实施例,用户仅需要执行易于操作、直观便于理解的用于在任意两个数据表之间建立关联关系的输入操作,即可训练出满足需求的机器学习模型,从而不具备与机器学习相关的专业能力的业务人员也能够独立完成建模工作,大大降低了机器学习的门槛,并且也能够将建模工程师从对目标领域的业务的学习中解放出来,投入到更专业的生产工作当中。
图5示出根据本公开示例性实施例的处理数据表的***的框图。
如图5所示,根据本公开示例性实施例的处理数据表的***包括:配置信息获取装置10、拼接装置20、以及样本表生成装置30。
具体说来,配置信息获取装置10适于获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系。
拼接装置20适于基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表。
样本表生成装置30适于基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
作为示例,拼接装置20可适于按照将具有关联关系的两个数据表中的一个数据表中的字段基于关联字段拼接到另外一个数据表,直至拼接到指定数据表的拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
图6示出根据本公开示例性实施例的拼接装置的框图。
如图6所示,拼接装置20可包括:拼接单元201、筛选单元202、以及基础样本表生成单元203。
具体说来,拼接单元201适于按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表。
筛选单元202适于针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段。
基础样本表生成单元203适于从拼接后的指定数据表中删除筛选出的聚合字段,以得到基础样本表。
作为示例,拼接单元201可适于当除指定数据表之外的任一数据表中的字段能够不需要聚合处理而直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,将该数据表的字段直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表。
作为示例,拼接单元201可适于当除指定数据表之外的任一数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,在按照所述拼接顺序将该字段从其初始所在的数据表拼接到指定数据表的过程中,每当需要进行聚合处理才能将该数据表的字段或该数据表的字段的聚合字段拼接到下一数据表时,将对该数据表的字段或该数据表的字段的聚合字段分别进行各种聚合处理后得到的各个聚合字段拼接到下一数据表,其中,所述各种聚合处理包括基于各个时间窗口的各种时序聚合处理和/或各种非时序聚合处理。
作为示例,拼接单元201可适于针对除指定数据表之外的每个数据表中的除与其要拼接到的数据表之间的关联字段之外的每个字段,生成按照所述拼接顺序将该字段直接或分别进行各种聚合处理后拼接到指定数据表的拼接路径;并针对所述每个字段,按照该字段的拼接路径直接或分别进行聚合处理后将该字段拼接到指定数据表。
作为示例,筛选单元202可适于针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中的每个聚合字段,基于拼接后的指定数据表中的未经过聚合处理的字段和该聚合字段训练对应的机器学习模型;并从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出:对应的机器学习模型的效果较差的聚合字段作为特征重要性较低的聚合字段。
作为示例,所述表关系配置信息包括:最大拼接次数,其中,拼接装置20可适于确定所述多个数据表之中是否存在按照所述拼接顺序最终拼接到指定数据表需要拼接的次数超过最大拼接次数的数据表;其中,当确定存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表和确定的数据表之外的数据表中的字段拼接到指定数据表形成基础样本表;当确定不存在时,按照所述拼接顺序将所述多个数据表之中除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
作为示例,样本表生成装置30可适于执行以下处理:(a)对当前的特征搜索空间中的特征进行第i轮衍生,并从第i轮生成的衍生特征中筛选出特征重要性较高的衍生特征,其中,i的初始值为1,特征搜索空间的初始值为基础样本表中的特征重要性最高的第一预定数量的字段;(b)当i小于预设阈值时,将特征搜索空间更新为基础样本表中除已被作为特征搜索空间之外的特征重要性最高的第一预定数量的字段,令i=i+1,并返回执行处理(a);(c)当i大于或等于预设阈值时,将前i轮筛选出的衍生特征并入所述基础样本表。
作为示例,样本表生成装置30可适于执行以下处理:分别对当前的特征搜索空间中的每个特征进行各种一阶处理以生成各个一阶衍生特征;和/或,分别对当前的特征搜索空间中的每两个特征进行各种二阶处理以生成各个二阶衍生特征;和/或,分别对当前的特征搜索空间中的每三个特征进行各种三阶处理以生成各个三阶衍生特征,其中,一阶处理为仅以单个特征为处理对象的处理;二阶处理为基于两个特征对该两个特征中的至少一个进行的处理;三阶处理为基于三个特征对该三个特征中的至少一个进行的处理。
作为示例,样本表生成装置30可适于针对第i轮生成的衍生特征中的每个衍生特征,基于当前的特征搜索空间中的特征和该衍生特征训练对应的机器学习模型;并从第i轮生成的衍生特征中筛选出:对应的机器学习模型的效果满足预设条件的衍生特征。
作为示例,时序聚合处理可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值;非时序聚合处理可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值。
作为示例,配置信息获取装置10可适于根据用户在屏幕中执行的输入操作,获取关于所述多个数据表的表关系配置信息,其中,所述输入操作包括:用于指定两两数据表之间具有关联关系的输入操作。
图7示出根据本公开示例性实施例的自动训练机器学习模型的***的框图。
如图7所示,根据本公开示例性实施例的自动训练机器学习模型的***包括:配置信息获取装置10、拼接装置20、样本表生成装置30、训练装置40、以及确定装置元50。
具体说来,配置信息获取装置10适于获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系。
拼接装置20适于基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表。
样本表生成装置30适于基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
训练装置40适于基于所述处理数据表的***得到的包括多条机器学习样本的样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型。
确定装置50适于从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
应该理解,根据本公开示例性实施例的处理数据表的***和自动训练机器学习模型的***的具体实现方式可参照结合图1至图4描述的相关具体实现方式来实现,在此不再赘述。
根据本公开示例性实施例的处理数据表的***和自动训练机器学习模型的***所包括的装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,这些装置可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,这些装置所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
应理解,根据本公开示例性实施例的处理数据表的方法可通过记录在计算可读介质上的程序来实现,例如,根据本公开的示例性实施例,可提供一种处理数据表的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
应理解,根据本公开示例性实施例的自动训练机器学习模型的方法可通过记录在计算可读介质上的程序来实现,例如,根据本公开的示例性实施例,可提供一种自动训练机器学习模型的计算机可读介质,其中,在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表;基于所述样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1至图4进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的处理数据表的***和自动训练机器学习模型的***可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个***通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,根据本公开示例性实施例的处理数据表的***和自动训练机器学习模型的***所包括的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行处理数据表的方法或自动训练机器学习模型的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的处理数据表的方法和自动训练机器学习模型的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本公开示例性实施例的处理数据表的方法和自动训练机器学习模型的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本公开示例性实施例的处理数据表的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
例如,如上所述,根据本公开示例性实施例的自动训练机器学习模型的计算装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表;基于所述样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种处理数据表的方法,包括:
获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;
基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;
基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
2.如权利要求1所述的方法,其中,将所述多个数据表拼接成一个基础样本表的步骤包括:
按照将具有关联关系的两个数据表中的一个数据表中的字段基于关联字段拼接到另外一个数据表,直至拼接到指定数据表的拼接顺序,将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表。
3.如权利要求2所述的方法,其中,按照所述拼接顺序将除指定数据表之外的数据表中的字段拼接到指定数据表形成基础样本表的步骤包括:
按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表;
针对每个分别进行各种聚合处理后才拼接到指定数据表的字段,从针对该字段分别进行各种聚合处理后得到的拼接到指定数据表的各个聚合字段中筛选出特征重要性较低的聚合字段;
从拼接后的指定数据表中删除筛选出的聚合字段,以得到基础样本表。
4.如权利要求3所述的方法,其中,在按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表的步骤中,
当除指定数据表之外的任一数据表中的字段能够不需要聚合处理而直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,将该数据表的字段直接从其初始所在的数据表按照所述拼接顺序拼接到指定数据表;
当除指定数据表之外的任一数据表中的字段只有进行聚合处理才能够从其初始所在的数据表按照所述拼接顺序拼接到指定数据表时,在按照所述拼接顺序将该字段从其初始所在的数据表拼接到指定数据表的过程中,每当需要进行聚合处理才能将该数据表的字段或该数据表的字段的聚合字段拼接到下一数据表时,将对该数据表的字段或该数据表的字段的聚合字段分别进行各种聚合处理后得到的各个聚合字段拼接到下一数据表,
其中,所述各种聚合处理包括基于各个时间窗口的各种时序聚合处理和/或各种非时序聚合处理。
5.如权利要求3或4所述的方法,其中,按照所述拼接顺序将除指定数据表之外的数据表中的字段直接或分别进行各种聚合处理后拼接到指定数据表的步骤包括:
针对除指定数据表之外的每个数据表中的除与其要拼接到的数据表之间的关联字段之外的每个字段,生成按照所述拼接顺序将该字段直接或分别进行各种聚合处理后拼接到指定数据表的拼接路径;
针对所述每个字段,按照该字段的拼接路径直接或分别进行聚合处理后将该字段拼接到指定数据表。
6.一种自动训练机器学习模型的方法,包括:
通过执行权利要求1至5之中任一权利要求所述的方法的步骤而得到的包括多条机器学习样本的样本表;
基于所述样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;
从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
7.一种处理数据表的***,包括:
配置信息获取装置,适于获取关于多个数据表的表关系配置信息,其中,所述表关系配置信息包括:两两数据表之间的关联关系;
拼接装置,适于基于所述表关系配置信息,将所述多个数据表拼接成一个基础样本表;
样本表生成装置,适于基于所述基础样本表中的字段生成关于所述字段的衍生特征,并将生成的衍生特征并入所述基础样本表形成包括多条机器学习样本的样本表。
8.一种自动训练机器学习模型的***,包括:
如权利要求7所述的处理数据表的***;
训练装置,适于基于所述处理数据表的***得到的包括多条机器学习样本的样本表,分别训练使用不同机器学习算法及不同超参数的机器学习模型;
确定装置,适于从训练出的机器学习模型中确定效果最好的机器学习模型,作为最终训练出的机器学习模型。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的***,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的处理数据表的方法或如权利要求6所述的自动训练机器学习模型的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到5中的任一权利要求所述的处理数据表的方法或如权利要求6所述的自动训练机器学习模型的方法。
CN202011205070.2A 2020-11-02 2020-11-02 处理数据表及自动训练机器学习模型的方法和*** Pending CN114443639A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011205070.2A CN114443639A (zh) 2020-11-02 2020-11-02 处理数据表及自动训练机器学习模型的方法和***
PCT/CN2021/128150 WO2022089652A1 (zh) 2020-11-02 2021-11-02 处理数据表及自动训练机器学习模型的方法和***
EP21885378.6A EP4239491A4 (en) 2020-11-02 2021-11-02 METHOD AND SYSTEM FOR PROCESSING DATA TABLES AND AUTOMATIC TRAINING OF MACHINE LEARNING MODEL

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011205070.2A CN114443639A (zh) 2020-11-02 2020-11-02 处理数据表及自动训练机器学习模型的方法和***

Publications (1)

Publication Number Publication Date
CN114443639A true CN114443639A (zh) 2022-05-06

Family

ID=81357224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011205070.2A Pending CN114443639A (zh) 2020-11-02 2020-11-02 处理数据表及自动训练机器学习模型的方法和***

Country Status (3)

Country Link
EP (1) EP4239491A4 (zh)
CN (1) CN114443639A (zh)
WO (1) WO2022089652A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及***
CN116188834A (zh) * 2022-12-08 2023-05-30 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN117252555A (zh) * 2023-11-14 2023-12-19 之江实验室 一种基于车险场景的半自动化特征工程方法、***和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070601B (zh) * 2023-03-28 2023-06-13 联仁健康医疗大数据科技股份有限公司 数据拼接方法、装置、电子设备及存储介质
CN116089504B (zh) * 2023-04-10 2023-06-30 北京宽客进化科技有限公司 一种关系型表格数据生成方法和***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4728431B2 (ja) * 2008-01-11 2011-07-20 株式会社アールサン データ駆動型データベース処理装置
CN108090516A (zh) * 2017-12-27 2018-05-29 第四范式(北京)技术有限公司 自动生成机器学习样本的特征的方法及***
CN109697066B (zh) * 2018-12-28 2021-02-05 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN110119413B (zh) * 2019-04-30 2024-06-18 京东城市(南京)科技有限公司 数据融合的方法和装置
CN116303459A (zh) * 2019-11-28 2023-06-23 第四范式(北京)技术有限公司 处理数据表的方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116188834A (zh) * 2022-12-08 2023-05-30 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN116188834B (zh) * 2022-12-08 2023-10-20 赛维森(广州)医疗科技服务有限公司 基于自适应训练模型的全切片图像分类方法及装置
CN116090006A (zh) * 2023-02-01 2023-05-09 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及***
CN116090006B (zh) * 2023-02-01 2023-09-08 北京三维天地科技股份有限公司 一种基于深度学习的敏感识别方法及***
CN117252555A (zh) * 2023-11-14 2023-12-19 之江实验室 一种基于车险场景的半自动化特征工程方法、***和介质
CN117252555B (zh) * 2023-11-14 2024-04-09 之江实验室 一种基于车险场景的半自动化特征工程方法、***和介质

Also Published As

Publication number Publication date
EP4239491A4 (en) 2024-03-20
WO2022089652A1 (zh) 2022-05-05
EP4239491A1 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
US11949759B2 (en) Adaptive computation and faster computer operation
CN114443639A (zh) 处理数据表及自动训练机器学习模型的方法和***
CN107844837B (zh) 针对机器学习算法进行算法参数调优的方法及***
US11769065B2 (en) Distributed system generating rule compiler engine by determining a best matching rule based on concrete parameterization with declarative rules syntax
WO2019129060A1 (zh) 自动生成机器学习样本的特征的方法及***
CN109697066B (zh) 实现数据表拼接及自动训练机器学习模型的方法和***
US20210035026A1 (en) Diagnosing & triaging performance issues in large-scale services
US20210136098A1 (en) Root cause analysis in multivariate unsupervised anomaly detection
US11775411B2 (en) Detection of computing resource leakage in cloud computing architectures
CN107273979B (zh) 基于服务级别来执行机器学习预测的方法及***
CN116757297A (zh) 用于选择机器学习样本的特征的方法及***
CN110941554B (zh) 一种复现故障的方法及装置
CN116882520A (zh) 针对预定预测问题的预测方法及***
CN104636130A (zh) 用于生成事件树的方法和***
JP2023522882A (ja) データ品質問題の動的発見及び修正
Samak et al. Failure prediction and localization in large scientific workflows
US20230040564A1 (en) Learning Causal Relationships
JP2023553220A (ja) マルチインスタンスプロセスのためのプロセスマイニング
Luo et al. Autosmart: An efficient and automatic machine learning framework for temporal relational data
US11782923B2 (en) Optimizing breakeven points for enhancing system performance
JP2023507688A (ja) プロセスのエッジテーブル表現
US20170161359A1 (en) Pattern-driven data generator
CN108960433B (zh) 用于运行机器学习建模过程的方法及***
CN113032209A (zh) 运行监控方法、装置、服务器及介质
CN112927012A (zh) 营销数据的处理方法及装置、营销模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination