CN107402978A - 拼接数据记录的方法及装置 - Google Patents

拼接数据记录的方法及装置 Download PDF

Info

Publication number
CN107402978A
CN107402978A CN201710538681.0A CN201710538681A CN107402978A CN 107402978 A CN107402978 A CN 107402978A CN 201710538681 A CN201710538681 A CN 201710538681A CN 107402978 A CN107402978 A CN 107402978A
Authority
CN
China
Prior art keywords
field
data
output
tables
data record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710538681.0A
Other languages
English (en)
Inventor
杨强
戴文渊
陈雨强
张舒羽
栾淑君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201710538681.0A priority Critical patent/CN107402978A/zh
Priority to CN202110564742.7A priority patent/CN113220688A/zh
Publication of CN107402978A publication Critical patent/CN107402978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种拼接数据记录的方法及装置。所述方法包括:数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表;关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式;以及输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。根据所述方法及装置,提高了数据记录拼接的灵活性和多样性。

Description

拼接数据记录的方法及装置
技术领域
本发明总体说来涉及信息技术领域,更具体地讲,涉及一种拼接数据记录的方法及装置。
背景技术
随着各行业海量数据的出现,需要在越来越多的场景下对数据进行各种处理。例如,利用机器学习技术来挖掘数据的价值。机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善***自身的性能。在计算机***中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的样例时,模型会提供相应的判断,即,预测结果。可以看出,数据作为机器学习的原材料,影响着机器学习的最终效果。为此,需要不断地积累数据、更新数据或扩展数据,这就对高效、灵活的数据记录拼接方式有着很大的需求。
现阶段常用的数据记录拼接方式主要有:使用SQL(Structured Query Language,结构化查询语言)语句通过编写程序的方式;或者,诸如阿里云大数据平台“数加”和微软云计算***“Azure”这类产品提供的可视化拼接功能。
然而,使用SQL语句进行数据记录拼接,对使用者的要求较高,需要使用者掌握SQL语法,学习成本较高。而数加和Azure虽然提供了可视化的交互界面,降低了使用者的门槛,但存在能够处理的拼接场景过于单一、不够灵活的问题。
发明内容
本发明的示例性实施例在于提供一种拼接数据记录的方法及装置,以解决现有技术存在的上述问题。
根据本发明的示例性实施例,提供一种拼接数据记录的方法,包括:数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
可选地,所述方法还包括:输出数据记录生成步骤,基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。
可选地,各个输出字段在输出数据表中的排列顺序按照用户的输出字段配置操作来设置;或者,各个输出字段在输出数据表中的排列顺序按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。
可选地,所述至少两个数据表包括主表和至少一个拼接表,其中,仅针对所述至少一个拼接表来执行输出字段配置步骤,并且,在输出数据记录生成步骤中,通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。
可选地,来源字段还默认包括至少一个对应关联字段,其中,来源字段为对应关联字段的输出字段在输出数据表中的位置按照用户的输出字段配置操作或预设位置来设置。
可选地,在输出字段配置步骤中,还根据用户的输出字段配置操作来配置输出字段的名称。
可选地,所述处理方式包括直接提取方式和/或聚合处理方式,其中,在直接提取方式下,将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值;在聚合处理方式下,对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。
可选地,所述聚合处理方式包括直接聚合处理方式,其中,在直接聚合处理方式下,对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。
可选地,所述至少两个数据表包括主表和至少一个拼接表,并且,所述聚合处理方式包括时序聚合处理方式,其中,在配置时序聚合处理方式时,根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,在时序聚合处理方式下,对拼接表中的多条待拼接数据记录之中符合时序范围的待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。
可选地,所述聚合运算包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
根据本发明的另一示例性实施例,提供一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被配置为使计算机的处理器执行下述步骤:数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
根据本发明的另一示例性实施例,提供一种拼接数据记录的装置,包括:数据表指定单元,配置为根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;关联字段指定单元,配置为根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;输出字段配置单元,配置为根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及输出字段生成单元,配置为针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
可选地,所述装置还包括:输出数据记录生成单元,配置为基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。
可选地,各个输出字段在输出数据表中的排列顺序按照用户的输出字段配置操作来设置;或者,各个输出字段在输出数据表中的排列顺序按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。
可选地,所述至少两个数据表包括主表和至少一个拼接表,其中,输出字段配置单元仅针对所述至少一个拼接表来执行输出字段配置操作,并且,输出数据记录生成单元通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。
可选地,来源字段还默认包括至少一个对应关联字段,其中,来源字段为对应关联字段的输出字段在输出数据表中的位置按照用户的输出字段配置操作或预设位置来设置。
可选地,输出字段配置单元还根据用户的输出字段配置操作来配置输出字段的名称。
可选地,所述处理方式包括直接提取方式和/或聚合处理方式,其中,输出字段生成单元在直接提取方式下,将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值;输出字段生成单元在聚合处理方式下,对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。
可选地,所述聚合处理方式包括直接聚合处理方式,其中,输出字段生成单元在直接聚合处理方式下,对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。
可选地,所述至少两个数据表包括主表和至少一个拼接表,并且,所述聚合处理方式包括时序聚合处理方式,其中,输出字段配置单元在配置时序聚合处理方式时,根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,输出字段生成单元在时序聚合处理方式下,对拼接表中的多条待拼接数据记录之中符合时序范围的待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。
可选地,所述聚合运算包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
根据本发明示例性实施例的拼接数据记录的方法及装置,提供了一种效率更高、使用场景更加多样化、更为灵活的数据记录拼接过程,用户只需根据需要来指定数据表、设置拼接的关联条件、配置输出三个步骤即可完成数据记录拼接的过程。进一步地,能够根据用户需求对不同数据表中的数据记录进行非直接的运算拼接处理,特别地还能够进行与时序相关的拼接处理。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出实施例的附图进行的描述,本发明示例性实施例的上述和其他目的和特点将会变得更加清楚,其中:
图1示出根据本发明示例性实施例的拼接数据记录的方法的流程图;
图2示出根据本发明的另一示例性实施例的拼接数据记录的方法的流程图;
图3示出根据本发明示例性实施例的用户通过图形用户界面指定数据表和对应关联字段的示例;
图4示出根据本发明示例性实施例的用户通过图形用户界面配置输出字段的示例;
图5示出根据本发明示例性实施例的用户通过图形用户界面指定数据表和对应关联字段的另一示例;
图6示出根据本发明示例性实施例的用户通过图形用户界面配置输出字段的另一示例;
图7示出根据本发明示例性实施例的拼接数据记录的装置的框图;
图8示出根据本发明的另一示例性实施例的拼接数据记录的装置的框图。
具体实施方式
现将详细参照本发明的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本发明。
图1示出根据本发明示例性实施例的拼接数据记录的方法的流程图。所述方法可通过计算机程序来执行,也可由专门的拼接数据记录的装置来执行。
在步骤S10中,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表。这里,数据表的一行对应一条数据记录,数据表的一列对应一个字段。换言之,数据表中的每条数据记录具有各个字段及相应的字段值。作为示例,数据表中的一个字段可用于描述一个方面的信息(例如,名字、年龄、职业等),数据表中的至少一条数据记录可用于描述一个对象的至少一个方面的信息,例如,数据表中的多条数据记录可用于描述同一对象。
作为示例,可根据用户的数据表指定操作来指定将进行数据记录拼接的主表和至少一个拼接表。
在现有技术中,用户如果需要对多个数据表进行拼接,只能通过多次的两两数据表拼接来实现。而根据本发明示例性实施例的拼接数据记录的方法能够一次指定多个数据表来进行数据记录拼接,从而提高数据记录拼接的效率。
在步骤S20中,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段。这里,对应关联字段用于将各个数据表中的数据记录对应起来,以确定各个数据表中的对应的待拼接数据记录,从而能够基于各个数据表中的对应的待拼接数据记录来拼接成一条输出数据记录。具体地,对应的待拼接数据记录为:各个数据表中的对应关联字段均具有同一字段值的数据记录。
应该理解,在不同数据表中分别指定的对应关联字段所描述的信息实质上应相同,从而能够基于不同数据表中的对应关联字段将不同数据表中的数据记录对应起来。但在不同数据表中分别指定的对应关联字段的名称可以相同,也可以不同。例如,可在数据表a中指定对应关联字段为ID,在数据表b中指定对应关联字段为UserID,两者虽然名称不同,但描述的信息实质上相同,都是描述用户的ID号。
作为示例,可在每个数据表中指定一个对应关联字段,也可在每个数据表中指定多个对应关联字段。如果在每个数据表中指定多个对应关联字段,则将各个数据表中的多个对应关联字段之中的每一对应关联字段均具有相同字段值的数据记录作为对应的待拼接数据记录。例如,如果在数据表a中指定了对应关联字段A和B,在数据表b中相应地指定了对应关联字段A’和B’,则数据表a和数据表b中的待拼接数据记录需满足:对应关联字段A的字段值与对应关联字段A’的字段值为同一值,并且对应关联字段B的字段值与对应关联字段B’的字段值为同一值。
在步骤S30中,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段。
具体说来,根据用户的输出字段配置操作来指定各个数据表中的来源字段以及对其的处理方式,输出数据记录具有的各个字段(即,输出字段)为对来源字段按照其对应的处理方式处理后得到的字段。
作为示例,可将来源字段的名称直接作为输出字段的名称。作为另一示例,可根据用户的输出字段配置操作来配置输出字段的名称,从而增强易用性。
在步骤S40中,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
作为示例,可针对各个数据表中对应关联字段均具有同一字段值的每组待拼接数据记录(即,各个数据表中的对应的待拼接数据记录共同构成一组待拼接数据记录),按照配置的处理方式来处理配置的来源字段的字段值,以生成构成每条输出数据记录的输出字段的字段值。
作为示例,所述处理方式可包括直接提取方式和/或聚合处理方式。具体地,在直接提取(Direct)方式下,可将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值。
在聚合处理方式下,可对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。这里,所述多条待拼接数据记录是所述数据表中对应关联字段具有同一字段值的待拼接数据记录。
现有技术仅能够实现将一个数据表中的一行数据记录和另一个数据表中的一行数据记录进行拼接,因此存在拼接场景过于单一、不够灵活的问题。而根据本发明的示例性实施例,能够实现将一个数据表中的多行数据记录与其他数据表中的一行数据记录或多行数据记录进行拼接,从而能够支持多种拼接场景,满足用户的多样化需求。
进一步地,作为示例,所述聚合处理方式可包括直接聚合处理方式和/或时序聚合处理方式。
作为示例,在直接聚合处理方式下,可对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。
关于时序聚合处理方式,作为示例,所述至少两个数据表包括主表和至少一个拼接表,在配置时序聚合处理方式时,可根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,在时序聚合处理方式下,可对拼接表中的多条待拼接数据记录之中符合时序范围的至少一条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。
这里,基础游标字段为主表中的时间字段(例如,“Date”字段),拼接游标字段为拼接表中的与基础游标字段相应的时间字段(例如,“日期”字段),聚合范围可以是以基础游标字段的字段值为基础指定的一定时间范围,例如,聚合范围可以是以基础游标字段的字段值为起点,向前或向后指定的一定时间范围;或者,以基础游标字段的字段值为中点,向前和向后指定的一定时间范围。
作为示例,所述聚合运算可包括以下项之中的至少一项:求和(SUM)、求平均(AVG)、取最大值(MAX)、取最小值(MIN)、计算个数(Count)。
图2示出根据本发明的另一示例性实施例的拼接数据记录的方法的流程图。如图2所示,根据本发明的另一示例性实施例的拼接数据记录的方法除包括图1所示的步骤S10、步骤S20、步骤S30和步骤S40之外,还可包括步骤S50。步骤S10、步骤S20、步骤S30和步骤S40可参照根据图1描述的具体实施方式来实现,在此不再赘述。
在步骤S50中,基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。应该理解,一行输出数据记录中的各个输出字段的字段值对应的对应关联字段的字段值相同。
作为示例,各个输出字段在输出数据表中的排列顺序可按照用户的输出字段配置操作来设置;或者,各个输出字段在输出数据表中的排列顺序可按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。例如,所述至少两个数据表的排列顺序可以是通过用户的数据表指定操作指定所述至少两个数据表的先后顺序。
作为示例,所述至少两个数据表包括主表和至少一个拼接表,可仅针对所述至少一个拼接表来执行步骤S40,并且,在步骤S50中,可通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。换言之,可将主表中的待拼接数据记录的全部字段的字段值直接作为输出数据表中的输出字段的字段值,并附接(例如,在右侧附接)针对所述至少一个拼接表生成的各个输出字段的字段值。
作为示例,可默认来源字段还包括至少一个对应关联字段,其中,来源字段为对应关联字段的输出字段在输出数据表中的位置可按照用户的输出字段配置操作或预设位置来设置。例如,可预先设置来源字段为对应关联字段的输出字段位于输出数据表的最左侧。
作为示例,所述至少两个数据表包括主表和至少一个拼接表,可默认来源字段还包括主表中的对应关联字段,而不包括拼接表中的对应关联字段。
作为另一示例,可默认来源字段还包括所述至少两个数据表中的名称不同的对应关联字段,即,从各个数据表中的对应关联字段中选择名称互不相同的对应关联字段作为默认来源字段。
作为示例,输出数据表中的输出数据记录可作为训练样本集,应用于机器学习算法或其它算法以进行数据挖掘。从而根据本发明示例性实施例的拼接数据记录的方法能够方便用户在进行机器学习之前,将不同数据表中的数据记录按照需要进行各种拼接,以得到信息更为复杂、更加全面的数据记录进行机器学习。
此外,作为示例,结合图1和图2示出的根据本发明示例性实施例的拼接数据记录的方法还可包括:向用户显示用于拼接数据记录的界面,以便用户通过所述界面来执行数据表指定操作、关联字段指定操作以及输出字段配置操作。作为示例,所述用于拼接数据记录的界面可以是图形用户界面,所述图形用户界面可包括:用于用户手动编辑的文本编辑界面和/或用于显示候选项以供用户手动选择的选择输入型界面。作为示例,可响应于用户的界面切换操作输入在文本编辑界面和选择输入型界面之间切换,并且,在切换前界面下的设置结果可被同步地显示到切换后的界面下。根据本发明示例性实施例的拼接数据记录的方法通过将编程语言转化成便于用户理解和操作的交互界面,降低了使用者的门槛。
以下,结合图3到图6来描述根据本发明实施例的用户通过图形用户界面来执行数据表指定操作、关联字段指定操作以及输出字段配置操作的示例。应注意,这里的图形用户界面仅作为示例,本发明还可采用任何其它形式的输入界面。
下面结合图3-图4、表1-表3来描述本发明的一个示例性实施例,图3示出用于指定数据表和关联字段的图形用户界面的示例,用户可通过图形用户界面输入将进行数据记录拼接的数据表的数量,并具体指定将进行数据记录拼接的数据表1和数据表2。然后,用户可通过图形用户界面分别指定数据表1中的“ID”字段和数据表2中的“ID”字段作为对应关联字段。完成上述设置后,用户可进入图4示出的用于对输出字段进行配置的图形用户界面进行后续设置。
表1:数据表1
ID Name Age Job
1 Zhang 30 blue-collar
2 Wang 27 technician
3 Li 40 management
4 Zhao 24 services
表2:数据表2
ID Income
1 3000
1 4000
2 5000
2 6000
3 2000
3 4000
如图4所示,图形用户界面的左侧“候选字段名”区域可显示能够进行数据记录拼接的数据表的全部候选字段(即,数据表1和数据表2中的所有字段),以供用户从中选择来源字段,图形用户界面的中间“处理方式”区域可显示能够提供的对来源字段的各种处理方式,图形用户界面的右侧“输出字段配置”区域可显示针对输出字段的各种配置。例如,可将用户依次从“候选字段名”区域中选择的字段作为来源字段显示在配置区域内,也可将全部候选字段显示在配置区域中,然后由用户从中删除不作为来源字段的字段。用户可在配置区域内,针对显示的每一来源字段指定对应的处理方式(例如,指定数据表1中的来源字段“ID”、“Name”、“Age”、“Job”的处理方式为直接提取方式、数据表2中的来源字段“Income”的处理方式为聚合处理方式“求和”),并且,还可指定与来源字段对应的输出字段的名称。此外,用户还可调整配置区域中各行的排列顺序,以按照各行的排列顺序来设置对应的输出字段在输出数据表中的排列顺序。
在根据用户的上述操作完成相应的配置后,即可执行输出字段生成步骤和输出数据记录生成步骤,例如,针对数据表1和数据表2中对应关联字段“ID”均具有同一字段值“1”的对应的待拼接数据记录(即,数据表1中的第一条数据记录,数据表2中的第一、第二条数据记录),按照配置的处理方式来处理配置的来源字段的字段值,具体地,将来源字段“ID”、“Name”、“Age”、“Job”的字段值直接作为输出字段的字段值,对来源字段“Income”的字段值求和(即,对字段值“3000”和字段值“4000”求和)得到输出字段的字段值“7000”,以得到输出表1中的第一条输出数据记录。可以看出,根据本发明的示例性实施例,实现了将数据表1中的一条数据记录与数据表2中的多条数据记录的拼接。
表3:输出表1
ID Name Age Job Income
1 Zhang 30 blue-collar 7000
2 Wang 27 technician 11000
3 Li 40 management 6000
下面结合图5-图6、表4-表6来描述本发明的另一示例性实施例,如图5所示,用户可通过图形用户界面输入将进行数据记录拼接的拼接表的数量,并具体指定将进行数据记录拼接的主表和拼接表。然后,用户可通过图形用户界面分别指定主表中的“ID”字段和拼接表中的“ID”字段作为对应关联字段。完成上述设置后,用户可进入图6示出的用于对输出字段进行配置的图形用户界面进行后续设置。
表4:主表
ID Name Age Job Date
1 Zhang 30 blue-collar 2016.04.25
2 Wang 27 technician 2016.03.15
3 Li 40 management 2016.05.17
4 Zhao 24 services 2016.05.09
表5:拼接表
ID Income Date
1 3000 2016.02.20
1 4000 2016.03.15
1 5000 2016.05.17
1 6000 2016.05.20
2 4000 2016.03.15
3 5000 2016.05.17
如图6所示,拼接表中的来源字段“Income”的处理方式被用户配置为时序聚合处理方式,基础游标字段被用户配置为主表中的“Date”字段,拼接游标字段被用户配置为拼接表中的“Date”字段,聚合范围被用户配置为以基础游标字段的字段值为基础向后30天(+30D),聚合运算方式被用户配置为“AVE”。
在根据用户的上述操作完成相应的配置后,即可执行输出字段生成步骤和输出数据记录生成步骤,例如,主表和拼接表中对应关联字段“ID”均具有同一字段值“1”的对应的待拼接数据记录为数据表1中的第一条数据记录、数据表2中的第一至第四条数据记录,进一步地,从拼接表中的第一至第四条数据记录中确定符合时序范围的待拼接数据记录,相应地,符合时序范围的待拼接数据记录是:拼接游标字段的字段值处于以主表中的第一条数据记录的基础游标字段的字段值“2016.04.25”为基础向后30天的范围内(即,2016.04.25-2016.05.25)的待拼接数据记录(即,拼接表中第三、第四条数据),然后,针对第三、第四条数据记录按照配置的聚合运算方式(AVE)来处理配置的来源字段“Income”的字段值,即,对第三、第四条数据记录的来源字段“Income”的字段值“5000”和“6000”取平均值,得到对应的输出字段的字段值“5500”,并将生成的输出字段的字段值附接在主表中的第一条数据记录后来生成输出数据表2中的第一条输出数据记录。
表6:输出表2
ID Name Age Job Income Date
1 Zhang 30 blue-collar 5500 2016.04.25
2 Wang 27 technician 4000 2016.03.15
3 Li 40 management 5000 2016.05.17
根据本发明示例性实施例的计算机可读存储介质,存储有计算机程序,其中,所述计算机程序可被配置为使计算机的处理器执行任一上述示例性实施例的拼接数据记录的方法。
图7和图8示出根据本发明示例性实施例的拼接数据记录的装置的框图。
如图7所示,根据本发明示例性实施例的拼接数据记录的装置包括:数据表指定单元10、关联字段指定单元20、输出字段配置单元30、输出字段生成单元40。
具体说来,数据表指定单元10配置为根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段。
关联字段指定单元20配置为根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段。
输出字段配置单元30配置为根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段。
作为示例,输出字段配置单元30还可根据用户的输出字段配置操作来配置输出字段的名称。
输出字段生成单元40配置为针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
作为示例,所述处理方式可包括直接提取方式和/或聚合处理方式,其中,输出字段生成单元40可在直接提取方式下,将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值;输出字段生成单元40可在聚合处理方式下,对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。
作为示例,所述聚合处理方式可包括直接聚合处理方式,其中,输出字段生成单元40可在直接聚合处理方式下,对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。
作为示例,所述至少两个数据表包括主表和至少一个拼接表,并且,所述聚合处理方式可包括时序聚合处理方式,其中,输出字段配置单元30可在配置时序聚合处理方式时,根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,输出字段生成单元40可在时序聚合处理方式下,对拼接表中的多条待拼接数据记录之中符合时序范围的待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。
作为示例,所述聚合运算可包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
如图8所示,根据本发明的另一示例性实施例的拼接数据记录的装置除包括图7所示的数据表指定单元10、关联字段指定单元20、输出字段配置单元30、输出字段生成单元40之外,还可包括输出数据记录生成单元50。数据表指定单元10、关联字段指定单元20、输出字段配置单元30、输出字段生成单元40可参照根据图7描述的具体实施方式来实现,在此不再赘述。
输出数据记录生成单元50配置为基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。
作为示例,各个输出字段在输出数据表中的排列顺序可按照用户的输出字段配置操作来设置;或者,各个输出字段在输出数据表中的排列顺序可按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。
作为示例,所述至少两个数据表包括主表和至少一个拼接表,其中,输出字段配置单元30可仅针对所述至少一个拼接表来执行输出字段配置操作,并且,输出数据记录生成单元50通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。
作为示例,来源字段还默认可包括至少一个对应关联字段,其中,来源字段为对应关联字段的输出字段在输出数据表中的位置可按照用户的输出字段配置操作或预设位置来设置。
应该理解,根据本发明示例性实施例的拼接数据记录的装置的具体实现方式可参照结合图1-图6描述的相关具体实现方式来实现,在此不再赘述。
此外,应该理解,根据本发明示例性实施例的拼接数据记录的装置中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。
根据本发明示例性实施例的拼接数据记录的方法及装置,提供了一种效率更高、使用场景更加多样化、更为灵活的数据记录拼接过程,用户只需根据需要来指定数据表、设置拼接的关联条件、配置输出三个步骤即可完成数据记录拼接的过程。进一步地,能够根据用户需求对不同数据表中的数据记录进行非直接的运算拼接处理,特别地还能够进行与时序相关的拼接处理。应注意,本发明的示例性实施例虽然可应用于机器学习平台,然而,却不限于此,也就是说,任何需要对数据记录进行拼接的***或技术方案中均可采用本发明的示例性实施例。
此外,根据本发明示例性实施例的拼接数据记录的方法可以被实现为计算机可读记录介质中的计算机代码。本领域技术人员可以根据对上述方法的描述来实现所述计算机代码。当所述计算机代码在计算机中被执行时实现本发明的上述方法。
虽然已表示和描述了本发明的一些示例性实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改。

Claims (10)

1.一种拼接数据记录的方法,包括:
数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;
输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及
输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
2.根据权利要求1所述的方法,还包括:
输出数据记录生成步骤,基于生成的各个输出字段的字段值来生成输出数据表中的输出数据记录。
3.根据权利要求2所述的方法,其中,
各个输出字段在输出数据表中的排列顺序按照用户的输出字段配置操作来设置;或者,
各个输出字段在输出数据表中的排列顺序按照所述至少两个数据表的排列顺序以及各个输出字段的来源字段在各个数据表中的排列顺序来设置。
4.根据权利要求2所述的方法,其中,所述至少两个数据表包括主表和至少一个拼接表,
其中,仅针对所述至少一个拼接表来执行输出字段配置步骤,并且,在输出数据记录生成步骤中,通过将生成的各个输出字段的字段值附接在主表中的待拼接数据记录来生成输出数据表中的输出数据记录。
5.根据权利要求1所述的方法,其中,所述处理方式包括直接提取方式和/或聚合处理方式,其中,在直接提取方式下,将数据表中的单条待拼接数据记录的来源字段的字段值直接作为输出字段的字段值;在聚合处理方式下,对数据表中的多条待拼接数据记录之中的至少一条的来源字段的字段值进行聚合运算以作为输出字段的字段值。
6.根据权利要求5所述的方法,其中,所述聚合处理方式包括直接聚合处理方式,
其中,在直接聚合处理方式下,对数据表中的多条待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值。
7.根据权利要求5所述的方法,其中,所述至少两个数据表包括主表和至少一个拼接表,并且,所述聚合处理方式包括时序聚合处理方式,
其中,在配置时序聚合处理方式时,根据用户的输出字段配置操作来配置基础游标字段、拼接游标字段、聚合范围以及聚合运算,并且,在时序聚合处理方式下,对拼接表中的多条待拼接数据记录之中符合时序范围的待拼接数据记录的来源字段的字段值进行聚合运算以作为输出字段的字段值,其中,符合时序范围的待拼接数据记录是指拼接游标字段的字段值处于以主表中的待拼接数据记录的基础游标字段的字段值为基础向前和/或向后聚合范围所确定的范围内的待拼接数据记录。
8.根据权利要求5-7之中任一权利要求所述的方法,其中,所述聚合运算包括以下项之中的至少一项:求和、求平均、取最大值、取最小值、计算个数。
9.一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被配置为使计算机的处理器执行下述步骤:
数据表指定步骤,根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
关联字段指定步骤,根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;
输出字段配置步骤,根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及
输出字段生成步骤,针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
10.一种拼接数据记录的装置,包括:
数据表指定单元,配置为根据用户的数据表指定操作来指定将进行数据记录拼接的至少两个数据表,其中,数据表的一行对应一条数据记录,数据表的一列对应一个字段;
关联字段指定单元,配置为根据用户的关联字段指定操作在各个数据表的字段之中分别指定对应关联字段;
输出字段配置单元,配置为根据用户的输出字段配置操作来配置输出字段的来源字段和针对来源字段的处理方式,其中,输出字段为作为数据记录拼接结果的输出数据记录的字段,来源字段为输出字段所依据的数据表中的字段;以及
输出字段生成单元,配置为针对各个数据表中对应关联字段均具有相同字段值的待拼接数据记录,按照配置的处理方式来处理配置的来源字段的字段值,以生成输出字段的字段值。
CN201710538681.0A 2017-07-04 2017-07-04 拼接数据记录的方法及装置 Pending CN107402978A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710538681.0A CN107402978A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置
CN202110564742.7A CN113220688A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710538681.0A CN107402978A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110564742.7A Division CN113220688A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置

Publications (1)

Publication Number Publication Date
CN107402978A true CN107402978A (zh) 2017-11-28

Family

ID=60404862

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710538681.0A Pending CN107402978A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置
CN202110564742.7A Pending CN113220688A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110564742.7A Pending CN113220688A (zh) 2017-07-04 2017-07-04 拼接数据记录的方法及装置

Country Status (1)

Country Link
CN (2) CN107402978A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及***
CN109697066A (zh) * 2018-12-28 2019-04-30 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN109739855A (zh) * 2018-12-28 2019-05-10 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN110334098A (zh) * 2019-06-27 2019-10-15 烽火通信科技股份有限公司 一种基于脚本的数据库合并方法及***
CN110502519A (zh) * 2019-08-26 2019-11-26 北京启迪区块链科技发展有限公司 一种数据聚合的方法、装置、设备及存储介质
CN112115138A (zh) * 2020-08-19 2020-12-22 第四范式(北京)技术有限公司 确定数据表之间关联关系的方法、装置及设备
CN112131258A (zh) * 2020-09-23 2020-12-25 创新奇智(重庆)科技有限公司 数据拼接方法、装置、设备及计算机存储介质
CN112817984A (zh) * 2021-02-22 2021-05-18 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424263A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种数据记录的处理方法及装置
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE41901E1 (en) * 1998-08-11 2010-10-26 Turbo Data Laboratories, Inc. Method and apparatus for retrieving accumulating and sorting table formatted data
CN110442417A (zh) * 2016-01-08 2019-11-12 第四范式(北京)技术有限公司 特征抽取方法、机器学习方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424263A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种数据记录的处理方法及装置
WO2015049797A1 (ja) * 2013-10-04 2015-04-09 株式会社日立製作所 データ管理方法、データ管理装置及び記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冯寿鹏 等: "《数据库技术与应用教程(Access2010)》", 29 February 2016, 西安电子科技大学出版社 *
鹰夜八百: "sql游标例子根据一表的数据去筛选另一表的数据", 《博客园HTTP://WWW.CNBLOGS.COM/SHIRATSUKI/P/4352733.HTML》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228861A (zh) * 2018-01-12 2018-06-29 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及***
CN108228861B (zh) * 2018-01-12 2020-09-01 第四范式(北京)技术有限公司 用于执行机器学习的特征工程的方法及***
CN109697066A (zh) * 2018-12-28 2019-04-30 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN109739855A (zh) * 2018-12-28 2019-05-10 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN109697066B (zh) * 2018-12-28 2021-02-05 第四范式(北京)技术有限公司 实现数据表拼接及自动训练机器学习模型的方法和***
CN110334098A (zh) * 2019-06-27 2019-10-15 烽火通信科技股份有限公司 一种基于脚本的数据库合并方法及***
CN110502519A (zh) * 2019-08-26 2019-11-26 北京启迪区块链科技发展有限公司 一种数据聚合的方法、装置、设备及存储介质
CN110502519B (zh) * 2019-08-26 2022-04-29 北京启迪区块链科技发展有限公司 一种数据聚合的方法、装置、设备及存储介质
CN112115138A (zh) * 2020-08-19 2020-12-22 第四范式(北京)技术有限公司 确定数据表之间关联关系的方法、装置及设备
CN112131258A (zh) * 2020-09-23 2020-12-25 创新奇智(重庆)科技有限公司 数据拼接方法、装置、设备及计算机存储介质
CN112817984A (zh) * 2021-02-22 2021-05-18 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置
CN112817984B (zh) * 2021-02-22 2023-10-20 杭州数梦工场科技有限公司 数据处理方法及装置、数据来源获取方法及装置

Also Published As

Publication number Publication date
CN113220688A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN107402978A (zh) 拼接数据记录的方法及装置
US11210569B2 (en) Method, apparatus, server, and user terminal for constructing data processing model
KR20180091043A (ko) 사용자 포트레이트를 획득하는 방법 및 장치
WO2018227800A1 (zh) 一种神经网络训练方法及装置
CN110276456B (zh) 一种机器学习模型辅助构建方法、***、设备及介质
CN106095834A (zh) 基于话题的智能对话方法及***
CN111639153B (zh) 基于法律知识图谱的查询方法、装置、电子设备及介质
CN107608957A (zh) 基于语音信息的文本修改方法、装置及其设备
JP2017204018A (ja) 検索処理方法、検索処理プログラムおよび情報処理装置
CN110472834B (zh) 一种推送课程的方法、装置、存储介质和服务器
CN113811869A (zh) 将自然语言查询翻译成标准数据查询
CN110135524A (zh) 自动化的模型训练方法、装置、设备及介质
CN115357959B (zh) 基于语音指令进行设计的鞋体模型设计方法及装置
TW201820172A (zh) 對話模式分析系統、方法及非暫態電腦可讀取記錄媒體
JP2020024665A (ja) 情報処理方法、及び情報処理システム
US7937390B2 (en) Method for controlling a relational database system
CN106682190A (zh) 标签知识库的构建方法、装置、应用搜索方法和服务器
CN109543545B (zh) 快速人脸检测方法及装置
CN106201696A (zh) 用于线程的方法和装置
US8442930B2 (en) Untangled Euler diagrams
CN107122849B (zh) 基于SparkR的产品检测总完工时间极小化方法
CN113886427A (zh) 一种对话处理方法、装置及电子设备
CN111476003A (zh) 歌词改写方法及装置
CN112417140A (zh) 文法配置方法、文法匹配方法、装置和计算机设备
JPWO2020085374A1 (ja) 熟練指数提供装置、熟練指数提供方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128

RJ01 Rejection of invention patent application after publication