CN105045904B - 一种基于数据仓库的用户数据整合方法及*** - Google Patents
一种基于数据仓库的用户数据整合方法及*** Download PDFInfo
- Publication number
- CN105045904B CN105045904B CN201510482987.XA CN201510482987A CN105045904B CN 105045904 B CN105045904 B CN 105045904B CN 201510482987 A CN201510482987 A CN 201510482987A CN 105045904 B CN105045904 B CN 105045904B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- tables
- sources
- keyword message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据仓库的用户数据整合方法及***,其中,该方法包括:获取线上数据库中各种来源下的用户基础表的关键字信息;根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。本发明简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
Description
技术领域
本发明涉及电子商务数据技术领域,尤其涉及一种基于数据仓库的用户数据整合方法及***。
背景技术
随着电子商务的快速发展和激烈竞争,电商与各商家进行深度的合作,例如:京东和微信,京东和QQ,这样用户可以方便地从多渠道(QQ、微信等)或多终端(电脑PC端,手机APP端等)进行注册并购物,形成了一个用户多个账号的情形,用户的各个账号之间的关系一般通过绑定或联合登录来进行关联。
因消费者数量庞大,大型电商积累几亿甚至更多的用户数据,在多渠道且信息量庞大的数据环境下,将这些数据进行整合是至关重要的一环。
现有技术中,通过数据抽取工具,将线上数据直接抽取到数据仓库中,然后将全部数据通过搭建模型进行直接使用。这样会存在以下的缺陷:1、数据孤岛多:用户数据中账户之间缺乏较强的关联性;2、数据使用不便:对于一用户多个账号的情形,判定一个账号与另一个账号之间的绑定关系较繁琐;3、数据范围大:进行计算时,需要将全部数据进行统计和分析,在这过程中携带着大量非核心用户数据进行统计和分析,***资源消耗大,运行效率低。
发明内容
有鉴于此,本发明实施例提供一种基于数据仓库的用户数据整合方法及***,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
第一方面,本发明实施例提供了一种基于数据仓库的用户数据整合方法, 包括:
获取线上数据库中各种来源下的用户基础表的关键字信息;
根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;
根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
第二方面,本发明实施例还提供了一种基于数据仓库的用户数据整合***,包括:
关键字信息获取模块:用于获取线上数据库中各种来源下的用户基础表的关键字信息;
映射表建立模块:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
本发明实施例提供的一种基于数据仓库的用户数据整合方法及***,该方法通过获取线上数据库中各种来源下的用户基础表的关键字信息以及建立用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并将过滤后数据表中的用户数据与用户购物行为表中的数据进行加工。本发明实施例增强了用户账号之间的关联性,简化了一个用户 多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种基于数据仓库的用户数据整合方法流程图;
图2是本发明实施例二提供的一种基于数据仓库的用户数据整合方法流程图;
图3是本发明实施例三提供的一种基于数据仓库的用户数据整合方法的流程结构图;
图4是本发明实施例四提供的一种基于数据仓库的用户数据整合***结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1是本实施例一提供的一种基于数据仓库的用户数据整合方法流程图;该方法适用于电子商务的分布式数据库的用户数据进行整合的情形,该方法可以由配置在服务器中的基于数据仓库的用户数据整合***来执行,基于数据仓库的用户数据整合***可以由软件和/或硬件的方式来实现。
如图1所示,该方法包括:
S110:获取线上数据库中各种来源下的用户基础表的关键字信息。
线上数据库中具有大量的用户的数据,包括电商公司内部的数据以及公司外部传入的数据。公司内部的数据包括电脑PC端用户数据、手机APP端用户数据、手机M端用户数据等;公司传入的数据包括QQ端用户数据、微信端用户数据等。由此可见,用户数据来源于不同的渠道或终端,对于不同来源的用户数据,采用用户基础表进行记录用户数据的基础信息。在本实施例中,所述的用户基础表中至少包括关键字信息,用户基础表中可以包括关键字信息和用户账号ID;其中,用户账号ID为用户数据对应的用户来源生成的编号,可以便于区别各个不同的用户数据。所述的用户基础表中还可以包括其他的用户信息。所述关键字信息为各种来源下均会包含的信息,例如可以包括:用户注册账号、用户手机号、用户级别以及用户来源等。
在本实施例中,用户注册账号为用户在各个终端或各个渠道的注册账号,一般情况下,同一个用户的用户注册账号在每个渠道或终端是相同的。用户手机号为敏感信息,需要进行加密存储,以防止用户手机号外泄;如果注册时没有用户手机号,则设置为空串。其中,对于不同来源的用户数据,线上数据库中的用户基础表中对于用户的手机号加密的方法进行统一,即同一个用户的手机号经过加密后的内容相同。在本实施例中,用户手机号的加密方法优选采用MD5加密。
在本实施例中,用户来源,是指用户注册的渠道或终端,在一个用户基础表中,用户的来源相同,其中,用户来源常用字母进行表示,例如,“QQ”代表QQ端数据、“PC”代表电脑PC端数据等。用户级别为用户所在渠道的用户的最新级别,例如,一个用户的用户数据来源为QQ端,该用户在QQ端的最新 级别为钻石,则该用户在QQ端的用户级别为钻石。
S120:根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表。
在本实施例中,用户统一级别是根据在各种渠道下的用户级别根据预设的规则进行确定的。可以从多个维度对用户的属性值进行分类,来确定其用户统一级别。用户统一级别与用户级别的划分规则可以不同。
例如,根据消费金额的多少进行划分用户级别和用户统一级别。在QQ端,规定消费1000元以上的用户,用户级别为钻石;用户统一级别规定消费2000元以上的用户,用户统一级别为钻石,1000-2000元之间的用户,用户统一级别为金牌。如果一个用户的消费在1000-2000元之间,则该用户的在QQ端的用户级别为钻石,用户统一级别为金牌。
用户级别和用户统一级别之间的映射表中至少包括了用户数据的来源、用户级别、用户级别和用户统一级别的对应关系、以及用户统一级别。在确定用户统一级别时,根据不同来源下的用户基础表中的用户级别,通过查询用户级别和用户统一级别映射表,就可以确定用户的统一级别。
S130:根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表。
在本实施例中,根据获取的关键字信息以及建立的映射表将各种来源下的多个用户基础数据表进行整合,具体的,建立一个整合数据表,由于关键字信息一般是多个用户基础数据表共有的,所以可以将各种来源下的多个用户基础表中的关键字信息分别存储到整合数据表中相对应的位置内,然后重新生成新的用户账号ID。根据整合数据表中的用户手机号,新分配用户手机号ID,根据建立的用户级别和用户统一级别之间的映射表,得到用户统一级别,添加到该 整合数据表中。其中,建立的整合数据表中,还可以将用户基础表中除关键字信息之外的数据进行存储。
在本实施例中,在整合数据表中重新生成的用户账号ID与用户基础表中的用户账号ID编写的方法是不同的,如在用户基础表中,用户账号ID为100001、100002等;而在整合数据表中,用户账号ID为100011、100022等;其作用均是为了区别每一条的用户数据,仅编写的方法不同。在整合数据表中重新生成用户账号ID时,用户来源相同时,根据排列的顺序进行编号;用户来源不同时,用户账号ID的首位数字是不同的。如,在整合数据表中,用户来源为QQ端,用户账号ID为100011、100022、100033等,按照排列顺序进行编号;当用户来源为APP端时,用户账号ID与QQ端的用户账号ID首位数字是不同的,依然按照排列顺序进行编号,用户账号ID为200011、200022、200033等。在整合的数据表中,用户账号ID也可以有其他编写形式,能够体现用户数据的来源是否相同或不同即可(用户数据来源相同,用户账号ID首位数字相同;否则,用户账号ID首位数字不同)。
S140:对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
在本实施例中,由于用户基础表中包含了一些无用的用户数据,因此整合的数据表中的用户也存在一些无用的用户数据,需将这些无用的用户数据进行去除。其中,无用的数据包括没有手机号的用户数据以及用户统一级别为注册用户的用户数据。
用户的购物行为表可以是用户的订单、用户的晒单等。过滤后的数据表中包含一个用户多个账号的用户数据,根据用户手机号ID进行判断在不同来源下的用户是否是同一个用户,如果在不同的来源下,用户手机号ID相同,则为同 一个用户。将不同来源下的同一个用户的多个账号的多条用户数据以用户为维度进行存储为一条用户数据,并将同一个用户不同来源的购物行为表的数据进行聚合,这样有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
例如,如果一个用户,在QQ端、APP端、微信端均有用户注册账号XX,那么在过滤后的数据表中,存在3条该用户的用户数据,将以3条用户数据进行压缩,压缩成该用户的1条用户数据记录,并且该用户在QQ端、APP端、微信端均有一个订单,将各个订单的信息聚合在一起,存储在该用户的购物信息中,根据购物的信息分析该用户的个人喜好、个人属性、购物习惯等。
本发明实施例一提供的一种基于数据仓库的用户数据整合方法,该方法通过获取线上数据库中各种来源下的用户基础表、关键字信息以及建立的用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并将过滤后数据表中的用户数据与用户购物行为表中的数据进行加工。本发明实施例简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例二
图2是本实施例二提供的一种基于数据仓库的用户数据整合方法的流程图;在上述实施例的基础上,在获取线上数据库中各种来源下的用户基础表的关键字信息之前,还执行如下操作:
设定线上数据库中用户基础表的关键字信息。
进一步的,在上述技术方案中,所述根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的 数据表的操作优选包括:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
由此,通过用户来源以及用户注册账号,生成新的用户账号ID,使每一条不同来源下的用户数据进行区分,通过用户手机号分配与用户手机号相对应的用户手机号ID,由于用户手机号是加密的,内容较长,用户手机号ID相对于用户手机号内容较少,采用用户手机号ID便于用户数据的查询、统计和分析。通过建立的映射表根据用户级别生成用户统一级别,获得整合后的数据表,将不同来源下的用户级别进行统一划分,使用户数据便于统计和分析。
进一步的,在上述技术方案中,所述对整合后的数据表进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的用户购物信息进行加工的操作优选包括:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
由此,通过将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户均去除的方法,能够提高用户数据查询的效率,降低***资源的 消耗。
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合,有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
基于上述优化,如图2所示,本实施例提供的技术方案具体包括如下:
S210:设定线上数据库中用户基础表的关键字信息。
在本实施例中,因为用户数据的来源比较多,所以用户的基础信息较多,在线上数据库中需要存储用户基础表中必要的关键字信息。所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源。
S220:获取线上数据库中各种来源下的用户基础表的关键字信息。
S230:根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表。
S240:将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字。
在本实施例中,在不同的用户来源下,会存在相同的用户注册账号的情形,但是,通过用户来源和用户注册账号确定的用户数据是唯一的,因此,通过用户来源和注册账号确定的数据表的主关键字是唯一的,生成的新的用户账号ID也是唯一的。例如,在QQ端和APP端,存在相同的用户注册账号li3,仅通过用户注册账号确定的用户数据不唯一(两条用户数据),但通过用户来源和用户注册账号后,用户数据分别为QQ端、li3和APP端、li3;这两条用户数据中虽然用户注册账号相同,但用户来源不同,所以用户数据是不同的,故通 过用户来源和用户注册账号确定的用户数据是唯一的。因此,在不同的用户来源下,不论用户注册账号是否相同,新生成的用户账号ID是不同的。所以,将新的用户账号ID作为整合后数据表的主关键字,通过上述方法将每一条的用户数据进行区分。
S250:根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID。
在本实施例中,由于用户手机号是加密的,内容较长多变,不便于查询、统计和分析,因此根据每一个用户的手机号分配唯一的用户手机号ID,在处理用户手机号ID的内容时相对于用户手机号内容更加方便。例如,用户手机号的位数是11位,其中,最后两位为10,则10通过加密后可以为“abcdef”,“10”加密后占用为6个字符。用户手机号其他数字也可以通过上述加密的方法,则用户手机号加密后,占用的字符大于11,而用户的手机号ID是与用户的数量有关系的,如果用户的数量为100个,则手机号ID采用3个字符进行表示,如100,101等;如果用户数量比较多,如30万,则用户手机号ID采用6个字符进行表示,相对于用户手机号而言,占用的字符比较少,内容少,便于用户数据的查询、统计、分析。
S260:查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
在本实施例中,在数据表中,根据用户级别,查询建立的映射表,找到该级别下的用户统一级别。例如,在用户来源为QQ端时,用户级别为红钻,查询映射表,对应QQ端用户级别为红钻的用户统一级别为钻石。其中,整合后的数据表中包括新的用户账号ID,用户来源、用户注册账号、用户手机号、用户手机号ID、用户级别、用户统一级别,其中新的账号ID目的是为了区别存储的每 一条用户数据。
S270:将整合后的数据表中没有手机号的用户数据以及用户统一级别为注册用户的用户数据均去除。其中注册用户为仅注册且没有任何购物行为的用户。
在本实施例中,没有手机号的用户数据、以及用户统一级别为注册用户的用户数据为无用数据,每次对用户数据进行分析时掺有这些无用数据会影响查询的效率,故将这些无用的数据,进行去除。其中,注册用户是指只注册且无任何购物行为的用户;注册用户的成长值为0,成长值是用户通过登录、购物、评价、晒单所获得的,累积的成长值总额决定用户级别。
S280:将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
在本实施例中,过滤后的数据表中针对一个目标用户存在多个账号的情形,根据用户手机号ID进行判断在不同来源下的目标用户是否是同一个用户,如果在不同的来源下,用户手机号ID相同,则为同一个用户。将不同来源下的同一个用户的多个账号的多条用户数据以用户为维度存储为一条用户数据,并将预先存储的与目标用户相对应的多个购物行为表中的数据进行聚合,使多个购物表中的数据存储在目标用户的购物信息中,这样使一个用户对应不同来源的购物行为数据,有利于分析不同来源下的同一个用户的个人喜好、个人属性、购物习惯等信息。
本实施例提供了一种基于数据仓库的用户数据整合方法,该实施在实施例一的基础上进行了优化,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例三
图3本实施例三提供的一种基于数据仓库的用户数据整合方法的流程结构图,如图3所示,线上数据库中具有大量的用户的数据,包括电商公司内部的数据以及公司外部传入的数据。公司内部的数据包括表1:电脑PC端用户数据、表2:手机APP端用户数据、表3:手机M端用户数据等;公司传入的数据包括表4:QQ端用户数据、表5微信端用户数据等。
该方法包括:步骤:310:设定表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息。其中,关键字信息包括:用户账号、用户手机号、用户级别和用户来源。
例如,表a示出了为用户数据来自于为QQ端的用户基础表;其中,表a中包含了用户账号ID、用户注册账号、用户手机号、用户级别和用户来源,其中表a中还包括其他的用户信息,表a中没有示出;其他来源的用户数据的用户基础表均可以如表a中所示的内容,仅用户来源不同而已。用户账号ID为用户数据对应的用户来源生成的编号,在通过表a所示的形式对不同的来源的用户基础表进行表示时,用户账号ID的编写形式会不同,如,如表a中所示,用户数据来源为QQ端时,用户账号ID的编写形式为100001、100002、100003等;当用户数据来源为手机APP端时,用户账号的编写形式为200001、200002、200003等;当用户数据来源为M端时,用户账号的编写形式为300001、300002、300003等。其中,表a的内容为图3中表4的内容,表1、表2、表3、表5等采用表a的形式进行表示。
表a
用户账号ID | 用户注册 | 用户手机号 | 用户级别 | 用户来源 | …… |
账号 | |||||
100001 | wang1 | Ac3d910… | 钻石 | …… | |
100002 | zhang1 | B61a701… | 红钻 | …… | |
100003 | li3 | D8vjfd0… | 注册 | …… | |
…… | …… | …… | …… | …… |
步骤320:获取表1、表2、表3、表4、表5以及其他来源的关键字信息。
步骤330:根据预设的规则建立用户级别与用户统一级别的映射表b。
在本实施例中,如表b所示,用户来源为QQ的用户数据,用户级别为钻石、红钻、注册分别对应的用户统一级别为钻石、钻石、注册,用户来源为APP的用户级别为铁牌对应的用户统一级别为铜牌。其中,如表b所示,在QQ端,用户级别分别为钻石和红钻的用户,用户统一级别均为钻石,导致这种情形有可能是:在QQ端,以消费的多少进行划分用户级别,规定2000-2500元之间的用户级别为钻石,2500元以上的用户级别为红钻;而用户的统一级别规定2000元以上为钻石。如果一个用户的消费在2000-2500元之间,用户级别为钻石,用户统一级别也为钻石;如果另一个用户的消费在2500元以上,用户级别为红钻,则用户统一级别仍为钻石。
表b
在上述实施例的基础上,用户级别和用户统一级别之间的映射表中的对应关系还可以设置成其他的关系,可以根据查询的方便的原则或者需要进行任意的设定。
步骤340:将获取的表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字。
步骤350:根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID。
步骤360:查询所述建立的映射表b,根据用户级别生成用户统一级别,获得整合后的数据表c。
在本实施例中,整合后的数据表如表c所示,将表1、表2、表3、表4、表5以及其他来源的用户基础表中的关键字信息存储到一个数据表中,其中,数据表中包括:新的用户账号ID,用户来源、用户注册账号、用户手机号、用户手机号ID、用户级别、统一级别。如表c所示,用户数据分别来源于QQ、APP和PC端,注册账号均为li3的用户,用户手机号、用户手机号ID相同,每一个用户手机号对应唯一的用户手机号ID,因在不同的用户来源下,用户级别 以及用户统一级别是不同的。
表c
步骤370:将整合后的数据表c中没有手机号的用户数据以及用户统一级别为注册用户的用户数据均去除。
在本实施例中,将整合后的表c进行过滤后,得到过滤后的数据表d。如表d中所示,用户账号ID为3000011的用户,没有用户手机号信息;用户账号ID为1000033的用户,其用户统一级别为注册用户;故将表c中用户账号ID为3000011以及1000033的用户数据进行了过滤。其中,注册用户是指只注册且无任何购物行为的用户。
表d
S380:将过滤后的数据表d中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
在本实施例中,将表d中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合,获得表e。表e示出了加工后的用户数据表,如表e所示,购物信息中的订单信息中只给出了用户消费的金额以及用户购物的种类,其他信息没有示出。其中,对于用户注册账号为li3的用户,订单信息有两条;第一条订单信息来源APP端,第二条订单信息来源PC端(参照表c),将来自APP端和PC端的同一个用户的购物行为信息进行聚合,有利于用户数据的分析。其中,用户注册账号为li3的用户,根据订单的信息,可以分析该用户喜好购买食品的货物。
表e
在上述实施例的基础上,表e中的内容还可以设置成其他的形式。
本实施例三提供了一种基于数据仓库的用户数据整合方法,本实施例是基于数据仓库的用户数据的整合方法的优选的实施例,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
实施例四
图4是本实施例四提供的一种基于数据仓库的用户数据整合***结构示意图;如图4所示,该***包括:
关键字信息获取模块401:用于获取线上数据库中各种来源下的用户基础表的关键字信息;
映射表建立模块402:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块403:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块404:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表进行加工。
本发明实施例三提供的一种基于数据仓库的用户数据整合***,该***通过获取线上数据库中各种来源下的用户基础表的关键字信息以及建立用户级别和用户统一级别之间的映射表,对各个用户基础表进行整合,最后将整合后的数据表进行过滤,并结合预存储的用户购物行为表进行加工。本发明实施例增强了用户账号之间的关联性,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
在上述实施例的基础上,所述***还包括:关键字信息设定模块405,用于对获取线上数据库中用户基础表的关键字信息之前,设定线上数据库中用户基础表的关键字信息。
在本实施例中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;所述的用户基础表中包括关键字信息以及用户账号ID信息。
在本实施例中,数据整合模块403,具体用于:将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户的来源以及注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;根据所述用户手机号,生成用户手机号ID;查询建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
在本实施例中,数据加工模块404具体用于:将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除,将过滤后的数据 表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。其中注册用户为仅注册且没有任何购物行为的用户。
本发明实施例四提供的一种基于数据仓库的用户数据整合***,对各功能模块的功能进行了优化,增强了用户账号之间的关联性,简化了一个用户多账号之间的绑定关系;去掉了大量的无效的数据,查询效率高、资源消耗少。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种基于数据仓库的用户数据整合方法,其特征在于,所述方法应用于对电商积累的用户数据进行整合的场景,其中,该方法包括:
获取线上数据库中各种来源下的用户基础表的关键字信息;其中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;
根据预设的规则建立用户在各种来源下的用户级别和用户统一级别之间的映射表;
根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
2.根据权利要求1所述的方法,其特征在于,获取线上数据库中各种来源下的用户基础表的关键字信息之前包括:
设定线上数据库中用户基础表的关键字信息。
3.根据权利要求1所述的方法,其特征在于,
所述的用户基础表中包括关键字信息以及用户账号ID信息。
4.根据权利要求3所述的方法,其特征在于,所述根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表,包括:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
5.根据权利要求3所述的方法,其特征在于,所述对整合后的数据表进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工包括:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
6.一种基于数据仓库的用户数据整合***,其特征在于,所述***应用于对电商积累的用户数据进行整合的场景,其中该***包括:
关键字信息获取模块:用于获取线上数据库中各种来源下的用户基础表的关键字信息;其中,所述关键字信息包括:用户注册账号、用户手机号、用户级别以及用户来源;
映射表建立模块:用于根据预设的规则建立用户在各种终端中的用户级别和用户统一级别之间的映射表;
数据整合模块:用于根据获取的各种来源下的用户基础表的关键字信息、以及建立的映射表对用户基础数据表进行整合,获得整合后的数据表;
数据加工模块:用于对整合后的数据表中的用户数据进行过滤,将过滤后的数据表中的用户数据与预存储的用户购物行为表中的数据进行加工。
7.根据权利要求6所述的***,其特征在于,还包括:关键字信息设定模块,用于对获取线上数据库中各种来源下的用户基础表的关键字信息之前,设定线上数据库中用户基础表的关键字信息。
8.根据权利要求6所述的***,其特征在于,
所述的用户基础表中包括关键字信息以及用户账号ID信息。
9.根据权利要求8所述的***,其特征在于,数据整合模块,具体用于:
将获取的用户基础表中的关键字信息存储到一个数据表中,并根据所述用户来源以及用户注册账号为关联主键,生成新的用户账号ID,并将新的用户账号ID作为整合后数据表的主关键字;
根据所述用户手机号,分配与所述用户手机号对应的用户手机号ID;
查询所述建立的映射表,根据用户级别生成用户统一级别,获得整合后的数据表。
10.根据权利要求8所述的***,其特征在于,数据加工模块具体用于:
将整合后的数据表中没有手机号的用户数据以及统一级别为注册用户的用户数据均去除;其中注册用户为仅注册且没有任何购物行为的用户;
将过滤后的数据表中各种来源下的同一目标用户的多条用户数据,存储为目标用户的一条用户数据,并将预先存储的与目标用户的用户来源相对应的多个购物行为表中的数据进行聚合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482987.XA CN105045904B (zh) | 2015-08-07 | 2015-08-07 | 一种基于数据仓库的用户数据整合方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510482987.XA CN105045904B (zh) | 2015-08-07 | 2015-08-07 | 一种基于数据仓库的用户数据整合方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045904A CN105045904A (zh) | 2015-11-11 |
CN105045904B true CN105045904B (zh) | 2019-05-03 |
Family
ID=54452451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510482987.XA Active CN105045904B (zh) | 2015-08-07 | 2015-08-07 | 一种基于数据仓库的用户数据整合方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045904B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708845A (zh) * | 2015-11-12 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种互联网账号的数据处理方法及装置 |
CN105634860B (zh) * | 2015-12-21 | 2019-09-24 | 中国电子科技集团公司第十五研究所 | 一种上网行为轨迹还原的方法和装置 |
CN106933892B (zh) * | 2015-12-31 | 2019-05-31 | 北京国双科技有限公司 | 描述信息的存储方法及装置 |
CN105678609A (zh) * | 2016-02-26 | 2016-06-15 | 北京京东尚科信息技术有限公司 | 一种基于不同虚拟标识单元实时展示状态的方法与*** |
CN105912663A (zh) * | 2016-04-12 | 2016-08-31 | 宁波极动精准广告传媒有限公司 | 一种基于大数据的用户标签合并方法 |
CN106874335B (zh) * | 2016-08-19 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 行为数据处理方法、装置及服务器 |
CN108268565B (zh) * | 2017-01-04 | 2020-11-03 | 北京京东尚科信息技术有限公司 | 基于数据仓库处理用户浏览行为数据的方法及*** |
CN106970994B (zh) * | 2017-04-01 | 2019-07-12 | 长沙智擎信息技术有限公司 | 一种自动化的在线实践证据提取方法 |
CN107341238B (zh) * | 2017-07-04 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 数据处理方法及*** |
CN107967355A (zh) * | 2017-12-19 | 2018-04-27 | 金蝶软件(中国)有限公司 | 一种数据的获取方法、装置及介质 |
CN110532254A (zh) * | 2018-05-25 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 融合数据表的方法和装置 |
CN108924263A (zh) * | 2018-08-21 | 2018-11-30 | 安徽讯飞智能科技有限公司 | 一种基于终端时空数据向终端推送信息的方法 |
CN110489406A (zh) * | 2019-07-29 | 2019-11-22 | 天闻数媒科技(湖南)有限公司 | 一种基础数据清洗及同步的方法、装置及存储介质 |
CN110990473B (zh) * | 2019-11-28 | 2023-11-03 | 京东科技信息技术有限公司 | 标签数据处理***和方法 |
CN112001710A (zh) * | 2020-09-07 | 2020-11-27 | 山东钢铁集团日照有限公司 | 一种钢铁产品生产过程大数据读取整合*** |
CN112395367A (zh) * | 2020-11-10 | 2021-02-23 | 中国人寿保险股份有限公司 | 一种数据库数据处理方法及装置 |
CN113783834B (zh) * | 2021-07-29 | 2023-04-18 | 深圳思为科技有限公司 | 一种整合兼容多种登录方式中冗余数据的方法及相关装置 |
CN113822745A (zh) * | 2021-09-28 | 2021-12-21 | 北京沃东天骏信息技术有限公司 | 一种物品展示方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901252A (zh) * | 2010-06-23 | 2010-12-01 | 中兴通讯股份有限公司 | 一种整合多个网站中同一用户数据的方法及整合平台 |
CN1975772B (zh) * | 2006-12-22 | 2012-07-04 | 中国建设银行股份有限公司 | 整合多个***中的信息的方法和装置 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN104270386A (zh) * | 2014-10-22 | 2015-01-07 | 中国建设银行股份有限公司 | 跨应用***用户信息整合方法及身份信息管理服务器 |
CN104572946A (zh) * | 2014-12-30 | 2015-04-29 | 小米科技有限责任公司 | 黄页数据处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029207A1 (en) * | 2000-02-28 | 2002-03-07 | Hyperroll, Inc. | Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein |
-
2015
- 2015-08-07 CN CN201510482987.XA patent/CN105045904B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975772B (zh) * | 2006-12-22 | 2012-07-04 | 中国建设银行股份有限公司 | 整合多个***中的信息的方法和装置 |
CN101901252A (zh) * | 2010-06-23 | 2010-12-01 | 中兴通讯股份有限公司 | 一种整合多个网站中同一用户数据的方法及整合平台 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN104270386A (zh) * | 2014-10-22 | 2015-01-07 | 中国建设银行股份有限公司 | 跨应用***用户信息整合方法及身份信息管理服务器 |
CN104572946A (zh) * | 2014-12-30 | 2015-04-29 | 小米科技有限责任公司 | 黄页数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105045904A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045904B (zh) | 一种基于数据仓库的用户数据整合方法及*** | |
CN105335409B (zh) | 一种目标用户的确定方法、设备和网络服务器 | |
CN101859425A (zh) | 一种提供应用列表的方法及装置 | |
CN107918618B (zh) | 数据处理方法及装置 | |
CN109726388A (zh) | Pdf文件解析方法、装置、设备及计算机可读存储介质 | |
CN107515915A (zh) | 基于用户行为数据的用户标识关联方法 | |
CN102421062A (zh) | 应用信息推送方法和*** | |
CN112307297B (zh) | 一种基于优先级规则的用户标识统一方法及*** | |
CN103765421A (zh) | 内容控制方法、内容控制装置以及程序 | |
CN107092609A (zh) | 一种信息推送方法及装置 | |
CN113312265A (zh) | 测试用例的应用方法及相关产品 | |
CN107729330B (zh) | 获取数据集的方法和装置 | |
CN107977445A (zh) | 应用程序推荐方法及装置 | |
CN108009223B (zh) | 一种交易数据的一致性检测方法及装置 | |
CN112749173A (zh) | 更新对象的方法和装置 | |
CN112258244B (zh) | 确定目标物品所属任务的方法、装置、设备及存储介质 | |
CN106503198A (zh) | 一种基于hadoop元数据的冷数据识别方法及*** | |
CN103020189A (zh) | 数据处理装置和数据处理方法 | |
CN116228374A (zh) | 物流行业市场单量数据预警方法、装置、设备及存储介质 | |
CN108021588B (zh) | 一种面向电子商务的用户首次购数据整合方法及装置 | |
CN108268545B (zh) | 一种分级的用户标签库的创建的方法和装置 | |
CN108572997B (zh) | 一种具有网络属性的多源数据的整合存储***及方法 | |
CN108062379B (zh) | 数据处理方法、平台、装置和计算机可读存储介质 | |
CN110750695A (zh) | 信用数据的处理方法及计算机可读存储介质 | |
CN106919626B (zh) | 数据处理方法和装置以及数据查询方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |