CN111274462A - 数据的处理方法和装置 - Google Patents
数据的处理方法和装置 Download PDFInfo
- Publication number
- CN111274462A CN111274462A CN202010049536.8A CN202010049536A CN111274462A CN 111274462 A CN111274462 A CN 111274462A CN 202010049536 A CN202010049536 A CN 202010049536A CN 111274462 A CN111274462 A CN 111274462A
- Authority
- CN
- China
- Prior art keywords
- behavior information
- behavior
- target object
- time periods
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000002650 habitual effect Effects 0.000 claims abstract description 13
- 230000003993 interaction Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 8
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据的处理方法和装置。其中,该方法包括:获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串;对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量;通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。本发明解决了现有技术中在数据量较小的情况难以准确的分析出用户的行为习惯的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据的处理方法和装置。
背景技术
随着时间的推移,人们越来越意识到数据的重要性。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。例如,可以通过大数据分析对用户的行为习惯进行分析,目前通常是基于用户的各项行为的频次来进行,但针对单一的用户,或数据较少的群体用户,根据频次得到的行为习惯并不准确。
针对现有技术中在数据量较小的情况难以准确的分析出用户的行为习惯的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据的处理方法和装置,以至少解决现有技术中在数据量较小的情况难以准确的分析出用户的行为习惯的技术问题。
根据本发明实施例的一个方面,提供了一种数据的处理方法,包括:获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串;对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量;通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。
进一步地,获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串,包括:获取目标对象在预设时间范围内的行为信息,其中,预设时间范围包括多个时间周期;将属于同一个时间周期的行为信息按照行为信息的执行时间连接,得到多个连接结果;对连接结果进行分割,得到每个时间周期内的行为信息串。
进一步地,对连接结果进行分割,得到每个时间周期内的行为信息串,包括:获取两个相邻的行为信息之间的时间差;如果时间差大于预设时间长度,将两个相邻的行为信息进行分割。
进一步地,在对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量之前,确定行为信息串中起始行为信息的执行时间所属的时间段为行为信息串所属的时间段;对每个时间段内的行为信息串进行对齐补全处理,使同一个时间段内的行为信息串具有相同的维度。
进一步地,对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量,包括:获取每个时间段内的行为信息串中,每个行为信息对应的行为数据,其中,行为数据包括如下至少一项:行为信息的标识、交互数据以及与下一个行为信息的时间间隔;以行为数据代替行为信息,构成目标对象在多个不同时间段内的行为向量。
进一步地,通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息,包括:对同一个时间段内的行为向量进行聚类,得到每个时间段对应的聚类中心;选择多个距离聚类中心的距离小于预设距离的候选向量;获取所选择的候选向量的均值,得到均值向量;将均值向量中每一项所表示的行为数据转换为行为信息,得到目标对象在多个不同时间段内的习惯行为信息。
进一步地,在获取目标对象在预设时间范围内的行为信息之后,方法还包括:剔除出现频率低于预设频率的行为信息。
进一步地,行为信息包括目标对象与家用电器之间的语音交互行为信息。
根据本发明实施例的一个方面,提供了一种数据的处理装置,包括:获取模块,用于获取目标对象的行为信息,并基于所述行为信息的执行时间构成多个行为信息串;处理模块,用于对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量;确定模块,用于通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。
根据本发明实施例的一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述数据的处理方法。
根据本发明实施例的一个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的数据的处理方法。
在本发明实施例中,获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串;对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量;通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。上述方案在数据量有限的情况下,对不同时间段的行为信息进行向量化处理,并对向量化处理得到的不同时间段的行为向量进行聚类分析,从而得到不同时间段内用户的行为习惯,解决了现有技术中在数据量较小的情况难以准确的分析出用户的行为习惯的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据的处理方法的流程图;
图2是根据本发明实施例的一种对行为信息串进行对齐补全的示意图;
图3是根据本发明实施例第一种对行为信息串进行向量化处理的示意图;
图4是根据本发明实施例的一种确定行为信息串的示意图;
图5是根据本发明实施例的一种获取用户习惯行为信息的示意图;以及
图6是根据本发明实施例的一种数据的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的数据的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串。
具体的,上述目标对象是需要对其行为进行分析的用户,可以是一个用户,也可以是允许共同操作同一家电设备的多个用户,例如家庭中的多个人。上述行为信息是用户与家电设备之间的交互行为,例如用户向家电设备发出的控制指令等,可以是语音交互行为、手势交互行为、远程控制行为、触发按键行为等。将行为信息按照执行的时间顺序进行连接,即可得到行为信息串。
在一种可选的实施例中,以空调为例,采集用户对空调进行操作时的行为信息,将每天的行为信息按照执行的时间顺序连接,即可构成每天对应的行为信息串。
步骤S104,对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量。
在一种可选的实施中,可以将一天作为一个周期,将一天划分为24个时间段,每一个小时作为一个时间段。
首先可以先将行为信息串映射在时间段中,例如,确定行为信息串中第一个行为信息的执行时间所属的时间段为该行为信息串所属的时间段。在确定每个时间段所包含的行为信息串后,对每个时间段内的行为信息串进行向量化处理,即可得到每个时间段内的行为向量。
在将行为信息串进行向量化处理时,可以是将行为信息的名称通过word2vec等方式转换为词向量,从而得到行为信息串对应的行为向量,也可以是将行为信息串中的行为信息通过对应的预设数值来表示,从而构成信息串对应的行为向量。
步骤S160,通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。
在确定不同的时间段对应的行为向量后,通过对行为向量进行聚类,即可得到用户在每个时间段内的习惯行为信息对应的习惯行为向量,再对习惯行为向量进行转换,即可得到用户在每个时间段内的习惯行为信息对应的习惯行为信息。
在得到用户在每个时间段内的习惯行为信息后,可以基于该习惯行为信息对家电设备进行智能化控制。在一种可选的实施例中,得到用户在13:00至14:00的习惯行为信息为:开机——设置为23摄氏度——上下扫风,则用户可以在13:00时自动执行上述动作串,或提示用户是否执行上述动作串,从而实现根据用户习惯进行智能控制的目的。
由上可知,本申请上述实施例获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串;对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量;通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。上述方案在数据量有限的情况下,对不同时间段的行为信息进行向量化处理,并对向量化处理得到的不同时间段的行为向量进行聚类分析,从而得到不同时间段内用户的行为习惯,解决了现有技术中在数据量较小的情况难以准确的分析出用户的行为习惯的问题。
作为一种可选的实施例,获取目标对象的行为信息,并基于行为信息的执行时间构成多个行为信息串,包括:获取目标对象在预设时间范围内的行为信息,其中,预设时间范围包括多个时间周期;将属于同一个时间周期的行为信息按照行为信息的执行时间连接,得到多个连接结果;对连接结果进行分割,得到每个时间周期内的行为信息串。
具体的,上述预设时间范围可以为距离当前时间最近的一个月、二个月等,时间周期可以为一天。
在一种可选的实施例中,以空调为例进行说明,可以获取距离当前时间最近的一个月内与空调进行交互的所有行为信息,并将每天内的行为信息进行连接,得到一个月中每天的行为信息的连接结果,然后再对每天的连接结果进行分割,具体的分割方式可以为,当两个执行时间相邻的行为信息之间的时间差大于预设时间长度,则将两个相邻的行为信息进行分割,从而可以得到一天内的多段行为信息串。
作为一种可选的实施例,对连接结果进行分割,得到每个时间周期内的行为信息串,包括:获取两个相邻的行为信息之间的时间差;如果时间差大于预设时间长度,将两个相邻的行为信息进行分割。
如果两个相邻的行为信息之间的时间差大于预设时间长度,则两个相邻的行为信息可能并不属于一组操作,因此需要对其进行分割。
在一种可选的实施例中,上述预设时间长度可以是30分钟,以一天为一个时间周期,一天内的行为信息的连接结果按照间隔超过30分钟进行分割,即可得到多个行为信息串。
作为一种可选的实施例,在对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量之前,上述方法还包括:确定行为信息串中起始行为信息的执行时间所属的时间段为行为信息串所属的时间段;对每个时间段内的行为信息串进行对齐补全处理,使同一个时间段内的行为信息串具有相同的维度。
具体的,上述对齐补全用于使同一个时间段内的行为信息串具有相同的维度,具有相同的维度用于表示同一时间段内的所有行为信息串在同一位置上均为同一个行为信息或空动作。
在一种可选的实施例中,仍以时间周期为一天为例,将一天平均分为24个时间段,行为信息串中第一个行为信息的执行时间属于哪一个时间段,则确定行为信息串属于哪一个时间段。例如,对于行为信息串“开机——设置为23摄氏度——上下扫风”,开机这一动作发生在13:00至14:00之间,因此确定该行为信息串处于13:00至14:00这一时间段。
由于同一时间段内的行为信息串所包含的行为信息可能不同,因此在对行为信息串进行向量化处理前,需要对行为信息串进行对齐补全处理,以使同一个时间段内的行为信息段的维度相同。
图2是根据本发明实施例的一种对行为信息串进行对齐补全的示意图,结合图2所示,行为信息串1为:动作一——动作三——动作四,行为信息串2为:动作一——动作三——动作五,将行为信息串1和行为信息串2相同的动作进行对其,不同的部分补充空动作,从而得到图2所示出的结果,济宁对齐补全后,行为信息串1为:动作一——动作三——动作四——空动作,行为信息串2为:动作一——动作三——空动作——动作五。
图2仅示出了两个行为信息串进行对齐补全的示例,实际同一个时间段内包括的行为信息串的数量往往大于两个,因此在进行对齐补全时,可以是同时对同一时间段内的所有行为信息串进行对齐补全,也可以是从中找到最长的行为信息串,以该最长的行为信息串分别于其他的行为信息串进行对齐补全。
作为一种可选的实施例,对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量,包括:获取每个时间段内的行为信息串中,每个行为信息对应的行为数据,其中,行为数据包括如下至少一项:行为信息的标识、交互数据以及与下一个行为信息的时间间隔;以行为数据代替行为信息,构成目标对象在多个不同时间段内的行为向量。
具体的,上述行为信息对应的行为数据可以为一个或多个,将行为信息替换为其对应的行为数据,即可得到行为信息串对应的行为向量。
上述行为信息的标识可以为预设的动作编号,例如,开机对应01、调温对应02、关机对应00等;交互数据用于表示动作持续时间或动作的具体交互数值,例如,动作持续了1小时,交互数据则为1小时,将温度调整为23摄氏度,交互数据则为23。
在一种可选的实施例中,在行为数据包含上述三个参数的情况下,将图2中对齐补全后的行为信息串1向量化后得到[动作一编号,交互数据,时间间隔,动作三编号,交互数据,时间间隔,动作四编号,交互数据,时间间隔,空动作编号,交互数据]。需要说明的是,空动作的交互数据为0,且空动作与其他动作之间的时间间隔也为0。
图3是根据本发明实施例第一种对行为信息串进行向量化处理的示意图,结合图3所示,对于行为信息串中的每一个行为信息(即上述动作),可以通过三个数值来表示,分别为行为信息的标识、交互数据以及时间间隔,其中,交互数据可以为动作持续时间或交互数值。
作为一种可选的实施例,通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息,包括:对同一个时间段内的行为向量进行聚类,得到每个时间段对应的聚类中心;选择多个距离聚类中心的距离小于预设距离的候选向量;获取所选择的候选向量的均值,得到均值向量;将均值向量中每一项所表示的行为数据转换为行为信息,得到目标对象在多个不同时间段内的习惯行为信息。
具体的,在进行聚类时,可以使用均值漂移聚类法进行,从而得到聚类中心。再以聚类中心作为圆心,设置预设半径得到以聚类中心为圆心的圆,从该圆中采集多个点,即为上述的候选向量,分别求取候选向量中每一项的均值,从而构成了均值向量,再以相同的转换方式将均值向量转换为行为信息,即可以得到用户在多个时间段的习惯行为信息。
在一种可选的实施中,对同一时间段的行为向量进行均值漂移聚类,选取最大一类的聚簇点,并选择举例聚簇点一定距离内的点作为初始向量,将这些初始向量中的同一位置的每一项进行相加后,除以所有初始向量中该位置上非零元素的个数,即得到上述均值向量,再将均值向量转换成为行为信息串,该行为信息串即为用户常使用的交互路径。
作为一种可选的实施例,在获取目标对象在预设时间范围内的行为信息之后,上述方法还包括:剔除出现频率低于预设频率的行为信息。
具体的,出现频率低于预设频率的行为信息通常为用户不常用的行为信息,参考价值较低且会增加运算的复杂程度,因此上述方案中,剔除出现频率低于预设频率的行为信息,从而降低运算的复杂程度。
图4是根据本发明实施例的一种确定行为信息串的示意图,结合图4所示,获取交互动作(即上述行为信息),根据交互动作出现的频率剔除频率低于预设频率的交互动作,根据时间周期构连接交互动作,并根据时间间隔将连接结果进行分割,得到多个交互路径(即上述行为信息串)。
作为一种可选的实施例,行为信息包括目标对象与家用电器之间的语音交互行为信息。
上述方案中,行为信息包括目标对象与家用电器之间的语音交互行为信息,因此最终得到的习惯行为信息为用户的语音习惯行为信息,从而得到了用户与家电设备进行语音交互时的行为习惯。
图5是根据本发明实施例的一种获取用户习惯行为信息的示意图,结合图5所示,首先根据时间间隔分割出交互路径(即上述行为信息串),对交互路径进行对齐补全,对交互路径进行向量化处理,并对向量化处理得到的向量进行均值漂移聚类,得到聚簇点,选取与聚簇点在一定距离内的点,对选取的点对应的向量进行处理(求取选取的点对应的向量的均值,并转换为对应的交互路径),从而得到用户常用的交互路径。
实施例2
根据本发明实施例,提供了一种数据的处理装置的实施例,图6是根据本发明实施例的一种数据的处理装置的示意图,如图6所示,该装置包括:
获取模块60,用于获取目标对象的行为信息,并基于所述行为信息的执行时间构成多个行为信息串。
处理模块62,用于对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量。
确定模块64,用于通过对目标对象在多个不同时间段的行为向量进行聚类,确定目标对象在多个不同时间段内的习惯行为信息。
作为一种可选的实施例,获取模块包括:第一获取子模块,用于获取目标对象在预设时间范围内的行为信息,其中,预设时间范围包括多个时间周期;连接子模块,用于将属于同一个时间周期的行为信息按照行为信息的执行时间连接,得到多个连接结果;分割子模块,用于对连接结果进行分割,得到每个时间周期内的行为信息串。
作为一种可选的实施例,分割子模块包括:获取单元,用于获取两个相邻的行为信息之间的时间差;分割单元,用于如果时间差大于预设时间长度,将两个相邻的行为信息进行分割。
作为一种可选的实施例,上述装置还包括:确定模块,用于在对行为信息串进行向量化处理,得到目标对象在多个不同时间段内的行为向量之前,确定行为信息串中起始行为信息的执行时间所属的时间段为行为信息串所属的时间段;处理模块,用于对每个时间段内的行为信息串进行对齐补全处理,使同一个时间段内的行为信息串具有相同的维度。
作为一种可选的实施例,处理模块包括:第二获取子模块,用于获取每个时间段内的行为信息串中,每个行为信息对应的行为数据,其中,行为数据包括如下至少一项:行为信息的标识、交互数据以及与下一个行为信息的时间间隔;构成模块,用于以行为数据代替行为信息,构成目标对象在多个不同时间段内的行为向量。
作为一种可选的实施例,确定模块包括:聚类子模块,用于对同一个时间段内的行为向量进行聚类,得到每个时间段对应的聚类中心;选择子模块,用于选择多个距离聚类中心的距离小于预设距离的候选向量;第三获取子模块,用于获取所选择的候选向量的均值,得到均值向量;转换子模块,用于将均值向量中每一项所表示的行为数据转换为行为信息,得到目标对象在多个不同时间段内的习惯行为信息。
作为一种可选的实施例,上述装置还包括:剔除模块,用于在获取目标对象在预设时间范围内的行为信息之后,剔除出现频率低于预设频率的行为信息。
作为一种可选的实施例,行为信息包括目标对象与家用电器之间的语音交互行为信息。
实施例3
根据本发明实施例,提供了一种存储介质,存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行实施例1所述的数据的处理方法。
实施例4
根据本发明实施例,提供了一种处理器,处理器用于运行程序,其中,所述程序运行时执行实施例1所述的数据的处理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种数据的处理方法,其特征在于,包括:
获取目标对象的行为信息,并基于所述行为信息的执行时间构成多个行为信息串;
对所述行为信息串进行向量化处理,得到所述目标对象在多个不同时间段内的行为向量;
通过对所述目标对象在所述多个不同时间段的行为向量进行聚类,确定所述目标对象在所述多个不同时间段内的习惯行为信息。
2.根据权利要求1所述的方法,其特征在于,获取目标对象的行为信息,并基于所述行为信息的执行时间构成多个行为信息串,包括:
获取所述目标对象在预设时间范围内的行为信息,其中,所述预设时间范围包括多个时间周期;
将属于同一个时间周期的行为信息按照所述行为信息的执行时间连接,得到多个连接结果;
对所述连接结果进行分割,得到每个时间周期内的行为信息串。
3.根据权利要求2所述的方法,其特征在于,对所述连接结果进行分割,得到每个时间周期内的行为信息串,包括:
获取两个相邻的行为信息之间的时间差;
如果所述时间差大于预设时间长度,将所述两个相邻的行为信息进行分割。
4.根据权利要求1所述的方法,其特征在于,在对所述行为信息串进行向量化处理,得到所述目标对象在多个不同时间段内的行为向量之前,所述方法还包括:
确定所述行为信息串中起始行为信息的执行时间所属的时间段为所述行为信息串所属的时间段;
对每个时间段内的行为信息串进行对齐补全处理,使同一个时间段内的行为信息串具有相同的维度。
5.根据权利要求4所述的方法,其特征在于,对所述行为信息串进行向量化处理,得到所述目标对象在多个不同时间段内的行为向量,包括:
获取每个时间段内的行为信息串中,每个行为信息对应的行为数据,其中,所述行为数据包括如下至少一项:所述行为信息的标识、交互数据以及与下一个行为信息的时间间隔;
以所述行为数据代替所述行为信息,构成目标对象在多个不同时间段内的行为向量。
6.根据权利要求1所述的方法,其特征在于,通过对所述目标对象在所述多个不同时间段的行为向量进行聚类,确定所述目标对象在所述多个不同时间段内的习惯行为信息,包括:
对同一个时间段内的行为向量进行聚类,得到每个时间段对应的聚类中心;
选择多个距离所述聚类中心的距离小于预设距离的候选向量;
获取所选择的所述候选向量的均值,得到均值向量;
将所述均值向量中每一项所表示的行为数据转换为行为信息,得到所述目标对象在多个所述不同时间段内的习惯行为信息。
7.根据权利要求2所述的方法,其特征在于,在获取所述目标对象在预设时间范围内的行为信息之后,所述方法还包括:剔除出现频率低于预设频率的行为信息。
8.根据权利要求1所述的方法,其特征在于,所述行为信息包括所述目标对象与家用电器之间的语音交互行为信息。
9.一种数据的处理装置,其特征在于,包括:
获取模块,用于获取目标对象的行为信息,并基于所述行为信息的执行时间构成多个行为信息串;
处理模块,用于对所述行为信息串进行向量化处理,得到所述目标对象在多个不同时间段内的行为向量;
确定模块,用于通过对所述目标对象在所述多个不同时间段的行为向量进行聚类,确定所述目标对象在所述多个不同时间段内的习惯行为信息。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至8中任意一项所述数据的处理方法。
11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的数据的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049536.8A CN111274462A (zh) | 2020-01-16 | 2020-01-16 | 数据的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010049536.8A CN111274462A (zh) | 2020-01-16 | 2020-01-16 | 数据的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274462A true CN111274462A (zh) | 2020-06-12 |
Family
ID=71000944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010049536.8A Pending CN111274462A (zh) | 2020-01-16 | 2020-01-16 | 数据的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274462A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112057079A (zh) * | 2020-08-07 | 2020-12-11 | 中国科学院深圳先进技术研究院 | 一种基于状态与图谱的行为量化方法和终端 |
CN112883257A (zh) * | 2021-01-11 | 2021-06-01 | 北京达佳互联信息技术有限公司 | 行为序列数据处理方法、装置、电子设备及存储介质 |
WO2022027590A1 (zh) * | 2020-08-07 | 2022-02-10 | 中国科学院深圳先进技术研究院 | 一种基于状态与图谱的行为量化方法和终端 |
CN115204322A (zh) * | 2022-09-16 | 2022-10-18 | 成都新希望金融信息有限公司 | 行为链路异常识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
CN108470034A (zh) * | 2018-02-01 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 一种智能设备服务提供方法及*** |
CN109933502A (zh) * | 2019-01-23 | 2019-06-25 | 平安科技(深圳)有限公司 | 电子装置、用户操作记录的处理方法和存储介质 |
-
2020
- 2020-01-16 CN CN202010049536.8A patent/CN111274462A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107426177A (zh) * | 2017-06-13 | 2017-12-01 | 努比亚技术有限公司 | 一种用户行为聚类分析方法及终端、计算机可读存储介质 |
CN108470034A (zh) * | 2018-02-01 | 2018-08-31 | 百度在线网络技术(北京)有限公司 | 一种智能设备服务提供方法及*** |
CN109933502A (zh) * | 2019-01-23 | 2019-06-25 | 平安科技(深圳)有限公司 | 电子装置、用户操作记录的处理方法和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112057079A (zh) * | 2020-08-07 | 2020-12-11 | 中国科学院深圳先进技术研究院 | 一种基于状态与图谱的行为量化方法和终端 |
WO2022027590A1 (zh) * | 2020-08-07 | 2022-02-10 | 中国科学院深圳先进技术研究院 | 一种基于状态与图谱的行为量化方法和终端 |
CN112883257A (zh) * | 2021-01-11 | 2021-06-01 | 北京达佳互联信息技术有限公司 | 行为序列数据处理方法、装置、电子设备及存储介质 |
WO2022148186A1 (zh) * | 2021-01-11 | 2022-07-14 | 北京达佳互联信息技术有限公司 | 行为序列数据处理方法及装置 |
CN112883257B (zh) * | 2021-01-11 | 2024-01-05 | 北京达佳互联信息技术有限公司 | 行为序列数据处理方法、装置、电子设备及存储介质 |
CN115204322A (zh) * | 2022-09-16 | 2022-10-18 | 成都新希望金融信息有限公司 | 行为链路异常识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274462A (zh) | 数据的处理方法和装置 | |
CN109118330B (zh) | 一种家电推荐方法、装置、存储介质及服务器 | |
CN110738577B (zh) | 社区发现方法、装置、计算机设备和存储介质 | |
EP3037983A1 (en) | Data processing system, data processing method, and data processing device | |
CN106682213A (zh) | 基于Hadoop平台的物联网任务订制方法及*** | |
CN103106285A (zh) | 一种基于信息安全专业社交网络平台的推荐算法 | |
CN107894827B (zh) | 应用清理方法、装置、存储介质及电子设备 | |
CN106294219A (zh) | 一种设备识别、数据处理方法、装置及*** | |
CN112100402A (zh) | 一种电网知识图谱构建方法及装置 | |
CN114880560A (zh) | 内容的推荐方法和装置、存储介质及电子装置 | |
CN114855416A (zh) | 洗涤程序的推荐方法及装置、存储介质及电子装置 | |
CN114697150A (zh) | 命令的下发方法和装置、存储介质及电子装置 | |
CN112905937A (zh) | 基于大数据的服务内容更新生成方法及云端计算服务*** | |
CN114223139B (zh) | 界面切换方法、装置、可穿戴电子设备及存储介质 | |
CN108923426B (zh) | 一种负荷识别方法、装置、设备及计算机可读存储介质 | |
CN115510289B (zh) | 一种数据立方体配置方法、装置、电子设备及存储介质 | |
CN115599260A (zh) | 智能场景的生成方法、装置、***、存储介质及电子装置 | |
CN111669654B (zh) | 节目推荐方法、装置、电子设备及可读存储介质 | |
CN110750561A (zh) | 一种关联应用程序挖掘的方法及装置 | |
CN114864046A (zh) | 信息的推送方法和装置、存储介质及电子装置 | |
CN114943273A (zh) | 数据处理方法、存储介质以及计算机终端 | |
CN111580839B (zh) | 电器设备的升级方法及装置 | |
CN110427558B (zh) | 资源处理事件的推送方法及装置 | |
CN111107493B (zh) | 一种移动用户位置预测方法与*** | |
CN105160024A (zh) | 一种大数据用电分析的***和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |