发明内容
本发明实施例所要解决的技术问题在于,提供一种数据归一化方法、装置、设备及可读存储介质,能够对获取到的不同类型数据进行数据归一化处理,从而提高用户偏好分析结果的准确性和可靠性。
为了解决上述技术问题,本发明实施例提供了一种数据归一化方法,包括:
从若干个数据通道获取用户行为数据;
按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;
对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式;
采用所述相应的数据归一化方式对相应类别的用户行为子数据进行数据归一化处理,以得到用于进行用户偏好分析的用户行为数据集合。
进一步地,所述按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据,具体为:
根据预设的数据类型分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;或,
根据所述用户行为数据的获取渠道对所述用户行为数据进行分类,得到若干类别的用户行为子数据。
进一步地,所述对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式,具体包括:
对每一类别的用户行为子数据进行特征分析,计算所述用户行为子数据的特征参数;其中,所述特征参数包括平均值、标准差;
根据所述特征参数判断该类别的用户行为子数据是否符合预设的数据归一化条件;
若是,则根据该类别的用户行为子数据的特征参数匹配相应的数据归一化方式;
若否,则将该类别的用户行为子数据添加至所述用户行为数据集合中。
进一步地,所述数据归一化方式包括最大最小标准化方式、Z-score标准化方式、非线性归一化方式。
为了解决相同的技术问题,本发明还提供了一种数据归一化装置,包括:
数据获取模块,用于从若干个数据通道获取用户行为数据;
数据分类模块,用于按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;
方式匹配模块,用于对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式;
归一化模块,用于采用所述相应的数据归一化方式对相应类别的用户行为子数据进行数据归一化处理,以得到用于进行用户偏好分析的用户行为数据集合。
进一步地,所述数据分类模块具体用于:
根据预设的数据类型分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;或,
根据所述用户行为数据的获取渠道对所述用户行为数据进行分类,得到若干类别的用户行为子数据。
进一步地,所述方式匹配模块具体包括:
特征分析单元,用于对每一类别的用户行为子数据进行特征分析,计算所述用户行为子数据的特征参数;其中,所述特征参数包括平均值、标准差;
数据判断单元,用于根据所述特征参数判断该类别的用户行为子数据是否符合预设的数据归一化条件;
方式匹配单元,用于根据该类别的用户行为子数据的特征参数匹配相应的数据归一化方式;
数据添加单元,用于将该类别的用户行为子数据添加至所述用户行为数据集合中。
进一步地,所述数据归一化方式包括最大最小标准化方式、Z-score标准化方式、非线性归一化方式。
为了解决相同的技术问题,本发明还提供了一种数据归一化终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现任一项所述的数据归一化方法。
为了解决相同的技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的数据归一化方法。
与现有技术相比,本发明具有如下有益效果:
本发明实施例提供了一种数据归一化方法、装置、设备及可读存储介质,所述方法包括:从若干个数据通道获取用户行为数据;按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式;采用所述相应的数据归一化方式对相应类别的用户行为子数据进行数据归一化处理,以得到用于进行用户偏好分析的用户行为数据集合。本发明通过根据获取的用户数据进行特征分析并匹配相应的数据归一化方式进行归一化处理,能够将不同类型的用户数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据以用于进行用户偏好分析,从而有效提升用户偏好分析结果的准确性和可靠性。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明实施例提供了一种数据归一化方法,包括步骤:
S1、从若干个数据通道获取用户行为数据。
该步骤用于从若干个数据通道获取用户行为数据。作为举例,可以是对某用户在不同软件平台上的用户行为数据进行获取,这些用户行为数据包括但不限于商品浏览量、购买量、评论信息、广告点击率、页面停留时间等;获取这些用户行为数据的渠道可以是同一注册用户下的各大交易网站、社交平台、娱乐应用等。
S2、按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据。
在本发明实施例中,进一步地,步骤S2具体为:
根据预设的数据类型分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;或,
根据所述用户行为数据的获取渠道对所述用户行为数据进行分类,得到若干类别的用户行为子数据。
在本发明实施例中,需要说明的是,步骤S2为根据预设的分类规则对用户行为数据进行分类,可以是按照数据类型进行分类,也可以是按照数据获取的渠道进行分类。例如,可以设定为将用户行为数据的获取渠道分为若干种类,从同一种类的获取渠道所获取到的用户行为数据统一归为该类别的子数据。也可以设定为按照数据的类型进行分类,例如将数据划分一定的阈值范围,落在某一范围内的数据归为一类子数据。
S3、对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式。进一步地,所述数据归一化方式包括最大最小标准化方式、Z-score标准化方式、非线性归一化方式。
在本发明实施例中,进一步地,步骤S3具体包括:
对每一类别的用户行为子数据进行特征分析,计算所述用户行为子数据的特征参数;其中,所述特征参数包括平均值、标准差;
根据所述特征参数判断该类别的用户行为子数据是否符合预设的数据归一化条件;
若是,则根据该类别的用户行为子数据的特征参数匹配相应的数据归一化方式;
若否,则将该类别的用户行为子数据添加至所述用户行为数据集合中。
步骤S3为对用户行为子数据进行特征分析并匹配相应的数据归一化方式。在本发明实施例中,首先对用户行为子数据进行特征分析,计算用户行为子数据的相关参数,包括但不限于数据的平均值、标准差等;然后通过设定的策略,可以选择不对该类别的子数据进行数据归一化,若需要进行数据归一化,则根据数据的特征参数按预设的策略匹配相应的数据归一化方式,包括但不限于最大最小标准化方式、Z-score标准化方式、非线性归一化方式等。
S4、采用所述相应的数据归一化方式对相应类别的用户行为子数据进行数据归一化处理,以得到用于进行用户偏好分析的用户行为数据集合。
步骤S4为使用匹配到的数据归一化方式对相应的用户行为子数据进行数据归一化,并使用归一化后的数据作为用于进行用户偏好分析的数据。
本发明通过根据获取的用户数据进行特征分析并匹配相应的数据归一化方式进行归一化处理,能够将不同类型的用户数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据以用于进行用户偏好分析,从而有效提升用户偏好分析结果的准确性和可靠性。
在多数据混合计算中,由于各数据的性质不同,通常具有不同的量纲和数量级。为了保证计算结果的可靠性,需要对原始数据进行标准化处理。数据标准化(归一化)处理是数据挖掘的一项基础工作,不同类型数据往往具有不同的标准和不同的量纲,这样的情况会影响到数据分析的结果,为了消除数据之间的量纲影响,需要进行数据标准化处理,以解决数据之间的可比性。
数据归一化就是将不同量纲样本的数据,经过变换,使各指标处于同一数量级,适合进行综合对比计算。归一化就是要把需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,使数值的绝对值变成某种相对值关系。首先归一化是为了后面数据处理的方便,其次是保正数据的标准化,使之处于同一标准进行分析。数据无量纲化处理主要解决用户行为数据的可比性,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的数据能够进行比较和加权。数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
需要说明的是,对于以上方法或流程实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。
请参加图2,为了解决相同的技术问题,本发明还提供了一种数据归一化装置,包括:
数据获取模块1,用于从若干个数据通道获取用户行为数据;
数据分类模块2,用于按照预设的分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;
方式匹配模块3,用于对每一类别的用户行为子数据进行特征分析,并根据所述特征分析的结果为每一类别的用户行为子数据匹配相应的数据归一化方式;
归一化模块4,用于采用所述相应的数据归一化方式对相应类别的用户行为子数据进行数据归一化处理,以得到用于进行用户偏好分析的用户行为数据集合。
进一步地,所述数据分类模块2具体用于:
根据预设的数据类型分类规则对所述用户行为数据进行分类,得到若干类别的用户行为子数据;或,
根据所述用户行为数据的获取渠道对所述用户行为数据进行分类,得到若干类别的用户行为子数据。
进一步地,所述方式匹配模块3具体包括:
特征分析单元,用于对每一类别的用户行为子数据进行特征分析,计算所述用户行为子数据的特征参数;其中,所述特征参数包括平均值、标准差;
数据判断单元,用于根据所述特征参数判断该类别的用户行为子数据是否符合预设的数据归一化条件;
方式匹配单元,用于根据该类别的用户行为子数据的特征参数匹配相应的数据归一化方式;
数据添加单元,用于将该类别的用户行为子数据添加至所述用户行为数据集合中。
进一步地,所述数据归一化方式包括最大最小标准化方式、Z-score标准化方式、非线性归一化方式。
可以理解的是上述装置项实施例,是与本发明方法项实施例相对应的,本发明实施例提供的一种数据归一化装置,可以实现本发明任意一项方法项实施例提供的数据归一化方法。
为了解决相同的技术问题,本发明还提供了一种数据归一化终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述存储器与所述处理器耦接,且所述处理器执行所述计算机程序时,实现任一项所述的数据归一化方法。
所述数据归一化终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述数据归一化终端设备的控制中心,利用各种接口和线路连接整个数据归一化终端设备的各个部分。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
为了解决相同的技术问题,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在的设备执行任一项所述的数据归一化方法。
所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。