CN117932311A

CN117932311A - 基于5g网络的智能上网终端的用户智能识别方法

Info

Publication number: CN117932311A
Application number: CN202410329440.5A
Authority: CN
Inventors: 王鹏; 章泽锋; 朱贤超; 胡逸鸥; 夏钰凇
Original assignee: Hangzhou Kedang Technology Co ltd
Current assignee: Hangzhou Kedang Technology Co ltd
Priority date: 2024-03-21
Filing date: 2024-03-21
Publication date: 2024-04-26
Anticipated expiration: 2044-03-21
Also published as: CN117932311B

Abstract

本发明涉及用户智能识别技术领域，具体涉及基于5G网络的智能上网终端的用户智能识别方法，该方法包括：采集用户特征数据；将采集周期内所有的用户特征数据进行聚类，将聚类簇的数量记为用户数量；根据各用户聚类簇内用户特征数据中每个特征的差异构建每个特征的显著性；根据用户特征数据之间的距离以及每个特征的重要性的聚类结果得到每个特征的特征修正显著性，筛选出重要特征；根据重要特征对当日与历史采集的用户特征数据进行聚类，识别当日用户特征数据的操作用户。本发明旨在降低用户特征数据的维度，提高基于用户特征的精准识别。

Description

基于5G网络的智能上网终端的用户智能识别方法

技术领域

本申请涉及用户智能识别技术领域，具体涉及基于5G网络的智能上网终端的用户智能识别方法。

背景技术

智能上网终端，例如智能手机、智能电视、智能家居设备以及各类联网的个人计算机等，在当今数字化社会中扮演着至关重要的角色。随着互联网技术的飞速发展和物联网的广泛应用，用户在使用这些终端时的安全与个性化体验需求日益增长，这就催生了对高效、准确且安全的用户智能识别方法的需求。在根据其它信息进行用户识别，比如手机锁屏密码、指纹信息登陆，均有可能被泄露仿造，而用户行为习惯是比上述更难模仿的，故可以通过分析用户行为习惯等信息作为终端用户进一步识别的识别方法。

在根据用户行为进行识别时，使用FCM对所得数据进行聚类，由于聚类参数维度过多，可能导致聚类结果的不准确，进而导致用户识别的不准确，故需要对所得数据进行特征筛选，以避免上述问题的发生。

发明内容

为了解决上述技术问题，本发明提供基于5G网络的智能上网终端的用户智能识别方法，以解决现有的问题。

本发明的基于5G网络的智能上网终端的用户智能识别方法采用如下技术方案：

本发明一个实施例提供了基于5G网络的智能上网终端的用户智能识别方法，该方法包括以下步骤：

采集用户特征数据；将采集周期内所有的用户特征数据进行聚类，将聚类簇的数量记为用户数量；

根据各用户聚类簇内用户特征数据中每个特征的差异构建各用户每个特征的簇内波动性；根据各用户每个特征的簇内波动性以及特征之间的数值差异构建各用户任意两个特征之间的差异性；根据各用户任意两个特征之间的差异性以及各用户每个特征的簇内波动性构建各用户每个特征的重要性；根据所有任意两个用户在每个特征之间的重要性差异构建每个特征的显著性；

根据用户特征数据之间的距离构建每个特征的特征识别必要性；根据每个特征的特征识别必要性以及每个特征的重要性的聚类结果构建每个特征的特征修正因子；根据每个特征的显著性以及特征修正因子得到每个特征的特征修正显著性；对所有特征的特征修正显著性采用大津阈值法得到大津阈值，将大于大津阈值的特征修正显著性对应的特征记为重要特征；

根据重要特征对当日与历史采集的用户特征数据进行聚类，识别当日用户特征数据的操作用户。

优选的，所述根据各用户聚类簇内用户特征数据中每个特征的差异构建各用户每个特征的簇内波动性，包括：

获取各用户对应聚类簇内所有用户特征数据在每个特征的数值均值；

对于各用户对应聚类簇内的各个用户特征数据，获取各个用户特征数据在每个特征的数值与所述数值均值的差值绝对值；获取各个用户特征数据与相邻下一个用户特征数据在每个特征的数值的差值绝对值；

将聚类簇内所有用户特征数据的两个差值绝对值的乘积的和值的归一化值，作为各用户每个特征的簇内波动性。

优选的，所述根据各用户每个特征的簇内波动性以及特征之间的数值差异构建各用户任意两个特征之间的差异性，包括：

对于各用户对应聚类簇内的各个用户特征数据，将用户特征数据中任意两个特征分别记为用户特征数据的第一特征和第二特征，计算第一特征与第二特征的数值的比值；计算各用户所有用户特征数据的第一特征的数值均值与第二特征的数值均值的比值；

计算各用户任意两个特征在所有用户特征数据的两个比值的差值绝对值的和值；获取各用户任意两个特征之间的簇内波动性的差值绝对值；将所述和值与所述差值绝对值的乘积作为各用户任意两个特征之间的差异性。

优选的，所述根据各用户任意两个特征之间的差异性以及各用户每个特征的簇内波动性构建各用户每个特征的重要性，包括：

计算各用户每个特征与剩余所有特征之间的差异性的和值；将所述和值与各用户每个特征的簇内波动性的比值作为各用户每个特征的重要性。

优选的，所述根据所有任意两个用户在每个特征之间的重要性差异构建每个特征的显著性，包括：

获取任意两个用户在每个特征之间的差异；

计算每个用户与其他所有用户在每个特征之间的差异的和值；计算每个用户每个特征的重要性与所述和值的乘积；将每个特征在所有用户的所述乘积的和值作为每个特征的显著性。

优选的，所述获取任意两个用户在每个特征之间的差异，表达式为：

其中，表示第s个用户与第d个用户在特征u之间的差异，/>表示第s个用户与第d个用户的特征u之间的重要性的差值绝对值，/>表示第s个用户与第d个用户在特征u之间的数值均值的差值绝对值，P表示特征数据种类数量，/>、/>分别表示第s个、第d个用户的特征u与特征v之间的差异性，/>、/>分别表示第s个、第d个用户的特征u与其它特征之间的平均差异性。

优选的，所述根据用户特征数据之间的距离构建每个特征的特征识别必要性，包括：

将任意两个用户的所有用户特征数据之间的平均欧式距离的倒数，作为任意两个用户之间的相似度；

将任一特征记为待分析特征，计算除去待分析特征后与未除去待分析特征的任意两个用户之间的相似度的差值绝对值，将所有任意两个用户之间的所述差值绝对值的和值作为待分析特征的特征识别必要性。

优选的，所述根据每个特征的特征识别必要性以及每个特征的重要性的聚类结果构建每个特征的特征修正因子，包括：

获取每个特征在所有用户中的最大重要性；

将每个特征在所有用户的重要性进行聚类，得到两个聚类簇；将重要性的和值最大的聚类簇记为最大聚类簇；

计算所有用户在每个特征的重要性与所述最大重要性的差值绝对值的和值；计算所述和值与所述最大重要性的乘积；计算所述乘积与所述最大聚类簇内的元素数量的比值；

将所述比值与每个特征的特征识别必要性的乘积作为每个特征的特征修正因子。

优选的，所述根据每个特征的显著性以及特征修正因子得到每个特征的特征修正显著性，包括：

计算每个特征的特征修正因子的归一化值与数字1的和值；将每个特征的显著性与所述和值的乘积作为每个特征的特征修正显著性。

优选的，所述根据重要特征对当日与历史采集的用户特征数据进行聚类，识别当日用户特征数据的操作用户，包括：

将当日与历史采集的所有用户特征数据中的重要特征采用FCM聚类算法进行聚类，获取当日采集的用户特征数据属于各聚类簇的隶属度；

设置隶属度阈值；当当日采集的用户特征数据的最大隶属度小于隶属度阈值时，当日采集的用户特征数据的操作用户为新用户；反之，将当日采集的用户特征数据的最大隶属度的聚类簇对应用户作为识别用户。

本发明至少具有如下有益效果：

本发明通过对用户特征数据进行采集分析，根据用户使用习惯获取采集周期内终端设备使用用户的数量，基于历史用户的行为习惯对每天使用终端上网的用户进行分类，使得分类结果可以更加精准识别用户特征信息；进而根据每个用户的各个特征数据特征进行分析，构建各用户每个特征的簇内波动性，从整体和局部两个角度分析各用户对于每个特征的变化情况，从而筛选用户长时间较为稳定的独特习惯，用于准确表征该用户；结合特征的簇内波动性，通过分析用户在采集周期内所有用户特征数据中的任意两个特征之间的差异性，构建各用户每个特征的重要性，挖掘特征对于用户的特殊性，从而判断特征对于用户的重要程度；本发明通过计算用户在每个特征数据之间的重要性差异，从而根据这种关系以及不同用户相同特征数据之间的差异，完成特征的显著性计算，凸显出具有突出代表的特征，更能表征用户的行为习惯特点；本发明根据用户之间的使用习惯差异获取特征的特征识别必要性，并结合特征在用户相似度的差异分析获取特征修正因子，进而对特征显著性进行修正，据此进行特征提取，大大降低了用户特征数据的维度，增加了使用FCM算法进行聚类识别的可靠性，大大提高了基于用户特征的精准识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的基于5G网络的智能上网终端的用户智能识别方法的流程图；

图2为特征修正显著性的指标构建流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于5G网络的智能上网终端的用户智能识别方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于5G网络的智能上网终端的用户智能识别方法的具体方案。

本发明一个实施例提供的基于5G网络的智能上网终端的用户智能识别方法。

具体的，提供了如下的基于5G网络的智能上网终端的用户智能识别方法，请参阅图1，该方法包括以下步骤：

步骤S001，采集用户特征数据。

本实施例以手机作为5G上网终端，使用手机对用户信息进行采集，其中采集的特征数据包括用户访问频率、访问总时长、各个功能模块使用时间、视频文章平均停留时间、观看类型、用户使用地理位置、用户触屏平均压力大小、用户触屏平均滑动方向、滑动起始结束位置以及信息采集时间等。

其中，用户特征数据的采集周期设置为一个月，采集次数为每日一次，即将各用户每日的用户特征数据记为R={a,b,c,d,e,f,……,T}，将所得采集特征数据的种类数量记为P，本实施例对特征数据种类数量P的取值为30，实施者可根据实际情况自行设定。

步骤S002，针对用户特征数据进行用户的行为习惯特征提取，筛选得到重要特征。

通过对用户特征数据进行采集，进而对用户特征数据进行识别和特征提取，进而根据提取得到的特征对当前使用用户的用户进行比较，从而完成用户信息的智能识别。

由于在进行用户特征数据匹配时，用户的习惯特征较多，故在对新采集的用户特征数据与历史用户特征数据进行比较时，有些特征会存在干扰，可能导致新采集用户特征数据被错误分类，进而得到错误的用户识别。故本实施例对所得用户特征数据进行筛选，减少干扰特征，使得将所得历史用户之间有较大差异的特征进行提取，进而避免上述问题。

其中，本实施例首先使用DBSCAN聚类算法，对采集周期内使用上网终端用户的所有用户特征数据进行聚类分析，其中聚类距离为用户特征数据R之间的欧式距离，设置聚类参数r=5，minpts=5，至此完成对上网终端用户的划分，根据聚类结果获取采集周期内使用上网终端上的用户数量，即聚类簇的数量，并将其记为K，所述聚类簇内的各元素为该聚类簇对应用户在采集周期内的所有用户特征数据。DBSCAN聚类算法为公知技术，本实施例不再赘述。

由于用户习惯会随时间产生变化，其中经常变化的用户特征较难进行识别作为用户的重要特征，本实施例需要获取的是用户长时间较为稳定独特的特征数据，故本实施例将上述所得在同一用户信息所得数据按时间顺序进行排列，并对同一用户数据即上述同一聚类簇内数据进行分析，获取该聚类簇内各个数据的簇内波动性：

其中，表示第s个用户特征u的簇内波动性，norm()表示归一化函数，/>表示第s个用户对应聚类簇内的元素数量，/>、/>分别表示第s个用户对应聚类簇内第i个、第i+1个用户特征数据中特征u的数值，/>表示第s个用户对应聚类簇内的特征u的数值均值。

需要说明的是，聚类簇内的用户特征数据的顺序由对应用户特征数据所在采集周期内采集天数的顺序进行排序。当所求用户s的历史数据中，特征u对应的值与其平均值的差异越小，即越小，且第i天所得用户s的第u个特征与第i+1天所得用户的第u个特征的数值的差异也越小，即/>越小，则说明当前用户s即聚类簇s中，特征u的波动性越小，即/>越小，同时说明对于用户s，特征u为较为稳定的一个特征。

通过对用户所得特征数据中各个特征进行分析，获取特征之间的差异性，根据所得相关性进行分析从而获取特征重要性指标，则其中用户特征之间差异性的计算方法如下：

其中，表示第s个用户的特征u与特征v之间的差异性，/>表示第s个用户的特征u与特征v之间的簇内波动性的差值绝对值，/>表示第s个用户对应聚类簇内的元素数量，/>、/>分别表示第s个用户对应聚类簇内第i个用户特征数据中特征u、特征v的数值，/>、/>分别表示第s个用户对应聚类簇内特征u、特征v的数值均值。

需要说明的是，当所求用户的两个特征u、v之间的簇内波动性差异越小，即越小，且对应两个特征数据的比值与两个特征数据平均值的比值的差异也越小，即/>越小，/>越小，则说明两个特征数据的差异性越小，相关性越强。

通过结合用户的特征之间差异性，对用户聚类簇内的特征进行分析，获取特征重要性：

其中，表示第s个用户特征u的重要性，P表示特征数据种类数量，/>表示第s个用户的特征u与特征v之间的差异性，/>表示第s个用户特征u的簇内波动性。

需要说明的是，当所求用户s的第u个特征的簇内波动性越小，即越小，且特征u与其他特征的特征差异性越大，即/>越大，则说明该特征越可能为当前用户的特殊特征，故其对应的特征重要性指标就越强，即/>越大。

通过计算用户之间对应特征差异，从而获取不同用户的相同特征的差异，进而便于获取两个用户之间的特殊特征，则其中不同用户相同特征之间的差异的计算方法如下：

需要说明的是，当所求两个用户对应数值的平均值之间的差异越大，即越大，且两个用户对应特征在各自聚类簇中的重要性的差异/>越大，同时，对应两用户中对应特征与其他特征的差异性的比值与两个用户对应特征与其他特征差异性平均值的比值之间的差异/>也越大，则说明特征u在不同用户s、d的特征差异越大。则可以获取该特征的显著性，其计算获取方法如下：

其中，表示特征u的显著性，K表示用户数量，/>表示第s个用户特征u的重要性，/>表示第s个用户与第d个用户在特征u之间的差异。

需要说明的是，当特征u在用户所在聚类簇中的重要性越大，且两个用户所在聚类簇在特征u之间的差异/>越大，则说明特征u的显著性越强，越能凸显出用户的行为习惯特点。

将任意两个用户的所有用户特征数据R之间的平均欧式距离的倒数，作为任意两个用户之间的相似度，其中，用户s与用户d之间的相似度记为。同时，对于每个特征，根据其在所有用户中的重要性进行聚类，采用K=2的K-means聚类算法，得到每个特征的两个聚类簇，聚类簇中为重要性较为相近的各用户，将重要性的和值最大的聚类簇记为最大聚类簇。通过分析特征重要性在各个用户之间的分布，即当所求特征仅对一个或少量用户起作用时，则说明该特征更为重要，故本实施例据此获取特征的修正因子：

其中，表示特征u的特征识别必要性，K表示用户数量，/>表示在去除特征u后第s个用户与第d个用户之间的相似度，/>表示第s个用户与第d个用户之间的相似度；

表示特征u的特征修正因子，/>表示特征u在所有用户中的最大重要性，Ls表示特征u的最大聚类簇的簇内元素数量，/>表示第s个用户特征u的重要性与之间的差值绝对值。

需要说明的是，当去除特征u后，用户之间相似度变化差异越大，且用户相似度变小，则说明当前特征u为用户识别特征中较为必要的特征。同时，当所求特征u进行聚类后所在特征重要性的和值的最大聚类簇的簇内元素的数量越少，特征u在所有用户中对应最大特征重要性的值越大，对应该值与在各个聚类簇中特征u的特征重要性的差异也越大，且同时根据用户相似度分析所得特征u为用户识别特征的必要特征重要性也越大时，则说明当前特征u的特征重要程度修正因子也越大。

根据上述所得对所得特征显著性进行修正，其中修正方法如下：

其中，表示特征u的特征修正显著性，/>表示特征u的显著性，norm()表示归一化函数，/>表示特征u的特征修正因子。其中，特征修正显著性的指标构建流程图如图2所示。

需要说明的是，所求特征u修正前的特征显著性越大，且特征u对应的特征修正因子/>也越大，则说明修正后的特征u的特征修正显著性/>越大。

使用上述方法获取所有用户特征数据中每个特征的特征修正显著性，使用大津阈值法得到大津阈值，获取其中特征修正显著性大于大津阈值的特征，将这些特征作为用户识别的重要特征。其中，大津阈值法为公知技术，本实施例不再赘述。

步骤S003，根据重要特征对历史数据与当前数据的用户特征数据进行聚类，完成用户识别。

将监测所得用户当日采集的用户特征数据与历史采集的用户特征数据，根据上述所得重要特征，使用聚类簇数为K的FCM算法进行聚类，获取当日采集的用户特征数据属于各个聚类簇对应用户的隶属度。

设置隶属度阈值λ=0.4，当日采集的用户特征数据的最大隶属度小于隶属度阈值时，将当日用户特征数据的操作用户作为新用户；反之，则将其中具有最大隶属度的聚类簇对应用户作为识别用户。其中，FCM算法为公知技术，本实施例不再赘述。

综上所述，本发明实施例通过对用户特征数据进行采集分析，根据用户使用习惯获取采集周期内终端设备使用用户的数量，基于历史用户的行为习惯对每天使用终端上网的用户进行分类，使得分类结果可以更加精准识别用户特征信息；进而根据每个用户的各个特征数据特征进行分析，构建各用户每个特征的簇内波动性，从整体和局部两个角度分析各用户对于每个特征的变化情况，从而筛选用户长时间较为稳定的独特习惯，用于准确表征该用户；结合特征的簇内波动性，通过分析用户在采集周期内所有用户特征数据中的任意两个特征之间的差异性，构建各用户每个特征的重要性，挖掘特征对于用户的特殊性，从而判断特征对于用户的重要程度；本发明实施例通过计算用户在每个特征数据之间的重要性差异，从而根据这种关系以及不同用户相同特征数据之间的差异，完成特征的显著性计算，凸显出具有突出代表的特征，更能表征用户的行为习惯特点；本发明实施例根据用户之间的使用习惯差异获取特征的特征识别必要性，并结合特征在用户相似度的差异分析获取特征修正因子，进而对特征显著性进行修正，据此进行特征提取，大大降低了用户特征数据的维度，增加了使用FCM算法进行聚类识别的可靠性，大大提高了基于用户特征的精准识别。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.基于5G网络的智能上网终端的用户智能识别方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据各用户聚类簇内用户特征数据中每个特征的差异构建各用户每个特征的簇内波动性，包括：

3.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据各用户每个特征的簇内波动性以及特征之间的数值差异构建各用户任意两个特征之间的差异性，包括：

4.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据各用户任意两个特征之间的差异性以及各用户每个特征的簇内波动性构建各用户每个特征的重要性，包括：

5.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据所有任意两个用户在每个特征之间的重要性差异构建每个特征的显著性，包括：

获取任意两个用户在每个特征之间的差异；

6.如权利要求5所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述获取任意两个用户在每个特征之间的差异，表达式为：

7.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据用户特征数据之间的距离构建每个特征的特征识别必要性，包括：

8.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据每个特征的特征识别必要性以及每个特征的重要性的聚类结果构建每个特征的特征修正因子，包括：

获取每个特征在所有用户中的最大重要性；

9.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据每个特征的显著性以及特征修正因子得到每个特征的特征修正显著性，包括：

10.如权利要求1所述的基于5G网络的智能上网终端的用户智能识别方法，其特征在于，所述根据重要特征对当日与历史采集的用户特征数据进行聚类，识别当日用户特征数据的操作用户，包括：