发明内容
本发明的目的在于提供一种基于人工智能的数据库索引建立方法及***。
第一方面,本发明实施例提供一种基于人工智能的数据库索引建立方法,包括:
响应于用户行为记录获取请求,获取用户行为记录获取请求包括的发送方地址、发送方身份标识以及发送发权限;
将发送方地址、发送方身份标识以及发送发权限输入预先训练的用户身份识别模型,得到用户身份识别结果;
当用户身份识别结果表征为合法用户时,从用户行为存储服务器中获取目标用户行为记录,目标用户行为记录包括第一用户行为记录和第二用户行为记录;
建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,以基于数据库索引确定训练用户行为评估模型的训练数据。
在一种可能的实施方式中,建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,包括:
获取第一用户行为记录和第二用户行为记录;
基于关注度系数获取第一用户行为记录对应的第一用户行为序列,第一用户行为序列中两两行为切片之间的排序依据为关注度系数;
基于关注度系数获取第二用户行为记录对应的第二用户行为序列,第二用户行为序列中两两行为切片之间的排序依据为关注度系数,第一用户行为序列和第二用户行为序列分别包括多个不同关注度的行为切片;
确定第一用户行为记录在第一用户行为序列的任一行为切片的基础用户行为向量,将第二用户行为序列中具有最高关注度行为切片确定为参考行为切片;
基于用户行为识别模型和业务场景将基础用户行为向量关联到参考行为切片,在参考行为切片中得到参考用户行为向量,并基于基础用户行为向量、参考用户行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系;
以参考用户行为向量为事件表征向量在参考行为切片中获取参考行为子切片,基于关联映射关系对应的逆关联映射关系,将参考行为子切片关联到基础用户行为向量所在行为切片,在基础用户行为向量所在行为切片中得到参考行为子切片对应的对比行为子切片,并确定对比行为子切片的事件表征向量为关键用户行为向量;
获取基础用户行为向量关联到参考行为切片中的目标用户行为向量集合;
基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引。
在一种可能的实施方式中,基于用户行为识别模型和业务场景将基础用户行为向量关联到参考行为切片,在参考行为切片中得到参考用户行为向量,并基于基础用户行为向量、参考用户行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系,包括:
基于用户行为识别模型,将基础用户行为向量关联到业务场景上,得到基础业务操作;
基于第一用户行为记录对应的用户行为识别网络和第二用户行为记录对应的用户行为识别网络之间的网络差异参量,将基础业务操作对应至第二用户行为记录的业务操作体系下,得到待处理业务操作;
将待处理业务操作关联到第二用户行为记录的业务操作体系下具有预置业务标签的业务场景上,得到参考关联操作;
对参考关联操作进行特征提取操作,并基于用户行为识别模型将提取特征后的参考关联操作映射至参考行为切片中,得到参考用户行为向量;
在基础用户行为向量所在行为切片中获取基础辅助行为向量,基础辅助行为向量是以基础用户行为向量为为基准的关联行为向量;
基于用户行为识别模型和业务场景将基础辅助行为向量关联到参考行为切片,在参考行为切片中得到参考辅助行为向量;
基于基础用户行为向量与基础辅助行为向量之间的关联关系、参考用户行为向量以及参考辅助行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系。
在一种可能的实施方式中,获取基础用户行为向量关联到参考行为切片中的目标用户行为向量集合,包括:
将与基础用户行为向量对应的待处理业务操作,关联到第二用户行为记录的业务操作体系下具有低相关业务标签的业务场景上,得到低相关业务操作;
将与基础用户行为向量对应的待处理业务操作,关联到第二用户行为记录的业务操作体系下具有高相关业务标签的业务场景上,得到高相关业务操作;
将低相关业务操作和高相关业务操作的数据集合,确定为待定用户行为向量集合数据集;
对待定用户行为向量集合数据集中的每个用户行为向量元素进行特征提取操作,并基于用户行为识别模型将提取特征后的每个用户行为向量元素映射至参考行为切片中,得到目标用户行为向量集合。
在一种可能的实施方式中,基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引,包括:
基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,确定关键用户行为向量在参考行为切片中的关键行为,作为目标关键行为;
若参考行为切片的表征事件不等于关键用户行为向量在第一用户行为序列中的表征事件,则将目标关键行为与目标用户行为向量集合映射至参考行为切片的下一行为切片,根据映射至后的目标关键行为与映射至后的目标用户行为向量集合确定在下一行为切片中的关键行为,并将下一行为切片确定为参考行为切片,将下一行为切片中的关键行为确定为目标关键行为;
若参考行为切片在第二用户行为序列中的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同,则以关键用户行为向量为事件表征向量在对比行为子切片中获取参考对比行为子切片,并将最终采集的目标关键行为作为对比行为,并在对比行为所在的行为切片中获取以对比行为为事件表征向量的目标对比行为子切片,目标对比行为子切片的表征事件与参考对比行为子切片的表征事件相同;
基于目标对比行为子切片中的行为参量、参考对比行为子切片中的行为参量,确定目标对比行为子切片的区间切片优化系数,基于切片优化系数调整目标对比行为子切片的区间;
当切片优化系数对应的符合优化终止状态时,将区间优化后的目标对比行为子切片的事件表征向量确定为已优化关键行为,建立关键用户行为向量与已优化关键行为之间的数据库索引。
在一种可能的实施方式中,将目标关键行为与目标用户行为向量集合映射至参考行为切片的下一行为切片,根据映射至后的目标关键行为与映射至后的目标用户行为向量集合确定在下一行为切片中的目标关键行为,包括:
将目标关键行为与目标用户行为向量集合映射至参考行为切片的下一行为切片;根据在映射至后的目标用户行为向量集合中,确定以映射至后的目标关键行为为事件表征向量的待处理用户行为向量集合数据集;
获取在下一行为切片中的待处理用户行为向量集合数据集上的目标关键行为。
在一种可能的实施方式中,基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,确定关键用户行为向量在参考行为切片中的关键行为,作为目标关键行为,包括:
在目标用户行为向量集合上确定待处理用户行为向量集合数据集,在待处理用户行为向量集合数据集上按照预置时序参量依次搜索用户行为,并将搜索到的用户行为确定为关键用户行为向量在参考行为切片上对应的多个待处理用户行为向量,并通过对多个待处理用户行为向量进行向量匹配,分别得到以每个待处理用户行为向量为事件表征向量的待处理行为子切片,待处理行为子切片的表征事件与对比行为子切片的表征事件相同;
基于每个待处理行为子切片中的行为参量和对比行为子切片中的行为参量,分别获取每个待处理行为子切片与对比行为子切片之间的关联系数,基于关联系数确定多个待处理用户行为向量中的高可信行为向量和次高可信行为向量;
若高可信行为向量和次高可信行为向量满足预设条件,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为。
在一种可能的实施方式中,若高可信行为向量和次高可信行为向量满足预设条件,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为,包括:
获取高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,作为第一关联系数,并获取次高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,作为第二关联系数;
若第一关联系数大于关联系数阈值,且第一关联系数与第二关联系数之间的系数差大于系数差范围,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为。
在一种可能的实施方式中,若高可信行为向量和次高可信行为向量满足预设条件,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为,包括:
获取高可信行为向量与次高可信行为向量所在切片区间之间的行为相似度;
若行为相似度小于行为相似度阈值,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为。
第二方面,本发明实施例提供一种基于人工智能的数据库索引建立***,包括:
响应模块,用于响应于用户行为记录获取请求,获取用户行为记录获取请求包括的发送方地址、发送方身份标识以及发送发权限;
识别模块,用于将发送方地址、发送方身份标识以及发送发权限输入预先训练的用户身份识别模型,得到用户身份识别结果;
建立模块,用于当用户身份识别结果表征为合法用户时,从用户行为存储服务器中获取目标用户行为记录,目标用户行为记录包括第一用户行为记录和第二用户行为记录;建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,以基于数据库索引确定训练用户行为评估模型的训练数据。
第三方面,本发明还提供了一种服务器,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
相比现有技术,本发明提供的有益效果包括:采用本发明公开了一种基于人工智能的数据库索引建立方法及***通过在用户身份识别结果表征为合法用户的情况下,从用户行为存储服务器中获取目标用户行为记录,目标用户行为记录包括第一用户行为记录和第二用户行为记录;最终建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,以基于数据库索引确定训练用户行为评估模型的训练数据,如此设计,在构建了关键用户行为向量与目标关键行为之间的数据库索引后,能够基于该数据库索引快速准确地确定出用于训练用户行为评估模型的训练数据,避免了人工标注的不准确性的同时提高了数据获取效率。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1是本公开一种实施例提供的基于人工智能的数据库索引建立方法的步骤流程示意图。下面对该的基于人工智能的数据库索引建立方法进行详细介绍。
步骤S110,响应于用户行为记录获取请求,获取用户行为记录获取请求包括的发送方地址、发送方身份标识以及发送发权限。
步骤S120,将发送方地址、发送方身份标识以及发送发权限输入预先训练的用户身份识别模型,得到用户身份识别结果。
步骤S130,当用户身份识别结果表征为合法用户时,从用户行为存储服务器中获取目标用户行为记录,目标用户行为记录包括第一用户行为记录和第二用户行为记录。
步骤S140,建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,以基于数据库索引确定训练用户行为评估模型的训练数据。
在本发明实施例中,用户行为记录存在隐私安全问题,因此需要先针对用户行为记录获取请求进行安全验证,验证方式可以是采用发送方地址、发送方身份标识以及发送发权限三个维度进行评估,并调用了预先训练的用户身份识别模型辅助完成,在当用户身份识别结果表征为合法用户时,便可用获取目标用户行为记录,应当理解的是,在实际操作过程中,不用户针对同一业务的操作习惯、操作行为均存在差异,为了能够精确地完成后续对该用户行为的评估,需要针对目标用户行为记录进行获取,目标用户行为记录包括第一用户行为记录和第二用户行为记录,第一用户行为记录和第二用户行为记录之间的关系可以是并列关系,也可以是包含关系,在此不做限制。再当确定出关键用户行为向量与目标关键行为之间的数据库索引后,重复执行整个过程,在获取符合需求的数据量的情况下,便可以利用数据库索引快速准确地将数据量庞大的成对的键用户行为向量与目标关键行为获取,并基于此进行用户行为评估模型,节约了数据采集的时间,且提高了整体训练集的准确性,能够使得训练出的用户行为评估模型在具备针对性的基础上,准确性也大大提高。
为了能够更加清楚的描述本发明实施例提供的方案,前述步骤S140可以通过如下方式执行实施。
步骤S101,获取第一用户行为记录对应的第一用户行为序列,获取第二用户行为记录对应的第二用户行为序列,第一用户行为序列和第二用户行为序列分别包括多个不同关注度的行为切片;
具体的,获取第一用户行为记录对应的第一用户行为序列。在此说明,用户行为序列可以是一种以多关注度来描述用户在一定时间段内产生的行为的结构。由此可以理解,第一用户行为序列包括多个不同关注度的行为切片,且每一行为切片的数据均来自于对上述第一用户行为记录的采样,从行为切片c4依次至行为切片c1,切片排序越靠前,关注度越高,例如,行为切片c4的关注度为第一用户行为记录的12.5%,行为切片c3的关注度为第一用户行为记录的25%,行为切片c2的关注度为第一用户行为记录的50%,行为切片c1的关注度为第一用户行为记录的关注度。同理,获取第二用户行为记录对应的第二用户行为序列,第二用户行为序列包括多个不同关注度的行为切片,且每一行为切片的行为记录来自于对第二用户行为记录的采样,从行为切片d4依次至行为切片d1,切片排序越靠前,关注度越高,例如,行为切片d4的关注度为第二用户行为记录的12.5%,行为切片d3的关注度为第二用户行为记录的25%,行为切片d2的关注度为第二用户行为记录的50%,行为切片d1的关注度为第二用户行为记录的关注度。在此需要进行说明的是,在实际进行用户行为序列的获取时,上述第二用户行为序列中包含的行为切片的表征事件应不小于上述第一用户行为序列中包含的行为切片的表征事件。示例性的,在用户登录某金融平台后,涉及了登录、输入密码、查看、交易等业务场景,其中,交易相关的用户行为所对应的行为切片的关注度最大。
步骤S102,确定第一用户行为记录在第一用户行为序列的任一行为切片的基础用户行为向量,将第二用户行为序列中具有最高关注度行为切片确定为参考行为切片;
具体的,确定上述第一用户行为记录在上述第一用户行为序列的每一行为切片中的全部用户行为向量,由于每个用户行为向量进行索引建立的过程均相同,所以为更好地理解本方案,本发明实施例选取上述确定到的用户行为向量中的一个行为向量进行描述,将选取的该用户行为向量称之为基础用户行为向量,并对基础用户行为向量进行索引建立说明。
其中,将上述第二用户行为序列中具有最高关注度行为切片确定为参考行为切片。
步骤S103,基于用户行为识别模型和业务场景将基础用户行为向量关联到参考行为切片,在参考行为切片中得到参考用户行为向量,并基于基础用户行为向量、参考用户行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系。
进一步地,下述步骤S1031-步骤S1033是对步骤S103的具体实现方式的详细描述。
步骤S1031,在基础用户行为向量所在行为切片中获取基础辅助行为向量,基础辅助行为向量是以基础用户行为向量为为基准的关联行为向量;
步骤S1032,基于用户行为识别模型,将基础用户行为向量关联到业务场景上,得到基础业务操作;
步骤S1033,基于第一用户行为记录对应的用户行为识别网络和第二用户行为记录对应的用户行为识别网络之间的网络差异参量,将基础业务操作对应至第二用户行为记录的业务操作体系下,得到待处理业务操作。
步骤S1034,将待处理业务操作关联到第二用户行为记录的业务操作体系下具有预置业务标签的业务场景上,得到参考关联操作。
步骤S1035,对参考关联操作进行特征提取操作,并基于用户行为识别模型将提取特征后的参考关联操作映射至参考行为切片中,得到参考用户行为向量。
步骤S1036,基于用户行为识别模型和业务场景将基础辅助行为向量关联到参考行为切片,在参考行为切片中得到参考辅助行为向量。
步骤S1037,基于基础用户行为向量与基础辅助行为向量之间的关联关系、参考用户行为向量以及参考辅助行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系。
步骤S104,以参考用户行为向量为事件表征向量在参考行为切片中获取参考行为子切片,基于关联映射关系对应的逆关联映射关系,将参考行为子切片关联到基础用户行为向量所在行为切片,在基础用户行为向量所在行为切片中得到参考行为子切片对应的对比行为子切片,并确定对比行为子切片的事件表征向量为关键用户行为向量。
具体的,以上述参考用户行为向量为事件表征向量,得到指定事件的参考行为子切片,比如以上述参考用户行为向量为事件表征向量,得到参考行为子切片。通过步骤S1037得到的关联映射关系可以计算出关联映射关系的逆关联映射关系 ,则可以通过逆关联映射关系,得到上述参考行为子切片中的每一个用户行为的切片序号对应在基础用户行为向量所在的行为切片中的切片序号,称之为关联后的切片序号。将第一用户行为记录中的上述关联后的切片序号的用户行为组成与参考行为子切片表征事件相同的对比行为子切片,并将该对比行为子切片的事件表征向量确定为关键用户行为向量。
进一步地,本发明实施例提供针对基础用户行为向量的优化过程的示例。第一用户行为记录对应的第一用户行为序列中包括行为切片c1、行为切片c2、行为切片c3以及行为切片c4,第二用户行为记录对应的第二用户行为序列中包括行为切片d1、行为切片d2、行为切片d3以及行为切片d4。在第一用户行为序列中的行为切片c2中选取基础用户行为向量,在基础用户行为向量附近选取两个基础辅助行为向量,基础辅助行为向量相对于基础用户行为向量的切片区间具体基于实际应用场景决定,此处不作限制。将基础用户行为向量与两个基础辅助行为向量映射至业务场景下,得到基础用户行为向量对应的基础业务操作以及基础辅助行为向量对应的两个三维点,并将上述得到的基础业务操作与基础辅助行为向量对应的两个三维点关联到用户行为识别模型下,得到基础业务操作对应的待处理业务操作与基础辅助行为向量的两个三维点对应的待处理业务操作。将上述3个待处理业务操作映射至参考行为切片,得到基础用户行为向量对应的参考用户行为向量以及上述两个基础辅助行为向量对应的两个参考辅助行为向量。通过参考用户行为向量与参考辅助行为向量的切片序号,可以计算得到关联映射关系,通过关联映射关系得到关联映射关系的逆关联映射关系。取参考用户行为向量为事件表征向量,在行为切片d4中得到以基础用户行为向量为事件表征向量的参考行为子切片,参考行为子切片的表征事件维度具体基于实际应用场景决定,此处不作限制。通过上述得到的逆关联映射关系得到参考行为子切片对应在行为切片c2中的与参考行为子切片表征事件相同的行为子切片,将该行为子切片称之为对比行为子切片,取对比行为子切片的事件表征向量为关键用户行为向量。
步骤S105,获取基础用户行为向量关联到参考行为切片中的目标用户行为向量集合;
进一步地,下述S1051-步骤S1054是对步骤S105的具体实现方式的详细描述。
步骤S1051,将与基础用户行为向量对应的待处理业务操作,关联到第二用户行为记录的业务操作体系下具有低相关业务标签的业务场景上,得到低相关业务操作;
具体的,待处理业务操作在相关性范围1到n内的每一个相关性,都对应在第二用户行为记录的业务操作体系下有一个业务操作。则取待处理业务操作的相关性为相关性范围内的最小值1,以该最小相关性1将待处理业务操作关联到第二用户行为记录的业务操作体系下,得到低相关业务操作。
步骤S1052,将与基础用户行为向量对应的待处理业务操作,关联到第二用户行为记录的业务操作体系下具有高相关业务标签的业务场景上,得到高相关业务操作;
具体的,待处理业务操作的相关性范围参见上述步骤S1051的描述,取待处理业务操作的相关性为相关性范围内的最大值n,以该最大相关性n将待处理业务操作关联到第二用户行为记录的业务操作体系下,得到高相关业务操作。
步骤S1053,将低相关业务操作和高相关业务操作的数据集合,确定为待定用户行为向量集合数据集;
具体的,将上述步骤S1051得到的低相关业务操作与步骤S1052得到的高相关业务操作进行连线,将该连线确定为待定用户行为向量集合数据集。其中,上述基础业务操作的相关性在1与n范围之间时,对应在上述第二用户行为记录的业务操作体系下的业务操作落在上述待定用户行为向量集合数据集上,即上述基础业务操作在相关性范围1与n之间的每一个相关性对应在上述第二用户行为记录的业务操作体系下的全部业务操作构成了上述待定用户行为向量集合数据集。
步骤S1054,对待定用户行为向量集合数据集中的每个用户行为向量元素进行特征提取操作,并基于用户行为识别模型将提取特征后的每个用户行为向量元素映射至参考行为切片中,得到目标用户行为向量集合;
将第二用户行为记录的业务操作体系下的待定用户行为向量集合数据集上的每一个用户行为向量元素都作上述特征提取操作的操作,基于用户行为识别网络模型,将作变换的每一个用户行为向量元素都映射至第二用户行为记录的第二用户行为序列中的参考行为切片中,上述映射至后的全部用户行为向量元素组成了参考行为切片中的目标用户行为向量集合。
步骤S106,基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,基于用户行为向量集合在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引;
进一步地,下述步骤S1061-步骤S1063是对步骤S106的具体实现方式的详细描述。
步骤S1061,基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,确定关键用户行为向量在参考行为切片中的关键行为,作为目标关键行为;
具体的,基于目标用户行为向量集合的初始搜索范围,确定进行搜索的待处理用户行为向量集合数据集,在确定的待处理用户行为向量集合数据集上按照指定像素长度依次搜索匹配切片区间。以搜索到的多个匹配切片区间为事件表征向量,分别得到多个匹配切片区间对应的多个行为子切片,同时以上述关键用户行为向量为事件表征向量,得到与上述匹配切片区间对应的行为子切片表征事件相同的行为子切片。通过将上述多个匹配切片区间对应的多个行为子切片分别与上述关键用户行为向量对应的行为子切片作行为子切片间的关联系数对比,得到上述多个匹配切片区间中的最优匹配切片区间和次优匹配切片区间,若最优匹配切片区间与次优匹配切片区间满足指定预设条件,则将得到的最优匹配切片区间处的用户行为称之为上述关键行为,并定义为目标关键行为。其中,指定预设条件包括:上述得到的最优匹配切片区间对应的行为子切片与关键用户行为向量对应的行为子切片之间的关联系数满足指定关联系数阈值,或者,上述得到的最优匹配切片区间与次优匹配切片区间之间的行为相似度满足指定行为相似度阈值。
步骤S1062,若参考行为切片的表征事件不等于关键用户行为向量在第一用户行为序列中的表征事件,则将目标关键行为与目标用户行为向量集合映射至参考行为切片的下一行为切片,根据映射至后的目标关键行为与映射至后的目标用户行为向量集合确定在下一行为切片中的关键行为,并将下一行为切片确定为参考行为切片,将下一行为切片中的关键行为确定为目标关键行为;
具体的,若是上述参考行为切片的表征事件不等于关键用户行为向量在第一用户行为序列中的表征事件,则将在参考行为切片得到的目标关键行为和目标关键行为所在的目标用户行为向量集合映射至第二用户行为序列中参考行为切片的下一行为切片,根据映射至后的目标关键行为可以确定映射至后的目标用户行为向量集合在该下一行为切片中的待处理用户行为向量集合数据集。并再次执行步骤S1031中的操作,得到在该下一行为切片中的关键行为。将该下一行为切片称之为参考行为切片,即将该下一行为切片定义为更新之后的参考行为切片,同时将该下一行为切片中的关键行为称之为目标关键行为,即将在该下一行为切片中得到的关键行为定义为更新之后的目标关键行为。重新比较此时更新之后的参考行为切片在第二用户行为序列中的表征事件与关键用户行为向量在第一用户行为序列中的表征事件,若是更新之后的参考行为切片在第二用户行为序列中的表征事件不等于关键用户行为向量在第一用户行为序列中的表征事件,则重复上述操作,将更新之后的目标关键行为和更新之后的目标关键行为所在的用户行为向量集合映射至更新之后的目标关键行为所在的行为切片的下一行为切片,得到在更新之后的参考行为切片的下一行为切片中的目标关键行为,进行第二轮更新,循环进行上述更新映射至操作,直到最后一次更新的参考行为切片在第二用户行为序列中的表征事件不大于关键用户行为向量在第一用户行为序列中的表征事件。
进一步地,本发明实施例提供一种用户行为向量匹配的示例,上述过程具体为,选取第一用户行为序列中行为切片c2上的一个用户行为向量,将该用户行为向量定义为基础用户行为向量,将该基础用户行为向量进行上述前述实施例中步骤S103-步骤S104的操作,得到该基础用户行为向量对应的关键用户行为向量,将第二用户行为序列中的行为切片d4定义为参考行为切片,基于前述实施例中的步骤S105得到在行为切片d4中的目标用户行为向量集合,基于步骤S1031得到在目标用户行为向量集合的初始搜索范围内的关键用户行为向量对应的关键行为,并将该关键行为称之为目标关键行为,即定义该关键行为为目标关键行为,且上述参考行为切片的表征事件为4大于关键用户行为向量在第一用户行为序列中的表征事件2,则将目标关键行为和目标关键行为所在的目标用户行为向量集合映射至第二用户行为序列中的行为切片d3,同样基于步骤S1031得到在映射至后的目标用户行为向量集合上关键用户行为向量对应的关键行为,将在第二用户行为序列中的行为切片d3称之为参考行为切片,即定义行为切片d3为更新之后的参考行为切片,将在第二用户行为序列中的行为切片d3上得到的关键行为称之为目标关键行为,即定义d3上得到的关键行为定义为更新之后的目标关键行为。上述经过第一次更新之后的参考行为切片的表征事件为3大于关键用户行为向量在第一用户行为序列中的表征事件2,将此时更新后的目标关键行为和更新后的目标关键行为所在的目标用户行为向量集合映射至第二用户行为序列中的行为切片d2,同样基于步骤S1031得到在映射至后的目标用户行为向量集合上关键用户行为向量对应的关键行为,将在第二用户行为序列中的行为切片d2称之为参考行为切片,即定义行为切片d2为更新之后的参考行为切片,将在第二用户行为序列中的行为切片d2上得到的关键行为称之为目标关键行为,即定义行为切片d2上得到的关键行为为更新之后的目标关键行为。上述经过第二次更新的参考行为切片的表征事件为2等于关键用户行为向量在第一用户行为序列中的表征事件2,停止上述映射至的操作,最终,确定的参考行为切片为第二用户行为序列中的行为切片d2,确定的目标关键行为为在第二用户行为序列中的行为切片d2上得到的关键行为。
步骤S1063,若参考行为切片在第二用户行为序列中的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同,则建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引;
具体的,当上述循环映射至的过程停止时,其中,循环映射至具体指将在第二用户行为序列中的某一行为切片得到的目标关键行为与目标用户行为向量集合映射至该行为切片的下一行为切片,将在该下一行为切片得到的目标关键行为与目标用户行为向量集合继续映射至该下一行为切片的下一行为切片,重复进行上述映射至的动作,直到映射至之后的行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同,则停止映射至。当参考行为切片在第二用户行为序列中的行为切片的表征事件等于目标关键行为在第一用户行为序列中的行为切片的表征事件,建立关键用户行为向量与最后一次定义的目标关键行为之间的数据库索引。对在第一用户行为序列中确定到的用户行为向量一次进行上述索引建立操作,得到第一用户行为序列中确定到的每一用户行为向量对应的数据库索引,通过将上述每一用户行为向量对应的数据库索引输入到另一个计算模块,可以实现索引的建立。
本发明实施例通过获取第一用户行为记录和第二用户行为记录对应的第一用户行为序列和第二用户行为序列;确定第一用户行为序列中的任一行为切片的关键用户行为向量,将关键用户行为向量映射至第二用户行为序列中的参考行为切片,基于用户行为向量集合在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引。由此可见,在对用户行为向量进行索引建立的过程中,并未对用户行为记录进行描述子的确定,从而减少了匹配过程中的计算量,提高了匹配效率,且通过用户行为向量集合搜索的方法进行行为向量的匹配,从而提高了匹配的准确性。
进一步地,本发明实施例提供一种用户行为向量匹配的示例。步骤S201-步骤S207的步骤是对上述实施例中步骤S1061的具体描述,即步骤S201-步骤S207是本发明实施例提供的一种目标关键行为匹配的具体流程,具体可以包括如下步骤:
步骤S201,在目标用户行为向量集合上确定待处理用户行为向量集合数据集,在待处理用户行为向量集合数据集上按照预置时序参量依次搜索用户行为,并将搜索到的用户行为确定为关键用户行为向量在参考行为切片上对应的多个待处理用户行为向量;
具体的,在目标用户行为向量集合上确定待搜索的用户行为向量集合线段(即初始搜索范围),在该待搜索的用户行为向量集合线段上按照指定的像素长度依次搜索用户行为,比如按照1个像素长度在待处理用户行为向量集合数据集上依次搜索用户行为,将搜索到的用户行为确定为关键用户行为向量在参考行为切片上对应的多个待处理用户行为向量。
步骤S202,通过对多个待处理用户行为向量进行向量匹配,分别得到以每个待处理用户行为向量为事件表征向量的待处理行为子切片,待处理行为子切片的表征事件与对比行为子切片的表征事件相同;
因此以上述多个待处理用户行为向量分别作为事件表征向量,可以得到经特征提取操作之后的行为记录上的每个待处理用户行为向量对应的待处理行为子切片,该待处理行为子切片与对比行为子切片的表征事件相同。
步骤S203,基于每个待处理行为子切片中的行为参量和对比行为子切片中的行为参量,分别获取每个待处理行为子切片与对比行为子切片之间的关联系数,基于关联系数确定多个待处理用户行为向量中的高可信行为向量和次高可信行为向量;
具体的,获取上述每个待处理行为子切片中包含的行为参量,同时获取上述对比行为子切片中包含的行为参量,通过指定的行为关联系数公式,得到每个待处理行为子切片与第一对比行为子切片之间的关联系数。比如通过SSD(Sum of Squared Differences,差的平方和)算法计算上述关联系数,主要为分别计算每个待处理行为子切片中包含的行为参量与第一对比行为子切片中包含的行为参量间的系数差的平方和,若某个待处理行为子切片对应的平方和的值越小,则该待处理行为子切片与第一对比行为子切片之间的关联系数越大,反之,若某个待处理行为子切片对应的平方和的值越大,则该待处理行为子切片与第一对比行为子切片之间的关联系数越小。又比如通过皮尔森相关系数计算每个待处理行为子切片和第一对比行为子切片之间的相关度,其中,皮尔森相关系数又称为皮尔森积矩相关系数,是一种线性相关系数,通过相关系数r(r的取值范围为-1到+1)来描述两者间的线性关联系数,r的绝对值越趋向于1,则表明比较的两者间的相关度越大,r的绝对值越趋于0,则表明比较的两者间的相关度越小。通过计算每个待处理行为子切片中包含的行为参量与对比行为子切片中包含的协方差和标准差,得到每个待处理行为子切片对应的协方差与标准差的比值(协方差与标准差的比值即是皮尔森相关系数),比较上述得到的每个待处理行为子切片对应的皮尔森相关系数与数值1的接近程度,若某个待处理行为子切片对应的比值越接近数值1,则表明该待处理行为子切片与对比行为子切片之间的关联系数越大,反之,若某个待处理行为子切片对应的比值越接近数值0,则表明该待处理行为子切片与对比行为子切片之间的关联系数越小。
其中,将上述计算的关联系数中数值最大的关联系数对应的待处理行为子切片对应的待处理用户行为向量称之为高可信行为向量,将上述计算的关联系数中数值为第二大的关联系数对应的待处理行为子切片对应的待处理用户行为向量称之为次高可信行为向量。
步骤S204,获取高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,作为第一关联系数,并获取次高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,作为第二关联系数;
具体的,获取上述通过步骤S203得到的高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,并将该关联系数定义为第一关联系数,同时获取上述通过步骤S203得到的次高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数,并将该关联系数定义为第二关联系数。
其中,执行步骤S204之后,进行下述步骤S205至步骤S207的操作,需要进行说明的是,步骤S205描述的一种判定目标关键行为的方法与步骤S206和步骤S207共同描述的一种判定目标关键行为的方法为两种并列的方法,若是上述第一关联系数和第二关联系数满足上述步骤S205或者步骤S206和步骤S207描述的判定目标关键行为的方法的任一种方法中所包含的条件,则将上述高可信行为向量称之为关键用户行为向量在参考行为切片中的关键行为,并将该关键行为定义为目标关键行为。
步骤S206,若第一关联系数大于关联系数阈值,且第一关联系数与第二关联系数之间的系数差大于系数差范围,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为;
具体的,获取预先设定的关联系数的限定范围,若是上述第一关联系数在设定的关联系数的限定范围内,则比较第一关联系数与第二关联系数之间的系数差,获取预先设定的关联系数系数差的限定范围,若是第一关联系数与第二关联系数之间的系数差在设定的关联系数系数差范围内,则将上述高可信行为向量称之为关键用户行为向量在参考行为切片中的关键行为,并将该关键行为定义为目标关键行为。
步骤S207,获取高可信行为向量与次高可信行为向量所在切片区间之间的行为相似度;
具体的,计算得到高可信行为向量与次高可信行为向量在其所在的目标用户行为向量集合上的间隔行为相似度。
步骤S208,若行为相似度小于行为相似度阈值,则将高可信行为向量确定为关键用户行为向量在参考行为切片中的关键行为,并作为目标关键行为;
具体的,获取预先设定的高可信行为向量与次高可信行为向量之间的行为相似度的限定范围,若上述计算得到的高可信行为向量与次高可信行为向量在其所在的目标用户行为向量集合上的间隔行为相似度,在上述行为相似度的限定范围之内,则将该高可信行为向量称之为在参考行为切片中的关键行为,并定义该关键行为为目标关键行为。比如设定高可信行为向量与次高可信行为向量之间的行为相似度的限定范围为数值范围0-4,则只要上述计算得到的高可信行为向量与次高可信行为向量在其所在的目标用户行为向量集合上的间隔行为相似度不大于4,则将该高可信行为向量称之为在参考行为切片中的关键行为,并定义该关键行为为目标关键行为。
进一步地,本发明实施例提供一种用户行为向量匹配的实例。确定关键用户行为向量映射至参考行为切片的目标用户行为向量集合的初始搜索范围,在待处理用户行为向量集合数据集上按照指定像素长度依次搜索匹配的用户行为,将搜索到的用户行为确定为待处理用户行为向量,可以参考行为切片中的5个待处理用户行为向量,通过分别对关键用户行为向量和5个待处理用户行为向量进行向量匹配,得到以关键用户行为向量为事件表征向量的对比行为子切片,同时得到分别以5个待处理用户行为向量为事件表征向量的5个待处理行为子切片,并将该5个待处理行为子切片分别与对比行为子切片进行关联系数的计算,比较计算得到的每个待处理行为子切片与对比行为子切片之间的关联系数,取关联系数的数值为最大的待处理行为子切片对应的事件表征向量(即关联系数的数值为最大的待处理行为子切片对应的待处理用户行为向量)为高可信行为向量,取关联系数的数值为第二大的待处理行为子切片对应的事件表征向量(即关联系数的数值为第二大的待处理行为子切片对应的待处理用户行为向量)为次高可信行为向量,若是该高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数与次高可信行为向量对应的待处理行为子切片与对比行为子切片之间的关联系数满足指定预设条件(指定预设条件具体参见上述步骤S205至步骤S207,在此不再进行赘述),则将该高可信行为向量确定为参考行为切片中的关键行为,并将该关键行为定义为目标关键行为。
本发明实施例提供还提供如下示例:
步骤S301,获取第一用户行为记录和第二用户行为记录;
具体的,通过用户行为识别网络获取上述第一用户行为记录和第二用户行为记录。
步骤S302,基于关注度系数获取第一用户行为记录对应的第一用户行为序列,第一用户行为序列中两两行为切片之间的排序依据为关注度系数;基于关注度系数获取第二用户行为记录对应的第二用户行为序列,第二用户行为序列中两两行为切片之间的排序依据为关注度系数,第一用户行为序列和第二用户行为序列分别包括多个不同关注度的行为切片;
具体的,获取预先设定的用户行为序列的关注度系数,即用户行为序列中相邻两个行为切片之间的关注度系数,按照该关注度系数创建第一用户行为记录对应的第一用户行为序列和第二用户行为记录对应的第二用户行为序列,上述第一用户行为序列和第二用户行为序列分别包括多个不同关注度的行为切片。由于第一用户行为记录与第二用户行为记录中包含有全部或部分相同的行为记录特征,因此,第一用户行为序列与第二用户行为序列中同样包含有相同的用户行为向量,由此,可以进行下述同一用户行为向量对应不同用户行为记录的用户行为序列中的索引建立。对应的,上述将目标用户行为向量集合和目标关键行为向下一个行为记录进行映射至时,目标用户行为向量集合和目标关键行为在行为切片中的坐标对应扩大倍数为上述关注度系数。
步骤S303,确定第一用户行为记录在第一用户行为序列的任一行为切片的基础用户行为向量,将第二用户行为序列中具有最高关注度行为切片确定为参考行为切片。
步骤S304,基于用户行为识别模型和业务场景将基础用户行为向量关联到参考行为切片,在参考行为切片中得到参考用户行为向量,并基于基础用户行为向量、参考用户行为向量,得到第一用户行为记录和第二用户行为记录之间的关联映射关系。
步骤S305,以参考用户行为向量为事件表征向量在参考行为切片中获取参考行为子切片,基于关联映射关系对应的逆关联映射关系,将参考行为子切片关联到基础用户行为向量所在行为切片,在基础用户行为向量所在行为切片中得到参考行为子切片对应的对比行为子切片,并确定对比行为子切片的事件表征向量为关键用户行为向量。
步骤S306,获取基础用户行为向量关联到参考行为切片中的目标用户行为向量集合。
步骤S307,基于对比行为子切片与目标用户行为向量集合上的多个待处理用户行为向量对应的待处理行为子切片之间的关联系数,在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引。
其中,步骤S303的具体实现过程请参见前述实施例中对步骤S102的描述,步骤S304的具体实现过程请参见前述实施例中对步骤S103的描述,步骤S305的具体实现过程请参见前述实施例中对步骤S104的描述,步骤S306的具体实现过程请参见前述实施例中对步骤S105的描述,步骤S307的具体实现过程请参见前述实施例中对步骤S106的描述,这里将不再进行赘述。
本发明实施例通过获取第一用户行为记录和第二用户行为记录对应的第一用户行为序列和第二用户行为序列;确定第一用户行为序列中的任一行为切片的关键用户行为向量,将关键用户行为向量映射至第二用户行为序列中的参考行为切片,基于用户行为向量集合在第二用户行为序列中遍历关键用户行为向量对应的目标关键行为,当确定出的目标关键行为所在行为切片的表征事件与关键用户行为向量在第一用户行为序列中的表征事件相同时,终止遍历下一行为切片中的目标关键行为,并建立关键用户行为向量与最终采集的目标关键行为之间的数据库索引。由此可见,在对用户行为向量进行索引建立的过程中,并未对用户行为记录进行描述子的确定,从而减少了匹配过程中的计算量,提高了匹配效率,且通过用户行为向量集合搜索的方法进行行为向量的匹配,可以根据未经畸变校正的原始用户行为记录得到较准确的行为向量的匹配切片区间,从而提高了匹配的准确性。
本发明实施例提供一种目标关键行为的优化方法的示例,其中,步骤S401-步骤S403是在前述最后一个步骤S307中最后一次得到的目标关键行为进行优化,并建立优化切片区间与目标关键行为之间的数据库索引的操作。方法可以包括:
步骤S401,以关键用户行为向量为事件表征向量在对比行为子切片中获取参考对比行为子切片,并将最终采集的目标关键行为作为对比行为,并在对比行为所在的行为切片中获取以对比行为为事件表征向量的目标对比行为子切片,目标对比行为子切片的表征事件与参考对比行为子切片的表征事件相同;
具体的,以关键用户行为向量为事件表征向量在对比行为子切片中获取参考对比行为子切片,比如以关键用户行为向量为事件表征向量,在对比行为子切片中取预设时间范围的参考对比行为子切片。将通过步骤S307最后一次得到的目标关键行为最为对比行为,并以对比行为为事件表征向量,在对比行为所在的行为切片中获取与上述参考对比行为子切片相同的行为子切片,将该行为子切片称之为目标对比行为子切片,比如,以对比行为为事件表征向量,在对比行为所在的行为切片中取预设时间范围的目标对比行为子切片。
步骤S402,基于目标对比行为子切片中的行为参量、参考对比行为子切片中的行为参量,确定目标对比行为子切片的区间切片优化系数,基于切片优化系数调整目标对比行为子切片的区间。
步骤S403,当切片优化系数对应的符合优化终止状态时,将区间优化后的目标对比行为子切片的事件表征向量确定为已优化关键行为,建立关键用户行为向量与已优化关键行为之间的数据库索引。
具体的,上述对目标对比行为子切片中的用户行为进行优化之后的迭代的操作最多进行20次,如果迭代的过程中某次达到收敛,则退出迭代,此时得到目标对比行为子切片的最佳切片区间,认为匹配成功,将此时的目标对比行为子切片的事件表征向量的用户行为称之为已优化关键行为。基于已优化关键行为确定第一用户行为记录对应的用户行为序列上的关键用户行为向量在第二用户行为记录对应的用户行为序列上的最佳切片区间,建立上述已优化关键行为与关键用户行为向量之间的数据库索引。
请结合参阅图2,图2为本发明实施例提供的一种基于人工智能的数据库索引建立***110,包括:
响应模块1101,用于响应于用户行为记录获取请求,获取用户行为记录获取请求包括的发送方地址、发送方身份标识以及发送发权限。
识别模块1102,用于将发送方地址、发送方身份标识以及发送发权限输入预先训练的用户身份识别模型,得到用户身份识别结果。
建立模块1103,用于当用户身份识别结果表征为合法用户时,从用户行为存储服务器中获取目标用户行为记录,目标用户行为记录包括第一用户行为记录和第二用户行为记录;建立根据第一用户行为记录确定的关键用户行为向量与根据第二用户行为记录确定的目标关键行为之间的数据库索引,以基于数据库索引确定训练用户行为评估模型的训练数据。
基于此,本发明还提供了一种服务器,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
需要说明的是,前述基于人工智能的数据库索引建立***110的实现原理可以参考前述基于人工智能的数据库索引建立方法的实现原理,在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,SOC)的形式实现。
本发明实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的基于人工智能的数据库索引建立***110。如图3所示,图3为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括基于人工智能的数据库索引建立***110、存储器111、处理器112及通信单元113。
为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。基于人工智能的数据库索引建立***110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作***(operatingsystem,OS)中的软件功能模块。处理器112用于执行存储器111中存储的基于人工智能的数据库索引建立***110,例如基于人工智能的数据库索引建立***110所包括的软件功能模块及计算机程序等。
本发明实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备执行前述的基于人工智能的数据库索引建立方法。
出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。基于上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。基于上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。