CN112138403B - 交互行为的识别方法和装置、存储介质及电子设备 - Google Patents

交互行为的识别方法和装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112138403B
CN112138403B CN202011119912.2A CN202011119912A CN112138403B CN 112138403 B CN112138403 B CN 112138403B CN 202011119912 A CN202011119912 A CN 202011119912A CN 112138403 B CN112138403 B CN 112138403B
Authority
CN
China
Prior art keywords
behavior
statistical
feature
target
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011119912.2A
Other languages
English (en)
Other versions
CN112138403A (zh
Inventor
陈观钦
王洁怡
丁朝
陈远
王摘星
王阔
江彩霞
陈斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011119912.2A priority Critical patent/CN112138403B/zh
Publication of CN112138403A publication Critical patent/CN112138403A/zh
Application granted granted Critical
Publication of CN112138403B publication Critical patent/CN112138403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/75Enforcing rules, e.g. detecting foul play or generating lists of cheating players

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种交互行为的识别方法和装置、存储介质及电子设备。该方法包括:获取目标用户账号在目标应用中执行交互行为所生成的行为记录;从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征,行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果;获取与行为序列特征相匹配的序列向量和与行为统计特征相匹配的统计向量;融合序列向量及统计向量得到行为识别系数;在行为识别系数大于或等于目标阈值的情况下,确定所执行的交互行为是目标交互行为。本发明解决了无法识别出反映用户真实的交互行为所导致的行为识别准确性较低的问题。

Description

交互行为的识别方法和装置、存储介质及电子设备
技术领域
本发明涉及计算机领域,具体而言,涉及一种交互行为的识别方法和装置、存储介质及电子设备。
背景技术
在很多游戏应用中,为了保证游戏的公平性,常常会基于不同玩家的历史游戏行为产生的大数据,来计算用以表征玩家游戏行为的健康程度的指标,进而基于这些指标来调整各个玩家的游戏权限。如使用包括账号信息、日常活跃、游戏付费、作弊处罚、安全贡献五个维度及其800多个子维度的数据,来计算不同玩家的游戏信用值,从而实现基于该游戏信用值来为不同信用等级的玩家提供不同的游戏权限,例如,给高信用玩家提供特权或福利,而对低信用玩家进行行为限制,具体可以为:降低上述低信用玩家的收益、提高上述低信用分玩家在游戏中的发言/私聊/加好友等交互行为的门槛、限制上述低信用分玩家交易或取消上述低信用分玩家的游戏测试资格、体验服资格或活动资格等。
其中,部分个人玩家会选择挂机、部分工作室玩家会通过较长时间的挂机和在游戏应用中执行简单操作来进行刷分,也就是通过增加日常活跃度,达到恢复游戏信用值的目的。
也就是说,在相关技术中尚未提供一种有效的识别方式,来识别出用于反映出用户在各个终端应用中的真实的活跃度的交互行为,从而导致行为识别准确性较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种交互行为的识别方法和装置、存储介质及电子设备,以至少解决无法识别出反映用户真实的交互行为所导致的行为识别准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种交互行为的识别方法,包括:获取目标用户账号在目标应用中执行交互行为所生成的行为记录;从上述行为记录中提取上述目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,上述行为序列特征用于指示上述交互行为在目标时间段内的时序特性,上述行为统计特征用于指示上述交互行为基于多个统计标签分别进行统计后的统计结果;获取与上述行为序列特征相匹配的序列向量,和与上述行为统计特征相匹配的统计向量;融合上述序列向量及上述统计向量,得到行为识别系数;在上述行为识别系数大于或等于目标阈值的情况下,确定上述目标用户账号所执行的交互行为是目标交互行为。
根据本发明实施例的另一方面,还提供了一种交互行为的识别装置,包括:第一获取单元,用于获取目标用户账号在目标应用中执行交互行为所生成的行为记录;提取单元,用于从上述行为记录中提取上述目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,上述行为序列特征用于指示上述交互行为在目标时间段内的时序特性,上述行为统计特征用于指示上述交互行为基于多个统计标签分别进行统计后的统计结果;第二获取单元,用于获取与上述行为序列特征相匹配的序列向量,和与上述行为统计特征相匹配的统计向量;融合单元,用于融合上述序列向量及上述统计向量,得到行为识别系数;识别单元,用于在上述行为识别系数大于或等于目标阈值的情况下,确定上述目标用户账号所执行的交互行为是目标交互行为。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述交互行为的识别方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的交互行为的识别方法。
在本发明实施例中,基于行为序列和统计特征所构建的双塔模型,从目标用户账号的行为记录提取出行为序列特征和行为统计特征,并获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量,以融合两个向量得到用于预测用户所执行的交互行为为目标交互行为的行为识别系数。也就是说,通过融合用户账号在目标应用中所执行的交互行为的时序特性,和基于多个统计标签对交互行为分别统计的统计结果,来准确的识别出该目标用户账号真实的交互行为,从而达到确保得到该用户账号的真实的活跃度的效果,进而克服相关技术中由于用户恶意挂机等行为所导致的识别出用户的真实交互行为的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的交互行为的识别方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的交互行为的识别方法的流程图;
图3是根据本发明实施例的一种可选的交互行为的识别方法的示意图;
图4是根据本发明实施例的另一种可选的交互行为的识别方法的流程图;
图5是根据本发明实施例的又一种可选的交互行为的识别方法的示意图;
图6是根据本发明实施例的又一种可选的交互行为的识别方法的示意图;
图7是根据本发明实施例的又一种可选的交互行为的识别方法的示意图;
图8是根据本发明实施例的一种可选的交互行为的识别方法的示意图;
图9是根据本发明实施例的一种可选的交互行为的识别装置的结构示意图;
图10是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请实施例中,可以但不限于使用以下技术术语:
人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
卷积神经网络(Convolutional Neural Networks,简称CNN)是一类包含卷积计算具有深度结构的前馈神经网络,是深度学***移不变分类。其中,卷积神经网络的隐含层包含卷积层、池化层和全连接层,卷积层中的卷积核包含权重系数。
多尺度一维CNN结构:包括特征嵌入模块和CNN特征抽取模块的多尺度,表示从多种角度描述更加丰富和全面的特征信息。在特征嵌入模块中,把输入序列数据转换成的稠密特征向量序列,然后合并成矩阵形式的特征信息,行代表每个序列点的向量表示,列代表行为序列的长度。在CNN特征抽取模块中,分别采用不同宽度窗口(也可称作不同尺度)的卷积提取n-gram(卷积核)的特征,同时通过多层一维卷积CNN层次化地提炼出不同尺度的高层关键特征。
根据本发明实施例的一个方面,提供了一种交互行为的识别方法,可选地,作为一种可选的实施方式,上述交互行为的识别方法可以但不限于应用于如图1所示的硬件环境中的交互行为的识别***中,其中,该交互行为的识别***可以包括但不限于终端设备102、网络104、服务器106。终端设备102中运行有目标应用客户端(如游戏应用客户端)。上述终端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于呈现上述目标应用客户端的应用界面(如游戏应用界面),还用于提供人机交互接口接收对人机交互界面执行的人机交互操作;处理器1024用于响应上述人机交互操作得到人机交互指令,并传递给服务器106。存储器1026用于存储目标用户账号在目标应用中执行交互行为所生成的行为记录。
此外,服务器106中包括数据库1062及处理引擎1064,数据库1062中用于存储各个用户账号的行为记录,及交互行为的属性信息。处理引擎1064用于根据行为记录对交互行为进行准确识别。
具体过程如以下步骤:假设终端设备(如移动终端)102中显示有游戏应用界面,如步骤S102-S104,获取目标用户账号在该目标应用中执行交互行为生成的行为记录,并将该行为记录通过网络发送给服务器106。其中,这里的行为记录为目标用户账号在游戏应用中执行交互行为所生成的记录。
然后服务器106将执行步骤S106-S114:服务器106将从上述行为记录中提取上述目标用户账号所执行的交互行为的行为序列特征及行为统计特征。这里的行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果。然后获取与上述行为序列特征相匹配的序列向量和与上述行为统计特征相匹配的统计向量。在融合上述序列向量及统计向量之后,得到行为识别系数,并在该行为识别系数大于或等于目标阈值的情况下,确定上述目标用户账号所执行的交互行为是目标交互行为。这里目标交互行为用于指示目标用户账号真实执行的行为,而并非依赖非正常手段产生的行为,从而实现获取到该目标用户账号真实的活跃度,并将其通过网络104发送至终端设备102,以使得终端设备102可以展示出上述活跃度,便于分析用户账号的行为特点。
需要说明的是,在本实施例中,基于行为序列和统计特征所构建的双塔模型,从目标用户账号的行为记录中提取出行为序列特征和行为统计特征,并获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量,以融合两个向量得到用于预测用户所执行的交互行为是目标交互行为的行为识别系数。也就是说,通过融合用户账号在目标应用中所执行的交互行为的时序特性,和基于多个统计标签对交互行为分别统计的统计结果,来准确的识别出该目标用户账号真实的交互行为,从而达到确保得到该用户账号的真实的活跃度的效果,进而克服相关技术中由于用户恶意挂机等行为所导致的识别出用户的真实交互行为的准确性较低的技术问题。
可选地,在本实施例中,上述终端设备可以是配置有目标应用的客户端的终端设备,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标应用的客户端可以是游戏客户端、视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述交互行为的识别方法包括:
S202,获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
S204,从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果;
S206,获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量;
S208,融合序列向量及统计向量,得到行为识别系数;
S210,在行为识别系数大于或等于目标阈值的情况下,确定目标用户账号所执行的交互行为是目标交互行为。
可选地,在本实施例中,上述交互行为的识别方法可以但不限于应用于人机交互应用(即目标应用)中,如游戏应用、即时通信应用、视频播放应用等应用。通过本申请实施例中提供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,来提取各个用户账号的行为序列特征和行为统计,以便于融合上述内容对用户进行信用评估分析,得到用户的信用评估值(如行为识别系数),从而达到准确地识别出用户账号对应的行为识别系数,进而确定出执行真实行为的高质量的用户活跃度,并基于该高质量的用户活跃度分析用户的登录习惯和使用习惯,以便于引导用户正向使用上述终端设备中安装的人机交互应用,避免长时间沉迷其中而影响正常的工作生活。
需要说明的是,通过融合用户账号在目标应用中所执行的交互行为的时序特性,和基于多个统计标签对交互行为分别统计的统计结果,来准确的识别出该目标用户账号真实的交互行为,从而达到确保得到该用户账号的真实的活跃度的效果,进而克服相关技术中由于用户恶意挂机等行为所导致的识别出用户的真实交互行为的准确性较低的技术问题。
可选地,在本实施例中,上述行为序列特征可以但不限于是基于目标用户账号在目标应用中执行交互行为的活跃行为序列确定得到。这里的活跃行为序列可以但不限于是单维度的行为序列。如从用户日志得到目标时间段内(如一天)目标用户账号使用目标应用执行交互行为的时间点序列,按照固定时间段分片的形式,把上述时间点序列的时间点转换为便于机器训练的序列特征。如以一天为例,一天24个小时可以划分得到24个分片,每个小时分片的游戏时长(0-60分钟),构成一个长度为24的行为序列数据。
此外,假设在每一个时间点用编号信息表示当前交互行为,则对行为序列长度为L的行为序列数据,每个序列编号下的交互行为还可以通过参数的分布式向量表示。例如,对序列长度为L的行为序列数据中的每一个ID编号分别做ID Embedding,得到M维向量序列,合并成单通道的特征矩阵,如输出的数据将是行为序列对应的矩阵(L,M)。
可选地,在本实施例中,上述行为统计特征可以但不限于是对用户账号执行的交互行为基于多个统计标签分别统计的统计结果。例如,以游戏应用为例,上述统计标签可以包括但不限于:游戏类型偏好、游戏活跃数量、活跃时段分布、组队发言等多维度标签。这里行为统计特征可以包括但不限于:数值型特征、类别型特征。其中,这里的数值型特征用于表示是特征值为数值的特征,如游戏活跃数量10个,游戏活跃时长2小时等。而类别型特征用于表示特征值为类型的特征,如游戏类型偏好为多人游戏类型。进一步可以对上述行为统计特征进一步处理:如对数值型特征的数值进行归一化处理,对类别性特征进行独热编码(one-hot)处理。然后对上述处理后的特征再进行过滤,以去除冗余特征,剔除其他满足条件的参考特征,如对特征进行单变量验证,然后剔除数值方差极小和信息值(Information Value,简称IV)较小的变量,或通过相关系数找到相关性较高的变量等。上述为示例,本实施例中对此不作任何限定。
其中,需要说明的是,独热编码(one hot编码),又称一位有效编码,是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。具体在本实施例中,可以但不限于利用one-hot来指代类别性特征,如假设针对A类游戏,喜好则编码值为1,不喜好则编码值为0;针对B类游戏,喜好则编码值为1,不喜好则编码值为0。在上述场景中,若获取到编码值10,则表示该目标用户账号的行为记录反映该用户喜好A类游戏,但不喜好B类游戏。
可选地,在本实施例中,可以但不限于采用结合行为序列和统计结果构建双塔结构的目标识别网络模型,来获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量,并融合两个向量以得到用于指示交互行为的真实性的行为识别系数。
其中,这里目标识别网络模型的双塔结构可以包括但不限于:第一识别子网络和第二识别子网络,以及融合结构。例如,如图3所示,通过第一识别子网络302获取行为序列特征对应的序列向量,通过第二识别子网络304获取行为统计特征对应的统计向量。然后通过融合结构306以融合两个全局向量,以得到上述行为识别系数。
需要说明的是,上述双塔结构的设计目的主要出于以下考量:
行为统计特征是基于多个统计标签统计得到,其对目标是否是主要执行真实行为的高质量活跃用户有强关联性。这里可以单独构建模型来判别用户是否为高质量活跃用户,但这些行为统计特征是属于不同维度方面的特征,还可以对特征做一些交叉组合以及高级融合以得到更复杂的特征。
此外,行为序列特征也对是否是高质量活跃用户有重大影响。如实际上有很多用户以及工作室通过挂机的形式来伪造活跃时长,例如全天大部分时间在线甚至凌晨多个时段在线等手段,以增加使用目标应用的活跃时长。他们的活跃行为序列很固定或者很相似,而难以通过人工设计的统计特征来刻画。因而可以通过一个卷积神经网络模型来提取行为序列数据中的关键行为序列特征,从而实现基于关键行为序列特征来区分上述伪造的活跃数据。
为了使得上述行为序列特征和行为统计特征这两种形式特征实现结合,因而在本实施例中提出了结合行为序列和统计结果构建的双塔结构的目标识别网络模型,以自适应融合上述两种形式特征,达到更加准确的识别效果。
可选地,在本实施例中,通过第一识别子网络的识别处理,将对行为序列特征进行卷积操作得到N个候选行为片段特征矩阵,再对这里N个候选行为片段特征矩阵进行最大池化处理,将得到N个关键行为片段特征向量。其中,上述第一识别子网络可以包括但不限于:嵌入层(Embedding)、卷积层、门控过滤层,其中,上述卷积层可以但不限于为M层N尺度卷积结构,M、N为正整数。上述门控过滤层可以但不限于为门控过滤结构,如Highway结构。
可选地,在本实施例中,为了对特征做一些交叉组合以及高级融合以得到更丰富和重要的特征,上述第二识别子网络可以包括但不限于:多阶特征融合结构,这里多阶特征融合结构可以包括但不限于:用于提取行为统计特征中的一阶特征的一阶特征提取结构、用于提取行为统计特征中的二阶特征的二阶特征提取结构及用于提取行为统计特征中的高阶特征的高阶特征提取结构。这里为是示例,本实施例中对此不作任何限定。
此外,在本实施例中,为了对上述序列向量及统计向量进行融合处理,可以包括但不限于采用全连接非线性层做融合和分类。
具体结合图4所示示例进行说明:
假设如步骤S402,获取到目标用户账号(如ID-1)的用户日志,然后如步骤S404-1,基于该用户日志获取目标用户账号的行为序列数据,并根据这里的行为序列数据提取出目标用户账号的行为序列特征,如步骤S406-1,同时如步骤S404-2,执行特征设计和特征选择,以得到目标用户账号的行为统计特征,如步骤S406-2。
然后如步骤S408-S410,基于双塔结构的目标神经网络模型进行识别,以预测得到目标用户账号对应的行为识别系数。并根据该行为识别系数与目标阈值的比对结果,来确定调整目标用户账号的权限,如步骤S412。
例如,在行为识别系数小于等于目标阈值的情况下,这里的权限调整可以包括但不限于:降低上述低信用玩家的收益、提高上述低信用分玩家在游戏中的发言/私聊/加好友等交互行为的门槛、限制上述低信用分玩家交易或取消上述低信用分玩家的游戏测试资格、体验服资格或活动资格等。在行为识别系数大于目标阈值的情况下,这里的权限调整可以包括但不限于:提供使用特权或福利等,如提供游戏测试资格、体验服资格或活动资格等。上述为示例,本实施例对此不作任何限定。
通过本申请提供的实施例,基于行为序列和统计特征所构建的双塔模型,从目标用户账号的行为记录中提取出行为序列特征和行为统计特征,并获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量,以融合两个向量得到用于预测用户所执行的交互行为是目标交互行为的行为识别系数。也就是说,通过融合用户账号在目标应用中所执行的交互行为的时序特性,和基于多个统计标签对交互行为分别统计的统计结果,来准确的识别出该目标用户账号真实的交互行为,从而达到确保得到该用户账号的真实的活跃度的效果,进而克服相关技术中由于用户恶意挂机等行为所导致的识别出用户的真实交互行为的准确性较低的技术问题。
作为一种可选的方案,获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量包括:
通过目标识别网络模型中的第一识别子网络获取行为序列特征相匹配的序列向量,并通过目标识别网络模型中的第二识别子网络获取行为统计特征相匹配的统计向量,其中,第一识别子网络中包括多尺度卷积结构和门控过滤结构,第二识别子网络中包括多阶特征融合结构。
可选地,在本实施例中,在目标识别网络模型中,获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量包括:
在第一识别子网络中,通过M层N尺度卷积结构对行为序列特征进行卷积操作,以得到N个候选行为片段特征矩阵,其中,多尺度卷积结构包括M层N尺度卷积结构,M、N为正整数;对N个候选行为片段特征矩阵分别进行最大池化处理,得到N个关键行为片段特征向量;通过门控过滤结构对N个关键行为片段特征向量进行融合,以得到序列向量;
在第二识别子网络中,通过多阶特征融合结构分别提取行为统计特征的第一阶特征、第二阶特征及第三阶特征;拼接第一阶特征、第二阶特征及第三阶特征,得到多阶统计特征;对多阶统计特征进行转换,以得到统计向量。
可选地,在本实施例中,上述第一识别子网络用于对行为序列特征进行识别分析,以得到序列向量。其中需要通过多尺度卷积结构(如M层N尺度卷积结构)进行一维卷积的滑动卷积操作,以得到N个候选行为片段特征矩阵。抽取各个片段特征分别进行最大池化处理,以得到目标用户账号的N个关键行为片段特征向量。
需要说明的是,由于关键行为片段的长度是不定的,所以需要使用多种尺度的一维卷积操作,同时抓取多个片段的特征。再者,由于CNN结构有逐层抽象特征的作用,而且多层结构,可以扩大感受,增大片段的长度,看到更长的行为片段。因此,在本申请实施例中,可以但不限于采用多尺度的三层一维卷积结构来抽取行为序列特征。其具体操作原理可以结合图5所示内容,说明如下:
假设在获取矩阵中的L个序列变量之后,执行Embedding处理,然后合并矩阵,以获取到行为序列特征对应的矩阵为(L,M)。对其执行3层N种不同宽度的一维卷积操作,而且每种宽度的卷积核也有多个卷积核(例如本实施例中选择取用32个卷积核),每种宽度的卷积操作是分别单独进行的,不同参数的卷积核能够提取不同方面的特征。
这里通过第一层的卷积层(如图5所示“第一层”)对上述特征矩阵按照行做一维滑动卷积操作,提取浅层的特征。其中一维卷积核使用了多种不同宽度(即多尺度)的卷积窗口。例如,如图5所示,假设N=7,也就是采用了conv1到conv7代表7种不同宽度的一维卷积操作,分别提取1~Ngram的特征。这里每种宽度的卷积核能够得到32种长度为L特征序列。或者说是长度为L的32维特征向量,一共有N种宽度,所以第一层的卷积层的输出结果是(N,L,32)。
第二层的卷积层(如图5所示“第二层”)执行的卷积操作是叠加在第一层的卷积层的输出结果的基础上,对第一层的卷积层的输出的(N,L,32)特征做进一步的特征提取,同时也是分别对第一层同种宽度的卷积层的输出(L,32)继续采用32个同种宽度的一维卷积核进行滑动卷积操作,所以第二层的卷积层的输出结果也是(N,L,32)。
第三层的卷积层(如图5所示“第三层”)执行的卷积操作是叠加在第二层卷积的输出结果的基础上,其卷积操作和第二层的卷积操作相同。需要说明的是,这里通过多层叠加的卷积操作,层次化地进行特征的抽象,得到高层的序列特征。其中,第三层的卷积层的输出结果是(N,L,32)。
然后对每种尺度的第三层的卷积层的输出特征分别做进一步的特征过滤,突出关键的行为片段特征。这里对第三层每种宽度的卷积输出,序列长度为L的32维特征向量,基于序列长度L做最大池化处理,以得到32维度的输出向量。由于有N种不同宽度的卷积类型,所以输出是N个32维度的向量,如图5所示为7*32的关键行为片段特征向量。
下面将以2-gram的卷积方式为例来详细说明一维CNN模块的具体操作过程:
先是对行为序列通道顺序相连的两个ID嵌入向量(如图5所示Embedding层的输出结果)进行卷积并相加操作,如公式(1):
Figure BDA0002731635460000141
其中,W1和W2分别表示两个相邻的ID嵌入向量Ti和Ti+1做对应元素相乘再相加的操作时所使用的权重参数。然后对各个元素相加求和得到一个实数值
Figure BDA0002731635460000151
接着,由于一层卷积结构有32组不同的卷积核参数,所以有32个输出值。通过如下公式(2),把卷积操作得到的元素值分别经过激励函数Relu,得到32维度的输出向量Ci
Figure BDA0002731635460000152
至此,第一层卷积层的操作完成,一共得到了序列长度为L的32维度的输出向量。
后续CNN卷积层以前一层的卷积输出矩阵作为输入,其卷积操作和输出结果和公式(1)和(2)相同,其中下标i表示序列的长度L,下标j表示使用的卷积核个数。
在完成三层卷积操作之后,对于第三层的卷积层的输出结果进行最大池化处理,也就是基于序列长度L这一维度取元素的最大值,定义如下公式(3),所以每一种尺度中32个卷积核的卷积输出经过最大池化处理后,将输出32维度的向量。
Figure BDA0002731635460000153
可选地,在本实施例中,上述门控过滤结构可以但不限于采用Highway结构。这里Highway结构相当于输入某一层网络的数据一部分经过非线性变换,而另一部分直接从网络跨过去不作转换。
需要说明的是,对于上述M层N尺度卷积结构执行的一维卷积操作,将从行为序列数据提取到多个候选行为片段特征矩阵,其多个尺度可以根据实际场景需要进行设置。这里N个关键行为片段特征向量还需要单独提取的,并做进一步的融合。在本实施例中,HighWay结构能够更好地融合多个候选片段特征,并通过门控机制加强突出一些重要的活跃行为片段。因此,HighWay结构可以对上层卷积结构抽取的N个关键行为片段特征向量做进一步融合和转换,得到固定维度的全局行为向量。
这里对N个关键行为片段特征向量做元素级别的门控过滤和全局的特征融合,其相当于把每一个卷积核的输出结果做进一步门控过滤和特征转换。这里不同的卷积窗口宽度是超参数,这样能够进一步自适应地融合多尺度的特征和每一维的特征元素,使结果更稳健些。这里借鉴HighWay网络结构,其公式可以参考如下公式(4)~(6),其中是Input表示输入向量,也即是N*32维的特征向量,
Figure BDA0002731635460000161
Figure BDA0002731635460000162
是权重参数。
Figure BDA0002731635460000163
Figure BDA0002731635460000164
output=trans*gate+Input*(1-gate) (6)
可选地,在本实施例中,上述第二识别子网络用于对行为统计特征进行识别分析,以得到统计向量。其中需要通过多阶特征融合结构提取不同阶的特征,再进行融合,以得到统计向量。其中,行为统计特征可以包括但不限于:类型偏好、活跃数量、时段分布、组队发言等多个维度。
下面将结合图6所示内容来说明其特征分布式表示以及多阶特征融合,说明如下:
由于行为统计特征是根据多个统计标签的统计结果得到的不同维度的特征,这里可以通过向量嵌入(Embedding)的形式得到不同特征的分布式向量表示,然后再结合自身的特征值做一个加权,得到统计特征的多维度向量表示。这里多维度向量可以但不限于是可学习的参数,随着目标函数做优化,并作为给后续统计特征模块的输入。
需要说明的是,这里的行为统计特征中包括数值型特征和类别性特征,其中类别性特征是离散特征。如图6所示,将各个离散特征(如特征1至特征F中的特征)看作是一个独立维度的信息,通过ID嵌入向量(如Embedding)的形式映射为特定维度的分布式向量表示,然后再与自身的特征数值相乘,得到每个特征的多维向量表示。
具体可以如公式(7),这里Ei是embedding后得到的向量。其中,OneHoti表示图6中所示特征i(i∈[1,2,...F])的编号,Wembed是嵌入矩阵参数。上述统计特征包括F个特征,嵌入向量为K维度,所以输出向量的维度是(F,K),Ei表示特征域嵌入的结果。在公式(8)中,xi是特征i的原始特征值,Embedingi表示特征通过Embedding层结果。
Ei=OneHotiWembed (7)
Embedingi=Ei*xi (8)
通过本申请提供的实施例,通过第一识别子网络中的多尺度卷积结构和门控过滤结构,结合第二识别子网络中的多阶特征融合结构,构建出双塔结构的目标识别网络模型,从而实现基于该模型学习目标用户账号的用户日志中的行为序列特征和行为统计特征,以便于融合上述特征,以得到准确地确定出用于识别用户行为真实性的行为识别系数,从而达到提高行为识别准确性的目的,确保获取到高质量的活跃度数据,进而基于该活跃度数据对用户账号做出准确地权限调整处理。
作为一种可选的方案,在第二识别子网络中,通过多阶特征融合结构分别提取行为统计特征的第一阶特征、第二阶特征及第三阶特征包括:
通过多阶特征融合结构中的第一特征提取结构,提取行为统计特征的一阶特征,其中,第一特征提取结构用于对特征元素执行线性加权求和操作;
通过多阶特征融合结构中的第二特征提取结构,提取行为统计特征的二阶特征,其中,第二特征提取结构用于对特征元素执行交叉组合操作;
通过多阶特征融合结构中的第三特征提取结构,提取行为统计特征的多阶特征,其中,第三特征提取结构用于对特征元素执行缩放拼接操作。
需要说明的是,在本实施例中,上述行为统计特征的原始特征信息很关键。一些不同维度特征的组合能够更好地描述用户账号执行的交互行为的真实性。例如,其可以通过网络结构的形式,自动学习二阶交叉特征的权重。再者,对于所有统计特征的多层非线性转换能够抽取到人工无法刻画的一些高阶融合特征。
因此,在统计特征抽取方面,在本实施例中,将使用三种不同的特征提取结构分别抽取行为统计特征的一阶特征(使用第一特征提取结构提取的第一阶特征)、二阶特征(使用第二特征提取结构的第二阶特征)和高阶特征(使用第三特征提取结构的第三阶特征),然后再进一步融合得到统计向量。这里原理和推荐***中的Deep FM模型的原理类似,采用多种结构来丰富多阶融合原始特征。统计特征转换模块的具体操作方式如下:
第一种特征提取结构是对上一层Embedding后的统计特征的特征向量做两两交叉组合,得到二阶组合特征(如上述第二阶特征)。如图6右侧所示,将特征1至特征F经过Embedding处理后的所有特征向量中的两两特征向量进行对应元素相乘,然后再做对应元素相加的操作。然后再经过带Tanh激活函数的全连接层的转换。其作用是对不同域的特征做二阶的特征交叉。
对于二阶交叉特征的计算原理,如下公式(9)所示,其中xi和xj表示原始特征值,Ei和Ej表示统计特征的嵌入向量,F表示特征的个数。⊙表示对应元素相乘。也即是对所有特征向量两两对应元素相乘后,再对应元素求和。
Figure BDA0002731635460000181
为了提高运算效率,可对二阶交叉特征的计算方法做进一步的优化,二阶交叉特征的乘法计算量由O(n2)降为O(n)。其原理和推荐***中经典算法NFM和Deep FM中输入特征的二阶交叉求解方法类似,其等价公式如下式(10)。直接对所有特征向量对应元素求和再求平方和先平方再求和的操作,避免了特征交叉计算需要两次循环遍历所有特征的操作。
Figure BDA0002731635460000182
第二种特征提取结构是对上一层Embedding后的统计特征的特征向量进行对应元素相加求和SUM,再通过多层的非线性映射层,逐步学习一阶线性加权特征的高阶特征(如上述第三阶特征)。如图6中间所示,将特征1至特征F经过Embedding处理后对全部统计特征的特征向量做多种维度的线性加权求和,得到多维向量输出。然后再经过两层包含致密层和Relu函数的非线性全连接层,对特征做进一步的转换。从而实现将原始特征在多种不同权重参数的一阶线加权映射得到M维度特征向量(也即通过Embedding层再求和得到的M维向量),再通过多层的非线性映射层,逐步学习一阶线性加权特征的高阶特征,自动学习原始统计特征之间的高阶关系。
需要说明的是,这里第一种和第二种特征提取结构都是共享Embedding层。
第三种特征提取结构是对原始统计特征的特征值按照预设权重进行缩放和直接拼接(如上述第一阶特征)。如图6左侧所示,将特征1至特征F进行一阶拼接,相当于逻辑回归的线性层,突出重要的原始,特征避免原始一阶特征的过多损失。从另一个角度讲,这也相当于线性残差连接的作用。
然后,把上述特征提取结构得到的一阶特征、二阶特征和高阶特征的特征向量直接拼接(合并(Concat))在一起,并通过包含致密层和Relu函数的非线性全连接层进一步融合不同阶的特征向量,得到统计特征的全局特征向量。
通过本申请提供的实施例,通过多阶特征融合结构中的第一特征提取结构、第二特征提取结构及第三特征提取结构,分别同时提取行为统计特征的一阶特征、二阶特征和高阶特征,从而实现融合出更加复杂的多阶特征,以提升对行为统计结果的学习的准确性。
作为一种可选的方案,融合序列向量及统计向量,得到行为识别系数包括:
S1,对序列向量及统计向量进行拼接,得到目标向量;
S2,通过非线性全连接层对目标向量进行全局融合和维度转换处理,得到行为识别系数。
需要说明的是,在本实施例中,对于第一识别子网络对应的单塔结构和第二识别子网络对应的单塔结构构成的双塔结构,将可以提取到全局行为向量和统计向量,再经过多源特征的自适应融合,基于可训练参数充分学习两部分特征向量的关系,从而达到提高对识别结果的预测的准确性的目的。
这里可以包括但不限于是对全局行为向量和统计向量拼接在一起,通过一层非线性全连接层做多源高层特征做全局的融合和维度转换。最后通过全连接分类层输出行为识别系数(即对行为为真实行为的预测概率)。
需要说明的是,这里双塔结构的目标识别网络模型的训练,是基于二分类交叉熵目标函数做优化,优化方式是采用Adam算法优化模型的各层参数,学习速率可以但不限于设置为0.0001。为了避免过拟合,对最后的全连接层权重参数可以但不限于添加L2正则化。
通过本申请提供的实施例,通过多个特征提取结构同时提取多种阶层的特征,并融合以得到更复杂的特征,从而使得目标神经网络模型可以提取到多维丰富特征,以便于更加准确地得到行为识别系数,以确保对交互行为的识别准确性。
作为一种可选的方案,从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征包括:
从行为记录中确定目标用户账号在目标周期内执行交互行为的时间点序列;按照预设的时间段分片,将时间点序列转换为行为序列特征;
对行为记录中的行为记录按照多个统计标签分别进行统计,得到候选统计特征,其中,候选统计特征中包括数值型特征和类别性特征;对候选统计特征进行过滤编码处理,得到行为统计特征。
可选地,在本实施例中,对候选统计特征进行过滤编码处理,得到行为统计特征包括:从候选统计特征中剔除冗余特征;对剔除冗余特征后的数值型特征进行归一化处理,并对剔除冗余特征后的类别性特征进行一位编码处理,得到中间统计特征;对中间统计特征中满足目标剔除条件的参考特征进行剔除,以得到行为统计特征。
可选地,在本实施例中,对于上述行为特征可以但不限于通过以下方式设计选择:
在结合业务的理解和根据多种日志信息(如图7所示用户活跃日志702-1、用户发言日志702-2、用户组队日志702-3及用户收藏日志702-4等)转换得到的初始特征704(如类型偏好、活跃数量、活跃时段分布、组队发言等多维度的特征信息)后,可以执行步骤S702-1进行特征转化,如从用户活跃日志中得到目标用户账号在目标时间段内使用目标应用的时间点序列,按照固定时间段分片的形式,把时间点序列的时间点转换为用于指示目标用户账号执行交互行为的时序特性的行为序列特征(如图7所示时序特征710)。
通过简单的特征工程保留重要的少量统计特征,剔除不相关和冗余的特征,以减少模型训练的时间,提高模型的精度。然后对统计特征执行步骤S702-2做标准化预处理,以得到预处理特征706:对数值型特征进行数值的归一化处理;对类别型特征进行独热编码处理。然后,如图7所示基于统计标签对统计特征执行步骤S704特征选择,主要是对所有特征进行单变量验证,剔除数值方差极小和IV较小的变量。并通过相关系数找到相关性较高的变量,进行随机剔除。最后基于随机森林建模的方式对特征做进一步的过滤和补充,最终得到F个特征(如图7所示统计特征708),其中包含连续数值的数值型特征和类别型特征。
通过本申请提供的实施例,对多个维度特征进行选择,以减少模型处理量,提高目标识别网络模型的处理量。
作为一种可选的方案,在获取目标用户账号在目标应用中执行交互行为所生成的行为记录之前,还包括:
获取多个样本行为记录,其中,多个样本行为记录中包括正样本行为记录和负样本行为记录,其中,正样本行为记录为目标交互行为的记录,负样本行为记录中包括非目标交互行为的记录;
利用多个样本行为记录,对初始化的识别网络模型进行多次训练,以得到目标识别网络模型,其中,初始化的识别网络模型中包括第一识别子网络和第二识别子网络。
可选地,在本实施例中,利用多个样本行为记录,对初始化的识别网络模型进行多次训练,以得到目标识别网络模型包括:
将多个样本行为记录依次输入训练中的识别网络模型,得到对应的训练结果;
基于二分类交叉熵目标函数对训练中的识别网络模型中的权重参数进行调整,其中,权重参数包括第一识别子网络中多尺度卷积结构关联的第一权重参数集合和门控过滤结构关联的第二权重参数集合,第二识别子网络中多阶特征融合结构关联的第三权重参数集合。
需要说明的是,在本实施例中,上述所使用的多个样本用户日志中的特征可以但不限于需要经过一下处理操作:数据采集、特征设计和特征选择三个阶段。下文以游戏应用为例进行说明:
在数据采集阶段,为了训练出来的模型能够在全游戏更通用,在休闲、第一人称射击游戏(First Person Shooting Game,简称FPS)、多人在线战术竞技游戏(MultiplayerOnline Battle Arena简称为MOBA)、大型多人在线角色扮演的网络游戏(MassiveMultiplayer Online Role-Playing Game,简称MMPRPG)等多个游戏品类分别选取代表性游戏,根据业务理解提取高质量活跃样本。比如MMORPG类游戏,通过是否有正常的社交行为、进行核心玩法活动及收益表现等维度来判断是否为高质量活跃。在FPS游戏中则通过击杀数、救援数及逃跑比例等维度来判断是否为高质量活跃。通过以上的筛选方式,得到一批高质量的正样本用户日志及非高质量的负样本用户日志。尽可能多的取到不同的活跃相关数据,包括近期活跃游戏的时长、类型、数量等。
此外,在特征的设计选择阶段,可以参考上述实施例,本实施例中对此不再赘述。
通过本申请提供的实施例,通过利用多维度的丰富特征来训练得到能够准确识别用户账号的交互行为的真实活跃度的目标神经网络。
具体结合图8所示示例进行说明:假设以以下环境为例实施本申请方案:采用的硬件平台是48G内存,V100显卡。采用的软件平台是基于Linux的64位操作***,python2.7,Tensorflow1.8。
基于图8中的双塔网络结构,各模块的参数和输出维度说明如下。把单个样本,每个时间点时M维向量,以维度是(L,M)的单样本数据作为输入样例,整个网络的具体结构参数和输出结果如下表1~3。其中表1是第一识别子网络的网络结构参数表。表2是统计特征的多阶特征融合结构的网络结构参数表。表3是融合行为序列特征和行为统计特征的分类网络参数表。(一些避免过拟合的退出和正则化辅助操作以及激活函数等不在下面的表格中体现)。
表1
Figure BDA0002731635460000231
Figure BDA0002731635460000241
表2
Figure BDA0002731635460000242
表3
统计和序列特征融合模块名 操作的输出结果 各层操作名称和参数
特征拼接层 64*6 拼接时序、统计特征(concat)
全连接层 192 64*6,192(dense layer)
分类层 2 192,2(denselayer+softmax)
基于约为1:1的是否为高质量玩家的有标签训练样本建模各种结构的模型,并在高质量和非高质量样本比是2009931:2103287的线下测试集合中,分别基于时序和统计特征以及两者的结合做了模型训练和效果对比,评估效果如下表4-表6所示,其中。其中评估指标中“黑”表示非高质量玩家的预测情况。“all”表示非高质量和高质量整体的评估效果。
其中下表4是只使用统计特征建模的序列模型效果对比,其中series_cnn表示上文中介绍的cnn模块。series_cnn_att表示在每种尺度的卷积输出使用注意力机制代替最大池化操作,series_rnn表示使用双向lstm循环神经网络建模时序数据,然后取双向lstm输出的最后隐含状态作为全局时序向量,最后再接全连接层和分类层的结构。series_rnn_att表示使用三头注意力机制对双向lstm的所有的输出向量做加权求和,得到语义更加丰富的全局向量,代替了series_rnn只取最后隐含状态的向量作为全局时序向量的操作方式。从下表4中,可以看出4个模型的F1效果不相伯仲,其中series_cnn模型的效果更优秀一点,而且模型更加简单,CNN结构能够并行和运行效率更高。
表4
Figure BDA0002731635460000251
对于下表5是只使用统计特征建模的不同模型效果对比,其中statis_order表示只使用统计特征,“_3”表示只用统计特征Embedding后相加的高阶特征,也即上表2中的高阶特征提取模块,“_2”表示只用统计特征Embedding层后的特征交叉组合,也即上表2中的二阶组合特征提取模块,“_1”表示使用上表2中的一阶特征提取模块,“_2_3”表示融合二阶和高阶特征的模型,“_1_3”表示融合一阶和高阶特征的模型,_1_2表示融合一阶和二阶特征的模型,也即类似FM的特征提取模型。statis_order_1_2_3模型是基于上表2介绍的多阶特征提取和融合模块。由下表5可以看出,与原始特征直接通过多层全连接层抽象高级特征的模型相比,结合不同阶统计特征的模型效果都更好。同时,当存在二阶交叉特征时,与一阶特征结合的模型和与高阶特征结合的模型效果不相伯仲。再者,从整体的F1值看,含有二阶交叉特征的模型效果更优,同时结合一、二和高阶统计特征的模型效果是最优的。
表5
Figure BDA0002731635460000261
对于下表6是结合时序和统计特征的各种组合模型效果对比,基于表3中序列模型的效果和运行效率考虑,对于序列变量的特征提取只使用上文介绍的series_cnn结构,对于统计特征的特征抽取模块分别使用表5中的不同阶特征组合模块做对比实验。表6中模型名称的“merge”字段表示融合时序和统计特征的端到端深度学***均集成。从下表6和下图4可以看出,与分别基于时序和统计特征建模两个模型再做概率集成的多阶段建模方式相比,通过网络参数的学习自适应融合时序和统计特征的端到端模型能够取得更优秀的预测性能,无论从准确率、召回率还是F1值比较,其预测效果都高2%左右。同时,下表6中基于网络参数自适应融合时序和统计特征的各个端到端模型,其主要区别在统计特征提取模块的不同。基于下表5中模型评估的整体F1值,对比端到端模型中的不同统计特征提取模块的效果差异发现,当同时存在一阶和高阶特征提取结构的端到端模型比只存在高阶特征提取结构的端到端模型效果要更好,说明阶浅层特征提取结构有补充的作用。但是同时存在一阶和高阶特征提取结构的端到端模型比同时存在一阶和二阶交叉特征提取结构的端到端模型效果要差一点,说明当存在一阶特征提取结构时,二阶交叉特征提取结构比高阶特征提取结构对提升效果更有用。
最后从表6和图4可得出,series_cnn_merge_statis_order_1_2和series_cnn_merge_statis_order_1_2_3的预测效果几乎不相上下。因此,在端到端模型中,当统计特征数目不多以及其对目标影响程度比不上序列特征时,基于参数更少考虑,可以尝试使用统计模块中不含高阶特征的模型,也即series_cnn_merge_statis_order_1_2模型。但是当后续统计特征变量的数目增多和统计特征变量变得比序列特征都更加重要时,结合一阶、二阶和高阶特征的统计特征模块能够更全面的抽取统计特征,也即使用series_cnn_merge_statis_order_1_2_3模型。
表6
model name 0.5_黑_acc 0.5_黑_recall 0.5_黑_f1 0.5_all_acc 0.5_all_recall 0.5_all_f1
series_cnn_merge_statis_order_3 0.9657 0.8938 0.9283 0.9313 0.9303 0.9294
series_cnn_merge_statis_order_2_3 0.9635 0.8983 0.9297 0.932 0.9313 0.9306
series_cnn_merge_statis_order_1_3 0.9642 0.8984 0.9302 0.9325 0.9318 0.931
series_cnn_merge_statis_order_1_2 0.9623 0.9022 0.9312 0.9331 0.9326 0.9319
series_cnn_merge_statis_order_1_2_3 0.9632 0.9007 0.9309 0.9329 0.9323 0.9316
series_cnn+statis_order_3 0.9364 0.8862 0.9106 0.9118 0.9116 0.9111
series_cnn+statis_order_2_3 0.9403 0.8866 0.9127 0.9142 0.9138 0.9132
series_cnn+statis_order_1_2 0.9385 0.8867 0.9119 0.9132 0.913 0.9124
series_cnn+statis_order_1_3 0.9369 0.8842 0.9098 0.9112 0.911 0.9104
series_cnn+statis_order_1_2_3 0.9346 0.8913 0.9125 0.9131 0.913 0.9126
结合表4、5和6的结果来看,基于序列特征的CNN模型比基于统计特征的多阶模型预测效果更优秀,AUC值高了6%左右。这样说明了,行为序列特征的提取对目标预测很重要。同时,基于概率平均集成统计特征和时序特征的模型效果有进一步的提升,比最好的序列CNN模型的AUC值提升约2%。再者,本文发明的基于序列CNN和融合统计特征的双塔结构模型预测效果表现优秀,其比仅仅通过概率集成的模型有进一步的提升,AUC值再进一步提升约1.5%。最后,对比上文中实验模型的预测效果可以看出,本申请实施例中所提出的基于两个识别子网络构建的双塔结构中的series_cnn_merge_statis_order_1_2_3的分类预测效果优越,其区域下曲线(Area Under Curve,简称AUC值)达到97.92%。其中AUC值用于指示接收者操作特征曲线(Receiver Operating Characteristic Curve,简称ROC曲线)和坐标轴围成的面积,其数值越接近1.0,检测结果的真实性越高。这里ROC曲线是一种坐标图式的分析工具。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述交互行为的识别方法的交互行为的识别装置。如图9所示,该装置包括:
第一获取单元902,用于获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
提取单元904,用于从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果;
第二获取单元906,用于获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量;
融合单元908,用于融合序列向量及统计向量,得到行为识别系数;
识别单元910,用于在行为识别系数大于或等于目标阈值的情况下,确定目标用户账号所执行的交互行为是目标交互行为。
可选地,在本实施例中,上述交互行为的识别方法可以但不限于应用于人机交互应用(即目标应用)中,如游戏应用、即时通信应用、视频播放应用等应用。通过本申请实施例中提供的上述步骤,根据用户在客户端中所执行的人机交互行为所生成的行为记录,来提取各个用户账号的行为序列特征和行为统计,以便于融合上述内容对用户进行信用评估分析,得到用户的信用评估值(如行为识别系数),从而达到准确地识别出用户账号对应的行为识别系数,进而确定出执行真实行为的高质量的用户活跃度,并基于该高质量的用户活跃度分析用户的登录习惯和使用习惯,以便于引导用户正向使用上述终端设备中安装的人机交互应用,避免长时间沉迷其中而影响正常的工作生活。
需要说明的是,通过融合用户账号在目标应用中所执行的交互行为的时序特性,和基于多个统计标签对交互行为分别统计的统计结果,来准确的识别出该目标用户账号真实的交互行为,从而达到确保得到该用户账号的真实的活跃度的效果,进而克服相关技术中由于用户恶意挂机等行为所导致的识别出用户的真实交互行为的准确性较低的技术问题。
具体实施例可以参考上述方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述交互行为的识别方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
S2,从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果;
S3,获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量;
S4,融合序列向量及统计向量,得到行为识别系数;
S5,在行为识别系数大于或等于目标阈值的情况下,确定目标用户账号所执行的交互行为是目标交互行为。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的交互行为的识别方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的交互行为的识别方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于目标用户账号的属性信息、目标识别网络模型的模型数据、行为识别结果等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述交互行为的识别装置中的第一获取单元902、提取单元904、第二获取单元906、融合单元908及识别单元910。此外,还可以包括但不限于上述交互行为的识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,用于显示上述交互行为的用户日志及识别结果;和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述交互行为的识别方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
S2,从行为记录中提取目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,行为序列特征用于指示交互行为在目标时间段内的时序特性,行为统计特征用于指示交互行为基于多个统计标签分别进行统计后的统计结果;
S3,获取与行为序列特征相匹配的序列向量,和与行为统计特征相匹配的统计向量;
S4,融合序列向量及统计向量,得到行为识别系数;
S5,在行为识别系数大于或等于目标阈值的情况下,确定目标用户账号所执行的交互行为是目标交互行为。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种交互行为识别方法,其特征在于,包括:
获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
从所述行为记录中提取所述目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,所述行为序列特征用于指示所述交互行为在目标时间段内的时序特性,所述行为统计特征用于指示所述交互行为基于多个统计标签分别进行统计后的统计结果;
通过目标识别网络模型中的第一识别子网络获取与所述行为序列特征相匹配的序列向量,并通过所述目标识别网络模型中的第二识别子网络获取与所述行为统计特征相匹配的统计向量,其中,所述第一识别子网络中包括多尺度卷积结构和门控过滤结构,所述第二识别子网络中包括多阶特征融合结构;
融合所述序列向量及所述统计向量,得到行为识别系数;
在所述行为识别系数大于或等于目标阈值的情况下,确定所述目标用户账号所执行的交互行为是目标交互行为。
2.根据权利要求1所述的方法,其特征在于,所述通过目标识别网络模型中的第一识别子网络获取所述行为序列特征相匹配的所述序列向量,并通过所述目标识别网络模型中的第二识别子网络获取所述行为统计特征相匹配的所述统计向量包括:
在所述第一识别子网络中,通过M层N尺度卷积结构对所述行为序列特征进行卷积操作,以得到N个候选行为片段特征矩阵,其中,所述多尺度卷积结构包括所述M层N尺度卷积结构,M、N为正整数;对所述N个候选行为片段特征矩阵分别进行最大池化处理,得到N个关键行为片段特征向量;通过所述门控过滤结构对所述N个关键行为片段特征向量进行融合,以得到所述序列向量;
在所述第二识别子网络中,通过所述多阶特征融合结构分别提取所述行为统计特征的第一阶特征、第二阶特征及第三阶特征;拼接所述第一阶特征、所述第二阶特征及所述第三阶特征,得到多阶统计特征;对所述多阶统计特征进行转换,以得到所述统计向量。
3.根据权利要求2所述的方法,其特征在于,所述在所述第二识别子网络中,通过所述多阶特征融合结构分别提取所述行为统计特征的第一阶特征、第二阶特征及第三阶特征包括:
通过所述多阶特征融合结构中的第一特征提取结构,提取所述行为统计特征的一阶特征,其中,所述第一特征提取结构用于对特征元素执行线性加权求和操作;
通过所述多阶特征融合结构中的第二特征提取结构,提取所述行为统计特征的二阶特征,其中,所述第二特征提取结构用于对特征元素执行交叉组合操作;
通过所述多阶特征融合结构中的第三特征提取结构,提取所述行为统计特征的多阶特征,其中,所述第三特征提取结构用于对特征元素执行缩放拼接操作。
4.根据权利要求1所述的方法,其特征在于,所述融合所述序列向量及所述统计向量,得到行为识别系数包括:
对所述序列向量及所述统计向量进行拼接,得到目标向量;
通过非线性全连接层对所述目标向量进行全局融合和维度转换处理,得到所述行为识别系数。
5.根据权利要求1所述的方法,其特征在于,所述从所述行为记录中提取所述目标用户账号所执行的交互行为的行为序列特征及行为统计特征包括:
从所述行为记录中确定所述目标用户账号在目标周期内执行交互行为的时间点序列;按照预设的时间段分片,将所述时间点序列转换为所述行为序列特征;
对所述行为记录中的行为记录按照所述多个统计标签分别进行统计,得到候选统计特征,其中,所述候选统计特征中包括数值型特征和类别性特征;对所述候选统计特征进行过滤编码处理,得到所述行为统计特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述候选统计特征进行过滤编码处理,得到所述行为统计特征包括:
从所述候选统计特征中剔除冗余特征;
对剔除所述冗余特征后的所述数值型特征进行归一化处理,并对剔除所述冗余特征后的所述类别性特征进行一位编码处理,得到中间统计特征;
对所述中间统计特征中满足目标剔除条件的参考特征进行剔除,以得到所述行为统计特征。
7.根据权利要求1所述的方法,其特征在于,在所述获取目标用户账号在目标应用中执行交互行为所生成的行为记录之前,还包括:
获取多个样本行为记录,其中,所述多个样本行为记录中包括正样本行为记录和负样本行为记录,其中,所述正样本行为记录为所述目标交互行为的记录,所述负样本行为记录中包括非所述目标交互行为的记录;
利用所述多个样本行为记录,对初始化的识别网络模型进行多次训练,以得到所述目标识别网络模型,其中,所述初始化的识别网络模型中包括所述第一识别子网络和所述第二识别子网络。
8.根据权利要求7所述的方法,其特征在于,所述利用所述多个样本行为记录,对初始化的识别网络模型进行多次训练,以得到所述目标识别网络模型包括:
将所述多个样本行为记录依次输入训练中的识别网络模型,得到对应的训练结果;
基于二分类交叉熵目标函数对所述训练中的识别网络模型中的权重参数进行调整,其中,所述权重参数包括所述第一识别子网络中所述多尺度卷积结构关联的第一权重参数集合和所述门控过滤结构关联的第二权重参数集合,所述第二识别子网络中所述多阶特征融合结构关联的第三权重参数集合。
9.一种交互行为识别装置,其特征在于,包括:
第一获取单元,用于获取目标用户账号在目标应用中执行交互行为所生成的行为记录;
提取单元,用于从所述行为记录中提取所述目标用户账号所执行的交互行为的行为序列特征及行为统计特征,其中,所述行为序列特征用于指示所述交互行为在目标时间段内的时序特性,所述行为统计特征用于指示所述交互行为基于多个统计标签分别进行统计后的统计结果;
第二获取单元,用于通过目标识别网络模型中的第一识别子网络获取与所述行为序列特征相匹配的序列向量,并通过所述目标识别网络模型中的第二识别子网络获取与所述行为统计特征相匹配的统计向量,其中,所述第一识别子网络中包括多尺度卷积结构和门控过滤结构,所述第二识别子网络中包括多阶特征融合结构;
融合单元,用于融合所述序列向量及所述统计向量,得到行为识别系数;
识别单元,用于在所述行为识别系数大于或等于目标阈值的情况下,确定所述目标用户账号所执行的交互行为是目标交互行为。
10.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至8任一项中所述的方法。
11.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
CN202011119912.2A 2020-10-19 2020-10-19 交互行为的识别方法和装置、存储介质及电子设备 Active CN112138403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011119912.2A CN112138403B (zh) 2020-10-19 2020-10-19 交互行为的识别方法和装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011119912.2A CN112138403B (zh) 2020-10-19 2020-10-19 交互行为的识别方法和装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN112138403A CN112138403A (zh) 2020-12-29
CN112138403B true CN112138403B (zh) 2021-08-06

Family

ID=73953257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011119912.2A Active CN112138403B (zh) 2020-10-19 2020-10-19 交互行为的识别方法和装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112138403B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626494B (zh) * 2021-07-28 2024-03-29 上海齐网网络科技有限公司 基于自适应控制的数据多维维度分析的方法及***
CN113821574A (zh) * 2021-08-31 2021-12-21 北京达佳互联信息技术有限公司 用户行为分类方法和装置及存储介质
CN113706040B (zh) * 2021-09-01 2024-05-28 深圳前海微众银行股份有限公司 风险识别方法、装置、设备及存储介质
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN117539367B (zh) * 2023-11-20 2024-04-12 广东海洋大学 基于交互式智能实验教学***的图像识别跟踪方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101308607A (zh) * 2008-06-25 2008-11-19 河海大学 基于视频的混合交通环境下移动目标多特征融合跟踪方法
CN108905209B (zh) * 2018-06-11 2022-03-22 网易(杭州)网络有限公司 游戏中的外挂检测方法及***、电子设备和存储介质
CN110198310B (zh) * 2019-05-20 2021-09-14 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质

Also Published As

Publication number Publication date
CN112138403A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112138403B (zh) 交互行为的识别方法和装置、存储介质及电子设备
CN112221156B (zh) 数据异常识别方法、装置、存储介质以及电子设备
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及***
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN113688304A (zh) 搜索推荐模型的训练方法、搜索结果排序的方法及装置
CN110263227A (zh) 基于图神经网络的团伙发现方法和***
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN110706095B (zh) 一种基于关联网络的目标节点关键信息填补方法及***
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及***
CN109902823B (zh) 一种基于生成对抗网络的模型训练方法及设备
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN113822315A (zh) 属性图的处理方法、装置、电子设备及可读存储介质
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN114201683A (zh) 一种基于多级匹配的兴趣激活新闻推荐方法及***
CN113918834A (zh) 融合社交关系的图卷积协同过滤推荐方法
Hassan Deep learning architecture using rough sets and rough neural networks
CN112148997A (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN113362852A (zh) 一种用户属性识别方法和装置
CN116976491A (zh) 一种信息预测方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035258

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant