CN110197389A - 一种用户识别方法及装置 - Google Patents
一种用户识别方法及装置 Download PDFInfo
- Publication number
- CN110197389A CN110197389A CN201910161169.8A CN201910161169A CN110197389A CN 110197389 A CN110197389 A CN 110197389A CN 201910161169 A CN201910161169 A CN 201910161169A CN 110197389 A CN110197389 A CN 110197389A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- vector
- social
- propagation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 95
- 230000003542 behavioural effect Effects 0.000 claims abstract description 28
- 230000011273 social behavior Effects 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010030 laminating Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 241000283690 Bos taurus Species 0.000 description 5
- 235000015278 beef Nutrition 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- KGRVJHAUYBGFFP-UHFFFAOYSA-N 2,2'-Methylenebis(4-methyl-6-tert-butylphenol) Chemical compound CC(C)(C)C1=CC(C)=CC(CC=2C(=C(C=C(C)C=2)C(C)(C)C)O)=C1O KGRVJHAUYBGFFP-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 210000003739 neck Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011017 operating method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用户识别方法及装置,所述方法包括:获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息;获取与当前领域相对应的目标文本向量;根据所述用户语料信息和所述目标文本向量,确定用户的文本特征;将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。本发明,能够在不同领域中,根据用户的社交行为信息,综合多维度用户特征,在用户进行具体活动前对用户是否涉及该领域相关操作进行识别。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种用户识别方法及装置。
背景技术
随着电商黄牛日益猖狂,电商平台以及品牌商蒙受损失越来越大,现有的电商防黄牛的技术方案中,基本使用订单聚合的方法识别黄牛,即电商平台通过检测同种商品是否大量聚合至一个相同的物流区来识别黄牛。现有的通过订单聚合的方法识别黄牛的技术方案存在以下弊端:一、事后延迟性,电商平台要待肉牛下单成功后才能聚合出有问题的订单而不能在客户下单的时候,提前识别黄牛攻击,从而错失最佳防范损失的时机;二、判黑维度单一,一般电商平台由于缺少用户画像特征,从而只能从地理区域识别黄牛订单,不能从用户角度刻画肉牛相关的画像特征,单一从同种商品聚合至相同的物流区域这一维度识别黄牛容易将正常订单误判为黄牛订单,准确率低,误杀率高。
发明内容
本发明所要解决的技术问题在于,提供一种用户识别方法及装置,能够在不同领域中,根据用户的社交行为信息,综合多维度用户特征,在用户进行具体活动前对用户是否涉及该领域相关操作进行识别。
为了解决上述技术问题,一方面,本发明提供了一种用户识别方法,所述方法包括:
获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息;
获取与当前领域相对应的目标文本向量;
根据所述用户语料信息和所述目标文本向量,确定用户的文本特征;
将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;
将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;
融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
另一方面,本发明提供了一种用户识别装置,所述装置包括:
用户信息获取模块,用于获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息;
目标向量获取模块,用于获取与当前领域相对应的目标文本向量;
文本特征确定模块,用于根据所述用户语料信息和所述目标文本向量,确定用户的文本特征;
群传播特征确定模块,用于将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;
行为特征确定模块,用于将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;
特征融合模块,用于融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
实施本发明实施例,具有如下有益效果:
本发明通过获取用户的社交行为信息来得到相应的用户特征,其中,所述社交行为信息包括用户语料信息、用户社交关系信息以及用户操作信息;对于当前应用领域,获取与当前领域相对应的目标文本向量,根据用户语料信息和目标文本向量,确定用户的文本特征;将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。本发明能够针对不同的领域,基于用户的社交行为信息,在用户进行具体操作之前对用户是否涉及该领域相关操作进行识别,以使得相关人员根据识别结果,实行相应的应对措施;解决了现有技术中判断维度单一的问题,通过获取基于用户社交行为信息的多维度特征,从而刻画出用户画像特征,识别的准确率高。
附图说明
图1是本发明实施例提供的应用场景示意图;
图2是本发明实施例提供的一种用户识别方法流程图;
图3是本发明实施例提供的一种目标文本向量的生成方法流程图;
图4是本发明实施例提供的一种用户的文本特征计算方法流程图;
图5是本发明实施例提供的一种群传播特征获取方法流程图;
图6是本发明实施例提供的一种用户行为特征获取方法流程图;
图7是本发明实施例提供的一种多模态信息融合神经网络模型示意图;
图8是本发明实施例提供的LSTM的网络模型示意图;
图9是本发明实施例提供的一种基于LSTM的文本分类模型示意图;
图10是本发明实施例提供的一种用户识别装置示意图;
图11是本发明实施例提供的文本特征确定模块示意图;
图12是本发明实施例提供的目标向量生成模块示意图;
图13是本发明实施例提供的群传播特征确定模块示意图;
图14是本发明实施例提供的行为特征确定模块示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。而且,术语“第一”、“第二”等适用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
首先对本发明实施例中所涉及的相关术语做以下解释:
黄牛:违法中介人,具体指合法销售途径以外垄断和销售限量参与权或商品以图利的中介人。
牛头:发起黄牛众包囤货的组织者。
肉牛:实际执行订单购买的黄牛攻击者。
报单:牛头与肉牛现金结报单,实际上是一个现金进出存报表。
RNN:Recurrent neural Network,循环神经网络,是一种节点定向连接成环的人工神经网络,它的内部状态可以展示动态时序行为,可以利用它内部的记忆来处理任意时序的输入序列。
LSTM:Long Short-Term Memory是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
Attention:又称为注意力机制,是一种能让模型对重要信息重点关注并充分学习吸收的技术。
请参见图1,其示出了本发明实施例提供的应用场景示意图,包括若干用户终端110和服务器120,所述用户终端110包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等。用户可通过用户终端110登录相关应用APP或者网站进行相关网络活动,当用户通过用户终端110向服务器120发送网络业务请求时,服务器120响应于所述网络业务请求,并同时根据该用户的登录帐号信息获取该用户的历史社交行为信息,通过对历史社交行为信息进行分析识别,最终得到该用户的行为识别结果。当该用户的行为识别结果满足网络业务请求条件时,则服务器120会向该用户对应的用户终端110下发相应的业务信息以使得用户完成相关的网络活动;当该用户的行为识别结果不满足业务请求条件时,则服务器120会拒绝为该用户对应的用户终端110提供相关网络业务服务,从而该用户无法进行相关的网络活动。
请参见图2,其示出了一种用户识别方法,可应用于服务器侧,所述方法包括:
S210.获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息。
在本发明实施例中,获取用户的社交行为信息是基于用户网络请求操作触发的,具体来说,当用户向服务器发送业务请求时,服务器根据当前的用户帐号信息获取当前用户的社交行为信息。
这里的社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息。其中,用户语料信息具体可以包括:用户加入的社交群的群标题、用户聊天内容的文本信息、用户发表的相关文章信息等与用户相关的文字信息表达;用户社交关系信息可以包括:用户加入的社交群的类型、用户在社交群中的活跃度及群成员级数、用户的社交好友关系等;用户操作信息可以包括:用户点击的链接、用户浏览的页面信息、用户点击浏览相关内容的次数等。以上所获取的社交行为信息可作为对用户进行识别的依据。
S220.获取与当前领域相对应的目标文本向量。
对于不同的领域,本发明实施例可提供不同领域的先验数据作为依据。对于每个领域,均会收集与该领域相关的语料信息,并生成对应的文本向量作为后续的参考,具体的目标文本向量的生成方法可参见图3,所述方法包括:
S310.获取与当前领域相对应的源语料信息。
在确定了当前涉及的应用领域之后,获取与该领域相对应的源语料信息,这里对于某领域的源语料信息是指可以特定表征该领域的一些代表性的字、词或者句子等,是相关人员根据前期的经验积累所获得的。
S320.对所述源语料信息进行分词,生成所述源语料信息中的每个词的词向量。
由于获取的源语料信息是一整段话,需要对其进行分词,现有技术中可实现对语料进行分词的方法均可应用于本实施例中,例如Trie树存储及最长匹配法、基于HMM的分词方法、概率分词模型等。
在对源语料进行分词之后,对切分之后的词用嵌入(embedding)编码形式进行向量表示,即词向量,可以理解为:将文本空间中的某个词,通过一定的方法,映射或者嵌入到另一个数值向量空间。本实施例中的词向量可通过word2vec来实现。
S330.将所述源语料信息中的每个词的词向量进行叠加,得到所述目标文本向量。
将步骤S320中的每个词所对应的词向量进行叠加,得到与该领域相对应的目标文本向量embedding目标向量。
由于这里的每个领域的源语料信息均是通过经验积累所获得,所以随着时间的推移,需要根据最新的情况对源语料信息进行更新,以确保当前的语料信息能够全面且准确地刻画当前领域的特点。
S230.根据所述用户语料信息和所述目标文本向量,确定用户的文本特征。
请参见图4,其示出了一种用户的文本特征计算方法,所述方法包括:
S410.对所述用户语料信息进行分词,生成所述用户语料信息中的每个词的词向量。
对获取的用户语料信息进行分词,并生成相应的词向量,具体的实现过程可参见步骤S320。
S420.计算所述用户语料信息中的每个词的词向量与所述目标文本向量的相似度。
理论上任何可以计算两个向量相似度的方法都可以应用于本实施例中的相似度计算,比如:
1.为了减少参数的训练,可直接使用余弦公式计算目标文本向量与用户语料中的每个词的词向量的相似度;
2.通过一个简单的神经网络,输入为a和b,输出为相似度c;
3.通过矩阵变换得到相似度。
本实施例中可选用余弦公式计算相似度,具体公式如下:
通过上述公式,分别计算用户语料中每个词的词向量wi与目标文本向量embedding目标向量的相似度αi。
S430.将所述相似度作为相应词向量的权值,计算所述用户的文本特征。
将步骤S420中计算得到的各词向量与目标文本向量的相似度作为该词向量的权值,对用户语料中的所有词向量进行加权计算,具体过程如下:
其中,n为根据用户语料得到的词向量的个数,embedding用户特征为根据用户语料信息最终得到的用户文本特征。
S240.将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征。
请参见图5,其示出了一种群传播特征获取方法,所述方法包括:
S510.获取带有标签的用户信息和不带有所述标签的用户信息。
S520.采用标签传播算法,根据所述带有标签的用户信息和所述不带有所述标签的用户信息对所述传播模型进行训练。
S530.将所述用户社交关系输入到所述传播模型中,通过所述传播模型生成与所述用户社交关系对应的向量。
通过标签传播来判断当前用户与目标群体的相似度。由于只有少量带有标签的用户,需要利用这些带标签的用户扩散出更多潜在的与目标群体相关的用户,这里使用半监督学习的方法让标签传播起来。
半监督学***滑假设:相似的数据具有相同的label;2)Cluster聚类假设:处于同一个聚类下的数据具有相同label;3)Manifold流形假设:处于同一流形结构下的数据具有相同label。
标签传播算法(label propagation)的核心思想非常简单:LP算法是基于Graph的,因此需要先构建一个图。首先为所有的数据构建一个图,图的节点就是一个数据点,包含labeled和unlabeled的数据。节点i和节点j的边表示他们的相似度,标签传播算法通过节点之间的边传播label,边的权重越大,表示两个节点越相似,那么label越容易传播过去。确定节点的类别的时候,是取概率最大的那个类作为它的类别的。简单来说步骤分为:1)执行传播;2)重置labeled样本的标签;3)重复步骤1)和2)直到F收敛。随着labeled数据不断的将自己的label传播出去,最后的类边界会穿越高密度区域,而停留在低密度的间隔中,相当于每个不同类别的labeled样本划分了势力范围。
其中,所述用户社交关系包括用户参与的社交群体、用户的好友关系以及用户的社交活跃程度。通过用户基本信息,爬取出用户是否参与目标群体,以及在群体中的活跃程度,其中群聊天的活跃程度可根据群成员级数来判断。通过社交网络构建用户关系graph,利用标签传播算法,可以得到当前用户在传播模型中的向量表示。
S250.将所述用户操作信息输入预设的预测模型中,得到用户的行为特征。
请参见图6,其示出了一种用户行为特征获取方法,所述方法包括:
S610.在预设周期内,当检测到用户的点击跳转操作时,获取跳转之后的页面信息。
S620.将所述页面信息输入所述预测模型,输出对所述页面信息预测的结果。
这里的预测结果为一个0~1之间的具体数值,具体可以是指输入的页面信息不同于目标页面信息的概率,可设置一个阈值来判定最终的预测结果,例如在本实施例中,阈值设为0.5,即当预测的概率小于0.5时,判断输入的页面信息为目标信息;当预测的概率大于等于0.5时,判断输入的页面信息不是目标信息。
S630.记录在所述预设周期内用户点击跳转之后的页面信息被预测为目标信息的次数。
综合在预设周期内被预测为目标页面的概率和次数,最终确定用户的行为特征信息。
这里的用户行文特征主要是指用户是否存在某些特定操作的行为,对用户点击跳转的页面信息与特定目标信息进行相似度预测,本实施例中采用了开源技术fastText来作为分类器,fastText模型输入一个词的序列,输出这个词序列属于不同类别的概率。fastText模型架构和Word2Vec中的CBOW模型很类似。不同之处在于,fastText预测标签,而CBOW模型预测中间词。fastText还加入了N-gram特征。“我爱她”这句话中的词袋模型特征是“我”,“爱”,“她”。这些特征和句子“她爱我”的特征是一样的。如果加入2-Ngram,第一句话的特征还有“我-爱”和“爱-她”,这两句话“我爱她”和“她爱我”就能区别开来了。由于在fastText中使用了向量表征单词N-gram来将局部词序考虑在内,更适用于本实施例的应用场景。
S260.融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
在得到了以上关于用户的文本特征、群传播特征和行为特征之后,需要将这些特征进行融合得到最终的识别结果。
本实施例提供了一种神经网络模型,能够将多模态信息进行融合,详见图7,其中,图中的用户画像特征包括本实施例中的用户行为特征,除此以外还包括用户的相关统计特征,如性别、年龄、所在区域、登录频次、用户设备的刷量行为等信息。
如果只是将上述的特征信息进行线性叠加来得到识别结果,将会大大丧失原有的信息量,图7通过深度神经网络来抽取用户各模态特征并融合成一个特征向量,利用神经网络非线性的特征抽取多个模态特征的高阶信息,最后通过输出层输出识别结果。
本发明可应用于电商防黄牛的领域,图7中的模型输入即为用户的多维度特征,模型的输出即为黄牛欺诈分,这里的黄牛欺诈分可用于表示当前用户为黄牛的嫌疑程度,分数越高,则其为黄牛的嫌疑越大。
在电商防黄牛的服务中,黄牛欺诈分服务通过SaaS方式提供给调用者,调用者只需提供相关用户信息,SaaS服务会返回相对应的黄牛欺诈分,来评估用户是黄牛的程度。
首先通过收集黄牛领域的相关语料信息,得到与黄牛领域相对应的目标文本向量,用于与获取到的用户信息进行相似度的计算。
通过用户基本信息,爬取出用户是否参与黄牛群体,对于怎样识别黄牛群体,可通过爬取群聊天内容和群标题来分析;对于用户的其他文本信息,同样可通过爬取获得。根据获取的用户语料信息与黄牛领域的语料信息,确定用户的文本特征。
通过带有黄牛标签的用户来扩散更多的潜在的黄牛用户,具体可通过社交关系信息来进行标签的扩散,最终会看出哪些用户被传播到了黄牛标签。黄牛在社交群落中一般有聚集性,通过设备扩散、标签传播判断用户与黄牛群体的紧密程度
对于用户操作信息,这里主要是指用户是否实际参与黄牛活动的具体环节,例如执行黄牛报单操作,在用户点击相关链接时,获取跳转之后的页面信息,并将页面信息输入训练好的报单分类器,得到输入的页面信息不为黄牛报单信息的概率,同时辅助用户被判断为执行黄牛报单操作的次数,从而确定用户是否执行黄牛报单的操作,例如可以认为,在预设周期内,被判断为执行黄牛报单操作的次数越多,其为黄牛的可能性越大。
本发明从用户是否在社交网络中参与黄牛社团及参与活跃程度,用户是否在社交网络中发生黄牛报单行为及频繁程度,用户是否使用刷单软件,是否存在养号嫌疑等多个社交网络维度判断用户是否为黄牛肉牛。
将以上计算得到的用户特征和获取的用户其他相关基本特征输入图7所示的模型,最终得到当前用户的黄牛欺诈分。
上述实施例中对用户语料信息的处理方式是通过将用户词向量与目标文本向量进行相似度计算,并将相似度作为相应词向量的权值,计算词向量的加权,作为用户的文本特征,输入到识别模型中。对于用户语料信息还有另外一种处理方式,即通过LSTM模型对用户的语料信息进行文本分类。
在自然语言语言处理中一般使用RNN(循环神经网络)模型来对文本进行分析分类,但是由于聊天内容一般比较长,RNN难以压缩整段聊天内容的大概信息,所以采用基于RNN改进的长短时记忆网络(LSTM)模型来进行训练,LSTM通过“门”的概念来控制前面输出对后面的影响,能够很好地链接句子词语之间的联系,抽取长文本大意,提高分类器的正确性,LSTM的网络模型请参见图8。
基于LSTM的文本分类模型可参见图9,对用户语料进行文本分类的实现过程如下:
对预先收集的大量语料信息进行人工标注,0代表该段对话与黄牛无关,1代表该段对话与黄牛相关,深度学习处理文本分类问题中,使用词向量的标识形式,对于词向量的分布式标识既降低了维度,也体现了语义信息,最常用的词向量的分布式表示就是word2vec,是一种无监督训练,训练出的词向量具备稠密,包含语义信息的特点。对获取的用户语料信息进行分词,将每个词语的词向量按顺序送进LSTM里面,LSTM的输出就是这段话的表示,而且能够包含句子的时序信息,最后输入文本分类模型,对当前句子进行分类,判断其是否与黄牛领域相关。
本发明通过在用户向服务器发起业务请求时,服务器获取用户的社交行为信息,根据社交行为信息得到用户多维度特征,最终通过特征信息融合判断该用户是否符合业务请求条件,并在用户不符合业务请求条件时,拒绝向用户提供相应的服务;具体地,在电商防黄牛领域,在用户向服务器发送下单请求时,服务器获取用户社交行为信息,最终得到的黄牛欺诈分,当黄牛欺诈分大于某个阈值时,则判断当前用户为黄牛用户,从而拒绝该黄牛用户的下单业务请求,使得该黄牛用户不能进行下单操作。本发明基于社交数据能够捕捉用户在社交网络中参与黄牛的行为,能提前至用户下单时就判别该用户是否涉嫌黄牛欺诈,做到事前识别黄牛攻击,把握最佳防范损失的时机。
其次,本发明根据用户社交行为信息分析出用户的多个社交维度特征,从而刻画出用户画像特征,识别的准确率高。
另外,在对用户语料信息进行处理时,一般会采取将用户语料的词向量进行直接组合叠加的方式来表达用户的文本特征,但因为在某一特定领域中,更希望抽取出与该领域相关的信息,所以本发明提供了一种改进的attention机制,首先与该领域的目标向量进行相似度计算,再对用户词向量进行加权求和得到用户文本特征,以此来抽取更多与该领域相关的信息。和序列模型的attention不一样的是,一般的attention关注的是上下文信息,通过上下文的状态信息计算出各个embedding的相似度,但缺点在于一旦我们的用户语料不变,不管在黄牛领域还是其他领域计算出来的相似度是固定不变的。而基于本发明提供的方法,可以做到对于不同领域,即使同一份用户语料,相似度也不一样;基于本发明相当于在黄牛领域加入了领域的先验知识,使得计算出的相似度更加关注黄牛领域。
本发明实施例还提供了一种用户识别装置,请参见图10,所述装置包括:
用户信息获取模块1010,用于获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息。
目标向量获取模块1020,用于获取与当前领域相对应的目标文本向量。
文本特征确定模块1030,用于根据所述用户语料信息和所述目标文本向量,确定用户的文本特征。
群传播特征确定模块1040,用于将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征。
行为特征确定模块1050,用于将所述用户操作信息输入预设的预测模型中,得到用户的行为特征。
特征融合模块1060,用于融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
请参见图11,所述文本特征确定模块1030包括:
第一分词模块1110,用于对所述用户语料信息进行分词,生成所述用户语料信息中的每个词的词向量。
相似度计算模块1120,用于计算所述用户语料信息中的每个词的词向量与所述目标文本向量的相似度。
文本特征计算模块1130,用于将所述相似度作为相应词向量的权值,计算所述用户的文本特征。
请参见图12,所述装置还包括目标向量生成模块,所述目标向量生成模块包括:
源语料获取模块1210,用于获取与当前领域相对应的源语料信息。
第二分词模块1220,用于对所述源语料信息进行分词,生成所述源语料信息中的每个词的词向量。
向量叠加模块1230,用于将所述源语料信息中的每个词的词向量进行叠加,得到所述目标文本向量。
请参见图13,所述群传播特征确定模块1040包括:
第一获取模块1310,用于获取带有标签的用户信息和不带有所述标签的用户信息。
传播模型训练模块1320,用于采用标签传播算法,根据所述带有标签的用户信息和所述不带有所述标签的用户信息对所述传播模型进行训练。
传播向量计算模块1330,用于将所述用户社交关系输入到所述传播模型中,通过所述传播模型生成与所述用户社交关系对应的向量。
其中,所述用户社交关系包括用户参与的社交群体、用户的好友关系以及用户的社交活跃程度。
请参见图14,所述行为特征确定模块1050包括:
操作检测模块1410,用于在预设周期内,当检测到用户的点击跳转操作时,获取跳转之后的页面信息。
预测模块1420,用于将所述页面信息输入所述预测模型,输出对所述页面信息预测的结果。
次数记录模块1430,用于记录在所述预设周期内用户点击跳转之后的页面信息被预测为目标信息的次数。
上述实施例中提供的装置可执行本发明任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令由处理器加载并执行本实施例上述的任意方法。
本实施例还提供了一种设备,所述设备包括处理器和存储器,其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行本实施例上述的任意方法。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本发明的范围。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户识别方法,其特征在于,包括:
获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息;
获取与当前领域相对应的目标文本向量;
根据所述用户语料信息和所述目标文本向量,确定用户的文本特征;
将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;
将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;
融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
2.根据权利要求1所述的一种用户识别方法,其特征在于,所述根据所述用户语料信息和目标文本向量,确定用户的文本特征包括:
对所述用户语料信息进行分词,生成所述用户语料信息中的每个词的词向量;
计算所述用户语料信息中的每个词的词向量与所述目标文本向量的相似度;
将所述相似度作为相应词向量的权值,计算所述用户的文本特征。
3.根据权利要求2所述的一种用户识别方法,其特征在于,所述目标文本向量的生成方法包括:
获取与当前领域相对应的源语料信息;
对所述源语料信息进行分词,生成所述源语料信息中的每个词的词向量;
将所述源语料信息中的每个词的词向量进行叠加,得到所述目标文本向量。
4.根据权利要求1所述的一种用户识别方法,其特征在于,所述将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征包括:
获取带有标签的用户信息和不带有所述标签的用户信息;
采用标签传播算法,根据所述带有标签的用户信息和所述不带有所述标签的用户信息对所述传播模型进行训练;
将所述用户社交关系输入到所述传播模型中,通过所述传播模型生成与所述用户社交关系对应的向量;
其中,所述用户社交关系包括用户参与的社交群体、用户的好友关系以及用户的社交活跃程度。
5.根据权利要求1所述的一种用户识别方法,其特征在于,所述将所述用户操作信息输入预设的预测模型中,得到用户的行为特征包括:
在预设周期内,当检测到用户的点击跳转操作时,获取跳转之后的页面信息;
将所述页面信息输入所述预测模型,输出对所述页面信息预测的结果;
记录在所述预设周期内用户点击跳转之后的页面信息被预测为目标信息的次数。
6.一种用户识别装置,其特征在于,包括:
用户信息获取模块,用于获取用户的社交行为信息,其中,所述社交行为信息包括:用户语料信息、用户社交关系信息以及用户操作信息;
目标向量获取模块,用于获取与当前领域相对应的目标文本向量;
文本特征确定模块,用于根据所述用户语料信息和所述目标文本向量,确定用户的文本特征;
群传播特征确定模块,用于将所述用户社交关系信息输入预设的传播模型中,得到用户的群传播特征;
行为特征确定模块,用于将所述用户操作信息输入预设的预测模型中,得到用户的行为特征;
特征融合模块,用于融合所述文本特征、所述群传播特征以及所述行为特征,得到用户识别结果。
7.根据权利要求6所述的一种用户识别装置,其特征在于,所述文本特征确定模块包括:
第一分词模块,用于对所述用户语料信息进行分词,生成所述用户语料信息中的每个词的词向量;
相似度计算模块,用于计算所述用户语料信息中的每个词的词向量与所述目标文本向量的相似度;
文本特征计算模块,用于将所述相似度作为相应词向量的权值,计算所述用户的文本特征。
8.根据权利要求7所述的一种用户识别装置,其特征在于,所述装置还包括目标向量生成模块,包括:
源语料获取模块,用于获取与当前领域相对应的源语料信息;
第二分词模块,用于对所述源语料信息进行分词,生成所述源语料信息中的每个词的词向量;
向量叠加模块,用于将所述源语料信息中的每个词的词向量进行叠加,得到所述目标文本向量。
9.根据权利要求6所述的一种用户识别装置,其特征在于,所述群传播特征确定模块包括:
第一获取模块,用于获取带有标签的用户信息和不带有所述标签的用户信息;
传播模型训练模块,用于采用标签传播算法,根据所述带有标签的用户信息和所述不带有所述标签的用户信息对所述传播模型进行训练;
传播向量计算模块,用于将所述用户社交关系输入到所述传播模型中,通过所述传播模型生成与所述用户社交关系对应的向量;
其中,所述用户社交关系包括用户参与的社交群体、用户的好友关系以及用户的社交活跃程度。
10.根据权利要求6所述的一种用户识别装置,其特征在于,所述行为特征确定模块包括:
操作检测模块,用于在预设周期内,当检测到用户的点击跳转操作时,获取跳转之后的页面信息;
预测模块,用于将所述页面信息输入所述预测模型,输出对所述页面信息预测的结果;
次数记录模块,用于记录在所述预设周期内用户点击跳转之后的页面信息被预测为目标信息的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910161169.8A CN110197389A (zh) | 2019-03-04 | 2019-03-04 | 一种用户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910161169.8A CN110197389A (zh) | 2019-03-04 | 2019-03-04 | 一种用户识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110197389A true CN110197389A (zh) | 2019-09-03 |
Family
ID=67751725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910161169.8A Pending CN110197389A (zh) | 2019-03-04 | 2019-03-04 | 一种用户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197389A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111737456A (zh) * | 2020-05-15 | 2020-10-02 | 恩亿科(北京)数据科技有限公司 | 一种语料信息的处理方法和装置 |
CN113111132A (zh) * | 2020-01-13 | 2021-07-13 | 北京沃东天骏信息技术有限公司 | 一种识别目标用户的方法和装置 |
CN113204622A (zh) * | 2021-05-25 | 2021-08-03 | 广州三星通信技术研究有限公司 | 电子装置及其信息处理方法 |
CN113361198A (zh) * | 2021-06-09 | 2021-09-07 | 南京大学 | 一种基于公共和私有信息挖掘的众包测试报告融合方法 |
CN114422207A (zh) * | 2021-12-30 | 2022-04-29 | 中国人民解放军战略支援部队信息工程大学 | 基于多模态的c&c通信流量检测方法及装置 |
CN114742569A (zh) * | 2021-01-08 | 2022-07-12 | 广州视源电子科技股份有限公司 | 用户生命阶段预测方法、装置、计算机设备及存储介质 |
CN116127204A (zh) * | 2023-04-17 | 2023-05-16 | 中国科学技术大学 | 多视角用户画像方法、多视角用户画像***、设备和介质 |
CN110781407B (zh) * | 2019-10-21 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136226A (zh) * | 2011-11-25 | 2013-06-05 | 深圳市腾讯计算机***有限公司 | 一种搜索用户的方法与装置 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
CN106484764A (zh) * | 2016-08-30 | 2017-03-08 | 江苏名通信息科技有限公司 | 基于人群画像技术的用户相似度计算方法 |
CN107330709A (zh) * | 2016-04-29 | 2017-11-07 | 阿里巴巴集团控股有限公司 | 确定目标对象的方法及装置 |
CN108932669A (zh) * | 2018-06-27 | 2018-12-04 | 北京工业大学 | 一种基于监督式层次分析法的异常账户检测方法 |
-
2019
- 2019-03-04 CN CN201910161169.8A patent/CN110197389A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136226A (zh) * | 2011-11-25 | 2013-06-05 | 深圳市腾讯计算机***有限公司 | 一种搜索用户的方法与装置 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像***和方法 |
CN107330709A (zh) * | 2016-04-29 | 2017-11-07 | 阿里巴巴集团控股有限公司 | 确定目标对象的方法及装置 |
CN106484764A (zh) * | 2016-08-30 | 2017-03-08 | 江苏名通信息科技有限公司 | 基于人群画像技术的用户相似度计算方法 |
CN108932669A (zh) * | 2018-06-27 | 2018-12-04 | 北京工业大学 | 一种基于监督式层次分析法的异常账户检测方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781407A (zh) * | 2019-10-21 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN110781407B (zh) * | 2019-10-21 | 2024-07-23 | 腾讯科技(深圳)有限公司 | 用户标签生成方法、装置及计算机可读存储介质 |
CN113111132A (zh) * | 2020-01-13 | 2021-07-13 | 北京沃东天骏信息技术有限公司 | 一种识别目标用户的方法和装置 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111737456A (zh) * | 2020-05-15 | 2020-10-02 | 恩亿科(北京)数据科技有限公司 | 一种语料信息的处理方法和装置 |
CN114742569A (zh) * | 2021-01-08 | 2022-07-12 | 广州视源电子科技股份有限公司 | 用户生命阶段预测方法、装置、计算机设备及存储介质 |
CN113204622A (zh) * | 2021-05-25 | 2021-08-03 | 广州三星通信技术研究有限公司 | 电子装置及其信息处理方法 |
CN113361198A (zh) * | 2021-06-09 | 2021-09-07 | 南京大学 | 一种基于公共和私有信息挖掘的众包测试报告融合方法 |
CN113361198B (zh) * | 2021-06-09 | 2023-11-03 | 南京大学 | 一种基于公共和私有信息挖掘的众包测试报告融合方法 |
CN114422207A (zh) * | 2021-12-30 | 2022-04-29 | 中国人民解放军战略支援部队信息工程大学 | 基于多模态的c&c通信流量检测方法及装置 |
CN114422207B (zh) * | 2021-12-30 | 2023-06-02 | 中国人民解放军战略支援部队信息工程大学 | 基于多模态的c&c通信流量检测方法及装置 |
CN116127204A (zh) * | 2023-04-17 | 2023-05-16 | 中国科学技术大学 | 多视角用户画像方法、多视角用户画像***、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197389A (zh) | 一种用户识别方法及装置 | |
US11494648B2 (en) | Method and system for detecting fake news based on multi-task learning model | |
CN105574067A (zh) | 项目推荐装置以及项目推荐方法 | |
CN106354818B (zh) | 基于社交媒体的动态用户属性提取方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及*** | |
CN112231570B (zh) | 推荐***托攻击检测方法、装置、设备及存储介质 | |
CN109213843A (zh) | 一种垃圾文本信息的检测方法及装置 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
WO2023108980A1 (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Edwards et al. | Identifying wildlife observations on twitter | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110516210A (zh) | 文本相似度的计算方法和装置 | |
Asgari-Chenaghlu et al. | TopicBERT: A cognitive approach for topic detection from multimodal post stream using BERT and memory–graph | |
CN110489552B (zh) | 一种微博用户***风险检测方法及装置 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
Raja et al. | Fake news detection on social networks using Machine learning techniques | |
Suhas Bharadwaj et al. | A novel multimodal hybrid classifier based cyberbullying detection for social media platform | |
Liu et al. | A network-based CNN model to identify the hidden information in text data | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别***及方法 | |
CN113095723A (zh) | 优惠券的推荐方法及装置 | |
Shrivastava et al. | A research on fake news detection using machine learning algorithm | |
Yuan et al. | Research of deceptive review detection based on target product identification and metapath feature weight calculation | |
CN115248855A (zh) | 文本处理方法及装置、电子设备、计算机可读存储介质 | |
Tarnpradab et al. | Attention based neural architecture for rumor detection with author context awareness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190903 |