CN110321546B - 账号识别、显示方法、装置、服务器、终端及存储介质 - Google Patents

账号识别、显示方法、装置、服务器、终端及存储介质 Download PDF

Info

Publication number
CN110321546B
CN110321546B CN201810288695.6A CN201810288695A CN110321546B CN 110321546 B CN110321546 B CN 110321546B CN 201810288695 A CN201810288695 A CN 201810288695A CN 110321546 B CN110321546 B CN 110321546B
Authority
CN
China
Prior art keywords
account
text
sequence
article
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810288695.6A
Other languages
English (en)
Other versions
CN110321546A (zh
Inventor
卓居超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201810288695.6A priority Critical patent/CN110321546B/zh
Publication of CN110321546A publication Critical patent/CN110321546A/zh
Application granted granted Critical
Publication of CN110321546B publication Critical patent/CN110321546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/126Applying verification of the received information the source of the received data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种账号识别、显示方法、装置、服务器、终端及存储介质,通过确定待识别发文账号;获取与待识别发文账号的发文行为相关的第一信息;利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果的方式,使得基于与待识别发文账号的发文行为相关的第一信息实现了对待识别发文账号的识别,减少了现有技术依据单独对待识别发文账号中每篇文章的识别结果实现对待识别发文账号的识别时,导致的对待识别发文账号的识别结果不准确、不能有效识别出垃圾发文账号的问题。

Description

账号识别、显示方法、装置、服务器、终端及存储介质
技术领域
本发明涉及计算机分类技术领域,更具体地说,涉及一种发文账号的识别、显示方法、装置、服务器、终端及存储介质。
背景技术
随着社交网络的发展,发文账号(比如,公众号等)越来越受到人们的关注,人们可以根据自己的兴趣选择阅读不同发文账号中的文章来满足自己的阅读需求。然而,虽然发文账号可以满足用户的阅读需求,但是也不乏一些发文账号存在发送垃圾文章(比如,携带SEO营销、色情赌博、二维码推广等垃圾信息的文章),进而导致用户阅读体验差的问题。
现有技术虽然可以基于词频实现对发文账号中垃圾文章的识别,但是,因垃圾文章与垃圾发文账号之间并无直接关系(存在垃圾文章的发文账号不一定是垃圾发文账号,不存在垃圾文章的发文账号不一定是非垃圾发文账号),故现有技术并不能有效实现对垃圾发文账号的识别。
有鉴于此,提供一种发文账号的识别、显示方法、装置、服务器、终端及存储介质,以有效实现对垃圾发文账号的识别,是亟待解决的问题。
发明内容
有鉴于此,本发明提供一种账号识别、显示方法、装置、服务器、终端及存储介质,以有效实现对垃圾发文账号的识别。
为实现上述目的,本发明实施例提供如下技术方案:
一种账号识别方法,包括:
确定待识别发文账号;
获取与所述待识别发文账号的发文行为相关的第一信息;
利用所述第一信息对所述待识别发文账号进行识别,得到所述待识别发文账号的识别结果。
一种账号显示方法,包括:
接收发文账号显示请求;
获取所述发文账号显示请求指示的各个发文账号;
确定每个所述发文账号所属的发文账号类别,所述发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
基于与所述发文账号类别相关的发文账号显示规则,显示各个所述发文账号。
一种账号识别装置,包括:
待识别发文账号确定单元,用于确定待识别发文账号;
第一信息获取单元,用于获取与所述待识别发文账号的发文行为相关的第一信息;
识别结果确定单元,用于利用所述第一信息对所述待识别发文账号进行识别,得到所述待识别发文账号的识别结果。
一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现所述账号识别方法。
一种账号显示装置,包括:
发文账号显示请求接收单元,用于接收发文账号显示请求;
发文账号获取单元,用于获取所述发文账号显示请求指示的各个发文账号;
发文账号类别确定单元,用于确定每个所述发文账号所属的发文账号类别,所述发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
发文账号显示单元,用于基于与所述发文账号类别相关的发文账号显示规则,显示各个所述发文账号。
一种终端,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现所述账号显示方法。
一种存储介质,用于存储实现所述账号识别方法的程序;或者存储实现所述账号显示方法的程序。
本申请实施例提供一种账号识别、显示方法、装置、服务器、终端及存储介质,通过确定待识别发文账号;获取与待识别发文账号的发文行为相关的第一信息;利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果的方式,使得基于与待识别发文账号的发文行为相关的第一信息实现了对待识别发文账号的识别,减少了现有技术依据单独对待识别发文账号中每篇文章的识别结果实现对待识别发文账号的识别时,导致的对待识别发文账号的识别结果不准确、不能有效识别出垃圾发文账号的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种服务器的硬件结构框图;
图2为本申请实施例提供的一种识别模型生成方法流程图;
图3为本申请实施例提供的一种获取与发文账号的账号属性相关的第二信息的方法流程图;
图4为本申请实施例提供的一种确定发文账号的词向量序列的方法流程图;
图5为本申请实施例提供的一种将文章序列的词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息的方法流程图;
图6为本申请实施例提供的一种基于注意力机制模块对文章序列的表示和第二信息进行处理,得到第二识别信息的方法流程图;
图7为本申请实施例提供的一种发文账号识别方法流程图;
图8为本申请实施例提供的另一种发文账号识别方法流程图;
图9为本申请实施例提供的一种终端的硬件结构框图;
图10为本申请实施例提供的一种发文账号显示方法流程图;
图11(a)~图11(e)为本申请实施例提供的一种终端中发文账号显示方法的应用页面示意图;
图12为本申请实施例提供的一种发文账号识别装置的结构框图;
图13为本申请实施例提供的一种识别模型生成单元的详细结构示意图;
图14为本申请实施例提供的一种发文账号显示装置的结构框图。
具体实施方式
本申请的发文账号识别方法可以用于对发文账号进行识别得到识别结果,以根据识别结果确定发文账号是否为垃圾发文账号,进而便于对发文账号的管理,如屏蔽垃圾发文账号等等。
一个发文账号一般会存在至少一篇已发表过的文章,虽然现有技术可以通过文章中的词频实现对发文账号中垃圾文章的识别。但是,包括垃圾文章的发文账号并不一定是垃圾发文账号(如,一发文账号只发表过一篇营销性质的垃圾文章,那么可能这个发文账号并不能被直接认定为是垃圾发文账号),而不包括垃圾文章的发文账号并不一定不是垃圾发文账号(如,一个发文账号未发表过垃圾文章,但是存在一日内连续发表多篇相同/相似的文章的情况,那么这篇发文账号可能被认定为垃圾发文账号)。
因此,基于现有技术中单独对发文账号中每篇文章的识别结果,并不能有效实现对垃圾发文账号的识别。为了解决这一问题,本申请的发明人提出一种发文账号识别方法,该方法可以获取与待识别发文账号的发文行为相关的第一信息;并利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果,以便于基于待识别发文账号的识别结果确定该待识别发文账号是否为垃圾发文账号。
本申请实施例,优选的,可以将待识别发文账号发表的文章序列作为与待识别发文账号的发文行为相关的第一信息来实现对该待识别发文账号的识别,以使得对待识别发文账号的识别结果可以体现待识别发文账号发表的文章的时序信息,进而可以有效实现对垃圾发文账号的识别。比如,可以便于对未发表过垃圾文章但却连续发表多篇相同/相似的文章的垃圾发文账号的识别。
下面对本申请实施例提供的一种发文账号识别方法进行详细介绍:
本申请实施例提供的一种发文账号识别方法可应用于服务器,该服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。
可选的,图1示出了服务器的硬件结构框图,参照图1,服务器的硬件结构可以包括:处理器11,通信接口12,存储器13和通信总线14;
在本发明实施例中,处理器11、通信接口12、存储器13、通信总线14的数量均可以为至少一个,且处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信;
处理器11可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器13可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:
确定待识别发文账号;
获取与待识别发文账号的发文行为相关的第一信息;
利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果。
可选的,程序的细化功能和扩展功能可参照上文描述。
为了便于对上述实施例提供的一种发文账号的识别方法的理解,现首先对该发文账号识别方法在对发文账号进行识别的过程中,所应用到的识别模型的生成方法进行详细介绍。
可选的,本申请实施例中的识别模型可以由发文账号识别模型以及注意力机制模型构成。其中,发文账号识别模型和注意力机制模型是由训练样本对由循环神经网络模型和注意力机制模块构成的神经网络进行训练得到的;对神经网络训练完成后,所得到的训练后的循环神经网络模型可以是发文账号识别模型,所得到的训练后的注意力机制模块可以是注意力机制模型。
可选的,图2为本申请实施例提供的一种识别模型生成方法流程图。
如图2所示,该方法包括:
S201、确定至少一个发文账号训练样本;
可选的,发文账号可以为公众号,或者,其他用于发表文章的账号。以上仅仅是本申请实施例提供的发文账号的优选方式,发明人可根据自己的需求任意设置发文账号的具体内容,在此不做限定。
其中,任意一个发文账号都可被作为一个发文账号训练样本来实现对神经网络的训练以生成识别模型。并且,需要注意的是:任意一个发文账号也都可以被作为一个待识别发文账号以被识别模型进行识别得到识别结果,以便于基于识别结果确定该待识别发文账号是否为垃圾发文账号。
S202、获取与发文账号训练样本的发文行为相关的第一信息和与发文账号训练样本的账号属性相关的第二信息;
可选的,与发文账号的发文行为相关的第一信息包括发文账号发表的文章序列。其中,发文账号发表的文章序列包括:预设历史时间段内,由发文账号依次发表的各篇文章构成的文章序列。比如,若发文账号的创建时间至今,发文账号一共发表了3篇文章(分别为文章1、文章2和文章3,其中,文章2的发表时间晚于文章3的发表时间,文章1的发表时间晚于文章2的发表时间);如果预设历史时间段为发文账号的创建时间至今,则发文账号发表的文章序列由依次排列的文章3、文章2和文章1构成。
可选的,发文账号的账号属性的个数为至少一个,具体的,发文账号的账号属性可以为发文账号的注册年限、发文账号是否被认证、发文账号的历史发文次数等。
以上仅仅是本申请实施例提供的一种发文账号的账号属性的优选方式,发明人可根据自己的需求任意设置发文账号的账号属性所包括的具体内容,在此不做限定。
可选的,与发文账号训练样本的账号属性相关的第二信息可以为基于发文账号训练样本的账号属性构建的向量。
在本申请实施例中,优选的,获取与待识别发文账号的账号属性相关的第二信息的方式,可以参照图3所提供的一种获取与发文账号的账号属性相关的第二信息的方法流程图。
如图3所示,该方法包括:
S301、确定发文账号的至少一个账号属性以及至少一个账号属性中每个账号属性的属性值;
可选的,确定发文账号的至少一个账号属性,以及至少一个账号属性中每个账号属性的属性值。比如,账号属性为发文账号的注册年限时,账号属性的属性值为注册年限;账号属性为发文账号是否被认证时,账号属性的属性值为“是”或者“否”;账号属性为发文账号的历史发文次数时,账号属性的属性值为历史发文次数。
以上仅仅是本申请实施例提供的账号属性以及账号属性的属性值的优选方式,在此不做限定。
S302、根据账号属性的属性值确定与账号属性对应的属性参数;
可选的,分别为每个账号属性设置基于该账号属性的属性值确定该账号属性对应的属性参数的规则;比如,账号属性为发文账号的注册年限时,账号属性的属性值为注册年限,账号属性对应的属性参数即为账号属性的属性值(即,注册年限);账号属性为发文账号是否被认证时,账号属性的属性值为“是”或者“否”,若账号属性的属性值为“是”时,账号属性对应的属性参数为1,若账号属性的属性值为“否”时,账号属性对应的属性参数为0;账号属性为发文账号的历史发文次数时,账号属性的属性值为历史发文次数,账号属性对应的属性参数即为账号属性的属性值(即,历史发文次数)。
以上仅仅是本申请实施例提供的账号属性对应的属性参数的优选确定方式,发明人可根据自己的需求任意设置账号属性对应的属性参数的确定方式,在此不做限定。
S303、基于所确定的至少一个账号属性中每个账号属性对应的属性参数,生成与第二信息,至少一个账号属性中每个账号属性对应的属性参数为第二信息中的一个元素。
可选的,基于所确定与发文账号的至少一个账号属性中的每个账号属性对应的属性参数,生成与发文账号对应的向量,此向量可以认为是与该发文账号的账号属性相关的第二信息;其中,至少一个账号属性中的每个账号属性的参数为该向量中的一个元素。
在本申请实施例中,优选的,确定至少一个账号属性中各个账号属性的排序,并依据至少一个账号属性中各个账号属性的排序,对至少一个账号属性中各账号属性对应的属性参数进行排序,得到属性参数序列;分别将属性参数序列中的每一个属性参数看成是生成的向量中的一个元素,生成的向量中的各个元素依次排序后所得到的排序结果即为该属性参数序列。即,账号属性在至少一个账号属性中的顺序与该账号属性对应的属性参数在向量的各个元素中的顺序相同。
比如,若至少一个账号属性分别为账号属性1【发文账号的注册年限(该账号属性对应的属性参数为1)】、账号属性2【发文账号是否被认证(该账号属性对应的属性参数为0)】、以及账号属性3【发文账号的历史发文次数(该账号属性对应的属性参数为5)】;如果确定至少一个账号属性中各个账号属性的排序依次为账号属性2、账号属性3和账号属性1,则生成的向量为(0,5,1)。
S203、基于发文账号训练样本第一信息确定发文账号训练样本的词向量序列,将词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息;
可选的,可以依据发文账号的第一信息中的文章序列中的文章的排序,顺序获取每篇文章中依次排序的每个词,生成该文章序列的词序列;将词序列中的每个词转换成词向量,得到与词序列对应的词向量序列。其中,所得到的词向量序列便是该发文账号的词向量序列。
可选的,若文章序列由依次排列的文章1、文章2和文章3构成(文章1的发表时间早于文章2的发表时间,文章2的发表时间早于文章3的发表时间),则可以顺序获取文章1中依次排序的每个词的词向量、文章2中依次排序的每个词的词向量、以及文章3中依次排序的每个词的词向量,并基于依次获取到的各个词向量构成文章序列的词向量序列,词向量序列中的各个词向量的排列顺序为各个词向量的获取顺序。
比如,若文章序列由依次排列的文章1、文章2和文章3构成,则顺序获取文章1中依次排序的每个词的词向量(其中,从文章1中依次获取到的词向量为词向量1、词向量2)、文章2中依次排序的每个词的词向量(其中,从文章2中依次获取到的词向量为词向量3、词向量4、词向量5)、文章3中依次排序的每个词的词向量(其中,从文章3中依次获取到的词向量为词向量6),生成文章序列的词向量序列(所生成的词向量序列由依次获取到的各个词向量构成,则所生成的词向量序列为依次排列的词向量1、词向量2、词向量3、词向量4、词向量5和词向量6)。
可以将发文账号训练样本的词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息,该第一识别信息可以包括对该发文账号训练样本的文章序列的表示。
S204、将第一识别信息和第二信息输入至注意力机制模块,基于注意力机制模块对第一识别信息和第二信息进行处理,得到第二识别信息;
S205、对第二识别信息进行分类预测,得到分类预测结果;
可选的,将第二识别信息输入至softmax函数,对第二识别信息进行分类预测,得到分类预测结果。
S206、基于分类预测结果反向调节循环神经网络模型中用于对词向量序列进行处理的参数和注意力机制模块中用于对第一识别信息和第二信息进行处理的参数,以生成与循环神经网络模型对应的发文账号识别模型以及与注意力机制模块对应的注意力机制模型。
可选的,基于梯度下降算法利用步骤S205对发文账号训练样本的分类预测结果和用户预先标定的该发文账号样本的分类结果,反向调节循环神经网络模型中用于对词向量序列进行处理的参数和注意力机制模块中用于对第一识别信息和第二信息进行处理的参数;当执行多遍本申请实施例提供的步骤S201-S205后,由循环神经网络模型和注意力机制模块构成的神经网络达到收敛,便可得到与循环神经网络模型对应的发文账号识别模型,和与注意力机制模块对应的注意力机制模型。
可选的,用户预先标定的发文账号训练样本的分类结果可以用于指示该发文账号训练样本是垃圾发文账号还是非垃圾发文账号。
为了便于对本申请实施例提供的一种发文账号识别方法的理解,现对上述本申请实施例提供的一种确定发文账号的词向量序列的方法进行进一步介绍。
可选的,图4为本申请实施例提供的一种确定发文账号的词向量序列的方法流程图。
如图4所示,该方法包括:
S401、针对发文账号的第一信息中的文章序列,分别获取该文章序列中的每篇文章的词向量序列,文章的词向量序列由文章中依次排序的每个词的词向量构成;
可选的,发文账号的第一信息即为与发文账号的发文行为相关的第一信息;针对文章序列中的每篇文章而言,对该篇文章进行分词,得到该篇文章的分词结果;顺序获取该篇文章的分词结果中依次排序的每个词的词向量,将依次获取到的各个词向量组成的序列作为该篇文章的词向量序列。
比如,若文章的内容为“请问你吃饭没”,对该篇文章的分词结果为依次排序词1(请问)、词2(你)、词3(吃饭)和词4(没);依次获取词1(请问)的词向量(此处称为词向量1)、词2(你)的词向量(此处称为词向量2)、词3(吃饭)词向量(此处称为词向量3)和词4(没)的词向量(此处称为词向量4),将由依次获取到的词向量1、词向量2、词向量3和词向量4组成的词向量序列作为该篇文章的词向量序列(即,该篇文章的词向量序列由依次排序的词向量1、词向量2、词向量3和词向量4构成)。
进一步的,在对文章进行分词之前,还可以对文章进行数据清洗,以去除文章中的不符合预设要求的字符。可选的,不符合预设要求的字符包括:标点符号、数字等。以上仅仅是本申请实施例提供的对文章进行数据清洗的优选方式,发明人可根据自己的需求任意设置对文章进行数据清洗的方式,在此不做限定。
S402、依据文章序列中的文章的排序,对获取到的各文章的词向量序列进行排序,生成文章序列的词向量序列。
可选的,确定文章序列中的每篇文章的词向量序列后,依据文章序列中文章的排序,对获取到的文章序列中的各个文章的词向量序列进行排序,以生成文章序列的词向量序列。
比如,文章序列包括依次排序的文章1、文章2和文章3,获取到文章1的词向量序列3、文章2的词向量序列1和文章3的词向量序列2,按照文章序列中文章的排序对获取到的文章序列中的文章的词向量序列进行排序,得到文章序列的词向量序列(该文章序列的词向量序列由依次排序的词向量序列3、词向量序列1和词向量序列2构成;具体的,若词向量序列1中包括依次排序的词向量1和词向量3;词向量序列2中包括依次排序的词向量2、词向量4和词向量5;词向量序列3包括依次排序的词向量7和词向量6时,则依次排序的词向量7、词向量6、词向量1、词向量3、词向量2、词向量4和词向量5组成的序列为文章序列的词向量序列)。
为了便于对本申请实施例提供的一种发文账号识别方法的理解,现对本申请上述实施例提供的一种将文章序列的词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息的方法进行详细介绍。
图5为本申请实施例提供的一种将文章序列的词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息的方法流程图。
如图5所示,该方法包括:
S501、将文章序列的词向量序列作为输入信息输入至循环神经网络模型的第一隐藏层得到作为第一输出结果的文章序列的词序列的表示;
可选的,循环神经网络模型可以包括三个隐藏层,分别为第一隐藏层、第二隐藏层和第三隐藏层。
在本申请实施例中,优选的,将文章序列的词向量序列作为输入信息输入至循环神经网络模型的第一隐藏层得到第一输出结果,第一输出结果可以为文章序列的词序列的表示。
可选的,文章序列的词序列为:依据文章序列中文章的排序,顺序获取每篇文章中依次排序的每个词,并将依次获取到的各个词组成的序列作为文章序列的词序列,其中,词的获取顺序与词在词序列中的排列顺序相同。
比如,若文章序列的词向量序列由依次排序的词1的词向量1、词3的词向量3和词2的词向量2构成;将该文章序列的词向量序列作为输入信息输入至循环神经网络模型后,得到的第一输出结果为文章序列的词序列的表示,其中,此处的文章序列的词序列的表示可以为依次排列的词1的表示、词3的表示和词2的表示。
在本申请实施例中,优选的,将文章序列的词向量序列作为输入信息输入至循环神经网络模型的第一隐藏层得到作为第一输出结果的文章序列的词序列的表示,包括:将文章序列的词向量序列作为输入信息输入至循环神经网络模型的第一隐藏层,得到文章序列的词序列的正向表示和文章序列的词序列的反向表示,并根据词序列的正向表示和词序列的反向表示计算文章序列的词序列的表示,该计算得到的文章序列的词序列的表示可以作为第一隐藏层的第一输出结果。
可选的,若文章序列的词向量序列为(wij1,...,wijT),其中,i表示文章,j表示句子,T表示词,wijT表示文章序列中第i篇文章的第j个句子的中的第T个词;将词向量序列为(wij1,...,wijT)输入至循环神经网络模型的第一个隐藏层后;第一隐藏层基于词向量序列(wij1,...,wijT)得到文章序列的词序列的正向表示
Figure BDA0001616759200000121
【即,
Figure BDA0001616759200000122
其中,
Figure BDA0001616759200000123
为文章序列中第i篇文章的第j个句子的第t个词的正向表示】,并且,第一隐藏层还会按照词向量序列的倒序(wijT,...,wij1)得到文章序列的词序列的反向表示
Figure BDA0001616759200000124
【即,
Figure BDA0001616759200000125
其中,
Figure BDA0001616759200000126
为文章序列中第i篇文章的第j个句子的第t个词的反向表示】;进一步的,第一隐藏层会基于词序列的正向表示
Figure BDA0001616759200000127
和词序列的反向表示
Figure BDA0001616759200000128
计算得到词序列的表示
Figure BDA0001616759200000129
其中,hijt为文章序列中第i篇文章中的第j个句子中的第t个词的表示,该计算得到的词序列的表示
Figure BDA00016167592000001210
即为第一隐藏层的第一输出结果。
S502、将第一输出结果输入循环神经网络模型的第二隐藏层得到作为第二输出结果的文章序列的句子序列的表示;
可选的,将第一输出结果作为循环神经网络模型的第二隐藏层的输入信息,输入至该循环神经网络模型的第二隐藏层,得到第二输出结果,该第二输出结果为文章序列的句子序列的表示。
在本申请实施例中,优选的,文章序列的句子序列是:依据文章序列中文章的排序,顺序确定每篇文章中依次排序的每个句子,并将依次确定的每个句子组成的序列作为文章序列的句子序列。
在本申请实施例中,若第一隐藏层的第一输出结果为词序列的表示
Figure BDA00016167592000001211
时,将第一输出结果输出至第二隐藏层,第二隐藏层对第一输出结果进行处理,得到第二输出结果。具体的,第二隐藏层对第一输出结果进行处理的方式为依次基于公式一、uijt=tanh(Wwhijt+bw)、公式二、
Figure BDA0001616759200000131
和公式三、
Figure BDA0001616759200000132
得到第二输出结果(也可称为文章序列的句子序列的表示)hij;其中,Wijt为参数矩阵,bw为偏置向量,tanh(·)为非线性函数取值为[-1,1],hij为文章序列中的第i篇文章中的第j个句子的表示。
S503、将第二输出结果输入循环神经网络模型的第三隐藏层得到作为第三输出结果的第一识别信息,第一识别信息包括文章序列的表示。
在本申请实施例中,若第二隐藏层的第二输出结果为句子序列的表示hij时,将第二输出结果作为输入信息输入至第三隐藏层,得到第三输出结果。
可选的,第三隐藏层对第二输出结果进行处理的方式为:基于
Figure BDA0001616759200000133
公式得到文章序列的表示hi,其中,hi为文章序列中第i篇文章的表示。相应的,也可将得到的文章序列的表示看成(h1,...,hi,...hT)。
为了便于对本申请实施例提供的一种发文账号识别方法的理解,现对本申请上述实施例提供的一种将第一信息和第二信息输入至注意力机制模块,基于注意力机制模块对第一识别信息和第二信息进行处理,得到第二识别信息的方法进行详细介绍。
可选的,发文账号的文章序列的第一识别信息可以为发文账号的文章序列的表示;发文账号的第二信息与发文账号的账号属性相关,其表现形式可以为向量。
由此,本申请实施例提供的一种将第一信息和第二信息输入至注意力机制模块,基于注意力机制模块对第一识别信息和第二信息进行处理,得到第二识别信息的方法,可以为将发文账号的文章序列的表示和发文账号的第二信息输入至注意力机制模块,基于注意力机制模块对文章序列的表示和第二信息进行处理,得到第二识别信息的方法。
可选的,本申请实施例中,基于注意力机制模块对文章序列的表示和第二信息进行处理,得到第二识别信息的方法可参见图6。
如图6所示,该方法包括:
S601、根据发文账号的第二信息对发文账号的文章序列的表示进行处理,得到与文章序列中的每篇文章的表示的评分;
S602、利用文章序列的表示和文章序列中的每篇文章的表示的评分,计算作为第二识别信息的文章序列的最终表示,并将文章序列的最终表示确定为新的文章序列的表示。
可选的,若与发文账号的账号属性相关的第二信息为向量a,将此向量a和文章序列的表示(h1,...,hi,...hT)一起输入至注意力机制模块,便可得到文章序列的最终表示,该文章序列的最终表示可以认为是基于注意力机制模块对文章序列的表示(h1,...,hi,...hT)和向量a进行处理,所得到的第二识别信息。
具体的,注意力机制模块在接收到向量a和文章序列的表示(h1,...,hi,...hT)后,通过向量a对文章序列的表示(h1,...,hi,...hT)进行处理,以得到文章序列的最终表示的方式包括:根据向量a对文章序列的表示(h1,...,hi,...hT)进行处理,得到与文章序列中的每篇文章的表示的评分;利用文章序列的表示和文章序列中的每篇文章的表示的评分,计算文章序列的最终表示。
其中,根据向量a对文章序列的表示(h1,...,hi,...hT)进行处理,得到与文章序列中的每篇文章的表示的评分,包括:根据公式mi=tanh(Waa+Whhi)对向量a和文章序列的表示(h1,...,hi,...hT)进行处理,得到每篇文章的表示的评分mi,其中,Wa,为参数矩阵,Wh为参数矩阵,mi为文章序列中的第i篇文章的表示的评分。相应的,文章的表示的评分序列为(m1,...,mi,...,mT)。可选的,可基于此种方式根据向量,分别对文章序列的表示中的每篇文章的表示进行处理,得到文章的表示的评分。
相应的,利用文章序列的表示和文章序列中的每篇文章的表示的评分,计算文章序列的最终表示,包括:通过公式h=∑mihi实现利用文章的表示的评分序列(m1,...,mi,...,mT)对文章序列的表示(h1,...,hi,...hT)进行加权求和得到文章序列的最终表示h。可选的,基于此种方式可针对文章序列中的每篇文章,计算文章的表示与文章的评分的乘积结果;将所计算到的各个乘积结果的总和,确定为文章序列的最终表示。
通过上述的详细介绍,可以便于本领域技术人员对本申请实施例提供的一种发文账号识别方法中的识别模型构建方法进行详细了解。本领域技术人员应该了解的是本申请实施例在构建识别模型时,所应用的发文账号可以称为发文账号训练样本;本申请实施例在基于构建好的识别模型对发文账号进行识别时,用于被已构建好的识别模型进行识别的发文账号可称为待识别发文账号。虽然根据发文账号的应用途径的不同可以将发文账号称为发文账号训练样本或待识别发文账号,但是,本领域技术人员应该得知的是本申请实施例中,对发文账号训练样本的处理方式和对待识别发文账号的处理方式均可参见上述实施例中对发文账号的处理方式的描述,再此不做赘述。
为了更加清楚的对本申请实施例的提供的一种发文账号识别方法进行说明,现从对发文账号进行识别的角度进行介绍。
可选的,图7为本申请实施例提供的一种发文账号识别方法流程图。
如图7所示,该方法包括:
S701、确定待识别发文账号;
S702、获取与待识别发文账号的发文行为相关的第一信息;
可选的,有关获取与待识别发文账号的发文行为相关的第一信息的方式请参见上述实施例的描述,再此不做赘述。
S703、利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果。
可选的,确定基于发文账号训练样本对神经网络进行训练得到的识别模型,该识别模型中包括发文账号识别模型;确定与待识别发文账号的发文行为相关的第一信息,通过发文账号识别模型对第一信息进行识别,以得到待识别发文账号的识别结果。在本申请实施例中,优选的,可以是发文账号识别模型对第一信息中的文章序列的词向量序列进行识别,以得到待识别发文账号的识别结果。
在本申请实施例中,优选的,确定与待识别发文账号的发文行为相关的第一信息,将第一信息中的文章序列的词向量序列作为输入信息输入至发文账号识别模型,以得到发文账号识别模型的输出结果(此处的输出结果可以认为是上述实施例提到的第一识别信息)。可选的,可以将该第一识别信息作为输入信息输入至softmax函数,由softmax函数对该第一识别信息进行分类预测,得到该待识别发文账号的识别结果。
可选的,本申请实施例还提供另一种发文账号识别方法,请参见图8。
如图8所示,该方法包括:
S801、确定待识别发文账号;
S802、获取与待识别发文账号的发文行为相关的第一信息;
在本申请实施例中,步骤S801-S802的执行方式与上述实施例提供的步骤S701-S702的执行方式相同,有关步骤S801-S802的具体执行方式请参见上述实施例的描述,再此不做赘述。
S803、获取与待识别发文账号的账号属性相关的第二信息;
可选的,有关获取与待识别发文账号的账号属性相关的第二信息的方式请参见上述实施例的描述,再此不做赘述。
S804、利用第一信息和第二信息对待识别发文账号进行识别,得到待识别发文账号的识别结果。
可选的,确定基于发文账号训练样本对神经网络进行训练得到的识别模型,该识别模型不仅包括了发文账号识别模型还包括了注意机制模型,将第一信息输入作为输入信息输入至发文账号识别模型,得到输出结果(此处的输出结果可以认为是上述实施例提到的第一识别信息),并将该输出结果和第二信息作为注意力机制模型的输入信息输入至注意力机制模型,以得到该注意力机制模型的输出结果(此处的输出结果可以认为是上述实施例提到的第二识别信息)。在本申请实施例中,优选的,可以将第二识别信息作为输入信息输入至softmax函数,由softmax函数对第二识别信息进行分类预测,得到该待识别发文账号的识别结果。
在本申请实施例中,优选的,与待识别发文账号的发文行为相关的第一信息包括待识别发文账号发表的文章序列。
在本申请实施例中,优选的,利用第一信息和第二信息对待识别发文账号进行识别,得到待识别发文账号的识别结果,包括:依据第一信息中的文章序列中的文章的排序,顺序获取每篇文章中依次排序的每个词,生成文章序列的词序列;将词序列中的每个词转换成词向量,得到与词序列对应的词向量序列;将词向量序列输入至发文账号识别模型,基于发文账号识别模型对词向量序列进行处理,得到第一识别信息;基于第二信息对第一识别信息进行处理,得到第二识别信息。
可选的,将词向量序列输入至发文账号识别模型,基于发文账号识别模型对词向量序列进行处理,得到第一识别信息,包括:将文章序列的词向量序列输入至发文账号识别模型,基于发文账号识别模型对词向量序列进行处理,输出作为第一识别信息的文章序列的表示。
可选的,获取与待识别发文账号的账号属性相关的第二信息,包括:确定待识别发文账号的至少一个账号属性以及至少一个账号属性中每个账号属性的属性值;根据账号属性的属性值确定与账号属性对应的属性参数;基于所确定的至少一个账号属性中每个账号属性对应的属性参数,生成与待识别发文账号的账号属性相关的第二信息,至少一个账号属性中每个账号属性对应的属性参数为第二信息中的一个元素。
可选的,基于第二信息对第一识别信息进行处理,得到第二识别信息,包括:将第一识别信息与第二信息输入至注意力机制模型,基于注意力机制模型对第一识别信息和第二信息进行处理,得到第二识别信息。
在本申请实施例中,优选的,基于第二信息对第一识别信息进行处理,得到第二识别信息,包括:根据第二信息对文章序列的表示进行处理,得到文章序列中每篇文章的评分;基于所确定的每篇文章的评分对文章序列的表示进行处理,得到作为第二识别信息的文章序列的最终表示。
本申请实施例提供一种账号识别方法及服务器,通过确定待识别发文账号;获取与待识别发文账号的发文行为相关的第一信息;利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果的方式,使得基于与待识别发文账号的发文行为相关的第一信息实现了对待识别发文账号的识别,减少了现有技术依据单独对待识别发文账号中每篇文章的识别结果实现对待识别发文账号的识别时,导致的对待识别发文账号的识别结果不准确、不能有效识别出垃圾发文账号的问题。
在本申请上述实施例提供的一种账号识别方法及服务器的基础上,本申请实施例还可以提供一种账号显示方法。本申请实施例所提供的账号显示方法可以应用于终端,也可以应用于服务器。
本申请实施例提供的账号显示方法所应用的服务器可以是上述实施例提供的一种发文账号识别方法所应用的服务器,也可以是另一个可以与上述实施例提供的一种发文账号识别方法所应用的服务器进行通信的服务器。当本申请实施例提供的账号显示方法所应用的服务器不同于上述实施例提供的一种发文账号识别方法所应用的服务器时,本申请实施例提供的一种账号显示方法所应用的服务器可根据上述实施例提供的一种发文账号识别方法所应用的服务器对发文账号的识别结果,实现对发文账号的显示。
在本申请实施例中,主要以账号显示方法应用于终端为例,对本申请实施例提供的一种账号显示方法进行说明。本申请实施例提供的一种账号显示方法具体可以为一种发文账号显示方法。
在本申请实施例中,终端可以为手机、平板电脑等。如,参见图9,其示出了本申请实施例的发文账号显示方法所适用的终端的一种组成结构示意图。
在图9中,该终端900可以包括:处理器901、存储器902、通信接口903、输入单元904和显示器905和通信总线906。
存储器902中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
接收发文账号显示请求;
获取位于发文账号显示请求指示的发文账号范围内的各个发文账号;
确定每个发文账号所属的发文账号类别,发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
基于与发文账号类别相关的发文账号显示规则,显示各个发文账号。
处理模块901、存储器902、通信接口903、输入单元904、显示器905、均通过通信总线906完成相互间的通信。
在本申请实施例中,该处理器901,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件等。
该处理器可以调用并执行存储器902中存储的程序。
该通信接口903可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括输入单元905,该输入单元可以包括感应触摸显示面板上的触摸事件的触摸感应单元、键盘等等。
该显示器904包括显示面板,如触摸显示面板等。在一种可能的情况中,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-EmittingDiode,OLED)等形式来配置显示面板。
当然,图9所示的终端结构并不构成对本申请实施例中终端的限定,在实际应用中终端可以包括比图9所示的更多或更少的部件,或者组合某些部件。
可选的,程序的细化功能和扩展功能可参照下文描述。
下面结合本申请的以上共性,对本申请实施例的发文账号显示方法应用于终端的情况进行详细介绍。
参见图10,其示出了本申请实施例提供的一种发文账号显示方法的流程示意图。
如图10所示,该方法包括:
S1001、接收发文账号显示请求;
可选的,终端可以接收用户发送的发文账号显示请求。
S1002、获取发文账号显示请求指示的各个发文账号;
在本申请实施例中,优选的,发文账号显示请求为发文账号搜索请求时,可以认为发文账号显示请求携带发文账号范围,发文账号搜索请求携带的搜索条件可以认为是发文账号显示请求携带的发文账号范围;获取发文账号显示请求指示的各个发文账号,可以认为是获取位于发文账号显示请求携带的发文账号范围内的各个发文账号。可选的,可以从已存在的所有的发文账号中查询满足搜索条件的发文账号,并将查找到的发文账号作为发文账号显示请求指示的各个发文账号,即,位于发文账号显示请求携带的发文账号范围内的各个发文账号。
在本申请实施例中,优选的搜索条件可以是发文账号的发文账号名称中的全部/部分内容等等。以上仅仅是本申请实施例提供的搜索条件的优选方式,有关搜索条件的具体内容在此不做限定。
S1003、确定每个发文账号所属的发文账号类别,发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
可选的,在获取到发文账号显示请求指示的各个发文账号后,可以分别确定获取到的每个发文账号所属的发文账号类别,若发文账号为垃圾发文账号,则该发文账号属于垃圾发文账号类别;若发文账号为非垃圾发文账号,则该发文账号属于非垃圾发文账号类别。
S1004、基于与发文账号类别相关的发文账号显示规则,显示各个发文账号。
在本申请实施例中,优选的,设置有与发文账号类别相关的发文账号显示规则。可选的,发文账号显示规则用于指示屏蔽属于垃圾发文账号类别的发文账号,或者,发文账号显示规则用于指示属于非垃圾发文账号类别的发文账号的显示优先级高于属于垃圾发文账号类别的发文账号的显示优先级。
在本申请实施例中,优选的,屏蔽属于垃圾发文账号类别的发文账号可以是不显示属于垃圾发文账号类别的发文账号,也可以是显示属于垃圾发文账号类别的发文账号,但是用特殊方式显示属于垃圾发文账号类别的发文账号,特殊方式可以是不同于属于非垃圾发文账号类别的发文账号的显示方式,比如,用特殊方式显示出的属于垃圾发文账号类别的发文账号不可被查看等等。
在本申请实施例中,优选的,属于非垃圾发文账号类别的发文账号的显示优先级高于属于垃圾发文账号类别的发文账号的显示优先级,可以是同一页面中属于非垃圾发文账号类别的发文账号的显示顺序早于属于垃圾发文账号类别的发文账号的显示顺序。
比如,若获取到3个发文账号,分别为发文账号1、发文账号2和发文账号3;其中,发文账号1属于垃圾发文账号类别,发文账号2属于非垃圾发文账号类别,发文账号3属于垃圾发文账号类别;发文账号显示规则可以指示在同一页面中对获取到的各个发文账号进行排列显示,属于非垃圾发文账号类别的各个发文账号在页面中的显示顺序早于属于垃圾发文账号类别的各个发文账号在页面中的显示顺序。比如,在同一页面中显示获取到的发文账号1、发文账号2和发文账号3,其中,发文账号2在页面中的显示顺序早于发文账号1和发文账号3在页面中的显示顺序。
为了便于对本申请实施例提供的一种发文账号显示方法的理解,现结合一种发文账号显示方法的应用场景对本申请实施例提供的一种发文账号显示方法进行详细说明。
本申请实施例提供的一种发文账号显示方法应用场景为发文账号搜索场景。如图11(a)-11(e)所示为本申请实施例提供的一种终端中发文账号显示方法的应用页面示意图。用户通过对终端的操作进入如图11(a)所示的页面,在如图11(a)所示的页面中,点击朋友圈或者公众号,以确定是对朋友圈进行搜索还是对公众号进行搜索。
在本申请实施例中,优选的,朋友圈可以看成是发文账号,公众号也可以看成是发文账号。以上仅仅是本申请实施例提供的发文账号的优选方式,具体的发明人可根据自己的需求任意设置发文账号的具体内容,再此不做限定。
可选的,如图11(a)所示,当用户点击公众号时,可以跳转到图11(b)所示的页面;如图11(c)所示,用户可以在如图11(b)的页面的搜索框中输入搜索条件,如图11(c)中的“厦门”;并点击如图11(c)所示的搜索按钮,便可从所有已存在的公众号中满足搜索条件为“厦门”的公众号进行搜索。在本申请实施例中,优选的,搜索出的满足搜索条件“厦门”的公众号一共有5个,分别为公众号1、公众号2、公众号3、公众号4和公众号5;并且,确定出公众号1属于非垃圾公众号类别,公众号2属于垃圾公众号类别,公众号3属于非垃圾公众号类别,公众号4属于非垃圾公众号类别,公众号5属于垃圾公众号类别。
在本申请实施例中,优选的,对满足搜索条件的公众号进行搜索,并确定搜索出的公众号所属的类别的过程可以在终端执行,也可以在服务器执行;如果在服务器执行时,可以是服务器将执行结果返回给终端,以便于终端进行显示;或者,服务器直接根据执行结果确定待跳转至的页面,比如图11(d)或图11(e),进而由服务器控制终端对待跳转至的页面进行显示。具体的执行方式,发明人可根据自己的需要任意设置,在此不做限定。
进一步的,基于与发文账号类别相关的发文账号显示规则,显示搜索出的各个发文账号;如果与发文账号类别相关的发文账号显示规则用于指示屏蔽属于垃圾发文账号类别的发文账号时,可以从如图11(c)所示的页面跳转至如图11(d)所示的页面,实现对搜索出的公众号的显示;此处屏蔽属于垃圾发文账号类别的发文账号可以是不显示属于垃圾发文账号类别的发文账号。
如果与发文账号类别相关的发文账号显示规则用于指示属于非垃圾发文账号类别的发文账号的显示优先级高于属于垃圾发文账号类别的发文账号的显示优先级,可以从如图11(c)所示的页面跳转至如图11(e)所示的页面,实现对搜索出的公众号的显示;此处的属于非垃圾发文账号类别的发文账号的显示优先级高于属于垃圾发文账号类别的发文账号的显示优先级可以是在同一页面中,属于非垃圾发文账号类别的发文账号在页面中的显示顺序早于属于垃圾发文账号类别的发文账号在页面中的显示顺序;进一步的,还可以对页面中显示出的属于垃圾发文账号类别的发文账号用特殊颜色标记;进一步的,还可以禁止页面中显示出的属于垃圾发文账号类别的发文账号被用户触发以跳转至与该发文账号对应的页面。
以上仅仅是本申请实施例为了说明对本申请实施例提供的一种发文账号识别方法进行详细说明,而提供的一种发文账号识别方法所应用的场景,有关本申请实施例提供的发文账号识别/显示方法的具体应用场景发明人可根据自己的需求任意设置,在此不做限定。
本申请实施例提供一种账号显示方法及服务器,基于对发文账号所属的发文账号类别的确定,实现了对发文账号的显示控制,进而便于优化网络环境,为用户带来更好的网络体验。
下面对本发明实施例提供的发文账号识别装置进行介绍,下文描述的发文账号识别装置可认为是,服务器为实现本发明实施例提供的发文账号识别方法,所需设置的程序模块。下文描述的发文账号识别装置内容,可与上文描述的发文账号识别方法内容相互对应参照。
图12为本申请实施例提供的一种发文账号识别装置的结构框图,该装置可应用于服务器,参照图12,该发文账号识别装置可以包括:
待识别发文账号确定单元121,用于确定待识别发文账号;
第一信息获取单元122,用于获取与待识别发文账号的发文行为相关的第一信息;
识别结果确定单元123,用于利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果。
可选的,识别结果确定单元,包括:
第二信息获取单元,用于获取与待识别发文账号的账号属性相关的第二信息;
识别结果确定子单元,用于利用第一信息和第二信息对待识别发文账号进行识别,得到待识别发文账号的识别结果。
在本申请实施例中,优选的,第一信息包括待识别发文账号发表的文章序列,识别结果确定子单元,包括:
词序列生成单元,用于依据第一信息中的文章序列中的文章的排序,顺序获取每篇文章中依次排序的每个词,生成文章序列的词序列;
词向量序列生成单元,用于将词序列中的每个词转换成词向量,得到与词序列对应的词向量序列;
第一识别信息生成单元,用于将词向量序列输入至发文账号识别模型,基于发文账号识别模型对词向量序列进行处理,得到第一识别信息;
第二识别信息生成单元,用于基于第二信息对第一识别信息进行处理,得到第二识别信息。
在本申请实施例中,优选的,第二识别信息生成单元,具体用于将第一识别信息与第二信息输入至注意力机制模型,基于注意力机制模型对第一识别信息和第二信息进行处理,得到第二识别信息。
在本申请实施例中,优选的,第一识别信息生成单元,具体用于将文章序列的词向量序列输入至发文账号识别模型,基于发文账号识别模型对词向量序列进行处理,输出作为第一识别信息的文章序列的表示。
进一步的,在本申请实施例中,优选的,第二识别信息生成单元,具体用于根据第二信息对文章序列的表示进行处理,得到文章序列中每篇文章的评分;基于所确定的每篇文章的评分对文章序列的表示进行处理,得到作为第二识别信息的文章序列的最终表示。
在本申请实施例中,优选的,第二信息获取单元,包括:
属性确定单元,用于确定待识别发文账号的至少一个账号属性以及至少一个账号属性中每个账号属性的属性值;
属性参数确定单元,用于根据账号属性的属性值确定与账号属性对应的属性参数;
第二信息生成单元,用于基于所确定的至少一个账号属性中每个账号属性对应的属性参数,生成与待识别发文账号相关的第二信息,至少一个账号属性中每个账号属性对应的属性参数为第二信息中的一个元素。
进一步的,在本申请实施例提供的一种发文账号识别装置中还包括识别模型生成单元,识别模型生成单元的详细结构示意图请参数图13。
如图13所示,识别模型生成单元,包括:
训练样本确定单元131,用于确定至少一个发文账号训练样本;
训练样本信息获取单元132,用于获取与发文账号训练样本的发文行为相关的第一信息和与发文账号训练样本的账号属性相关的第二信息;
训练样本第一识别信息生成单元133,用于基于发文账号训练样本的第一信息确定发文账号训练样本的词向量序列,将词向量序列输入至循环神经网络模型,基于循环神经网络模型对词向量序列进行处理,得到第一识别信息;
训练样本第二识别信息生成单元134,用于将第一识别信息和第二信息输入至注意力机制模块,基于注意力机制模块对第一识别信息和第二信息进行处理,得到第二识别信息;
分类预测单元135,用于对第二识别信息进行分类预测,得到分类预测结果;
反向调节单元136,用于基于分类预测结果反向调节循环神经网络模型中用于对词向量序列进行处理的参数和注意力机制模块中用于对第一识别信息和第二信息进行处理的参数,以生成与循环神经网络模型对应的发文账号识别模型以及与注意力机制模块对应的注意力机制模型。
在本申请实施例中,优选的,分类预测单元,具体用于:将第二识别信息输入至softmax函数,对第二识别信息进行分类预测,得到分类预测结果。
在本申请实施例中,优选的,反向调节单元,具体用于:基于梯度下降算法利用分类预测结果反向调节循环神经网络模型中用于对词向量序列进行处理的参数和注意力机制模块中用于对第一识别信息和第二信息进行处理的参数。
下面对本发明实施例提供的发文账号显示装置进行介绍,下文描述的发文账号显示装置可认为是,终端为实现本发明实施例提供的发文账号显示方法,所需设置的程序模块。下文描述的发文账号显示装置内容,可与上文描述的发文账号显示方法内容相互对应参照。
图14为本申请实施例提供的一种发文账号显示装置的结构框图,该装置可应用于终端,参照图14,该发文账号显示装置可以包括:
发文账号显示请求接收单元141,用于接收发文账号显示请求;
发文账号获取单元142,用于获取发文账号显示请求指示的各个发文账号;
发文账号类别确定单元143,用于确定每个发文账号所属的发文账号类别,发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
发文账号显示单元144,用于基于与发文账号类别相关的发文账号显示规则,显示各个发文账号。
在本申请实施例中,优选的,发文账号显示规则用于指示屏蔽属于垃圾发文账号类别的发文账号,或者,用于指示属于非垃圾发文账号类别的发文账号的显示优先级高于属于垃圾发文账号类别的发文账号的显示优先级。
进一步的,本发明实施例还提供一种存储介质,该存储介质用于存储实现账号识别方法的程序;或者存储实现账号显示方法的程序。
有关本申请实施例提供的存储介质中存储的程序的详细描述可参照上述实施例,在此不做赘述。
本申请实施例提供一种账号识别、显示装置及存储介质,通过确定待识别发文账号;获取与待识别发文账号的发文行为相关的第一信息;利用第一信息对待识别发文账号进行识别,得到待识别发文账号的识别结果的方式,使得基于与待识别发文账号的发文行为相关的第一信息实现了对待识别发文账号的识别,减少了现有技术依据单独对待识别发文账号中每篇文章的识别结果实现对待识别发文账号的识别时,导致的对待识别发文账号的识别结果不准确、不能有效识别出垃圾发文账号的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种账号识别方法,其特征在于,包括:
确定待识别发文账号;
获取与所述待识别发文账号的发文行为相关的第一信息;所述第一信息包括所述待识别发文账号发表的文章序列;
获取与所述待识别发文账号的账号属性相关的第二信息;
依据所述第一信息中的文章序列中的文章的排序,顺序获取每篇所述文章中依次排序的每个词,生成所述文章序列的词序列;
将所述词序列中的每个词转换成词向量,得到与所述词序列对应的词向量序列;
将所述文章序列的所述词向量序列输入至发文账号识别模型,基于所述发文账号识别模型对所述词向量序列进行处理,输出作为第一识别信息的所述文章序列的表示;
将所述第一识别信息与所述第二信息输入至注意力机制模型,根据所述第二信息对所述文章序列的表示进行处理,得到所述文章序列中每篇所述文章的评分;
基于所确定的每篇文章的评分对所述文章序列的表示进行处理,得到作为第二识别信息的所述文章序列的最终表示,所述第二识别信息用于账号识别。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述待识别发文账号的账号属性相关的第二信息,包括:
确定所述待识别发文账号的至少一个账号属性以及所述至少一个账号属性中每个所述账号属性的属性值;
根据所述账号属性的属性值确定与所述账号属性对应的属性参数;
基于所确定的所述至少一个账号属性中每个所述账号属性对应的属性参数,生成第二信息,所述至少一个账号属性中每个所述账号属性对应的属性参数为所述第二信息中的一个元素。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定至少一个发文账号训练样本;
获取与所述发文账号训练样本的发文行为相关的第一信息和与所述发文账号训练样本的账号属性相关的第二信息;
基于所述发文账号训练样本的第一信息确定所述发文账号训练样本的词向量序列,将所述词向量序列输入至循环神经网络模型,基于所述循环神经网络模型对所述词向量序列进行处理,得到第一识别信息;
将所述第一识别信息和第二信息输入至注意力机制模块,基于所述注意力机制模块对所述第一识别信息和第二信息进行处理,得到第二识别信息;
对所述第二识别信息进行分类预测,得到分类预测结果;
基于所述分类预测结果反向调节所述循环神经网络模型中用于对所述词向量序列进行处理的参数和所述注意力机制模块中用于对所述第一识别信息和第二信息进行处理的参数,以生成与所述循环神经网络模型对应的发文账号识别模型以及与所述注意力机制模块对应的注意力机制模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述第二识别信息进行分类预测,得到分类预测结果,包括:
将所述第二识别信息输入至softmax函数,对所述第二识别信息进行分类预测,得到分类预测结果。
5.一种账号显示方法,其特征在于,包括:
接收发文账号显示请求;
获取所述发文账号显示请求指示的各个发文账号;
确定每个所述发文账号所属的发文账号类别,所述发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
基于与所述发文账号类别相关的发文账号显示规则,显示各个所述发文账号;其中,基于权利要求1~4任意一项所述的账号识别方法得到的识别结果,实现对各个所述发文账号的显示。
6.一种账号识别装置,其特征在于,包括:
待识别发文账号确定单元,用于确定待识别发文账号;
第一信息获取单元,用于获取与所述待识别发文账号的发文行为相关的第一信息;所述第一信息包括所述待识别发文账号发表的文章序列;
识别结果确定单元,用于获取与所述待识别发文账号的账号属性相关的第二信息;依据所述第一信息中的文章序列中的文章的排序,顺序获取每篇所述文章中依次排序的每个词,生成所述文章序列的词序列;将所述词序列中的每个词转换成词向量,得到与所述词序列对应的词向量序列;将所述文章序列的所述词向量序列输入至发文账号识别模型,基于所述发文账号识别模型对所述词向量序列进行处理,输出作为第一识别信息的所述文章序列的表示;将所述第一识别信息与所述第二信息输入至注意力机制模型,根据所述第二信息对所述文章序列的表示进行处理,得到所述文章序列中每篇所述文章的评分;基于所确定的每篇文章的评分对所述文章序列的表示进行处理,得到作为第二识别信息的所述文章序列的最终表示,所述第二识别信息用于账号识别。
7.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现如权利要求1-4任意一项所述的账号识别方法。
8.一种账号显示装置,其特征在于,包括:
发文账号显示请求接收单元,用于接收发文账号显示请求;
发文账号获取单元,用于获取所述发文账号显示请求指示的各个发文账号;
发文账号类别确定单元,用于确定每个所述发文账号所属的发文账号类别,所述发文账号类别为垃圾发文账号类别或非垃圾发文账号类别;
发文账号显示单元,用于基于与所述发文账号类别相关的发文账号显示规则,显示各个所述发文账号;其中,基于权利要求1~4任意一项所述的账号识别方法得到的识别结果,实现对各个所述发文账号的显示。
9.一种终端,其特征在于,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现如权利要求5所述的账号显示方法。
10.一种存储介质,其特征在于,用于存储实现如权利要求1-4任意一项所述的账号识别方法的程序;或者存储实现如权利要求5所述的账号显示方法的程序。
CN201810288695.6A 2018-03-30 2018-03-30 账号识别、显示方法、装置、服务器、终端及存储介质 Active CN110321546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810288695.6A CN110321546B (zh) 2018-03-30 2018-03-30 账号识别、显示方法、装置、服务器、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810288695.6A CN110321546B (zh) 2018-03-30 2018-03-30 账号识别、显示方法、装置、服务器、终端及存储介质

Publications (2)

Publication Number Publication Date
CN110321546A CN110321546A (zh) 2019-10-11
CN110321546B true CN110321546B (zh) 2023-05-02

Family

ID=68112160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810288695.6A Active CN110321546B (zh) 2018-03-30 2018-03-30 账号识别、显示方法、装置、服务器、终端及存储介质

Country Status (1)

Country Link
CN (1) CN110321546B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765973B (zh) * 2019-10-31 2023-07-04 上海掌门科技有限公司 账号类型的识别方法和装置
CN111353019A (zh) * 2020-02-25 2020-06-30 上海昌投网络科技有限公司 一种微信公众号公号主题分类方法及装置
CN114385903B (zh) * 2020-10-22 2024-02-06 腾讯科技(深圳)有限公司 应用账号的识别方法、装置、电子设备及可读存储介质
CN112487176B (zh) * 2020-11-26 2021-11-02 北京智谱华章科技有限公司 社交机器人检测方法、***、存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050268212A1 (en) * 2004-05-28 2005-12-01 Michael Dagel System, apparatus, and method for desktop-based creation and publication of a periodic community newsletter
US9449348B2 (en) * 2012-08-28 2016-09-20 Facebook, Inc. Providing a locality viewport through a social networking system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
新浪微博反垃圾中特征选择的重要性分析;张宇翔 等;《通信学报》;20160831;第37卷(第8期);第24-33页 *

Also Published As

Publication number Publication date
CN110321546A (zh) 2019-10-11

Similar Documents

Publication Publication Date Title
Ma et al. Effects of user-provided photos on hotel review helpfulness: An analytical approach with deep leaning
Sun et al. Near real-time twitter spam detection with machine learning techniques
CN110321546B (zh) 账号识别、显示方法、装置、服务器、终端及存储介质
US10147037B1 (en) Method and system for determining a level of popularity of submission content, prior to publicizing the submission content with a question and answer support system
US9223849B1 (en) Generating a reputation score based on user interactions
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN112313740A (zh) 聚合语义信息以提高对用户的理解
WO2016003508A1 (en) Context-aware approach to detection of short irrelevant texts
WO2018145577A1 (zh) 表情推荐方法和装置
US20200167645A1 (en) Information processing and model training methods, apparatuses, electronic devices, and storage mediums
CN110390052A (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
CN111563158A (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN110991742A (zh) 一种社交网络信息转发概率预测方法及***
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN112615958A (zh) 联系人显示方法、装置及电子设备
US10700920B2 (en) System and methods for decomposing events from managed infrastructures that includes a floating point unit
Plaza et al. Identifying ecosystem patterns from time series of anchovy (Engraulis ringens) and sardine (Sardinops sagax) landings in northern Chile
US11373057B2 (en) Artificial intelligence driven image retrieval
CN112182414A (zh) 文章推荐方法、装置及电子设备
Lamrharia et al. Business intelligence using the fuzzy-Kano model
KR20200032394A (ko) 조합형 의사 표현 이미지 아이템을 제공하는 메시지 처리를 위한 프로그램
CN114547242A (zh) 一种问卷调研的方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant