CN111914645A - 识别虚假信息的方法、装置、电子设备及存储介质 - Google Patents

识别虚假信息的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111914645A
CN111914645A CN202010615617.XA CN202010615617A CN111914645A CN 111914645 A CN111914645 A CN 111914645A CN 202010615617 A CN202010615617 A CN 202010615617A CN 111914645 A CN111914645 A CN 111914645A
Authority
CN
China
Prior art keywords
information
user
identified
false
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010615617.XA
Other languages
English (en)
Inventor
郑智献
史忠伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuba Co Ltd
Original Assignee
Wuba Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuba Co Ltd filed Critical Wuba Co Ltd
Priority to CN202010615617.XA priority Critical patent/CN111914645A/zh
Publication of CN111914645A publication Critical patent/CN111914645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)

Abstract

本发明公开了一种识别虚假信息的方法、装置、电子设备及存储介质。所述方法包括:获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;根据所述用户对所述待识别信息进行的多次操作,获得所述待识别信息对应的信息动作特征;根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。采用本发明技术方案可以提高虚假信息的识别准确率。

Description

识别虚假信息的方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种识别虚假信息的方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,人们越来越习惯利用互联网发布一些信息或浏览一些信息以便办理日常的业务等。例如,以招聘网站为例,用户需要在招聘网站发布招聘信息以进行招聘业务,或者发布求职信息以获得合适的工作。又以房屋中介网站为例,商户或房主可以在网站上发布房源信息,以进行房屋售卖或房屋出租。但是,实际中,在上述网站上经常会出现不实的虚假信息,例如出现招聘信息虚假、房源虚假等。
目前,在识别这些信息是否虚假信息时,一般是对这些信息本身包含的内容进行提取,通过对内容的识别判断该信息是否是虚假的信息。但是,此种虚假信息识别方式的准确率较低。
发明内容
鉴于上述问题,本发明实施例提供一种识别虚假信息的方法、装置、电子设备及存储介质,旨在解决相关技术中存在虚假信息识别的准确率较低的问题。
为了解决上述技术问题,本发明采取以下方案实现:
第一方面,本发明实施例提供一种识别虚假信息的方法,所述方法包括:
获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;
根据所述用户对所述待识别信息进行的多次操作,获得所述信息动作特征;
根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;
根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
可选地,根据所述用户对所述待识别信息的多次操作,获得所述信息动作特征,包括:
读取所述用户对所述待识别信息进行第一预设操作的操作记录,其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作;
根据所述操作记录,确定所述用户对所述待识别信息进行第一预设操作的频率和次数,以得到所述信息动作特征。
可选地,根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征,包括:
确定所述多个历史信息中每个历史信息对应的行为特征;
对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
可选地,所述方法还包括:
获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作;
获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比;
获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例;
对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征,包括:
将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
可选地,所述方法还包括:
对所述用户的属性参数值进行解析,获得用户属性特征;
根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息,包括:
根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
可选地,根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息,包括:
将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;
采用决策树算法,利用所述第一虚假信息识别模型对所述信息动作特征和所述用户行为特征分别进行分类;
根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
可选地,根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息,包括:
将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;
采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;
根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带用于表征该信息是否是虚假信息的标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
可选地,在根据所述信息动作特征、所述用户行为特征,确定所述待识别信息是否为虚假信息之后,所述方法还包括:
在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,对所述待识别信息进行发布;
在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,将所述待识别信息的访问权限设置为禁止访问。
可选地,所述方法还包括:
在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息;
在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
本发明实施例的第二方面,提供了一种识别虚假信息的装置,所述装置包括:
信息获得模块,用于获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;
第一行为特征获得模块,用于根据所述用户对所述待识别信息进行的多次操作,获得所述信息动作特征;
第二行为特征获得模块,用于根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;
信息确定模块,用于根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
可选地,所述第一行为特征获得模块,包括:
记录读取单元,用于读取所述用户对所述待识别信息进行第一预设操作的操作记录,其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作;
行为特征获得单元,用于根据所述操作记录,确定所述用户对所述待识别信息进行第一预设操作的频率和次数,以得到所述信息动作特征。
可选地,所述第二行为特征获得模块,包括:
确定单元,用于确定所述多个历史信息中每个历史信息对应的行为特征;
聚合单元,用于对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
可选地,所述装置还包括:
参数值获得模块,用于获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作;
第一统计模块,用于获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比;
第二统计模块,用于获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例;
所述聚合单元,具体用于将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
可选地,所述装置还包括:
属性特征获得模块,用于对所述用户的属性参数值进行解析,获得用户属性特征;
所述信息确定模块,具体用于根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
可选地,所述信息确定模块,包括:
第一输入单元,用于将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;
分类单元,用于采用决策树算法,利用所述第一虚假信息识别模型对对所述信息动作特征和所述用户行为特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
可选地,所述信息确定模块,包括:
第二输入单元,用于将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;
第二确定单元,用于采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第二虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带用于表征该信息是否是虚假信息的00标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
可选地,所述装置还包括:
信息发布模块,用于在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,对所述待识别信息进行发布;
访问禁止模块,用于在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,将所述待识别信息的访问权限设置为禁止访问。
可选地,所述装置还包括:
第一识别触发模块,用于在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息;
第二识别触发模块,用于在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的识别虚假信息的方法步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的识别虚假信息的方法的步骤。
现有技术相比,本发明实施例至少具有以下优点:
本发明实施例中,可以获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息,并根据用户对所述待识别信息进行的多次操作,获得所述信息动作特征;以及,根据用户对已发布的多个历史信息进行的多次操作,获得用户行为特征;根据信息动作特征和用户行为特征,确定待识别信息是否为虚假信息。
由于用户行为特征可以反映用户对多个历史信息进行的多次操作行为,而信息动作特征反映了用户对当前待识别信息进行的多次操作行为,从而使得在识别待识别信息时,可以综合考虑用户的所有操作行为(包括用户对历史信息的操作行为和用户对当前待识别信息的操作行为)识别用户当前预备发布的待识别信息的真伪。由于用户的操作行为直接反应了用户对所发布的或预备发布的信息的个人行为特征,能够准确反应用户发布信息的动机,因此,从用户的操作行为的维度上对待识别信息的真伪进行识别,提高了对信息进行识别的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的一种识别虚假信息的方法的步骤流程图;
图2是本发明实施例中的又一种识别虚假信息的方法的步骤流程图;
图3是本发明实施例中的获得信息动作特征的步骤流程图;
图4是本发明实施例中的获得用户行为特征的步骤流程图;
图5是本发明实施例中的一种识别虚假信息的装置的结构示意图;
图6是本发明实施例中的一种服务器的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在对信息的虚假性进行识别时,一般是对信息本身包含的内容进行识别,例如,对信息中的某些关键词、图片进行识别,以确定图片是否被P图,内容是否具有欺骗性。
但是,信息本身包含的内容与信息是否是虚假信息之间并没有必然关联,在某些情况下,根据信息本身包含的内容进行虚假信息识别,可能会将虚假信息误判为真实信息。以待识别信息为房源帖为例,用户发布的房源帖可能是真实存在的房源,但是,该房源的有权处置人并不是发布该房源帖的用户,此种情况下,应当判定该房源帖是虚假的,不能推送到平台中给其他用户浏览。而如果对该房源帖本身包含的内容进行识别,可能并不能识别发布该房源帖的用户其实不是该房源的有权处置人的情况,进而判定该房源帖是真实的,如果将该房源帖推送到平台中给其他用户浏览,将会造成误导,降低用户体验和平台可信度。因此,对信息本身包含的内容进行识别的方式,导致信息识别的准确率较低,不能覆盖实际场景中存在的较多的虚假类型。
基于上述需要解决的技术问题,发明人提出了本申请的核心构思:对用户对的操作行为进行刻画,从而根据用户的操作行为判断该用户预备发布的信息是否是虚假信息,从而提高了对信息进行识别的准确率。
基于上述技术构思,提出了本发明的识别虚假信息的方案,下面,对本发明的识别虚假信息的方法进行清楚、完整地描述。
本发明实施例中一种识别虚假信息的方法可以应用于服务器,具体地,可以应用于确定发布的房源信息是否为虚假的房源信息的应用场景中。参照图1,示出了本发明实施例中一种识别虚假信息的方法的步骤流程图。如图1所示,该识别虚假信息的方法具体可以包括以下步骤:
步骤S11:获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息。
待识别信息可以是服务器接收到的待发布的信息或已经发布的信息。其中,待发布的信息可以是指用户编辑好了信息发送给后台服务进行审核的信息。在实际中,在服务器接收到一个待发布的信息或接收到一个待识别的已经发布的信息时,则服务器可以对应地去获取发布该待识别信息的用户在当前时刻之前发送的多个历史信息。
实际中,多个历史信息可以是用户在当前时刻之前的预设时间段内发布的信息。例如,多个历史信息是用户在当前时刻之前的两个月内所发布的信息。在一种实施方式中,多个历史信息和待识别信息可以是同一发布场景下的信息。即,多个历史信息和待识别信息均是在同一发布场景中发布的,发布场景可以理解为是该信息在平台上被发布的版块。实际中,发布场景可以是但是不限于以下场景:招聘场景、售房场景、出租房场景。如,本发明实施例中的待发布的信息为房源信息,其发布场景为售房场景,则可以获取目标用户在该售房场景下发布的所有历史房源信息。
本发明实施例中,待识别信息可以是房源信息,房源信息是指用户编辑的描述房屋基本情况的信息,包括但不限于房屋地址、户型图、朝向、出租价格、售卖价格、室内图片、房屋小区环境等。
实际中,待识别信息可以携带用户ID,服务器则可以根据该待识别信息携带的用户ID确定到发送该信息的用户。进而,服务器可以获取该用户在当前时刻之前所发送的多个历史信息。
步骤S12:根据所述用户对所述待识别信息进行的多次操作,获得所述信息动作特征。
本实施例中,可以根据用户在待识别信息的生命周期内对该待识别信息进行的多次操作,获得信息动作特征,该信息动作特征可以表征用户对待识别信息进行多次操作的操作特征。
其中,待识别信息的生命周期可以表征该待识别信息在线上的有效时长,具体而言,该有效时长是指发送待识别信息的初始发送时刻与截止时刻之间的时间段。其中,截止时刻是指待识别信息被用户主动删除或被服务器删除或被用户关闭的时刻。实际中,若该待识别的息未被用户主动删除、也未被服务器删除及未被用户关闭,则表示该信息仍然是有效的信息,则截止时刻可以为当前时刻。
实际中,用户对待识别信息进行的多次操作可以是指用户在生命周期内对待识别信息进行多次的修改、刷新或关闭操作。其中,修改操作是指用户对待识别信息进行了修改编辑,刷新操作是指用户对该待识别信息所在的帖子页面进行刷新操作,关闭操作是指用户关闭了该待识别信息,实际中,关闭该待识别信息后,则该待识别信息对其他用户不可见。
本实施例中的一种实现方式中,在根据所述用户对所述待识别信息进行的多次操作,获得所述信息动作特征时,可以对待识别信息对应的用户行为数据进行分析,从而得到信息动作特征。该信息动作特征可以表征对待识别信息进行的操作频率、和/或修改总次数、和/或关闭总次数、和/或刷新频率、时间间隔等。
步骤S13:根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征。
本实施中,用户行为特征可以描述用户对多个历史信息进行多次操作的总体操作特点,在一种实现方式中,可以对多个历史信息各自对应的用户行为数据进行分析,得到用户对多个历史信息进行多次操作的用户行为特征。
其中,用户对多个历史信息进行的操作可以包括但不限于以下操作:修改操作、刷新操作及关闭操作。其中,修改操作是指用户对历史信息进行了修改编辑,刷新操作是指用户对该历史信息所在的帖子页面进行刷新操作,关闭操作是指用户关闭了该历史信息,实际中,关闭该历史信息后,则该历史信息对其他用户不可见。
相应地,在本实施例中,该用户行为特征可以表征对多个历史信息进行的操作频率、和/或修改总次数、和/或关闭总次数、和/或刷新频率、时间间隔等。
步骤S14:根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
本实施例中,可以将信息动作特征和用户行为特征进行关联,从而根据关联后的结果确定待识别信息是否为虚假信息。在一种具体实现中,可以为信息动作特征及用户行为特征设置各自的权重值,以将信息动作特征及用户行为特征进行加权平均,进而得到最终的加权平均值,通过该加权平均值便可以确定信息是否为虚假信息。
实际中,可以预先设置得分阈值,在加权平均值未达到该得分阈值时,可以确定信息为真实信息。例如,得分阈值设为0.1,当对信息动作特征及用户行为特征进行加权平均后得到的值在0-0.1之间时,则可以确定信息为真实信息,若得到的值大于0.1,则可以确定信息为虚假信息。
本发明实施例中,由于信息动作特征是根据用户对待识别信息进行的操作而获得的,刻画了用户对待识别信息进行操作的行为特征;而用户行为特征是根据用户对多个历史信息进行的多次操作而获得的,综合刻画了用户对多个历史信息的行为特征,最后可以综合用户行为特征和信息动作特征判断待识别信息是否是虚假信息。
因此,在对信息的真伪进行识别时,综合考虑用户的所有操作行为(包括用户对历史信息的操作行为和用户对当前待识别信息的操作行为)识别用户当前预备发布的待识别信息的真伪。由于用户的操作行为直接反应了用户对所发布的或预备发布的信息的个人行为特征,能够准确反应用户发布信息的动机,因此,从用户的操作行为的维度上对待识别信息的真伪进行识别,提高了对信息进行识别的准确率。
参照图2所示,图2是本发明又一实施例中的一种识别虚假信息的方法的步骤流程图,参照图2所示,具体可以包括以下步骤:
步骤S21:获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息。
本步骤S21的具体过程与上述步骤S11类似,具体参考步骤S11的描述即可,在此不再赘述。
步骤S22:根据所述用户对所述待识别信息进行的多次操作,获得所述信息动作特征。
本实施例中,参照图3所示,示出了获得信息动作特征的步骤图,如图3所示,该步骤S22中,具体可以包括以下步骤:
步骤S221:读取所述用户对所述待识别信息进行第一预设操作的操作记录。
其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作。
步骤S222:根据所述操作记录,确定所述用户对所述待识别信息进行第一预设操作的频率和次数,以得到所述信息动作特征。
本实施方式中,对所述待识别信息进行第一预设操作的操作记录可以是在该待识别信息的生命周期内的操作记录,用于记录用户在生命周期内对待识别信息进行的操作。
在一种实施方式中,操作记录中可以包括用户对待识别信息的每一次操作的操作时间和每一次操作的操作类型。进而,可以根据每一次操作的操作时间和操作类型,确定每一种操作的次数,进而确定操作频率。其中,频率可以表征用户在生命周期内进行第一预设操作的频繁程度。示例地,以目标用户在第一生命周期内对待识别的房源信息W进行了三次修改操作、三次刷新操作为例,则对修改操作的频率是3,对刷新操作的频率也为3。
实际中,还可以确定每相邻两次进行同种操作类型的操作的时间间隔,并通过对同种操作类型的时间间隔的统计,获得每种操作对应的平均时间间隔、最大时间间隔、最小时间间隔、方差的均值。此种情况下,信息动作特征中可以包括每种操作对应的平均时间间隔、最大时间间隔、最小时间间隔或方差的均值。则,该每种操作对应的平均时间间隔、最大时间间隔、最小时间间隔或方差的均值可以反映用户对待识别进行操作的行为特征。
示例地,以用户在生命周期内对待识别信息W进行了三次修改操作、三次刷新操作为例,其中,在生命周期内未对该信息W进行关闭操作,其中,三次修改操作分别对应的修改时间为:2019年3月11日11:05分、2019年3月13日9:00分、2019年3月13日13:00分,则确定每相邻两次进行修改操作的时间间隔分别为:45小时55分(2755分钟)、4小时(240分钟),该两个时间间隔的平均值为1498分钟。三次刷新操作分别对应的刷新时间为:2019年2月10日10:05分、2019年2月11日12:08分、2019年2月12日13:00分,则确定每相邻两次进行刷新操作的时间间隔分别为:26小时3分(1563分钟)、24小时52分(1612分钟),该两个时间间隔的平均值为1588分钟。则行为特征中可以包括1588分钟及1498分钟。当然,也可以将修改操作的时间间隔最大值2755分钟和刷新操作的时间间隔最大值1612分钟作为行为特征。
采用本实施方式时,可以对第一预设操作的频率、次数、和/或时间间隔进行统计,进而得到待识别信息的行为特征,根据这一行为特征,初步抽象出用户是否存在信息作假的行为动机。例如,若修改或刷新次数的频率较高、时间间隔也较短,则认为存在信息作假的行为动机(一般在发布虚假信息时,用户为了使得虚假信息看起更像是真实的信息,可能会进行频繁的修改和刷新),因此待识别信息大概率可能是虚假的信息。
步骤S23:根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征。
其中,参照图4所示,示出了获得用户行为特征的步骤流程图,如图4所示,在该步骤S23中,具体可以包括以下步骤:
步骤S231:确定所述多个历史信息中每个历史信息对应的行为特征。
步骤S232:对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
本实施例中,每个历史信息对应的行为特征可以表征用户对每个历史信息进行多次操作的操作特点。具体实现时,可以获得用户对每个历史信息进行第一预设操作的操作记录,从而根据操作记录,得到每个历史信息对应的行为特征。具体而言,每个历史信息对应的行为特征可以参照上述步骤S221至步骤S222的过程所述。
其中,每个历史信息对应的行为特征表征用户对历史信息进行操作的操作特征,则在对对多个历史信息各自对应的行为特征进行聚合时,可以对各历史信息对应的行为特征中表征同一种操作特征的特征进行统计处理,该统计处理可以是指求均值、最大值、最小值或方差的均值处理,从而得到用户行为特征,则该用户行为特征可以至少包括对多个历史信息进行第一预设操作的操作频率、操作次数、操作时间间隔的最大值/平均值/最小值/方差的均值。
示例地,如,以多个历史信息分别为历史信息A、历史信息B、历史信息C为例,获得到历史信息A的行为特征包括122分(修改操作的平均时间间隔)、128分(刷新操作的平均时间间隔)、20分(关闭操作的平均时间间隔),历史信息B的子用户行为特征包括135分(修改操作的平均时间间隔)、141分(刷新操作的平均时间间隔)、38分(关闭操作的平均时间间隔),历史信息C的子用户行为特征包括28分(修改操作的平均时间间隔)、48分(刷新操作的平均时间间隔)、0分(关闭操作的平均时间间隔)。
对上述三个历史信息的行为特征进行聚合,即将修改操作对应的特征122、135、28进行聚合。实际中,可以计算该122、135、28的平均值或方差,如,122、135、28的平均值为142.5,则可以将142.5作为用户行为特征中的一种特征,也或者可以将最大值或最小值直接作为用户行为特征中的一种特征,则最终得到的用户行为特征包括:142.5、158.5、29。
采用本实施方式时,由于对多个历史信息中每个历史信息的行为特征进行聚合得到了用户行为特征,这样,便可以以用户对其他历史信息的行为操作为参考,进一步抽象出用户发布待识别信息的行为动机。例如,用户对多个历史信息的修改/刷新等操作并不是很频繁、时间间隔也并不短(即用户发布这些信息都是真实的信息),而用户对待识别信息的修改/刷新等操作却很频繁、时间间隔也很短,则可以确定用户在发布待识别信息时可能存在作假的动机(为了使假的信息看起来更加真实,一般会频繁对信息进行修改)。
在一种可选示例中,为了扩充获得的用户行为特征所表征的操作特点,以准确抽象出用户的行为动机,可以在获得用户对多个历史信息进行多次操作的同时,也可以通过以下步骤获得对应的其他信息:
步骤S233:获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作。
本实施例中,在预设时间内进行的第二预设操作可以是指用户在预设时间段内对多个历史信息进行的第二预设操作,第二预设操作的参数值可以描述在预设时间段内进行第二预设操作的操作特点。
其中,登录操作可以是指用户在预设时间段内登录进入平台的操作,注册操作可以是指该用户在预设时间内向平台注册的操作,实际中,若用户通过相同的身份(例如身份证号码)注册多个不同的账号,通过不同的账号发布历史信息,则该用户可能隐藏着发布虚假信息的性质。其中,对已发布信息的关闭操作是指将已发布信息设置为其他用户不可见的操作。
新增已发布信息是指用户在预设时间段内新增信息的操作,由于多个历史信息是在预设时间段内由用户发送的信息,该发送是指用户将信息发送给服务器的动作,实际中并不一定代表该信息是初次新增并发送的。因此,在本发明实施例中,可以通过获知该信息被新增的时间,以确定该历史信息是否是在预设时间段内被新增的信息。
如,以房源信息w、预设时间段为两个月为例,若房源信息W在两个月前便由用户初次发送,但是,在近两个月内用户又对该房源信息W进行了修改,则会再次将修改后的房源信息W发送给服务器,以将房源信息W进行发布。此种情况则可以确定房源信息W并不是在近两个月新增的信息。若该房源信息W的初次发送时间是在近两个月,则可以确定该房源信息W是近两个月内新增的信息。
本实施例中,可以对进行第二预设操作的操作次数、频率、时间间隔等进行统计处理,进而得到第二预设操作的参数值,其中,对第二预设操作的操作次数、频率、时间间隔等进行统计处理的过程与上述步骤S221至步骤S22的过程类似,在此不再赘述。
步骤S234:获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比。
在本实施例中,为了进一步提高对虚假信息进行识别的准确率,进一步识别出虚假信息与身份虚假、信息虚假、信息状态虚假等之间的关联性,可以获得用户在不同场景所发布的已发布信息,即获得与发布待识别信息的场景不同的其他场景中,该用户所发布的已发布信息。如,待识别的信息是房源信息,其发布场景是售房场景,则也可以获得用户在预设时间段内在招聘场景中发布招聘信息,或在求职场景中发布求职信息。
具体实施时,可以统计每种类别的已发布信息的数量,在得到每种类别的已发布信息的数量时,还可以根据预设时间内的已发布信息的总数确定每种类别的已发布信息的占比。以已发布信息总数为12条为例,其中,属于招聘类别的信息有5条,属于应聘类别的信息有4条,属于二手货品买卖类别的信息有3条,则可以得到该12条已发布信息在类别上的数量分布。实际中,当一种类别的信息的占比越高,如,在招聘场景中发布的信息的占比很高,则表明该用户隐藏着坏素质,其待识别信息的虚假程度越高。
本实施方式中,可以通过对不同场景中用户发布的已发布信息的统计,建立待识别信息与不同类别的发布信息之间的关联性,从而抽象出用户的常用身份,进而结合用户的常用身份对待识别信息的真伪性进行识别,提高了对待识别信息的识别准确率。
例如,用户在招聘场景中发布了数量较多的信息,则实际中该用户可能为中介,则认为可能存在中介冒充个人发布待识别信息,则该识别信息可能是虚假的房源信息。
步骤S235:获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例。
本实施方式中,已发布信息可以是指用户在当前时刻之前所发布的历史信息。预设时间段可以是获得多个历史信息的预设时间段内处于早期的时间段,例如,历史信息是近两个月的历史信息,则本实施方式所指的预设时间段可以是两个月内的前一个月或前20天。预设时间段之外的时间可以是指两个月的后一个月或后40天。
本实施方式中,可以统计出多个历史信息在发布时间上的信息数量分布,例如,以2019年5月1日至2019年7月1的60天为例,预设时间段5月1日至5月30日,假设在5月1日至5月30日共发布了10条历史信息,在6月1日至7月1日共发布了45条信息,则可以确定出在该60天内用户在发不历史信息数量分布。
采用本实施方式时,可以得到用户发布历史信息的频繁程度,从而建立起待识别信息与用户发帖频繁程度上的关联性,这样,可以进一步提高对待识别信息进行识别的准确率。
例如,用户在发布待识别信息的时间段,频繁发布了数量较多的类似的信息,则待识别信息是虚假信息的可能性较高,因此,若在发布待识别信息的时间段,仅发布了数量很少的类似的信息,则待识别信息是真实信息的可能性较高。
则相应的,在通过步骤S233至步骤S234获得对应的信息后,则可以将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
即,在获得用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例、用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比以及用户在预设时间段内进行第二预设操作的参数值的情况下,可以将上述信息中的一个或多个信息与对每个历史信息对应的行为特征进行聚合的结果,作为用户行为特征。
采用上述实施方式时,可以建立出待识别信息与不同信息之间的关联性,即建立起待识别信息与不同场景下的已发布信息之间的关联性、待识别信息与用户发帖频繁程度之间的关联性,以及待识别信息与用户行为之间的关联性。由于建立起待识别信息与不同场景下的已发布信息之间的关联性,从而可以判断待识别信息是否是用户身份类型的造假;由于建立起了待识别信息与用户发帖频繁程度之间的关联性,由此,可以判断待识别信息是否是用户阶段性的造假;由于建立起了待识别信息与用户行为之间的关联性,可以判断待识别信息是否是用户习惯性造假,从而扩大了命中信息虚假类型的覆盖率,提高识别准确率。
步骤S24:根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
本步骤S24的过程与上述步骤S14的过程类似,具体参考上述步骤S14的过程即可,在此不再赘述。
相应地,为了提高信息识别的效率和智能性,在本实施例提出的一种实施方式中,在根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息时,可以将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;并采用决策树算法,利用所述第一虚假信息识别模型对所述信息动作特征和所述用户行为特征分别进行分类,根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息。
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
本实施例中,第一虚假信息识别模型是基于决策树算法对所述信息动作特征和所述用户行为特征分别进行分类。采用本实施方式时,可以利用第一虚假信息识别模型对待识别信息进行识别,由于模型可以输出虚假度得分,则便于本申请实施例能够落地实施,从而提高平台的运行效率。
其中,预设模型可以是lightGBM模型,LightGBM是个快速的、分布式的、高性能的基于决策树算法的梯度提升框架。实际中,对预设模型训练后,便得到了第一虚假信息识别模型,该第一虚假信息识别模型便可以对信息的真伪性进行识别。
本实施例中,可以预先设虚假度得分阈值,当虚假度得分大于或等于虚假度得分阈值,则可以确定待识别信息是虚假的,如果虚假度得分小于虚假度得分阈值,则可以确定待识别信息是真实的。
实际中,在对预设模型训练时,可以分别对多个信息样本进行特征提取,获取所述多个信息样本各自对应的行为特征及用户行为特征,然后将多个信息样本各自对应的行为特征及用户行为特征输入到预设模型进行训练,得到第一虚假信息识别模型。具体地,获得每个信息样本对应的行为特征与上述步骤S12类似,获得每个信息样本对应的用户行为特征的过程与上述步骤S13的过程类似,在此不再对信息样本的特征提取进行赘述,相关过程参照上述描述即可。
在又一种实际情况中,预设模型还可以用于按照上述实施例所示的方法,对信息样本进行特征提取,以得到信息样本对应的行为特征、与信息样本关联的多个其他信息样本对应的用户行为特征,进而对信息样本对应的行为特征、与信息样本关联的多个其他信息样本对应的用户行为特征进行特征分析,例如,通过尺度为1*1的卷积进行分析,最终得到识别结果,并根据信息样本携带的标签,确定损失,根据损失更新预设模型。
这样,获得的第一虚假信息识别模型便可以直接对待识别信息和多个历史信息进行识别,则在此种情况下,也可以将待识别信息和多个历史信息直接输入到第一虚假信息识别模型,从而通过第一虚假信息识别模型获得信息动作特征以及用户行为特征,进而输出虚假度得分。
在另一些实施例中,除根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息外,还可以增设用户属性特征,即根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
则还可以对所述用户的属性参数值进行解析,获得用户属性特征;进而在根据所述信息动作特征、所述用户行为特征,确定所述待识别信息是否为虚假信息时,可以根据所述信息动作特征、所述用户行为特征及所述用户属性特征,确定所述待识别信息是否为虚假信息时。
具体实施时,服务器可以获取该用户的用户信息,并对用户信息进行特征提取,以获得用户属性特征。其中,用户信息可以包括但是不限于下述信息:注册时间、用户出生年月、联系方式、家庭住址、工作单位、职业性质、性别、用户名单类型等。用户属性特征是从用户信息中提取的可以表征该用户的个性化特征的数据。具体实施时,可以从用户信息中提取出下述的用户属性特征:注册时间到截止日期的时间间隔,用户出生年月、联系方式、职业性质这三种信息的完整个数,用户性别及用户名单类型。
其中,用户名单类型可以包括黑、白、灰三种类型,不同的类型表征用户的信用等级,信用等级越高、颜色越浅,表征该用户值得信赖,其发布的信息的真实度越高。用户出生年月、联系方式、职业性质这三种信息的完整个数越大,表征用户的信息完整度越高,在实际中,完整度越高也可以表示用户越值得信赖,其发布的信息的真实度越高。截止日期可以是指该用户被注销时的日期,或被服务器拉入黑名单的日期,若用户未被注销或拉入黑名单,则截止日期可以是指当前时刻。其中,注册时间到截止日期的时间间隔越长,则目标用户的存活期越长,在实际中,则可以表示目标用户越值得信赖。
本实施方式中,由于获得了用户属性特征,则可以根据用户属性特征抽象出用户个人的信誉度,从而参考用户个人的信誉度,对待识别信息进行识别,进一步提高了对待识别信息进行识别的准确率。
其中,在该实施例的一种实现方式中,在根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息时,为了提高信息识别的效率,实现智能化识别信息的真伪,可以将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;并采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;以及根据分类结果得到所述第二虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息。
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带用于表征该信息是否是虚假信息的标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
本实施方式中,对第二虚假信息识别模型是基于决策树算法对信息动作特征、用户行为特征和用户属性特征进行分类。第二虚假信息识别模型的获得过程可以参照上述第一虚假信息识别模型的获得过程,在此不再赘述。需要说明的是:第二虚假信息识别模型也可以直接对待识别信息和多个历史信息进行识别,则在此种情况下,也可以将待识别信息、多个历史信息以及用户属性特征直接输入到第二虚假信息识别模型,从而输出虚假度得分。
在本实施例中,在得到待识别信息的识别结果后,还可以根据待识别信息的识别结果对待识别信息进行处理,并根据该待识别信息的识别结果,对用户再次发布的信息进行相应处理。
具体地,在步骤S24之后,在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,可以转执行步骤S25;在在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,可以转执行步骤S26。
步骤S25:对所述待识别信息进行发布。
具体地,若待识别的信息是未发布的信息,且该信息被确定为是真实的信息,则可以对该信息进行发布。具体而言,该发布可以是指发布到网络平台中以供其他用户浏览查看。
相应地,在一种实施方式中,在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
实际中,在确定待识别信息是真实的信息时,可以将该用户标记为值得信任的用户,从而在再次接收到用户发送的新的信息时,可以根据用户被标记为值得信赖用户的这一情况,直接将该新的信息进行发布,即免于对新的信息进行虚假性识别,从而提高部分用户的信息发布效率,优化用户体验。
步骤S26:将所述待识别信息的访问权限设置为禁止访问。
具体地,若待识别信息已经被发布,即该信息已处于能被公众浏览查看的状态,且该待识别信息是虚假的,则服务器可以将该待识别信息设置为禁止访问,以禁止其他用户浏览该待识别信息,从而使得该识别信息从能被公众浏览查看变更为不能被公众浏览查看,以避免公众查看到虚假的信息。当然,在实际中,还可以将用户纳入黑名单。
相应地,在一种实施方式中,在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息。
采用该实施方式时,在再次接收到目标用户发送的新的信息时,可以根据目标用户被纳入黑名单的这一情况,启动对该新的信息的虚假性识别。如此,确保了信息发布的真实性,营造了良好的网络互信环境。
当然,在一些实施例中,若识别到待识别信息是虚假的信息,且待识别信息未发布时,则可以将该待识别信息进行关闭,以使用户不能再对该待识别信息进行编辑也不能被其他用户所浏览。
本发明实施例,由于用户行为特征除包括对多个历史信息进行多次操作的行为特征外,还可以包括进行第二预设操作的参数值、所述预设时间段内针对不同场景的已发布信息的类别数量和占比、用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例,则丰富和完善了用户对其他信息的行为操作特点,从而提高了抽象出用户发布待识别信息的行为动机的准确性,从而提高待识别信息的识别准确率。
又由于可以利用第一虚假信息识别模型或第二虚假信息识别模型对待识别信息进行识别,因此提高了识别的智能化和效率,同时,采用模型识别信息真伪,还提高了信息虚假性识别的泛化性。
参照图5,示出了本发明实施例的一种识别虚假信息的装置的结构示意图,如图5所示,所述装置可以应用于服务器,具体可以包括以下模块:
信息获得模块501,可以用于获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;
第一行为特征获得模块502,可以用于根据所述用户对所述待识别信息进行的多次操作,获得所述待识别信息对应的信息动作特征;
第二行为特征获得模块503,可以用于根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;
信息确定模块504,可以用于根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
可选地,所述第一行为特征获得模块502,具体可以包括以下单元:
记录读取单元,可以用于读取所述用户对所述待识别信息进行第一预设操作的操作记录,其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作;
行为特征获得单元,可以用于根据所述操作记录,确定所述用户对所述待识别信息进行第一预设操作的频率和次数,以得到所述信息动作特征。
可选地,所述第二行为特征获得模块503,具体可以包括以下单元:
确定单元,可以用于确定所述多个历史信息中每个历史信息对应的行为特征;
聚合单元,可以用于对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
可选地,所述装置还可以包括以下模块:
参数值获得模块,可以用于获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作;
第一统计模块,可以用于获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比;
第二统计模块,可以用于获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例;
所述聚合单元,具体可以用于将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
可选地,所述装置还可以包括以下模块:
属性特征获得模块,可以用于对所述用户的属性参数值进行解析,获得用户属性特征;
所述信息确定模块,具体可以用于根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
可选地,所述信息确定模块504,具体可以包括以下单元::
第一输入单元,可以用于将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;
分类单元,用于采用决策树算法,利用所述第一虚假信息识别模型对对所述信息动作特征和所述用户行为特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
可选地,所述信息确定模块504,具体可以包括以下单元::
第二输入单元,可以用于将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;
第二确定单元,可以用于采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带可以用于表征该信息是否是虚假信息的标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
可选地,所述装置还可以包括以下模块:
信息发布模块,可以用于在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,对所述待识别信息进行发布;
访问禁止模块,可以用于在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,将所述待识别信息的访问权限设置为禁止访问。
可选地,所述装置还可以包括以下模块:
第一识别触发模块,可以用于在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息;
第二识别触发模块,可以用于在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
图6为实现本发明各个实施例的一种服务器600的结构示意图,该服务器600可以包括识别虚假信息的装置61及数据库62,还可以包括网络接口64和数据接口63等。在所述数据库62中可以存储有用户所发布的多个信息,所述识别虚假信息的装置61可以用于执行所述的识别虚假信息的方法。具体而言,该识别虚假信息的装置61可以是软件和硬件相结合的装置,该硬件可以包括物理键,该物理键可以用于提供返回、确认等功能,该软件中包括应用程序;其中,该识别虚假信息的装置61可以通过软件和硬件与数据库62相互配合,以实现上述实施例所述的识别虚假信息的方法。
本发明实施例还提供了一种电子设备,包括:处理器,存储器,存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述识别虚假信息的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述识别虚假信息的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(RandomAccess Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种识别虚假信息的方法,其特征在于,所述方法包括:
获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;
根据所述用户对所述待识别信息进行的多次操作,获得所述待识别信息对应的信息动作特征;
根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;
根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
2.根据权利要求1所述的方法,其特征在于,根据所述用户对所述待识别信息的多次操作,获得所述信息动作特征,包括:
读取所述用户对所述待识别信息进行第一预设操作的操作记录,其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作;
根据所述操作记录,确定所述用户对所述待识别信息进行所述第一预设操作的频率和次数,以得到所述信息动作特征。
3.根据权利要求1或2所述的方法,其特征在于,根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征,包括:
确定所述多个历史信息中每个历史信息对应的行为特征;
对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作;
获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比;
获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例;
对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征,包括:
将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述用户的属性参数值进行解析,获得用户属性特征;
根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息,包括:
根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
6.根据权利要求1所述的方法,其特征在于,根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息,包括:
将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;
采用决策树算法,利用所述第一虚假信息识别模型对所述信息动作特征和所述用户行为特征分别进行分类;
根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
7.根据权利要求5所述的方法,其特征在于,根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息,包括:
将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;
采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;
根据分类结果得到所述第二虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带用于表征该信息是否是虚假信息的标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
8.根据权利要求1所述的方法,其特征在于,在根据所述信息动作特征、所述用户行为特征,确定所述待识别信息是否为虚假信息之后,所述方法还包括:
在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,对所述待识别信息进行发布;
在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,将所述待识别信息的访问权限设置为禁止访问。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息;
在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
10.一种识别虚假信息的装置,其特征在于,所述装置包括:
信息获得模块,用于获得待识别信息,以及所述待识别信息的用户已发布的多个历史信息;
第一行为特征获得模块,用于根据所述用户对所述待识别信息进行的多次操作,获得所述待识别信息对应的信息动作特征;
第二行为特征获得模块,用于根据所述用户对已发布的所述多个历史信息进行的多次操作,获得用户行为特征;
信息确定模块,用于根据所述信息动作特征和所述用户行为特征,确定所述待识别信息是否为虚假信息。
11.根据权利要求10所述的装置,其特征在于,所述第一行为特征获得模块,包括:
记录读取单元,用于读取所述用户对所述待识别信息进行第一预设操作的操作记录,其中,所述第一预设操作包括以下一种或多种:修改操作、刷新操作、关闭操作;
行为特征获得单元,用于根据所述操作记录,确定所述用户对所述待识别信息进行第一预设操作的频率和次数,以得到所述信息动作特征。
12.根据权利要求10或11所述的装置,其特征在于,所述第二行为特征获得模块,包括:
确定单元,用于确定所述多个历史信息中每个历史信息对应的行为特征;
聚合单元,用于对所述多个历史信息各自对应的行为特征进行聚合,得到所述用户行为特征。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
参数值获得模块,用于获得所述用户在预设时间段内进行第二预设操作的参数值,所述第二预设操作包括以下一种或多种:登陆操作、注册操作、新增已发布信息、对已发布信息的修改操作、对已发布信息的刷新操作、对已发布信息的关闭操作;
第一统计模块,用于获得所述用户在所述预设时间段内针对不同场景的已发布信息的类别数量和占比;
第二统计模块,用于获得所述用户在预设时间段内的已发布信息的总数与在预设时间段外的已发布信息的总数的比例;
所述聚合单元,具体用于将对所述多个历史信息各自对应的行为特征进行聚合所得到的聚合结果和以上至少一者,确定为所述用户行为特征。
14.根据权利要求10所述的装置,其特征在于,所述装置还包括:
属性特征获得模块,用于对所述用户的属性参数值进行解析,获得用户属性特征;
所述信息确定模块,具体用于根据所述信息动作特征、所述用户行为特征以及所述用户属性特征,确定所述待识别信息是否为虚假信息。
15.根据权利要求10所述的装置,其特征在于,所述信息确定模块,包括:
第一输入单元,用于将所述信息动作特征和所述用户行为特征输入第一虚假信息识别模型;
分类单元,用于采用决策树算法,利用所述第一虚假信息识别模型对对所述信息动作特征和所述用户行为特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第一虚假信息识别模型是以多个携带标签的信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带的标签表征该信息是否是虚假信息。
16.根据权利要求14所述的装置,其特征在于,所述信息确定模块,包括:
第二输入单元,用于将所述信息动作特征、所述用户行为特征以及所述用户属性特征,输入第二虚假信息识别模型;
第二确定单元,用于采用决策树算法,利用所述第二虚假信息识别模型对所述信息动作特征、所述用户行为特征和所述用户属性特征分别进行分类;
结果输出单元,用于根据分类结果得到所述第一虚假识别模型输出的虚假度得分,以确定所述待识别信息是否为虚假信息;
其中,所述第二虚假信息识别模型是以多个信息样本为训练样本,对基于决策树算法的预设模型进行训练得到的,每个信息样本携带用于表征该信息是否是虚假信息的标签,且每个信息样本携带发布该样本信息的用户的用户属性特征。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:
信息发布模块,用于在确定所述待识别信息不为虚假信息,且所述待识别信息未发布时,对所述待识别信息进行发布;
访问禁止模块,用于在确定所述待识别信息为虚假信息,且所述待识别信息已发布时,将所述待识别信息的访问权限设置为禁止访问。
18.根据权利要求17所述的装置,其特征在于,所述装置还包括:
第一识别触发模块,用于在将所述待识别信息的访问权限设置为禁止访问之后,在再次接收到所述用户发送的新的信息时,识别所述新的信息是否为虚假信息;
第二识别触发模块,用于在对所述待识别信息进行发布之后,在再次接收到所述用户发送的新的信息时,将所述新的信息标记为免识别信息并进行发布。
19.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-9任一项所述的识别虚假信息的方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的识别虚假信息的方法的步骤。
CN202010615617.XA 2020-06-30 2020-06-30 识别虚假信息的方法、装置、电子设备及存储介质 Pending CN111914645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010615617.XA CN111914645A (zh) 2020-06-30 2020-06-30 识别虚假信息的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010615617.XA CN111914645A (zh) 2020-06-30 2020-06-30 识别虚假信息的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111914645A true CN111914645A (zh) 2020-11-10

Family

ID=73227010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010615617.XA Pending CN111914645A (zh) 2020-06-30 2020-06-30 识别虚假信息的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111914645A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902457A (zh) * 2021-11-19 2022-01-07 北京房江湖科技有限公司 房源信息可靠性的评估方法、装置、电子设备及存储介质
CN115409104A (zh) * 2022-08-25 2022-11-29 贝壳找房(北京)科技有限公司 用于识别对象类型的方法、装置、设备、介质和程序产品
CN115482014A (zh) * 2022-09-15 2022-12-16 广东数鼎科技有限公司 一种二手车虚假车源的识别方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064987A (zh) * 2013-01-31 2013-04-24 五八同城信息技术有限公司 一种虚假交易信息识别方法
CN103793484A (zh) * 2014-01-17 2014-05-14 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别***
CN106952190A (zh) * 2017-03-22 2017-07-14 国信优易数据有限公司 虚假房源录入行为识别与预警***
CN107437223A (zh) * 2017-08-17 2017-12-05 重庆小雨点小额贷款有限公司 贷款信息审核方法、装置及设备
CN108711013A (zh) * 2018-05-24 2018-10-26 深圳市买买提信息科技有限公司 异常行为确定方法、装置、设备及存储介质
US20190014071A1 (en) * 2016-10-13 2019-01-10 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus
US20190155851A1 (en) * 2016-09-09 2019-05-23 Tencent Technology (Shenzhen) Company Limited Information filtering
CN111104963A (zh) * 2019-11-22 2020-05-05 贝壳技术有限公司 目标用户确定方法、装置、存储介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064987A (zh) * 2013-01-31 2013-04-24 五八同城信息技术有限公司 一种虚假交易信息识别方法
CN103793484A (zh) * 2014-01-17 2014-05-14 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别***
US20190155851A1 (en) * 2016-09-09 2019-05-23 Tencent Technology (Shenzhen) Company Limited Information filtering
US20190014071A1 (en) * 2016-10-13 2019-01-10 Tencent Technology (Shenzhen) Company Limited Network information identification method and apparatus
CN106952190A (zh) * 2017-03-22 2017-07-14 国信优易数据有限公司 虚假房源录入行为识别与预警***
CN107437223A (zh) * 2017-08-17 2017-12-05 重庆小雨点小额贷款有限公司 贷款信息审核方法、装置及设备
CN108711013A (zh) * 2018-05-24 2018-10-26 深圳市买买提信息科技有限公司 异常行为确定方法、装置、设备及存储介质
CN111104963A (zh) * 2019-11-22 2020-05-05 贝壳技术有限公司 目标用户确定方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902457A (zh) * 2021-11-19 2022-01-07 北京房江湖科技有限公司 房源信息可靠性的评估方法、装置、电子设备及存储介质
CN115409104A (zh) * 2022-08-25 2022-11-29 贝壳找房(北京)科技有限公司 用于识别对象类型的方法、装置、设备、介质和程序产品
CN115482014A (zh) * 2022-09-15 2022-12-16 广东数鼎科技有限公司 一种二手车虚假车源的识别方法和装置

Similar Documents

Publication Publication Date Title
CN106022834B (zh) 广告反作弊方法及装置
CN111914645A (zh) 识别虚假信息的方法、装置、电子设备及存储介质
CN109034583A (zh) 异常交易识别方法、装置及电子设备
CN110598016A (zh) 一种多媒体信息推荐的方法、装置、设备和介质
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
CN103064987A (zh) 一种虚假交易信息识别方法
CN110084468B (zh) 一种风险识别方法及装置
CN104158828B (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及***
CN111522724B (zh) 异常账号的确定方法、装置、服务器及存储介质
CN109978033A (zh) 同操作人识别模型的构建与同操作人识别的方法和装置
CN111401447A (zh) 一种基于人工智能的流量作弊识别方法、装置、电子设备
CN104935578A (zh) 网站恶意攻击防范方法和***
CN112734161A (zh) 精准识别空壳企业的方法、设备和存储介质
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN112561565A (zh) 一种基于行为日志的用户需求识别方法
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
CN108737138B (zh) 服务提供方法及服务平台
CN110457601B (zh) 社交账号的识别方法和装置、存储介质及电子装置
CN112511632B (zh) 基于多源数据的对象推送方法、装置、设备及存储介质
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN111784360B (zh) 一种基于网络链接回溯的反欺诈预测方法及***
CN106294406A (zh) 一种用于处理应用访问数据的方法与设备
CN113486247B (zh) 一种互联网在线鉴阅文档阅读分级管理***
CN116159310A (zh) 数据处理方法、装置、电子设备以及存储介质
CN111382343B (zh) 一种标签体系生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination