CN111666317A - 一种作弊信息的挖掘方法、作弊信息的识别方法及装置 - Google Patents

一种作弊信息的挖掘方法、作弊信息的识别方法及装置 Download PDF

Info

Publication number
CN111666317A
CN111666317A CN202010641397.8A CN202010641397A CN111666317A CN 111666317 A CN111666317 A CN 111666317A CN 202010641397 A CN202010641397 A CN 202010641397A CN 111666317 A CN111666317 A CN 111666317A
Authority
CN
China
Prior art keywords
information
cheating
query information
historical
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010641397.8A
Other languages
English (en)
Inventor
唐亚腾
钟滨
徐进
施雯洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010641397.8A priority Critical patent/CN111666317A/zh
Publication of CN111666317A publication Critical patent/CN111666317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于人工智能的作弊信息挖掘方法,本申请可采用大数据实现如下步骤:获取待检测用户所对应的查询信息集合;若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;获取作弊用户在历史时间段内的历史查询信息集合;若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。本申请还提供了一种作弊信息的识别方法及装置,本申请获取作弊用户在历史时间段内的查询信息,由此挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。

Description

一种作弊信息的挖掘方法、作弊信息的识别方法及装置
技术领域
本申请涉及人工智能领域,尤其涉及一种作弊信息的挖掘方法、作弊信息的识别方法及装置
背景技术
随着网络的发展,网络信息更新的速度也越来越快,网络黑产已成为危害互联网生态安全的重大问题之一。由于网络中存在的作弊行为在不断地变化和转移,因此,需要对网络黑产进行分析与监控,尽可能从源头上发现和打击黑灰产。
目前,在一些搜索场景中,用户可通过搜索***提供的搜索界面输入查询信息(query),搜索***基于query判断搜索意图,然后针对该query进行提示补充,最后展示于搜索界面。如果检测到query存在敏感意图(例如,色情或者暴力等),则可以将这些query作为挖掘到的敏感query,并用于后续的处理。
然而,网络黑产开始利用搜索引擎优化(Search Engine Optimization,SEO)机制进行恶意导流,出现了很多含同音字、同形字以及拼音字母结合等作弊的敏感query,如果要挖掘这些作弊的query,则需要花费大量的人力和时间进行查找,导致信息挖掘成本较高。
发明内容
本申请实施例提供了一种作弊信息的挖掘方法、作弊信息的识别方法及装置,获取作弊用户在历史时间段内的查询信息,由此挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。
有鉴于此,本申请一方面提供一种作弊信息的挖掘方法,包括:
获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;
获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
本申请另一方面提供一种作弊信息的识别方法,包括:
获取待检测查询信息;
基于待检测查询信息,通过信息识别模型获取检测分数,其中,信息识别模型为根据作弊信息训练得到的模型,作弊信息为基于满足信息作弊条件的历史查询信息,历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,作弊用户所对应的查询信息集合中存在至少一条满足信息作弊条件的查询信息,查询信息集合包括M条查询信息,M为大于或等于1的整数,历史查询信息集合包括至少一条历史查询信息;
若待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。
本申请另一方面提供一种信息挖掘装置,包括:
获取模块,用于获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
确定模块,用于若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;
获取模块,还用于获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
确定模块,还用于若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
在一种可能的设计中,在本申请实施例的另一方面的一种实现方式中,
获取模块,具体用于从服务器中读取待检测用户所对应的搜索日志数据;
根据待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,K为大于或等于1的整数;
从K组待处理查询信息集合中获取查询信息集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若待处理查询信息集合的查询信息数量大于或等于数量阈值,则将待处理查询信息集合确定为查询信息集合,其中,查询信息集合还包括待检测用户的标识,以及每条查询信息所对应的时间。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,还用于获取待检测用户所对应的查询信息集合之后,基于待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定查询信息满足信息作弊条件。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,还用于获取作弊用户在历史时间段内的历史查询信息集合之后,基于作弊用户在历史时间段内的历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
确定模块,还用于若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定历史查询信息满足信息作弊条件。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,信息挖掘装置还包括读取模块、生成模块以及停止模块;
读取模块,用于确定模块将满足信息作弊条件的历史查询信息确定为作弊信息之后,从服务器中读取作弊用户所对应的搜索日志数据;
生成模块,用于根据作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,P为大于或等于1的整数;
获取模块,还用于基于P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
确定模块,还用于若历史查询信息集合中存在满足信息作弊条件的查询信息,则将满足信息作弊条件的查询信息确定为作弊信息;
停止模块,用于若历史查询信息集合中不存在满足信息作弊条件的查询信息,则停止挖掘作弊用户的作弊信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,信息挖掘装置还包括训练模块;
确定模块,还用于将满足信息作弊条件的历史查询信息确定为作弊信息之后,根据作弊信息确定真实标签;
获取模块,还用于基于作弊信息,通过信息识别模型获取目标检测分数;
训练模块,用于根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,信息挖掘装置还包括添加模块;
确定模块,还用于将满足信息作弊条件的历史查询信息确定为作弊信息之后,根据作弊信息确定属性标签;
添加模块,用于将属性标签添加至待检测用户所对应的用户画像。
本申请另一方面提供一种信息识别装置,包括:
获取模块,用于获取待检测查询信息;
获取模块,还用于基于待检测查询信息,通过信息识别模型获取检测分数,其中,信息识别模型为根据作弊信息训练得到的模型,作弊信息为基于满足信息作弊条件的历史查询信息,历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,作弊用户所对应的查询信息集合中存在至少一条满足信息作弊条件的查询信息,查询信息集合包括M条查询信息,M为大于或等于1的整数,历史查询信息集合包括至少一条历史查询信息;
确定模块,用于若待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,信息识别装置还包括训练模块;
获取模块,还用于基于待检测查询信息,通过信息识别模型获取检测分数之前,获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
确定模块,还用于若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,并获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
确定模块,还用于若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息,并根据作弊信息确定真实标签;
获取模块,还用于基于作弊信息,通过信息识别模型获取目标检测分数;
训练模块,用于根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,信息识别装置还包括处理模块;
获取模块,还用于在确定模块确定待检测查询信息为作弊信息之后,获取作弊信息所对应的查询结果;
处理模块,用于对作弊信息所对应的查询结果进行屏蔽处理。
本申请另一方面提供一种服务器,包括:存储器、收发器、处理器以及总线***;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线***用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面种中各种可选实现方式所提供的方法。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种作弊信息的挖掘方法,获取待检测用户所对应的查询信息集合,如果查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,于是获取作弊用户在历史时间段内的历史查询信息集合,如果历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。采用上述方式,收集某个用户在一段时间内的查询信息,如果这段时间内存在具有敏感意图的查询信息,则将该用户确定为作弊用户,并进一步获取该作弊用户在历史时间段内的查询信息,再从历史时间段内的查询信息中挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。
附图说明
图1为本申请实施例中信息处理***的一个架构示意图;
图2为本申请实施例中作弊信息识别方法的一个交互流程示意图;
图3为本申请实施例中作弊信息挖掘方法的一个实施例示意图;
图4为本申请实施例中输入查询信息的一个界面示意图;
图5为本申请实施例中输入查询信息的另一个界面示意图;
图6为本申请实施例中通过信息识别模型输出检测分数的一个实施例示意图;
图7为本申请实施例中通过信息识别模型输出检测分数的另一个实施例示意图;
图8为本申请实施例中挖掘作弊信息的一个流程示意图;
图9为本申请实施例中优化信息识别模型的一个流程示意图;
图10为本申请实施例中作弊信息识别方法的一个实施例示意图;
图11为本申请实施例中输入待检测查询信息的一个界面示意图;
图12为本申请实施例中基于正常信息展示查询结果的一个界面示意图;
图13为本申请实施例中基于作弊信息展示查询结果的一个界面示意图;
图14为本申请实施例中信息挖掘装置的一个实施例示意图;
图15为本申请实施例中信息识别装置的一个实施例示意图;
图16为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种作弊信息的挖掘方法、作弊信息的识别方法及装置,获取作弊用户在历史时间段内的查询信息,由此挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在浩瀚的信息海洋中,人们只有依靠搜索引擎才能不至于迷失方向,才能迅速找到所需的信息。也因此产生了越来越多的搜索引擎。对于用户而言,搜索引擎是一种常见的工具,用户通过搜索引擎能够找到所需的信息。在此过程中,搜索引擎需要了解用户的需求,简而言之,就是用户可通过搜索引擎提供的输入框输入相关的查询信息(query),查询信息中包括了关键词,通过查询信息即可知道用户的需求,于是检测出数量庞大的查询结果,再从这些查询结果中挑选出最符合要求的结果推送给用户。
本申请提供的作弊信息挖掘方法以及作弊信息识别方法,可针对不同类型的搜索引擎进行信息挖掘和识别,例如,小程序可提供“搜一搜”的功能,用户在“搜一搜”的页面上输入查询信息,由此获取到该查询信息所对应的查询结果。又例如,智能搜索引擎(intelligent search engine)可提供一站式搜索,即搜索的对象包含但不仅限于网页、音乐、游戏、图片、电影和购物等互联网资源,用户通过智能搜索引擎的输入框输入查询信息,由此获取到该查询信息所对应的查询结果。
在实际情况下,有些查询信息中所包括的关键词可能具有敏感意图,比如,具有违规违法的意图,或者,具有涉黄涉黑的意图等。这些具有敏感意图的用户正成为了网络黑产的攻击对象。与此同时,网络黑产开始利用SEO机制来进行恶意导流,进一步增加了检测敏感意图的难度,例如,在搜索的时候出现很多同音字、同形字和拼音字母结合等各类作弊的查询信息,这类作弊的查询信息很容易躲过检测***,导致难以检测***难以挖掘出具有敏感意图的查询信息。下面将分别介绍几种常见的作弊信息:
1、利用同音字作弊,例如,查询信息为“最新的***影网址”,经过同音字替换之后得到的查询信息为“最新的呈人电影网址”。不难看出,“呈”即为“成”的同音字,这种同音字替换的方式能够一定程度上躲过识别。
2、利用同形字作弊,例如,查询信息为“最新的***影网址”,经过同形字替换之后得到的查询信息为“最新的戌人电影网址”。不难看出,“戌”即为“成”的同音字,这种同形字替换的方式能够一定程度上躲过识别。
3、利用拼音字母结合作弊,例如,查询信息为“最新的***影网址”,经过拼音字母替换之后得到的查询信息为“最新的chengren电影网址”。不难看出,“chengren”即为“成人”的同音字,这种拼音字母替换的方式能够一定程度上躲过识别。
如果检测***无法准确地识别这类作弊的查询信息,那么用户就很容易进入被网络黑产利用的网页,可能出现暗扣话费的情况,这类黑产以稀缺的服务提供商为上游,开发人员根据不同的服务提供商资源开发相应的软件,并将这些软件植入到伪装成色情、游戏以及交友的应用中,实现暗扣话费。也可能出现广告流量变现的情况,即某些内置于各类应用中的恶意广告联盟,通过恶意推送广告进行流量变现。这些广告内容大多没有底线,时常推送打色情擦边球的应用、***甚至手机病毒等。也可能出现手机应用分发,例如,有用户的手机里无缘无故地多出一些应用,这就是黑产人员通过手机恶意软件后台下载推广的应用,是手机黑产的变现途径。也可能出现木马刷量的情况,木马开发者通过合作的方式,将木马植入到用户刚需的一些应用中,再通过云端控制***下发任务到用户设备中,自动执行刷量操作。也可能出现勒索病毒,勒索病毒攻击者会通过弱口令漏洞入侵企业网站,再以此为跳板渗透到内网,然后利用局域网漏洞攻击工具,将勒索病毒分发到内网关键服务器,将企业核心业务及备份服务器数据加密。也可能出现控制肉鸡挖矿的情况以及分布式拒绝服务攻击等情况。这些情况已经严重影响到个人信息和财产的安全。
基于此,本申请提供的作弊信息挖掘方法能够更高效地挖掘出具有敏感意图的查询信息,基于这些查询信息进一步优化信息识别模型。而本申请提供的作弊信息识别能够利用优化后的信息识别模型,更准确地识别出具有敏感意图的查询信息,并及时屏蔽这类信息的查询结果,从而提升网络的安全性。
本申请提供的作弊信息挖掘方法以及作弊信息识别方法可应用于如图1所示的信息处理***,请参阅图1,图1为本申请实施例中信息处理***的一个架构示意图,如图所示,信息处理***中包括服务器以及终端设备。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱以及智能手表等,但并不局限于此。
在信息处理***中,终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中,上述的无线网络使用标准通信技术和/或协议。无线网络通常为互联网(Internet)、但也可以是任何网络,包括但不限于蓝牙、局域网(Local AreaNetwork,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus,USB)闪存盘、移动硬盘或其他可移动存储介质等,本申请在此不做限制。
可以理解的是,为了增加训练样本的数量和类型,本申请还可以采用大数据(bigdata)提取更多的查询信息作为训练样本。大数据是基于云技术(cloud technology)获取到的数据,其中,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
而大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。
基于此,下面将结合图2介绍作弊信息识别的方法,请参阅图2,图2为本申请实施例中作弊信息识别方法的一个交互流程示意图,如图所示,具体地:
在步骤S1中,服务器获取待检测用户的查询信息集合,比如,获取用户A在十分钟内通过搜索引擎输入的每条查询信息,这些查询信息即构成查询信息集合。
在步骤S2中,对查询信息集合中的每条查询信息进行检测,也就是将每条查询信息分别输入至信息识别模型,由该信息识别模型分别输出每条查询信息的检测分数。如果查询信息集合存在至少一条查询信息的检测分数大于或等于检测分数阈值,则可以确定该待检测用户为作弊用户,于是,可进一步获取该作弊用户的历史查询信息集合。
在步骤S3中,类似地,将历史查询信息集合中的每条历史查询信息分别输入至信息识别模型,由该信息识别模型分别输出每条历史查询信息的检测分数,如果历史查询信息的检测分数大于或等于检测分数阈值,则将该条历史查询信息确定为作弊信息。
在步骤S4中,将作弊信息作为优化信息识别模型的训练样本,由此实现对信息识别模型所对应的模型参数的更新,直至模型收敛,此时得到的即为训练完成的信息识别模型。
在步骤S5中,用户可通过终端设备的搜索引擎输入待检测查询信息,由终端设备将用户输入的待检测查询信息发送至服务器,可以理解的是,该用户可以是用户A,也可以是其他的用户,此处不做限定。
在步骤S6中,服务器将待检测查询信息输入至在步骤S4中训练得到的信息识别模型,由信息识别模型输出该待检测查询信息的检测分数,如果待检测查询信息的检测分数大于或等于检测分数阈值,则可以确定待检测查询信息为作弊信息,反之,如果待检测查询信息的检测分数小于检测分数阈值,则可以确定待检测查询信息为正常信息。
在步骤S7中,如果待检测查询信息为作弊信息,则服务器可以屏蔽基于该待检测查询信息的查询结果,例如,该查询结果为“本次搜索无结果”。如果待检测查询信息为正常信息,则服务器可以直接反馈基于该待检测查询信息的查询结果。
在步骤S8中,服务器将查询结果反馈至终端设备,由终端设备向用户展示该查询结果。可选地,如果该待检测查询信息属于作弊信息,那么还可以将该作弊信息继续用于优化信息识别模型,从而有利于提升信息识别模型的识别准确度。
可以理解的是,利用信息识别模型对查询信息进行识别,通常需要基于人工智能(Artificial Intelligence,AI)的自然语言处理(Nature Language processing,NLP)技术来实现,而训练信息识别模型的过程,通常需要基于人工智能下的机器学习(MachineLearning,ML)技术来实现。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
而自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
而机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
结合上述介绍,下面将对本申请中作弊信息的挖掘方法进行介绍,请参阅图3,本申请实施例中作弊信息挖掘方法的一个实施例包括:
101、获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
本实施例中,待检测用户通过终端设备展示的搜索界面输入查询信息,由信息挖掘装置获取到该查询信息,通常情况下,在一段时间内(比如10分钟内)会收到待检测用户输入的M条查询信息,这些查询信息即构成查询信息集合。需要说明的是,本申请提供的信息挖掘装置可部署于服务器,也可以部署于终端设备,本申请以信息挖掘装置部署于服务器为例进行说明,然而这不应理解为本申请的限定。
为了便于理解,以应用于即时通讯类应用中的小程序为例,请参阅图4,图4为本申请实施例中输入查询信息的一个界面示意图,如图4中的(A)图,A1用于指示“搜一搜”小程序的入口,当触发该入口时,即可进入如图4中(B)图所示的搜索界面,待检测用户可在A2所指示的输入框内输入查询信息,例如,“如何批量导出文件夹”。输入查询信息的方式包含但不仅限于直接输入文本内容以及采用语音输入。此外,在图4中(B)图所示的搜索界面上,还可以展示若干条热点搜索内容,便于快速查看热点查询信息。
以应用于搜索引擎为例,请参阅图5,图5为本申请实施例中输入查询信息的另一个界面示意图,如图所示,B1用于指示搜索界面中的输入框,待检测用户可在B1所指示的输入框内输入查询信息,例如,“如何批量导出文件夹”。输入查询信息的方式包含但不仅限于直接输入文本内容以及采用语音输入。此外,在图5所示的搜索界面上,还可以展示若干条热点搜索内容,便于快速查看热点查询信息。
102、若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;
本实施例中,信息挖掘装置对查询信息集合中的每条查询信息进行检测,如果存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户。
具体地,可以采用如下方式判断查询信息是否满足信息作弊条件:
第一种方式为,将M条查询信息分别输入至信息识别模型,由信息识别模型对每条查询信息进行打分,得到检测分数,如果某一条查询信息的检测分数大于或等于检测分数阈值,则认为该条查询信息满足信息作弊条件。
第二种方式为,提取M条查询信息中每条查询信息的关键词,如果查询信息不存在关键词,则认为该条查询信息不满足信息作弊条件。如果查询信息存在关键词,则提取对应的关键词,并采用模板匹配的方式判断该关键词是否属于敏感词语,如果关键词属于敏感词语,则认为该条查询信息满足信息作弊条件,反之,如果关键词不属于敏感词语,则认为该条查询信息不满足信息作弊条件。例如,查询信息为“如何高效地学英语”,其中,关键词为“英语”,又例如,查询信息为“最新的***影网址”,其中,关键词为“***影”。
103、获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
本实施例中,如果确定待检测用户属于作弊用户,则进一步提取该作弊用户在历史时间内的历史查询信息集合,历史时间段可以为一个月内、一年内或者其他时间段,此处不做限定。历史查询信息集合中包括查询信息集合,因此,历史查询信息集合中历史查询信息的总数大于或等于查询信息集合中查询信息的总数。
104、若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
本实施例中,类似地,信息挖掘装置对历史查询信息集合中的每条历史查询信息进行检测,对于满足信息作弊条件的历史查询信息,即可确定为作弊信息,假设有100条历史查询信息,经过检测之后从中确定20条历史查询信息满足信息作弊条件,因此,可以将这20条历史查询信息确定为作弊信息。
具体地,可以采用如下方式判断历史查询信息是否满足信息作弊条件:
第一种方式为,将历史查询信息分别输入至信息识别模型,由信息识别模型对历史查询信息进行打分,得到检测分数,如果历史查询信息的检测分数大于或等于检测分数阈值,则认为该条历史查询信息满足信息作弊条件。
第二种方式为,提取历史查询信息的关键词,如果历史查询信息不存在关键词,则认为该条历史查询信息不满足信息作弊条件。如果历史查询信息存在关键词,则提取对应的关键词,并采用模板匹配的方式判断该关键词是否属于敏感词语,如果关键词属于敏感词语,则认为该条历史查询信息满足信息作弊条件,反之,如果关键词不属于敏感词语,则认为该条历史查询信息不满足信息作弊条件。
本申请实施例中,提供了一种作弊信息的挖掘方法,获取待检测用户所对应的查询信息集合,如果查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,于是获取作弊用户在历史时间段内的历史查询信息集合,如果历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。采用上述方式,收集某个用户在一段时间内的查询信息,如果这段时间内存在具有敏感意图的查询信息,则将该用户确定为作弊用户,并进一步获取该作弊用户在历史时间段内的查询信息,再从历史时间段内的查询信息中挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,获取待检测用户所对应的查询信息集合,可以包括如下步骤:
从服务器中读取待检测用户所对应的搜索日志数据;
根据待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,K为大于或等于1的整数;
从K组待处理查询信息集合中获取查询信息集合。
本实施例中,介绍了一种对搜索日志数据进行切片处理的方式。如果待检测用户采用账号登录搜索引擎,或者将其他账号与搜索引擎进行绑定,则在这种情况下,可基于待检测用户的账号标识,从服务器中查找到对应的搜索日志数据。如果待检测用户未登录搜索引擎,则在这种情况下,可以提取终端设备的网际互联协议(Internet Protocol,IP)地址或者媒体访问控制(Media Access Control,MAC)地址等,可基于这些地址从服务器中查找到对应的搜索日志数据。
具体地,从服务器中读取待检测用户所对应的搜索日志数据之后,可按照单位时间对待检测用户连续搜索的查询信息进行切片处理,生成该待检测用户的查询信息集合,需要说明的是,在实际应用中,对于其他用户而言,也可采用类似方式获取对应的查询信息集合,此处以待检测用户作为一个示例进行说明。
为了便于理解,以单位时间为10分钟为例进行介绍,假设从服务器中读取1个小时内待检测用户所对应的搜索日志数据,则可以切分为6组待处理查询信息集合,此时,K为6。请参阅表1,表1为基于1小时内获取到的6组待处理查询信息集合的一个示意。
表1
组数序号 时间段 待处理查询信息集合中的查询信息总条数
1 12:00-12:10 0
2 12:10-12:20 1
3 12:20-12:30 8
4 12:30-12:40 0
5 12:40-12:50 0
6 12:50-13:00 5
基于表1可知,待检测用户在不同时间段会输入不同数量的查询信息,基于此,可从6组待处理查询信息集合选择一组待处理查询信息集合作为查询信息集合,选择的方式可以采用如下三种方式:
方式一,从K组待处理查询信息集合中选择查询信息数量最多的待处理查询信息集合,将该待处理查询信息集合确定为查询信息集合。以表1为例,则可以将12:20至12:30对应的第3组待处理查询信息集合作为查询信息集合。
方式二,从K组待处理查询信息集合中选择查询信息数量大于或等于门限值的待处理查询信息集合,将该待处理查询信息集合确定为查询信息集合。以表1为例,假设门限值为5,则可以将12:20至12:30对应的第3组待处理查询信息集合作为查询信息集合,以及将12:50至13:00对应的第6组待处理查询信息集合也作为查询信息集合。
方式三,从K组待处理查询信息集合中选择查询信息数量大于或等于1的待处理查询信息集合,将该待处理查询信息集合确定为查询信息集合。以表1为例,则可以将12:10至12:20对应的第2组待处理查询信息集合作为查询信息集合,将12:20至12:30对应的第3组待处理查询信息集合作为查询信息集合,以及将12:50至13:00对应的第6组待处理查询信息集合也作为查询信息集合。
需要说明的是,本申请是以一组查询信息集合为例进行介绍的,当存在两个或两个以上的查询信息集合时,也可采用类似的方式对查询信息集合是否满足信息作弊条件进行检测,此处不做赘述。
其次,本申请实施例中,提供了一种对搜索日志数据进行切片处理的方式,采用上述方式,在信息挖掘阶段,可提取服务器侧存储的搜索日志数据,通过搜索日志数据主动挖掘作弊信息,从而提升信息挖掘效率。此外,还可以对搜索日志数据进行切片处理,将一段时间内的待处理查询信息集合作为一个整体分析的对象,这样更符合对违规内容检测的需求,在提升检测效果的同时,还能够提升检测效率。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,从K组待处理查询信息集合中获取查询信息集合,可以包括如下步骤:
获取K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若待处理查询信息集合的查询信息数量大于或等于数量阈值,则将待处理查询信息集合确定为查询信息集合,其中,查询信息集合还包括待检测用户的标识,以及每条查询信息所对应的时间。
本实施例中,介绍了一种获取查询信息集合的方式,首先基于K组待处理查询信息集合,获取每组待处理查询信息集合所包括的查询信息数量,为了便于理解,可再次参阅表1,基于表1可知,第1组待处理查询信息集合的查询信息数量为0,第2组待处理查询信息集合的查询信息数量为1,第3组待处理查询信息集合的查询信息数量为8,第4组待处理查询信息集合的查询信息数量为0,第5组待处理查询信息集合的查询信息数量为0,第6组待处理查询信息集合的查询信息数量为5。假设数量阈值为5,则第3组待处理查询信息集合和第5组待处理查询信息集合均可以确定为查询信息集合。
为了便于说明,下面将以第3组待处理查询信息集合为例进行介绍,可以理解的是,在实际应用中,第3组待处理查询信息集合符合作为查询信息集合的条件,因此,表2也可以作为查询信息集合的一个示意,请参阅表2。
表2
查询时间 用户标识 查询信息集合中的查询信息内容
12:20:08 Peter123 如何快速学会英语
12:20:50 Peter123 怎么批量导出文件夹
12:24:02 Peter123 最新的***影网址
12:24:40 Peter123 最新的chengren电影
12:25:00 Peter123 激情小说
12:25:25 Peter123 激晴小说
12:28:58 Peter123 深圳到广州的动车班次
12:29:11 Peter123 樱桃的吃法
基于表2可知,查询信息集合不但包括了查询信息,还包括待检测用户的标识以及每条查询信息所对应的时间,其中,“Peter123”属于待检测用户的标识,每条查询信息对应于一个查询时间,待检测用户在12点20分08秒的时候输入的查询信息为“如何快速学会英语”,待检测用户在12点20分50秒的时候输入的查询信息为“怎么批量导出文件夹”,此处不一一赘述。
然而,在12点24分02秒至12点25分25秒这段时间内,待检测用户频繁地进行搜索,这种情况很大程度上是因为待检测用户一直在搜索某个内容,但是一直没有查找到,因此,采用变化的方式(即更改查询信息的表述方式)来搜索该内容。示例性地,在12点24分02秒的时候输入的查询信息为“最新的***影网址”,但“***影”属于敏感内容,因此,并没有搜索到合适的结果。于是,又在12点24分40秒的时候变化了一种表达方式,将“成人”改为拼音的形式,即“chengren”,查询信息为“最新的chengren电影”。示例性地,在12点25分00秒的时候输入的查询信息为“激情小说”,但“激情小说”属于敏感内容,因此,并没有搜索到合适的结果。于是,又在12点25分25秒的时候变化了一种表达方式,将“激情”改为同音的形式,即“激晴”,查询信息为“激晴小说”。
再次,本申请实施例中,提供了一种获取查询信息集合的方式,采用上述方式,能够将一段时间内查询信息数量大于或等于数量阈值的待处理查询信息集合作为查询信息集合,通常情况下,如果查询信息涉及到敏感意图,则可能需要经过多次搜索,即变换查询信息的表述方式,基于此,提取到的查询信息集合更容易出现具有敏感意图的作弊信息,从而提升信息挖掘的准确度。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,获取待检测用户所对应的查询信息集合之后,还可以包括如下步骤:
基于待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定查询信息满足信息作弊条件。
本实施例中,介绍了一种基于信息识别模型对查询信息进行判断的方式,在确定待检测用户所对应的查询信息集合之后,分别将每条查询信息输入至信息识别模型,由该信息识别模型输出每条查询信息所对应的检测分数,如果该检测分数大于或等于检测分数阈值,则确定查询信息满足信息作弊条件。
示例性地,检测分数可以为“0”或“1”,其中,“0”表示该查询信息属于正常的查询信息(即正常信息),“1”表示该查询信息属于作弊的查询信息(即作弊信息)。此时,检测分数阈值可设置为“1”,基于此,当检测分值等于1时,表示该查询信息满足信息作弊条件,当检测分值等于0时,表示该查询信息不满足信息作弊条件。
示例性地,检测分数可以为大于或等于0,且小于或等于1的分值,其中,检测分值越小,表示属于正常查询信息(即正常信息)的概率越大,反之,检测分值越大,表示作弊查询信息(即作弊信息)的概率越大。检测分数阈值可设置为“0.8”,基于此,当检测分值大于或等于0.8时,表示该查询信息满足信息作弊条件,当检测分值小于0.8时,表示该查询信息不满足信息作弊条件。为了便于理解,请参阅图6,图6为本申请实施例中通过信息识别模型输出检测分数的一个实施例示意图,如图所示,假设查询信息集合包括三条查询信息,下面将结合这三条查询信息进行进一步地说明。
例如,第一条查询信息为查询信息1,具体为“如何快速学英语”,将查询信息1输入至信息识别模型后,由该信息识别模型输出对应的检测分数1,即0.25。例如,第二条查询信息为查询信息2,具体为“最新***影网址”,将查询信息2输入至信息识别模型后,由该信息识别模型输出对应的检测分数2,即0.90。例如,第三条查询信息为查询信息3,具体为“批量导出文件夹”,将查询信息3输入至信息识别模型后,由该信息识别模型输出对应的检测分数3,即0.30。假设检测分数阈值为0.8,则确定查询信息2所对应的检测分数2(即0.90)大于检测分数阈值(即0.8),于是,可以确定该条查询信息2满足信息作弊条件。在实际应用中,可从查询信息集合中保留至少N条满足信息作弊条件的查询信息作为作弊信息,其中,N可以为2,或者3,又或者是其他大于或等于1的整数。进一步地,对这些作弊信息采用匹配或者人工标注的方式,标注出该作弊信息的标签,例如“暴力”或“色情”等。
需要说明的是,信息识别模型可采用长短期记忆(long short-term memory,LSTM)网络结构、文本卷积神经网络(text convolutional neural networks,TextCNN)结构或者来自变换器的双向编码器表征量(Bidirectional Encoder Representations fromTransformers,BERT)网络结构。下面将分别针对上述三类网络结构下的信息识别模型进行说明。
一、基于LSTM网络结构的信息识别模型;
LSTM网络是一种循环神经网络(Recurrent Neural Network,RNN),RNN是用于处理序列数据的神经网络,对于查询信息而言,可对该查询信息进行分词处理,每个词语的含义会因为上下文提到的内容而具有不同的含义,RNN就能够很好地解决这类问题。而LSTM网络相比于常规的RNN网络而言,能够在更长的序列中具有更好的表现。
LSTM网络主要有三个阶段,第一个阶段为遗忘阶段,在该阶段主要是对上一个节点传递进来的输入进行选择性遗忘,例如,通过计算得到的zf来作为遗忘门控,以此控制上一个状态的ct-1哪些需要遗忘。第二个阶段为选择记忆阶段,在该阶段将输入有选择性地进行记忆,主要会对输入的xt进行选择记忆。第三个阶段为输出阶段,在该阶段将决定哪些将会被当成当前状态的输出。可以理解的是,在LSTM网络结构输出部分增加一个全连接(fullconnection,FC)层,由此输出检测分数。
二、基于TextCNN结构的信息识别模型;
TextCNN结构通过一维卷积来获取查询信息中的特征表示,将卷积神经网络应用到文本分类任务。对于查询信息而言,可以对该查询信息进行分词处理,再对每个词语进行嵌入(embedding)得到词向量。将词向量输入至卷积(convolution))层。例如,查询包括4个词语,假设词向量一共有d维,则对于整个查询信息而言,便可以得到s行d列的矩阵A。将矩阵A作为卷积层的输入,通过卷积层输出特征图,再将特征图输入至最大池化(max-pooling)层,最后将输出的结果输入至softmax层,由此得到检测分数。
三、基于BERT网络结构的信息识别模型;
BERT网络结构基于变换器(transformer)架构实现的,它是一种具有双向深度的神经网络结构。BERT网络结构的关键技术创新是将变换器的双向培训应用于语言建模。BERT网络结构采用了掩蔽语言模型(Masked Language Modeling,MLM)的技术。变换器包括两个独立的机制,即读取文本输入的编码器和产生任务预测的解码器。由于BERT网络结构的目标是生成语言模型,因此只需要编码器机制。可以理解的是,在BERT网络结构编码后的部分增加一个全连接层,由此输出检测分数。
其次,本申请实施例中,提供了一种基于信息识别模型对查询信息进行判断的方式,采用上述方式,利用信息识别模型对每条查询信息进行打分,能够更细致地判定查询信息是否满足信息作弊条件。此外,使用信息识别模型对查询信息进行打分,还可以进一步实现模型的优化和更替,也就是说,将初步生成的信息识别模型作为打分依据,再利用打分后得到的作弊信息和普通信息作为优化该信息识别模型的依据,经过多次迭代后,即可实现对信息识别模型的优化,提升信息识别和检测的准确度。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,获取作弊用户在历史时间段内的历史查询信息集合之后,还可以包括如下步骤:
基于作弊用户在历史时间段内的历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定历史查询信息满足信息作弊条件。
本实施例中,介绍了一种基于信息识别模型对历史查询信息进行判断的方式,在确定待检测用户所对应的历史查询信息集合之后,分别将每条历史查询信息输入至信息识别模型,由该信息识别模型输出每条历史查询信息所对应的检测分数,如果该检测分数大于或等于检测分数阈值,则确定历史查询信息满足信息作弊条件,并且可以进一步将该历史查询信息确定为作弊信息,用于后续的模型优化或者用户画像的设定等。
示例性地,检测分数可以为“0”或“1”,其中,“0”表示该历史查询信息属于正常的历史查询信息(即正常信息),“1”表示该历史查询信息属于作弊的历史查询信息(即作弊信息)。此时,检测分数阈值可设置为“1”,基于此,当检测分值等于1时,表示该历史查询信息满足信息作弊条件,当检测分值等于0时,表示该历史查询信息不满足信息作弊条件。
示例性地,检测分数可以为大于或等于0,且小于或等于1的分值,其中,检测分值越小,表示属于正常历史查询信息(即正常信息)的概率越大,反之,检测分值越大,表示作弊历史查询信息(即作弊信息)的概率越大。检测分数阈值可设置为“0.8”,基于此,当检测分值大于或等于0.8时,表示该历史查询信息满足信息作弊条件,当检测分值小于0.8时,表示该历史查询信息不满足信息作弊条件。为了便于理解,请参阅图7,图7为本申请实施例中通过信息识别模型输出检测分数的另一个实施例示意图,如图所示,假设历史查询信息集合包括三条历史查询信息,下面将结合这三条历史查询信息进行进一步地说明。
例如,第一条历史查询信息为历史查询信息1,具体为“激情小说地址”,将历史查询信息1输入至信息识别模型后,由该信息识别模型输出对应的检测分数1,即0.88。例如,第二条历史查询信息为历史查询信息2,具体为“jiqing小说地址”,将历史查询信息2输入至信息识别模型后,由该信息识别模型输出对应的检测分数2,即0.65。例如,第三条历史查询信息为历史查询信息3,具体为“激晴小说的网络”,将历史查询信息3输入至信息识别模型后,由该信息识别模型输出对应的检测分数3,即0.80。假设检测分数阈值为0.8,则确定历史查询信息1所对应的检测分数1(即0.88)大于检测分数阈值(即0.8),于是,可以确定该条历史查询信息1满足信息作弊条件。历史查询信息3所对应的检测分数3(即0.80)等于检测分数阈值(即0.8),于是,可以确定该条历史查询信息3满足信息作弊条件。为了提升信息挖掘的准确度,还可以进一步加入人工审核的流程,即采用人工标注的形式对每条历史查询信息是否属于作弊信息进行标注,例如,历史查询信息2对应的“jiqing小说地址”,虽然检测分数没有达到检测分数阈值,但是经过人工审核,可以判断“jiqing”就是“激情”二字的拼音,因此,待检测用户很大程度上搜索的查询信息为“激情小说地址”,于是,可将这条历史查询信息确定为作弊信息,还可以打上标签,如“色情”。
在实际应用中,可从历史查询信息集合中提取满足信息作弊条件的作弊信息,再基于作弊信息回溯到更早之前待检测用户输入的历史查询信息,并判断这些历史查询信息是否满足信息作弊条件,如果满足,则继续往前追溯,如果不再出现满足信息作弊条件的历史查询信息,则停止挖掘该待检测用户的作弊信息。需要说明的是,信息识别模型可采用上述实施例中介绍的LSTM网络结构、BERT网络结构或者TextCNN等,故此处不做赘述。
其次,本申请实施例中,提供了一种基于信息识别模型对历史查询信息进行判断的方式,采用上述方式,利用信息识别模型对每条历史查询信息进行打分,能够更细致地判定历史查询信息是否满足信息作弊条件。此外,使用信息识别模型对历史查询信息进行打分,还可以进一步实现模型的优化和更替,也就是说,将初步生成的信息识别模型作为打分依据,再利用打分后得到的作弊信息和普通信息作为优化该信息识别模型的依据,经过多次迭代后,即可实现对信息识别模型的优化,提升信息识别的准确度。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,将满足信息作弊条件的历史查询信息确定为作弊信息之后,还可以包括如下步骤:
从服务器中读取作弊用户所对应的搜索日志数据;
根据作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,P为大于或等于1的整数;
基于P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若历史查询信息集合中存在满足信息作弊条件的查询信息,则将满足信息作弊条件的查询信息确定为作弊信息;
若历史查询信息集合中不存在满足信息作弊条件的查询信息,则停止挖掘作弊用户的作弊信息。
本实施例中,介绍了一种基于作弊用户迭代挖掘作弊信息的方式,为了便于介绍,以一个作弊信息为例进行说明,可以理解的是,对于其他作弊信息的处理方式类似,故此处不做赘述。
具体地,假设历史时间段为1年,当前时间为2020年6月27日22点54分30秒,则第一次获取到的历史查询信息集合为2019年6月27日22点54分30秒至2020年6月27日22点54分30秒这段时间内的查询信息。若检测到某条作弊信息的时间为2020年2月27日11点25分08秒,则基于从服务器中读取到的搜索日志数据,假设将每10分钟的搜索日志数据进行切片,从而得到P组历史查询信息集合,其中,这P组历史查询信息集合对应的时间段可以为,2018年6月27日22点54分30秒至2019年6月27日22点54分30秒的这段时间。
可以理解的是,基于前述实施所描述的内容,与从K组待处理查询信息集合中确定查询信息集合的方式类似,本申请也可以从P组历史查询信息集合中进一步确定查询信息集合。基于此,从查询信息集合中再次确定作弊信息,即对于满足信息作弊条件的查询信息,则将满足信息作弊条件的查询信息确定为作弊信息,对于不满足信息作弊条件的查询信息,则停止挖掘该作弊用户所对应的作弊信息。
在实际应用中,可以设定两种迭代挖掘作弊信息的方式。
第一种方式为当无法找到新的作弊信息时即可停止挖掘,假设历史时间段为1年,当前时间为2020年6月27日22点54分30秒,则先获取到的历史查询信息集合为2019年6月27日22点54分30秒至2020年6月27日22点54分30秒这段时间内的查询信息。若检测到作弊信息A的时间为2020年2月27日11点25分08秒,则继续从服务器中读取2018年6月27日22点54分30秒至2019年6月27日22点54分30秒内的搜索日志数据,由此获取P1组历史查询信息集合。
假设P1组历史查询信息集合中存在作弊信息B,作弊信息B的时间为2018年8月17日08点23分22秒,则从服务器中读取2017年6月27日22点54分30秒至2018年6月27日22点54分30秒内的搜索日志数据,由此获取P2组历史查询信息集合。
假设P2组历史查询信息集合中存在作弊信息C,作弊信息C的时间为2017年12月1日23点18分01秒,则从服务器中读取2017年6月27日22点54分30秒至2018年6月27日22点54分30秒内的搜索日志数据,由此获取P3组历史查询信息集合。
需要说明的是,假设P3组历史查询信息集合中不再存在作弊信息,则停止继续挖掘作弊信息,并可以对下一位作弊用户的作弊信息进行挖掘。
第二种方式为预先设定一个迭代次数,假设迭代次数为3次,历史时间段为1年,且当前时间为2020年6月27日22点54分30秒。在第一次迭代过程中,先获取到的历史查询信息集合为2019年6月27日22点54分30秒至2020年6月27日22点54分30秒这段时间内的查询信息。若检测到作弊信息A的时间为2020年2月27日11点25分08秒,则继续从服务器中读取2018年6月27日22点54分30秒至2019年6月27日22点54分30秒内的搜索日志数据,由此获取P1组历史查询信息集合。
在第二次迭代过程中,假设P1组历史查询信息集合中存在作弊信息B,作弊信息B的时间为2018年8月17日08点23分22秒,则从服务器中读取2017年6月27日22点54分30秒至2018年6月27日22点54分30秒内的搜索日志数据,由此获取P2组历史查询信息集合。
在第三次迭代过程中,假设P2组历史查询信息集合中存在作弊信息C,作弊信息C的时间为2017年12月1日23点18分01秒,则从服务器中读取2017年6月27日22点54分30秒至2018年6月27日22点54分30秒内的搜索日志数据,由此获取P3组历史查询信息集合。
需要说明的是,如果还未达到迭代次数,但已经不再检测到作弊信息的情况下,则可以停止继续挖掘作弊信息,也可以继续等待检测,直至达到预先设定的迭代次数。
为了便于理解,请参阅图8,图8为本申请实施例中挖掘作弊信息的一个流程示意图,如图所示,具体地:
在步骤C1中,首先基于待检测用户的用户标识,从服务器中读取待检测用户所对应的搜索日志数据。
在步骤C2中,然后获取待检测用户所对应的查询信息集合,其中,查询信息集合属于历史查询信息集合中的某个历史查询信息集合,查询信息集合中包括M条查询信息,每条查询信息可作为一条查询会话,后台工作人员还可以对查询信息集合中的查询信息进行人工标注,例如,查询信息A属于作弊信息,查询信息B属于正常信息。
在步骤C3中,将查询信息集合中查询信息输入至信息识别模型,由信息识别模型输出查询信息的检测分数。
在步骤C4中,根据查询信息的检测分数可以挖掘出作弊信息,即,如果检测分数大于或等于检测分数阈值,则确定该查询信息满足信息作弊条件,且将查询信息确定为作弊信息,反之,如果检测分数小于检测分数阈值,则继续对后续的查询信息机进行检测。
在步骤C5中,判断当前挖掘作弊信息的过程是否达到收敛状态,其中,当无法找到新的作弊信息时即为达到收敛状态,或者,达到预先设定一个迭代次数时即为达到收敛状态。达到收敛状态的情况下,执行步骤C6,未达到收敛状态的情况下,则执行步骤C7。
在步骤C6中,存储挖掘得到的作弊信息,该作弊信息可以用于优化信息识别模型。
在步骤C7中,继续挖掘作弊用户。
在步骤C8中,获取作弊用户的历史查询信息集合,并从历史查询信息集合中继续挖掘作弊信息。
其次,本申请实施例中,提供了一种基于作弊用户迭代挖掘作弊信息的方式,采用上述方式,在确定待检测用户为作弊用户的情况下,可以不断对该作弊用户的搜索内容进行挖掘,即先挖掘历史查询信息集合中的存在的作弊信息,再基于该作弊信息追溯到更早之前的历史查询信息集合,然后从中挖掘出作弊信息,直至找不出新的作弊信息,或者已达到一定的迭代次数,由此增加信息挖掘量,增加信息挖掘的深度。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,将满足信息作弊条件的历史查询信息确定为作弊信息之后,还可以包括如下步骤:
根据作弊信息确定真实标签;
基于作弊信息,通过信息识别模型获取目标检测分数;
根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
本实施例中,介绍了一种基于作弊信息实现模型优化的方式,为了便于介绍,以一个作弊信息为例进行说明,可以理解的是,对于其他作弊信息的处理方式类似,故此处不做赘述。
具体地,在获取到作弊信息之后,可以对该作弊信息打上标签,即得到真实标签,假设作弊信息的真实标签为“1”,正常信息的真实标签为“0”。将作弊信息输入至信息识别模型,由该信息识别模型输出对应的目标检测分数,例如为“0.8”,该目标检测分数与真实标签所对应的分数之间具有差距,因此,可以采用损失函数对信息识别模型的模型参数继续进行优化。当信息识别模型的更新次数已达到预先设定的迭代次数时,表示已满足模型训练条件,由此可输出用于线上预测的信息识别模型。或者,当基于损失函数计算得到的损失值达到收敛状态时,表示已满足模型训练条件,由此可输出用于线上预测的信息识别模型。
为了便于理解,请参阅图9,图9为本申请实施例中优化信息识别模型的一个流程示意图,具体地:
在步骤D1中,获取已挖掘得到的作弊信息,该作弊信息的挖掘过程可参阅图8中步骤C1至步骤C8所描述的内容,此处不做赘述。
在步骤D2中,使用挖掘到的作弊信息优化信息识别模型,优化信息识别模型的过程即为更新信息识别模型的模型参数。
在步骤D3中,判断当前优化得到的信息识别模型是否满足模型训练条件,一种实现方式为,如果信息识别模型的更新次数已达到训练的迭代次数,则表示满足模型训练条件,于是执行步骤D5,反之,如果信息识别模型的更新次数未达到训练的迭代次数,执行步骤D4。另一种实现方式为,如果基于信息识别模型得到的损失值已收敛,则表示满足模型训练条件,于是执行步骤D5,反之,如果基于信息识别模型得到的损失值未收敛,执行步骤D4。
在步骤D4中,对挖掘阶段的信息识别模型进行更新,即继续更新信息识别模型的模型参数,更新后继续对已挖掘的作弊信息进行识别。
在步骤D5中,保存最终的信息识别模型,即此时的信息识别模型可用于线上预测。
基于上述步骤可知,将优化后的信息识别模型进一步放到挖掘阶段,可挖掘到更多作弊信息,实现挖掘样本与模型优化的轮动优化。若信息识别模型已满足线上要求,则停止轮动优化,由此,将最后的信息识别模型用于线上的预测。
进一步地,本申请实施例中,提供了一种基于作弊信息实现模型优化的方式,采用上述方式,基于作弊信息确定对应的真实标签,该真实标签即为作弊信息所对应的真实标签,再将作弊信息输入至信息识别模型,由此预测得到目标检测分数,于是根据目标检测分数和真实标签,对信息识别模型进行优化,直至得到符合上线要求的信息识别模型,从而提升模型的识别可靠性。
可选地,基于上述图3对应的实施例,在本申请实施例提供作弊信息挖掘方法的另一个可选实施例中,将满足信息作弊条件的历史查询信息确定为作弊信息之后,还可以包括如下步骤:
根据作弊信息确定属性标签;
将属性标签添加至待检测用户所对应的用户画像。
本实施例中,介绍了一种基于作弊信息丰富用户画像的方式,在确定待检测用户属于作弊用户,并确定该作弊用户查询过作弊信息时,即可根据作弊信息的真实意图为待检测用户确定属性标签。
具体地,假设作弊信息与暴力内容相关,则生成的属性标签为“暴力倾向”。假设作弊信息与色情内容相关,则生成的属性标签为“色情倾向”。作弊信息与烟草或酒精等内容相关,则生成的属性标签为“喜好烟酒”。这些属性标签均可加入至待检测用户的用户画像中,从而丰富待检测用户的用户画像。为了便于理解,请参阅表3,表3为待检测用户对应的用户画像的一个示意。
表3
Figure BDA0002571594800000201
基于表3可知,用户标识为“MIKEY123”的待检测用户具有“暴力倾向”的标签,因此,在推荐查询结果时,可优先推送对与暴力内容无关的查询结果。
为了便于理解,请参阅表4,表4为待检测用户对应的用户画像的另一个示意。
表4
Figure BDA0002571594800000202
基于表4可知,用户标识为“Johnny999”的待检测用户具有“喜好烟酒”的标签,但同时待检测用户也是一名中学生,因此,在推荐查询结果时,可屏蔽与烟酒买卖相关的查询结果。
需要说明的是,在实际应用中,无论为待检测用户搜索到的查询结果是信息还是商品,都可以先判断待检测用户是否属于作弊用户,如果属于作弊用户,则需要进一步获取该作弊用户的历史查询信息集合,并进行作弊信息的挖掘。反之,如果该待检测用户不属于作弊用户,则继续对其他的待检测用户进行识别。
进一步地,本申请实施例中,提供了一种基于作弊信息丰富用户画像的方式,采用上述方式,能够深度挖掘出某个用户的用户画像,从而便于收集与分析用户的社会属性、生活习惯以及消费行为等,为企业或者组织等提供足够的信息基础,能够帮助企业或组织等快速找到精准用户群体以及用户需求。
结合上述介绍,下面将对本申请中作弊信息的识别方法进行介绍,请参阅图10,本申请实施例中作弊信息识别方法的一个实施例包括:
201、获取待检测查询信息;
本实施例中,用户通过终端设备展示的搜索界面输入待检测查询信息,由信息识别装置获取到该待检测查询信息。需要说明的是,本申请提供的信息识别装置可部署于服务器,也可以部署于终端设备,本申请以信息识别装置部署于服务器为例进行说明,然而这不应理解为本申请的限定。
为了便于理解,请参阅图11,图11为本申请实施例中输入待检测查询信息的一个界面示意图,如图11中的(A)图所示,以应用于即时通讯类应用中的小程序为例,E1用于指示搜索界面上的输入框,还可以展示若干条热点搜索内容,便于快速查看热点待检测查询信息。如图11中的(B)图所示,以应用于搜索引擎为例,E2用于指示搜索界面中的输入框,用户可在E1所指示的输入框或者E2所指示的输入框内输入待检测查询信息,例如,“如何批量导出文件夹”。输入待检测查询信息的方式包含但不仅限于直接输入文本内容以及采用语音输入。此外,在图11中(A)和(B)图所示的搜索界面上,还可以展示若干条热点搜索内容,便于快速查看热点待检测查询信息。
202、基于待检测查询信息,通过信息识别模型获取检测分数,其中,信息识别模型为根据作弊信息训练得到的模型,作弊信息为基于满足信息作弊条件的历史查询信息,历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,作弊用户所对应的查询信息集合中存在至少一条满足信息作弊条件的查询信息,查询信息集合包括M条查询信息,M为大于或等于1的整数,历史查询信息集合包括至少一条历史查询信息;
本实施例中,信息识别装置对待检测查询信息进行检测,具体地,将待检测查询信息输入至信息识别模型,由信息识别模型对待检测查询信息进行打分,得到相应的检测分数。
可以理解的是,在优化信息识别模型的过程中,需要将正常信息和作弊信息作为训练样本,由此实现模型的训练和模型参数的更新。其中,作弊信息的获取方式为,先获取待检测用户所对应的查询信息集合,如果查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,于是获取作弊用户在历史时间段内的历史查询信息集合,如果历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
203、若待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。
本实施例中,如果待检测查询信息的检测分数大于或等于检测分数阈值,则认为该条待检测查询信息满足信息作弊条件。假设检测分数阈值为0.8,例如,待检测查询信息为“如何快递学英语”,通过信息识别模型后输出的检测分数可以为0.2,则该检测分数小于检测分数阈值,于是可以确定该待检测查询信息为普通信息,于是,可向用户使用的终端设备推送相应的查询结果。又例如,待检测查询信息为“***影的最新网址”,通过信息识别模型后输出的检测分数可以为0.9,则该检测分数大于检测分数阈值,于是可以确定该待检测查询信息为作弊信息,于是,可以拒绝向该用户推送查询结果,或者,基于待检测查询信息确定属性标签,并将该属性标签添加至用户的用户画像中。
本申请实施例中,提供了一种作弊信息的识别方法,首先获取待检测查询信息,然后基于待检测查询信息,通过信息识别模型获取检测分数,该信息识别模型为根据作弊信息训练得到的模型,如果待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。采用上述方式,收集某个用户在一段时间内的查询信息,如果这段时间内存在具有敏感意图的查询信息,则将该用户确定为作弊用户,并进一步获取该作弊用户在历史时间段内的查询信息,再从历史时间段内的查询信息中挖掘出作弊的查询信息,从而提升了信息处理的效率,减少了信息挖掘的复杂度,并且节省了人力成本和时间成本。使用作弊信息优化信息识别模型,能够提升信息识别模型的精度,从而增加作弊信息检测的识别准确度。
可选地,基于上述图10对应的实施例,在本申请实施例提供作弊信息识别方法的另一个可选实施例中,基于待检测查询信息,通过信息识别模型获取检测分数之前,还可以包括如下步骤:
获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,并获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息,并根据作弊信息确定真实标签;
基于作弊信息,通过信息识别模型获取目标检测分数;
根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
本实施例中,介绍了一种基于作弊信息实现模型优化的方式,为了便于介绍,以一个作弊信息为例进行说明,可以理解的是,获取作弊信息的方式可以参阅前述实施例所描述的内容,此处不做赘述。此外对于其他作弊信息的处理方式类似,此处不做赘述。
具体地,在获取到作弊信息之后,可以对该作弊信息打上标签,即得到真实标签,假设作弊信息的真实标签为“1”,正常信息的真实标签为“0”。将作弊信息输入至信息识别模型,由该信息识别模型输出对应的目标检测分数,例如为“0.8”,该目标检测分数与真实标签所对应的分数之间具有差距,因此,可以采用损失函数对信息识别模型的模型参数继续进行优化。当信息识别模型的更新次数已达到预先设定的迭代次数时,表示已满足模型训练条件,由此可输出用于线上预测的信息识别模型。或者,当基于损失函数计算得到的损失值达到收敛状态时,表示已满足模型训练条件,由此可输出用于线上预测的信息识别模型。
需要说明的是,模型训练的流程可以参阅图9对应的相关介绍,此处不做赘述。
其次,本申请实施例中,提供了一种基于作弊信息实现模型优化的方式,采用上述方式,基于作弊信息确定对应的真实标签,该真实标签即为作弊信息所对应的真实标签,再将作弊信息输入至信息识别模型,由此预测得到目标检测分数,于是根据目标检测分数和真实标签,对信息识别模型进行优化,直至得到符合上线要求的信息识别模型,从而提升模型的识别可靠性。
可选地,基于上述图10对应的实施例,在本申请实施例提供作弊信息识别方法的另一个可选实施例中确定待检测查询信息为作弊信息之后,还可以包括如下步骤:
获取作弊信息所对应的查询结果;
对作弊信息所对应的查询结果进行屏蔽处理。
本实施例中,介绍了一种基于作弊信息的查询结果展示方式,以及基于正常信息的查询结果展示方式,在实际应用中,用户输入的待检测查询信息可能具有敏感意图(比如,色情意图或者暴力意图等),也可能不具有敏感意图,因此,针对不同的意图可推送对应的消息。下面将分别结合图12和图13进行说明。
第一种情况,如果待检测查询信息不包含敏感意图,则将该待检测查询信息确定为是正常信息,基于此,请参阅图12,图12为本申请实施例中基于正常信息展示查询结果的一个界面示意图,如图所示,假设待检测查询信息为“如何快速记忆英文单词”,经过搜索后获取到若干个查询结果,查询结果包含但不限于公众号内容、百科内容、小程序内容、文章内容、音频内容、视频内容以及朋友圈内容,以搜索到文章内容为例,查询结果包括文章“懒人快速学英语,这个方法千万不能错过!”,以及文章“自学16种外语的牛人告诉你,如何高效快速学英语”,以及文章“快递学英语的方法”,其中,有些文章还可以推送一些相关的简要介绍,例如,在文章“快递学英语的方法”中,可直接显示“如何快速学习英语,有没有什么办法可以快速学习英语,当我们面临考试或者走向社会后,我们往往要面对更多场合,今天就来说说这个话题”,用户可直接通过该搜索界面了解这篇文章的大致内容,从而提升搜索效率,并且节省终端设备的流量。
第二种情况,如果待检测查询信息包含敏感意图,则将该待检测查询信息确定为是作弊信息,基于此,请参阅图13,图13为本申请实施例中基于作弊信息展示查询结果的一个界面示意图,如图所示,假设待检测查询信息为“最新的***影网址”,经过搜索后获取到若干个查询结果,但由于待检测查询信息属于作弊信息,该检测查询信息所对应的查询结果也很可能出现一些不安全的因素,因此,需要对查询结果进行屏蔽处理,例如,在终端设备的搜索界面上反馈“您搜索的内容不符合相关法规!无法正常显示”。可以理解的是,对查询结果进行屏蔽的方式还可以是,显示相关的图片提示,或者发出提示音,或者采用图文并茂的方式进行提示等,图13仅为一个示意,不应理解为对本申请的限定。
再次,本申请实施例中,提供了一种基于作弊信息的查询结果展示方式,以及基于正常信息的查询结果展示方式,采用上述方式,一方面能够向用户推送合法合规的查询结果,便于用户及时查看到所需的信息,另一方面,对于具有敏感意图的查询结果可以进行屏蔽处理,减少因网络黑产给用户带来的威胁和损失,从而提升搜索的可靠性和安全性。
下面对本申请中的信息挖掘装置进行详细描述,请参阅图14,图14为本申请实施例中信息挖掘装置的一个实施例示意图,信息挖掘装置30包括:
获取模块301,用于获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
确定模块302,用于若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;
获取模块301,还用于获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
确定模块302,还用于若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,
获取模块301,具体用于从服务器中读取待检测用户所对应的搜索日志数据;
根据待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,K为大于或等于1的整数;
从K组待处理查询信息集合中获取查询信息集合。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,
获取模块301,具体用于获取K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若待处理查询信息集合的查询信息数量大于或等于数量阈值,则将待处理查询信息集合确定为查询信息集合,其中,查询信息集合还包括待检测用户的标识,以及每条查询信息所对应的时间。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,
获取模块301,还用于获取待检测用户所对应的查询信息集合之后,基于待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定查询信息满足信息作弊条件。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,
获取模块301,还用于获取作弊用户在历史时间段内的历史查询信息集合之后,基于作弊用户在历史时间段内的历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
确定模块302,还用于若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定历史查询信息满足信息作弊条件。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,信息挖掘装置30还包括读取模块303、生成模块304以及停止模块305;
读取模块303,用于确定模块302将满足信息作弊条件的历史查询信息确定为作弊信息之后,从服务器中读取作弊用户所对应的搜索日志数据;
生成模块304,用于根据作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,P为大于或等于1的整数;
获取模块301,还用于基于P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
确定模块302,还用于若历史查询信息集合中存在满足信息作弊条件的查询信息,则将满足信息作弊条件的查询信息确定为作弊信息;
停止模块305,用于若历史查询信息集合中不存在满足信息作弊条件的查询信息,则停止挖掘作弊用户的作弊信息。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,信息挖掘装置30还包括训练模块306;
确定模块302,还用于将满足信息作弊条件的历史查询信息确定为作弊信息之后,根据作弊信息确定真实标签;
获取模块301,还用于基于作弊信息,通过信息识别模型获取目标检测分数;
训练模块306,用于根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
可选地,在上述图14所对应的实施例的基础上,本申请实施例提供的信息挖掘装置30的另一实施例中,信息挖掘装置30还包括添加模块307;
确定模块302,还用于将满足信息作弊条件的历史查询信息确定为作弊信息之后,根据作弊信息确定属性标签;
添加模块307,用于将属性标签添加至待检测用户所对应的用户画像。
下面对本申请中的信息识别装置进行详细描述,请参阅图15,图15为本申请实施例中信息识别装置的一个实施例示意图,信息识别装置40包括:
获取模块401,用于获取待检测查询信息;
获取模块401,还用于基于待检测查询信息,通过信息识别模型获取检测分数,其中,信息识别模型为根据作弊信息训练得到的模型,作弊信息为基于满足信息作弊条件的历史查询信息,历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,作弊用户所对应的查询信息集合中存在至少一条满足信息作弊条件的查询信息,查询信息集合包括M条查询信息,M为大于或等于1的整数,历史查询信息集合包括至少一条历史查询信息;
确定模块402,用于若待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。
可选地,在上述图15所对应的实施例的基础上,本申请实施例提供的信息识别装置40的另一实施例中,信息识别装置40还包括训练模块403;
获取模块401,还用于基于待检测查询信息,通过信息识别模型获取检测分数之前,获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
确定模块402,还用于若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,并获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
确定模块402,还用于若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息,并根据作弊信息确定真实标签;
获取模块401,还用于基于作弊信息,通过信息识别模型获取目标检测分数;
训练模块403,用于根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
可选地,在上述图15所对应的实施例的基础上,本申请实施例提供的信息识别装置40的另一实施例中,信息识别装置40还包括处理模块404;
获取模块401,还用于在确定模块确定待检测查询信息为作弊信息之后,获取作弊信息所对应的查询结果;
处理模块404,用于对作弊信息所对应的查询结果进行屏蔽处理。
请参阅图16,图16是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作***541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本申请实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户;
获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息。
可选地,CPU 522具体用于执行如下步骤:
从服务器中读取待检测用户所对应的搜索日志数据;
根据待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,K为大于或等于1的整数;
从K组待处理查询信息集合中获取查询信息集合。
可选地,CPU 522具体用于执行如下步骤:
获取K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若待处理查询信息集合的查询信息数量大于或等于数量阈值,则将待处理查询信息集合确定为查询信息集合,其中,查询信息集合还包括待检测用户的标识,以及每条查询信息所对应的时间。
可选地,CPU 522还用于执行如下步骤:
基于待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定查询信息满足信息作弊条件。
可选地,CPU 522还用于执行如下步骤:
基于作弊用户在历史时间段内的历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定历史查询信息满足信息作弊条件。
可选地,CPU 522还用于执行如下步骤:
从服务器中读取作弊用户所对应的搜索日志数据;
根据作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,P为大于或等于1的整数;
基于P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若历史查询信息集合中存在满足信息作弊条件的查询信息,则将满足信息作弊条件的查询信息确定为作弊信息;
若历史查询信息集合中不存在满足信息作弊条件的查询信息,则停止挖掘作弊用户的作弊信息。
可选地,CPU 522还用于执行如下步骤:
根据作弊信息确定真实标签;
基于作弊信息,通过信息识别模型获取目标检测分数;
根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
可选地,CPU 522还用于执行如下步骤:
根据作弊信息确定属性标签;
将属性标签添加至待检测用户所对应的用户画像。
在本申请实施例中,该服务器所包括的CPU 522还具有以下功能:
获取待检测查询信息;
基于待检测查询信息,通过信息识别模型获取检测分数,其中,信息识别模型为根据作弊信息训练得到的模型,作弊信息为基于满足信息作弊条件的历史查询信息,历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,作弊用户所对应的查询信息集合中存在至少一条满足信息作弊条件的查询信息,查询信息集合包括M条查询信息,M为大于或等于1的整数,历史查询信息集合包括至少一条历史查询信息;
若待检测查询信息的检测分数大于或等于检测分数阈值,则确定待检测查询信息为作弊信息。
可选地,CPU 522还用于执行如下步骤:
获取待检测用户所对应的查询信息集合,其中,查询信息集合包括M条查询信息,M为大于或等于1的整数;
若查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将待检测用户确定为作弊用户,并获取作弊用户在历史时间段内的历史查询信息集合,其中,历史查询信息集合包括至少一条历史查询信息;
若历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将满足信息作弊条件的历史查询信息确定为作弊信息,并根据作弊信息确定真实标签;
基于作弊信息,通过信息识别模型获取目标检测分数;
根据目标检测分数以及真实标签,采用损失函数对信息识别模型的模型参数进行更新,直至满足模型训练条件。
可选地,CPU 522还用于执行如下步骤:
获取作弊信息所对应的查询结果;
对作弊信息所对应的查询结果进行屏蔽处理。
上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台服务器(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种作弊信息的挖掘方法,其特征在于,包括:
获取待检测用户所对应的查询信息集合,其中,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数;
若所述查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将所述待检测用户确定为作弊用户;
获取所述作弊用户在历史时间段内的历史查询信息集合,其中,所述历史查询信息集合包括至少一条历史查询信息;
若所述历史查询信息集合中存在满足所述信息作弊条件的历史查询信息,则将所述满足信息作弊条件的历史查询信息确定为作弊信息。
2.根据权利要求1所述的挖掘方法,其特征在于,所述获取待检测用户所对应的查询信息集合,包括:
从服务器中读取所述待检测用户所对应的搜索日志数据;
根据所述待检测用户所对应的搜索日志数据,生成K组待处理查询信息集合,其中,每组待处理查询信息集合对应于一个时间段,所述K为大于或等于1的整数;
从所述K组待处理查询信息集合中获取所述查询信息集合。
3.根据权利要求2所述的挖掘方法,其特征在于,所述从所述K组待处理查询信息集合中获取所述查询信息集合,包括:
获取所述K组待处理查询信息集合中每个待处理查询信息集合的查询信息数量;
若所述待处理查询信息集合的查询信息数量大于或等于数量阈值,则将所述待处理查询信息集合确定为所述查询信息集合,其中,所述查询信息集合还包括所述待检测用户的标识,以及每条查询信息所对应的时间。
4.根据权利要求1所述的挖掘方法,其特征在于,所述获取待检测用户所对应的查询信息集合之后,所述方法还包括:
基于所述待检测用户所对应的查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若查询信息所对应的检测分值大于或等于检测分数阈值,则确定所述查询信息满足所述信息作弊条件。
5.根据权利要求1所述的挖掘方法,其特征在于,所述获取所述作弊用户在历史时间段内的历史查询信息集合之后,所述方法还包括:
基于所述作弊用户在所述历史时间段内的所述历史查询信息集合,通过信息识别模型获取每条历史查询信息所对应的检测分数;
若历史查询信息所对应的检测分值大于或等于检测分数阈值,则确定所述历史查询信息满足所述信息作弊条件。
6.根据权利要求1所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
从服务器中读取所述作弊用户所对应的搜索日志数据;
根据所述作弊用户所对应的搜索日志数据,生成P组历史查询信息集合,其中,每组历史查询信息集合对应于一个时间段,所述P为大于或等于1的整数;
基于所述P组历史查询信息集合中的每组历史查询信息集合,通过信息识别模型获取每条查询信息所对应的检测分数;
若所述历史查询信息集合中存在满足所述信息作弊条件的查询信息,则将所述满足信息作弊条件的查询信息确定为作弊信息;
若所述历史查询信息集合中不存在满足所述信息作弊条件的查询信息,则停止挖掘所述作弊用户的作弊信息。
7.根据权利要求1至6中任一项所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
根据所述作弊信息确定真实标签;
基于所述作弊信息,通过信息识别模型获取目标检测分数;
根据所述目标检测分数以及所述真实标签,采用损失函数对所述信息识别模型的模型参数进行更新,直至满足模型训练条件。
8.根据权利要求1至6中任一项所述的挖掘方法,其特征在于,所述将所述满足信息作弊条件的历史查询信息确定为作弊信息之后,所述方法还包括:
根据所述作弊信息确定属性标签;
将所述属性标签添加至所述待检测用户所对应的用户画像。
9.一种作弊信息的识别方法,其特征在于,包括:
获取待检测查询信息;
基于所述待检测查询信息,通过信息识别模型获取检测分数,其中,所述信息识别模型为根据作弊信息训练得到的模型,所述作弊信息为基于满足信息作弊条件的历史查询信息,所述历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,所述作弊用户所对应的查询信息集合中存在至少一条满足所述信息作弊条件的查询信息,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数,所述历史查询信息集合包括至少一条历史查询信息;
若所述待检测查询信息的检测分数大于或等于检测分数阈值,则确定所述待检测查询信息为作弊信息。
10.根据权利要求9所述的识别方法,其特征在于,所述基于所述待检测查询信息,通过信息识别模型获取检测分数之前,所述方法还包括:
获取待检测用户所对应的查询信息集合,其中,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数;
若所述查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将所述待检测用户确定为作弊用户,并获取所述作弊用户在历史时间段内的历史查询信息集合,其中,所述历史查询信息集合包括至少一条历史查询信息;
若所述历史查询信息集合中存在满足信息作弊条件的历史查询信息,则将所述满足信息作弊条件的历史查询信息确定为作弊信息,并根据所述作弊信息确定真实标签;
基于所述作弊信息,通过所述信息识别模型获取目标检测分数;
根据所述目标检测分数以及所述真实标签,采用损失函数对所述信息识别模型的模型参数进行更新,直至满足模型训练条件。
11.根据权利要求9或10所述的识别方法,其特征在于,所述确定所述待检测查询信息为作弊信息之后,所述方法还包括:
获取所述作弊信息所对应的查询结果;
对所述作弊信息所对应的查询结果进行屏蔽处理。
12.一种信息挖掘装置,其特征在于,包括:
获取模块,用于获取待检测用户所对应的查询信息集合,其中,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数;
确定模块,用于若所述查询信息集合中存在至少一条满足信息作弊条件的查询信息,则将所述待检测用户确定为作弊用户;
所述获取模块,还用于获取所述作弊用户在历史时间段内的历史查询信息集合,其中,所述历史查询信息集合包括至少一条历史查询信息;
所述确定模块,还用于若所述历史查询信息集合中存在所述满足信息作弊条件的历史查询信息,则将所述满足信息作弊条件的历史查询信息确定为作弊信息。
13.一种信息识别装置,其特征在于,包括:
获取模块,用于获取待检测查询信息;
所述获取模块,还用于基于所述待检测查询信息,通过信息识别模型获取检测分数,其中,所述信息识别模型为根据作弊信息训练得到的模型,所述作弊信息为基于满足信息作弊条件的历史查询信息,所述历史查询信息属于作弊用户在历史时间段内的历史查询信息集合,所述作弊用户所对应的查询信息集合中存在至少一条满足所述信息作弊条件的查询信息,所述查询信息集合包括M条查询信息,所述M为大于或等于1的整数,所述历史查询信息集合包括至少一条历史查询信息;
确定模块,用于若所述待检测查询信息的检测分数大于或等于检测分数阈值,则确定所述待检测查询信息为作弊信息。
14.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线***;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据所述程序代码中的指令执行权利要求1至8中任一项所述的挖掘方法,或,执行权利要求9至11中任一项所述的识别方法;
所述总线***用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行权利要求1至8中任一项所述的挖掘方法,或,执行权利要求9至11中任一项所述的识别方法。
CN202010641397.8A 2020-07-06 2020-07-06 一种作弊信息的挖掘方法、作弊信息的识别方法及装置 Pending CN111666317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010641397.8A CN111666317A (zh) 2020-07-06 2020-07-06 一种作弊信息的挖掘方法、作弊信息的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010641397.8A CN111666317A (zh) 2020-07-06 2020-07-06 一种作弊信息的挖掘方法、作弊信息的识别方法及装置

Publications (1)

Publication Number Publication Date
CN111666317A true CN111666317A (zh) 2020-09-15

Family

ID=72391119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010641397.8A Pending CN111666317A (zh) 2020-07-06 2020-07-06 一种作弊信息的挖掘方法、作弊信息的识别方法及装置

Country Status (1)

Country Link
CN (1) CN111666317A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309423A (zh) * 2019-06-28 2019-10-08 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置及电子设备
CN110516156A (zh) * 2019-08-29 2019-11-29 深信服科技股份有限公司 一种网络行为监控装置、方法、设备和存储介质
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177521A (zh) * 2018-10-24 2020-05-19 北京搜狗科技发展有限公司 一种查询词分类模型的确定方法和装置
CN110309423A (zh) * 2019-06-28 2019-10-08 北京奇艺世纪科技有限公司 一种敏感信息识别方法、装置及电子设备
CN110516156A (zh) * 2019-08-29 2019-11-29 深信服科技股份有限公司 一种网络行为监控装置、方法、设备和存储介质

Similar Documents

Publication Publication Date Title
US10832008B2 (en) Computerized system and method for automatically transforming and providing domain specific chatbot responses
US20190188326A1 (en) Domain specific natural language understanding of customer intent in self-help
US20170293864A1 (en) System and Method for Searching and Matching Content Over Social Networks Relevant to an Individual
US9881059B2 (en) Systems and methods for suggesting headlines
US9760627B1 (en) Private-public context analysis for natural language content disambiguation
US9483462B2 (en) Generating training data for disambiguation
US20160196336A1 (en) Cognitive Interactive Search Based on Personalized User Model and Context
KR102032091B1 (ko) 인공지능 기반의 댓글 감성 분석 방법 및 그 시스템
CN112771564B (zh) 生成网站的语义方向以自动实体寻的到映射身份的人工智能引擎
US20140006012A1 (en) Learning-Based Processing of Natural Language Questions
US11321536B2 (en) Chatbot conducting a virtual social dialogue
WO2020005571A1 (en) Misinformation detection in online content
US20160125028A1 (en) Systems and methods for query rewriting
US9069880B2 (en) Prediction and isolation of patterns across datasets
Zhou et al. Coupling topic modelling in opinion mining for social media analysis
Wijeratne et al. Feature engineering for Twitter-based applications
Mangal et al. Analysis of users’ interest based on tweets
Lv et al. TMIF: transformer-based multi-modal interactive fusion for automatic rumor detection
Liu et al. Understanding and predicting question subjectivity in social question and answering
CN107665442B (zh) 获取目标用户的方法及装置
Arafat et al. Analyzing public emotion and predicting stock market using social media
AleEbrahim et al. Summarising customer online reviews using a new text mining approach
Dziczkowski et al. An opinion mining approach for web user identification and clients' behaviour analysis
Khatoon et al. Sentiment analysis on tweets
Qureshi et al. Detecting social polarization and radicalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination