CN113360617B - 异常识别方法、装置、设备和存储介质 - Google Patents

异常识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113360617B
CN113360617B CN202110633642.5A CN202110633642A CN113360617B CN 113360617 B CN113360617 B CN 113360617B CN 202110633642 A CN202110633642 A CN 202110633642A CN 113360617 B CN113360617 B CN 113360617B
Authority
CN
China
Prior art keywords
data
target
answer data
behavior
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110633642.5A
Other languages
English (en)
Other versions
CN113360617A (zh
Inventor
庞海龙
岳江浩
张玉东
张文君
张铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110633642.5A priority Critical patent/CN113360617B/zh
Publication of CN113360617A publication Critical patent/CN113360617A/zh
Application granted granted Critical
Publication of CN113360617B publication Critical patent/CN113360617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种异常识别方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及智能搜索、机器学习和深度学习技术。具体实现方案为:提取目标对象的目标问答数据中的文本特征数据;根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;根据所述文本特征数据和所述行为特征数据,确定目标得分;根据所述目标得分,对所述目标对象进行异常识别。根据本公开的技术,提高了目标对象异常识别结果的准确度。

Description

异常识别方法、装置、设备和存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及智能搜索、机器学习和深度学习技术。
背景技术
知识问答社区是一个为大众提供知识需求和知识供给的一个互动式、开放式社区。这类社区形态大多是以用户间的“提问—回答”形式存在,以实现知识共享。
然而,由于社区的开放性,导致部分用户借助社区资源进行推广、导流,提供一些作弊内容,严重影响社区的可持续发展。
发明内容
本公开提供了一种异常识别方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种异常识别方法,包括:
提取目标对象的目标问答数据中的文本特征数据;
根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;
根据所述文本特征数据和所述行为特征数据,确定目标得分;
根据所述目标得分,对所述目标对象进行异常识别。
根据本公开的另一方面,还提供了一种异常识别装置,包括:
文本特征数据提取模块,用于提取目标对象的目标问答数据中的文本特征数据;
行为特征数据确定模块,用于根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;
目标得分确定模块,用于根据所述文本特征数据和所述行为特征数据,确定目标得分;
异常识别模块,用于根据所述目标得分,对所述目标对象进行异常识别。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例提供的任意一种异常识别方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开实施例提供的任意一种异常识别方法。
根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开实施例提供的任意一种异常识别方法。
根据本公开的技术,提高了目标对象异常识别结果的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种异常识别方法的流程图;
图2是本公开实施例提供的另一种异常识别方法的流程图;
图3是本公开实施例提供的另一种异常识别方法的流程图;
图4是本公开实施例提供的另一种异常识别方法的流程图;
图5是本公开实施例提供的一种异常识别方法的框图;
图6是本公开实施例提供的一种异常识别装置的结构图;
图7是用来实现本公开实施例的异常识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供的各异常识别方法和异常识别装置,适用于对知识问答社区中的目标对象的问答情况进行异常识别的场景。本公开中的异常识别方法,可以由异常识别装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是终端设备或服务器。
为了便于理解,本公开首先对各异常识别方法进行详细说明。
参见图1所示的一种异常识别方法,包括:
S101、提取目标对象的目标问答数据中的文本特征数据。
其中,目标对象可以理解为唯一表征用户的用户账号标识。问答数据可以包括知识问答社区中的问题数据和/或答案数据。目标问答数据包括目标对象生成的答案数据、和/或与该答案数据对应的问题数据。需要说明的是,目标问答数据中的内容可以通过但不限于图片和文本的形式存在。
文本特征数据为基于目标问答数据的图文信息所提取的有用信息,作为从内容维度对目标问答数据生成时的目标对象,进行异常识别的参考依据。
S102、根据目标对象生成目标问答数据的答案数据时的行为状态数据,确定行为特征数据。
其中,行为状态数据用于表征目标对象在生成目标问答数据的答案数据时的行为属性和状态属性。行为属性与生成目标问答数据的答案数据时的用户行为相对应,作为从行为维度对目标问答数据生成时的目标对象,进行异常识别的参考依据。状态属性与生成目标问答数据的答案数据时的生成环境相对应,作为从环境维度对目标问答数据生成时的目标对象,进行异常识别的参考依据。
S103、根据文本特征数据和行为特征数据,确定目标得分。
可选的,可以将文本特征数据和行为特征数据进行拼接融合,得到融合数据;根据融合数据,确定目标得分。或者可选的,还可以分别将文本特征数据和行为特征数据作为并列输入,共同进行目标得分的确定。或者可选的,还可以分别根据文本特征数据确定文本得分,以及根据行为特征数据确定行为得分;对文本得分和行为得分进行加权平均,得到目标得分。其中,加权平均时的权重可以由技术人员根据需要或经验值进行设定,或通过大量试验确定。
在一个具体实现方式中,可以将文本特征数据和行为特征数据进行拼接融合,得到融合结果;将融合结果输入至预先训练好的第一融合评价模型中,输出目标得分。其中,第一融合评价模型可以采用以下方式训练得到:将样本对象的样本问答数据所提取的样本文本特征数据和样本行为特征数据的拼接结果作为训练样本,将样本对象生成样本问答数据时的异常标注数据作为标签,对预先构建的第一机器学习模型进行训练。
在另一具体实现方式中,可以将文本特征数据和行为特征数据,并行输入值预先训练好的第二融合评价模型中,输出目标得分。其中,第二融合评价模型可以采用以下方式训练得到:将样本对象的样本问答数据所提取的样本文本特征数据和样本行为特征数据作为训练样本对,将样本对象生成样本问答数据时的异常标注数据作为标签,对预先构建的第二机器学习模型进行训练。
在又一具体实现方式中,可以将文本特征数据输入至预先训练好的文本评价模型中,得到文本得分;将行为特征数据输入至预先训练好的行为评价模型中,得到行为得分;将文本得分和行为得分进行加权平均,得到目标得分。其中,文本评价模型和行为评价模型可以分别独立训练的得到:将样本对象的样本问答数据所提取的样本文本特征数据作为训练样本,将样本对象生成样本问答数据时的异常标注数据作为标签,对预先构建的第三机器学习模型进行训练,得到文本评价模型;以及,将样本对象在生成样本问答数据时的样本行为数据作为训练样本,将样本对象生成样本问答数据时的异常标注数据作为标签,对预先构建的第四机器学习模型进行训练,得到行为评价模型。当然,文本评价模型和行为评价模型可以同时训练得到:将样本对象的样本问答数据所提取的样本文本特征数据和样本行为特征数据分别作为第三机器学习模型中的第一子网络和第二子网络的输入数据,将样本对象生成样本问答数据时的异常标注数据作为标签,对融合训练模型进行训练;将训练好的第一子网络作为文本评价模型,以及将训练好的第二子网络作为行为评价模型。
需要说明的是,本公开对上述第一机器学习模型、第二机器学习模型和第三机器学习模型的具体结构不作任何限定,可以基于现有技术的至少一种模型加以实现,仅需保证所训练模型具备相应功能即可。
S104、根据目标得分,对目标对象进行异常识别。
示例性的,确定目标得分是否满足异常条件;若满足,则确定目标对象在生成目标问答数据的答案数据时异常;否则,确定目标对象在生成目标问答数据的答案数据时正常。
在一个具体实现方式中,若目标得分小于异常得分阈值,则确定目标对象在生成目标问答数据的答案数据时异常;若目标得分不小于异常得分阈值,则确定目标对象在生成目标问答数据的答案数据时正常。其中,异常得分阈值可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
需要说明的是,本公开的技术方案中,所涉及的目标对象、目标问答数据、和行为状态数据的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本公开在对目标对象进行异常检测时,通过引入目标问答数据的文本特征数据和行为特征数据,进行目标得分确定,使得目标得分确定过程能够综合考量不同维度的信息,提高了目标得分确定结果的准确度,从而在根据目标得分进行目标对象的异常识别时,提高了异常识别结果的准确度。
在上述各技术方案的基础上,本公开还提供了另一可选实施例。在该实施例中,将文本特征数据的提取操作进行了优化改进。
参见图2所示的一种异常识别方法,包括:
S201、在预设维度下,对目标问答数据进行异常数据识别,得到数据异常概率。
其中,异常数据可以包括但不限于违禁图文、垃圾图文、涉政图文、辱骂图文和广告图文等内容。其中,违禁图文可以包括携带涉黄涉暴类信息的图文,垃圾图文可以包括携带诈骗类信息的图文,涉政图文可以包括携带涉政或反动信息的图文等。
其中,预设维度可以包括违禁、垃圾、涉政、辱骂和广告等中至少一个维度。
在一个可选实施例中,可以预先训练数据异常识别模型,并将目标问答数据输入至该训练好的数据异常识别模型中,得到数据异常概率。其中,数据异常识别模型可以将样本对象的样本问答数据作为训练样本,将该样本问答数据在预设维度下的数据异常标注数据作为标签值,对预先构建的机器学习模型进行训练得到。其中,本公开对机器学习模型的具体结构不作任何限定,仅需保证能够实现异常数据识别功能即可。
需要说明的是,数据异常识别模型可以为一个,将目标问答数据输入至该数据异常识别模型后,输出各预设维度下的数据异常概率。
然而,通过一个异常识别模型进行不同预设维度下的数据异常概率确定,其识别结果准确度较差,进而影响文本特征数据的准确度。为了提高文本特征数据的准确度,进而为异常识别准确度的提高奠定基础,在一个可选实施例中,可以分别针对每一预设维度,分别训练对应的异常识别模型,从而将目标问答数据输入至各预设维度对应的异常识别模型中,得到相应预设维度的数据异常概率。
S202、对目标问答数据进行字符统计,得到字符统计数据。
其中,字符统计数据用于表征目标问答数据的内容丰富程度。示例性的,字符统计数据可以包括文本统计数据,如文本长度、文字数量和文字占比等;字符统计数据还可以包括标点统计数据,如标点种类、标点数量和标点占比等。
可选的,文本可以包括问题文本;相应的,文本统计数据,可以包括问题文本长度、问题文字数量、以及问题文字在答案文字中的长度占比或数量占比等中的至少一种。
可选的,文本可以包括答案文本;相应的,文本统计数据,可以包括答案文本长度、答案文字数量、以及问题文字在答案文字中的长度占比或数量占比等中的至少一种。
可选的,若文本包括问题文本和答案文本;相应的,文本统计数据还可以包括下述至少一种:问题文本在答案文本中的长度占比、问题文字在答案文字中的相同文字的数量、问题文字在答案文字中的相同文字的数量占比、和问题标点在答案标点中的数量占比等。
S203、根据数据异常概率和字符统计数据中的至少一个,生成文本特征数据。
从各预设维度对应的数据异常概率以及字符统计数据中,选取至少一个拼接融合,得到文本特征数据。
需要说明的是,对数据异常概率和字符统计数据的选取,可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
为了避免由于量纲影响导致字符统计数据与数据异常概率之间的差异,还可以在生成文本特征数据之前,对字符统计数据进行归一化处理。相应的,根据数据异常概率和归一化后的字符统计数据中的至少一个,生成文本特征数据。
为了提高文本特征数据携带内容的丰富性,进而提高文本特征数据的全面性,在一个可选实施例中,可以将上述各预设维度对应的数据异常概率和字符统计数据,按照设定顺序进行拼接融合,得到文本特征数据。其中,设定顺序可以由技术人员预先统一设置。
S204、根据目标对象生成目标问答数据的答案数据时的行为状态数据,确定行为特征数据。
S205、根据文本特征数据和行为特征数据,确定目标得分。
S206、根据目标得分,对目标对象进行异常识别。
本公开实施例将文本特征数据的生成过程,细化为在预设维度下,对目标问答数据进行异常数据识别,得到数据异常概率;对目标问答数据进行字符统计,得到字符统计数据;根据数据异常概率和字符统计数据中的至少一个,生成文本特征数据,从而完善了文本特征数据的生成方式。同时,通过不同预设维度的数据异常概率以及字符统计数据,进行文本特征数据的生成,丰富了文本特征数据的多样性和全面性,为目标得分确定结果准确度的提升提供了保证,进而为目标对象的异常识别结果准确度的提升奠定了基础。
在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该实施例中,对行为特征数据的确定过程进行了优化改进。
参见图3所示的一种异常识别方法,包括:
S301、提取目标对象的目标问答数据中的文本特征数据。
S302、根据目标对象生成目标问答数据的答案数据时的交互行为数据,确定行为异常概率。
其中,交互行为数据可以包括下属至少一种类型数据:目标问答数据中的答案数据是否一次作答完毕、目标问答数据生成页面是否由设定入口页进入、和目标问答数据的答案数据的输入速度等。其中,设定入口页为目标问答数据生成页面的聚合入口所在页。
示例性的,可以预先设置各类型交互行为数据对应不同数据值时的概率值;将各类交互行为数据的概率值的统计结果,作为行为异常概率。其中,不同数据值对应的概率值的大小可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
例如,若目标问答数据一次作答完毕,则对应异常范围概率,表明答案数据由目标对象复制粘贴得到的可能性高;若目标问答数据至少两次作答完毕,则对应正常范围概率,且作答次数越多概率值越低,表明答案数据由目标对象复制粘贴得到的可能性低。又如,若目标问答数据生成页面由设定入口页进入,则对应正常范围概率,表明目标对象为正常进入该生成页面的可能性高;若目标问答数据生成页面不是设定入口页,则对应异常范围概率,表明目标对象异常进入该生成页面的可能性高。再如,若目标问答数据的输入速度大于设定速度阈值,则对应异常范围概率,表明答案数据由目标对象复制粘贴得到的可能性高;若目标问答数据的输入速度不大于设定速度阈值,则对应正常范围概率,表明答案数据由目标对象正常输入的可能性较高。
在一个具体实现方式中,可以在目标问答数据为一次作答完毕时,设置对应概率为0.5,两次作答完毕时设置对应概率为0.2,至少三次作答完毕时设置对应概率为0。可以在目标问答数据生成页面由设定入口页进入,则设置对应概率为0.05,否则设置对应概率为0.8。可以在目标问答数据的输入速度大于180字/分钟时,设置对应概率为0.8;大于150字/分钟且不大于180字/分钟时,设置对应概率为0.6;大于120字/分钟且不大于150字/分钟时,设置对应概率为0.5;不大于120字/分钟时,设置对应概率为0.05。
在另一可选实施例中,还可以通过将样本对象的样本问答数据生成时的样本交互行为数据作为训练样本,将样本对象生成样本问答数据时的异常标注数据作为标签,对预先构建的行为模型进行训练,得到训练好的行为模型。其中,行为模型可以基于现有的机器学习模型实现,本公开对该行为模型的模型结构不作任何限定。
相应的,将目标对象生成目标问答数据的答案数据时的交互行为数据输入至训练好的行为概率模型中,得到行为异常概率。
S303、根据生成目标问答数据的答案数据时的交互环境信息,确定环境异常概率。
其中,交互环境用于表征目标问答数据生成时的不同维度的周边环境,例如可以包括设备环境和网络环境等中的至少一种。交互环境信息用于表征周边环境的属性值。
在一个可选实施例中,若交互环境包括设备环境,则环境异常概率包括设备异常概率;相应的,可以根据生成目标问答数据的答案数据时的输入设备信息,确定设备异常概率。
示例性的,输入设备信息可以包括生成问答数据时的使用***信息、设备开关机状态、是否属于模拟器、设备使用姿势以及设备移动速度等中的至少一个数据。
在一个具体实现方式中,可以预先将样本对象在生成样本问答数据时的设备信息作为训练数据,将该设备信息的异常标注数据作为标签,对预先构建的设备安全判别模型进行训练。相应的,将目标对象生成目标问答数据的答案数据时的设备信息输入至训练好的设备安全判别模型,得到设备异常概率。其中,设备安全判别模型可以基于现有机器学习模型进行实现,本公开对该设备安全判别模型的模型结构不作任何限定。
在另一可选实施例中,若交互环境包括网络环境,则环境异常概率包括网络异常概率;相应的,可以根据生成目标问答数据的答案数据时的网络环境信息,确定网络异常概率。
示例性的,网络信息可以包括网络类别、网络风险等级、无监督网络聚簇数量、设定时间段内网络出现频次、生成问题数据时的网络与生成答案数据时的网络的共现次数等数据中的至少一种。
在一个具体实现方式中,可以预先将样本对象在生成样本问答数据时的网络信息作为训练数据,将该网络信息的异常标注数据作为标签,对预先构建的网络风险判定模型进行训练。相应的,将目标对象生成目标问答数据的答案数据时的网络信息输入至训练好的网络风险判定模型,得到网络异常概率。其中,网络风险判定模型可以基于现有机器学习模型进行实现,本公开对该网络风险判定模型的模型结构不作任何限定。
可以理解的是,上述技术方案通过将环境异常概率细化为包括设定异常概率和/或网络异常概率,从而丰富了环境异常概率的多样性,并完善了不同环境异常概率的确定机制,为行为特征数据的多样性和全面性奠定了基础,进而为目标得分确定结果准确度的提升提供了数据支撑。
当然,本公开实施例还可以根据实际需求,添加其他维度的交互环境信息,上述内容仅示例性表明交互环境信息的可选维度,不应理解为对交互环境的限定。
S304、根据目标问答数据关联历史时段的历史交互行为数据,确定交互活跃度。
其中,关联历史时段可以理解为目标问答数据生成时刻之前的历史时段,例如可以是相邻历史时段。其中,对关联历史时段的时间长度不作任何限定,可以由技术人员根据需要或经验值进行设定,或通过大量试验反复确定。
其中,历史交互行为数据用于表征目标对象在关联历史时段内相应的活动情况。其中,历史交互行为数据可以包括在历史时段内,目标对象对知识问答社区主页的访问次数、访问时长、访问与目标问答数据的相关问题数据的时长、访问相关问题数据对应答案数据的时长、目标对象的累计提问次数以及回答控件停留时长等数据中的至少一种。其中,回答控件可以理解为进行目标对象生成目标问答数据的答案数据时,需要触发进入答案编辑页面或进行已编辑答案数据提交的控件。
在一个具体实现方式中,可以预先将样本对象生成的样本问答数据的关联历史时段的历史行为数据作为训练数据,对预先构建的活跃度预测模型进行训练。相应的,将目标问答数据关联历史时段的历史交互行为数据输入至训练好的活跃度预测模型,得到交互活跃度。其中,活跃度预测模型可以基于现有机器学习模型进行实现,本公开对该活跃度预测模型的模型结构不作任何限定。
S305、根据行为异常概率、环境异常概率、交互活跃度和目标对象的基础属性数据中的至少一种,生成行为特征数据。
其中,目标对象的基础属性数据可以包括目标对象的账户属性。其中,账户属性可以包括导入账户、活动账户、保护账户和历史封禁账户等中的至少一种。
在一个可选实施例中,可以将基础属性数据进行编码处理,转化为[0,1]区间内的数据。
示例性的,可以将行为异常概率、环境异常概率、交互活跃度概率和基础属性数据中的至少一种,按照设定顺序拼接融合,得到行为特征数据。其中,设定顺序可以由技术人员预先统一设置。
S306、根据文本特征数据和行为特征数据,确定目标得分。
S307、根据目标得分,对目标对象进行异常识别。
需要说明的是,本公开的技术方案中,所涉及的交互行为数据、交互环境信息、历史交互行为数据和目标对象的基础属性数据的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本公开实施例将行为特征数据的生成过程,细化为根据目标对象生成目标问答数据的答案数据时的交互行为数据,确定行为异常概率;根据生成目标问答数据的答案数据时的交互环境信息,确定环境异常概率;根据目标问答数据关联历史时段的历史交互行为数据,确定交互活跃度;根据行为异常概率、环境异常概率、交互活跃度和目标对象的基础属性数据中的至少一种,生成行为特征数据,从而完善了行为特征数据的生成方式。同时,通过不同类别数据进行行为特征数据的生成,丰富了行为特征数据的多样性和全面性,为目标得分确定结果准确度的提升提供了保证,进而为目标对象的异常识别结果准确度的提升奠定了基础。
在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该实施例中,将对目标对象的异常识别过程进行了优化改进。
参见图4所示的一种异常识别方法,包括:
S401、提取目标对象的目标问答数据中的文本特征数据。
S402、根据目标对象生成目标问答数据的答案数据时的行为状态数据,确定行为特征数据。
S403、根据文本特征数据和行为特征数据,确定目标得分。
S404、根据目标对象的历史问答数据的历史目标得分,对目标得分进行更新。
S405、根据更新后的目标得分,对目标对象进行异常识别。
需要说明的是,由于目标对象在生成目标问答数据的答案数据时是否异常,与该目标对象生成历史问答数据的异常情况相关,也即,若目标对象在生成历史问答数据时异常,那么,在生成目标问答数据的答案数据时异常的可能性就更大。为了提高目标对象生成目标问答数据的答案数据时异常检测结果的准确度,在本实施例中,还可以引入目标对象的历史问答数据的历史目标得分,对生成目标问答数据的答案数据时的目标得分,进行优化更新。
其中,历史问答数据可以是生成目标问答数据的答案数据之前所生成的至少一个问答数据。本公开对历史问答数据的数量和具体生成时刻不作任何限定。
在一个可选实施例中,根据目标对象的历史问答数据的历史目标得分,对目标得分进行更新,可以是:确定目标对象的历史问答数据的历史目标得分和目标问答数据的目标得分的加权均值;将加权均值结果作为更新后的目标得分。其中,各历史目标得分和目标得分的权重值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
在一个具体实现方式中,可以选取与目标问答数据生成时刻相邻近的设定数量个历史问答数据的历史目标得分;根据各历史问答数据与目标问答数据的生成时间间隔,确定各历史问答数据的历史目标得分的权重;根据各历史目标得分的权重,确定目标得分的权重;根据各权重值,对历史目标得分和目标得分进行加权求和,得到更新后的目标得分。其中,与目标问答数据的生成时间间隔越小,权重越大。其中,设定数量可以由技术人员根据需要或经验值设定,或通过大量试验反复确定。其中,各历史目标得分和目标得分的权重和为1。
由于目标对象在知识问答社区中的问答数据生成行为并不是一成不变的,目标对象的问答数据生成行为满足一定的衰减特性,也即随着时间的推移,目标对象在知识问答社区中的问答数据生成频率逐渐降低,直至趋于平稳。有鉴于此,在本公开的另一可选实施例中,还可以基于以下方式对目标得分进行更新:根据目标对象的历史问答数据的历史目标得分,确定目标对象的行为衰减因子;根据行为衰减因子,对目标得分进行更新。
可以理解的是,通过引入行为衰减因子对目标得分进行更新,使得更新后的目标得分更符合目标对象的行为活动规律,从而提高了最终确定的目标得分的准确度,进而为异常识别结果准确度的提升奠定了基础。
示例性的,可以对不同时刻的历史问答数据的历史目标得分进行曲线拟合,将曲线拟合结果中的各系数,作为行为衰减因子;相应的,根据所拟合曲线,确定目标问答数据生成时刻的参考得分;将参考得分和目标得分的加权均值,作为更新后的目标得分。其中,参考得分和目标得分的权重,可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
示例性的,可以采用如下公式,确定目标对象的行为衰减因子:
scoren=scoren-1*exp(-a*(tn-tn-1));
其中,a为行为衰减因子,scoren和scoren-1分别为与目标问答数据的答案数据的生成时刻依次相邻的历史时刻tn和tn-1,对应历史问答数据的历史目标得分;
相应的,采用如下公式,对目标得分进行更新:
last_uscore=uscore*exp(-a*(t-tn));
其中,uscore为目标得分,last_uscore为更新后的目标得分,t为所述目标问答数据的答案数据的生成时刻。
值得注意的是,当目标对象在生成目标问答数据的答案数据之前,并未生成历史问答数据,或所生成的历史问答数据数量不足时,将会存在无法进行行为衰减因子确定的情况,此时,可以无需对目标得分进行更新,直接采用根据文本特征数据和行为特征数据所确定的目标得分,对目标对象进行异常行为即可。
需要说明的是,本公开的技术方案中,所涉及的目标对象的历史问答数据的历史目标得分的获取、存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
本公开实施例通过在对目标对象进行异常识别过程中,引入目标对象的历史问答数据的历史目标得分,对目标得分进行更新,从而使得目标得分确定过程,能够参照目标对象的历史行为情况,而非仅依照目标问答数据这一单一生成时刻,从而提高了目标得分确定过程参照数据的丰富性和全面性,进而提高了目标得分确定结果的准确度,为目标对象在目标问答数据生成时刻的异常识别结果的准确度的提高奠定了基础。
在上述各技术方案的基础上,本公开还提供了一个异常识别方法的优选实施例。
参见图5所示的一种异常识别方法的流程框图,用于对目标账户生成目标问答数据的答案数据时,对目标账户进行异常账户识别。该异常账户识别过程基于文本评价模型、行为评价模型、融合评价模型、目标得分更新模块和异常识别模块几个部分实现。
1)文本评价模型
将目标账户的目标问答数据输入至文本评价模型,得到文本特征数据。
其中,文本评价模型中针对不同预设维度设置有不同的数据异常识别子模型,用于确定相应维度的数据异常概率。其中,预设维度包括违禁图片、违禁文本、垃圾图片、垃圾文本、涉政图片、涉政文本、辱骂图片、辱骂文本、广告图片和广告文本等中的至少一种。各预设维度分别对应有独立训练的子模型,各子模型基于现有的机器学习模型进行实现,本公开对各机器学习模型的模型结构不作任何限定。
其中,文本评价模型中还包括统计策略模块,用于统计目标问答数据中问题文字在答案文字中的长度占比、文字数量占比、和标点数量占比,并将各占比数据进行归一化处理。
文本评价模型中还包括融合模块,用于将各子模型输出的数据异常概率和统计策略模块输出的归一化后的占比数据,按照设定顺序拼接融合,得到文本特征数据。
其中,目标账户的目标问答数据是指目标账户生成的答案数据所对应的问答数据。
2)行为评价模型
将目标账户在生成答案数据时的行为状态数据输入至行为评价模型,得到行为特征数据。
其中,行为评价模型中设置有不同功能子模型,用于生成行为特征数据中不同维度的特征数据。
示例性的,行为评价模型中可以包括行为模型,用于确定目标账户的行为异常概率。相应的,将行为状态数据中的交互行为数据,输入至训练好的行为模型,得到行为异常概率。其中,行为模型可以基于现有的机器学习模型进行实现,本公开对各机器学习模型的模型结构不作任何限定。其中,交互行为数据可以包括目标问答数据中的答案数据是否一次作答完毕、目标问答数据生成页面是否由设定入口页进入、和目标问答数据的答案数据的输入速度等。
示例性的,行为评价模型中可以包括设备安全判别模型,用于确定目标账户生成答案数据时的设备异常概率。相应的,将目标账户生成答案数据时的输入设备信息,输入至训练好的设备安全判别模型,得到设备异常概率。其中,设备安全判别模型可以基于现有的机器学习模型进行实现,本公开对各机器学习模型的模型结构不作任何限定。其中,输入设备信息可以包括生成问答数据时的使用***信息、设备开关机状态、是否属于模拟器、设备使用姿势以及设备移动速度等。
示例性的,行为评价模型中可以包括网络风险判定模型,用于确定目标账户生成答案数据时的网络异常概率。相应的,将目标账户生成答案数据时的网络信息,输入至训练好的网络风险判定模型,得到网络异常概率。其中,网络风险判定模型可以基于现有的机器学习模型进行实现,本公开对各机器学习模型的模型结构不作任何限定。其中,网络信息可以包括网络类别、网络风险等级、无监督网络聚簇数量、设定时间段内网络出现频次、生成问题数据时的网络与生成答案数据时的网络的共现次数等。
示例性的,行为评价模型中可以包括活跃度预测模型,用于对目标账户在生成答案数据之前的相邻历史时段内的活跃度进行预测。相应的,将目标账户生成答案数据之前的相邻历史时段内的历史交互行为数据,输入至训练好的活跃度预测模型,得到交互活跃度。其中,活跃度预测模型可以基于现有的机器学习模型进行实现,本公开对各机器学习模型的模型结构不作任何限定。其中,历史交互行为数据可以包括在该相邻历史时段内,目标账户对知识问答社区主页的访问次数、访问时长、访问与目标问答数据的相关问题数据的时长、访问相关问题数据对应答案数据的时长、目标账户的累计提问次数以及回答控件停留时长等数据中的至少一种。其中,回答控件可以理解为进行目标对象生成目标问答数据的答案数据时,需要触发进入答案编辑页面或进行已编辑答案数据提交的控件。
示例性的,行为评价模型中可以包括后置策略模块,用于将目标账户的账户属性进行编码处理。其中,账户属性包括导入账户、活动账户、保护账户和历史封禁账户等。
示例性的,行为评价模型中包括融合模块,用于对行为异常概率、设备异常概率、网络异常概率、交互活跃度、和账户属性编码数据中的至少一个,按照设定顺序拼接融合,得到行为特征数据。
3)融合评价模型
将目标特征数据和行为特征数据,输入至融合评价模型,得到目标账户生成答案数据时的目标得分。其中,融合评价模型基于现有的机器学习模型实现,本公开对各机器学习模型的模型结构不作任何限定。
4)目标得分更新模块
目标得分更新模块,用于对前序生成的目标得分进行更新处理。
示例性的,识别目标账户的得分列表中,是否存在至少两个目标问答数据之前的历史问答数据的历史目标得分;若是,则根据生成时刻相邻的两个历史目标得分,确定行为衰减因子,并根据行为衰减因子更新目标得分;否则,对目标得分不作处理。
示例性的,可以采用如下公式,确定目标对象的行为衰减因子:
scoren=scoren-1*exp(-a*(tn-tn-1));
其中,a为行为衰减因子,scoren和scoren-1分别为与目标问答数据的答案数据的生成时刻依次相邻的历史时刻tn和tn-1,对应历史问答数据的历史目标得分;
相应的,采用如下公式,对目标得分进行更新:
last_uscore=uscore*exp(-a*(t-tn));
其中,uscore为目标得分,last_uscore为更新后的目标得分,t为所述目标问答数据的答案数据的生成时刻。
示例性的,还可以将目标得分添加至目标账户的得分列表中,以便后续使用。
5)异常识别模块
异常识别模型用于对目标账户在生成目标问答数据中的答案数据时,进行账户异常识别。
示例性的,将目标得分更新模块输出的目标得分与预设得分阈值进行比较;若目标得分更新模块输出的目标得分小于预设得分阈值,则确定目标账户在目标问答数据的答案数据生成时刻异常;否则,确定目标账户在目标问答数据的答案数据生成时刻正常。
作为上述各异常识别方法的实现,本公开还提供了一个实施异常识别方法的虚拟装置的可选实施例。
参见图6所示的一种异常识别装置600,包括:文本特征数据提取模块601、行为特征数据确定模块602、目标得分确定模块603和异常识别模块604。其中,
文本特征数据提取模块601,用于提取目标对象的目标问答数据中的文本特征数据;
行为特征数据确定模块602,用于根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;
目标得分确定模块603,用于根据所述文本特征数据和所述行为特征数据,确定目标得分;
异常识别模块604,用于根据所述目标得分,对所述目标对象进行异常识别。
本公开在对目标对象进行异常检测时,通过引入目标问答数据的文本特征数据和行为特征数据,进行目标得分确定,使得目标得分确定过程能够综合考量不同维度的信息,提高了目标得分确定结果的准确度,从而在根据目标得分进行目标对象的异常识别时,提高了异常识别结果的准确度。
在一个可选实施例中,所述文本特征数据提取模块601,包括:
数据异常概率得到单元,用于在预设维度下,对所述目标问答数据进行异常数据识别,得到数据异常概率;
字符统计数据得到单元,用于对所述目标问答数据进行字符统计,得到字符统计数据;
文本特征数据生成单元,用于根据所述数据异常概率和所述字符统计数据中的至少一个,生成所述文本特征数据。
在一个可选实施例中,所述行为特征数据确定模块602,包括:
行为异常概率确定单元,用于根据所述目标对象生成所述目标问答数据的答案数据时的交互行为数据,确定行为异常概率;
环境异常概率确定单元,用于根据生成所述目标问答数据的答案数据时的交互环境信息,确定环境异常概率;
交互活跃度确定单元,用于根据所述目标问答数据关联历史时段的的历史交互行为数据,确定交互活跃度;
行为特征数据生成单元,用于根据所述行为异常概率、所述环境异常概率、所述交互活跃度和所述目标对象的基础属性数据中的至少一种,生成所述行为特征数据。
在一个可选实施例中,所述环境异常概率包括设备异常概率;所述环境异常概率确定单元,包括:
设备异常概率确定子单元,用于根据生成所述目标问答数据的答案数据时的输入设备信息,确定所述设备异常概率;和/或,
所述环境异常概率包括网络异常概率;所述环境异常概率确定单元,包括:
网络异常概率确定子单元,用于根据生成所述目标问答数据的答案数据时的网络环境信息,确定所述网络异常概率。
在一个可选实施例中,所述异常识别模块604,包括:
目标得分更新单元,用于根据所述目标对象的历史问答数据的历史目标得分,对所述目标得分进行更新;
异常识别单元,用于根据更新后的目标得分,对所述目标对象进行异常识别。
在一个可选实施例中,所述目标得分更新单元,包括:
行为衰减因子确定子单元,用于根据所述目标对象的历史问答数据的历史目标得分,确定所述目标对象的行为衰减因子;
目标得分更新子单元,用于根据所述行为衰减因子,对所述目标得分进行更新。
在一个可选实施例中,所述行为衰减因子确定子单元,包括:
行为衰减因子确定从单元,用于采用如下公式确定所述目标对象的行为衰减因子:
scoren=scoren-1*exp(-a*(tn-tn-1));
其中,a为所述行为衰减因子,scoren和scoren-1分别为与所述目标问答数据的答案数据的生成时刻依次相邻的历史时刻tn和tn-1,对应历史问答数据的历史目标得分;
所述目标得分更新子单元,包括:
目标得分更新从单元,用于采用如下公式,对所述目标得分进行更新:
last_uscore=uscore*exp(-a*(t-tn));
其中,uscore为目标得分,last_uscore为更新后的目标得分,t为所述目标问答数据的答案数据的生成时刻。
上述异常识别装置可执行本公开任意实施例所提供的异常识别方法,具备执行异常识别方法相应的功能模块和有益效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如异常识别方法。例如,在一些实施例中,异常识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的异常识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行异常识别方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式***的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作***、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (12)

1.一种异常识别方法,包括:
提取目标对象的目标问答数据中的文本特征数据;
根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;
根据所述文本特征数据和所述行为特征数据,确定目标得分;
采用如下公式确定所述目标对象的行为衰减因子:
scoren = scoren-1 * exp( -a * ( tn - tn-1 ));
其中,a为所述行为衰减因子,scoren和scoren-1分别为与所述目标问答数据的答案数据的生成时刻依次相邻的历史时刻tn和tn-1,对应历史问答数据的历史目标得分;
根据所述行为衰减因子,对所述目标得分进行更新;
根据更新后的目标得分,对所述目标对象进行异常识别。
2.根据权利要求1所述的方法,其中,所述提取目标对象的目标问答数据中的文本特征数据,包括:
在预设维度下,对所述目标问答数据进行异常数据识别,得到数据异常概率;
对所述目标问答数据进行字符统计,得到字符统计数据;
根据所述数据异常概率和所述字符统计数据中的至少一个,生成所述文本特征数据。
3.根据权利要求1所述的方法,其中,所述根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据,包括:
根据所述目标对象生成所述目标问答数据的答案数据时的交互行为数据,确定行为异常概率;
根据生成所述目标问答数据的答案数据时的交互环境信息,确定环境异常概率;
根据所述目标问答数据关联历史时段的历史交互行为数据,确定交互活跃度;
根据所述行为异常概率、所述环境异常概率、所述交互活跃度和所述目标对象的基础属性数据中的至少一种,生成所述行为特征数据。
4.根据权利要求3所述的方法,其中,所述环境异常概率包括设备异常概率;所述根据生成所述目标问答数据的答案数据时的交互环境信息,确定环境异常概率,包括:
根据生成所述目标问答数据的答案数据时的输入设备信息,确定所述设备异常概率;和/或,
所述环境异常概率包括网络异常概率;所述根据生成所述目标问答数据的答案数据时的交互环境信息,确定环境异常概率,包括:
根据生成所述目标问答数据的答案数据时的网络环境信息,确定所述网络异常概率。
5.根据权利要求1-4任一项所述的方法,其中,所述根据所述行为衰减因子,对所述目标得分进行更新,包括:
采用如下公式,对所述目标得分进行更新:
last_uscore = uscore * exp( -a * ( t - tn));
其中,uscore为目标得分,last_uscore为更新后的目标得分,t为所述目标问答数据的答案数据的生成时刻。
6.一种异常识别装置,包括:
文本特征数据提取模块,用于提取目标对象的目标问答数据中的文本特征数据;
行为特征数据确定模块,用于根据所述目标对象生成所述目标问答数据的答案数据时的行为状态数据,确定行为特征数据;
目标得分确定模块,用于根据所述文本特征数据和所述行为特征数据,确定目标得分;
异常识别模块,用于根据所述目标得分,对所述目标对象进行异常识别;
其中,所述异常识别模块,包括:
目标得分更新单元,用于根据所述目标对象的历史问答数据的历史目标得分,对所述目标得分进行更新;
异常识别单元,用于根据更新后的目标得分,对所述目标对象进行异常识别;
其中,所述目标得分更新单元,包括:
行为衰减因子确定子单元,用于根据所述目标对象的历史问答数据的历史目标得分,确定所述目标对象的行为衰减因子;
目标得分更新子单元,用于根据所述行为衰减因子,对所述目标得分进行更新;
其中,所述行为衰减因子确定子单元,包括:
行为衰减因子确定从单元,用于采用如下公式确定所述目标对象的行为衰减因子:
scoren = scoren-1 * exp( -a * ( tn - tn-1 ));
其中,a为所述行为衰减因子,scoren和scoren-1分别为与所述目标问答数据的答案数据的生成时刻依次相邻的历史时刻tn和tn-1,对应历史问答数据的历史目标得分。
7.根据权利要求6所述的装置,其中,所述文本特征数据提取模块,包括:
数据异常概率得到单元,用于在预设维度下,对所述目标问答数据进行异常数据识别,得到数据异常概率;
字符统计数据得到单元,用于对所述目标问答数据进行字符统计,得到字符统计数据;
文本特征数据生成单元,用于根据所述数据异常概率和所述字符统计数据中的至少一个,生成所述文本特征数据。
8.根据权利要求6所述的装置,其中,所述行为特征数据确定模块,包括:
行为异常概率确定单元,用于根据所述目标对象生成所述目标问答数据的答案数据时的交互行为数据,确定行为异常概率;
环境异常概率确定单元,用于根据生成所述目标问答数据的答案数据时的交互环境信息,确定环境异常概率;
交互活跃度确定单元,用于根据所述目标问答数据关联历史时段的历史交互行为数据,确定交互活跃度;
行为特征数据生成单元,用于根据所述行为异常概率、所述环境异常概率、所述交互活跃度和所述目标对象的基础属性数据中的至少一种,生成所述行为特征数据。
9.根据权利要求8所述的装置,其中,所述环境异常概率包括设备异常概率;所述环境异常概率确定单元,包括:
设备异常概率确定子单元,用于根据生成所述目标问答数据的答案数据时的输入设备信息,确定所述设备异常概率;和/或,
所述环境异常概率包括网络异常概率;所述环境异常概率确定单元,包括:
网络异常概率确定子单元,用于根据生成所述目标问答数据的答案数据时的网络环境信息,确定所述网络异常概率。
10. 根据权利要求6-9任一项所述的装置,其中, 所述目标得分更新子单元,包括:
目标得分更新从单元,用于采用如下公式,对所述目标得分进行更新:
last_uscore = uscore * exp( -a * ( t - tn));
其中,uscore为目标得分,last_uscore为更新后的目标得分,t为所述目标问答数据的答案数据的生成时刻。
11. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的一种异常识别方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的一种异常识别方法。
CN202110633642.5A 2021-06-07 2021-06-07 异常识别方法、装置、设备和存储介质 Active CN113360617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110633642.5A CN113360617B (zh) 2021-06-07 2021-06-07 异常识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110633642.5A CN113360617B (zh) 2021-06-07 2021-06-07 异常识别方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113360617A CN113360617A (zh) 2021-09-07
CN113360617B true CN113360617B (zh) 2023-08-04

Family

ID=77532880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110633642.5A Active CN113360617B (zh) 2021-06-07 2021-06-07 异常识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113360617B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778719B (zh) * 2021-09-16 2024-02-02 北京中科智眼科技有限公司 基于复制粘贴的异常检测算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767371A (zh) * 2020-06-28 2020-10-13 微医云(杭州)控股有限公司 一种智能问答方法、装置、设备及介质
WO2020232877A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 一种问题答案选取方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232877A1 (zh) * 2019-05-21 2020-11-26 平安科技(深圳)有限公司 一种问题答案选取方法、装置、计算机设备及存储介质
CN111767371A (zh) * 2020-06-28 2020-10-13 微医云(杭州)控股有限公司 一种智能问答方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Interactive Text Visualization with Text Variation Explorer;Harri Siirtola;IEEE;全文 *

Also Published As

Publication number Publication date
CN113360617A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
US20230040095A1 (en) Method for pre-training model, device, and storage medium
CN112487173B (zh) 人机对话方法、设备和存储介质
US20230073550A1 (en) Method for extracting text information, electronic device and storage medium
CN112446210A (zh) 用户性别预测方法、装置及电子设备
US20230283582A1 (en) Topic overlap detection in messaging systems
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
EP3992814A2 (en) Method and apparatus for generating user interest profile, electronic device and storage medium
CN114399772B (zh) 样本生成、模型训练和轨迹识别方法、装置、设备和介质
CN113360617B (zh) 异常识别方法、装置、设备和存储介质
CN113312451B (zh) 文本标签确定方法和装置
CN112507705B (zh) 一种位置编码的生成方法、装置及电子设备
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
CN115577106A (zh) 基于人工智能的文本分类方法、装置、设备和介质
CN114792097A (zh) 预训练模型提示向量的确定方法、装置及电子设备
CN113051926A (zh) 文本抽取方法、设备和存储介质
CN115840867A (zh) 数学解题模型的生成方法、装置、电子设备和存储介质
CN113886543A (zh) 生成意图识别模型的方法、装置、介质及程序产品
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN114969326B (zh) 分类模型训练、语义分类方法、装置、设备和介质
US11100412B2 (en) Extending question and answer samples
US12026465B2 (en) Method and system for classifying word as obscene word
CN117077656B (zh) 论证关系挖掘方法、装置、介质及电子设备
CN113591464B (zh) 变体文本检测方法、模型训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant