CN115269830A - 异常文本检测模型训练方法、异常文本检测方法及装置 - Google Patents
异常文本检测模型训练方法、异常文本检测方法及装置 Download PDFInfo
- Publication number
- CN115269830A CN115269830A CN202210590192.0A CN202210590192A CN115269830A CN 115269830 A CN115269830 A CN 115269830A CN 202210590192 A CN202210590192 A CN 202210590192A CN 115269830 A CN115269830 A CN 115269830A
- Authority
- CN
- China
- Prior art keywords
- text
- training
- time
- classification
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 377
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 223
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 128
- 238000013145 classification model Methods 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 34
- 230000011218 segmentation Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000001976 improved effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种异常文本检测模型训练方法、异常文本检测方法及装置,本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等场景,方法包括:获取包括训练文本和训练文本的分类标签的训练样本集,训练文本中用于表示时间的字符被替换为预设字符,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签,第一时间在当前时间之前,在任一次训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率,根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件,将得到的文本分类模型输出为异常文本检测模型。
Description
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种异常文本检测模型训练方法、异常文本检测方法及装置。
背景技术
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。NLP常用于文本数据的分类。文本分类是指根据文本数据内容对其进行分类,被广泛应用于异常文本检测。
异常文本检测技术是为了发现文本数据集中显著不同于其它文本数据的对象。相关技术中,通过预存关键词,对待检测的文本内容进行识别,将与预存关键词匹配的文本内容确定为异常的文本内容。
然而,预存关键词的数量有限,上述方法有一定的局限性,异常文本检测的准确性较低。
发明内容
本申请提供一种异常文本检测模型训练方法、异常文本检测方法及装置,可以提高异常文本检测的准确性。
第一方面,本申请提供一种异常文本检测模型训练方法,包括:
获取训练样本集,所述训练样本集包括训练文本和所述训练文本的分类标签,所述训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在所述第一时间之后的训练文本的分类标签为第二分类标签,所述第一时间在当前时间之前;
根据所述训练样本集进行文本分类模型训练,在任一次训练过程中,以所述训练文本为文本分类模型的输入,输出所述训练文本的分类预测概率;
根据所述训练文本的分类预测概率与所述训练文本的分类标签,对所述文本分类模型的参数进行调整,直到满足停止训练条件;
将满足所述停止训练条件所确定的文本分类模型输出为异常文本检测模型。
第二方面,本申请提供一种异常文本检测方法,包括:
接收到检测指令后,获取待检测文本集,所述待检测文本集包括产生时间在当前时间之前的文本,所述检测指令携带第一时间段;
根据所述第一时间段确定与第一时间对应的异常文本检测模型,所述异常文本检测模型根据第一方面所述的方法训练得到,所述第一时间为与当前时间之间的时间间隔为所述第一时间段的时间点;
将所述待检测文本集中的每个文本依次输入所述异常文本检测模型,得到每个文本的分类预测概率;
根据所述每个文本的分类预测概率,将分类标签为第二分类标签且所述分类预测概率大于第一预设阈值的目标文本确定为所述第一时间段内的异常文本,所述异常文本为所述待检测文本集中在所述第一时间之前未出现过的文本,产生时间在所述第一时间之后的文本的分类标签为所述第二分类标签。
第三方面,本申请提供一种异常文本检测模型训练装置,包括:
获取模块,用于获取训练样本集,所述训练样本集包括训练文本和所述训练文本的分类标签,所述训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在所述第一时间之后的训练文本的分类标签为第二分类标签,所述第一时间在当前时间之前;
处理模块,用于根据所述训练样本集进行文本分类模型训练,在任一次训练过程中,以所述训练文本为文本分类模型的输入,输出所述训练文本的分类预测概率;
调整模块,用于根据所述训练文本的分类预测概率与所述训练文本的分类标签,对所述文本分类模型的参数进行调整,直到满足停止训练条件;
输出模块,用于将满足所述停止训练条件所确定的文本分类模型输出为异常文本检测模型。
第四方面,本申请提供一种异常文本检测装置,包括:
获取模块,用于在接收到检测指令后,获取待检测文本集,所述待检测文本集包括产生时间在当前时间之前的文本,所述检测指令携带第一时间段;
第一确定模块,用于根据所述第一时间段确定与第一时间对应的异常文本检测模型,所述异常文本检测模型根据第一方面所述的方法训练得到,所述第一时间为与当前时间之间的时间间隔为所述第一时间段的时间点;
处理模块,用于将所述待检测文本集中的每个文本依次输入所述异常文本检测模型,得到每个文本的分类预测概率;
第二确定模块,用于根据所述每个文本的分类预测概率,将分类标签为第二分类标签且所述分类预测概率大于第一预设阈值的目标文本确定为所述第一时间段内的异常文本,所述异常文本为所述待检测文本集中在所述第一时间之前未出现过的文本,产生时间在所述第一时间之后的文本的分类标签为所述第二分类标签。
第五方面,本申请提供一种计算机设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,以执行第一方面或第二方面的方法。
第六方面,本申请提供一种计算机可读存储介质,包括指令,当其在计算机程序上运行时,使得所述计算机执行如第一方面或第二方面的方法。
第七方面,本申请提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使得所述计算机执行如第一方面或第二方面的方法。
综上,在本申请中,通过在获取训练样本集时,训练样本集包括训练文本和训练文本的真实分类标签,将训练文本中用于表示时间的字符替换为预设字符,通过一个时间点来确定训练文本的真实分类标签,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签。在根据训练样本集进行文本分类模型训练时,在任一训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率,根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件,最终训练出的文本分类模型为异常文本检测模型。由于将训练文本中用于表示时间的字符替换为预设字符,因此训练文本中不包含时间信息,通过产生时间在第一时间的前后来确定训练文本的真实分类标签,使用通过上述处理的训练文本训练文本分类模型,可使得训练出的文本分类模型能够通过训练文本的语义信息,从当前时间之前产生的待检测文本集中检测出第一时间至当前时间内的异常文本,此处的异常文本为待检测文本集中在第一时间之前未出现过的文本。相比较使用通过预存关键词的方式进行异常文本识别,本申请实施例提供的异常文本检测模型训练方法所训练的异常文本检测模型,可提高异常文本检测的准确性,且适用范围广。
进一步地,在本申请中,通过在接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,根据检测指令携带的第一时间段确定与第一时间对应的异常文本检测模型,将待检测文本集中的每个文本依次输入异常文本检测模型,得到每个文本的分类预测概率,根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本。从而,提高了异常文本检测的准确性,且适用范围广。
更进一步地,通过从待检测文本集中检测出第一时间段内的异常文本后,对第一时间段内的异常文本中的每条文本进行分词,得到分词集合,再根据分词集合中每个分词的 TF-IDF值和每个分词的后验概率,筛选出第一时间段内的异常文本中的关键词并输出,便于用户根据关键词进行全方位控制和分析,例如根据关键词查找对应的异常文本,缩小查看异常文本的数量,提高处理效率。
附图说明
图1为本申请实施例提供的一种异常文本检测模型训练方法以及异常文本检测方法的实施场景示意图;
图2是本申请实施例提供的分布式***100应用于区块链***的一个可选的结构示意图;
图3是本申请实施例提供的区块结构一个可选的示意图;
图4为本申请实施例提供的一种异常文本检测模型训练方法的流程图;
图5为本申请实施例提供的一种异常文本检测模型训练方法的流程图;
图6为本申请实施例提供的一种异常文本检测模型训练方法的流程示意图;
图7为本申请实施例提供的一种异常文本检测方法的流程图;
图8为本申请实施例提供的一种异常文本检测方法的流程图;
图9为本申请实施例提供的一种异常文本检测模型训练装置的结构示意图;
图10为本申请实施例提供的一种异常文本检测装置的结构示意图;
图11是本申请实施例提供的计算机设备700的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在介绍本申请技术方案之前,下面先对本申请相关知识进行介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
神经网络(Neural Network,NN):在机器学习和认知科学领域的一种模仿生物神经网络结构和功能的深度学习模型。
预训练:一种通过使用大型数据集对神经网络模型进行训练,使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。本申请实施例中预训练可以指利用无标签训练文本训练BERT模型的过程。
微调:一种使用特定数据集对预训练神经网络模型进行进一步训练的过程。通常情况下,微调阶段所使用的数据集的数据量小于预训练阶段所使用数据集的数据量,且微调阶段所使用数据集中的训练样本包含标注信息。本申请实施例中的微调是指利用包含分类标签的训练文本训练BERT模型(预训练的BERT模型)的过程。
相关技术中,异常文本检测的准确性较低。为解决这一问题,本申请通过训练异常文本检测模型,在训练该模型时,获取训练样本集,训练样本集包括训练文本和训练文本的真实分类标签,训练文本中用于表示时间的字符被替换为预设字符,通过一个时间点来确定训练文本的真实分类标签,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签。在根据训练样本集进行文本分类模型训练时,在任一训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率,根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件,最终训练出的文本分类模型为异常文本检测模型。由于将训练文本中用于表示时间的字符替换为预设字符,因此训练文本中不包含时间信息,通过产生时间在第一时间的前后来确定训练文本的真实分类标签,使用通过上述处理的训练文本训练文本分类模型,可使得训练出的文本分类模型能够通过训练文本的语义信息,从当前时间之前产生的待检测文本集中检测出第一时间至当前时间内的异常文本,此处的异常文本为待检测文本集中在第一时间之前未出现过的文本。相比较使用通过预存关键词的方式进行异常文本识别,本申请实施例提供的异常文本检测模型训练方法所训练的异常文本检测模型,可提高异常文本检测的准确性,且适用范围广。
进一步地,通过本申请实施例提供的异常文本检测模型训练方法所训练的异常文本检测模型,从待检测文本集中检测出第一时间段内的异常文本后,对第一时间段内的异常文本中的每条文本进行分词,得到分词集合,再根据分词集合中每个分词的TF-IDF值和每个分词的后验概率,筛选出第一时间段内的异常文本中的关键词并输出,便于用户根据关键词进行全方位控制和分析,例如根据关键词查找对应的异常文本,缩小查看异常文本的数量,提高处理效率。
本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。
下面将对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,下面介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
本申请实施例提供的异常文本检测模型训练方法以及异常文本检测方法,可应用于文本信息的分类场景,下面结合几种应用场景进行说明。
1、电子支付应用场景中,需要检测近期出现的异常投诉。
电子支付应用场景中,本申请实施例提供的异常文本检测模型训练方法以及异常文本检测方法可应用于电子支付服务器。为了能够检测近期出现的异常投诉(即异常文本),电子支付服务器首先根据当前时间之前的历史文本数据获取训练样本集,训练样本集包括训练文本和训练文本的分类标签。获取训练样本集的过程具体可以为:确定第一时间,获取当前时间之前的历史文本数据,历史文本数据包括文本信息和文本信息的产生时间,将文本信息中用于表示时间的字符替换为预设字符,得到训练文本,根据训练文本的产生时间和第一时间确定训练文本的分类标签,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签。接着,电子支付服务器根据训练样本集进行文本分类模型训练,训练出异常文本检测模型。在模型应用阶段,电子支付服务器在接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,检测指令携带第一时间段,将待检测文本集中的每个文本依次输入文本分类模型,得到每个文本的分类预测概率,根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本。从而,可检测出近期出现的异常投诉(即异常文本)。
2、文本内容审核场景,需要审核出近期出现的异常文本内容
文本内容审核场景包括但不限于社交平台发布内容审核、评论内容审核、社交信息审核、多媒体文件描述信息审核等等。以社交平台发布内容审核为例,本申请实施例提供的异常文本检测模型训练方法以及异常文本检测方法可应用于服务器。服务器需要审核出近期发布的异常文本内容,首先根据当前时间之前的历史文本数据获取训练样本集,训练样本集包括训练文本和训练文本的分类标签。获取训练样本集的过程具体可以为:确定第一时间,获取当前时间之前的历史文本数据,历史文本数据包括文本信息和文本信息的产生时间(即发布时间),将文本信息中用于表示时间的字符替换为预设字符,得到训练文本,根据训练文本的产生时间和第一时间确定训练文本的分类标签,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签。接着,服务器根据训练样本集进行文本分类模型训练,训练出异常文本检测模型。在模型应用阶段,服务器在接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,检测指令携带第一时间段,将待检测文本集中的每个文本依次输入文本分类模型,得到每个文本的分类预测概率,根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本。从而,可检测出近期发布的异常文本内容。
上述仅以几种常见的应用场景为例进行示意性说明,本申请实施例提供的方法还可以应用于其他需要对文本内容进行异常检测或分类的场景,本申请实施例并不对实际应用场景构成限定。
示例性的,图1为本申请实施例提供的一种异常文本检测模型训练方法以及异常文本检测方法的实施场景示意图,如图1所示,本申请实施例的实施场景涉及服务器1和用户终端2,用户终端2可以通过通信网络与服务器1进行数据通信。
其中,在一些可实现方式中,用户终端2是指一类具备丰富人机交互方式、拥有接入互联网能力、通常搭载各种操作***、具有较强处理能力的设备。用户终端可以是智能手机、平板电脑、便携式笔记本电脑、台式电脑等用户终端或电话手表等,但不限于此。可选的,本申请实施例中,用户终端2中安装有电子支付应用程序或者安装有具备电子支付功能的应用程序。
其中,在一些可实现方式中,用户终端2包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
图1中的服务器1可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。本申请对此不做限制。本申请实施例中,服务器1可以为用户终端2中电子支付应用程序的后台服务器。
在一些可实现方式中,图1示例性地示出了一个用户终端、一台服务器,实际上可以包括其他数量的用户终端和服务器,本申请对此不做限制。
示例性地,用户终端2上可以安装并运行具备电子支付功能的目标应用程序,用户可操作用户终端2上安装的目标应用程序来实现电子支付服务,服务器1可处理用户终端2发送的电子支付请求,可以存储对应的支付信息,可选的,还可以接收用户通过用户终端 2发送的对商户的投诉信息,该投诉信息可以包括被投诉的商户的名称和投诉原因,服务器1可以接收并存储这些投诉信息,可以理解的是,投诉信息的数据量较大。进一步,服务器1可以检测出这些投诉信息中近期出现的异常投诉,便于电子支付开发人员或运维人员根据异常投诉进行相应的处理。
本申请实施例涉及的***可以是由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式***。
以分布式***为区块链***为例,参见图2,图2是本申请实施例提供的分布式*** 100应用于区块链***的一个可选的结构示意图,由多个节点200(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端300形成,节点之间形成点对点(P2P, PeerTo Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。在分布式***中,任何机器如服务器、用户终端都可以加入而成为节点,节点包括硬件层、中间层、操作***层和应用层。
参见图2示出的区块链***中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链***中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链***中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链***中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链***中节点提交的记录数据。
参见图3,图3是本申请实施例提供的区块结构(Block Structure)一个可选的示意图,每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值,各区块通过哈希值连接形成区块链。另外,区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了相关的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
下面将对本申请技术方案进行详细阐述:
图4为本申请实施例提供的一种异常文本检测模型训练方法的流程图,该方法的执行主体可以是服务器,如图4所示,该方法可以包括:
S101、获取训练样本集,训练样本集包括训练文本和训练文本的分类标签,训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签,第一时间在当前时间之前。
具体地,第一时间在当前时间之前,第一时间例如为距当前时间的时间段为预设时间段的时间,预设时间段例如为一周、半个月、一个月或其它时间等等。其中,可选的,第一时间可以是根据预设时间段确定,还可以是根据模型训练指令中携带的第一时间段确定。
作为一种可实施的方式,S101中获取训练样本集,具体可以包括:
S1011、确定第一时间。
可选的,确定第一时间具体可以为:接收模型训练指令,模型训练指令携带第一时间段;或者,将预设时间段确定为第一时间段。将时间间隔与当前时间为第一时间段的时间点确定为第一时间。例如,第一时间段为一个月,第一时间则为距当前时间一个月的时间点。
S1012、获取当前时间之前的历史文本数据,历史文本数据包括文本信息和文本信息的产生时间。
具体地,历史文本数据可以是预设时间节点至当前时间之间产生的所有文本信息,预设时间节点例如为一年前、两年前等等。
S1013、将文本信息中用于表示时间的字符替换为预设字符,得到训练文本。
具体地,例如,将文本信息中用于表示时间的字符均替换为预设字符“捌”或者“8”。作为一种可实施的方式,S1013具体可以是将文本信息中的大写数字和小写数字分别用单一文字或者符号进行替换,并且合并数字。例如一条文本信息为“不知道什么情况,10月1日自动扣款648元”,若分别使用预设字符“8”替换该文本信息中的大写数字和小写数字,并合并数字,得到的训练文本为:“不知道什么情况,8月8日自动扣款8元”。若分别使用预设字符“捌”替换该文本信息中的大写数字和小写数字,并合并数字,得到的训练文本为:“不知道什么情况,捌月捌日自动扣款捌元”。
S1014、根据训练文本的产生时间和第一时间确定训练文本的分类标签。
具体地,第一时间确定后,训练文本也确定后,根据训练文本的产生时间和第一时间即可确定训练文本的分类标签。例如,将产生时间在第一时间之前的训练文本的分类标签确定为第一分类标签,将产生时间在第一时间之后的训练文本的分类标签确定为第二分类标签。可选的,第一分类标签为0,第二分类标签为1。
S102、根据训练样本集进行文本分类模型训练,在任一次训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率。
可选地,本实施例中的文本分类模型用于:提取训练文本的语义信息,将语义信息转化为向量,将向量使用全连接层转化为标量,使用激活函数对标量进行转换,得到训练文本的分类预测概率。
其中,文本分类模型可以是文本卷积神经网络(textCNN)模型或来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformer,BERT)模型,可选的,文本分类模型可以为预训练的BERT模型。
其中,训练文本的分类预测概率可以为训练文本分类标签是第一分类标签的预测概率或第二分类标签的预测概率,具体为0-1之间的数值。
S103、根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件。
可选的,S103中根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,具体可以为:
S1031、根据训练文本的分类预测概率与训练文本的分类标签,构建损失函数,根据损失函数,反向传播调整文本分类模型的参数。
其中,可选的,损失函数可以为交叉熵损失函数,以损失函数为交叉熵损失函数为例,yi为训练样本的分类标签,即为真实的分类标签,yi'为训练文本的分类预测概率,根据训练文本的分类预测概率与训练文本的分类标签构建的损失函数可以为如下公式(1)所示:
其中,CE(yi,yi')=-yi logyi'-(1-yi)log((1-yi')),batch_size为任一次训练时使用的训练样本的数量。
其中,训练停止条件可以是预设的训练停止条件。
作为一种可实施的方式,在根据训练样本集进行文本分类模型训练时,可以先将训练样本集切分为训练集和验证集,切分方式可以采用随机切分,例如训练集占70%,验证集占30%。使用训练集进行文本分类模型训练,并在训练迭代过程中,每隔预设次数计算文本分类模型在训练集和验证集上各自的准确率(AUC)。在训练集上的AUC超过验证集的AUC预设数值(例如为2%)且验证集的AUC不再增长时停止训练,并记录此时验证集的AUC为CAUC。接着使用全量数据(即未切分的训练样本集)进行文本分类模型的重新训练,当所训练的文本分类模型的AUC大于CAUC的预设倍数(例如为2%)时停止训练,即本实施方式中训练停止条件为训练的文本分类模型的AUC大于CAUC的预设倍数则停止训练。
S104、将满足停止训练条件所确定的文本分类模型输出为异常文本检测模型。
本实施例提供的异常文本检测模型训练方法,通过在获取训练样本集时,训练样本集包括训练文本和训练文本的真实分类标签,将训练文本中用于表示时间的字符替换为预设字符,通过一个时间点来确定训练文本的真实分类标签,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签。在根据训练样本集进行文本分类模型训练时,在任一训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率,根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件,最终训练出的文本分类模型为异常文本检测模型。由于将训练文本中用于表示时间的字符替换为预设字符,因此训练文本中不包含时间信息,通过产生时间在第一时间的前后来确定训练文本的真实分类标签,使用通过上述处理的训练文本训练文本分类模型,可使得训练出的文本分类模型能够通过训练文本的语义信息,从当前时间之前产生的待检测文本集中检测出第一时间至当前时间内的异常文本,此处的异常文本为待检测文本集中在第一时间之前未出现过的文本。相比较使用通过预存关键词的方式进行异常文本识别,本申请实施例提供的异常文本检测模型训练方法所训练的异常文本检测模型,可提高异常文本检测的准确性,且适用范围广。
下面结合图5以文本分类模型为预训练好的BERT模型为例,在训练预训练好的BERT 模型时微调,详细说明异常文本检测模型训练的过程。图5为本申请实施例提供的一种异常文本检测模型训练方法的流程图,该方法的执行主体可以是服务器,如图5所示,该方法可以包括:
S201、获取训练样本集,训练样本集包括训练文本和训练文本的分类标签,训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签,第一时间在当前时间之前。
其中,S201与S101的过程相同,详细过程可参见S101的描述,此处不再赘述。
S202、根据训练样本集进行BERT模型训练,在任一次训练过程中,以训练文本为BERT模型的输入,输出训练文本的分类预测概率。
图6为本申请实施例提供的一种异常文本检测模型训练方法的流程示意图,如图6所示,在任一次训练过程中,将训练文本输入BERT模型,BERT模型提取训练文本的语义信息,将语义信息转化为向量。可选的,为防止模型过拟合,可以添加随机丢弃(dropout) 层,该向量通过dropout层(即在训练时对向量进行预设概率(如15%)的随机禁用),再将向量用全连接层(MLP层)转换为标量,接着使用激活函数(sigmoid函数)对该标量进行转换,得到训练文本的分类预测概率。通过添加dropout层,防止模型过拟合。
例如训练文本的分类预测概率yi'为:
yi'=sigmoid(MLP(dropout(textclassifier(xi),0.15)))
其中,0.15为预设概率。
S203、根据训练文本的分类预测概率与训练文本的分类标签,构建损失函数,根据损失函数,反向传播调整文本分类模型的参数,直到满足停止训练条件。
具体地,在一种可实施的方式中,结合图6,根据训练文本的分类预测概率与训练文本的分类标签,计算每个训练文本的分类预测概率与每个训练文本的分类标签的交叉熵(cross entropy),并将所得结果与训练样本的权重相乘,最后计算所有训练样本的带权交叉熵之和,即为上述公式(1)所表示的损失函数。
其中,停止训练条件可以是上述实施例中的:训练的文本分类模型的AUC大于CAUC的预设倍数则停止训练,详细可参见上述实施例,此处不再赘述。
S204、将满足停止训练条件所确定的BERT模型输出为异常文本检测模型。
图7为本申请实施例提供的一种异常文本检测方法的流程图,该方法的执行主体可以是服务器,如图7所示,该方法可以包括:
S301、接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,检测指令携带第一时间段。
其中,待检测文本集包括产生时间在当前时间之前的文本,具体可以是预设时间节点至当前时间之间产生的所有文本信息,预设时间节点例如为半年前、一年前、两年前等等。
其中,第一时间段例如为一周、一个月等等。
S302、根据第一时间段确定与第一时间对应的异常文本检测模型,第一时间为与当前时间之间的时间间隔为第一时间段的时间点。
其中,异常文本检测模型根据图4或图5所示的方法训练得到。
作为一种可实施的方式,S302中根据第一时间段确定与第一时间对应的异常文本检测模型,具体可以为:
S3021、将时间间隔与当前时间为第一时间段的时间点确定为第一时间。
S3022、根据第一时间进行异常文本检测模型的训练。
S3023、将训练得到的异常文本检测模型确定为与第一时间对应的异常文本检测模型。
上述实施方式是在线训练的方式,即接收到检测指令后,先进行异常文本检测模型的训练,具体的训练过程可参见图2所示的实施例描述的过程。
作为另一种可实施的方式,S302中根据第一时间段确定与第一时间对应的异常文本检测模型,具体可以为:
S3021’、将时间间隔与当前时间为第一时间段的时间点确定为第一时间。
S3022’、从预先训练的异常文本检测模型集合中,确定出与第一时间对应的异常文本检测模型。
具体地,例如可以预先训练不同的第一时间对应的异常文本检测模型并存储在常文本检测模型集合中,在接收到检测指令后,先根据检测指令携带的第一时间段确定第一时间,然后从预存的异常文本检测模型集合中,确定出与第一时间对应的异常文本检测模型。
S3023’、将确定出的异常文本检测模型确定为与第一时间对应的异常文本检测模型。
该实施例方式可以称为异常文本检测模型离线的获取方式,两种方式相比,在线训练的方式准确性更高,因为采用的训练文本与检测文本更接近,离线获取的方式复杂度低,用时少。
S303、将待检测文本集中的每个文本依次输入异常文本检测模型,得到每个文本的分类预测概率。
S304、根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本,产生时间在第一时间之后的文本的分类标签为第二分类标签。
具体来说,可选的,第一预设阈值例如为0.8,则根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于0.8的目标文本确定为第一时间段内的异常文本,其中,产生时间在第一时间之后的文本的分类标签为第二分类标签。
作为一种可实施的方式,S304中根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,具体可以为:
S3041、根据每个文本的分类预测概率,将待检测文本集划分为第一文本集合、第二文本集合和第三文本集合。
其中,第一文本集合中的文本的分类预测概率大于0且小于或等于第一阈值,第二文本集合中的文本的分类预测概率大于第一阈值且小于或等于第二阈值,第三文本集合中的文本的分类预测概率大于第二阈值,第一阈值小于第二阈值。
其中,例如第一阈值为0-0.2之间的数值,第二阈值为0.5-0.8之间的数值。
S3042、确定第一文本集合中分类标签为第二分类标签的文本的占比、第二文本集合中分类标签为第二分类标签的文本的占比以及第三文本集合中分类标签为第二分类标签的文本的占比。
S3043、将第一文本集合、第二文本集合和第三文本集合中占比大于第一预设阈值的文本集合中的文本确定为目标文本。
进一步地,在一种可实施的方式中,本实施例方法还可以包括:
S305、对第一时间段内的异常文本中的每条文本进行分词,得到分词集合。
具体地,可以使用分词工具对第一时间段内的异常文本中的每条文本进行分词,得到分词集合。
S306、计算分词集合中每个分词的TF-IDF值和每个分词的后验概率。
可选的,每个分词的TF-IDF值可以通过如下方式计算:
TF=第一时间段内的异常文本中包含该分词的异常文本数量。
TF-IDF值=IDF*TF,将上述两个值相乘,即可得到TF-IDF值。
S307、按照TF-IDF值从大到小的顺序,从对分词集合中选取出前N个分词组成候选关键词集合,N为预设正整数。
S308、将候选关键词集合中后验概率大于第一预设阈值的候选关键词,确定为第一时间段内的异常文本中的关键词。
其中,TF-IDF值是从信息量的角度对每个分词进行排序。但是这样仍然会出现较多“重要”但不“特殊”的词汇。因此本实施例中采用后验概率(贝叶斯公式)筛选特有的词汇。
对于一个分词,其后验概率为:
其中,A为指定分词x出现在第一时间段内的异常文本中的一个单条文本,B为任意分词出现在第一时间段内的异常文本中的任意一条文本中,C为第一时间段内的异常文本中任意一条文本出现x中的一个字xj,D为指定词x中的一个字xj出现在第一时间段内的异常文本中的任意一条文本中。
S309、输出关键词。
本实施例中,通过从待检测文本集中检测出第一时间段内的异常文本后,对第一时间段内的异常文本中的每条文本进行分词,得到分词集合,再根据分词集合中每个分词的 TF-IDF值和每个分词的后验概率,筛选出第一时间段内的异常文本中的关键词并输出,便于用户根据关键词进行全方位控制和分析,例如根据关键词查找对应的异常文本,缩小查看异常文本的数量,提高处理效率。
本实施例提供的异常文本检测方法,通过接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,根据检测指令携带的第一时间段确定与第一时间对应的异常文本检测模型,将待检测文本集中的每个文本依次输入异常文本检测模型,得到每个文本的分类预测概率,根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本。从而,提高了异常文本检测的准确性,且适用范围广。
下面结合图8,采用一个具体的实施例对本申请实施例提供的异常文本检测方法进行详细说明,本实施例中以异常文本检测模型在线训练为例进行说明。
图8为本申请实施例提供的一种异常文本检测方法的流程图,该方法的执行主体可以是服务器,如图8所示,该方法可以包括:
S401、接收检测指令,检测指令携带第一时间段。
S402、将时间间隔与当前时间为第一时间段的时间点确定为第一时间。
S403、获取当前时间之前的历史文本数据,历史文本数据包括文本信息和文本信息的产生时间。
S404、将文本信息中用于表示时间的字符替换为预设字符,得到训练文本。
S405、根据训练文本的产生时间和第一时间确定训练文本的分类标签,得到训练样本集,训练样本集包括训练文本和训练文本的分类标签。
具体地,第一时间确定后,训练文本也确定后,根据训练文本的产生时间和第一时间即可确定训练文本的分类标签。例如,如图8所示,将产生时间在第一时间之前的训练文本确定为负样本,负样本的分类标签为第一分类标签,将产生时间在第一时间之后的训练文本的分类标签确定为正样本,正样本的分类标签为第二分类标签。其中,第一分类标签为0,第二分类标签为1。
S406、根据训练样本集进行文本分类模型训练,在任一次训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率。
S407、根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件。
S408、将满足停止训练条件所确定的文本分类模型确定为异常文本检测模型。
S409、获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本。
S410、将待检测文本集中的每个文本依次输入异常文本检测模型,得到每个文本的分类预测概率。
具体地,将待检测文本集中的每个文本依次输入通过S401-S408训练的异常文本检测模型。
S411、根据每个文本的分类预测概率,将待检测文本集划分为第一文本集合、第二文本集合和第三文本集合。
其中,第一文本集合中的文本的分类预测概率大于0且小于或等于第一阈值,第二文本集合中的文本的分类预测概率大于第一阈值且小于或等于第二阈值,第三文本集合中的文本的分类预测概率大于第二阈值,第一阈值小于第二阈值。
其中,例如第一阈值为0-0.2之间的数值,第二阈值为0.5-0.8之间的数值。例如,如图8所示,第一文本集合中的文本的分类预测概率大于0且小于或等于0.15,第二文本集合中的文本的分类预测概率大于0.15且小于或等于0.75,第三文本集合中的文本的分类预测概率大于0.75。
S412、确定第一文本集合中分类标签为第二分类标签的文本的占比、第二文本集合中分类标签为第二分类标签的文本的占比以及第三文本集合中分类标签为第二分类标签的文本的占比。
S413、将第一文本集合、第二文本集合和第三文本集合中占比大于第一预设阈值的文本集合中的文本确定为目标文本。
S414、对第一时间段内的异常文本中的每条文本进行分词,得到分词集合。
S415、计算分词集合中每个分词的TF-IDF值和每个分词的后验概率。
其中,每个分词的TF-IDF值和每个分词的后验概率的计算可参见图5所示实施例中的描述,此处不再赘述。
S416、按照TF-IDF值从大到小的顺序,从对分词集合中选取出前N个分词组成候选关键词集合,N为预设正整数。
S417、将候选关键词集合中后验概率大于第一预设阈值的候选关键词,确定为第一时间段内的异常文本中的关键词。
S418、输出关键词。
输出关键词后,运维分析人员可以根据关键词进行分析或进行情况核实。
示例性地,如下表一为一种第一时间段内的异常文本中的关键词的示例:
表一 第一时间段内的异常文本中的关键词
如上表一所示为当前时间为10月1日,以9月1日为第一时间,对待检测文本集(包括产生时间在当前时间之前的文本)进行异常文本检测出的关键字。关键词根据TF-IDF 值从大到小的顺序排序,黑体是经过后验概率过滤的最终关键词,其中筛选的是后验概率大于0.8的关键词。可以看出仅根据TF-IDF值不足以过滤常见词,需要结合后延概率进行筛选。最终关键词中云泊、民享、矿业、***、雲泊和匡扶是九月新增的异常文本对应的关键词。本申请实施例的方法,可以准确且无人工干预地对近期异常投诉进行检测,并输出关键词。
图9为本申请实施例提供的一种异常文本检测模型训练装置的结构示意图,如图9所示,该装置可以包括:获取模块11、处理模块12、调整模块13和输出模块14,其中,
获取模块11用于获取训练样本集,训练样本集包括训练文本和训练文本的分类标签,训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在第一时间之后的训练文本的分类标签为第二分类标签,第一时间在当前时间之前。
处理模块12用于根据训练样本集进行文本分类模型训练,在任一次训练过程中,以训练文本为文本分类模型的输入,输出训练文本的分类预测概率。
调整模块13用于根据训练文本的分类预测概率与训练文本的分类标签,对文本分类模型的参数进行调整,直到满足停止训练条件。
输出模块14用于将满足停止训练条件所确定的文本分类模型输出为异常文本检测模型。
可选的,获取模块11用于:
确定第一时间;
获取当前时间之前的历史文本数据,历史文本数据包括文本信息和文本信息的产生时间;
将文本信息中用于表示时间的字符替换为预设字符,得到训练文本;
根据训练文本的产生时间和第一时间确定训练文本的分类标签。
可选的,获取模块11具体用于:
接收模型训练指令,模型训练指令携带第一时间段;或者,将预设时间段确定为第一时间段;
将时间间隔与当前时间为第一时间段的时间点确定为第一时间。
可选的,调整模块13用于:
根据训练文本的分类预测概率与训练文本的分类标签,构建损失函数;
根据损失函数,反向传播调整文本分类模型的参数。
可选的,文本分类模型用于:提取训练文本的语义信息,将语义信息转化为向量,将向量使用全连接层转化为标量,使用激活函数对标量进行转换,得到训练文本的分类预测概率。
可选的,文本分类模型为预训练的来自变换器的双向编码器表征量BERT模型。
图10为本申请实施例提供的一种异常文本检测装置的结构示意图,如图10所示,该装置可以包括:获取模块21、第一确定模块22、处理模块23和第二确定模块14,其中,
获取模块21用于在接收到检测指令后,获取待检测文本集,待检测文本集包括产生时间在当前时间之前的文本,检测指令携带第一时间段。
第一确定模块22用于根据第一时间段确定与第一时间对应的异常文本检测模型,异常文本检测模型根据图2所示实施例的方法训练得到,第一时间为与当前时间之间的时间间隔为第一时间段的时间点。
处理模块23用于将待检测文本集中的每个文本依次输入异常文本检测模型,得到每个文本的分类预测概率。
第二确定模块24用于根据每个文本的分类预测概率,将分类标签为第二分类标签且分类预测概率大于第一预设阈值的目标文本确定为第一时间段内的异常文本,异常文本为待检测文本集中在第一时间之前未出现过的文本,产生时间在第一时间之后的文本的分类标签为第二分类标签。
可选的,第一确定模块22用于:
将时间间隔与当前时间为第一时间段的时间点确定为第一时间;
根据第一时间进行异常文本检测模型的训练;
将训练得到的异常文本检测模型确定为与第一时间对应的异常文本检测模型。
可选的,第一确定模块22用于:
从预先训练的异常文本检测模型集合中,确定出与第一时间对应的异常文本检测模型;
将确定出的异常文本检测模型确定为与第一时间对应的异常文本检测模型。
可选的,第二确定模块24用于:
根据每个文本的分类预测概率,将待检测文本集划分为第一文本集合、第二文本集合和第三文本集合;
其中,第一文本集合中的文本的分类预测概率大于0且小于或等于第一阈值,第二文本集合中的文本的分类预测概率大于第一阈值且小于或等于第二阈值,第三文本集合中的文本的分类预测概率大于第二阈值,第一阈值小于第二阈值;
确定第一文本集合中分类标签为第二分类标签的文本的占比、第二文本集合中分类标签为第二分类标签的文本的占比以及第三文本集合中分类标签为第二分类标签的文本的占比;
将第一文本集合、第二文本集合和第三文本集合中占比大于第一预设阈值的文本集合中的文本确定为目标文本。
可选的,处理模块23还用于:按照预设方式筛选第一时间段内的异常文本中的关键词,输出关键词。
可选的,处理模块23用于:对第一时间段内的异常文本中的每条文本进行分词,得到分词集合;
计算分词集合中每个分词的TF-IDF值和每个分词的后验概率;
按照TF-IDF值从大到小的顺序,从对分词集合中选取出前N个分词组成候选关键词集合,N为预设正整数;
将候选关键词集合中后验概率大于第一预设阈值的候选关键词,确定为第一时间段内的异常文本中的关键词。
应理解的是,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图7所示的异常文本检测模型训练装置或图8所示的异常文本检测装置可以执行计算机设备对应的方法实施例,并且该装置中的各个模块的前述和其它操作和/或功能分别为了实现计算机设备对应的方法实施例,为了简洁,在此不再赘述。
上文中结合附图从功能模块的角度描述了本申请实施例的异常文本检测模型训练装置和异常文本检测装置。应理解,该功能模块可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过硬件和软件模块组合实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。可选地,软件模块可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图11是本申请实施例提供的计算机设备700的示意性框图。
如图11所示,该计算机设备700可包括:
存储器710和处理器720,该存储器710用于存储计算机程序,并将该程序代码传输给该处理器720。换言之,该处理器720可以从存储器710中调用并运行计算机程序,以实现本申请实施例中的方法。
例如,该处理器720可用于根据该计算机程序中的指令执行上述方法实施例。
在本申请的一些实施例中,该处理器720可以包括但不限于:
通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
在本申请的一些实施例中,该存储器710包括但不限于:
易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器 (Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在本申请的一些实施例中,该计算机程序可以被分割成一个或多个模块,该一个或者多个模块被存储在该存储器710中,并由该处理器720执行,以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该电子设备中的执行过程。
如图11所示,该计算机设备还可包括:
收发器730,该收发器730可连接至该处理器720或存储器710。
其中,处理器720可以控制该收发器730与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器730还可以进一步包括天线,天线的数量可以为一个或多个。
应当理解,该电子设备中的各个组件通过总线***相连,其中,总线***除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
本申请还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说,本申请实施例还提供一种包含指令的计算机程序产品,该指令被计算机执行时使得计算机执行上述方法实施例的方法。
当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk, SSD))等。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
以上该,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以该权利要求的保护范围为准。
Claims (15)
1.一种异常文本检测模型训练方法,其特征在于,包括:
获取训练样本集,所述训练样本集包括训练文本和所述训练文本的分类标签,所述训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在所述第一时间之后的训练文本的分类标签为第二分类标签,所述第一时间在当前时间之前;
根据所述训练样本集进行文本分类模型训练,在任一次训练过程中,以所述训练文本为文本分类模型的输入,输出所述训练文本的分类预测概率;
根据所述训练文本的分类预测概率与所述训练文本的分类标签,对所述文本分类模型的参数进行调整,直到满足停止训练条件;
将满足所述停止训练条件所确定的文本分类模型输出为异常文本检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取训练样本集,包括:
确定所述第一时间;
获取当前时间之前的历史文本数据,所述历史文本数据包括文本信息和所述文本信息的产生时间;
将所述文本信息中用于表示时间的字符替换为所述预设字符,得到所述训练文本;
根据所述训练文本的产生时间和所述第一时间确定所述训练文本的分类标签。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一时间,包括:
接收模型训练指令,所述模型训练指令携带第一时间段;或者,将预设时间段确定为第一时间段;
将时间间隔与当前时间为所述第一时间段的时间点确定为所述第一时间。
4.根据权利要求1所述的方法,其特征在于,所述根据所述训练文本的分类预测概率与所述训练文本的分类标签,对所述文本分类模型的参数进行调整,包括:
根据所述训练文本的分类预测概率与所述训练文本的分类标签,构建损失函数;
根据所述损失函数,反向传播调整所述文本分类模型的参数。
5.根据权利要求1所述的方法,其特征在于,所述文本分类模型用于:
提取所述训练文本的语义信息;
将所述语义信息转化为向量;
将所述向量使用全连接层转化为标量;
使用激活函数对所述标量进行转换,得到所述训练文本的分类预测概率。
6.一种异常文本检测方法,其特征在于,包括:
接收到检测指令后,获取待检测文本集,所述待检测文本集包括产生时间在当前时间之前的文本,所述检测指令携带第一时间段;
根据所述第一时间段确定与第一时间对应的异常文本检测模型,所述异常文本检测模型根据权利要求1-5任一项所述的方法训练得到,所述第一时间为与当前时间之间的时间间隔为所述第一时间段的时间点;
将所述待检测文本集中的每个文本依次输入所述异常文本检测模型,得到每个文本的分类预测概率;
根据所述每个文本的分类预测概率,将分类标签为第二分类标签且所述分类预测概率大于第一预设阈值的目标文本确定为所述第一时间段内的异常文本,所述异常文本为所述待检测文本集中在所述第一时间之前未出现过的文本,产生时间在所述第一时间之后的文本的分类标签为所述第二分类标签。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一时间段确定与第一时间对应的异常文本检测模型,包括:
将时间间隔与当前时间为所述第一时间段的时间点确定为所述第一时间;
根据所述第一时间进行异常文本检测模型的训练;
将训练得到的异常文本检测模型确定为与所述第一时间对应的异常文本检测模型。
8.根据权利要求6所述的方法,其特征在于,所述根据所述第一时间段确定与第一时间对应的异常文本检测模型,包括:
将时间间隔与当前时间为所述第一时间段的时间点确定为所述第一时间;
从预先训练的异常文本检测模型集合中,确定出与所述第一时间对应的异常文本检测模型;
将确定出的异常文本检测模型确定为与所述第一时间对应的异常文本检测模型。
9.根据权利要求6所述的方法,其特征在于,所述根据所述每个文本的分类预测概率,将分类标签为第二分类标签且所述分类预测概率大于第一预设阈值的目标文本确定为所述第一时间段内的异常文本,包括:
根据所述每个文本的分类预测概率,将所述待检测文本集划分为第一文本集合、第二文本集合和第三文本集合;
其中,所述第一文本集合中的文本的分类预测概率大于0且小于或等于第一阈值,所述第二文本集合中的文本的分类预测概率大于所述第一阈值且小于或等于第二阈值,所述第三文本集合中的文本的分类预测概率大于所述第二阈值,所述第一阈值小于所述第二阈值;
确定所述第一文本集合中分类标签为所述第二分类标签的文本的占比、所述第二文本集合中分类标签为所述第二分类标签的文本的占比以及所述第三文本集合中分类标签为所述第二分类标签的文本的占比;
将所述第一文本集合、所述第二文本集合和所述第三文本集合中所述占比大于所述第一预设阈值的文本集合中的文本确定为所述目标文本。
10.根据权利要求6-9任一项所述的方法,其特征在于,所述方法还包括:
对所述第一时间段内的异常文本中的每条文本进行分词,得到分词集合;
计算所述分词集合中每个分词的TF-IDF值和每个分词的后验概率;
按照TF-IDF值从大到小的顺序,从对所述分词集合中选取出前N个分词组成候选关键词集合,所述N为预设正整数;
将所述候选关键词集合中后验概率大于第一预设阈值的候选关键词,确定为所述第一时间段内的异常文本中的关键词;
输出所述关键词。
11.一种异常文本检测模型训练装置,其特征在于,包括:
获取模块,用于获取训练样本集,所述训练样本集包括训练文本和所述训练文本的分类标签,所述训练文本中用于表示时间的字符被替换为预设字符,其中,产生时间在第一时间之前的训练文本的分类标签为第一分类标签,产生时间在所述第一时间之后的训练文本的分类标签为第二分类标签,所述第一时间在当前时间之前;
处理模块,用于根据所述训练样本集进行文本分类模型训练,在任一次训练过程中,以所述训练文本为文本分类模型的输入,输出所述训练文本的分类预测概率;
调整模块,用于根据所述训练文本的分类预测概率与所述训练文本的分类标签,对所述文本分类模型的参数进行调整,直到满足停止训练条件;
输出模块,用于将满足所述停止训练条件所确定的文本分类模型输出为异常文本检测模型。
12.一种异常文本检测装置,其特征在于,包括:
获取模块,用于在接收到检测指令后,获取待检测文本集,所述待检测文本集包括产生时间在当前时间之前的文本,所述检测指令携带第一时间段;
第一确定模块,用于根据所述第一时间段确定与第一时间对应的异常文本检测模型,所述异常文本检测模型根据权利要求1-5任一项所述的方法训练得到,所述第一时间为与当前时间之间的时间间隔为所述第一时间段的时间点;
处理模块,用于将所述待检测文本集中的每个文本依次输入所述异常文本检测模型,得到每个文本的分类预测概率;
第二确定模块,用于根据所述每个文本的分类预测概率,将分类标签为第二分类标签且所述分类预测概率大于第一预设阈值的目标文本确定为所述第一时间段内的异常文本,所述异常文本为所述待检测文本集中在所述第一时间之前未出现过的文本,产生时间在所述第一时间之后的文本的分类标签为所述第二分类标签。
13.一种计算机设备,其特征在于,包括:
处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,以执行权利要求1至5或6至10中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机程序上运行时,使得所述计算机执行如权利要求1至5或6至10中任一项所述的方法。
15.一种包含指令的计算机程序产品,其特征在于,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至5或6至10中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210590192.0A CN115269830A (zh) | 2022-05-26 | 2022-05-26 | 异常文本检测模型训练方法、异常文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210590192.0A CN115269830A (zh) | 2022-05-26 | 2022-05-26 | 异常文本检测模型训练方法、异常文本检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115269830A true CN115269830A (zh) | 2022-11-01 |
Family
ID=83758989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210590192.0A Pending CN115269830A (zh) | 2022-05-26 | 2022-05-26 | 异常文本检测模型训练方法、异常文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115269830A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582833A (zh) * | 2018-11-06 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 异常文本检测方法及装置 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
US20200034482A1 (en) * | 2018-07-26 | 2020-01-30 | International Business Machines Corporation | Verifying and correcting training data for text classification |
CN111061581A (zh) * | 2018-10-16 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 一种故障检测方法、装置及设备 |
CN111666502A (zh) * | 2020-07-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
US20210334459A1 (en) * | 2020-04-24 | 2021-10-28 | Deepmind Technologies Limited | Robustness to adversarial behavior for text classification models |
CN113743074A (zh) * | 2021-09-08 | 2021-12-03 | 平安科技(深圳)有限公司 | 基于机器人流程自动化的数据报告生成方法及装置 |
-
2022
- 2022-05-26 CN CN202210590192.0A patent/CN115269830A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200034482A1 (en) * | 2018-07-26 | 2020-01-30 | International Business Machines Corporation | Verifying and correcting training data for text classification |
CN111061581A (zh) * | 2018-10-16 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 一种故障检测方法、装置及设备 |
CN109582833A (zh) * | 2018-11-06 | 2019-04-05 | 阿里巴巴集团控股有限公司 | 异常文本检测方法及装置 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
US20210334459A1 (en) * | 2020-04-24 | 2021-10-28 | Deepmind Technologies Limited | Robustness to adversarial behavior for text classification models |
CN111666502A (zh) * | 2020-07-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的异常用户识别方法、装置及存储介质 |
CN113743074A (zh) * | 2021-09-08 | 2021-12-03 | 平安科技(深圳)有限公司 | 基于机器人流程自动化的数据报告生成方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240078386A1 (en) | Methods and systems for language-agnostic machine learning in natural language processing using feature extraction | |
EP3711000B1 (en) | Regularized neural network architecture search | |
US20240046043A1 (en) | Multi-turn Dialogue Response Generation with Template Generation | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN113420128A (zh) | 文本匹配方法、装置、存储介质及计算机设备 | |
CN110598869A (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN114996486A (zh) | 一种数据推荐方法、装置、服务器以及存储介质 | |
CN113627194B (zh) | 信息抽取方法及装置、通信消息分类方法及装置 | |
CN113255327B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN114912030A (zh) | 权益模型训练方法、推荐方法及电子终端和计算机介质 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN117291722A (zh) | 对象管理方法、相关设备及计算机可读介质 | |
CN117725220A (zh) | 文档表征和文档检索的方法、服务器及存储介质 | |
CN115511606A (zh) | 对象识别方法、装置、设备及存储介质 | |
CN115269830A (zh) | 异常文本检测模型训练方法、异常文本检测方法及装置 | |
KR20210059196A (ko) | Lstm을 이용한 국가별 선호도 예측 시스템 및 방법 | |
CN113535847B (zh) | 区块链地址分类的方法和装置 | |
CN114328797B (zh) | 内容搜索方法、装置、电子设备、存储介质及程序产品 | |
US20230196184A1 (en) | Cross-label-correction for learning with noisy labels | |
CN118350373A (zh) | 金融实体关系抽取方法及装置 | |
CN114897182A (zh) | 一种实体状态模型的训练方法、装置、设备及存储介质 | |
CN117034161A (zh) | 一种数据处理方法及相关装置 | |
CN117056503A (zh) | 文本处理方法、电子设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |