CN110929026B

CN110929026B - 一种异常文本识别方法、装置、计算设备及介质

Info

Publication number: CN110929026B
Application number: CN201811093657.1A
Authority: CN
Inventors: 康杨杨; 高喆; 周笑添; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2023-04-25
Anticipated expiration: 2038-09-19
Also published as: CN110929026A

Abstract

本发明公开了一种异常文本识别方法、装置、计算设备及介质，该方法包括：将待识别的文本输入到命名实体识别模型，以确定所述文本包括的候选实体，所述候选实体包括人名、组织机构名或日期；将待识别的文本输入到主题识别模型中进行处理，以识别所述文本的主题类别；若所述文本的主题类别对应于预设主题，则对所述文本中的各候选实体，将所述候选实体对应的向量集输入到情感识别模型中，以获取所述文本对所述候选实体的情感倾向；若所述情感倾向为负面，则判定所述文本为预设主题下的异常文本。

Description

一种异常文本识别方法、装置、计算设备及介质

技术领域

本发明涉及自然语言处理领域，特别涉及一种异常文本识别方法、装置、计算设备及介质。

背景技术

如今，不少政府职能部门、金融机构、商家等都会通过运营商的***通道，进行定向短信发送。例如，在出现暴雨等雷雨天气时，考虑到安全出行，地方政府的气象局会利用***通道向号码归属地为本地区的用户发送提醒短信。

然而，***通道作为一个开放性平台，也会被一些不法分子利用给普通用户发送涉政相关短信，攻击或抹黑国家。这种行为不仅违反国家相关法律规定，而且会给平台的正常运营带来极大的舆论风险。因此，需要对短信进行文本识别，以确定短信中的文本内容是否涉政，进而将涉政短信进行屏蔽，并对发送涉政短信的号码执行相应处理。

在对短信进行文本识别时，通常是将识别问题转化为二分类问题，标注涉政相关的短信文本，通过机器学习方法训练模型。常用的机器学习方法通常是SVM(SupportVector Machine，支持向量机)/LR(Logistic Regression，逻辑回归)等传统浅层模型，或者CNN(Convolutional Neural Network，卷积神经网络)/LSTM(Long Short-Term Memory，长短期记忆网络)等目前主流比热门的深度模型。但是，此类模型容易过分拟合人名等特征，比如人名“XXX”就会容易被学习成为一个重要的特征，但是不是所有出现“XXX”的样本都是有问题的。比如有些政府部门，发送“全体党员同志需要学习XXX同志的会议精神”，这种通知性质的教育学习类短信信息时，是没有问题的。

发明内容

为此，本发明提供一种异常文本识别方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种异常文本识别方法，该方法包括如下步骤：首先，将待识别的文本输入到命名实体识别模型，以确定该文本包括的候选实体，候选实体包括人名、组织机构名或日期；将待识别的文本输入到主题识别模型中进行处理，以识别该文本的主题类别；若该文本的主题类别对应于预设主题，则对该文本中的各候选实体，将该候选实体对应的向量集输入到情感识别模型中，以获取该文本对该候选实体的情感倾向；若该情感倾向为负面，则判定该文本为预设主题下的异常文本。

可选地，在根据本发明的异常文本识别方法中，将待识别的文本输入到主题识别模型中进行处理，以识别文本的主题类别，包括：将待识别的文本输入到主题识别模型中，以获取主题识别模型输出的、该文本对应的主题向量，主题向量包括该文本属于各主题类别的概率值；将概率值最高的主题类别作为该文本的主题类别。

可选地，在根据本发明的异常文本识别方法中，向量集包括该候选实体对应的词向量、该文本对应的主题向量以及该文本中所有候选实体对应的词向量。

可选地，在根据本发明的异常文本识别方法中，情感识别模型包括多层感知器和与多层感知器相连的分类器，将候选实体对应的向量集输入到情感识别模型中，以获取该文本对该候选实体的情感倾向，包括：将候选实体对应的向量集作为输入，输入到多层感知器进行处理；将处理结果输入到分类器进行情感倾向概率计算，根据概率计算的结果，确定该文本对该候选实体的情感倾向为正面或负面。

可选地，在根据本发明的异常文本识别方法中，命名实体识别模型为序列标注模型。

可选地，在根据本发明的异常文本识别方法中，命名实体识别模型基于预先获取的实体训练数据集合进行模型训练，以便命名实体识别模型的输出指示输入文本中存在的候选实体。

可选地，在根据本发明的异常文本识别方法中，实体训练数据集合包括多条实体训练数据，每条实体训练数据包括第一训练文本和第二训练文本，第二训练文本为对第一训练文本中的候选实体进行实体标记后形成的文本，基于预先获取的实体训练数据集合进行模型训练，包括：对实体训练数据集合中的各条实体训练数据，将实体训练数据中的第一训练文本作为输入，输入到命名实体识别模型，以得到命名实体识别模型输出的、第一训练文本对应的标记有候选实体的标记文本；基于实体训练数据中第一训练文本对应的标记文本和第二训练文本，调整命名实体识别模型的网络参数。

可选地，在根据本发明的异常文本识别方法中，调整命名实体识别模型的网络参数，包括：使用反向传播算法调整命名实体识别模型的网络参数。

可选地，在根据本发明的异常文本识别方法中，情感识别模型基于预先获取的情感训练数据集合进行模型训练，以便情感识别模型的输出指示输入向量集对应的词所属的文本、对该词的情感倾向。

可选地，在根据本发明的异常文本识别方法中，情感训练数据集合包括多条情感训练数据，每条情感训练数据包括情感训练文本，以及情感训练文本对其包括的各词的真实情感倾向，基于预先获取的情感训练数据集合进行模型训练，包括：对情感训练数据集合中的各条情感训练数据，将情感训练数据中情感训练文本进行分词处理，以得到相应的分词序列；获取分词序列中各词的向量集，向量集包括对应词的词向量、情感训练文本对应的主题向量、以及情感训练文本包括的所有候选实体的词向量；对分词序列中的各词，将词的向量集作为输入，输入情感识别模型，以得到情感识别模型输出的、情感训练文本对词的情感倾向；基于情感训练文本对词的情感倾向和真实情感倾向，调整情感识别模型的网络参数。

可选地，在根据本发明的异常文本识别方法中，调整情感识别模型的网络参数，包括：使用反向传播算法调整多层感知器和/或分类器的网络参数。

可选地，在根据本发明的异常文本识别方法中，主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类中任一种。

可选地，在根据本发明的异常文本识别方法中，预设主题为涉政类主题。

可选地，在根据本发明的异常文本识别方法中，待识别的文本包括短信文本。

根据本发明的又一个方面，提供一种异常文本识别装置，该装置包括实体识别模块、主题识别模块、情感识别模块和判定模块。其中，实体识别模块适于将待识别的文本输入到命名实体识别模型，以确定该文本包括的候选实体，候选实体包括人名、组织机构名或日期；主题识别模块适于将待识别的文本输入到主题识别模型中进行处理，以识别该文本的主题类别；情感识别模块适于当该文本的主题类别对应于预设主题时，对该文本中的各候选实体，将候选实体对应的向量集输入到情感识别模型中，以获取该文本对该候选实体的情感倾向；判定模块适于当情感倾向为负面时，判定该文本为预设主题下的异常文本。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的异常文本识别方法的指令。

根据本发明的又一个方面，还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的异常文本识别方法。

根据本发明的异常文本识别方案，基于命名实体识别模型确定待识别的文本的候选实体，并利用主题识别模型来识别该文本的主题类别，当该文本的主题类别对应于预设主题时，将该文本中的候选实体对应的向量集输入到情感识别模型中，以获取该文本对该候选实体的情感倾向，其中，候选实体包括人名、组织机构名或日期。最后，若情感倾向为负面，则判定该文本为预设主题下的异常文本。

换言之，通过引入主题和情感分析的方法，避免过分拟合人名、组织机构名特征，分析待识别的文本的主题类别是否对应涉政类主题，以及该文本对人名/组织机构名/日期的情感倾向，综合判断该文本为涉政文本的概率，进一步提升了涉政文本识别的准确率。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的异常文本识别***100的示意图；

图2示出了根据本发明的一个实施例的计算设备200的结构框图；

图3示出了根据本发明的一个实施例的用于异常文本识别的模型组合示意图；

图4示出了根据本发明的一个实施例的实体训练数据的示意图；

图5示出了根据本发明的一个实施例的情感识别模型的示意图；

图6示出了根据本发明的一个实施例的异常文本识别方法600的流程图；以及

图7示出了根据本发明的一个实施例的异常文本识别装置700的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明的一个实施例的异常文本识别***100的示意图。如图1所示，***100包括文本发送端110、文本接收端120和服务器130。其中，服务器130中驻留有异常文本识别装置(图中未示出)。文本发送端110在向文本接收端120发送文本的过程中，会先将该文本发送至服务器130，服务器130中的上述装置在接收到该文本后，将该文本作为待识别的文本进行异常文本识别。若识别结果表明该文本不是异常文本，则服务器130会将该文本转发给文本接收端120，若识别结果表明该文本是异常文本，则服务器130会拦截该文本，避免异常文本被直接发送至文本接收端120。

根据本发明的一个实施例，上述预设主题为涉政类主题，涉政类主题下的异常文本是指主题类别为涉政类、且文本对其所包括的人名、组织机构名或日期等候选实体具有负面情感的一类文本。应注意的是，候选实体所包括的人名、组织机构名或日期，都是预先设定的，还可具有与其所属文本的主题下的特定含义。这里的日期也并非是指一个单纯的、包括年、月、日中至少一项的日期信息，而是在此基础上，具有特殊性的、与预定主题相关的特定日期。比如，预设主题为涉政类主题时，上述日期包括1949年10月1日(中华人民共和国成立日期)、1997年7月1日(香港回归祖国日期)、1937年7月(卢沟桥事变发生的年月)、1999年(澳门回归祖国的年份)等。此外，日期中涉及到的如年、月、日等需要以数值表示的内容，既可以是***数字，也可以是中文汉字，本申请对此并不限制。

为便于理解，以待识别的文本为“欢迎XXX同志视察北京大学”(XXX表示姓名，每个“X”代表一个汉字，且不限定各个“X”所代表汉字必须相同或不同)为例，对服务器130中异常文本识别装置用于异常文本识别的过程，进行示例性说明。

将文本“欢迎XXX同志视察北京大学”输入到命名实体识别模型中进行处理，以确定该文本包括的候选实体。由于候选实体包括人名、组织机构名或日期，可知该文本包括的候选实体有2个，分别是“XXX”和“北京大学”。将文本“欢迎XXX同志视察北京大学”输入到主题识别模型中进行处理，识别出该文本的主题类别为涉政类。进而，由于该文本的主题类别对应于涉政类主题，将候选实体“XXX”和“北京大学”对应的向量集输入到情感识别模型中，得到该文本对候选实体“XXX”和“北京大学”的情感倾向均为正面，则判定该文本不是涉政类主题下的异常文本，即该文本并非涉政文本。

进一步的，可以将***100视为一个短信发送平台***，文本发送端100为发送短信的客户端A，文本接收端120则为接收短信的客户端B，服务器130通常是通信运营商部署的服务端平台，该平台中驻留有识别短信文本是否为一种主题下的异常文本的装置。此时，当用户通过客户端A向客户端B发送短信的过程中，客户端A会先将该短信发送至该服务端平台，服务端平台中的上述装置在接收到该短信后，将该短信作为待识别的短信进行异常短信识别。若识别结果表明该短信不是异常短信，则服务端平台会将该短信转发给客户端B，若识别结果表明该短信是异常短信，则服务端平台会拦截该短信，避免异常短信被直接发送至客户端B。

根据本发明的一个实施例，上述的***100中的服务器130可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的结构框图。

如图2所示，在基本的配置202中，计算设备200典型地包括***存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和***存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，***存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器206可以包括操作***220、一个或者多个程序222以及程序数据224。在一些实施方式中，程序222可以布置为在操作***上由一个或多个处理器204利用程序数据224执行指令。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备200可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备200还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

在一些实施例中，计算设备200被实现为服务器130，并被配置为执行根据本发明的异常文本识别方法600。其中，计算设备200的程序222中包含执行根据本发明的异常文本识别方法600的多条程序指令，而程序数据224还可以存储异常文本识别***100的配置信息等。

图3示出了根据本发明的一个实施例的用于异常文本识别的模型组合示意图。如图3所示，在进行异常文本识别时，或者更具体来说，在识别文本是否为一种主题下的异常文本时，使用了三种识别模型形成的模型组合，这三种识别模型分别为命名实体识别模型，主题识别模型和情感识别模型。当待识别的文本输入到命名实体识别模型中后，命名实体识别模型将识别出该待识别文本中的候选实体，而当待识别的文本输入到主题识别模型后，主题识别模型将识别出该文本的主题类别，若该文本的主题类别对应于预设主题，则将对该文本中的各候选实体，将候选实体对应的向量集输入到情感识别模型中，进而情感识别模型会识别出该文本对该候选实体的情感倾向，若该情感倾向为负面，则判定该文本为预设主题下的异常文本。其中，命名实体识别模型、主题识别模型和情感识别模型分别预先通过实体训练数据集合、主题训练数据集以及情感训练数据集合进行训练。为了便于理解，以下先对命名实体识别模型、主题识别模型和情感识别模型的结构和训练过程进行说明，

命名实体识别模型用于识别文本中的候选实体，根据本发明的一个实施例，候选实体包括人名、组织机构名或日期，优选的，在该实施方式中，命名实体识别模型为序列标注模型。序列标注模型可采用如CRF(Conditional Random Field，条件随机场)模型、BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field，双向长短期记忆网络-条件随机场)模型等模型，可根据实际应用场景、网络训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

根据本发明的一个实施例，基于预先获取的实体训练数据集合进行模型训练，以便命名实体识别模型的输出指示输入文本中存在的候选实体。根据本发明的一个实施例，实体训练数据集合包括多条实体训练数据，每条实体训练数据包括第一训练文本和第二训练文本，第二训练文本为对第一训练文本中的候选实体进行实体标记后形成的文本。具体的，在进行命名实体识别模型训练时，首先，对实体训练数据集合中的各条实体训练数据，将实体训练数据中的第一训练文本作为输入，输入到命名实体识别模型，以得到命名实体识别模型输出的、该第一训练文本对应的标记有候选实体的标记文本，再基于实体训练数据中第一训练文本对应的标记文本和第二训练文本，调整命名实体识别模型的网络参数。

例如，对一条实体训练数据而言，该实体训练数据中的第一训练文本为“欢迎XXX同志视察北京大学”，第二训练文本是在第一训练文本的基础上，将“XXX”和“北京大学”进行了实体标记后的形成的文本。这里，采用BMEWO标注体系来对第一训练文本进行标注，以完成实体标记处理。其中，B表示实体的首部，M表示实体的中部，E表示实体的尾部，W表示单个的实体，O表示非实体。由于具有候选实体具有两种实体类型，分别为人物(Person，以Per表示)和组织机构(Organization，以Org表示)，则在BMEWO标注体系下会有8种实体标签，分别是B-Per、M-Per、E-Per、B-Org、M-Org、E-Org、W和O。

图4示出了根据本发明的一个实施例的实体训练数据的示意图。其中，第二训练文本中，“X”、“X”和“X”这三个字依次标注为B-Per、M-Per和E-Per，“北”、“京”、“大”和“学”这四个字依次标注为B-Org、M-Org、M-Org和E-Org，剩余的“欢”、“迎”、“同”、“志”、“视”和“察”均标注为O。基于此，将第一训练文本“欢迎XXX同志视察北京大学”输入到命名实体识别模型，进而得到命名实体识别模型输出的、该第一训练文本对应的标记有候选实体的标记文本，通过该标记文本和如图4所示的第二训练文本之间的差异，调整命名实体识别模型的网络参数。在该实施方式中，可使用反向传播算法调整命名实体识别模型的网络参数。经过实体训练数据集合中大量的实体训练数据进行模型训练后，获得训练好的命名实体识别模型。

需要说明的是，用于命名实体识别模型训练的实体训练数据集合，是从语料资源中提取大量涉及人名/组织机构名/日期的语料，并基于提取到的语料进行实体标记处理后形成的实体训练数据构成的。

主题识别模型用于识别文本的主题类别，根据本发明的一个实施例，主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类中任一种。优选的，在该实施方式中，主题识别模型可采用LDA(Latent Dirichlet Allocation，潜在狄利克雷分布)算法、PLSA(Probabilistic Latent Semantic Analysis，概率隐性语义分析)算法等进行模型构建、学习和训练，并可根据实际应用场景、训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

以LDA算法为例，LDA实际上是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，采用了词袋(bag of words)的方法，将每一篇文档视为一个词频向量，每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

当主题识别模型采用LDA算法进行构建、学习和训练时，主题训练数据集合是从语料资源中提取大量的、主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类的新闻语料而构成的。其中，每一段新闻语料可视作一条主题训练文本，该主题训练文本可能是涉政类主题、娱乐类主题、体育类主题、财经类主题、日常生活类主题、教育学习类主题中任一类主题下的文本。

那么，对于主题训练数据集合中的每条主题训练文本，LDA定义了如下生成过程(generative process)：

1.对每一条主题训练文本，从主题分布中抽取一个主题，；

2.从上述被抽到的主题所对应的词分布中抽取一个词；

3.重复上述过程直至遍历主题训练文本中的每一个词。

每条主题训练文本与T(通过反复试验等方法事先给定，这里T为6)个主题的一个多项分布(multinomial distribution)相对应，每个主题又与字词表中的V个词的一个多项分布相对应。

LDA的核心公式如下：

p(w|d)＝p(w|t)·p(t|d) (1)

直观的看这个公式，就是以主题作为中间层，可以通过当前的主题训练文本d的主题类别对应于主题t的概率p(t|d)，以及主题t下出现词w的概率p(w|t)，给出主题训练文本d中出现词w的概率。

LDA算法开始时，先随机地给p(w|t)和p(t|d)赋值(对所有的主题训练文本和词)，然后上述过程不断重复，最终收敛到的结果就是LDA的输出。关于上述迭代的学习过程，可参考LDA算法的相关技术资料，此处不再赘述。

当然，在该实施方式中，主题识别模型主要是基于LDA算法确定主题训练文本d的主题类别对应于主题t的概率p(t|d)。进一步的，在获取到主题训练文本d的主题类别对应于各主题的概率后，基于这些概率值形成主题向量，主题向量中包括主题训练文本d属于各主题类别的概率值。其中，概率值最高的主题类别，即为主题训练文本d的主题类别。

图5示出了根据本发明的一个实施例的情感识别模型的示意图。如图5所示，情感识别模型包括多层感知器和与该多层感知器相连的分类器。多层感知器(Multi-LayerPerception，MLP)实际上就是多层神经网络(大于等于3层，即至少含有1层隐含层)，也称为全连接神经网络(Fully Connected Network，FCN)。当然，多层感知器的具体结构，可根据实际应用场景、网络训练情况、***配置和性能要求等进行适当调整，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

根据本发明的一个实施例，分类器采用softmax分类器，用于指示输入向量集对应的词所属的文本、对该词的情感倾向，此处的情感倾向只有正面和负面两类，因此，这一softmax分类器实际上只需完成二分类的处理即可，若情感倾向为正面的概率大于负面的概率，则确定输入向量集对应的词所属的文本、对该词的情感倾向为正面，否则为负面。

根据本发明的一个实施例，情感识别模型基于预先获取的情感训练数据集合进行模型训练，以便情感识别模型的输出指示输入向量集对应的词所属的文本、对词的情感倾向。在该实施方式中，情感训练数据集合包括多条情感训练数据，每条情感训练数据包括情感训练文本，以及情感训练文本对其包括的各词的真实情感倾向。在进行情感识别模型训练时，首先，对情感训练数据集合中的各条情感训练数据，将情感训练数据中情感训练文本进行分词处理，以得到相应的分词序列。然后，获取分词序列中各词的向量集，向量集包括对应词的词向量、情感训练文本对应的主题向量、以及情感训练文本包括的所有候选实体的词向量。对分词序列中的各词，将该词的向量集作为输入，输入情感识别模型，以得到情感识别模型输出的、情感训练文本对该词的情感倾向。最后，基于情感训练文本对该词的情感倾向和真实情感倾向，调整情感识别模型的网络参数。

例如，一条情感识别数据中包括情感训练文本“坚决反对XXX”，以及该情感训练文本对“坚决”、“反对”、“XXX”这3个词的真实情感倾向。在训练模型时，将该情感训练文本“坚决反对XXX”进行分词处理，得到分词序列为“[坚决]、[反对]、[XXX]”。

以该分词序列中的词“坚决”为例，该情感训练文本对词“坚决”的真实情感倾向为负面。首先，获取词“坚决”的向量集，该向量集包括该词的词向量、该情感训练文本对应的主题向量、以及该情感训练文本包括的所有候选实体的词向量。其中，情感训练文本“坚决反对XXX”对应的主题向量可通过如上主题识别模型获取，该情感训练文本的候选实体只有词“XXX”。那么，词“坚决”的向量集包括其自身的词向量、该情感训练文本对应的主题向量以及词“XXX”的词向量。

将词“坚决”的向量集输入到情感识别模型进行识别，得到情感识别模型输出的、该情感训练文本对词“坚决”的情感倾向，基于该情感倾向与该情感训练文本对该词的真实情感倾向，使用反向传播算法调整多层感知器和/或分类器的网络参数。经过情感训练数据集合中大量的情感训练数据进行模型训练后，获得训练好的情感识别模型。

需要说明的是，用于情感识别模型训练的情感训练数据集合，是从语料资源中提取各领域内大量的情感语料，并基于提取到的情感语料进行情感倾向确定后形成的情感训练数据构成的。此外，以上及以下可能涉及词向量的内容，其中关于词向量的生成可采用如word2vec/ELMo等算法，本申请对此并不限制。

在完成命名实体识别模型、主题识别模型和情感识别模型的构建和训练后，即可基于这些模型进行异常文本的识别。图6示出了根据本发明的一个实施例的异常文本识别方法600的流程图。在该实施方式中，预设主题为涉政类主题。需要注意的是，预设主题的类别并不限于涉政类，本申请还可用于对其他主题下的异常文本进行识别。

如图6所示，方法600始于步骤S610。在步骤S610中，将待识别的文本输入到命名实体识别模型中进行处理，以确定该文本包括的候选实体，候选实体包括人名、组织机构名或日期。根据本发明的一个实施例，命名实体识别模型为序列标注模型。在该实施方式中，待识别的文本为“坚决反对YYY和ZZZ的XX言论”(YYY和ZZZ表示姓名，每个“X”和“Z”均代表一个汉字，且不限定各个“X”、各个“Z”所代表汉字必须相同或不同，XX言论为特定言论)。将该文本输入到序列标注模型后，得到该文本包括的候选实体为“YYY”和“ZZZ”。

其中，命名实体识别模型基于预先获取的实体训练数据集合进行模型训练，以便命名实体识别模型的输出指示输入文本中存在的候选实体。实体训练数据集合包括多条实体训练数据，每条实体训练数据包括第一训练文本和第二训练文本，第二训练文本为对第一训练文本中的候选实体进行实体标记后形成的文本。在基于预先获取的实体训练数据集合进行模型训练时，对实体训练数据集合中的各条实体训练数据，将实体训练数据中的第一训练文本作为输入，输入到命名实体识别模型，以得到命名实体识别模型输出的、第一训练文本对应的标记有候选实体的标记文本，基于实体训练数据中第一训练文本对应的标记文本和第二训练文本，调整命名实体识别模型的网络参数。具体的，可使用反向传播算法调整命名实体识别模型的网络参数。

关于命名实体识别模型的结构和训练过程，已在前述内容进行相关说明，此处不再赘述。此外，上述待识别的文本包括短信文本，但并不限于此，如微信消息文本、QQ消息文本等，也可以作为本申请中待识别的文本进行异常文本识别。

随后，进入步骤S620，将待识别的文本输入到主题识别模型中进行处理，以识别该文本的主题类别。根据本发明的一个实施例，可通过如下方式将待识别的文本输入到主题识别模型中进行处理，以识别该文本的主题类别。在该实施方式中，先将待识别的文本输入到主题识别模型中，以获取主题识别模型输出的、该文本对应的主题向量，主题向量包括该文本属于各主题类别的概率值，再将概率值最高的主题类别作为该文本的主题类别。其中，主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类中任一种。此外，关于主题识别模型的生成、学习和训练过程，已在前述内容进行相关说明，此处不再赘述。

待识别的文本输入到主题识别模型中进行处理，得到该文本对应的主题向量为{0.87，0.04，0.02，0.01，0.03，0.03}，其中，0.87，0.04，0.02，0.01，0.03和0.03分别为该文本的主题类别为涉政类、娱乐类、体育类、财经类、日常生活类和教育学习类的概率值。由此可知，涉政类这一主题类别的概率值最高，则该文本的主题类别为涉政类。

接下来，在步骤S630中，若该文本的主题类别对应于预设主题，则对该文本中的各候选实体，将候选实体对应的向量集输入到情感识别模型中，以获取该文本对候选实体的情感倾向。其中，向量集包括候选实体对应的词向量、该文本对应的主题向量以及该文本中所有候选实体对应的词向量。

根据本发明的一个实施例，情感识别模型包括多层感知器和与该多层感知器相连的分类器，可通过如下方式将候选实体对应的向量集输入到情感识别模型中，以获取该文本对候选实体的情感倾向。在该实施方式中，将候选实体对应的向量集作为输入，输入到多层感知器进行处理，将处理结果输入到分类器进行情感倾向概率计算，根据概率计算的结果，确定该文本对候选实体的情感倾向为正面或负面。其中，分类器优选为softmax分类器。

进而，由步骤S620可知，待识别的文本的主题类别对应于预设主题，则分别将候选实体“YYY”和“ZZZ”对应的向量集输入到情感识别模型中，以获取该文本对候选实体“YYY”和“ZZZ”的情感倾向。

对候选实体“YYY”而言，其对应的向量集包括候选实体“YYY”对应的词向量、该文本对应的主题向量以及候选实体“YYY”和“ZZZ”对应的词向量。将这一向量集输入到多层感知器进行处理，将处理结果输入到softmax分类器进行情感倾向概率计算，得到该文本对候选实体“YYY”的情感倾向为正面的概率为0.12，负面的概率为0.88，则可确定该文本对候选实体“YYY”的情感倾向为负面。

对候选实体“ZZZ”而言，其对应的向量集包括候选实体“ZZZ”对应的词向量、该文本对应的主题向量以及候选实体“YYY”和“ZZZ”对应的词向量。将这一向量集输入到多层感知器进行处理，将处理结果输入到softmax分类器进行情感倾向概率计算，得到该文本对候选实体“ZZZ”的情感倾向为正面的概率为0.15，负面的概率为0.85，则可确定该文本对候选实体“ZZZ”的情感倾向也为负面。

其中，情感识别模型基于预先获取的情感训练数据集合进行模型训练，以便情感识别模型的输出指示输入向量集对应的词所属的文本、对该词的情感倾向。

情感训练数据集合包括多条情感训练数据，每条情感训练数据包括情感训练文本，以及情感训练文本对其包括的各词的真实情感倾向。在基于预先获取的情感训练数据集合进行模型训练时，首先，对情感训练数据集合中的各条情感训练数据，将情感训练数据中情感训练文本进行分词处理，以得到相应的分词序列。然后，获取分词序列中各词的向量集，向量集包括对应词的词向量、情感训练文本对应的主题向量、以及情感训练文本包括的所有候选实体的词向量。对分词序列中的各词，将该词的向量集作为输入，输入情感识别模型，以得到情感识别模型输出的、情感训练文本对该词的情感倾向。最后，基于情感训练文本对该词的情感倾向和真实情感倾向，调整情感识别模型的网络参数。具体的，可使用反向传播算法调整多层感知器和/或分类器的网络参数。关于情感识别模型的结构和训练过程，已在前述内容进行相关说明，此处不再赘述。

最后，执行步骤S640，若情感倾向为负面，则判定该文本为预设主题下的异常文本。根据本发明的一个实施例，当该文本对其所包括的任一个候选实体的情感倾向为负面时，即可判断该文本为预设主题下的异常文本。而只有当该文本对其所包括的所有候选实体的情感倾向均为正面时，才能判定该文本不是预设主题下的异常文本，即该文本为预设主题下的正常文本。

由步骤S630可知，该文本对候选实体“YYY”的情感倾向为负面，对候选实体“ZZZ”的情感倾向也为负面，则可判定该文本为涉政类主题下的异常文本，即该文本为涉政文本。进一步的，若待识别的文本“坚决反对YYY和ZZZ的XX言论”为一条短信文本时，则基于方法600可确定该短信文本为涉政短信。

图7示出了根据本发明的一个实施例的异常文本识别装置700的示意图。在该实施方式中，预设主题为涉政类主题。如图7所示，装置700包括实体识别模块710、主题识别模块720、情感识别模块730和判定模块740。

实体识别模块710适于将待识别的文本输入到命名实体识别模型中进行处理，以确定该文本包括的候选实体，候选实体包括人名、组织机构名或日期。其中，待识别的文本包括短信文本。

根据本发明的一个实施例，命名实体识别模型为序列标注模型，命名实体识别模型基于预先获取的实体训练数据集合进行模型训练，以便命名实体识别模型的输出指示输入文本中存在的候选实体。实体训练数据集合包括多条实体训练数据，每条实体训练数据包括第一训练文本和第二训练文本，第二训练文本为对第一训练文本中的候选实体进行实体标记后形成的文本，实体识别模块710还适于基于预先获取的实体训练数据集合进行模型训练，具体的，对实体训练数据集合中的各条实体训练数据，将实体训练数据中的第一训练文本作为输入，输入到命名实体识别模型，以得到命名实体识别模型输出的、第一训练文本对应的标记有候选实体的标记文本，基于实体训练数据中第一训练文本对应的标记文本和第二训练文本，调整命名实体识别模型的网络参数。在该实施方式中，使用反向传播算法调整命名实体识别模型的网络参数。

主题识别模块720适于将待识别的文本输入到主题识别模型中进行处理，以识别该文本的主题类别。根据本发明的一个实施例，主题识别模块720进一步适于将待识别的文本输入到主题识别模型中，以获取主题识别模型输出的、该文本对应的主题向量，主题向量包括该文本属于各主题类别的概率值，将概率值最高的主题类别作为该文本的主题类别。在该实施方式中，主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类中任一种。

情感识别模块730适于当该文本的主题类别对应于预设主题时，对该文本中的各候选实体，将候选实体对应的向量集输入到情感识别模型中，以获取该文本对该候选实体的情感倾向。其中，向量集包括该候选实体对应的词向量、该文本对应的主题向量以及该文本中所有候选实体对应的词向量。

根据本发明的一个实施例，情感识别模型包括多层感知器和与多层感知器相连的分类器，情感识别模块730进一步适于将候选实体对应的向量集作为输入，输入到多层感知器进行处理，将处理结果输入到分类器进行情感倾向概率计算，根据概率计算的结果，确定该文本对该候选实体的情感倾向为正面或负面。

情感识别模型基于预先获取的情感训练数据集合进行模型训练，以便情感识别模型的输出指示输入向量集对应的词所属的文本、对该词的情感倾向。其中，情感训练数据集合包括多条情感训练数据，每条情感训练数据包括情感训练文本，以及情感训练文本对其包括的各词的真实情感倾向，情感识别模块730还适于基于预先获取的情感训练数据集合进行模型训练，具体的，对情感训练数据集合中的各条情感训练数据，将情感训练数据中情感训练文本进行分词处理，以得到相应的分词序列，获取分词序列中各词的向量集，向量集包括对应词的词向量、情感训练文本对应的主题向量、以及情感训练文本包括的所有候选实体的词向量，对分词序列中的各词，将词的向量集作为输入，输入情感识别模型，以得到情感识别模型输出的、情感训练文本对词的情感倾向，基于情感训练文本对词的情感倾向和真实情感倾向，调整情感识别模型的网络参数。在该实施方式中，使用反向传播算法调整多层感知器和/或分类器的网络参数。

判定模块740适于当情感倾向为负面时，判定该文本为预设主题下的异常文本。

关于异常文本识别具体步骤以及实施例，在基于图3～6的描述中已经详细公开，此处不再赘述。

现有的对一种主题下的文本进行异常文本识别的方法，多是将识别问题转化为二分类问题，标注该主题相关的文本，通过机器学习方法训练模型来识别文本，容易过分拟合人名等特征，识别结果正确率和可信度较低。根据本发明实施例的异常文本识别的技术方案，通过引入主题和情感分析的方法，避免过分拟合人名、组织机构名特征，分析待识别的文本的主题类别是否对应该主题，以及该文本对人名/组织机构名/日期的情感倾向，综合判断该文本为该主题下一类文本的概率，进一步提升了该主题下异常文本识别的准确率。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的异常文本识别方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种异常文本识别方法，包括：

将待识别的文本输入到命名实体识别模型，以确定所述文本包括的候选实体，所述候选实体包括人名、组织机构名或日期；

将待识别的文本输入到主题识别模型中进行处理，以识别所述文本的主题类别；

若所述文本的主题类别对应于预设主题，则对所述文本中的各候选实体，将所述候选实体对应的向量集输入到情感识别模型中，以获取所述文本对所述候选实体的情感倾向；

若所述情感倾向为负面，则判定所述文本为预设主题下的异常文本。

2.如权利要求1所述的方法，其中，所述将待识别的文本输入到主题识别模型中进行处理，以识别所述文本的主题类别，包括：

将待识别的文本输入到主题识别模型中，以获取所述主题识别模型输出的、所述文本对应的主题向量，所述主题向量包括所述文本属于各主题类别的概率值；

将概率值最高的主题类别作为所述文本的主题类别。

3.如权利要求2所述的方法，其中，所述向量集包括所述候选实体对应的词向量、所述文本对应的主题向量以及所述文本中所有候选实体对应的词向量。

4.如权利要求1所述的方法，其中，所述情感识别模型包括多层感知器和与所述多层感知器相连的分类器，所述将所述候选实体对应的向量集输入到情感识别模型中，以获取所述文本对所述候选实体的情感倾向，包括：

将所述候选实体对应的向量集作为输入，输入到所述多层感知器进行处理；

将处理结果输入到所述分类器进行情感倾向概率计算，根据概率计算的结果，确定所述文本对所述候选实体的情感倾向为正面或负面。

5.如权利要求1所述的方法，其中，所述命名实体识别模型为序列标注模型。

6.如权利要求5所述的方法，其中，所述命名实体识别模型基于预先获取的实体训练数据集合进行模型训练，以便所述命名实体识别模型的输出指示输入文本中存在的候选实体。

7.如权利要求6所述的方法，其中，所述实体训练数据集合包括多条实体训练数据，每条实体训练数据包括第一训练文本和第二训练文本，所述第二训练文本为对第一训练文本中的候选实体进行实体标记后形成的文本，基于预先获取的实体训练数据集合进行模型训练，包括：

对实体训练数据集合中的各条实体训练数据，将所述实体训练数据中的第一训练文本作为输入，输入到所述命名实体识别模型，以得到所述命名实体识别模型输出的、所述第一训练文本对应的标记有候选实体的标记文本；

基于所述实体训练数据中第一训练文本对应的标记文本和第二训练文本，调整所述命名实体识别模型的网络参数。

8.如权利要求7所述的方法，其中，所述调整所述命名实体识别模型的网络参数，包括：

使用反向传播算法调整所述命名实体识别模型的网络参数。

9.如权利要求4所述的方法，其中，所述情感识别模型基于预先获取的情感训练数据集合进行模型训练，以便所述情感识别模型的输出指示输入向量集对应的词所属的文本、对所述词的情感倾向。

10.如权利要求9所述的方法，其中，所述情感训练数据集合包括多条情感训练数据，每条情感训练数据包括情感训练文本，以及所述情感训练文本对其包括的各词的真实情感倾向，所述基于预先获取的情感训练数据集合进行模型训练，包括：

对情感训练数据集合中的各条情感训练数据，将所述情感训练数据中情感训练文本进行分词处理，以得到相应的分词序列；

获取所述分词序列中各词的向量集，所述向量集包括对应词的词向量、所述情感训练文本对应的主题向量、以及所述情感训练文本包括的所有候选实体的词向量；

对所述分词序列中的各词，将所述词的向量集作为输入，输入所述情感识别模型，以得到所述情感识别模型输出的、所述情感训练文本对所述词的情感倾向；

基于所述情感训练文本对所述词的情感倾向和真实情感倾向，调整所述情感识别模型的网络参数。

11.如权利要求10所述的方法，其中，所述调整所述情感识别模型的网络参数，包括：

使用反向传播算法调整所述多层感知器和/或分类器的网络参数。

12.如权利要求1所述的方法，其中，所述主题类别为涉政类、娱乐类、体育类、财经类、日常生活类、教育学习类中任一种。

13.如权利要求1所述的方法，其中，预设主题为涉政类主题。

14.如权利要求1所述的方法，其中，待识别的文本包括短信文本。

15.一种异常文本识别装置，包括：

实体识别模块，适于将待识别的文本输入到命名实体识别模型，以确定所述文本包括的候选实体，所述候选实体包括人名、组织机构名或日期；

主题识别模块，适于将待识别的文本输入到主题识别模型中进行处理，以识别所述文本的主题类别；

情感识别模块，适于当所述文本的主题类别对应于预设主题时，对所述文本中的各候选实体，将所述候选实体对应的向量集输入到情感识别模型中，以获取所述文本对所述候选实体的情感倾向；

判定模块，适于当所述情感倾向为负面时，判定所述文本为预设主题下的异常文本。

16.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-14所述的方法中的任一方法的指令。

17.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-14所述的方法中的任一方法。