CN108874776B - 一种垃圾文本的识别方法及装置 - Google Patents

一种垃圾文本的识别方法及装置 Download PDF

Info

Publication number
CN108874776B
CN108874776B CN201810594123.0A CN201810594123A CN108874776B CN 108874776 B CN108874776 B CN 108874776B CN 201810594123 A CN201810594123 A CN 201810594123A CN 108874776 B CN108874776 B CN 108874776B
Authority
CN
China
Prior art keywords
text
trained
matrix
word vector
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810594123.0A
Other languages
English (en)
Other versions
CN108874776A (zh
Inventor
都金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810594123.0A priority Critical patent/CN108874776B/zh
Publication of CN108874776A publication Critical patent/CN108874776A/zh
Application granted granted Critical
Publication of CN108874776B publication Critical patent/CN108874776B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种垃圾文本的识别方法,涉及信息处理技术领域,用以在节省人工操作的基础上精准地识别垃圾文本,本发明的实施例包括:将待训练文本转化为词向量矩阵,然后通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将深度学习模型训练为垃圾文本识别模型,深度学习模型包括卷积神经网络和双向循环神经网络,进而当接收到待识别文本时,通过垃圾文本识别模型识别待识别文本是否为垃圾文本。

Description

一种垃圾文本的识别方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种垃圾文本的识别方法及装置。
背景技术
随着用户使用视频网站的频率越来越高,使用时长也越来长,用户在视频网站上生成的用户原创内容(User Generated Content,UGC)文本内容量也以***式的速度增长。例如,视频网站中出现的弹幕、评论、直播聊天室等都是以文字为主体的产品,用户使用视频网站中的这些功能的过程中,可以产生海量的文本。
然而在海量的UGC文本中,往往还存在大量的垃圾文本,例如广告、辱骂文字、负面舆论信息、色情内容等,在传统方法中,可以通过大量的人工操作来添加关键词,通过关键词来过滤垃圾文本,然而黑产为了避开关键词经常对文本进行变更字形、变更字音等操作,导致无法精准地识别出垃圾文本。
发明内容
本发明实施例的目的在于提供一种垃圾文本的识别方法及装置,用以在节省人工操作的基础上精准地识别垃圾文本。
具体技术方案如下:
第一方面,本发明实施例提供一种垃圾文本的识别方法,包括:
将待训练文本转化为词向量矩阵;
通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将所述深度学习模型训练为垃圾文本识别模型,所述深度学习模型包括卷积神经网络和双向循环神经网络;
当接收到待识别文本时,通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本。
在一种可能的实现方式中,所述将待训练文本转化为词向量矩阵,包括:
对所述待训练文本进行分词;
从所述待训练文本中截取预设数量的词,若所述待训练文本中的词的数量小于所述预设数量,则将所述待训练文本中的词补齐至所述预设数量;
确定所述预设数量的词对应的词向量;
将所述词向量构建为所述待训练文本的词向量矩阵。
在一种可能的实现方式中,所述通过深度学习模型处理每个待训练文本对应的词向量矩阵,包括:
通过所述卷积神经网络对所述词向量矩阵进行卷积,得到所述待训练文本的特征矩阵;
通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量;
通过激活函数处理所述待训练文本的特征向量,确定所述待训练文本属于各文本类型的概率,所述文本类型至少包括垃圾文本和正常文本。
在一种可能的实现方式中,所述通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量,包括:
将所述待训练文本的特征矩阵输入双向循环神经网络;
通过正向LSTM正向读取并处理输入的矩阵,得到所述待训练文本的第一特征向量;
通过反向LSTM反向读取并处理输入的矩阵,得到所述待训练文本的第二特征向量;
将所述第一特征向量和所述第二特征向量进行拼接,得到所述待训练文本的特征向量。
在一种可能的实现方式中,所述当接收到待识别文本时,通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本,包括:
将所述待识别文本转化为词向量矩阵;
通过所述垃圾文本识别模型处理所述待识别文本对应的词向量矩阵,确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
第二方面,本发明实施例提供了一种垃圾文本的识别装置,其特征在于,包括:
转化模块,用于将待训练文本转化为词向量矩阵,所述待训练文本包括正常文本和各类垃圾文本;
处理模块,用于通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将所述深度学习模型训练为垃圾文本识别模型,所述深度学习模型包括卷积神经网络和双向循环神经网络;
接收模块,用于接收待识别文本;
识别模块,用于当所述接收模块接收到待识别文本时,通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本。
在一种可能的实现方式中,所述转化模块,具体用于对所述待训练文本进行分词;从所述待训练文本中截取预设数量的词,若所述待训练文本中的词的数量小于所述预设数量,则将所述待训练文本中的词补齐至所述预设数量;确定所述预设数量的词对应的词向量;将所述词向量构建为所述待训练文本的词向量矩阵。
在一种可能的实现方式中,所述处理模块,具体用于通过所述卷积神经网络对所述词向量矩阵进行卷积,得到所述待训练文本的特征矩阵;通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量;通过激活函数处理所述待训练文本的特征向量,确定所述待训练文本的属于各文本类型的概率,所述文本类型至少包括垃圾文本和正常文本。
在一种可能的实现方式中,所述处理模块,具体还用于将所述待训练文本的特征矩阵输入双向循环神经网络;通过正向LSTM正向读取并处理输入的矩阵,得到所述待训练文本的第一特征向量;通过反向LSTM反向读取并处理输入的矩阵,得到所述待训练文本的第二特征向量;将所述第一特征向量和所述第二特征向量进行拼接,得到所述待训练文本的特征向量。
在一种可能的实现方式中,所述识别模块,具体用于将所述接收模块接收的待识别文本转化为词向量矩阵;通过所述垃圾文本识别模型处理所述待识别文本对应的词向量矩阵,确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
第三方面,本发明实施例还提供一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明实施例提供的方法及装置,可通过深度学习模型对待训练文本进行处理,根据处理结果将深度学习模型训练为垃圾文本识别模型,进而使用垃圾文本识别模型模型识别接收到的文本是否为垃圾文本,由于采用卷积神经网络和双向循环神经网络对文本进行处理时,能够更好地获取待训练文本的句子表征,由此训练出的垃圾文本识别模型也能够更加精确的识别待识别文本的句子表征,进而更精准地对待识别文本进行分类,相比于现有技术提高了对垃圾文本识别的准确性,且采用该方法无需人工抽取大量的关键词及句子特征,可以减少人工操作的工作量。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种垃圾文本的识别方法的流程图;
图2为本发明实施例提供的一种垃圾文本的识别方法的示例性示意图;
图3为本发明实施例提供的一种垃圾文本的识别装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了在节省人工操作的基础上更加精准地识别垃圾文本,本发明实施例中,可以将待训练文本转化为词向量矩阵,然后通过深度学习模型对待训练文本进行处理,根据处理结果将深度学习模型训练为垃圾文本识别模型,进而可通过该垃圾文本识别模型识别用户输入的文本是否为垃圾文本。本发明实施例通过将卷积神经网络和双向循环神经网络结合使用,更好地获得待训练文本的句子表征,进而使得训练出的深度学习模型的分类性能更好,相比于通过匹配关键词识别垃圾文本的方法,大大提高了垃圾文本识别的准确性。
如图1所示,本发明实施例提供了一种垃圾文本的识别方法,该方法可以由能够与视频网站后台通信的服务器执行,也可以由视频网站的后台执行,该方法包括:
S101、将待训练文本转化为词向量矩阵。
其中,待训练文本可以包括正常文本和垃圾文本,可选地,还可以区分垃圾文本的类型,例如将垃圾文本分为广告类文本、负面舆论类文本等。
可选地,用于训练垃圾文本识别模型的待训练文本的数量可以为百万级的,例如可输入100万条垃圾文本以及100万条正常文本。
将待训练文本转化为词向量矩阵的过程相当于对待训练文本进行预处理的过程,可以理解的是,本发明实施例可分别对每条待训练文本进行预处理,对每条待训练文本进行预处理的过程如下:
第一步,对待训练文本进行分词,分词后各个词之间可用空格隔开,将每个词看做一个单元。
例如,待训练文本为“买会员加我微信”,分词后的结果为“买会员加我微信”。
第二步,从待训练文本中截取第一预设数量的词,若待训练文本中的词的数量小于第一预设数量,则将待训练文本中的词补齐至第一预设数量。
其中,若对待训练文本进行分词后,待训练文本的词的数量超出了第一预设数量,则可截取文本中的前第一预设数量的词,例如截取前50个词。可选地,若待训练文本的数量过长,为了提高训练的准确度,也可以截取文本中的前第一预设数量的词和后第一预设数量的词,例如截取待训练文本的前50个词和后50个词,将其余的词丢弃,后续分别对前50个词和后50个词进行处理。
若对待训练文本进行分词后,待训练文本的词的数量小于第一预设数量,则可将该待训练文本中词的数量补齐至第一预设数量。例如,若待训练文本中词的数量为45,则可在待训练文本后补5个0,从而补齐50个词。
第三步,确定预设数量的词中的每个词对应的词向量,具体是指分别将待训练文本中的每个词随机初始化为一个词向量,例如,可以分别将每个词均初始化为256维的词向量。
上述三步为对待训练文本进行预处理的过程,在完成预处理后,还需通过输入层执行下面的第四步。
第四步,将第三步得到的词向量构建为待训练文本的词向量矩阵。
例如,若将待训练文本中的前50个词中的每个词分别转化为了一个256维词向量,则利用这些待训练文本构建一个50×256维的词向量矩阵。
S102、通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将深度学习模型训练为垃圾文本识别模型。
其中,深度学习模型包括卷积申请网络和双向循环神经网络。
具体的,可参考图2,首先可通过卷积神经网络对词向量矩阵进行卷积,得到待训练文本的特征矩阵。
其中,通过卷积神经网络对词向量矩阵进行卷积具体可以实现为,使用卷积模板对词向量矩阵中各指定组的词向量组成的矩阵,例如词向量矩阵中的第一个、第二个、第三个词向量为第一组,第二个、第三个、第四个词向量为第二组,按照这种方式可以将50个词向量分为48组,即得到48个词向量矩阵。
然后可使用3×256维的一维卷积模板依次对48个词向量进行卷积,得到一个包含48个元素的列向量,分别使用64个3×256维的一维卷积模板进行上述卷积操作,即可得到64个列向量,可组合成一个48×64维的矩阵,然后使用修正线性单元(Rectified linearunit,ReLU)激活函数抽取3-gram(三元)特征,得到一个48×64维的特征矩阵,由于矩阵中的每一列都是按照待训练文本中的词向量从前到后的顺序卷积得到的,所以该特征矩阵在纵轴方向上具有时序性,该特征矩阵将被输入到下一层的双向循环神经网络。其中,通过卷积神经网络对待训练文本对应的词向量矩阵进行处理,得到的特征矩阵能够更好地反映待训练文本的局部特征,即更能够反映待训练文本中词语的语义。
然后,可通过双向循环神经网络处理所述待训练文本的特征矩阵,得到待训练文本的特征向量。
其中,本发明实施例中的双向循环神经网络可采用长短时记忆神经网络(LongShort-Term Memory,LSTM),可以解决传统循环神经网络的梯度***或者消失问题。具体的,可将待训练文本的特征矩阵输入双向循环神经网络,然后正向LSTM可正向读取待训练文本的特征序列,即按照从前到后的顺序,依次读取并处理特征矩阵中的每一行,得到一个长度为128维的句子特征向量,该特征向量相比于序列头部更能够表示读取的序列尾部的语义,反向LSTM可反向读取待训练文本的特征序列,即按照从后到前的顺序依次读取并处理特征矩阵中的每一行,得到一个长度为128维的句子特征向量,该特征向量相比与序列尾部更能表示读取的序列头部的语义。然后将正向LSTM输出的128维的句子特征向量的尾部和反向LSTM输出的128维的句子特征向量的头部进行拼接,得到一个256维的特征向量,用于表示待训练文本的语义。通过双向循环神经网络处理得到的句子特征向量能够更好的反映待训练文本的长距离特征,即更能够反映待训练文本的句子的语义。
之后,为了防止过拟合,还可通过dropout层对256维的特征向量进行处理,以删除隐藏的神经单元,例如,可采用0.5的dropout方案对256维的特征向量进行处理,随机将特征向量中50%的维度的参数设置为0,即将其中的128维的参数设置为0。
然后,再通过具有分类功能的激活函数处理所述待训练文本的特征向量,确定所述待训练文本的分类。
可选地,可以将S型(sigmoid)函数作为激活函数将待训练文本进行二分类,即将待训练文本分为正常文本和垃圾文本两类,也可将softmax函数作为激活函数将待训练文本分为多类,例如将待训练文本分为正常文本、广告文本、负面舆论文本等。需要说明的是,采用softmax函数可以输出待训练文本属于各类文本的概率。
根据对每个待训练文本的分类结果,调整深度学习模型中的参数,以得到能够更加准确地识别垃圾文本的垃圾文本识别模型。
S103、当接收到待识别文本时,通过垃圾文本识别待识别文本是否为垃圾文本。
具体的,视频网站的后台接收到用户输入的文本后,可将用户输入的文本作为待识别文本发送给用于训练垃圾文本识别模型的服务器,在服务器接收到待识别文本后,可先将待识别文本转化为词向量矩阵,转化方法与上文中描述的将待训练文本转化为词向量矩阵的方法相同,可参考上文中的相关描述。
然后通过垃圾文本识别模型处理待识别文本对应的词向量矩阵,确定待识别文本属于各类型的概率,换言之,将待识别文本对应的特征矩阵输入垃圾文本识别模型,垃圾文本识别模型即可输出待识别文本属于各类型的概率。之后,若待识别文本属于垃圾文本的概率大于预设值,则可确定待识别文本为垃圾文本。
示例性地,若垃圾文本识别模型输出的结果为待识别文本属于广告文本的概率为90%,则可确定该待识别文本为垃圾文本,进而可过滤掉该文本,不显示在待视频网站的显示界面上。
可见,通过本发明实施例提供的方法,可通过深度学习模型对待训练文本进行处理,根据处理结果将深度学习模型训练为垃圾文本识别模型,进而使用垃圾文本识别模型识别接收到的文本是否为垃圾文本,由于采用卷积神经网络和双向循环神经网络对文本进行处理时,能够更好地获取待训练文本的句子表征,由此训练出的垃圾文本识别模型也能够更加精确的识别待识别文本的句子表征,进而更精准地对待识别文本进行分类,相比于现有技术提高了对垃圾文本识别的准确性。
此外,直接采用垃圾文本识别模型识别垃圾文本,无需人工进行添加关键词,减少了人工操作的工作量,且维护成本较低。
对应于上述方法实施例,本发明实施例还提供一种垃圾文本的识别装置,如图3所示,该装置包括:转化模块301、处理模块302、接收模块303和识别模块304。
其中,转化模块301,用于将待训练文本转化为词向量矩阵,待训练文本包括正常文本和各类垃圾文本;
处理模块302,用于通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将深度学习模型训练为垃圾文本识别模型,深度学习模型包括卷积神经网络和双向循环神经网络;
接收模块303,用于接收待识别文本;
识别模块304,用于当接收模块303接收到待识别文本时,通过垃圾文本识别模型识别待识别文本是否为垃圾文本。
可选地,转化模块301,具体用于对待训练文本进行分词;从待训练文本中截取预设数量的词,若待训练文本中的词的数量小于预设数量,则将待训练文本中的词补齐至预设数量;确定预设数量的词对应的词向量;将词向量构建为待训练文本的词向量矩阵。
可选地,处理模块302,具体用于通过卷积神经网络对词向量矩阵进行卷积,得到待训练文本的特征矩阵;通过双向循环神经网络处理待训练文本的特征矩阵,得到待训练文本的特征向量;通过激活函数处理待训练文本的特征向量,确定待训练文本的属于各文本类型的概率,文本类型至少包括垃圾文本和正常文本。
可选地,处理模块302,具体还用于将待训练文本的特征矩阵输入双向循环神经网络;通过正向LSTM正向读取并处理输入的矩阵,得到待训练文本的第一特征向量;通过反向LSTM反向读取并处理输入的矩阵,得到待训练文本的第二特征向量;将第一特征向量和第二特征向量进行拼接,得到待训练文本的特征向量。
可选地,识别模块304,具体用于将接收模块303接收的待识别文本转化为词向量矩阵;通过垃圾文本识别模型处理待识别文本对应的词向量矩阵,确定待识别文本属于各文本类型的概率,文本类型至少包括正常文本和垃圾文本;若待识别文本属于垃圾文本的概率大于预设值,则确定待识别文本为垃圾文本。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述方法实施例描述的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一垃圾文本识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一垃圾文本的识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种垃圾文本的识别方法,其特征在于,包括:
将待训练文本转化为词向量矩阵;
通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将所述深度学习模型训练为垃圾文本识别模型,所述深度学习模型包括卷积神经网络和双向循环神经网络;所述深度学习模型对所述词向量矩阵进行处理的步骤为:将所述词向量矩阵输入至所述卷积神经网络,所述卷积神经网络对所述词向量矩阵中的词向量进行分组,得到第一预设数量个分组后的词向量矩阵,使用第二预设数量个一维卷积模板依次对所述分组后的词向量矩阵进行卷积,得到所述第二预设数量个列向量,将所述第二预设数量个列向量组成组合矩阵,使用修正线性单元激活函数抽取对所述组合矩阵进行特征抽取,得到特征矩阵;将所述特征矩阵输入到所述双向循环神经网络进行处理,得到待训练文本的特征向量;
当接收到待识别文本时,通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本;
所述通过深度学习模型处理每个待训练文本对应的词向量矩阵,包括:
通过所述卷积神经网络对所述词向量矩阵进行卷积,得到所述待训练文本的特征矩阵;
通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量;
通过激活函数处理所述待训练文本的特征向量,确定所述待训练文本属于各文本类型的概率,所述文本类型至少包括垃圾文本和正常文本。
2.根据权利要求1所述的方法,其特征在于,所述将待训练文本转化为词向量矩阵,包括:
对所述待训练文本进行分词;
从所述待训练文本中截取预设数量的词,若所述待训练文本中的词的数量小于所述预设数量,则将所述待训练文本中的词补齐至所述预设数量;
确定所述预设数量的词对应的词向量;
将所述词向量构建为所述待训练文本的词向量矩阵。
3.根据权利要求1所述的方法,其特征在于,所述通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量,包括:
将所述待训练文本的特征矩阵输入双向循环神经网络;
通过正向长短时记忆神经网络LSTM正向读取并处理输入的矩阵,得到所述待训练文本的第一特征向量;
通过反向LSTM反向读取并处理输入的矩阵,得到所述待训练文本的第二特征向量;
将所述第一特征向量和所述第二特征向量进行拼接,得到所述待训练文本的特征向量。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述当接收到待识别文本时,通过所述垃圾文本识别模型识别所述待识别文本是否为垃圾文本,包括:
将所述待识别文本转化为词向量矩阵;
通过所述垃圾文本识别模型处理所述待识别文本对应的词向量矩阵,确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
5.一种垃圾文本的识别装置,其特征在于,包括:
转化模块,用于将待训练文本转化为词向量矩阵,所述待训练文本包括正常文本和各类垃圾文本;
处理模块,用于通过深度学习模型处理每个待训练文本对应的词向量矩阵,根据对每个待训练文本对应的词向量的处理结果,将所述深度学习模型训练为垃圾文本识别模型,所述深度学习模型包括卷积神经网络和双向循环神经网络;所述深度学习模型对所述词向量矩阵进行处理的步骤为:将所述词向量矩阵输入至所述卷积神经网络,所述卷积神经网络对所述词向量矩阵中的词向量进行分组,得到第一预设数量个分组后的词向量矩阵,使用第二预设数量个一维卷积模板依次对所述分组后的词向量矩阵进行卷积,得到所述第二预设数量个列向量,将所述第二预设数量个列向量组成组合矩阵,使用修正线性单元激活函数抽取对所述组合矩阵进行特征抽取,得到特征矩阵;将所述特征矩阵输入到所述双向循环神经网络进行处理,得到待训练文本的特征向量;
接收模块,用于接收待识别文本;
识别模块,用于当所述接收模块接收到待识别文本时,通过所述深度学习模型识别所述待识别文本是否为垃圾文本;
所述处理模块,具体用于通过所述卷积神经网络对所述词向量矩阵进行卷积,得到所述待训练文本的特征矩阵;通过双向循环神经网络处理所述待训练文本的特征矩阵,得到所述待训练文本的特征向量;通过激活函数处理所述待训练文本的特征向量,确定所述待训练文本的属于各文本类型的概率,所述文本类型至少包括垃圾文本和正常文本。
6.根据权利要求5所述的装置,其特征在于,
所述转化模块,具体用于对所述待训练文本进行分词;从所述待训练文本中截取预设数量的词,若所述待训练文本中的词的数量小于所述预设数量,则将所述待训练文本中的词补齐至所述预设数量;确定所述预设数量的词对应的词向量;将所述词向量构建为所述待训练文本的词向量矩阵。
7.根据权利要求5所述的装置,其特征在于,
所述处理模块,具体还用于将所述待训练文本的特征矩阵输入双向循环神经网络;通过正向长短时记忆神经网络LSTM正向读取并处理输入的矩阵,得到所述待训练文本的第一特征向量;通过反向LSTM反向读取并处理输入的矩阵,得到所述待训练文本的第二特征向量;将所述第一特征向量和所述第二特征向量进行拼接,得到所述待训练文本的特征向量。
8.根据权利要求5至7中任一项所述的装置,其特征在于,
所述识别模块,具体用于将所述接收模块接收的待识别文本转化为词向量矩阵;通过所述垃圾文本识别模型处理所述待识别文本对应的词向量矩阵,确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
CN201810594123.0A 2018-06-11 2018-06-11 一种垃圾文本的识别方法及装置 Active CN108874776B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810594123.0A CN108874776B (zh) 2018-06-11 2018-06-11 一种垃圾文本的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810594123.0A CN108874776B (zh) 2018-06-11 2018-06-11 一种垃圾文本的识别方法及装置

Publications (2)

Publication Number Publication Date
CN108874776A CN108874776A (zh) 2018-11-23
CN108874776B true CN108874776B (zh) 2022-06-03

Family

ID=64338717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810594123.0A Active CN108874776B (zh) 2018-06-11 2018-06-11 一种垃圾文本的识别方法及装置

Country Status (1)

Country Link
CN (1) CN108874776B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291561B (zh) * 2018-12-07 2023-04-18 阿里巴巴集团控股有限公司 文本识别方法、装置和***
CN109743732B (zh) * 2018-12-20 2022-05-10 重庆邮电大学 基于改进的cnn-lstm的垃圾短信判别方法
CN111368838A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种举报截图的识别方法及装置
CN110162620B (zh) * 2019-01-10 2023-08-18 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
CN109858039B (zh) * 2019-03-01 2023-09-05 北京奇艺世纪科技有限公司 一种文本信息识别方法及识别装置
CN109977416B (zh) * 2019-04-03 2023-07-25 中山大学 一种多层次自然语言反垃圾文本方法及***
CN110134961A (zh) * 2019-05-17 2019-08-16 北京邮电大学 文本的处理方法、装置和存储介质
CN110321554A (zh) * 2019-06-03 2019-10-11 任子行网络技术股份有限公司 基于Bi-LSTM的不良文本检测方法及装置
CN110298041B (zh) * 2019-06-24 2023-09-05 北京奇艺世纪科技有限公司 垃圾文本过滤方法、装置、电子设备及存储介质
CN110399611A (zh) * 2019-07-03 2019-11-01 深兰科技(上海)有限公司 一种文本分析方法、装置及存储介质
CN110418210B (zh) * 2019-07-12 2021-09-10 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN110705251B (zh) * 2019-10-14 2023-06-16 支付宝(杭州)信息技术有限公司 计算机执行的文本分析方法及装置
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN111241820A (zh) * 2020-01-14 2020-06-05 平安科技(深圳)有限公司 不良用语识别方法、装置、电子装置及存储介质
CN112242185A (zh) * 2020-09-09 2021-01-19 山东大学 基于深度学习的医学图像报告自动生成方法及***
CN112529302A (zh) * 2020-12-15 2021-03-19 中国人民大学 专利申请授权成功率的预测方法、***及电子设备
CN112528657A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于双向lstm的文本意图识别方法及装置、服务器和介质
CN113920426A (zh) * 2021-09-17 2022-01-11 山东浪潮科学研究院有限公司 基于cnn和lstm的智能病虫害识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN107835496A (zh) * 2017-11-24 2018-03-23 北京奇虎科技有限公司 一种垃圾短信的识别方法、装置和服务器

Also Published As

Publication number Publication date
CN108874776A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN108874776B (zh) 一种垃圾文本的识别方法及装置
CN108874777B (zh) 一种文本反垃圾的方法及装置
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN109858039B (zh) 一种文本信息识别方法及识别装置
WO2019236164A1 (en) Method and apparatus for determining user intent
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN111274394A (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN110223675B (zh) 用于语音识别的训练文本数据的筛选方法及***
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111125354A (zh) 文本分类方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN110929025A (zh) 垃圾文本的识别方法、装置、计算设备及可读存储介质
CN105956740B (zh) 一种基于文本逻辑特征的语义风险计算方法
CN110298041B (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN112329824A (zh) 多模型融合训练方法、文本分类方法以及装置
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
WO2023240878A1 (zh) 一种资源识别方法、装置、设备以及存储介质
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与***
CN111782793A (zh) 智能客服处理方法和***及设备
CN103605690A (zh) 一种即时通信中识别广告消息的装置和方法
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN112395421A (zh) 课程标签的生成方法、装置、计算机设备及介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN111198943B (zh) 一种简历筛选方法、装置及终端设备
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant