CN107515877A

CN107515877A - 敏感主题词集的生成方法和装置

Info

Publication number: CN107515877A
Application number: CN201610431062.7A
Authority: CN
Inventors: 王经委; 张杰伟; 张霄; 欧林鑫; 罗伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2017-12-26
Anticipated expiration: 2036-06-16
Also published as: CN107515877B

Abstract

本发明实施例公开了一种敏感主题词集的生成方法和装置。所述方法包括：根据用户的敏感查询语句构建主题词库；根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量；基于所述各主题词及对应的上下文词向量，生成敏感主题词集。本发明实施例的技术方案，实现了根据用户的查询语句对敏感词数量有限的敏感词表进行主题扩充，得到属于相同主题且具有上下文关系的词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

Description

敏感主题词集的生成方法和装置

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种敏感主题词集的生成方法和装置。

背景技术

随着互联网的飞速发展，基于文本的网络服务已经深入到人们生活的各个方面。由于网络文本服务具有内容丰富、互动性强、实时性强的优势，基于文本的网络服务早已成为移动互联网的一项重要业务。

但是网络文本服务在给人们带来便利的同时，不可避免地也会散播一些未经证实的消息或不良内容，很多情况下均会出现违反国家法律法规并损害公众利益的言行，如：政治敏感、色情词汇等等，为了维护国家法律和公民权益，营造一个良好的互联网使用环境，越来越多的网络文本服务中集成了敏感词识别并过滤的功能。例如搜索引擎的一项重要任务就是识别并过滤用户的查询语句中的敏感词。现有的敏感词识别技术一般是通过建立色情词表，将查询语句中的词与所述色情词表中的词一一匹配，进而判断查询语句中是否含有敏感词，但是这种方法一方面对于查询语句中出现的新词无法判断，另一方面对于查询语句中的歧义词可能错误判断。

发明内容

有鉴于此，本发明实施例提供一种敏感主题词集的生成方法和装置，以根据用户的敏感查询语句得到属于相同主题且具有上下文关系的主题词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

在第一方面，本发明实施例提供了一种敏感主题词集的生成方法，所述方法包括：

根据用户的敏感查询语句构建主题词库；

根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量；

基于所述各主题词及对应的上下文词向量，生成敏感主题词集。

在第二方面，本发明实施例还提供了一种敏感词识别方法，所述方法包括：

获取用户输入的查询式；

根据所述查询式，以及通过本发明实施例所述的敏感主题词集的生成方法生成的所述敏感主题词集，生成观测序列；

将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中；

根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

在第三方面，本发明实施例提供了一种敏感主题词集的生成装置，所述装置包括：

主题词库构建模块，用于根据用户的敏感查询语句构建主题词库；

上下文词向量计算模块，用于根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量；

敏感主题词集生成模块，用于基于所述各主题词及对应的上下文词向量，生成敏感主题词集。

在第四方面，本发明实施例还提供了一种敏感词识别装置，所述装置包括：

查询式获取模块，用于获取用户输入的查询式；

观测序列生成模块，用于根据所述查询式，以及通过本发明实施例所述的敏感主题词集的生成装置生成的所述敏感主题词集，生成观测序列；

观测序列输入模块，用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中；

敏感词识别模块，用于根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

本发明实施例通过根据用户的敏感查询语句构建主题词库，然后根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量，并基于所述各主题词及对应的上下文词向量，生成敏感主题词集的技术手段，得到属于相同主题且具有上下文关系的词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

附图说明

图1是本发明第一实施例的一种敏感主题词集的生成方法的流程图；

图2是本发明第二实施例的一种敏感主题词集的生成方法的流程图；

图3是本发明第三实施例的一种敏感主题词集的生成方法的流程图；

图4是本发明第三实施例的各主题词之间的相邻矩阵的示意图；

图5是本发明第四实施例的一种敏感词识别方法的流程图；

图6是本发明第五实施例的一种敏感词识别方法的流程图；

图7是本发明第六实施例的一种敏感词识别方法的流程图；

图8是本发明第七实施例的一种敏感主题词集的生成装置的结构图；

图9是本发明第八实施例的一种敏感词识别装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

第一实施例

图1为本发明第一实施例提供的一种敏感主题词集的生成方法的流程图，本实施例的方法可以由敏感主题词集的生成装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于用于过滤用户查询语句的搜索引擎服务器中。本实施例的方法具体包括：

110、根据用户的敏感查询语句构建主题词库。

在本实施例中，所述敏感查询语句具体是指包括有一个或者多个敏感词的查询语句。

其中，可以首先获取用户的大量查询日志，之后通过对查询日志中包括的查询语句通过人工标注的方式，识别并获取所述敏感查询语句；

还可以通过将线下查询日志中包括的用户历史查询语句或者用户实时输入的查询语句，与预先构建的敏感种子词表进行比对的方式，识别并获取所述敏感查询语句。

示例性地，所述根据用户的敏感查询语句构建主题词库，可以包括：对所述敏感查询语句进行分词；根据分词结果构建所述主题词库。

典型的，可以将敏感查询语句中的全部分词，均存储于所述主题词库中，也可以仅获取所述敏感查询语句中设定词性的分词(典型的，名词以及动词)，存储于所述主题词库中，还可以统计分词的出现频率，将大量敏感查询语句中均包括的分词，存储于所述主题词库中，本实施例对此并不进行限制。

例如：对用户的敏感查询语句——“我要看***影”进行分词得到：“我”、“要看”、“激情”、“电影”，由所述分词去构建所述主题词库。

进一步地，所述根据分词结果构建所述主题词库，可以包括：计算所述分词结果中包括的分词总数量；在所述分词结果中，统计各分词的词频数；分别计算各分词的词频数与所述分词总数量的权重比值；将权重比值满足设定阈值条件的分词，确定为所述主题词库中的主题词。

例如：通过统计用户的大量敏感查询语句得到的结果如下：分词总数量为10000，分词A出现的次数为1000，分词B出现的总次数为100，设定阈值条件为权重比值大于等于0.1，则分词A的权重比值为1000/10000＝0.1，分词B的权重比值为100/10000＝0.01，分词A满足设定阈值条件，分词B不满足设定阈值条件，则将分词A存储于所述主题词库，不对分词B进行存储操作。其余的分词也按照上述规则进行筛选，通过筛选的所有词构建所述主题词库。

可选的，所述用户的敏感查询语句可以是通过基于预先构建的敏感种子词表，从用户历史查询语句中获取所述敏感查询语句。

其中，所述敏感种子词表中包括至少一个敏感种子词，所述敏感种子词可以是指政治敏感词或者色情敏感词。所述预先构建的敏感种子词表可以是对已有的敏感词库的直接调用，还可以是根据常用的敏感词汇直接创建。

示例性地，所述预先构建敏感种子词表，可以包括：筛选设定数量的敏感种子词，建立敏感种子词表。

其中，所述设定数量的敏感种子词可以是从已有的敏感词库中依据各敏感词的使用频率进行筛选的，也可以是技术人员根据特定的应用场景人为进行筛选设置，例如某一搜索引擎需要对关于敏感人员的家庭住址或者家庭成员的信息进行筛选过滤，此时技术人员则需要人为地进行敏感种子词的设定。

由于不管是直接调用已有的敏感词库还是根据常用的敏感词汇直接创建的敏感词表中的敏感词的数量都是有限的，而随着网络的发展，网络新用语不断涌现，导致已有的敏感词库或者直接创建的敏感词表始终无法包含用户查询语句中的所有敏感词，因此需要根据用户的查询语句对敏感种子词表进行主题扩充，将用户查询语句中包含所述敏感种子词的语句过滤出来，由构成所述语句的分词构建主题词库。

示例性地，基于预先构建的敏感种子词表，从用户历史查询语句中获取所述敏感查询语句，可以包括：

将用户的查询语句与所述种子词表中的种子词进行匹配，获取包含所述种子词的敏感语句。

例如，用户的查询语句为“我要看***影”，假设种子词表中包含种子词“激情”，通过匹配获取了该用户的查询语句“我要看***影”。

再例如，用户的查询语句为“XX激情”，敏感种子词表中包含“激情”，通过将用户的查询语句与敏感种子词表中的敏感词进行匹配，得知用户的查询语句中包含敏感种子词“激情”，因此将此用户查询语句——“XX激情”过滤出来，作为语料，按照一定的规则去构建主题词库，从而使主题词库中包含了网络新词“XX”。

120、根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量。

因为有些词语是多义词，在不同的上下文语境中具有不同的含义，例如“激情”与“工作”、“奋斗”等词语搭配时构成“工作激情”或者“奋斗激情”，此时“激情”的主题含义为一种积极向上的斗志；而当“激情”与“图片”或者“男女”等词语搭配时构成“激情图片”或者“男***”时，此时“激情”的主题含义为色情，属于敏感词汇，需要被识别过滤，以营造良好的网络环境；因此为了准确地识别一些多义词是不是敏感词，需要根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量。

其中，统计所述主题词库中包括的各主题词之间的上下文关系可以通过计算每两个主题词之间以上下文关系出现的频率实现，进一步通过对每一个主题词出现在其他各主题词前后的频率进行归一化得到该主题词对应的上下文词向量。例如通过统计多个用户通过搜索引擎输入的查询式得知：主题词“激情”出现的次数为1000次，在“激情”前后面出现主题词“图片”的次数为100次，则“激情”与“图片”的上下文关系为100/1000＝0.1。主题词“男女”出现的次数为10000次，在“男女”前后面出现主题词“图片”的次数为100次，则“男女”与“图片”的上下文关系为100/1000＝0.01。

130、基于所述各主题词及对应的上下文词向量，生成敏感主题词集。

其中，所述敏感主题词集可以由所述各主题词以及对应的上下文词向量直接构成。

本实施例通过根据用户的敏感查询语句构建主题词库，然后根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量，并基于所述各主题词及对应的上下文词向量，生成敏感主题词集的技术手段，实现了对敏感词数量有限的敏感词表进行主题扩充，得到属于相同主题且具有上下文关系的词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

第二实施例

图2是本发明第二实施例的一种敏感主题词集的生成方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，增加了根据与所述主题词对应的上下文词向量对所述主题词进行聚类，将属于同一聚类簇中的主题词归集于同一主题类别中的操作，这样优化的结果是：所述敏感主题词集由各主题词以及对应的主题类别组成，相应的，本实施例的方法具体包括：

210、根据用户的敏感查询语句构建主题词库。

220、根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量。

230、根据与所述主题词对应的上下文词向量对所述主题词进行聚类，将属于同一聚类簇中的主题词归集于同一主题类别中。

在本实施例中，优选的，根据与所述主题词对应的上下文词向量对所述主题词进行聚类，可以采用K-means(K均值)聚类算法对所述主题词对应的上下文词向量进行聚类，将所述主题词对应的上下文词向量归为有限个类，并对每一个类做相应地标记，最后将属于同一个类的上下文词向量对应的主题词存储于同一类中，即同一敏感主题词集中，其中不对所述类的数量进行限定。

K-means聚类算法是一种典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象(如本实施例中的上下文词向量)的距离越近，其相似度就越大，算法过程具体如下：

(1)从N个对象(在本实施例中对象具体指上下文词向量)中随机选取K个作为质心，其中N、K为正整数；

(2)计算剩余的每个对象到每个质心之间的距离，并将每个对象归类到离其最近的那个质心的类中；

其中，在本实施例中，所述计算剩余的每个对象到每个质心之间的距离其实质是计算每个上下文词向量与随机选取的K个上下文词向量之间的欧氏距离，将每个上下文词向量归类到距离其最近的那个类中。

(3)重新计算已经得到的各类的质心；

此步骤的实质是计算属于同一个类中的几个上下文词向量的均方差，将所述均方差作为新的类质心。

(4)迭代步骤(2)-(3)，直至每个类的新的质心与原质心相等，或与原质心之间的距离小于阈值，算法结束。

例如，对主题词“图片”对应的上下文词向量进行聚类得到的聚类簇中包括的主题词为“激情”、以及“男女”，且聚类簇的标记为s，则表示s聚类簇中的词属于同一主题类别——色情主题1，并且具有上下文关系。

240、基于所述各主题词以及对应的主题类别，生成敏感主题词集。

本发明实施例通过根据用户的敏感查询语句构建主题词库，然后根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量，并根据与所述主题词对应的上下文词向量对所述主题词进行聚类，将属于同一聚类簇中的主题词归集于同一主题类别中，最后基于所述各主题词以及对应的主题类别，生成敏感主题词集的技术手段，得到了各属于相同主题且具有上下文关系的主题词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

第三实施例

图3是本发明第三实施例的一种敏感主题词集的生成方法的流程图。本实施例以上述实施例为基础进行优化，在本实施例中，具体对根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量的操作进行了优化，优化的好处是能够准确地得到各主题词对应的上下文词向量，使得属于相同主题的各主题词之间同时具有上下文关系。相应的，本实施例的方法具体包括：

310、根据用户的敏感查询语句构建主题词库。

320、获取主题词库中的一个主题词，作为当前操作词。

330、分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值，其中，所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值。

例如，假设所述当前操作词为i，C_ij表示主题词j出现在主题词i前后(即主题词i与主题词j是上下文关系)的频率，即主题词i的上下文权值，其中，i为大于1的整数，j为大于1的整数，具体的上下文权值对应关系参见如图4所示的各主题词之间的相邻矩阵的示意图。

340、根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量。

示例性地，上述步骤优选为：按照各主题词在所述主题词库中的排列顺序，将计算得到的各所述上下文权值进行排序；

将排序结果进行归一化处理，并将归一化处理后的结果作为与所述当前操作词对应的上下文词向量。

具体地，对上述主题词之间的相邻矩阵中的第i行进行归一化处理，就得到当前操作词i对应的上下文词向量。

例如，主题词库中包括的，顺序排列的主题词为：W1、W2以及W3，当前操作词为W2，与当前操作词W2对应的上下文权值分别为C₂₁、C₂₂以及C₂₃，基于各主题词的顺序，构成的排序结果为[C₂₁，C₂₂，C₂₃]，通过对该排序结果进行归一化处理，可以得到与W2对应的上下文词向量其中，代表对数值A进行归一化处理后的结果。

350、判断是否完成对所述主题词库中包括的全部主题词的处理：若是，执行360，否则，返回执行320。

360、基于所述各主题词及对应的上下文词向量，生成敏感主题词集。

本实施例通过根据用户的敏感查询语句构建主题词库，然后依次获取主题词库中的一个主题词，作为当前操作词，分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值，并根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量，最后基于所述各主题词及对应的上下文词向量，生成敏感主题词集的技术手段，实现了根据用户的查询语句对敏感词数量有限的敏感词表进行主题扩充，得到属于相同主题且具有上下文关系的词集，进而提高了基于上下文主题的敏感词识别效率以及准确度。

第四实施例

图5是本发明第四实施例的一种敏感词识别方法的流程图。本实施例的方法可以由敏感词识别装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于服务器中，典型的，所述服务器优选可以为搜索引擎服务器。本实施例的方法具体包括：

410、获取用户输入的查询式。

所述用户的查询式可以是用户通过搜索引擎以文字形式输入的查询语句，所述查询式代表了用户想通过搜索引擎得到的内容，为了营造一个良好的网络环境，必须对用户输入的查询式进行过滤筛选。

420、根据所述查询式，以及上述第一实施例至第三实施例所述的方法生成的所述敏感主题词集，生成观测序列。

其中，所述敏感主题词集可以是以各主题词和各主题词对应的上下文词向量的形式存在的，还可以是以各主题词和各主题词对应的主题类别的形式存在的。

当获得用户的查询式时，首先对所述查询式进行分词，由各分词构成分词序列，例如所述查询式为“我要看XX电影”，对所述查询式经过分词后得到“我”、“要看”、“XX”和“电影”，进而得到分词序列(我、我看、XX、电影)；然后从所述敏感主题词集中查找各分词对应的上下文词向量或者主题类别，得到上下文词向量序列或者主题类别序列；再由所述分词序列和上下文词向量序列构成观测序列，或者由所述分词序列和主题类别序列构成观测序列。

所述观测序列是用来表征所述查询式中各分词的词语特征的，所述词语特征具体可以是指各分词的主题色彩以及上下文关系。

430、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。

其中，所述敏感词识别模型可以是通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成的，也可以是通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成的，模型中的各种参数在模型训练完成后是一确定值。当所述观测序列是由分词序列和主题类别序列构成时，则将所述观测序列输入至通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成的敏感词识别模型中；当所述观测序列是由分词序列和上下文词向量序列构成时，则将所述观测序列输入至通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成的敏感词识别模型中。

440、根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，所述敏感词识别模型返回的结果中会明确标识出所述查询式中哪些分词是敏感词，哪些分词不是敏感词，例如可以用数字0或者1去标识，在相应分词的位置显示数字0的表示该分词不是敏感词，显示数字1的表示该分词是敏感词。

通过利用所述查询式中各分词的观测序列能够准确地识别出所述查询式中出现的新敏感词，利用所述各分词的上下文关系，可以正确地识别一些歧义敏感词。

例如网络新词“XX”，当通过敏感词识别模型对“XX”进行单独识别时，识别结果中会显示该词为非敏感词，因为所述敏感词识别模型中没有对新词“XX”的记忆，但是当用户的查询式中出现“XX激情图片”时，虽然所述敏感词识别模型中没有对“XX激情图片”的记忆，但是所述敏感词识别模型仍然能够识别出所述“XX”为敏感词，这是因为从通过第一实施例到第三实施例任一实施例提供的主题词集生成方法生成的主题词集中提取的“XX激情”的观测序列可以获知“XX”与“激情”属于同一主题类别，当“XX”与“激情”有上下文关系时，其会被识别为敏感词，从而实现对新词的识别。

再例如，在对所述敏感词识别模型进行训练时用了“男女图片”，但是没有用“激情图片”对其进行训练，对于所述敏感词识别模型来说“激情图片”为新词，但是通过对“激情图片”进行主题序列的提取，可知“激情”与“男女”属于同一主题类别，因此所述敏感词识别模型依然可以识别“激情图片”中“激情”为敏感词。

同样，在“工作激情”中“激情”不会被识别为敏感词，但是在“男***”中时，“激情”便被识别为敏感词，这是因为“男女”与“激情”属于同一主题类别，当同一主题类别的词有上下文关系时会被识别，实现了对多义词、歧义词的正确识别。

本实施例的技术方案通过获取用户输入的查询式，并根据所述查询式，从利用第一实施例一至第三实施例三提供的敏感主题词集的生成方法生成的主题词集中提取所述查询式中各分词对应的主题，生成观测序列，然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词，实现了高效地识别查询式中的敏感词，并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。

第五实施例

图6是本发明第五实施例的一种敏感词识别方法的流程图。本实施例以上述实施例为基础，具体对根据所述查询式，以及所述敏感主题词集，生成观测序列进行优化，优化的好处是能够准确、快速地查找到用户的查询语句中各词语对应的观测序列，相应的，本实施例的方法具体包括：

510、获取用户输入的查询式。

520、将所述查询式进行分词，并将分词结果构成分词序列。

530、从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别，并将与所述各分词对应的主题类别构成主题序列。

540、将所述分词序列和所述主题类别序列作为所述观测序列。

550、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。

优选的，所述敏感词识别模型可以包括：

隐条件随机场、最大熵模型或者隐马尔可夫模型。

需要说明的是，在本实施例中，所述敏感词识别模型是通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。

560、根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

例如，对于查询式“我要看激情图片”进行分词，得到“我”、“要看”、“激情”、“图片”，可以用数值形式对所述各分词进行表示，构成分词序列，如[1，2，3，4]。通过对所述主题词集进行查找，得到“我”对应的主题为0，“要看”对应的主题为0，“激情”对应的主题为1，“图片”对应的主题为1，因此主题序列为[0，0，1，1]。将所述分词序列和所述主题序列作为所述观测序列，因此所述观测序列可以是二维的矩阵，如将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，所述敏感词识别模型的返回结果具体可以是[0，0，1，0]，则表示分词“激情”为敏感词。

本实施例的技术方案通过获取用户输入的查询式，并根据所述查询式，将所述查询式进行分词，并将分词结果构成分词序列，从利用第一实施例至第三实施例提供的敏感主题词集的生成方法生成的主题词集中查找与所述分词序列中各分词对应的主题类别，并将与所述各分词对应的主题类别构成主题类别序列；然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词，实现了高效地识别查询式中的敏感词，并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。

第六实施例

图7是本发明第六实施例的一种敏感词识别方法的流程图。本实施例以上述实施例为基础，具体对根据所述查询式，以及所述敏感主题词集，生成观测序列进行优化，优化的好处是能够准确、快速地查找到用户的查询语句中各词语对应的观测序列，相应的，本实施例的方法具体包括：

810、获取用户输入的查询式。

820、将所述查询式进行分词，并将分词结果构成分词序列。

830、从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量，并将与所述各分词对应的上下文词向量构成上下文词向量序列。

840、将所述分词序列和所述上下文词向量序列作为所述观测序列。

850、将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中。

优选的，所述敏感词识别模型可以包括：

隐条件随机场、最大熵模型或者隐马尔可夫模型。

需要说明的是，在本实施例中，所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。

860、根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

典型的，本实施例的技术方案可适用于识别一些歧义词，所述歧义词是指与第一特定词语搭配出现时不是敏感词，而与第二特定的词语搭配出现时才是敏感词的词语。例如“激情”与“工作”搭配出现时，则不是敏感词，而与“男女”搭配出现时，则是敏感词。此类歧义词的识别过程可以通过从所述敏感词主题词集中查找与各分词对应的上下文词向量，然后判断各分词对应的上下文词向量之间是否满足设定条件，例如所述设定条件具体可以是指各分词对应的上下文词向量之间的距离是否小于设定值，当所述距离小于设定值时则认为所述各分词具有上下文关系，是以上下文的形式搭配出现的，进而可以减少敏感词误识别和漏识别的概率。

本实施例的技术方案通过获取用户输入的查询式，将所述查询式进行分词，并将分词结果构成分词序列，并从利用第一实施例至第三实施例提供的敏感主题词集的生成方法生成的主题词集中查找与所述分词序列中各分词对应的上下文词向量，并将与所述各分词对应的上下文词向量构成上下文词向量序列；将所述分词序列和所述上下文词向量序列作为所述观测序列，然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词，实现了高效地识别查询式中的敏感词，并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。

第七实施例

在图8中示出了本发明第七实施例的一种敏感主题词集的生成装置的结构图。如图8所示，所述装置包括：主题词库构建模块610，上下文词向量计算模块620和敏感主题词集生成模块630，其中，

主题词库构建模块610，用于根据用户的敏感查询语句构建主题词库；

上下文词向量计算模块620，用于根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量；

敏感主题词集生成模块630，用于基于所述各主题词及对应的上下文词向量，生成敏感主题词集。

进一步地，所述装置还可以包括：

聚类模块，用于根据与所述主题词对应的上下文词向量对所述主题词进行聚类，将属于同一聚类簇中的主题词归集于同一主题类别中；以及

敏感主题词集生成模块630具体可以用于：

基于所述各主题词以及对应的主题类别，生成敏感主题词集。

可选的，主题词库构建模块610可以包括：

分词单元，用于对所述敏感查询语句进行分词；

构建单元，用于根据分词结果构建所述主题词库。

进一步地，所述构建单元具体可以用于：

计算所述分词结果中包括的分词总数量；

在所述分词结果中，统计各分词的词频数；

分别计算各分词的词频数与所述分词总数量的权重比值；

将权重比值满足设定阈值条件的分词，确定为所述主题词库中的主题词。

进一步地，所述装置还可以包括：

敏感查询语句获取模块，用于基于预先构建的敏感种子词表，从用户历史查询语句中获取所述敏感查询语句。

进一步地，上下文词向量计算模块620可以包括：

主题词获取单元，用于获取主题词库中的一个主题词，作为当前操作词；

上下文权值计算单元，用于分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值，其中，所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值；

上下文词向量构成单元，用于根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量；

其中，在未完成对所述主题词库中包括的全部主题词的处理时，所述主题词获取单元用于获取所述主题词库中的下一个主题词，作为当前操作词来计算上下文词向量。

进一步地，所述上下文词向量构成单元具体可以用于：

按照各主题词在所述主题词库中的排列顺序，将计算得到的各所述上下文权值进行排序；

本发明实施例所提供的敏感主题词集生成装置可用于执行本发明第一实施例至第三实施例提供的敏感主题词集生成方法，具备相应的功能模块，实现相同的有益效果。

第八实施例

在图9中示出了本发明第八实施例的一种敏感词识别装置的结构图。如图9所示，所述装置包括：查询式获取模块710，观测序列生成模块720，观测序列输入模块730和敏感词识别模块740，其中，

查询式获取模块710，用于获取用户输入的查询式；

观测序列生成模块720，用于根据所述查询式，以及通过本发明第七实施例所述的敏感主题词集的生成装置生成的所述敏感主题词集，生成观测序列；

观测序列输入模块730，用于将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中；

敏感词识别模块740，用于根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词。

本实施例的技术方案通过获取用户输入的查询式，并根据所述查询式，从利用第七实施例提供的敏感主题词集的生成装置生成的主题词集生成观测序列，然后将所述观测序列输入至基于所述敏感主题词集训练生成的敏感词识别模型中，根据所述敏感词识别模型的返回结果，识别所述查询式中包括的敏感词，实现了高效地识别查询式中的敏感词，并且通过各分词的主题序列以及上下文关系可以准确地识别查询式中出现的新敏感词以及正确识别歧义敏感词。

在上述技术方案的基础上，进一步地，所述敏感词识别模型可以通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。

对应的，所述观测序列包括分词序列和上下文词向量序列，观测序列生成模块720具体用于：

将所述查询式进行分词，并将分词结果构成分词序列；

从所述敏感词主题词集中查找与所述分词序列中各分词对应的上下文词向量，并将与所述各分词对应的上下文词向量构成上下文词向量序列；

将所述分词序列和所述上下文词向量序列作为所述观测序列。

进一步地，所述敏感词识别模型还可以通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。

对应的，所述观测序列包括分词序列和主题类别序列，观测序列生成模块720具体用于：

将所述查询式进行分词，并将分词结果构成分词序列；

从所述敏感词主题词集中查找与所述分词序列中各分词对应的主题类别，并将与所述各分词对应的主题类别构成主题类别序列；

将所述分词序列和所述主题类别序列作为所述观测序列。

本发明实施例所提供的敏感词识别装置可用于执行本发明第四实施例至第六实施例提供的敏感词识别方法，具备相应的功能模块，实现相同的有益效果。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以通过如上所述的服务器来实施。可选地，本发明实施例可以用计算机装置可执行的程序来实现，从而可以将它们存储在存储装置中由处理器来执行，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等；或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种敏感主题词集的生成方法，其特征在于，包括：

根据用户的敏感查询语句构建主题词库；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据与所述主题词对应的上下文词向量对所述主题词进行聚类，将属于同一聚类簇中的主题词归集于同一主题类别中；以及

基于所述各主题词及对应的上下文词向量，生成敏感主题词集包括：

3.根据权利要求1或2所述的方法，其特征在于，根据用户的敏感查询语句构建主题词库，包括：

对所述敏感查询语句进行分词；

根据分词结果构建所述主题词库。

4.根据权利要求3所述的方法，其特征在于，根据分词结果构建所述主题词库，包括：

计算所述分词结果中包括的分词总数量；

在所述分词结果中，统计各分词的词频数；

分别计算各分词的词频数与所述分词总数量的权重比值；

5.根据权利要求1到4中任一权利要求所述的方法，其特征在于，所述方法还包括：

基于预先构建的敏感种子词表，从用户历史查询语句中获取所述敏感查询语句。

6.根据权利要求1到5中任一权利要求所述的方法，其特征在于，根据所述主题词库中包括的各主题词之间的上下文关系，计算与各主题词对应的上下文词向量，包括：

获取主题词库中的一个主题词，作为当前操作词；

分别计算所述当前操作词与所述主题词库中各主题词之间的上下文权值，其中，所述上下文权值为在所述主题词库中所述主题词出现在所述当前操作词前后的频率值；

根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量；

返回执行获取主题词库中包括的下一个主题词的操作，直至完成对所述主题词库中包括的全部主题词的处理。

7.根据权利要求6所述的方法，其特征在于，根据计算得到的各所述上下文权值构成与所述当前操作词对应的上下文词向量，包括：

8.一种敏感词识别方法，其特征在于，包括：

获取用户输入的查询式；

根据所述查询式，以及如权利要求1-7任一项所述的方法生成的所述敏感主题词集，生成观测序列；

9.根据权利要求8所述的方法，其特征在于，所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。

10.根据权利要求9所述的方法，其特征在于，所述观测序列包括分词序列和上下文词向量序列，根据所述查询式，以及所述敏感主题词集，生成观测序列包括：

将所述查询式进行分词，并将分词结果构成分词序列；

11.根据权利要求8所述的方法，其特征在于，所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。

12.根据权利要求11所述的方法，其特征在于，所述观测序列包括分词序列和主题类别序列，根据所述查询式，以及所述敏感主题词集，生成观测序列包括：

将所述查询式进行分词，并将分词结果构成分词序列；

将所述分词序列和所述主题类别序列作为所述观测序列。

13.根据权利要求8到12中任一权利要求所述的方法，其特征在于，所述敏感词识别模型包括：

隐条件随机场、最大熵模型或者隐马尔可夫模型。

14.一种敏感主题词集的生成装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，所述装置还包括：

所述敏感主题词集生成模块具体用于：

16.根据权利要求14或15所述的装置，其特征在于，所述主题词库构建模块，包括：

分词单元，用于对所述敏感查询语句进行分词；

构建单元，用于根据分词结果构建所述主题词库。

17.根据权利要求16所述的装置，其特征在于，所述构建单元，具体用于：

计算所述分词结果中包括的分词总数量；

在所述分词结果中，统计各分词的词频数；

分别计算各分词的词频数与所述分词总数量的权重比值；

18.根据权利要求14到17中任一权利要求所述的装置，其特征在于，所述装置还包括：

19.根据权利要求14到18中任一权利要求所述的装置，其特征在于，所述上下文词向量计算模块，包括：

20.根据权利要求19所述的装置，其特征在于，所述上下文词向量构成单元，具体用于：

21.一种敏感词识别装置，其特征在于，包括：

查询式获取模块，用于获取用户输入的查询式；

观测序列生成模块，用于根据所述查询式，以及如权利要求14-20任一项所述的装置生成的所述敏感主题词集，生成观测序列；

22.根据权利要求21所述的装置，其特征在于，所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的上下文词向量训练生成。

23.根据权利要求22所述的装置，其特征在于，所述观测序列包括分词序列和上下文词向量序列，所述观测序列生成模块，具体用于：

将所述查询式进行分词，并将分词结果构成分词序列；

24.根据权利要求21所述的装置，其特征在于，所述敏感词识别模型通过所述敏感主题词集中的各主题词以及对应的主题类别训练生成。

25.根据权利要求24所述的装置，其特征在于，所述观测序列包括分词序列和主题类别序列，所述观测序列生成模块，具体用于：

将所述查询式进行分词，并将分词结果构成分词序列；

将所述分词序列和所述主题类别序列作为所述观测序列。