CN105989093A

CN105989093A - 敏感词的自动发现方法及其装置和应用

Info

Publication number: CN105989093A
Application number: CN201510076110.0A
Authority: CN
Inventors: 薛晖
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-02-12
Filing date: 2015-02-12
Publication date: 2016-10-05
Anticipated expiration: 2035-02-12
Also published as: CN105989093B

Abstract

本发明涉及数据分析领域，公开了一种敏感词的自动发现方法及其装置和应用。本发明中的敏感词自动发现方法包括以下步骤：获取举报行为成立的举报帐户；获取举报账户在成立的举报行为发生前所采用过的搜索关键词；基于每个搜索关键词的搜索结果中成立的被举报信息，判断搜索关键词是否为敏感词。本发明可利用举报账户的搜索行为来确定敏感词，实时有效的扩充敏感词库。

Description

敏感词的自动发现方法及其装置和应用

技术领域

本发明涉及数据分析领域，特别涉及敏感词的自动发现方法及其装置和应用。

背景技术

任何UGC(账户生成内容)网站都会面临信息内容安全的问题，包括政治敏感、色情、售假、欺诈以及广告垃圾等。因此，基于文本的敏感词过滤***是不可或缺的。这种***主要包含以下几个模块：

1)词库的建立和更新：这一块主要依赖于人工收集的方式。

2)预处理及索引创建：这一步主要是为了解决后面步骤中的快速查找，有非常成熟的解决方案，比如采用Trie树(单词查找树)的数据结构来实现。

3)内容获取：取决于具体的业务模式，主要有两种实现方式，一种是调用方直接将待过滤的内容发送给***(被动方式)；另一种***直接去抓取待过滤的内容(主动方式)。

4)敏感词过滤：针对步骤3)中的内容，利用步骤2)建立的索引，检测输入的内容中是否存在需要监管或过滤的敏感词；然后根据实际业务需求直接进行屏蔽或者流入人工复审环节。

上述***方案的缺点主要在于：

1)敏感词库的维护：随着业务的发展，需要持续投入大量的人力去发现、添加词库中没有的敏感词。

2)敏感词的变异非常快，即使是专业的信息安全人员，要及时地发现恶意账户刻意规避网站规则的变形词，是非常困难而且比较耗时的；而这些有害信息长时间地存在也会对网站带来很大的风险。

3)目前大部分网站都引入了举报机制，即允许普通账户能够针对出现在前台网页中的不良信息发起举报；然后流入到后台的人工审核***进行处理。这种依靠广大互联网账户来协助排查的方式可以在一定程度上缓解上述的问题2)，但是也存在一些问题，比如举报周期不稳定、质量参差不齐等等。

发明内容

本发明的目的在于提供一种敏感词的自动发现方法及其装置和应用，可利用举报账户的搜索行为来确定敏感词，实时有效的扩充敏感词库。

为解决上述技术问题，本发明的实施方式公开了一种敏感词的计算机自动发现方法，包括以下步骤：

获取举报行为成立的举报帐户；

获取举报账户在成立的举报行为发生前所采用过的搜索关键词；

基于每个搜索关键词的搜索结果中成立的被举报信息，判断搜索关键词是否为敏感词。

本发明的实施方式还公开了一种基于计算机***的内容过滤方法，包括以下步骤：

获取内容；

在获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词使用上文敏感词的计算机自动发现的方法获取；

如果存在，则对该内容进行过滤。

本发明的实施方式还公开了一种敏感词的自动发现装置，包括：

第一获取单元，用于获取举报行为成立的举报帐户；

第二获取单元，用于获取举报账户在成立的举报行为发生前所采用过的搜索关键词；

判断单元，用于基于每个搜索关键词的搜索结果中成立的被举报信息，判断搜索关键词是否为敏感词。

本发明的实施方式还公开了一种内容过滤装置，包括：

第四获取单元，用于获取内容；

检测单元，用于在获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词是使用上文敏感词的自动发现装置获取的；

过滤单元，用于在获取内容中存在敏感词库中的至少一个敏感词时，对该内容进行过滤。

本发明实施方式与现有技术相比，主要区别及其效果在于：

利用举报账户的搜索行为来确定敏感词，可在敏感词较多，新增速度和变异速度较快的情况下，实时有效的扩充敏感词库。

基于实时自动更新的敏感词库可以有效的过滤新增或者变异的敏感词对应的内容，提高网络不良信息的过滤效率，降低账户上网风险。

进一步地，被举报成功的不良信息在搜索结果中出现的位置越靠前，说明用对应的敏感词进行搜索出现不良信息的风险越高，因此，将被举报信息出现在搜索结果中的先后顺序作为敏感词与被举报信息相关度的判断依据，可提高敏感词判断的准确性。

进一步地，将举报成功率作为选择举报账户的标准，可以将进行恶意举报的账户剔除。

附图说明

图1是本发明第一实施方式中一种敏感词的计算机自动发现方法的流程示意图；

图2是本发明第四实施方式中一种基于计算机***的内容过滤方法的流程示意图

图3是本发明第五实施方式中一种敏感词的自动发现装置的结构示意图；

图4是本发明第七实施方式中一种内容过滤装置的结构示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明第一实施方式涉及一种敏感词的计算机自动发现方法。图1是该敏感词的计算机自动发现方法的流程示意图。

具体地说，如图1所示，该敏感词的计算机自动发现方法包括以下步骤：

在步骤101中，获取举报行为成立的举报帐户。

此后进入步骤102，获取举报账户在成立的举报行为发生前所采用过的搜索关键词。

此后进入步骤103，基于每个搜索关键词的搜索结果中成立的被举报信息，判断搜索关键词是否为敏感词。

此后结束本流程。

此外，可以理解，本发明中，可以通过多种方式判断搜索关键词是否为敏感词，例如，在一优选例中，上述步骤103包括以下子步骤：

使用所获取的搜索关键词进行搜索以得到搜索结果；根据搜索结果中是否存在成立的被举报信息，以及成立的被举报信息在搜索结果中的位置，计算搜索关键词与成立的被举报信息的相关程度，如果相关程度大于相关度门限，则将该搜索关键词作为敏感词。其中，在计算搜索关键词与成立的被举报信息的相关程度的子步骤中，被举报信息在搜索结果中出现的位置越靠前，该搜索关键词与被举报信息的相关程度越大。

此外，可以理解，在某些网站，搜索结果与选择的排序方式有关，例如，在购物网站，搜索结果可以以销售量、价格、账户收藏量等来排序，因此，不同的排序方式下，获得的相关度也不相同。可在实际的实现过程中，基于多种排序方式对搜索关键词与被举报信息的相关度进行计算，以提高敏感词判定的准确性。在本发明的其他实施方式中，也可以基于其他因素判断搜索关键词与被举报信息的相关度，例如被举报信息的账户浏览量、账户收藏量、销量和价格(如购物网站中)等。如果被举报信息的账户浏览量、账户收藏量或被举报的产品的销量越大，说明该举报信息的影响越大，此时，对应的搜索关键词与被举报信息的相关度越大。

被举报成功的不良信息在搜索结果中出现的位置越靠前，说明用对应的敏感词进行搜索出现不良信息的风险越高，因此，将被举报信息出现在搜索结果中的先后顺序作为敏感词与被举报信息相关度的判断依据，可提高敏感词判断的准确性。

此外，可以理解，在本发明的其他实施方式中，如果在记录举报账户的举报行为数据时，有记录举报账户在发现举报信息时采用的搜索关键词，也可以直接从举报行为数据中直接获取相应的搜索关键词，然后，利用得到的搜索关键词判断其是否为敏感词。

本发明第二实施方式涉及一种敏感词的计算机自动发现方法。

本实施方式是在第一实施方式的基础上进行了改进，主要改进之处在于：将举报成功率作为选择举报账户的标准，可以将进行恶意举报的账户剔除。具体地说，上述步骤120之前，还包括以下步骤：

获取每个举报行为成立的举报账户的举报成功率。并且，该步骤102还包括以下子步骤：

仅获取举报成功率高于成功率门限的举报账户在成立的举报行为发生前所采用过的搜索关键词。

本发明第三实施方式涉及一种敏感词的计算机自动发现方法。具体地，该敏感词的计算机自动发现方法包括以下步骤：

1.预先进行账户搜索行为和举报行为相关数据的采集，需要采集的数据的包括：

1)账户搜索行为表，至少要包括账户ID(账户标识，如账号名等)、会话ID、搜索的关键词、发生时间等要素。

2)举报数据表，至少要包括举报账户ID(如举报账户的账户名)、举报信息ID、会话ID、举报发生时间、举报是否成功等要素。

2.筛选待挖掘和分析的举报账户集合。这里主要指从【举报数据表】中筛选出，最近一段时间内举报成功率的高于预定阈值的举报账户，作为候选举报账户集合。

3.筛选待挖掘和分析的举报信息。针对步骤2中筛选出来的候选举报账户集合(举报成立率较高的账户)中的每一条数据(即每一个账户)，从举报数据表中提取出该举报账户在最近一段时间内，举报成立的数据，包括对应的举报信息(文本)、举报账户ID、会话ID、举报发生时间等等。

4.针对步骤3输出的举报数据集合中的每一条数据，根据其中的举报账户ID、会话ID等字段，在【账户搜索行为表】中查询并获取到，该次举报所对应的会话中，在该举报行为发生时间前的一系列搜索行为，具体举例如下：

假设举报账户A的行为路径如下：

1)输入搜索关键词Q1；

2)点击“搜索”按钮，进入页面Q1-P1；

3)发现不良信息I1，进行举报；

4)点击“下一页”按钮，进入页面Q1-P2，没有发现不良信息；

5)点击“下一页”按钮，进入页面Q1-P3，没有发现不良信息；

6)点击“下一页”按钮，进入页面Q1-P4，发现不良信息I2，进行举报；

7)点击……。

5.关键词风险等级评分，针对上述步骤4所输出的信息，采用以下公式来计算输入词Q1的风险等级得分：

I = Σ_{n = 1}^{m} \frac{1}{n} k (n)

或

I = Σ_{n = 1}^{m} \frac{1}{2^{n}} k (n)

其中，m表示输入搜索关键词Q1进行搜索得到的搜索结果后得到的总页面数目，n表示当前浏览页，k(n)表示当前页中举报且成功的信息的数量。上面两个式子表示：举报且成立的信息出现在搜索的位置(页面)越靠前，风险程度越大；而一个关键词的风险等级可以用该搜索关键词下搜索得到的各个举报且成立的信息综合加权获得评分。其中，第二个式子比第一个式子对翻页的权重惩罚更大。

6.结果排序：按照步骤5的方法，对步骤4的每一条数据都进行计算，并且将结果输出。

7.添加到词库：通过设定预定阈值T，将上述步骤6中所输出的排序结果中大于T的数据直接添加到敏感词库中，或流入到人工审核***，来进一步判断该词是否应该添加到敏感词库中。

通过从用户举报行为的相关数据中挖掘有价值的信息，可以以更小的代价来丰富网站的敏感词库，及时发现遗漏在网站上的不良信息，同时有效降低风险。

本发明第四实施方式涉及一种基于计算机***的内容过滤方法。图2是该基于计算机***的内容过滤方法的流程示意图。

具体地，如图2所示，该基于计算机***的内容过滤方法包括以下步骤：

在步骤201，获取内容。

此后进入在步骤202，在获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词使用上述实施方式一至三的方法获取。

如果存在，进行步骤203；否则，进入步骤204。

在步骤203中，对上述内容进行过滤。对内容的过滤包括将部分或全部的内容移除、进行屏蔽、或者加入到待人工省核的队列等等，总之是不予传输或显示。

在步骤204中，放行上述内容。例如向内容的请求设备发送内容，或显示该内容，等等。

此后结束本流程。

本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable Array Logic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称“PROM”)、只读存储器(Read-Only Memory，简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。

本发明第五实施方式涉及一种敏感词的自动发现装置。图3是该敏感词的自动发现装置的结构示意图。

具体地，如图3所示，该敏感词的自动发现装置包括：

第一获取单元，用于获取举报行为成立的举报帐户。

第二获取单元，用于获取举报账户在成立的举报行为发生前所采用过的搜索关键词。

此外，可以理解，本发明中，可以通过多种方式判断搜索关键词是否为敏感词，例如，在一优选例中，上述判断单元包括以下子单元：

结果搜索子单元，用于使用所获取的搜索关键词进行搜索以得到搜索结果。

位置判断子单元，用于根据搜索结果中是否存在成立的被举报信息，以及成立的被举报信息在搜索结果中的位置，计算搜索关键词与成立的被举报信息的相关程度，如果相关程度大于相关度门限，则将该搜索关键词作为敏感词。其中，位置判断子单元在计算搜索关键词与成立的被举报信息的相关程度时，被举报信息在搜索结果中出现的位置越靠前，该搜索关键词与被举报信息的相关程度越大。

第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

本发明第六实施方式涉及一种敏感词的自动发现装置。

该实施方式是在第五实施方式的基础上进行了改进，主要改进之处在于：将举报成功率作为选择举报账户的标准，可以将进行恶意举报的账户剔除。具体地说，该敏感词的自动发现装置还包括以下单元：

第三获取单元，用于获取每个举报行为成立的举报账户的举报成功率。且第二获取单元包括以下子单元：

关键词获取子单元，用于仅获取举报成功率高于成功率门限的举报账户在成立的举报行为发生前所采用过的搜索关键词。

第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。

本发明第七实施方式涉及一种内容过滤装置。图4是感内容过滤装置的结构示意图。

具体地说，如图4所示，该内容过滤装置包括：

第四获取单元，用于获取内容。

检测单元，用于在获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词是使用上述第五实施方式和第六实施方式中的敏感词的自动发现装置获取的。

第四实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第四实施方式互相配合实施。第四实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第四实施方式中。

需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种敏感词的计算机自动发现方法，其特征在于，包括以下步骤：

获取举报行为成立的举报帐户；

获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词；

基于每个所述搜索关键词的搜索结果中成立的被举报信息，判断所述搜索关键词是否为敏感词。

2.根据权利要求1所述的敏感词的计算机自动发现方法，其特征在于，所述“基于每个所述搜索关键词的搜索结果中成立的被举报信息，判断所述搜索关键词是否为敏感词”的步骤包括以下子步骤：

使用所获取的搜索关键词进行搜索以得到搜索结果；

根据所述搜索结果中是否存在成立的被举报信息，以及成立的被举报信息在搜索结果中的位置，计算所述搜索关键词与成立的被举报信息的相关程度，如果相关程度大于相关度门限，则将该搜索关键词作为敏感词。

3.根据权利要求2所述的敏感词的计算机自动发现方法，其特征在于，在所述“计算所述搜索关键词与成立的被举报信息的相关程度”的步骤中，所述被举报信息在所述搜索结果中出现的位置越靠前，该搜索关键词与所述被举报信息的相关程度越大。

4.根据权利要求1至3中任一项所述的敏感词的计算机自动发现方法，其特征在于，在所述“获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词”的步骤之前，还包括以下步骤：

获取每个所述举报行为成立的举报账户的举报成功率；

所述“获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词”的步骤还包括以下子步骤：

仅获取所述举报成功率高于成功率门限的举报账户在成立的举报行为发生前所采用过的搜索关键词。

5.一种基于计算机***的内容过滤方法，其特征在于，包括以下步骤：

获取内容；

在所述获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词使用权利要求1至4所述的方法获取；

如果存在，则对该内容进行过滤。

6.一种敏感词的自动发现装置，其特征在于，包括：

第一获取单元，用于获取举报行为成立的举报帐户；

第二获取单元，用于获取所述举报账户在成立的举报行为发生前所采用过的搜索关键词；

判断单元，用于基于每个所述搜索关键词的搜索结果中成立的被举报信息，判断所述搜索关键词是否为敏感词。

7.根据权利要求6所述的敏感词的自动发现装置，其特征在于，所述判断单元包括以下子单元：

结果搜索子单元，用于使用所获取的搜索关键词进行搜索以得到搜索结果；

位置判断子单元，用于根据所述搜索结果中是否存在成立的被举报信息，以及成立的被举报信息在搜索结果中的位置，计算所述搜索关键词与成立的被举报信息的相关程度，如果相关程度大于相关度门限，则将该搜索关键词作为敏感词。

8.根据权利要求7所述的敏感词的自动发现装置，其特征在于，所述位置判断子单元在计算所述搜索关键词与成立的被举报信息的相关程度时，所述被举报信息在所述搜索结果中出现的位置越靠前，该搜索关键词与所述被举报信息的相关程度越大。

9.根据权利要求6至8中任一项所述的敏感词的自动发现装置，其特征在于，还包括以下单元：

第三获取单元，用于获取每个所述举报行为成立的举报账户的举报成功率；

所述第二获取单元包括以下子单元：

关键词获取子单元，用于仅获取所述举报成功率高于成功率门限的举报账户在成立的举报行为发生前所采用过的搜索关键词。

10.一种内容过滤装置，其特征在于，包括：

第四获取单元，用于获取内容；

检测单元，用于在所述获取内容中检测是否存在敏感词库中的至少一个敏感词，其中，该敏感词库中至少一部分敏感词是使用权利要求6至9所述的装置获取的；

过滤单元，用于在所述获取内容中存在敏感词库中的至少一个敏感词时，对该内容进行过滤。