CN113051911A

CN113051911A - 提取敏感词的方法、装置、设备、介质及程序产品

Info

Publication number: CN113051911A
Application number: CN202110309935.8A
Authority: CN
Inventors: 李原; 杨德将; 郝萌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-29
Anticipated expiration: 2041-03-23
Also published as: CN113051911B

Abstract

本申请公开了一种提取敏感词的方法、装置、设备、介质及程序产品，涉及自然语言处理和深度学习等人工智能领域。该方法的一具体实施方式包括：获取用户历史操作信息；根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

Description

提取敏感词的方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及计算机领域，具体涉及自然语言处理和深度学习等人工智能领域，尤其涉及一种提取敏感词的方法、装置、设备、介质及程序产品。

背景技术

随着机器学习技术(machine learning，ML)的不断进步，越来越多的功能可以通过机器学习训练得到的模型来实现。而如何获取模型所需的样本为现阶段亟需解决的问题。

目前，利用一个敏感词库匹配敏感词，并将匹配出的敏感词作为模型训练所需的样本。

发明内容

本申请实施例提出了一种用于生成信息的方法、装置、设备、介质及程序产品。

第一方面，本申请实施例提出了一种提取敏感词的方法，包括：获取用户历史操作信息；根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

第二方面，本申请实施例提出了一种提取敏感词的装置，包括：信息获取模块，被配置成获取用户历史操作信息；样本匹配模块，被配置成根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；第一确定模块，被配置成响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；第二确定模块，被配置成响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面描述的方法。

本申请实施例提供的提取敏感词的方法、装置、设备、介质及程序产品，首先获取用户历史操作信息；之后根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；然后响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；最后响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。能够通过样本敏感信息集合匹配出与用户历史操作信息中的目标分词对应的样本；在样本的类别包括的负样本的数值满足预设的数值阈值时，确定目标分词为目标敏感词，以实现对用户历史操作信息中的敏感词的提取。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的提取敏感词的方法的一个实施例的流程图；

图3是根据本申请的提取敏感词的方法的另一个实施例的流程图；

图4是根据本申请的提取敏感词的方法的又一个实施例的流程图；

图5是根据本申请的训练敏感词识别模型的一个实施例的流程图；

图6是根据本申请的提取敏感词的装置的一个实施例的结构示意图；

图7是用来实现本申请实施例的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的提取敏感词的方法或提取敏感词的装置的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送视频帧等。终端设备101、102、103上可以安装有各种客户端应用、智能交互应用，例如网页浏览器应用、搜索类应用等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对终端设备101、102、103上显示的视频进行分析和处理，并生成处理结果(例如在适当时刻***弹幕的视频)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的提取敏感词的方法一般由服务器105执行，相应地，提取敏感词的装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的提取敏感词的方法的一个实施例的流程200。该提取敏感词的方法可以包括以下步骤：

步骤201，获取用户历史操作信息。

在本实施例中，提取敏感词的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以获取用户历史操作信息。

这里，用户历史操作信息可以为：用户在历史时间段内针对操作对象执行操作行为所产生的信息。其中，历史时间段可以为当前时间点之前的时间段，例如在样本所属的时间点之前的时间段。

相应地，操作对象可以为设备或产品；例如，音箱、手机、电视、空调等；操作对象还可以为设备或产品上的具体功能，如通过APP(Application)阅读、通过智能音箱播放歌曲、通过设备播放天气预报等。

相应地，操作行为包括但不限于点击行为(点击行为或双击行为)、拖动行为、缩放行为等。

在一个示例中，用户历史操作信息可以包括：用户历史操作操作对象所产生的信息和/或用户对历史搜索信息。

其中，用户历史操作操作对象所产生的信息可以为用户历史操作操作对象所产生的信息，例如，阅读时滑动页面所产生的信息。用户对历史搜索信息可以包括：对用户曾经发出的搜索请求所涉及到的所有信息。例如，搜索结果对应的信息、对搜索结果进行处理的信息、搜索场景对应的信息。其中，搜索结果对应的信息可以为搜索请求(例如，语音搜索请求)对应的结果。对搜索结果进行处理的信息可以为用户对搜索请求对应的结果进行处理的信息；例如，通过地图类应用进行搜索，得到搜索结果；之后，对搜索结果进行收藏所产生的信息。搜索场景信息可以包括以下至少一项：时间信息、气候信息、地理位置信息。其中，时间信息可以包括日期和时刻；气候信息可以包括气候的类型，如：晴朗、下雨等等；地理位置信息可以用于标识用户所在的地理范围，如：家、办公室、购物场所等等。

需要说明的是，本申请中的信息可以为资讯信息，其包括但不限于新闻(包括但不限于视频、娱乐、科技、财经等)、动态信息、政策、评论和学术论文等。

在本申请实施例中，所涉及的用户历史操作信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

步骤202，根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本。

在本实施例中，上述执行主体可以对用户历史操作信息进行分词，得到目标分词；之后将目标分词发送至样本敏感信息集合中，以从样本敏感信息集合中匹配出与目标分词对应的样本。其中，样本敏感信息集合可以包括与敏感词相关的所有样本的集合，例如，涉及资源转移的样本、涉及安全(例如，网络安全，数据安全，信息安全)的样本、样本标签(可用于确定样本的类别的标签)和样本所属的时间点等等。其中，资源转移可以指资源的所属发生了变化；例如资源从A地(或A设备、或A用户)转移至B地(或B设备、或B用户)。

在一个示例中，对用户历史操作信息进行分词，得到目标分词，可以包括：可以基于切词规则或切词模型对用户历史操作信息进行切词，以得到目标分词。

相应地，切词规则可以为按照每间隔预设字数进行切词，例如，每间隔预设字数切为一个词语、按照用户历史操作信息的总字数进行均匀切词、随机切词。

可以理解的是，该切词规则可根据实际需要进行灵活设置或人工设定，具体内容在此处不作限定。

相应地，切词模型可以为通过门控循环模型和条件随机场模型来构建的模型。

需要说明的是，目标分词可以为用户历史操作信息中的任意分词；另外，目标分词的数量可以为至少一个。

需要说明的是，如果用户历史操作信息为语音信息时，在对用户历史操作信息进行分词之前，需要先将用户历史操作信息转换为文本；之后，将文本进行分词，以得到目标分词。其中，将语音转换为文本的方法包括但不限于：通过语音识别模型的方法。

在一个示例中，从样本敏感信息集合中匹配出目标分词对应的样本可以包括：样本敏感信息集合中的样本对应的文本包括目标分词；或，样本敏感信息集合中的样本对应的文本包括与目标分词相似的词(例如，样本中的分词与目标分词的相似度满足预设相似度阈值)。

在这里，样本敏感信息集合可以包括目标分词对应的样本，以及目标分词对应的样本的类别(例如类别标签)。其中，样本的类别可以为基于样本的标签所确定的或聚类所有样本所得到的，例如，正样本(或好样本)，负样本(或坏样本)等。

步骤203，响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值。

在本实施例中，上述执行主体可以在确定目标分词对应的样本的类别包括负样本时，确定目标分词对应的负样本的数值。其中，数值可以用于表征负样本数量的多少；例如，数量；或，比值等。上述样本的类别可以通过样本的标签所确定；或，通过聚类样本所确定。其中，样本的标签可以由人工设置或相关模型设置。

具体地，针对目标分词，统计每个目标分词对应的负样本的数值。

步骤204，响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

在本实施例中，上述执行主体可以在确定目标分词对应的负样本的数值满足预设的数值阈值时，确定该目标分词为目标敏感词。

在一个示例中，目标分词对应的负样本的数值满足预设的数值阈值可以包括：目标分词对应的负样本的数值大于或等于预设的数值阈值；或，目标分词对应的负样本的数值小于预设的数值阈值。其中，预设的数值阈值可以根据提取敏感词的精度进行设定或人工设定。

在本实施例中，敏感词可以为违反法律，社会公德和妨害公共利益的词语；例如，带有敏感政治倾向的词、暴力倾向的词、不健康色彩的词或不文明词。

需要说明的是，在对用户历史操作信息提取敏感词之前，还可以对用户历史操作信息进行预处理；例如，过滤掉用户历史操作信息中的停用词。

本申请实施例提供的提取敏感词的方法，首先获取用户历史操作信息；之后根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；然后响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；最后响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。能够通过样本敏感信息集合匹配出与用户历史操作信息中的目标分词对应的样本；在样本的类别包括的负样本的数值满足预设的数值阈值时，确定目标分词为目标敏感词，以实现对用户历史操作信息中的敏感词的提取。

在本实施例的一些可选的实现方式中，目标分词对应的样本的类别还包括正样本；确定目标分词对应的负样本的数值，可以包括：确定目标分词对应的负样本和正样本的数量；基于负样本和正样本的数量，确定负样本的比值，并将负样本的比值确定为负样本的数值。其中，正样本可以为与负样本的类别不同的样本。

在一个具体的示例中，基于负样本和正样本的数量，确定负样本的比值，可以包括：根据负样本和正样本的数量，确定该目标分词的总样本和；基于负样本的数量与总样本和的比值，确定负样本的比值；之后，将负样本的比值作为负样本的数值。或，根据负样本的数量和正样本的数量的比值，确定负样本的比值；之后，将负样本的比值作为负样本的数值。

在本实现方式中，可以基于目标分词对应的正样本和负样本的数量，确定负样本的数值。

在本实施例的一些可选的实现方式中，负样本的数值可以为负样本的数量。

在一个具体的示例中，确定目标分词对应的负样本的数值可以包括：确定负样本的数量；之后，将负样本的数量确定为负样本的数值。

在本实现方式中，可以基于负样本的数量，确定负样本的数值。

在本实施例的一些可选的实现方式中，步骤202所述的样本敏感信息集合还包括：样本所属的时间点；以及，步骤201所述的获取用户历史操作信息可以包括：获取预设时间点之前的预设时间段内的用户历史操作信息。上述样本所属的时间点可以为样本中的特征生成的时间，例如，资源转移发生的时间；可选的，样本所属的时间点可以与预设时间点为同一时间点。上述预设时间段可以为由用户设定的时间段或随机选取的时间段；例如，一年。

在本实现方式中，由于用户历史操作信息在一定程度上可以表征用户操作是否涉及到敏感词、敏感信息等。因此，可以通过在样本所属的时间点之前的预设时间段内获取用户历史操作信息，以进一步增强用户历史操作信息与样本敏感信息集合中的样本之间的关联性。

在本实施例的一些可选的实现方式中，在确定目标分词为目标敏感词之后，该提取敏感词的方法还可以包括：获取目标敏感词对应的标签；利用目标敏感词和对应的标签进行训练，得到敏感词识别模型。

在本实现方式中，在确定目标分词为目标敏感词之后，可以先由人工打上标签或由相关预先训练的相关模型打上标签；之后获取目标敏感词对应的标签；之后利用目标敏感词和对应的标签进行模型训练，以得到敏感词识别模型。

在本实现方式中，可以通过确定的敏感词和其对应的标签进行模型，以得到敏感词识别模型，以备后续实现对敏感词的识别。

在本实施例的一些可选的实现方式中，响应于目标分词对应的负样本的数值满足预设的数值阈值(数量或比值)，确定目标分词为敏感词，可以包括：

在多个目标分词对应的负样本的数值均满足预设的数据阈值(例如，负样本的数量或负样本的比值)时，可以将多个目标分词的数值进行排序，将满足预设的目标阈值的目标分词，确定为敏感词。

其中，将满足预设的目标阈值的目标分词，确定为目标敏感词，可以包括：将数值最高的目标分词确定为敏感词；或，将排在前几(例如，按照降序排列)的目标分词确定为敏感词。其中，排在前几的目标分词可以根据提取敏感词的精度或由人工设定或随机选取。

在一个具体的示例中，根据关联到的总样本数量，过滤低于1000的词语；然后选取剩余词语中坏样本比值在top10000(即排在前10000)的词，就得到了敏感词列表。

在本实现方式中，在多个目标分词的数值均满足预设的数值阈值时，可以将多个目标分词的数值进行排序，以将满足预设的目标阈值的目标分词确定为敏感词；基于两个阈值，对敏感词的进行多次筛选，以达到精确地确定敏感词。

进一步参考图3，图3示出了根据本申请的提取敏感词的方法的另一个实施例的流程300。该提取敏感词的方法可以包括以下步骤：

步骤301，获取用户历史操作信息。

步骤302，根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本。

步骤303，响应于目标分词对应的样本的类别包括负样本和正样本，确定目标分词对应的负样本和正样本的数量。

在本实施例中，提取敏感词的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以在确定目标分词对应的样本的类别包括负样本和正样本时，确定该目标分词对应的负样本的数量和正样本的数量。其中，正样本和负样本可以为类别不同的样本，例如，正样本为资源转移正常的样本，负样本为资源转移异常的样本。

步骤304，根据负样本和正样本的数量，确定目标分词对应的负样本的比值，并将负样本的比值确定为负样本的数值。

在本实施例中，上述执行主体可以根据负样本的数量和正样本的数量，确定目标分词对应的负样本的比值，并将负样本的比值作为负样本的数值。

在一个具体的示例中，根据负样本的数量和正样本的数量，确定目标分词对应的负样本的比值，包括：根据负样本和正样本的数量，确定该目标分词的总样本和；基于负样本的数量与总样本和的比值，确定负样本的比值；之后，将负样本的比值作为负样本的数值。或，根据负样本的数量和正样本的数量的比值，确定负样本的比值；之后，将负样本的比值作为负样本的数值。

步骤305，响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为敏感词。

在本实施例中，步骤301、302、305具体操作分别已在图2所示的实施例中步骤201、202、204进行了详细的介绍，在此不再赘述。

从图3中可以看出，与图2对应的实施例相比，本实施例中的提取敏感词的方法突出了确定负样本的数值的步骤。由此，本实施例描述的方案在目标分词对应的样本的类别包括负样本和正样本时，确定目标分词对应的负样本和正样本的数量；之后利用负样本和正样本的数量，确定目标分词对应的负样本的比值，并将负样本的比值确定为负样本的数值，从而可以实现对负样本的数值的确定。

进一步参考图4，图4示出了根据本申请的提取敏感词的方法的一个实施例的流程400。该提取敏感词的方法可以包括以下步骤：

步骤401，获取用户历史操作信息。

在本实施例中，提取敏感词的方法的执行主体(例如图1所示的终端设备101、102、103或105)可以获取用户当前操作信息。上述用户当前操作信息可以为在当前时刻下，产生的操作信息。

步骤402，根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本。

步骤403，响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值。

步骤404，响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

在本实施例中，步骤401-404具体操作分别已在图2所示的实施例中步骤201-204进行了详细的介绍，在此不再赘述。

步骤405，根据目标敏感词对应的预设的敏感系数，确定用户历史操作信息对应的敏感等级。

在本实施例中，提取敏感词的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以根据用户历史操作信息中的目标敏感词对应的预设的敏感系数，确定用户历史操作信息对应的敏感等级。上述敏感系数可以为敏感词所体现出的倾向等级对应的系数；例如，不同政治倾向等级对应的系数。或，敏感系数可以与用于表征用户可能具备某种敏感行为的概率对应，例如敏感行为可以为资源转移异常的行为，涉及不安全(例如，网络、数据、信息)的行为等。需要说明的是，敏感系数越高说明用户可能会实施某种敏感行为的概率越高。

在本实施例中，用户历史操作信息可以包括多个目标敏感词，例如敏感词A和敏感词C；根据敏感词A对应的预设的敏感系数和敏感词C对应的预设的敏感系数，确定用户历史操作信息对应的敏感等级。

在本实现方式中，上述敏感等级可以用于表征用户可能实施某些敏感行为对应的等级。例如，可以将敏感词分为：高级、中级、低级，高级敏感词对应的系数为Y1，中级敏感词对应的系数为Y2，低级敏感词对应的系数为Y3，且Y1＞Y2＞Y3。需要说明的是，敏感等级可以根据实际的使用需求或人工进行设定。

例如，高级敏感词汇包括敏感词A和B，中级敏感词包括敏感词C～F，低级敏感词包括敏感词G～I。假设此时目标敏感词为敏感词A，则表示该目标敏感词为高级敏感词，所以目标敏感词对应的敏感系数为Y2。

在一个具体的示例，根据敏感词A对应的敏感系数Y1和敏感词C对应的敏感系数Y2的和，确定用户历史操作信息对应的敏感等级；或，根据敏感词A对应的敏感系数Y1和敏感词C对应的敏感系数Y2的乘积，确定敏感等级；或，由于敏感词A对应的敏感系数Y1大于敏感词C对应的敏感系数Y2，可以基于敏感词A对应的敏感系数Y1，确定用户历史操作信息对应的敏感等级。

需要说明的是，步骤405还可以为步骤305之后的执行步骤。

从图4中可以看出，与图2对应的实施例相比，本实施例中的提取敏感词的方法突出了确定用户历史操作信息对应的敏感等级的步骤。由此，本实施例描述的方案利用用户历史操作信息中的目标敏感词对应的预设的敏感系数，确定用户历史操作信息对应的敏感等级，从而可以基于目标敏感词对应的敏感系数，确定敏感等级；例如，可以对高敏感等级的用户行为进行分析，以确定高敏感等级对应的用户特征；以备后续，可以预先基于用户的敏感等级，确定用户可能实施的敏感行为，以预先实施相应操作；又例如，如果该用户的敏感等级较高，在该用户需要进行授权认证时，可以直接拦截，无需对该用户的相关信息进行认证审核；或，在用户通过APP发表文本时，可以进行拦截，使该用户不能通过APP发表文本，避免违反法律，社会公德和妨害公共利益的信息的传播。

在本实施例的一些可选的实现方式中，敏感系数包括：敏感词的敏感等级对应的系数和/或敏感词对应的权重。上述敏感词对应的权重可以由目标敏感词对应的负样本的数值(例如，图2对应的实施例中的负样本的数值)的大小所确定，或人工设定；例如，根据所有目标敏感词对应的负样本的数值的顺序，随着目标敏感词对应的负样本的数值的减小，敏感词对应的权重也减小。也即，负样本的数值越大，对应的权重越大。

在本实现方式中，可以基于敏感词的敏感等级对应的系数和/或敏感词对应的权重，实现对敏感系数的确定。

进一步参考图5，图5示出了根据本申请的提取敏感词的方法中训练敏感词识别模型的一个实施例的流程500。该训练敏感词识别模型的方法可以包括以下步骤：

步骤501，获取目标敏感词对应的标签。

在本实施例中，训练步骤的执行主体可以与提取敏感词的方法的执行主体相同或者不同。如果相同，则训练步骤的执行主体可以在训练得到敏感词识别模型后将训练好的敏感词识别模型的模型结构信息和模型参数的参数值存储在本地。如果不同，则训练步骤的执行主体可以在训练得到敏感词识别模型后将训练好的敏感词识别模型的模型结构信息和模型参数的参数值发送给提取敏感词的方法的执行主体。

在本实施例中，训练步骤的执行主体可以通过多种方式来获取目标敏感词对应的标签。例如，可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的目标敏感词对应的标签。再例如，可以通过终端设备(例如图1所示的终端设备101、102、103)来收集目标敏感词对应的标签。上述目标敏感词对应的标签可以由人工设置的标签或由标签生成模型所打上的标签。

步骤502，利用目标敏感词和对应的标签进行训练，得到敏感词识别模型。

在本实施例中，上述执行主体可以将目标敏感词作为所述敏感词识别模型的输入，将目标敏感词对应的标签作为所述敏感词识别模型的输出，训练初始模型，得到敏感词识别模型。

本实施例中，上述执行主体在得到目标敏感词，以及目标敏感词对应的标签后，可以利用目标敏感词和对应的标签训练初始模型，得到敏感词识别模型。在训练时，执行主体可以将目标敏感词作为敏感词识别模型的输入，以及将所输入对应的标签，作为期望输出，得到敏感词识别模型。上述初始模型可以为现有技术或未来发展技术中的概率模型、分类模型或者其他分类器等，例如，初始模型可以包括以下任意一项：极端梯度提升树模型(XGBoost)、逻辑斯蒂回归模型(LR)、深度神经网络模型(DNN)、梯度提升决策树模型(Gradient Boosting Decision Tree，GBDT)。

需要说明的是，在得到敏感词识别模型之后，还可以通过该敏感词识别模型实现对任意待预测的信息中的敏感词的提取，以备后续可以根据待预测的信息中的敏感词，确定该待预测的信息所指示的用户可能涉及的敏感行为，以预先对该敏感行为进行拦截。

本申请实施例提供的方法，基于目标敏感词和对应的标签进行训练，得到敏感词识别模型，从而实现敏感词的提取。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种提取敏感词的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的提取敏感词的装置600可以包括：信息获取模块601、样本匹配模块602、第一确定模块603和第二确定模块604。其中，信息获取模块601，被配置成获取用户历史操作信息；样本匹配模块602，被配置成根据用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与目标分词对应的样本，其中，样本敏感信息集合包括样本的类别；第一确定模块603，被配置成响应于目标分词对应的样本的类别包括负样本，确定目标分词对应的负样本的数值；第二确定模块604，被配置成响应于目标分词对应的负样本的数值满足预设的数值阈值，确定目标分词为目标敏感词。

在本实施例中，提取敏感词的装置600中：信息获取模块601、样本匹配模块602、第一确定模块603和第二确定模块604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。其中，第一确定模块和第二确定模块可以为同一模块，还可以为不同的模块。

在本实施例的一些可选的实现方式中，目标分词对应的样本的类别还包括正样本；第一确定模块603，进一步被配置成：确定目标分词对应的正样本和负样本的数量；根据负样本和正样本的数量，确定目标分词对应的负样本的比值，并将负样本的比值确定为负样本的数值。

在本实施例的一些可选的实现方式中，负样本的数值为负样本的数量。

在本实施例的一些可选的实现方式中，样本敏感信息集合还包括：样本所属的时间点；信息获取模块601，被进一步配置成：获取预设时间点之前的预设时间段内的用户历史操作信息，其中，样本所属的时间点与预设时间点相同。

在本实施例的一些可选的实现方式中，该提取敏感词的装置还包括：标签获取模块(图中未示出)，被配置成获取目标敏感词对应的标签；模型训练模块(图中未示出)，被配置成利用目标敏感词和对应的标签进行训练，得到敏感词识别模型。

在本实施例的一些可选的实现方式中，该提取敏感词的装置还包括：第三确定模块(图中未示出)，被配置成根据目标敏感词对应的预设的敏感系数，确定用户历史操作信息对应的敏感等级。

在本实施例的一些可选的实现方式中，敏感系数包括：敏感词的敏感等级对应的系数和/或敏感词对应的权重。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如提取敏感词的方法。例如，在一些实施例中，提取敏感词的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的提取敏感词的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行提取敏感词的方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种提取敏感词的方法，包括：

获取用户历史操作信息；

根据所述用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与所述目标分词对应的样本，其中，所述样本敏感信息集合包括样本的类别；

响应于所述目标分词对应的样本的类别包括负样本，确定所述目标分词对应的负样本的数值；

响应于所述目标分词对应的负样本的数值满足预设的数值阈值，确定所述目标分词为目标敏感词。

2.根据权利要求1所述的方法，其中，所述目标分词对应的样本的类别还包括正样本；所述确定目标分词对应的负样本的数值，包括：

确定所述目标分词对应的正样本和负样本的数量；

根据所述负样本和正样本的数量，确定所述目标分词对应的负样本的比值，并将所述负样本的比值确定为所述负样本的数值。

3.根据权利要求1所述的方法，其中，所述负样本的数值为所述负样本的数量。

4.根据权利要求1-3任一项所述的方法，其中，所述样本敏感信息集合还包括：样本所属的时间点；

所述获取用户历史操作信息，包括：

获取预设时间点之前的预设时间段内的用户历史操作信息，其中，所述样本所属的时间点与所述预设时间点相同。

5.根据权利要求1所述的方法，所述方法还包括：

获取所述目标敏感词对应的标签；

利用所述目标敏感词和对应的标签进行训练，得到敏感词识别模型。

6.根据权利要求1所述的方法，所述方法还包括：

根据所述目标敏感词对应的预设的敏感系数，确定所述用户历史操作信息对应的敏感等级。

7.根据权利要求6所述的方法，其中，所述敏感系数包括：敏感词的敏感等级对应的系数和/或敏感词对应的权重。

8.一种提取敏感词的装置，包括：

信息获取模块，被配置成获取用户历史操作信息；

样本匹配模块，被配置成根据所述用户历史操作信息中的目标分词，从预设的样本敏感信息集合中匹配出与所述目标分词对应的样本，其中，所述样本敏感信息集合包括样本的类别；

第一确定模块，被配置成响应于所述目标分词对应的样本的类别包括负样本，确定所述目标分词对应的负样本的数值；

第二确定模块，被配置成响应于所述目标分词对应的负样本的数值满足预设的数值阈值，确定所述目标分词为目标敏感词。

9.根据权利要求8所述的装置，其中，所述目标分词对应的样本的类别还包括正样本；所述第一确定模块，进一步被配置成：

确定所述目标分词对应的正样本和负样本的数量；

10.根据权利要求8所述的装置，其中，所述负样本的数值为所述负样本的数量。

11.根据权利要求8-10任一项所述的装置，其中，所述样本敏感信息集合还包括：样本所属的时间点；

所述信息获取模块，被进一步配置成：获取预设时间点之前的预设时间段内的用户历史操作信息，其中，所述样本所属的时间点与所述预设时间点相同。

12.根据权利要求8所述的装置，所述装置还包括：

标签获取模块，被配置成获取所述目标敏感词对应的标签；

模型训练模块，被配置成利用所述目标敏感词和对应的标签进行训练，得到敏感词识别模型。

13.根据权利要求8所述的装置，所述装置还包括：

第三确定模块，被配置成根据所述目标敏感词对应的预设的敏感系数，确定所述用户历史操作信息对应的敏感等级。

14.根据权利要求13所述的装置，其中，所述敏感系数包括：敏感词的敏感等级对应的系数和/或敏感词对应的权重。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。