CN112631436B

CN112631436B - 输入法敏感词的过滤方法及装置

Info

Publication number: CN112631436B
Application number: CN202011531189.9A
Authority: CN
Inventors: 周锋; 丁克玉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-04-30
Anticipated expiration: 2040-12-22
Also published as: CN112631436A

Abstract

本申请涉及输入技术领域，尤其涉及一种输入法敏感词的过滤方法及装置，该方法包括：获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集；对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本；将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。本申请将待处理敏感词集分别进行敏感词过滤，使得用于分别训练待训练模型的训练样本中不包括对应过滤掉的敏感词，进而可以通过训练出的输入法模型过滤掉候选词集中的敏感词，消除用户的困扰，提高用户服务质量。

Description

输入法敏感词的过滤方法及装置

技术领域

本申请涉及输入技术领域，尤其涉及一种输入法敏感词的过滤方法及装置。

背景技术

随着手机、平板电脑等终端设备的发展，输入法已成为终端设备进行输写的重要工具。用户在通过输入法进行输入后，会展现许多与当前输入相关联的候选词语，以便帮助用户筛选输入结果。但是有时候候选词中可能会出现一些敏感词语(如暴力、脏话、性方面等词语)，这些词语并不是用户想看到的，并且在儿童用户模式下，这些词语会影响儿童的身心健康。因此现有的输入法给用户带来了困扰，从而降低了用户服务质量。

发明内容

本申请实施例提供一种输入法敏感词的过滤方法及装置，能够消除用户的困扰，提高用户服务质量。

第一方面，本申请实施例提供一种输入法敏感词的过滤方法，该方法包括：

获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括标注的多条文本内容；

对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本；

将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；

根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。

第二方面，本申请实施例提供一种输入法敏感词的过滤装置，该装置包括：

获取单元，用于获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括人工标注的多条文本内容；

过滤单元，用于对所述待处理敏感词集执行敏感词过滤操作，得到至少一个过滤样本；

训练单元，用于将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；

所述过滤单元，还用于根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。

第三方面，本申请实施例提供一种终端设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

在本申请实施例中，获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括标注的多条文本内容；对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本；将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。本申请将待处理敏感词集分别进行敏感词过滤，使得用于分别训练待训练模型的训练样本中不包括对应过滤掉的敏感词，进而可以通过训练出的输入法模型过滤掉候选词集中的敏感词，消除用户的困扰，提高用户服务质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种输入界面的示意图；

图2为本申请实施例提供的一种应用场景的示意图；

图3是本申请实施例提供的一种终端设备的架构示意图；

图4是本申请实施例提供的一种输入法敏感词的过滤方法的流程示意图；

图5是本申请实施例提供的一种输入法敏感词的过滤装置的功能单元组成框图；

图6是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

应理解，本申请实施例中涉及的“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

以及，除非有相反的说明，本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分，不用于限定多个对象的顺序、时序、优先级或者重要程度。例如，第一信息和第二信息，只是为了区分不同的信息，而并不是表示这两种信息的内容、优先级、发送顺序或者重要程度等的不同。

本申请实施例可以应用于输入场景。在输入场景下可提供候选词，候选词可用于表示输入法程序提供的待被用户选择的一个或多个字符。候选词可以为中文字符、英文字符、日文字符等语言的字符，候选词也可以为颜文字、图片等形式的符号组合。其中，上述颜文字包括但不限于线条、符号、文字所组成的图画，例如，上述颜文字的例子可以包括：“：P”、“:-o”、“:-)”等。

请参照图1，图1是本申请实施例提供的一种输入界面的示意图。如图1所示，输入法提供的候选词可以展示于候选区域以供用户选择，其中，在用户输入“天气”后，可以在候选区域提供“预报”、“好”、“冷”、“热”、“不好”、“不错”等候选词。

其中，候选词可以包括联想候选词和/或非联想候选词。在用户的输入过程中，输入法可以针对用户实时的输入文本提供联想候选词；或者可以在一次性输入完成后根据输入的上文提供联想候选词。联想候选词对应的语音单位可以包括：字词、句子、分句、短语等，以减少用户的输入成本。

示例性地，联想候选词和/或非联想候选词展现在候选区域。非联想候选词可以为依据输入串在词库中查找得到的候选词，非联想候选词对应的音节可以与输入文本相匹配。如输入串“gongz”对应的非联想候选词可以包括：“工作”、“工资”、“公主”、等。候选词可以是依据输入的上文语义预测得到的候选词，例如，用户输入“天天”对应的联想候选词可以包括“开心”、“向上”等联想候选词。可以理解，本发明实施例对于候选词的具体展现位置不加以限制。

目前，输入法已成为终端设备进行输写的重要工具。用户在通过输入法进行输入后，会展现许多与当前输入相关联的候选词语，以便帮助用户筛选输入结果。但是有时候候选词中可能会出现一些敏感词语(如暴力、脏话、性方面等词语)，这些词语并不是用户想看到的，并且在儿童用户模式下，这些词语会影响儿童的身心健康。因此现有的输入法给用户带来了困扰，从而降低了用户服务质量。

但现有的输入法只是在用户输入时，简单的将候选词与敏感词库中的敏感词做个字符串匹配，对于是敏感词的候选词进行去除，这种处理方式比较简单、生硬，容易影响用户的输入体验。例如，对于一些弱敏感词，如“蓝色”等，直接将其去除可能会导致用户无法直接输入的情况；对于含有敏感词但不全是敏感词的候选词可能会处理不准确，如敏感词“医生”，当用户输入“你是医生”时，因为其是字符串简单匹配，所以“你是医生”不能被屏蔽，即使使用子串匹配算法能够对含有敏感的候选项屏蔽，也存在不足之处，存在误过滤风险，如敏感词“医生”，当用户输入“叫医生”时，因其含有敏感词，不能被展示在候选项中，进而不能被用户直接选择，影响用户输入体验。

为了解决上述问题，本申请提出了一种输入法敏感词的过滤方法，将待处理敏感词集分别进行敏感词过滤，使得用于分别训练待训练模型的训练样本中不包括对应过滤掉的敏感词，然后使用该训练样本对待训练模型进行训练，进而使得训练出的输入法模型能够过滤掉候选词集中的敏感词，消除用户的困扰，提高用户服务质量。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图2，图2为本申请实施例提供的一种应用场景的示意图。如图2所示，包括终端设备210和服务设备220，所述终端设备210的交互界面采集用户的交互操作以接收输入文本，在输入文本时需要采用输入法敏感词的过滤方法，所述输入法敏感词的过滤方法是用于过滤用户输入文本所对应候选词中的敏感词。终端设备210通过服务设备220获取用户当前输入文本所对应的候选词。其中，既可以实时通过网络与服务设备220连接以获取各类词库，也可以预先通过网络从服务设备220获取各类词库并将该词库存储在终端设备210的存储单元中，从而在未联网条件下也可以调取各类词库。

请参阅图3，图3是本申请实施例提供的一种终端设备210的架构示意图。如图3所示，该终端设备210包括通过***总线连接的处理器、存储器和显示屏。其中，该处理器用于提供计算和控制能力，支撑整个终端设备210的运行。存储器用于存储数据、程序、和/或指令代码等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于终端设备210的输入法敏感词的过滤方法。存储器可包括磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random-Access-Memory，RAM)等。例如，在一个实施例中，存储器包括非易失性存储介质及内存储器。非易失性存储介质存储有操作***、数据库和计算机程序。该数据库中存储有用于实现以下各个实施例所提供的一种输入法敏感词的过滤方法相关的数据，比如可存储候选词库或预存用户输入记录等。该计算机程序可被处理器所执行，以用于实现本申请各个实施例所提供的一种输入法敏感词的过滤方法。内存储器为非易失性存储介质中的操作***、数据库和计算机程序提供高速缓存的运行环境。显示屏可以是触摸屏，比如为电容屏或电子屏，用于显示终端的界面信息以及检测用户操作动作。该终端设备210可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备210的具体限定。在本申请另一些实施例中，终端设备210可以包括比图示更多部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

请参阅图4，图4是本申请实施例提供的一种输入法敏感词的过滤方法的流程示意图。如图4所示，该输入法敏感词的过滤方法包括以下步骤：

S410、获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括标注的多条文本内容。

其中，所述待处理敏感词集中的文本内容可以是用户在网络论坛、个人主页、游戏聊天等各种场景中通过输入法发表包括敏感词的文本内容。该文本内容可以为汉语文本、英语文本、日语文本等等，具体语言种类不做限定。

其中，所述待处理敏感词集组包括待处理强敏感词集、待处理中敏感词集和待处理弱敏感词集。

在本申请实施例中，根据敏感词的敏感强度对敏感词进行分类，分为强敏感词、中敏感词和弱敏感词。其中强敏感词为非常敏感的词汇；弱敏感词为生活中偶尔使用或存在多义但其中一个意思是敏感词的词汇；中敏感词为介于强敏感词和弱敏感词中间的一种敏感词，其为较严重的脏话等。

本申请通过设置中敏感词可以降低对敏感词标注的难度，并且对于是敏感词但难于确定是强敏感词还是弱敏感词的词条，可以将其归为中敏感词，从而得到更细的分类，以便采取更灵活的处理方式。

示例性地，在获取到用户发表的包括敏感词的多个文本内容后，根据敏感词的分类，对该多个文本内容进行分类，得到所述待处理敏感词集组。具体为将该多个文本内容中包括强敏感词的文本内容分配到待处理强敏感词集中，并标注该文本内容中的强敏感词；将该多个文本内容中包括中敏感词的文本内容分配到待处理中敏感词集中，并标注该文本内容中的中敏感词；将该多个文本内容中包括弱敏感词的文本内容分配到待处理弱敏感词集中，并标注该文本内容中的弱敏感词。

可理解的是，若文本内容中包括两类敏感词，则将该文本内容均分配到该两类敏感词对应的待处理敏感词集中，例如，文本内容1中既有强敏感词又有中敏感词，则将文本内容1 分别分配到待处理强敏感词集和待处理中敏感词集中。

S420对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本。

在本申请实施例中，由于不同类型的敏感词对用户的体验不同，因此对敏感词进行区分，并根据敏感词的类型采取相应的处理措施，提高用户体验。

可选的，所述对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本，包括：分别过滤所述待处理强敏感词集中的强敏感词、降低所述待处理中敏感词集中的中敏感词的数量、降低所述待处理弱敏感词集中的弱敏感词的数量，得到所述至少一个过滤样本。

具体地，不同类型的敏感词需要采用不同的处理措施。对于强敏感词，用户不希望其出现在候选词中，因此将待处理强敏感词集中的强敏感词都过滤掉，得到不包括强敏感词的过滤样本。对于中敏感词和弱敏感词，由于用户在一些情况下可能会使用到，因此降低待处理中敏感词集中敏感词的数量得到包括预设比例的中敏感词的过滤样本，降低弱敏感词集中的弱敏感词得到包括预设比例的中敏感词的过滤样本。

示例性地，用户对中敏感词的敏感程度比弱敏感词要高，因此包括中敏感词的过滤样本的中敏感词的数量可以比包括弱敏感词的过滤样本中弱敏感词的数量少。

可选的，所述过滤所述待处理强敏感词集中的强敏感词，包括：

对所述待处理强敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；判断每个所述分词结果中的每个词是否为强敏感词；若所述分词结果中存在强敏感词，删除所述待处理强敏感词集中所述分词结果对应的文本内容。

其中，过滤文本内容中的强敏感词需要先确定该文本内容中的强敏感词，然后删除该文本内容中的强敏感词。强敏感词的确定需要先对文本内容进行分词，将文本内容划分成多个语料，然后遍历该多个语料中的每个语料，如果有语料与预先存储的强敏感词集中的强敏感词匹配上了，则确定该语料为强敏感词，并删除文本内容中的该语料。例如，“逛街”为强敏感词，“我们今天去逛街吧”文本内容的分词结果为“我们今天去逛街吧”，遍历该分词结果，将分词结果中的每一词语与强敏感词“逛街”进行匹配，如果匹配上则认为该词为强敏感词，即认为分词结果中含有强敏感词，也即认为该条文本内容中含有强敏感词，删除该文本内容中的该强敏感词。

可选的，所述对所述待处理强敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果，包括：

确定所述每条文本内容中的每个字的上下文信息；根据所述每个字的上下文信息，得到所述每条文本内容中每个字之间的语义关系；根据所述每个字之间的语义关系对每条文本内容中的字进行划分，得到每条文本内容的分词结果。

在实际应用中，通过词语与预先存储的强敏感词集中的强敏感词的匹配来判断文本内容中的敏感词，在一些场景下可能会判断不准确。例如，“生活”作为强敏感词，“你要生活”文本内容的分词结果为“你要生活”，因为“学生”的词语与强敏感词匹配上从而该词语会被删除，而对于“我去学生活动教室”文本内容，如果其分词结果为“我去学生活动教室”，根据匹配判断的原则，该词语也会被删除，但是如果分词结果为“我去学生活动教室”，该文本内容中不包括强敏感词，从而就不会被丢弃。

在本申请实施例中，结合每个词的上下文信息对文本内容进行分词，从而给出最佳的分词结果，进行准确的语义判断。

示例性地，先将文本内容中的每个字进行拆分，获取每个字的笔画信息；对所述笔画信息进行特征数值化处理，得到每个字的多元特征序列；然后将每个字的多元特征序列输入至预设训练得到的映射模型，得到每个字对应的上下文信息。所述上下文信息可以包括该字的词性、词义、词意等。然后根据每个字之间的上下文关系，确定每个字之间的语义关系。例如，对于“我去学生活动教室”，根据“生”字的上下文，“生”字可以和“学”结合组成“学生”这一词语，也可以和“活”字结合组成“生活”词语，但是对于分词结果为“我去学生活动教室”，“学”和“动”是动词，“生活”是名词，这是一个不合理的句子，因此将“生”字和“学”结合，得到分词结果“我去学生活动教室”。

示例性地，可以采用预先训练好的语言模型分词或神经网络模型分词对文本内容进行分词。语言模型分词、神经网络模型分词可以很好的结合上下文信息，给出最佳的分词结果，进行准确的语义判断。

进一步地，模型结合上下文信息可以得到更好的分词结果；而且其还可以删除周边类似的没有加入强敏感词集的强敏感词，如“大家都说葡萄好”被删除，那么强敏感词“葡萄好”也会得到删除。

可选的，所述降低所述待处理中敏感词集中的中敏感词的数量，包括：

对所述待处理中敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；判断每个所述分词结果中的每一个词是否为中敏感词；若多个所述分词结果中存在中敏感词，按照第一比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

其中，过滤文本内容中的中敏感词需要先确定该文本内容中的中敏感词，然后根据第二比例确定是否该文本内容中的中敏感词。中敏感词的确定需要先对文本内容进行分词，将文本内容划分成多个语料，然后遍历该多个语料中的每个语料，如果有语料与预先存储的中敏感词集中的中敏感词匹配上了，则确定该语料为中敏感词。最后统计中敏感词集中的中敏感词的数量，将分词结果中含有中敏感词的语料的词频根据第一比例进行降低，如降低70％、 75％、80％、85％等。

可选的，所述降低所述待处理弱敏感词集中的弱敏感词的数量，包括：

对所述待处理弱敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；判断每个所述分词结果中的每一个词是否为弱敏感词；若多个所述分词结果中存在弱敏感词，按照第二比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

其中，过滤文本内容中的弱敏感词需要先确定该文本内容中的弱敏感词，然后根据第二比例确定是否该文本内容中的弱敏感词。弱敏感词的确定需要先对文本内容进行分词，将文本内容划分成多个语料，然后遍历该多个语料中的每个语料，如果有语料与预先存储的弱敏感词集中的弱敏感词匹配上了，则确定该语料为弱敏感词。例如，弱敏感词为“白色”，对于“白色是最好看的颜色”的文本内容，其分词结果为“白色是最好看的颜色”，遍历该分词结果，将分词结果中的每一词语与弱敏感词“白色”进行匹配，如果匹配上则认为该词为弱敏感词，即认为分词结果中含有弱敏感词，也即认为该条文本内容中含有弱敏感词。最后统计弱敏感词集中的弱敏感词的数量，将分词结果中含有弱敏感词的语料的词频根据第二比例进行降低，例如，降低30％、40％、50％等。

在实际应用中，所述第一比例比第二比例大，即最终过滤后的待处理中敏感词集中的中敏感词的数量是少于待处理弱敏感词集中的弱敏感词的。所述第一比例和第二比例可以由***进行设置，也可以根据实际应用场景具体设置，本申请实施例对此不做限定。

示例性地，所述分词方式可以采用语言模型分词或神经网络模型分词的方式。

在本申请实施例中，结合每个词的上下文信息对文本内容进行分词，从而给出最佳的分词结果，进行准确的语义判断，区分包含弱敏感词的语料是否为真敏感词。

S430、将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型。

其中，将过滤了强敏感词的待处理强敏感词集作为第一过滤样本，使用第一过滤样本对待训练模型进行训练，以供输入法使用，从而使得最后训练好的输入法模型不产生强敏感词的候选词。然后将过滤了中敏感词的待处理中敏感词集作为第二过滤样本，使用第二过滤样本再次对待训练模型进行训练，以供输入法使用，从而使得输入法模型产生的候选词中的中敏感词在候选词中的位置因为频率的降低而靠后，达到降低中敏感词排序的目的。最后将过滤了弱敏感词的待处理弱敏感词集作为第三过滤样本，使用第三过滤样本再次对待训练模型进行训练得到输入法模型，从而使得输入法模型产生的候选词中的弱敏感词在候选词中的位置因为频率的降低而靠后，达到降低弱敏感词排序的目的。

进一步地，经过输入法模型产生的候选词中的周边类似的弱敏感词和中敏感词虽然没加入到弱敏感词集和中敏感词中，但也可以得到抑制，如“白色手套”会因为频率的降低而靠后。

需要说明的是，本申请实施例对使用第一过滤样本、第二过滤样本和第三过滤样本对待训练模型进行训练的顺序是不加以限定的，即可以先使用第二过滤样本进行训练，再使用第一过滤样本进行训练，最后使用第三过滤样本进行训练；也可以先使用第三过滤样本进行训练，再使用第一过滤样本进行训练，最后使用第二过滤样本进行训练。

S440、根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。

其中，当用户进行输入时，可以使用输入法模型对当前输入文本所对应的候选词集进行过滤，从而使得展现在用户面前的目标候选词中满足用户的需求。

可选的，所述根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词包括：

将所述目标候选词集输入所述输入法模型；若第一候选词为所述强敏感词或所述中敏感词，删除所述第一候选词，所述目标候选词集包括所述第一候选词；若所述第一候选词为所述弱敏感词，降低所述第一候选词在所述目标候选词集中的排列顺序；将所述目标候选词集中的前N个候选词确定为所述目标候选词，所述N为正整数。

示例性地，为了以防万一，可以将强敏感词加入黑名单，并遍历通过输入法模型展示的目标候选词，将每个目标候选词与强敏感词进行匹配，若存在目标候选词为强敏感词，则将该目标候选词删除。

示例性地，中敏感词可不在目标候选词中展示，因此可将中敏感词加入黑名单，并遍历通过输入法模型得到的至少一个目标候选词，若在该至少一个目标候选词中存在目标候选词为中敏感词，则删除所述目标候选词。

示例性地，对于仍未满足降序效果的弱敏感词，例如，人工标注确定指定弱敏感词需排在M位之后，M为正整数，那么将目标候选词分为弱敏感词和非弱敏感词两组，将弱敏感词组依序放在第M位及以后，非弱敏感词组依序从前至后填补空位，可达到降低敏感词排序的目的。

在本申请实施例中，当中敏感词被重新确认为弱敏感词时，可将该中敏感词从黑名单中删除，从而不需要重训输入法模型；当弱敏感词被重新确认为中敏感词时，只需将该弱敏感词加入黑名单；对于中敏感词被重新确认为强敏感词的情况下，通过黑名单可以在一定程度上保持屏蔽效果，可积累到一定程度再按强敏感词处理流程重新训练输入法模型。

在一种可能的实现方式中，所述方法还包括：获取用户敏感词，所述用户敏感词为用户通过至少一个选择组成输入的强敏感词、中敏感词、弱敏感词中的任一种；若所述第一候选词为所述用户敏感词，提高所述第一候选词在所述候选词集中的排列顺序。

在本申请实施例中，考虑到已经成为用户的用户敏感词，即当用户通过多次选择组合输入敏感词时，该敏感词即作为用户敏感词，带有用户词属性。当用户下次输入时，黑名单在屏蔽候选项时，会检测敏感词是否带有用户词属性。如果敏感词带有用户词属性，则不管该敏感词是哪一类敏感词，该敏感词可作为候选词进行展示，且为了使用户更快的输入，可将该敏感词的顺序排在前面。如果敏感词不带用户词属性，那么强敏感词和中敏感词给予屏蔽，弱敏感词给予降序展示，以提升用户输入体验，但不影响其他用户输入体验。

可以看出，本申请实施例提出的输入法敏感词的过滤方法，获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括标注的多条文本内容；对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本；将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。本申请将待处理敏感词集分别进行敏感词过滤，使得用于分别训练待训练模型的训练样本中不包括对应过滤掉的敏感词，进而可以通过训练出的输入法模型过滤掉候选词集中的敏感词，消除用户的困扰，提高用户服务质量。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，终端设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对终端设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

请参阅图5，图5是本申请实施例提供的一种输入法敏感词的过滤装置的功能单元组成框图，所述装置500包括：获取单元510、过滤单元520和训练单元520，其中，

所述获取单元510，用于获取待处理敏感词集组，所述待处理敏感词集组包括待处理敏感词集，所述待处理敏感词集包括人工标注的多条文本内容；

所述过滤单元520，用于对所述待处理敏感词集执行敏感词过滤操作，得到至少一个过滤样本；

所述训练单元530，用于将所述至少一个过滤样本作为训练样本分别对待训练模型进行训练，得到输入法模型；

所述过滤单元520，还用于根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词，所述目标候选词集包括多个候选词。

可选的，所述待处理敏感词集组包括待处理强敏感词集、待处理中敏感词集和待处理弱敏感词集；

在对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本方面，所述过滤单元520具体用于：分别过滤所述待处理强敏感词集中的强敏感词、降低所述待处理中敏感词集中的中敏感词的数量、降低所述待处理弱敏感词集中的弱敏感词的数量，得到所述至少一个过滤样本。

可选的，在过滤所述待处理强敏感词集中的强敏感词方面，所述过滤单元520具体用于：

可选的，在对所述待处理强敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果方面，所述过滤单元520具体用于：确定所述每条文本内容中的每个字的上下文信息；根据所述每个字的上下文信息，得到所述每条文本内容中每个字之间的语义关系；根据所述每个字之间的语义关系对每条文本内容中的字进行划分，得到每条文本内容的分词结果。

可选的，在降低所述待处理中敏感词集中的中敏感词的数量方面，所述过滤单元520具体用于：对所述待处理中敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；判断每个所述分词结果中的每一个词是否为中敏感词；若多个所述分词结果中存在中敏感词，按照第一比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

可选的，在降低所述待处理弱敏感词集中的弱敏感词的数量方面，所述过滤单元520具体用于：对所述待处理弱敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；判断每个所述分词结果中的每一个词是否为弱敏感词；若多个所述分词结果中存在弱敏感词，按照第二比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

可选的，在根据所述输入法模型对目标候选词集进行过滤，得到至少一个目标候选词方面，所述过滤单元520具体用于：将所述目标候选词集输入所述输入法模型；若第一候选词为所述强敏感词或所述中敏感词，删除所述第一候选词，所述目标候选词集包括所述第一候选词；若所述第一候选词为所述弱敏感词，降低所述第一候选词在所述目标候选词集中的排列顺序；将所述目标候选词集中的前N个候选词确定为所述目标候选词，所述N为正整数。

可选的，所述获取单元510还用于：获取用户敏感词，所述用户敏感词为用户通过至少一个选择组成输入的强敏感词、中敏感词、弱敏感词中的任一种；

若所述第一候选词为所述用户敏感词，提高所述第一候选词在所述候选词集中的排列顺序。

可以理解的是，本申请实施例的输入法敏感词的过滤装置的各程序模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参阅图6，图6是本申请实施例提供的一种终端设备，该终端设备包括：处理器、存储器、收发器，以及一个或多个程序。所述处理器、存储器和收发器通过通信总线相互连接。

处理器可以是一个或多个中央处理器(central processing unit，CPU)，在处理器是一个 CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行；所述程序包括用于执行以下步骤的指令：

需要说明的是，本申请实施例的具体实现过程可参见上述方法实施例所述的具体实现过程，在此不再赘述。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种输入法敏感词的过滤方法，其特征在于，所述方法包括：

获取待处理敏感词集组，所述待处理敏感词集组包括待处理强敏感词集、待处理中敏感词集和待处理弱敏感词集，所述待处理敏感词集包括标注的多条文本内容；

对所述待处理敏感词集分别进行敏感词过滤操作，得到至少一个过滤样本，包括：分别过滤所述待处理强敏感词集中的强敏感词、降低所述待处理中敏感词集中的中敏感词的数量、降低所述待处理弱敏感词集中的弱敏感词的数量，得到所述至少一个过滤样本；

2.根据权利要求1所述的方法，其特征在于，所述过滤所述待处理强敏感词集中的强敏感词，包括：

对所述待处理强敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；

判断每个所述分词结果中的每个词是否为强敏感词；

若所述分词结果中存在强敏感词，删除所述待处理强敏感词集中所述分词结果对应的文本内容。

3.根据权利要求2所述的方法，其特征在于，所述对所述待处理强敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果，包括：

确定所述每条文本内容中的每个字的上下文信息；

根据所述每个字的上下文信息，得到所述每条文本内容中每个字之间的语义关系；

根据所述每个字之间的语义关系对每条文本内容中的字进行划分，得到每条文本内容的分词结果。

4.根据权利要求3所述的方法，其特征在于，所述降低所述待处理中敏感词集中的中敏感词的数量，包括：

对所述待处理中敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；

判断每个所述分词结果中的每一个词是否为中敏感词；

若多个所述分词结果中存在中敏感词，按照第一比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

5.根据权利要求1所述的方法，其特征在于，所述降低所述待处理弱敏感词集中的弱敏感词的数量，包括：

对所述待处理弱敏感词集中的多条文本内容分别进行分词，得到每条文本内容的分词结果；

判断每个所述分词结果中的每一个词是否为弱敏感词；

若多个所述分词结果中存在弱敏感词，按照第二比例部分删除所述待处理中敏感词集中该多个所述分词结果对应的文本内容。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

获取用户敏感词，所述用户敏感词为用户通过至少一个选择组成输入的强敏感词、中敏感词、弱敏感词中的任一种；

若所述候选词为所述用户敏感词，提高所述候选词在所述目标候选词集中的排列顺序。

7.一种输入法敏感词的过滤装置，其特征在于，所述装置包括：

获取单元，用于获取待处理敏感词集组，所述待处理敏感词集组包括待处理强敏感词集、待处理中敏感词集和待处理弱敏感词集，所述待处理敏感词集包括人工标注的多条文本内容；

过滤单元，用于对所述待处理敏感词集执行敏感词过滤操作，得到至少一个过滤样本，包括：分别过滤所述待处理强敏感词集中的强敏感词、降低所述待处理中敏感词集中的中敏感词的数量、降低所述待处理弱敏感词集中的弱敏感词的数量，得到所述至少一个过滤样本；

8.一种终端设备，其特征在于，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-6任一项所述的方法中的步骤的指令。

9.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-6任一项所述的方法。