CN106211165B

CN106211165B - 检测外文骚扰短信的方法、装置及相应的客户端

Info

Publication number: CN106211165B
Application number: CN201610421345.3A
Authority: CN
Inventors: 张金晶; ***; 常富洋
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Hongxiang Technical Service Co Ltd
Priority date: 2016-06-14
Filing date: 2016-06-14
Publication date: 2020-04-21
Anticipated expiration: 2036-06-14
Also published as: CN106211165A

Abstract

本发明提供了检测外文骚扰短信的方法、装置及相应的客户端，检测外文骚扰短信的方法包括：服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率；当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；将识别出的语言种类为外语的短信输入分类模型以获得输出结果；若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。通过本发明，实现了对待识别短信语言类别的精确识别，提高了识别外文骚扰短信的效率，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。

Description

检测外文骚扰短信的方法、装置及相应的客户端

技术领域

本发明涉及短信识别技术领域，具体而言，本发明涉及一种检测外文骚扰短信的方法和一种客户端中检测外文骚扰短信的方法，及一种检测外文骚扰短信的装置和一种检测外文骚扰短信的客户端。

背景技术

随着科学技术的不断发展，电子技术也得到了飞速的发展，电子产品的种类也越来越多，人们也享受到了科技发展带来的各种便利。现在人们可以通过各种类型的移动终端，享受随着科技发展带来的舒适生活。例如，智能手机、已经成为人们生活中一个重要的组成部分，用户可以使用智能手机打电话、收发短信等，实现随时随地快速通信。

短信由于其具有短小精要、成本低廉等优点被人们广泛的使用，也正因为它使用的广泛和成本低廉常被广告商、不法分子等所利用。人们常常会收到诸多骚扰短信，如：诈骗短信、广告短信、推销短信等等。为了避免这些对用户来说无用设置有害的骚扰短信对用户造成困扰，现有技术会对用户目标短信进行识别处理，拦截属于骚扰短信的短信。

现有技术中，大多基于对中文短信进行识别处理，并未实现对外文短信进行是否为骚扰短信的识别处理，亦无法实现对该外语骚扰短信的拦截。因此，需要一种检测外文骚扰短信的方法，当该外语短信为骚扰短信时，实现对外文骚扰短信的拦截。

发明内容

为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

本发明的实施例提出了一种检测外文骚扰短信的方法，包括：

服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率；

当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；

将识别出的语言种类为外语的短信输入分类模型以获得输出结果；

若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

优选地，服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率，包括：

通过预先训练的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；

根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

优选地，预定的概率算法包括朴素贝叶斯算法。

可选地，将识别出的语言种类为外语的短信输入分类模型之前，还包括：

将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

优选地，将识别出的语言种类为外语的短信输入分类模型以获得输出结果，包括：

根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

将提取的外语特征数据输入分类模型进行训练；

获取分类模型的训练结果。

其中，短信的外语特征数据由短信的外文短语、单词、各个字母和/或多个相邻字母中的至少一项来构造。

可选地，该方法还包括：

将判断待识别短信为骚扰短信的判断结果下发至相应的客户端。

本发明的另一实施例提出了一种客户端中检测外文骚扰短信的方法，包括：

将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率；

将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果；

若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

优选地，将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率，包括：

通过预存的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；

优选地，预定的概率算法包括朴素贝叶斯算法。

可选地，将识别出的语言种类为外语的短信输入预存的分类模型之前，还包括：

优选地，将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果，包括：

将提取的外语特征数据输入分类模型进行训练；

获取分类模型的训练结果。

优选地，对外语骚扰短信依据预设的处理规则进行相应处理，包括以下至少一种情形：

将外语骚扰短信存储至预定的存储目录中；

删除外语骚扰短信。

可选地，该方法还包括：

若基于输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。

本发明的又另一实施例提出了一种检测外文骚扰短信的装置，包括：

第一概率确定模块，用于服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率；

第一语言确定模块，用于当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；

第一输入模块，用于将识别出的语言种类为外语的短信输入分类模型以获得输出结果；

拦截模块，用于若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

优选地，第一概率确定模块，包括：

第一计算单元，用于通过预先训练的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；

第二计算单元，用于根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

优选地，预定的概率算法包括朴素贝叶斯算法。

可选地，该装置还包括：

第一转换模块，用于将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

优选地，第一输入模块，包括：

第一提取单元，用于根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

第一输入单元，用于将提取的外语特征数据输入分类模型进行训练；

第一获取单元，用于获取分类模型的训练结果。

可选地，该装置还包括：

下发模块，用于将判断待识别短信为骚扰短信的判断结果下发至相应的客户端。

本发明的再另一实施例提出了一种检测外文骚扰短信的客户端，包括：

第二概率确定模块，用于将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率；

第二语言确定模块，用于当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；

第二输入模块，用于将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果；

处理模块，用于若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

优选地，第二概率确定模块，包括：

第三计算单元，用于通过预存的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；

第四计算单元，用于根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

优选地，预定的概率算法包括朴素贝叶斯算法。

可选地，该客户端还包括：

第二转换模块，用于将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

优选地，第二输入模块，包括：

第二提取单元，用于根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

第二输入单元，用于将提取的外语特征数据输入分类模型进行训练；

第二获取单元，用于获取分类模型的训练结果。

优选地，处理模块用于以下至少一种情形：

将外语骚扰短信存储至预定的存储目录中；

删除外语骚扰短信。

可选地，该客户端还包括：

信息生成显示模块，用于若基于输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。

本发明的实施例中，提出了一种检测外文骚扰短信的方案，服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率，当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语，实现了对待识别短信语言类别的精确识别，为后续判断该待识别短信是否为外文骚扰短信提供了可靠的前提保障；随后，将识别出的语言种类为外语的短信输入分类模型以获得输出结果，通过对待识别外文短信进行分类模型训练，提高了对外文短信的分类精度，从而提升了对外文骚扰短信的识别度，且提高了识别外文骚扰短信的效率；若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明中一个实施例的检测外文骚扰短信的方法的流程图；

图2为本发明中另一实施例的客户端中检测外文骚扰短信的方法的流程图；

图3为本发明中又另一实施例的检测外文骚扰短信的装置的结构示意图；

图4为本发明中再另一实施例的检测外文骚扰短信的客户端的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明的实施例中，在通过预先训练的语言模型对接收到的待识别短信进行训练之前，首先需要获取外语的语料，获取方式包括从网络上搜索获取和/或从服务器已有的外语语料中获取，本发明的实施例均在已获取语料的基础上实现。

需要说明的是，本发明的实施例中，外语包括的语种包括但不限于英语、法语、日语、德语和印度语等中的任一种，在此不做限定。

图1为本发明中一个实施例的检测外文骚扰短信的方法的流程图。

本发明的实施例中，各步骤所执行的内容概述如下：步骤S110：服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率；步骤S120：当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；步骤S130：将识别出的语言种类为外语的短信输入分类模型以获得输出结果；步骤S140：若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

本发明的实施例中，提出了一种检测外文骚扰短信的方法，服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率，当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语，实现了对待识别短信语言类别的精确识别，为后续判断该待识别短信是否为外文骚扰短信提供了可靠的前提保障；随后，将识别出的语言种类为外语的短信输入分类模型以获得输出结果，通过对待识别外文短信进行分类模型训练，提高了对外文短信的分类精度，从而提升了对外文骚扰短信的识别度，且提高了识别外文骚扰短信的效率；若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。以下针对各个步骤的具体实现做进一步的说明：

步骤S110：服务器将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率。

具体地，服务器将接收到的待识别短信输入预先训练的语言模型，根据预先训练的语言模型的训练结果确定待识别短信的语言种类为外语的概率。

在一优选实施例中，步骤S110进一步包括步骤S111(图中未示出)和步骤S112(图中未示出)；步骤S111：通过预先训练的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；步骤S112：根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

其中，预定的概率算法包括朴素贝叶斯算法。

例如，服务器接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，随后服务器将接收到的该待识别短信输入预先训练的语言模型，计算该待识别短信中的每个单词中各个字母及多个相邻字母如“o”、“w”、“wh”、“he”和“whe”等的语言种类为外语的子概率，根据各个子概率，通过预定的朴素贝叶斯算法，将待识别短信中的每个单词中各个字母和/或多个相邻字母如“wh”、“he”和“whe”等的语言种类为外语的各个子概率做乘积计算，得到计算结果的概率如80％，则确定该待识别短信的语言种类为外语的概率为80％。

步骤S120：当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语。

具体地，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语。

例如，接上例，通过预定的朴素贝叶斯算法计算确定待识别短信“Our wheels arealways turning.On December 20,isuzu will Show you the latest style.”的语言种类为外语的概率为80％，预定的外语概率阈值为60％，该待识别短信的语言种类为外语的概率80％超过了预定的外语概率阈值60％，确定该待识别短信的语言种类为外语。

步骤S130：将识别出的语言种类为外语的短信输入分类模型以获得输出结果。

优选地，将识别出的语言种类为外语的短信输入分类模型之前，还包括步骤S150(图中未示出)；步骤S150：将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

例如，将识别出的语言种类为外语的短信“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”中需要进行转换的词的词性和/或时态进行转换，即将正在进行时态的词“turning”转换为“turn”。

在一优选实施例中，步骤S130进一步包括步骤S131(图中未示出)、步骤S132(图中未示出)和步骤S133(图中未示出)；步骤S131：根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；步骤S132：将提取的外语特征数据输入分类模型进行训练；步骤S133：获取分类模型的训练结果。

例如，服务器接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，根据预先训练的语言模型的训练结果确定该待识别短信的语言种类为外语，将该短信中的词“turning”转换为“turn”，随后根据该短信的内容提取出相应的外语特征数据，如“wheels”、“isuzu”、“Show you”、“style”、“On December 20”等，将提取出的上述外语特征数据输入分类模型进行训练，随后获取分类模型对该待识别短信的训练结果为该待识别短信为外文广告短信。

通过本实施例，通过对待识别外文短信中的外语特征数据进行分类模型进行训练，提高了对外文短信的分类精度，并且，由于外语特征数据不仅可以表征短信本身的语义，还能够表征短信与相似短信之间的关系，同时能够表征短信所属的类别及与其它类别之间的关系，通过短信的外语特征数据，能够帮助外文短信分类模型对新的、相似的外文短信进行分类，提升了外文短信分类模型的泛化能力，从而提升了对外文短信的识别度。

步骤S140：若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

具体地，若基于分类模型对待识别短信的训练结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

例如，服务器接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，基于分类模型对待识别短信的训练结果为外文广告短信，判别该短信为外语骚扰短信，随后服务器拦截该骚扰短信，以阻止该外文骚扰短信欲发送至的目标客户端接收到该骚扰短信。

在一优选实施例中，该方法还包括步骤S160(图中未示出)；步骤S160：将判断待识别短信为骚扰短信的判断结果下发至相应的客户端。

例如，服务器将判断待识别短信“Our wheels are always turning.On December20,isuzu will Show you the latest style.”为外文骚扰短信的判断结果下发至相应的客户端，以提示终端用户其可能接收到了一条外文骚扰短信，如判断结果相应的提示信息为“您接收到一条外文骚扰短信，是否确认继续接收？”。

图2为本发明中另一实施例的客户端中检测外文骚扰短信的方法的流程图。

本发明的实施例中，各步骤所执行的内容概述如下：步骤S210：将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率；步骤S220：当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；步骤S230：将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果；步骤S240：若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

本发明的实施例中，提出了一种客户端中检测外文骚扰短信的方法，将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率，当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语，实现了对待识别短信语言类别的精确识别，为后续判断该待识别短信是否为外文骚扰短信提供了可靠的前提保障；随后，将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果，通过对待识别外文短信进行分类模型训练，提高了对外文短信的分类精度，从而提升了对外文骚扰短信的识别度，且提高了识别外文骚扰短信的效率；若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理，充分的考虑了用户的个性化使用需求，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。以下针对各个步骤的具体实现做进一步的说明：

步骤S210：将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率。

具体地，将客户端接收到的待识别短信输入预存的语言模型进行训练，根据训练结果确定待识别短信的语言种类为外语的概率。

其中，预存的语言模型可为服务器端预先向客户端下发，并由客户端保存维护。

在一优选实施例中，步骤S210进一步包括步骤S211(图中未示出)和步骤S212(图中未示出)；步骤S211：通过预存的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；步骤S212：根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

其中，预定的概率算法包括朴素贝叶斯算法。

例如，客户端接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，随后客户端将接收到的该待识别短信输入预存的语言模型，其中，预存的语言模型可以是服务端下发的语言模型，计算该待识别短信中的每个单词中各个字母和/或多个相邻字母如“wh”、“he”和“whe”等的语言种类为外语的子概率，根据各个子概率，通过预定的朴素贝叶斯算法，将待识别短信中的每个单词中各个字母及多个相邻字母如“o”、“w”、“wh”、“he”和“whe”等的语言种类为外语的各个子概率做乘积计算，得到计算结果的概率如80％，则确定该待识别短信的语言种类为外语的概率为80％。

步骤S220：当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语。

步骤S230：将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果。

优选地，将识别出的语言种类为外语的短信输入预存的分类模型之前，还包括步骤S250(图中未示出)；步骤S250：将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

例如，将识别出的语言种类为外语的短信“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”中需要进行转换的词的词的词性和/或时态进行转换，即将正在进行时态的词“turning”转换为“turn”。

在一优选实施例中，步骤S230进一步包括步骤S231(图中未示出)、步骤S232(图中未示出)和步骤S233(图中未示出)；步骤S231：根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；步骤S232：将提取的外语特征数据输入分类模型进行训练；步骤S233：获取分类模型的训练结果。

例如，客户端接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，根据预存的语言模型的训练结果确定该待识别短信的语言种类为外语，将该短信中的词“turning”转换为“turn”，随后根据该短信的内容提取出相应的外语特征数据，如“wheels”、“isuzu”、“Show you”、“style”、“On December 20”等，将提取出的上述外语特征数据输入预存的分类模型进行训练，其中，预存的分类模型可以是服务端下发的分类模型，随后获取预存的分类模型对该待识别短信的训练结果为该待识别短信为外文广告短信。

步骤S240：若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

具体地，若基于预存的分类模型对待识别短信的训练结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

其中，对外语骚扰短信依据预设的处理规则进行相应处理，包括以下至少一种情形：

将外语骚扰短信存储至预定的存储目录中；

删除外语骚扰短信。

例如，客户端接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，基于预存的分类模型对待识别短信的训练结果为广告短信，判别该短信为外语骚扰短信，随后在客户端将该外语骚扰短信存储至预定的存储目录中，或在客户端删除该外语骚扰短信。

在一优选实施例中，该方法还包括步骤S260(图中未示出)；步骤S260：若基于输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。

例如，客户端接收到待识别短信如“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，基于预存的分类模型对待识别短信的训练结果为广告短信，判别该短信为外语骚扰短信，随后生成相应的外语骚扰短信提示信息，如“您可能收到了一条外文骚扰短信，是否继续查看？”，并将该提示信息在客户端的相应位置显示，如在通知栏位置显示。

在一具体应用场景中，如在“XXX儿童手表”的终端设备A中，通过移动通信信号或WIFI(无线保真，WIreless-FIdelity)等方式与服务器进行通信，同时，终端设备B中的应用程序APP可通过移动通信信号或WIFI等方式与服务器和终端设备A进行通信。当服务器端接收到一条欲发送至终端设备A的待识别短信“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”，随后服务器将接收到的该待识别短信输入预先训练的语言模型，计算确定该待识别短信的语言种类为外语的概率为80％，预定的外语概率阈值为60％，该待识别短信的语言种类为外语的概率80％超过了预定的外语概率阈值60％，确定该待识别短信的语言种类为外语；随后将识别出的语言种类为外语的待识别短信中需要进行转换的词的词的词性和/或时态进行转换，即将正在进行时态的词“turning”转换为“turn”，随后根据该短信的内容提取出相应的外语特征数据，如“wheels”、“isuzu”、“Show you”、“style”、“On December 20”等，将提取出的上述外语特征数据输入分类模型进行训练，随后获取分类模型对该待识别短信的训练结果为该待识别短信为外文广告短信，基于分类模型对待识别短信的训练结果为外文广告短信，判别该短信为外语骚扰短信，随后服务器拦截该骚扰短信，以阻止终端设备A接收到该骚扰短信，随后，服务器将判断待识别短信“Our wheels are always turning.On December 20,isuzuwill Show you the latest style.”为外文骚扰短信的判断结果下发至终端设备B的APP中，以提示终端设备B的用户其可能接收到了一条外文骚扰短信，如判断结果相应的提示信息为“您接收到一条外文骚扰短信，是否确认继续接收？”，并将该短信的内容发送至终端设备B的APP中。

图3为本发明中又另一实施例的检测外文骚扰短信的装置的结构示意图。

本发明的实施例中，各模块所执行的内容概述如下：第一概率确定模块310将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率；第一语言确定模块320当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；第一输入模块330将识别出的语言种类为外语的短信输入分类模型以获得输出结果；拦截模块340若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

本发明的实施例中，提出了一种检测外文骚扰短信的装置，将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率，当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语，实现了对待识别短信语言类别的精确识别，为后续判断该待识别短信是否为外文骚扰短信提供了可靠的前提保障；随后，将识别出的语言种类为外语的短信输入分类模型以获得输出结果，通过对待识别外文短信进行分类模型训练，提高了对外文短信的分类精度，从而提升了对外文骚扰短信的识别度，且提高了识别外文骚扰短信的效率；若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。以下针对各个模块的具体实现做进一步的说明：

第一概率确定模块310将接收到的待识别短信输入预先训练的语言模型以确定待识别短信的语言种类为外语的概率。

具体地，第一概率确定模块310将接收到的待识别短信输入预先训练的语言模型，根据预先训练的语言模型的训练结果确定待识别短信的语言种类为外语的概率。

在一优选实施例中，第一概率确定模块310进一步包括第一计算单元(图中未示出)和第二计算单元(图中未示出)；第一计算单元通过预先训练的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；第二计算单元根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

其中，预定的概率算法包括朴素贝叶斯算法。

例如，接收到待识别短信如“Our wheels are always turning.On December 20,isuzu will Show you the latest style.”，随后第一计算单元将接收到的该待识别短信输入预先训练的语言模型，计算该待识别短信中的每个单词中各个字母及多个相邻字母如“o”、“w”、“wh”、“he”和“whe”等的语言种类为外语的子概率，第二计算单元根据各个子概率，通过预定的朴素贝叶斯算法，将待识别短信中的每个单词中各个字母和/或多个相邻字母如“wh”、“he”和“whe”等的语言种类为外语的各个子概率做乘积计算，得到计算结果的概率如80％，则确定该待识别短信的语言种类为外语的概率为80％。

第一语言确定模块320当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语。

第一输入模块330将识别出的语言种类为外语的短信输入分类模型以获得输出结果。

优选地，将识别出的语言种类为外语的短信输入分类模型之前，还包括第一转换模块(图中未示出)；第一转换模块将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

例如，第一转换模块将识别出的语言种类为外语的短信“Our wheels are alwaysturning.On December 20,isuzu will Show you the latest style.”中需要进行转换的词的词性和/或时态进行转换，即将正在进行时态的词“turning”转换为“turn”。

在一优选实施例中，第一输入模块330进一步包括第一提取单元(图中未示出)、第一输入单元(图中未示出)和第一获取单元(图中未示出)；第一提取单元根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；第一输入单元将提取的外语特征数据输入分类模型进行训练；第一获取单元获取分类模型的训练结果。

例如，接收到待识别短信如“Our wheels are always turning.On December 20,isuzu will Show you the latest style.”，根据预先训练的语言模型的训练结果确定该待识别短信的语言种类为外语，第一转换模块将该短信中的词“turning”转换为“turn”，随后第一提取单元根据该短信的内容提取出相应的外语特征数据，如“wheels”、“isuzu”、“Show you”、“style”、“On December 20”等，第一输入单元将提取出的上述外语特征数据输入分类模型进行训练，随后第一获取单元获取分类模型对该待识别短信的训练结果为该待识别短信为外文广告短信。

拦截模块340若基于输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

例如，接收到待识别短信如“Our wheels are always turning.On December 20,isuzu will Show you the latest style.”，基于分类模型对待识别短信的训练结果为外文广告短信，判别该短信为外语骚扰短信，随后拦截模块340拦截该骚扰短信，以阻止该外文骚扰短信欲发送至的目标客户端接收到该骚扰短信。

在一优选实施例中，该装置还包括下发模块(图中未示出)；下发模块将判断待识别短信为骚扰短信的判断结果下发至相应的客户端。

例如，下发模块将判断待识别短信“Our wheels are always turning.OnDecember 20,isuzu will Show you the latest style.”为外文骚扰短信的判断结果下发至相应的客户端，以提示终端用户其可能接收到了一条外文骚扰短信，如判断结果相应的提示信息为“您接收到一条外文骚扰短信，是否确认继续接收？”。

本发明的实施例中，各模块所执行的内容概述如下：第二概率确定模块410将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率；第二语言确定模块420当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语；第二输入模块430将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果；处理模块440若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

本发明的实施例中，提出了一种检测外文骚扰短信的客户端，将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率，当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语，实现了对待识别短信语言类别的精确识别，为后续判断该待识别短信是否为外文骚扰短信提供了可靠的前提保障；随后，将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果，通过对待识别外文短信进行分类模型训练，提高了对外文短信的分类精度，从而提升了对外文骚扰短信的识别度，且提高了识别外文骚扰短信的效率；若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理，充分的考虑了用户的个性化使用需求，有效的降低了客户因接收到外文骚扰短信而产生困扰的情况，提高了用户的使用体验。以下针对各个模块的具体实现做进一步的说明：

第二概率确定模块410将接收到的待识别短信输入预存的语言模型以确定待识别短信的语言种类为外语的概率。

在一优选实施例中，第二概率确定模块410进一步包括第三计算单元(图中未示出)和第四计算单元(图中未示出)；第三计算单元通过预存的语言模型计算待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；第四计算单元根据子概率，通过预定的概率算法计算确定待识别短信的语言种类为外语的概率。

其中，预定的概率算法包括朴素贝叶斯算法。

第二语言确定模块420当待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定待识别短信的语言种类为外语。

第二输入模块430将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果。

优选地，将识别出的语言种类为外语的短信输入预存的分类模型之前，还包括第二转换模块(图中未示出)；第二转换模块将识别出的语言种类为外语的短信中的至少一个单词进行词性和/或时态转换。

在一优选实施例中，第二输入模块430进一步包括第二提取单元(图中未示出)、第二输入单元(图中未示出)和第二获取单元(图中未示出)；第二提取单元根据识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；第二输入单元将提取的外语特征数据输入分类模型进行训练；第二获取单元获取分类模型的训练结果。

处理模块440若基于输出结果判别该短信为外语骚扰短信时，对外语骚扰短信依据预设的处理规则进行相应处理。

将外语骚扰短信存储至预定的存储目录中；

删除外语骚扰短信。

在一优选实施例中，该客户端还包括信息生成显示模块(图中未示出)；信息生成显示模块若基于输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种检测外文骚扰短信的方法，包括：

服务器将接收到的待识别短信输入预先训练的语言模型以确定所述待识别短信的语言种类为外语的概率；

所述服务器将接收到的待识别短信输入预先训练的语言模型以确定所述待识别短信的语言种类为外语的概率，包括：通过预先训练的语言模型计算所述待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；根据所述子概率，通过预定的概率算法计算确定所述待识别短信的语言种类为外语的概率；

当所述待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定所述待识别短信的语言种类为外语；

若基于所述输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

2.根据权利要求1所述的方法，其中，预定的概率算法包括朴素贝叶斯算法。

3.根据权利要求1-2任一项所述的方法，将识别出的语言种类为外语的短信输入分类模型之前，还包括：

4.根据权利要求1-2任一项所述的方法，其中，将识别出的语言种类为外语的短信输入分类模型以获得输出结果，包括：

根据所述识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

将提取的所述外语特征数据输入所述分类模型进行训练；

获取所述分类模型的训练结果；

其中，所述短信的外语特征数据由短信的外文短语、单词、各个字母和/或多个相邻字母中的至少一项来构造。

5.根据权利要求1-2任一项所述的方法，还包括：

将判断所述待识别短信为骚扰短信的判断结果下发至相应的客户端。

6.一种客户端中检测外文骚扰短信的方法，包括：

将接收到的待识别短信输入预存的语言模型以确定所述待识别短信的语言种类为外语的概率；

所述将接收到的待识别短信输入预存的语言模型以确定所述待识别短信的语言种类为外语的概率，包括：通过预存的语言模型计算所述待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；根据所述子概率，通过预定的概率算法计算确定所述待识别短信的语言种类为外语的概率；

若基于所述输出结果判别该短信为外语骚扰短信时，对所述外语骚扰短信依据预设的处理规则进行相应处理。

7.根据权利要求6所述的方法，其中，预定的概率算法包括朴素贝叶斯算法。

8.根据权利要求6-7任一项所述的方法，将识别出的语言种类为外语的短信输入预存的分类模型之前，还包括：

9.根据权利要求6-7任一项所述的方法，其中，将识别出的语言种类为外语的短信输入预存的分类模型以获得输出结果，包括：

将提取的所述外语特征数据输入所述分类模型进行训练；

获取所述分类模型的训练结果；

10.根据权利要求6-7任一项所述的方法，其中，对所述外语骚扰短信依据预设的处理规则进行相应处理，包括以下至少一种情形：

将所述外语骚扰短信存储至预定的存储目录中；

删除所述外语骚扰短信。

11.根据权利要求6-7任一项所述的方法，还包括：

若基于所述输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。

12.一种检测外文骚扰短信的装置，包括：

第一概率确定模块，用于服务器将接收到的待识别短信输入预先训练的语言模型以确定所述待识别短信的语言种类为外语的概率；

所述第一概率确定模块，包括：第一计算单元，用于通过预先训练的语言模型计算所述待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；第二计算单元，用于根据所述子概率，通过预定的概率算法计算确定所述待识别短信的语言种类为外语的概率；

第一语言确定模块，用于当所述待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定所述待识别短信的语言种类为外语；

拦截模块，用于若基于所述输出结果判别该短信为外语骚扰短信时，拦截该骚扰短信，以阻止相应的客户端接收到该骚扰短信。

13.根据权利要求12所述的装置，其中，预定的概率算法包括朴素贝叶斯算法。

14.根据权利要求12-13任一项所述的装置，还包括：

15.根据权利要求12-13任一项所述的装置，其中，所述第一输入模块，包括：

第一提取单元，用于根据所述识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

第一输入单元，用于将提取的所述外语特征数据输入所述分类模型进行训练；

第一获取单元，用于获取所述分类模型的训练结果；

16.根据权利要求12-13任一项所述的装置，还包括：

下发模块，用于将判断所述待识别短信为骚扰短信的判断结果下发至相应的客户端。

17.一种检测外文骚扰短信的客户端，包括：

第二概率确定模块，用于将接收到的待识别短信输入预存的语言模型以确定所述待识别短信的语言种类为外语的概率；

所述第二概率确定模块，包括：第三计算单元，用于通过预存的语言模型计算所述待识别短信中的每个单词中各个字母和/或多个相邻字母的语言种类为外语的子概率；第四计算单元，用于根据所述子概率，通过预定的概率算法计算确定所述待识别短信的语言种类为外语的概率；

第二语言确定模块，用于当所述待识别短信的语言种类为外语的概率超过预定的外语概率阈值时，确定所述待识别短信的语言种类为外语；

处理模块，用于若基于所述输出结果判别该短信为外语骚扰短信时，对所述外语骚扰短信依据预设的处理规则进行相应处理。

18.根据权利要求17所述的客户端，其中，预定的概率算法包括朴素贝叶斯算法。

19.根据权利要求17-18任一项所述的客户端，还包括：

20.根据权利要求17-18任一项所述的客户端，其中，所述第二输入模块，包括：

第二提取单元，用于根据所述识别出的语言种类为外语的短信的内容提取出相应的外语特征数据；

第二输入单元，用于将提取的所述外语特征数据输入所述分类模型进行训练；

第二获取单元，用于获取所述分类模型的训练结果；

21.根据权利要求17-18任一项所述的客户端，其中，所述处理模块用于以下至少一种情形：

将所述外语骚扰短信存储至预定的存储目录中；

删除所述外语骚扰短信。

22.根据权利要求17-18任一项所述的客户端，还包括：

信息生成显示模块，用于若基于所述输出结果判别该短信为外语骚扰短信时，生成并显示相应的外语骚扰短信提示信息。