CN110321423A

CN110321423A - 一种文本数据的风险识别方法及服务器

Info

Publication number: CN110321423A
Application number: CN201910466830.6A
Authority: CN
Inventors: 周书恒; 祝慧佳; 赵智源; 郭亚; 施登亮
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-10-11
Anticipated expiration: 2039-05-31
Also published as: CN110321423B

Abstract

本说明书公开了一种文本数据的风险识别方法及服务器，该方法包括：采集在应用平台中嵌入的目标应用的第一文本数据；获得所述目标应用的合法文本模板；基于所述目标应用的合法文本模板，在第一文本数据中删除和所述合法文本模板相关联的目标文本内容，以获得所述目标应用的第二文本数据；将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别。

Description

一种文本数据的风险识别方法及服务器

技术领域

本申请涉及互联网技术领域，尤其涉及一种文本数据的风险识别方法及服务器。

背景技术

近年来，互联网平台为了更好地服务用户，纷纷推出开放平台。开放平台上游对接开发者以减轻他们维护渠道的负担。开放平台下游对接消费者以统一的优质服务满足多元化的需求。

在满足多元化的需求的同时，由于不良消费者的恶意操作，开放平台中难免会产生风险文本，风险文本会给文本数据带来不良影响。故而如何提高文本数据风险识别的准确率是目前亟需解决的问题。

发明内容

本说明书提供了一种文本数据的风险识别方法及服务器，以解决或者部分解决文本数据风险识别的准确率较低的技术问题。

为解决上述技术问题，本说明书提供了一种文本数据的风险识别方法，采集在应用平台中嵌入的目标应用的第一文本数据；其中，所述第一文本数据是所述目标应用产生的文字数据，所述目标应用是在所述应用平台上嵌入的无需安装即可使用的应用程序；

获得所述目标应用的合法文本模板；

根据所述目标应用的合法文本模板，删除所述目标应用的第一文本数据中和所述合法文本模板关联的目标文本内容，得到所述目标应用的第二文本数据；

将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别。

本说明书公开了一种服务器，包括：

采集模块，用于采集在应用平台中嵌入的目标应用的第一文本数据；其中，所述第一文本数据是所述目标应用产生的文字数据，所述目标应用是在所述应用平台上嵌入的无需安装即可使用的应用程序；

第一获得模块，用于获得所述目标应用的合法文本模板；

删除模块，用于根据所述目标应用的合法文本模板，删除所述目标应用的第一文本数据中和所述合法文本模板关联的目标文本内容，得到所述目标应用的第二文本数据；

输入模块，用于将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别。

本说明书公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本说明书公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

通过本说明书的一个或者多个技术方案，本说明书具有以下有益效果或者优点：

本说明书提供了一种文本数据的风险识别方法及服务器，以解决或者部分解决文本数据风险识别的准确率较低的技术问题。首先采集在应用平台中嵌入的目标应用的第一文本数据，并调用目标应用的合法文本模板在对应的第一文本数据中进行模板删除，去掉和文本模板相关联的文本数据，并将删除文本模板后得到的第二文本数据输入预设风险识别模型进行风险识别。由于文本模板实际上没有参考意义，所以在第一文本数据中删除文本模板，再将文本数据输入预设风险识别模型单纯进行风险识别，进而消除了文本模板对文本风险识别的准确度的影响，故而能大大减少风险误识别的情况出现，能够有效降低风险误识率，进而提升文本数据的风险识别的准确率。

另外，由于文本数据中含有大量且内容重复的文本模板，故而处理这些文本模板影响预设风险识别模型性能，因此删除了文本模板，再将文本数据输入预设风险识别模型单纯进行风险识别，还能够消除文本模板对预设风险识别模型性能的影响，能够在提高文本数据的准确率的同时，提升预设风险识别模型性能。

上述说明仅是本说明书技术方案的概述，为了能够更清楚了解本说明书的技术手段，而可依照说明书的内容予以实施，并且为了让本说明书的上述和其它目的、特征和优点能够更明显易懂，以下特举本说明书的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本说明书的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1A示出了根据本说明书一个实施例的支付类应用平台上提供的各类“应用”的示意图；

图1B示出了根据本说明书一个实施例的聊天类应用平台上提供的各类“服务”的示意图；

图2示出了根据本说明书一个实施例的文本数据的风险识别方法流程图；

图3示出了根据本说明书一个实施例的获得合法文本模板的实施过程图；

图4示出了根据本说明书一个实施例的服务器的示意图；

图5示出了根据本说明书一个实施例的一种计算机设备的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

目前，各大应用平台为了提高文本数据风险识别的准确率，采用了各种各样的方式，例如基于关键词替换来提升文本数据的风险识别准确率。由于应用会大量使用模板文本，因此文本数据中不可避免地会出现高频关键词。基于此，该方法首先对应用进行关键词提取，然后对应用文本进行关键词替换。此方法步骤简单，但是容易造成“误替换”，即将“非模板”片段的文本去除。例如对于物流类应用而言，“包裹”、“快递”等词都会被去除，进而造成大量语义文本的丢失，影响模型识别效果。

另外，还采用了应用白名单的方式提升风险识别准确率。具体来说，提前在应用级别对应用本身进行风险等级的判别，如果应用没有风险则入白名单。线上进行文本风险识别时，直接过滤掉在白名单中的应用。此方法能大大减少误识情况的发生，但是容易造成漏识，严重时则会引发平台***性风险。

因此，目前现有的风险识别方式存在语音文本丢失或者漏识别的情况，进而会影响风险识别的准确率。而本说明书实施例提供了一种文本数据的风险识别方法及服务器，尽量消除由文本模板本身带来的对风险识别准确率的影响，以提高风险识别准确率，解决或者部分解决文本数据风险识别的准确率较低的技术问题。

从上述描述中可知，文本数据的构成方式是文本模板+个性化数据。而由于文本模板的多样性与复杂性，并在文本数据中大量使用，故而会影响文本数据风险识别模型的准确率并且影响模型性能。而现有方式只是提取了关键词替换或者直接建立应用白名单，上述方式或多或少都会带来误识别或者漏识别的问题，且没有考虑到文本模板本身对风险识别准确率的影响。

针对此不足，本说明书中的一个或者多个实施例，提供了一种文本数据的风险识别方法，首先采集在应用平台中嵌入的目标应用的第一文本数据，并调用目标应用的合法文本模板在第一文本数据中进行模板删除的操作，去掉和文本模板相关联的文本数据，并将删除文本模板后得到的第二文本数据输入预设风险识别模型进行风险识别。由于删除的是和合法文本模板相关联的文字内容，而不是以词频高低作为删除标准，故而不会存在误删除的情况。并且将风险识别下沉到目标应用的文本模板，而不会建议应用白名单，因此也不会存在漏识别的情况。而由于文本模板没有参考意义，消除文本模板不会对风险识别带来影响，而如果存在反而会对风险识别产生影响，所以在第一文本数据中删除和合法文本模板相似的文字内容，再将剩余的文本数据输入预设风险识别模型单纯进行风险识别，进而消除了文本模板对文本风险识别的准确度的影响，故而能大大减少风险误识别的情况出现，能够有效降低风险误识率，进而提升文本数据的风险识别的准确率。

另外，由于文本数据中含有大量且内容重复的合法文本模板，故而处理这些合法文本模板影响预设风险识别模型性能，因此删除了合法文本模板，再将剩余的文本数据输入预设风险识别模型单纯进行风险识别，还能够消除合法文本模板对预设风险识别模型性能的影响，能够在提高文本数据的准确率的同时，提升预设风险识别模型性能。

具体来说，本实施例的服务器的前端为应用平台，服务器和应用平台进行数据交互来满足在应用平台上操作的用户的各种需求。本说明书中的应用平台可以是任意种类的开放平台，例如支付类平台、聊天类平台、购物类平台、理财类平台等等。该应用平台本身可以提供多种各类型的服务，同时接收第三方提供的个性化服务。

而本实施例的针对的对象是在应用平台上嵌入的目标应用。应用平台上嵌入的目标应用有很多，本实施例的目标应用的具体数目并没有限定，任意数量的目标应用都可。

目标应用，指的是在应用平台上嵌入的无需安装即可使用的应用程序。目前对目标应用有多种不同的称呼，例如轻应用、小程序、应用、服务、公众号等等，这些都应当属于本说明书的保护范围之内。

进一步的，目标应用包括应用平台自身提供的无需安装即可使用的应用程序，也包括在应用平台上显示但是由第三方服务器提供的无需安装即可使用的应用程序。

以支付类应用平台上嵌入的各个目标应用为例，目标应用在支付类应用平台的名称是“应用”。参看图1A，是本说明书例举的支付类应用平台上提供的各类“应用”的示意图。

在支付类应用平台上的“应用”种类繁多，例如滴滴打车、生活缴费、快递助手等等。

由于“应用”种类繁多且数量巨大，为了便于管理，将其进行归类管理。例如便民生活、财务管理、购物娱乐等类别。每个类别下有一个或者多个“应用”。另外，应用平台上可自主推荐“应用”给用户，还可以展示用户近期使用过的“应用”，还可以将支付类应用平台首页展示的目标应用归类为“我的应用”，并在其他子页面上展示。

当然，在其他类型的应用平台上也是类似的，例如在聊天类应用平台中同样设置了多个目标应用，但聊天类应用平台中嵌入的目标应用的名称为“服务”。

参看图1B，是本说明书例举的聊天类应用平台上提供的各类“服务”的示意图。聊天类应用平台上划分为两个类别：“自身服务”和“第三方服务”。“自身服务”类别下罗列有各类型的“服务”，例如“***还款”、“手机充值”等等。“第三方服务”类别下也罗列有各类型的“服务”，例如“火车票机票”、“XX出行”、“吃喝玩乐”等等。

以上是本实施例列举的在应用平台中嵌入的目标应用的示例，应当注意的是，除上述举例之外，本说明书实施例应当包含任何在应用平台嵌入的目标应用。

在用户操作各目标应用，或者各目标应用自身推荐新功能等等情况下，都会产生各种文本数据。

以快递助手为例，在快递助手中会显示快递的多条物流数据，并且针对不同的用户，会产生不同的文本数据。假设用户A需要邮寄联想笔记本电脑给用户B，从用户A开始发货到用户B收货期间，快递助手会实时展示快递的状态。例如：您的商品联想笔记本电脑从XX地出发——您的商品联想笔记本电脑已到达中转站某某站点——您的商品联想笔记本电脑离开中转站某某站点，下一站目的地某地址——到达目的地某地址——快递员开始送件，快递员电话138XXX——快递存放在快递箱中，请及时取件。

由此可见，目标应用每时每刻都会产生大量的文本数据，文本数据可以在多种情况下产生，不同类型的目标应用产生文本数据的方式和文本数据的具体内容都不同。而文本数据中无法避免会包含违规内容。违规内容指的是敏感文字、违反法律法规社会公德的文字、违反应用平台或者文本数据对应的目标应用的规定的文字。

例如，包含有敏感字的文本数据，或者违反法律法规社会公德的文本数据，或者违反应用平台的规定的文本数据，或者是违反目标应用中的规定的文本数据等等。

例如，文本数据中包含有“傻X”、“狗屁”、“借贷”等等敏感词语。再例如，某公众号推荐的广告文章中出现了“新型游乐园林的真鸟射杀，用***射杀XX鸟类(国家一级保护动物)，为您寻求意想不到的刺激”这类型的文本数据。再例如，广告中的文本数据含有违规广告文本，举例来说，洗发水广告文章中包含有“买卖POS机”的文本数据。上述例子说明文本数据中可以包含任意风险类型的文本内容，再比如涉黄涉暴涉恐、涉及借贷等等文本都是包含违规内容的文本数据。

另外，应用平台还提供了若干文本模板，也提供了自定义文本模板的功能给各目标应用，各个目标应用可以自定义模板进行消息通知，比如：交易状态、物流进度等。以快递助手中的文本数据“您的商品联想笔记本电脑等待卖家发货”为例，其中的“等待卖家发货”就是文本模板，而商品名称根据用户购买需求的不同而不同。例如买家1买的是联想笔记本电脑，买家2买的是洗发水等等。那么针对买家1的物流，可调用文本模板“等待卖家发货”和买家1购买的“联想笔记本电脑”生成对应的文本数据“联想笔记本电脑等待卖家发货”。针对买家1的物流信息，可调用文本模板“等待卖家发货”和买家1购买的“XX牌洗发水”生成对应的文本数据“XX牌洗发水等待卖家发货”。

下面参看图2，是文本数据的风险识别方法的具体实施过程图，该方法主要的目的就是对应用平台中嵌入的目标应用产生的文本数据进行风险识别。该方法具体包括下面的步骤：

步骤21，采集在应用平台中嵌入的目标应用的第一文本数据。

具体来说，应用平台嵌入的目标应用的种类和数量可以根据应用平台的相关规定进行调整。

目标应用会产生大量不同内容的第一文本数据。例如物流类目标应用会产生有关于物流的第一文本数据。购物类目标应用会产生有关于购物的第一文本数据。车辆类目标应用会产生有关于用户行程的第一文本数据等等。

进一步的，在采集的过程中，会根据预设采集频率采集目标应用的第一文本数据。例如每隔七天或1个月离线采集目标应用的第一文本数据。若目标应用的数量为两个以上，那么应用平台按照预设采集频率采集各目标应用各自的第一文本数据即可。

步骤22，获得所述目标应用的合法文本模板。

合法文本模板，指经过风险评估后确定为无风险的文本模板。例如满足法律法规社会公德的文本模板，满足应用平台或者对应的目标应用的规定的文字模板，文本模板中没有敏感词等等。

文本模板需要经过风险评估，评估之后获得的无风险文本模板才是合法文本模板。由于应用平台上的目标应用的在响应用户操作的过程中，会产生大量的文本数据。而这些文本数据是文本模板和响应用户的个性化数据结合获得的。而文本模板也有可能包含有敏感字，或者违反法律法规社会公德，或者违反应用平台的规定，或者是违反目标应用中的规定等等。若利用这部分有风险的文本模板去处理第一文本数据，那么由于文本模板本身就是错误的模板，故而会造成无法从第一文本数据中去除文本内容，或者会从第一文本数据中删除错误的文本内容，得到错误的第二文本数据，如果将错误的第二文本数据输入模型，就会影响风险识别的准确率。因此，保持文本模板本身的合法性，也能够提高风险识别的准确率。

为了解决上述问题，在对文本数据进行风险识别之前，需要先对文本模板进行处理，获得合法文本模板，利用合法文本模板处理第一文本数据，以尽量减少对风险识别准确率的影响。在具体的实施过程中，参看图3，获得合法文本模板的实施方式包括下述步骤：

步骤31，获得所述目标应用的文本样本。

具体来说，文本样本实际上和文本数据类似，也是目标应用的在响应用户操作的过程中产生的大量文本数据。由于应用平台能够采集所有嵌入该应用平台的目标应用(不管是应用平台自身提供的，还是第三方目标应用)通过该应用平台的文本数据，故而应用平台能够在空闲时间或者离线获得文本样本，以合理利用网络资源。

步骤32，对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板。

在模板提取的过程中，提取文本模板的方式有多种。例如，利用常规切词方式进行模板提取；利用sentencepiece算法(一种完全无监督、端到端的文本分词算法，能自动学习出文本中组合出现的短语和词组成模板)进行模板提取；利用预设文本模板直接从第一文本数据中提取文本模板等等。

作为一种可选的实施方式，对所述目标应用的文本样本进行分词，获得对应的分词结果，按照所述对应的分词结果中各个分词的词频，对所述各个分词重新组合，获得所述目标应用的文本模板。在分词的过程中，可以利用分词词典对其进行分词，也可以利用人工、分词模型等等方式对其进行分词，任何分词方式都可以应用在本实施例中。而在分词结果中，会获得N元短语，N≥2且为正整数，例如二元短语(两个字)、三元短语(三个字)、四元短语(四个字)等等。因此分词结果中可能是词语，也可能是句子。而文本模板的使用频率很高，所以根据句子的词频可以直接确定出该句子为文本模板，根据词语的词频可以相互组成获得文本模板。这种利用常规切词方式进行模板提取，可以针对文本模板重复使用率高的特征针对性的提取文本模板，进而文本模板的提取的准确度较高。

作为一种可选的实施方式，将所述目标应用的文本样本输入预设模板提取模型，获得所述目标应用的文本模板。预设模板提取模型的核心算法是sentencepiece算法，将文本样本输入预设模板提取模型，能够自动的学***台内的模板应用进行对应的文本模板提取。比如物流类的某个目标应用，提取到的文本模板为：“您的快递已发出”，“您的快读已到达”，“请及时查收”等等。利用模型提取文本模板的方式，能够方便快速的处理文本样本，获得所述目标应用的文本模板。

进一步的，该预设模板提取模型能够设置在应用平台中，进而利用该应用平台中的预设模板提取模型对所有目标应用的文本样本进行文本模板提取。

作为一种可选的实施方式。由于在应用平台中设置有文本模板库，里面存储有预设模板。因此，该预设模板是应用平台提供的。在提取文本模板的过程中，按照所述应用平台中获得的预设模板对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板。能够方便快速的处理文本样本，获得对应的文本模型。

进一步的，由于应用平台嵌入的目标应用种类繁多，因此应用平台提供的预设模板可能无法满足所有目标应用中的文本模板提取，有的目标应用按照预设模板可能根本提取不到文本模板。故而，为了提升文本模板提取的精准度，可以利用上述几种方式结合进行文本模板的提取。

步骤33，对所述目标应用的文本模板进行风险评估。

而在具体的风险评估过程中，应用平台中具有预设风险等级，故而在具体的实施过程中，利用预设风险等级规则对所述目标应用的文本模板进行风险评估，获得所述目标应用的文本模板的风险等级；按照所述目标应用的文本模板的风险等级进行对应处理。

具体来说，预设风险等级规则有多种且可以自定义，例如按照敏感字/词的数量划分风险等级，按照本文模板中的文字语义划分风险等级等等。然后对文本模板进行风险评估。

进一步的，应用平台中可针对嵌入到其中的所有目标应用设置各自不同的风险规则，并按照各自的规则对文本模板进行风险评估，获得风险等级。

而在具体的实施过程中，不同的等级有不同的处理，具体参看下述步骤：

若所述目标应用的文本模板的风险等级为第一预设风险等级，禁止目标应用发布消息。例如禁止目标应用发布广告、禁止推送消息等等。

若所述目标应用的文本模板的风险等级为第二预设风险等级，禁止访问目标应用。

若所述目标应用的文本模板的风险等级为第三预设风险等级，在应用平台上删除目标应用。

其中，所述第三预设风险等级高于所述第二预设风险等级，所述第二预设风险等级高于所述第一预设风险等级。风险等级越高，则其对应的处罚措施越重。

以上是根据当文本模板评估为有风险后，对目标应用的具体处理过程。当然，在对文本模板进行风险评估后，该文本模板也可能评估为无风险或者风险等级为0级。具体参看步骤34，若所述目标应用的文本模板中有文本模板的风险评估结果为无风险，将评估为无风险的文本模板确定为所述合法文本模板。

以上步骤是获得合法文本模板的具体实施过程，上述实施过程可以事先在应用平台中执行，并将获得合法文本模板进行存储，以供在线对文本数据进行风险识别时调用。

步骤23，根据所述目标应用的合法文本模板，删除所述目标应用的第一文本数据中和所述合法文本模板关联的目标文本内容，得到所述目标应用的第二文本数据。

具体来说，和合法文本模板关联的目标文本内容，指的是和合法文本模板相同或者相似的目标文本内容。而删除操作由应用平台执行，应用平台可以根据目标应用的合法文本模板，直接删除第一文本数据中和所述合法文本模板相同或相似的目标文本内容，得到第二文本数据。比如某应用的第一文本数据为“您的商品联想笔记本电脑等待卖家发货”，该应用对应的文本模板为“等待卖家发货”，则删除后的第二文本数据为“您的商品联想笔记本电脑”。

作为一种可选的实施方式，需要先根据合法文本模板从第一文本数据中确定出相似的目标文本内容。该目标文本内容和合法文本模板的相似度值大于预设相似度阈值。这种方式能够杜绝将高频词进行关键词替换的误操作。例如，对于物流类应用而言，“包裹”、“快递”等词都是高频词，而合法文本模板为“快递等待卖家发货”，那么根据相似度计算方式计算“快递”和“快递等待卖家发货”的相似度并不高，那么就不会删除“快递”，因此不会造成大量语义文本的丢失。

具体来说，从所述目标应用的第一文本数据中提取若干文本内容。在提取的过程中，可以利用采用上述实施例中提取文本模板的方式进行提取，也可以使用其他方式提取。获得若干文本内容之后，分别计算所述目标应用的合法文本模板和所述若干文本内容的相似度值。将所述若干文本内容各自的相似度值和预设相似度阈值进行比较；将相似度值大于所述预设相似度阈值的文本内容确定为所述目标文本内容；在所述目标应用的第一文本数据中删除所述目标文本内容。

而在计算相似度的过程中，有两种计算方式：

第一种方式是：分别计算所述目标应用的合法文本模板中的文字和所述若干文本内容的文字的相似度。文字、词语等等合法文本中的位置，文字、词语等等本身的字数都和相似度关联。因此，在计算的过程中，会根据合法文本模板中的文字位置、文字长度，和文本内容的文字位置、文字长度计算合法文本模板和文字内容的相似度。举例来说，合法文本模板为“快递等待卖家发货”，文本内容“快递”和合法文本模板的相似度为2/8，“卖家发货”和合法文本模板的相似度为4/8，“快递等卖家发货”和合法文本模板的相似度为5/8。

第二种计算方式是，分别计算所述目标应用的合法文本模板和所述若干文本内容的语义相似度。计算语义相似的具体方式有多种，任何计算语义相似度的方式都适用于本说明书，故而在此不再赘述。

在计算相似度的过程中，可以结合上述两种方式获得相似度。

获得相似度之后，即可基于预设相似度阈值确定出目标文本内容。将相似度值大于所述预设相似度阈值的文本内容确定为所述目标文本内容。承接上述举例，若预设相似度阈值为1/2，那么将上述各相似度值和预设相似度阈值进行对比之后，可以判定出目标文本内容为“快递等卖家发货”，那么在第一文本数据中删除该目标文本内容即可。由此可见，即便是出现“快递”、“包括”这样的高频词，但是由于其和合法文本模板的相似度较低，是不会删除的，因此不会产生误删除的操作。

由于合法文本模板在文本数据中重复率高，重复对其进行风险识别没有任何必要，除了会使风险识别模型的性能降低之外，还会影响风险识别模型对文本数据的识别的准确率。故而将这部分数据删除以减少其对风险识别的影响，能够提高风险识别的准确率和性能。

步骤24，将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别。

具体来说，应用平台中可以设置一个预设风险识别模型，也可以设置多个预设风险识别模型，每个预设风险识别模型各不相同，例如敏感字风险识别模型，语义风险识别模型等等。

故而在具体的识别过程中，若应用平台中设置有一个预设风险识别模型，无论目标应用的数量是一个或者多个，直接利用该模型对各目标应用的第二文本数据进行风险识别即可。

若应用平台中设置有两个以上预设风险识别模型，则有以下几种情况：

若所述目标应用的数量为两个以上，并且所述应用平台中针对每个目标应用设置有预设风险识别模型，那么将每个目标应用的第二文本数据输入各自的预设风险识别模型中进行风险识别。由于各个目标应用有各自的预设风险识别模型，故而能够有针对性的对各目标应用的文本数据进行识别，提高风险识别的准确率。

若所述应用平台中设置有两个以上预设风险识别模型，并且是不同类型的预设风险识别模型，那么将所述目标应用的第二文本数据按照预设风险类型进行划分，将划分后的第二文本数据输入对应类型的预设风险识别模型进行风险识别。也就是说，针对单个目标应用来说，会先将该目标应用的第二文本数据按照预设风险类型进行划分，然后利用不同类型的预设风险模型对划分类型后的第二文本数据进行风险识别。当然，也可以从两个以上预设风险识别模型中调用目标预设风险识别模型对目标应用的第二文本数据直接进行风险识别。

由于针对多个目标应用的处理方式和针对单个目标应用的处理方式类似，故而在此不再赘述。所有的目标应用都按照上述过程执行，即可获得对应的风险识别结果。

在对第二文本数据进行风险识别之后，根据得到的风险识别结果，可对目标应用进行多重处理。例如，将风险识别结果反馈给目标应用；根据风险识别结果对目标应用采取相应的惩罚操作，例如禁止发消息、禁止访问等等。

基于同一发明构思，下面的实施例公开了一种服务器，包括：

采集模块41，用于采集在应用平台中嵌入的目标应用的第一文本数据；其中，所述第一文本数据是所述目标应用产生的文字数据，所述目标应用是在所述应用平台上嵌入的无需安装即可使用的应用程序；

第一获得模块42，用于获得所述目标应用的合法文本模板；

删除模块43，用于根据所述目标应用的合法文本模板，删除所述目标应用的第一文本数据中和所述合法文本模板关联的目标文本内容，得到所述目标应用的第二文本数据；

输入模块44，用于将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别。

作为一种可选的实施例，该服务器，还包括：

第二获得模块，用于获得所述目标应用的文本样本；

第一提取模块，用于对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板；

风险评估模块，用于对所述目标应用的文本模板进行风险评估；

第一确定模块，用于若所述目标应用的文本模板中有文本模板的风险评估结果为无风险，将评估为无风险的文本模板确定为所述合法文本模板。

作为一种可选的实施例，所述第一提取模块，具体用于实施以下一种或者多种方式：

对所述目标应用的文本样本进行分词，获得对应的分词结果，按照所述对应的分词结果中各个分词的词频，对所述各个分词重新组合，获得所述目标应用的文本模板；

将所述目标应用的文本样本输入预设模板提取模型，获得所述目标应用的文本模板；

按照所述应用平台中获得的预设模板对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板。

作为一种可选的实施例，所述风险评估模块，具体用于利用预设风险等级规则对所述目标应用的文本模板进行风险评估，获得所述目标应用的文本模板的风险等级；

所述服务器还包括：

处理模块，用于按照所述目标应用的文本模板的风险等级进行对应处理。

作为一种可选的实施例，所述处理模块，具体包括：

第一禁止模块，用于若所述目标应用的文本模板的风险等级为第一预设风险等级，禁止所述目标应用发布消息；

第二禁止模块，用于若所述目标应用的文本模板的风险等级为第二预设风险等级，禁止访问所述目标应用；

删除模块43，用于若所述目标应用的文本模板的风险等级为第三预设风险等级，删除所述目标应用；其中，所述第三预设风险等级高于所述第二预设风险等级，所述第二预设风险等级高于所述第一预设风险等级。

作为一种可选的实施例，所述删除模块43，具体包括：

第二提取模块，用于从所述目标应用的第一文本数据中提取若干文本内容；

计算模块，用于分别计算所述目标应用的合法文本模板和所述若干文本内容的相似度值；

比较模块，用于将所述若干文本内容各自的相似度值和预设相似度阈值进行比较；

第二确定模块，用于将相似度值大于所述预设相似度阈值的文本内容确定为所述目标文本内容；

删除子模块，用于在所述目标应用的第一文本数据中删除所述目标文本内容。

作为一种可选的实施例，所述计算模块，具体用于

分别计算所述目标应用的合法文本模板中的文字和所述若干文本内容的文字的相似度；或者

分别计算所述目标应用的合法文本模板和所述若干文本内容的语义相似度。

作为一种可选的实施例，若所述应用平台中设置有不同类型的预设风险识别模型，所述输入模块44，用于将所述目标应用的第二文本数据按照预设风险类型进行划分，将划分后的第二文本数据输入对应类型的预设风险识别模型进行风险识别。

作为一种可选的实施例，若所述目标应用的数量为两个以上，所述输入模块44，具体用于若所述应用平台中针对每个目标应用设置有预设风险识别模型，将所述每个目标应用的第二文本数据输入各自的预设风险识别模型中进行风险识别。

基于与前述实施例中同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本说明书的实施例还提供一种计算机设备，如图5所示，包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序，所述处理器502执行所述程序时实现前文任一所述方法的步骤。

其中，在图5中，总线架构(用总线500来代表)，总线500可以包括任意数量的互联的总线和桥，总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器505之间提供接口。接收器501和发送器505可以是同一个元件，即收发机，提供用于在传输介质上与各种其他终端设备通信的单元。处理器502负责管理总线500和通常的处理，而存储器504可以被用于存储处理器502在执行操作时所使用的数据。

通过本说明书的一个或者多个实施例，本说明书具有以下有益效果或者优点：

本说明书公开了一种文本数据的风险识别方法及服务器，本说明书提供了一种文本数据的风险识别方法及服务器，以解决或者部分解决文本数据风险识别的准确率较低的技术问题。首先采集在应用平台中嵌入的目标应用的第一文本数据，并调用目标应用的合法文本模板在对应的第一文本数据中进行模板删除，去掉和文本模板相关联的文本数据，并将删除文本模板后得到的第二文本数据输入预设风险识别模型进行风险识别。由于文本模板实际上没有参考意义，所以在第一文本数据中删除文本模板，再将文本数据输入预设风险识别模型单纯进行风险识别，进而消除了文本模板对文本风险识别的准确度的影响，故而能大大减少风险误识别的情况出现，能够有效降低风险误识率，进而提升文本数据的风险识别的准确率。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本说明书也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本说明书的内容，并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本说明书的示例性实施例的描述中，本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本说明书的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本说明书的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种文本数据的风险识别方法，所述方法包括：

采集在应用平台中嵌入的目标应用的第一文本数据；其中，所述第一文本数据是所述目标应用产生的文字数据，所述目标应用是在所述应用平台上嵌入的无需安装即可使用的应用程序；

获得所述目标应用的合法文本模板；

2.如权利要求1所述的方法，所述获得所述目标应用的合法文本模板之前，所述方法包括：

获得所述目标应用的文本样本；

对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板；

对所述目标应用的文本模板进行风险评估；

若所述目标应用的文本模板中有文本模板的风险评估结果为无风险，将评估为无风险的文本模板确定为所述合法文本模板。

3.如权利要求2所述的方法，所述对所述目标应用的文本样本进行模板提取，获得所述目标应用的文本模板，包括以下一种或者多种实施方式：

4.如权利要求2所述的方法，所述对所述目标应用的文本模板进行风险评估，具体包括：

利用预设风险等级规则对所述目标应用的文本模板进行风险评估，获得所述目标应用的文本模板的风险等级；

所述对所述目标应用的文本模板进行风险评估之后，所述方法还包括：

按照所述目标应用的文本模板的风险等级进行对应处理。

5.如权利要求4所述的方法，所述按照所述目标应用的文本模板的风险等级进行对应处理，具体包括：

若所述目标应用的文本模板的风险等级为第一预设风险等级，禁止所述目标应用发布消息；

若所述目标应用的文本模板的风险等级为第二预设风险等级，禁止访问所述目标应用；

若所述目标应用的文本模板的风险等级为第三预设风险等级，删除所述目标应用；其中，所述第三预设风险等级高于所述第二预设风险等级，所述第二预设风险等级高于所述第一预设风险等级。

6.如权利要求1所述的方法，所述根据所述目标应用的合法文本模板，删除所述目标应用的第一文本数据中和所述合法文本模板关联的目标文本内容，具体包括:

从所述目标应用的第一文本数据中提取若干文本内容；

分别计算所述目标应用的合法文本模板和所述若干文本内容的相似度值；

将所述若干文本内容各自的相似度值和预设相似度阈值进行比较；

将相似度值大于所述预设相似度阈值的文本内容确定为所述目标文本内容；

在所述目标应用的第一文本数据中删除所述目标文本内容。

7.如权利要求6所述的方法，所述分别计算所述目标应用的合法文本模板和所述若干文本内容的相似度值，具体包括：

8.如权利要求1所述的方法，若所述应用平台中设置有不同类型的预设风险识别模型，所述将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别，具体包括：

将所述目标应用的第二文本数据按照预设风险类型进行划分，将划分后的第二文本数据输入对应类型的预设风险识别模型进行风险识别。

9.如权利要求1所述的方法，若所述目标应用的数量为两个以上，所述将所述目标应用的第二文本数据输入预设风险识别模型进行风险识别，具体包括：

若所述应用平台中针对每个目标应用设置有预设风险识别模型，将所述每个目标应用的第二文本数据输入各自的预设风险识别模型中进行风险识别。

10.一种服务器，包括：

第一获得模块，用于获得所述目标应用的合法文本模板；

11.如权利要求10所述的服务器，所述服务器，还包括：

第二获得模块，用于获得所述目标应用的文本样本；

12.如权利要求11所述的服务器，所述第一提取模块，具体用于实施以下一种或者多种方式：

13.如权利要求11所述的服务器，所述风险评估模块，具体用于利用预设风险等级规则对所述目标应用的文本模板进行风险评估，获得所述目标应用的文本模板的风险等级；

所述服务器还包括：

14.如权利要求13所述的服务器，所述处理模块，具体包括：

删除模块，用于若所述目标应用的文本模板的风险等级为第三预设风险等级，删除所述目标应用；其中，所述第三预设风险等级高于所述第二预设风险等级，所述第二预设风险等级高于所述第一预设风险等级。

15.如权利要求10所述的服务器，所述删除模块，具体包括：

16.如权利要求15所述的服务器，所述计算模块，具体用于

17.如权利要求10所述的服务器，若所述应用平台中设置有不同类型的预设风险识别模型，所述输入模块，用于将所述目标应用的第二文本数据按照预设风险类型进行划分，将划分后的第二文本数据输入对应类型的预设风险识别模型进行风险识别。

18.如权利要求10所述的服务器，若所述目标应用的数量为两个以上，所述输入模块，具体用于若所述应用平台中针对每个目标应用设置有预设风险识别模型，将所述每个目标应用的第二文本数据输入各自的预设风险识别模型中进行风险识别。

19.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-9任一项所述方法的步骤。

20.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-9任一项所述方法的步骤。