CN106296195A

CN106296195A - 一种风险识别方法及装置

Info

Publication number: CN106296195A
Application number: CN201510290349.8A
Authority: CN
Inventors: 沈雄; 郝静云
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2017-01-04

Abstract

本申请公开了一种风险识别方法，包括：根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息；从所述文本沟通信息中提取特征词语，生成词语向量集；利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别；根据所述词语向量集的风险类别，识别所述当前业务操作是否存在风险。本申请同时提供一种风险识别装置。上述方法，提供了一种识别业务操作风险的新思路：根据与当前业务操作相关的文本沟通信息进行风险识别，从而可以高效地识别出可能存在风险的业务操作，并为后续风险控制环节提供有力的参考。

Description

一种风险识别方法及装置

技术领域

本申请涉及风险控制领域，具体涉及一种风险识别方法及装置。

背景技术

随着互联网技术的发展，基于互联网的各种业务操作越来越多，其中大部分用户的操作行为都是正常的，然而也存在少量黑客或者恶意用户盗用他人账户、或者盗刷卡等欺诈行为，针对这种情况，风险控制已经成为了业务操作过程不可或缺的一个重要环节。通过风险控制，一方面可以通过对风险的提前识别避免欺诈行为的发生，另一方面可以对存在风险的业务操作做出及时的处理，避免合法用户遭受损失、或者尽可能减少损失。

现有技术的风险控制通常是在对大量的、各类数据进行分析的基础上展开的，例如，采集与业务操作相关的用户标识、业务操作类型、业务操作时间、业务操作涉及的客体(例如商品)信息等数据，然后基于各种历史操作数据、社交数据、风险数据、黑名单数据等，对业务操作进行全规则覆盖分析和/或采用设定的模型进行打分评估，并根据分析结果和/或打分结果，辨识业务操作中可能存在的风险。对于在网络环境下发起的每个业务操作都采用上述方式进行识别，从而从大量业务操作中识别出可能存在风险的业务操作，并采取进一步的风险控制措施。

通过上面的描述可以看出，传统的风险控制方式为了从大量的业务操作中识别出少量的、个别的风险操作，需要以大量的、种类繁多的数据为基础，对所有业务操作逐一地进行风险规则分析和/或模型算法计算，处理过程耗时、处理效率低下，在业务操作数量较多的一些网络业务***中，上述风险控制方式已经难以满足线上的实时应用需求。

发明内容

本申请实施例描述的一种风险识别方法及装置，提供了一种识别业务操作风险的新思路：根据业务操作的文本沟通信息识别业务操作是否存在风险，从而为高效实施风险控制提供便利，安全性高。

本申请提供一种风险识别方法，包括：

根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息；

从所述文本沟通信息中提取特征词语，生成词语向量集；

利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别；

根据所述词语向量集的风险类别，识别所述当前业务操作是否存在风险。

可选的，所述当前业务操作的属性信息包括以下所列之一或者任意组合：业务操作标识、业务操作涉及的客体标识、执行业务操作的用户标识。

可选的，所述利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别，包括：以所述词语向量集为输入，采用风险识别分类器识别所述词语向量集的风险类别，所述风险识别分类器为根据历史文本沟通信息构建的机器分类模型。

可选的，所述风险识别分类器包括：基于朴素贝叶斯算法的风险识别分类器；

所述以所述词语向量集为输入，采用风险识别分类器识别所述词语向量集的风险类别，包括：

针对每种风险类别，根据预先训练风险识别分类器得到的所述风险类别的先验概率、以及在所述风险类别条件下出现所述词语向量集中各词语的条件概率，计算在所述词语向量集出现的条件下对应所述风险类别的后验概率；

从计算得到的后验概率中选择最大值，所述最大值对应的风险类别即为所述词语向量集的风险类别。

可选的，在从所述文本沟通信息中提取词语之前，执行下述操作：

对所述文本沟通信息进行预处理，以便于执行后续的识别操作。

可选的，所述对所述文本沟通信息进行预处理包括：

从所述文本沟通信息中删除预先设定的无效信息；

判断执行上述删除操作后的文本沟通信息是否为空，若是，将所述文本沟通信息标识为：无沟通信息，并结束本方法的执行；

若否，则执行下述操作：

从所述文本沟通信息中提取预先设定的参与沟通的其中一方录入的信息；

并将提取的信息作为执行后续操作所采用的文本沟通信息。

可选的，所述词语向量集的风险类别包括：正常沟通信息、或异常沟通信息；

所述根据所述词语向量集的风险类别，识别所述当前业务操作是否存在风险，包括：

当所述词语向量集的风险类别为正常沟通信息时，识别所述当前业务操作不存在风险；或者，当所述词语向量集的风险类别为异常沟通信息时，识别所述当前业务操作存在风险。

可选的，在识别所述当前业务操作是否存在风险之后，执行下述操作：

判断所述获取的文本沟通信息中是否存在未得到答复的询问信息；

若是，根据所述当前业务操作的风险识别结果和预先设定的提醒策略确定是否需要提醒，并在需要时向被询问方推送相应的提醒信息。

可选的，所述方法还包括：

根据所述当前业务操作的风险识别结果，选择相应的策略实施风险控制。

可选的，所述根据所述当前业务操作的风险识别结果，选择相应的策略实施风险控制包括：根据所述当前业务操作的风险识别结果，采用逐一处理或者抽样处理的方式进行风险控制。

识别所述文本沟通信息的内容类别；

所述根据所述当前业务操作的风险识别结果，选择相应的策略实施风险控制包括：根据所述当前业务操作的风险识别结果以及所述内容类别，选择相应的策略实施风险控制。

相应的，本申请还提供一种风险识别装置，包括：

文本沟通信息获取单元，用于根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息；

词语提取单元，用于从所述文本沟通信息获取单元获取的文本沟通信息中提取特征词语，生成词语向量集；

文本风险类别确定单元，用于利用根据历史文本沟通信息建立的分类模型，确定所述词语提取单元生成的词语向量集的风险类别；

业务操作风险识别单元，用于根据所述文本风险类别确定单元输出的所述词语向量集的风险类别，识别所述当前业务操所是否存在风险。

可选的，所述文本风险类别确定单元具体用于，以所述词语向量集为输入，采用风险识别分类器识别所述词语向量集的风险类别，所述风险识别分类器为根据历史文本沟通信息构建的机器分类模型。

可选的，所述文本风险类别确定单元采用的风险识别分类器包括：基于朴素贝叶斯算法的风险识别分类器；

所述文本风险类别确定单元包括：

后验概率计算子单元，用于针对每种风险类别，根据预先训练风险识别分类器得到的所述风险类别的先验概率、以及在所述风险类别条件下出现所述词语向量集中各词语的条件概率，计算在所述词语向量集出现的条件下对应所述风险类别的后验概率；

风险类别确定子单元，用于从计算得到的后验概率中选择最大值，所述最大值对应的风险类别即为所述词语向量集的风险类别。

可选的，所述装置还包括：

文本预处理单元，用于对所述文本沟通信息获取单元获取的文本沟通信息进行预处理，并在预处理操作后触发所述词语提取单元工作。

可选的，所述文本预处理单元包括：

无效信息删除子单元，用于从所述文本沟通信息中删除预先设定的无效信息；

沟通信息判断子单元，用于判断执行上述删除操作后的文本沟通信息是否为空，若是，将所述文本沟通信息标识为：无沟通信息，并结束本装置的执行；

单方录入信息提取子单元，用于当所述沟通信息判断子单元的输出为否时，从所述文本沟通信息中提取预先设定的参与沟通的其中一方录入的信息，并将提取的信息作为执行后续操作所采用的文本沟通信息。

可选的，所述装置还包括：

询问信息判断单元，用于在所述业务操作风险识别单元完成风险识别操作后，判断所述文本沟通信息获取单元获取的文本沟通信息中是否存在未得到答复的询问信息；

提醒信息推送单元，用于当所述询问信息判断单元的输出为是时，根据所述业务操作风险识别单元输出的结果和预先设定的提醒策略确定是否需要提醒，并在需要时向被询问方推送相应的提醒信息。

可选的，所述装置还包括：

风险控制实施单元，用于根据所述业务操作风险识别单元输出的结果，选择相应的策略实施风险控制。

可选的，所述装置还包括：

内容类别识别单元，用于在所述业务操作风险识别单元完成风险识别操作后，识别所述文本沟通信息的内容类别；

所述风险控制实施单元具体用于，根据所述业务操作风险识别单元输出的结果以及所述内容类别，选择相应的策略实施风险控制。

与现有技术相比，本申请具有以下优点：

本申请提供的风险识别方法，根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息，然后从所述文本沟通信息中提取特征词语，生成词语向量集，并利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别，再进一步根据所述风险类别识别所述当前业务操作是否存在风险。上述方法，提供了一种识别业务操作风险的新思路：根据与当前业务操作相关的文本沟通信息进行风险识别，从而可以高效地识别出可能存在风险的业务操作。特别是，后续风险控制环节可以根据本方法输出的风险识别结果采用不同的风险控制策略，例如：对存在风险的业务操作逐一处理、对不存在风险的业务操作抽样处理，从而可以实现风险控制水平和验证难度之间的平衡，能够在提高风险控制效率的同时，保证风险控制的准确性。

附图说明

图1是本申请的一种风险识别方法的实施例的流程图；

图2是本申请实施例提供的对文本沟通信息进行预处理的流程图；

图3是本申请的一种风险识别装置的实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是，本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此，本申请不受下面公开的具体实施的限制。

在本申请中，分别提供了一种风险识别方法，以及一种风险识别装置，在下面的实施例中逐一进行详细说明。为了便于理解本申请的技术方案，先对提出本申请的背景及本申请的技术方案作简要说明。

为了从大量的业务操作中识别出少量的、个别的存在风险的操作，传统的风险控制方法通常以大量的、种类繁多的数据为基础，对所有业务操作逐一地进行风险规则分析和/或模型算法计算，处理过程耗时、处理效率低下。

本申请的发明人在从事风险控制工作的过程中发现，用户在执行业务操作的过程中，通常会与业务操作涉及的另一方(例如商品或者服务的提供方)，利用业务操作***提供的沟通工具，例如即时通讯软件，以实时问答、聊天或者留言的方式，沟通与业务操作有关的信息，业务操作***通常会采用文本的形式存储双方录入的上述信息，即本申请所述的文本沟通信息，而这些文本沟通信息有助于识别业务操作是否存在风险。

以购物下单操作为例，用户作为买家通常会与提供商品的卖家进行沟通，如果文本沟通信息中包含买卖双方的讨价还价、或者对商品规格的商讨等，则可以认为所述文本沟通信息是正常的，所述操作涉及盗用账户等风险的可能性相对较低；而对于一些有欺诈行为的买家，其在沟通过程中的用语通常存在异常，而且也是有一定规律可循的，因此通常认为异常的文本沟通信息所对应的业务操作的风险相对较高。基于上述原因，本申请的发明人提出了一种风险识别方法，其核心在于：根据与当前业务操作相关的文本沟通信息识别所述业务操作是否存在风险。由于文本沟通信息通常数据量比较小，因此本方法可以高效地进行风险识别，并为后续采取进一步的风险控制提供有力的参考信息。

所述风险识别方法包括以下步骤：

1)根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息；

2)从所述文本沟通信息中提取特征词语，生成词语向量集；

3)利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别；

4)根据所述词语向量集的风险类别，识别所述当前业务操作是否存在风险。

在具体实施时，可以采用多种方式实现本申请的技术方案。所述根据历史文本沟通信息建立的分类模型，可以是常规的词语匹配算法，即，预先从所述历史文本沟通信息中提取与每种风险类别对应的特征词语，通过上述步骤1)以及步骤2)获取与当前业务操作相关的文本沟通信息以及生成词语向量集后，可以通过文本匹配的方式，在所述词语向量集中查找上述特征词语，并将找到的特征词语所对应的风险类别作为所述词语向量集的风险类别，也即与当前业务操作相关的文本沟通信息的风险类别，并进一步根据所述风险类别识别当前业务操作是否存在风险。

为了进一步提高风险识别的准确性，所述分类模型也可以采用根据历史文本沟通信息构建的机器分类模型，即：本申请所述的风险识别分类器。本实施例重点描述采用风险识别分类器的实施方式，下面对本技术方案的实施方式作详细说明。

请参考图1，其为本申请的一种风险识别方法的实施例的流程图。所述方法包括如下步骤：

步骤101：训练风险识别分类器。

本技术方案所述的风险识别分类器是用于识别业务操作风险类别的文本分类器。文本分类就是根据预先定义的主题类别，按照一定的规则将未知类别文本自动确定类别的过程。文本分类的核心问题是如何构造分类器，而分类器的构造可以采用不同的分类算法，例如：Rocchio算法、朴素贝叶斯分类算法、K-近邻算法、决策树算法、神经网络算法和支持向量机算法等。在具体实施本申请的技术方案时，可以采用上述列举的各种分类算法，本申请对此不作具体的限定。在本实施例中采用朴素贝叶斯分类算法构造风险识别分类器，为了提高风险识别的执行效率，可以预先训练好基于朴素贝叶斯算法的风险识别分类器。

在具体实施时，可以采用以下步骤：首先从历史文本沟通信息中选择样本集合，以业务操作为购物下单操作为例，本步骤可以获取过去一段时间内(例如过去三个月内)的、与购物下单操作相关的文本沟通信息，组成所述样本集合。所述样本集合中的每个样本包含两部分：一部分是与业务操作相关的的文本沟通信息，另一部分是该文本沟通信息对应的真实类别标注，例如，异常沟通信息、或者正常沟通信息；然后，计算单个类别的先验概率，即：单个类别在样本集合中出现的概率，具体可以用属于单个类别的样本数量与样本总数量的比值，作为所述单个类别的先验概率；最后，计算在每个类别条件下出现各个词语的条件概率，具体可以用属于特定类别且包含特定词语的样本个数与属于特定类别的样本总数的比值，作为在所述特定类别条件下出现所述特定词语的条件概率。

需要说明的是，在具体实施时，本技术方案可以根据整个文本沟通信息、或者文本沟通信息所包含的某一方录入的信息来识别相关业务操作是否存在风险。为了保证分类的准确性，训练分类器时所选样本包含的文本沟通信息的种类，通常与采用风险识别分类器进行风险识别所采用的文本沟通信息的种类一致，例如：对于购物下单操作来说，都采用买家录入信息、或者卖家录入信息、或者包含上述两类信息的完整文本沟通信息。

完成上述训练过程后，就可以在后续进行文本分类时，从中选取相应的先验概率和条件概率进行计算，得出分类结果，关于这部分的说明请参见步骤104中的相关文字。

步骤102：根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息。

与当前业务操作相关的文本沟通信息，通常会在服务器上以文本的形式存储，本步骤可以根据当前业务操作的属性信息，从上述服务器中获取所述文本沟通信息。对于不同的业务***来说，获取文本沟通信息所依据的业务操作属性信息可能不同，例如，可以利用以下属性信息之一或者组合获取所述文本沟通信息：业务操作标识、业务操作涉及的客体标识(例如商品标识)、执行业务操作的用户标识等。

在获取与当前业务操作相关的文本沟通信息后，可以直接执行步骤103提取特征词语，也可以在执行步骤103之前对所述文本沟通信息进行预处理，以便于执行后续的词语提取操作。所述预处理过程包括步骤102-1至102-4，下面结合图2作进一步说明。

步骤102-1：从文本沟通信息中删除预先设定的无效信息。

所述无效信息包括以下所列中的一种或任意组合：空格、表情符号、参与沟通的任一方预先设置的自动回复信息。对于风险识别来说，上述信息通常不会起到有益的帮助，因此提前删除这些信息，可以提高后续处理的效率。

步骤102-2：判断执行上述删除操作后的文本沟通信息是否为空，若是，执行步骤102-3，若否，执行步骤102-4。

如果文本沟通信息中删除上述无效信息后，没有其他文字，则可以认为文本沟通信息为空白，不包含可供进一步分析的有效内容，这种情况下，执行步骤102-3，否则执行步骤102-4。

步骤102-3：将所述文本沟通信息标识为：无沟通信息，并结束本方法的执行。

本步骤将内容为空的文本沟通信息标识为：无沟通信息。由于没有可供进一步分类分析的内容，因此不用执行后续的步骤103至步骤106。

在具体实施中，通常可以将本方法作为进一步风险控制的预判环节，也就是说，后续可以根据本方法的风险识别结果，进行有针对性的风险控制。例如：对于存在风险的业务操作，采用逐一检查文本沟通信息的方式，对于不存在风险的业务操作，采用抽样检查文本沟通信息的方式。在这种情况下，如果将内容为空的文本沟通信息标识为：无沟通信息，那么在执行上述检查时，就不必检查该文本沟通信息，从而提高处理效率。

步骤102-4：从所述文本沟通信息中提取预先设定的参与沟通的其中一方录入的信息。

对于不为空的文本沟通信息来说，可以根据预先设定的风险识别策略，直接执行后续步骤从中提取特征词语并确定风险类别，也可以从所述文本沟通信息中提取预先设定的参与沟通的某一方录入的信息，并将提取的信息作为执行后续操作所采用的文本沟通信息。

以购物下单操作为例，所述预先设定的风险识别策略可以包括，针对买家进行风险识别、针对卖家进行风险识别、或者针对买家和卖家进行风险识别，在具体实施时可以根据所述风险识别策略的不同，选用相应的文本沟通信息。例如：为了甄别买家和卖家串通实施非法操作的情况，可以直接使用包含买卖双方录入信息的文本沟通信息，执行后续分类操作；为了甄别买家盗刷卡或者盗用账户等风险，则可以从文本沟通信息中提取买家录入的信息，作为执行后续分类操作所采用的文本沟通信息；同理，也可以从文本沟通信息中提取卖家录入的信息。上述方式都是具体实施方式的变更，可以根据具体应用中的实际需要选择相应的方式。

在文本沟通信息中，参与沟通的各方录入的信息通常会有相应的标识，因此，可以根据不同的标识区分每一方录入的信息，并提取所需的信息。在本实施例的一个具体例子中，进行风险识别的目的是为了针对买家预判购物下单操作是否存在风险，因此在预处理阶段从文本沟通信息中提取买家录入的信息，并将该信息作为后续处理所使用的文本沟通信息。

步骤103：从所述文本沟通信息中提取特征词语，生成词语向量集。

本步骤通常可以采用分词方法从所述文本沟通信息中提取特征词语。具体说，可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。其中，基于字符串匹配的分词方法，也称作基于词库的分词方法，是相对比较简单、成熟的分词方法，本实施例采用该分词方法实现从文本沟通信息中提取特征词语的功能。在其他实施方式中，也可以采用上述其他分词方法。

基于词库的分词方法，是按照一定的策略将待分析的字符串与词库中的词语(也称词条)进行匹配，若在词库中找到某个字符串，则匹配成功，识别出一个词语。按照扫描方向的不同，可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大匹配和最小匹配。

在具体实施时，可以选用预先生成的词库，所述词库中通常存储了可能在文本沟通信息中出现的、与确认文本沟通信息风险类别有关的词语；然后通过编写将文本沟通信息中字符串与词库进行匹配的代码实现分词功能，为了简化实施过程，也可以采用比较成熟的技术，例如：采用R语言和Rwordseg分词包；或者采用极易中文分词组件实现上述分词功能。

分词的结果，是从文本沟通信息中提取出一系列词语，由于所述一系列词语可以体现所述文本沟通信息的特征，因此也可以称作特征词语，每个特征词语就是一个词语向量，因此提取的所有特征词语共同生成词语向量集。例如：对某个询问价格的文本沟通信息进行分词可以得到以下特征词语：防晒霜、多少、钱、一瓶，这些特征词语组成如下的词语向量集：{防晒霜、多少、钱、一瓶}。这里列举的是一个示意性的例子，在具体应用中，文本沟通信息可能包含不同于本例的其他更多信息，而且根据所用词库的不同，分词结果也会相应不同。

上述提取特征词语并生成词语向量集的过程，是为了将文本沟通信息转化成便于计算机理解与处理的形式，即：通常所说的文本表示过程。在文本沟通信息的基础上生成词语向量集后，就可以在后续步骤104中利用分类模型确定所述词语向量集的风险类别了。

步骤104：利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别。

本实施例采用基于朴素贝叶斯算法的风险识别分类器确定所述词语向量集的风险类别。

朴素贝叶斯算法的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，取概率最大的类别作为待分类项所属类别。本实施例采用的朴素贝叶斯算法的基本公式如下所示：

P (c | a) = \frac{P (a | c) P (c)}{P (a)}

-------公式1

其中，a为一个特征，即本实施例中从步骤103中得到的词语向量集，a包含m个特征属性，即m个词语a_j，j＝1，...，m；而c为可能的分类，例如：正常沟通信息、或者异常沟通信息；P(c|a)是在a出现的条件下属于类别c的后验概率。对于不同的类别c_i分别计算P(c_i|a)，取其中的最大值对应的c_i即为词语向量集a的风险类别，也即词语向量集a对应的文本沟通信息的风险类别。

在针对不同的c_i求解P(c_i|a)的过程中，由于P(a)都是相同的，因此只需确定P(a|c_i)P(c_i)最大时对应的分类c_i即可。由于朴素贝叶斯基于这样的限定：各特征属性之间相互条件独立，因此P(a|c_i)P(c_i)可以转化为下面的形式：

P (a | c_{i}) P (c_{i}) = P (c_{i}) Π_{j = 1}^{m} P (a_{j} | c_{i})

-------公式2

具体实施时，可以根据选定的样本集合，针对每个风险类别，分别计算该类别的先验概率P(c_i)，以及在该类别条件下出现所述词语向量集中各词语的条件概率P(a_j|c_i)，然后将计算得到的数值代入公式2，就可以得到P(a|c_i)P(c_i)的值，最后取其中最大值对应的c_i就是所述词语向量集的风险类别。

在本实施例中在步骤101中已经预先训练好了风险识别分类器，即：已经在所选样本集合的基础上计算出了上述各个数值，因此在本步骤中可以直接将上述数值代入公式2计算即可。

步骤105：根据所述词语向量集的风险类别，识别所述当前业务操作是否存在风险。

本步骤可以根据预先设定的词语向量集风险类别与业务操作有无风险之间的对应关系、以及步骤104确定的词语向量集风险类别，识别当前业务操作是否存在风险。在本实施例的一个具体例子中，词语向量集的风险类别可以为以下两种之一：正常沟通信息、异常沟通信息，并且预先设定，如果步骤104确定的词语向量集的风险类别为正常沟通信息，则所述当前业务操作不存在风险；如果步骤104确定的词语向量集的风险类别为异常沟通信息，则所述当前业务操作存在风险。

上面给出的是一个示意性的例子，在具体实施中，词语向量集的风险类别可能不只两种，因此可以根据实际的需要，建立风险类别与业务操作有无风险之间的对应关系，将其中某一种或者某几种风险类别对应于业务操作存在风险，而将其他的风险类别对应于业务操作不存在风险。

进一步地，在完成所述当前业务操作的风险识别后，还可以执行一些额外操作，包括：识别文本沟通信息的内容类别、或者判断是否有未得到答复的询问信息，下面分别进行说明。

1)识别所述文本沟通信息的内容类别。具体实现时，可以预先设定一些内容类别、及对应于每个类别的若干特征词语，并将上述内容类别及对应的特征词语存储在文件、数据表格或者数据库中。

在本步骤完成所述当前业务操作的风险识别后，可以从上述文件、数据表格或者数据库中读取所述内容类别及对应的特征词语，并通过文本匹配的方式在所述文本沟通信息中进行查找，如果找到预先设定的特征词语，则可以判定所述文本沟通信息属于所述特征词语对应的内容类别。以当前业务操作为购物下单操作为例，所述文本沟通信息的内容类别可以包括：商讨价格、商讨商品规格、或者商讨发货时间等。如果通过上述文本匹配操作，在文本沟通信息中找到了分别属于不同类别的特征词语，也可以认为所述文本沟通信息属于多个内容类别。

此外，还可以针对不同的内容类别进行打分，仍以当前业务操作为购物下单操作为例，如果已识别所述业务操作不存在风险，并且文本沟通信息的内容属于上述列举的商讨价格、商讨商品规格、或者商讨发货时间等类似类别，通常可以进一步说明所述业务操作的风险程度低，因此可以给予比较高的评分，为后续的风控提供更为翔实的信息。

2)判断在步骤101中获取的文本沟通信息中是否存在未得到答复的询问信息。具体说，可以采用文本匹配的方式识别是否存在参与沟通的某一方发出的询问信息、并且在该询问信息之后没有被询问方录入的信息，即：存在未得到答复的询问信息。这种情况下可以根据当前业务操作的风险识别结果和预先设定的提醒策略确定是否需要提醒，并在需要时向被询问方推送相应的提醒信息。例如，预先设定的提醒策略是：仅在当前业务操作不存在风险的情况下向被询问方推送提醒信息，那么如果在步骤101获取的文本沟通信息中存在未得到答复的询问信息，并且已识别出当前业务操作不存在风险，则可以通过邮件或者短信等方式向被询问方推送相应的提醒信息，告知其在业务***中有未答复的询问留言。采用这种方式，可以方便业务操作各方的及时沟通，有效提升客户体验。

步骤106：根据所述当前业务操作的风险识别结果，选择相应的策略实施风险控制。

执行到本步骤，已经识别出了当前业务操作是否存在风险，进一步的风险控制可以以该识别结果作为参考信息，选择相应的策略。

例如：对于存在风险的业务操作可以采用逐一处理的方式进行风险控制，对于不存在风险的业务操作，则可以采用抽样处理的方式进行风险控制。所述处理包括：人工审理所述业务操作的文本沟通信息，或者结合其他数据(例如：历史操作数据、社交数据等)采用全规则覆盖或者利用设定的模型打分来进一步验证所述业务操作的风险等。

由于提前采用风险识别分类器对当前业务操作是否存在风险进行识别，相当于进行了一次预筛选，然后根据风险识别结果，采用不同强度的风险控制措施进行验证。从而实现了风险控制水平和验证难度之间的平衡，能够在提高风险控制效率的同时，保证风险控制的准确性。

此外，如果在步骤105中还识别了文本沟通信息的内容类别，那么在执行进一步风险控制时，不仅可以参考当前业务操作的风险识别结果，还可以同时参考所述内容类别，例如：综合考量风险识别结果和根据内容类别得到的评分，细化当前业务操作的风险程度，并进一步细化风险控制策略，同样可以取得上述有益效果。

至此，通过本实施例的上述步骤101至步骤106，详细描述了本技术方案的实施方式。其中，步骤102至步骤105是本方法的核心，通过这四个步骤就可以实现根据当前业务操作的文本沟通信息识别所述业务操作是否存在风险的目的。步骤101是风险识别分类器的训练过程，预先训练是为了提高风险识别的效率，而且该分类器通常是相对稳定的，一旦训练完毕，每次针对待识别风险的业务操作，直接使用该分类器即可。而步骤106是对核心方法的进一步扩展，在识别当前业务操作是否存在风险的基础上采用相应的策略实施进一步的风险控制，在具体实施过程中，该步骤也是可选的。

需要说明的是，作为一个完善的实施方式，本实施例还可以提供词库的更新完善功能。在具体实施时，可以检查采用分词技术提取的词语中是否存在异常，例如：分割错误的词语，出现这种情况，通常也说明词库中的词条信息不够完善，因此可以更新所用词库中的相应词语，包括：添加新的词条，或者修改不正确的词条等，从而保证分词的正确性。进一步地，还可以相应地更新风险识别分类器，使得风险识别分类器能够根据文本沟通信息中词语的变化以及词库的更新，进行同步的调整，从而保证风险识别分类器的分类准确率。

综上所述，本申请提供的风险识别方法，提供了一种识别业务操作风险的新思路：根据与当前业务操作相关的文本沟通信息进行风险识别，从而可以高效地识别出可能存在风险的业务操作。特别是，后续风险控制环节可以根据本方法输出的风险识别结果采用不同的风险控制策略，从而可以实现风险控制水平和验证难度之间的平衡，能够在提高风险控制效率的同时，保证风险控制的准确性。

在上述的实施例中，提供了一种风险识别方法，与之相对应的，本申请还提供一种风险识别装置。请参看图3，其为本申请的一种风险识别装置的实施例示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种风险识别装置，包括：风险识别分类器训练单元301，用于预先训练基于朴素贝叶斯算法的风险识别分类器；文本沟通信息获取单元302，用于根据当前业务操作的属性信息，获取与所述当前业务操作相关的文本沟通信息；词语提取单元303，用于从所述文本沟通信息获取单元获取的文本沟通信息中提取特征词语，生成词语向量集；文本风险类别确定单元304，用于利用根据历史文本沟通信息建立的风险识别分类器，确定所述词语提取单元生成的词语向量集的风险类别；业务操作风险识别单元305，用于根据所述文本风险类别确定单元输出的所述词语向量集的风险类别，识别所述当前业务操所是否存在风险；风险控制实施单元306，用于根据所述业务操作的风险类别，选择相应的策略实施风险控制。

所述文本风险类别确定单元包括：

可选的，所述装置还包括：

可选的，所述文本预处理单元包括：

可选的，所述装置还包括：

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种风险识别方法，其特征在于，包括：

从所述文本沟通信息中提取特征词语，生成词语向量集；

2.根据权利要求1所述的风险识别方法，其特征在于，所述当前业务操作的属性信息包括以下所列之一或者任意组合：业务操作标识、业务操作涉及的客体标识、执行业务操作的用户标识。

3.根据权利要求1所述的风险识别方法，其特征在于，所述利用根据历史文本沟通信息建立的分类模型，确定所述词语向量集的风险类别，包括：以所述词语向量集为输入，采用风险识别分类器识别所述词语向量集的风险类别，所述风险识别分类器为根据历史文本沟通信息构建的机器分类模型。

4.根据权利要求3所述的风险识别方法，其特征在于，所述风险识别分类器包括：基于朴素贝叶斯算法的风险识别分类器；

5.根据权利要求1所述的风险识别方法，其特征在于，在从所述文本沟通信息中提取词语之前，执行下述操作：

6.根据权利要求5所述的风险识别方法，其特征在于，所述对所述文本沟通信息进行预处理包括：

从所述文本沟通信息中删除预先设定的无效信息；

若否，则执行下述操作：

并将提取的信息作为执行后续操作所采用的文本沟通信息。

7.根据权利要求1-6任一所述的风险识别方法，其特征在于，所述词语向量集的风险类别包括：正常沟通信息、或异常沟通信息；

8.根据权利要求1-6任一所述的风险识别方法，其特征在于，在识别所述当前业务操作是否存在风险之后，执行下述操作：

9.根据权利要求1-6任一所述的风险识别方法，其特征在于，还包括：

10.根据权利要求9所述的风险识别方法，其特征在于，所述根据所述当前业务操作的风险识别结果，选择相应的策略实施风险控制包括：根据所述当前业务操作的风险识别结果，采用逐一处理或者抽样处理的方式进行风险控制。

11.根据权利要求9所述的风险识别方法，其特征在于，在识别所述当前业务操作是否存在风险之后，执行下述操作：

识别所述文本沟通信息的内容类别；

12.一种风险识别装置，其特征在于，包括：

13.根据权利要求12所述的风险识别装置，其特征在于，所述文本风险类别确定单元具体用于，以所述词语向量集为输入，采用风险识别分类器识别所述词语向量集的风险类别，所述风险识别分类器为根据历史文本沟通信息构建的机器分类模型。

14.根据权利要求13所述的风险识别装置，其特征在于，所述文本风险类别确定单元采用的风险识别分类器包括：基于朴素贝叶斯算法的风险识别分类器；

所述文本风险类别确定单元包括：

15.根据权利要求12所述的风险识别装置，其特征在于，还包括：

16.根据权利要求15所述的风险识别装置，其特征在于，所述文本预处理单元包括：

17.根据权利要求12-16任一所述的风险识别装置，其特征在于，所述装置还包括：

18.根据权利要求12-16任一所述的风险识别装置，其特征在于，所述装置还包括：

19.根据权利要求18所述的风险识别装置，其特征在于，所述装置还包括：