CN111652622A

CN111652622A - 一种风险网址的识别方法、装置及电子设备

Info

Publication number: CN111652622A
Application number: CN202010454581.1A
Authority: CN
Inventors: 李超; 汲小溪; 蒋博赟; 王维强; 王澜; 赵闻飙
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-11
Anticipated expiration: 2040-05-26
Also published as: CN111652622B

Abstract

本说明书公开了一种风险网址的识别方法，装置及电子设备，该方法包括：获取待识别的目标网址；爬取所述目标网址对应的文本信息和图像信息；通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征；通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。在上述技术方案中，通过获取目标网址对应的文本信息和图像信息进行多模态表示学习获得两者之间的共同表征，排除无效信息和干扰信息，基于其共同表征进行风险网址识别，提升了风险网址识别的准确率。

Description

一种风险网址的识别方法、装置及电子设备

技术领域

本说明书涉及软件技术领域，特别涉及一种风险防控方法、装置及电子设备。

背景技术

目前，很多黄赌毒、非法投融资、欺诈等非法行为通过网址进行线上作案。通过网址进行线上作案的主体本身拥有账户和密码。一方面，由于其账户本身一直处于异常交易状态，在交易行为中基于账户历史交易记录能够获取的异常交易特征很少，很难通过交易行异常为对其进行风险防控。另一方面，其账户通常会有多个，并且会不断的切换，可以绕过风控高频大额等风险防控规则，即使部分账户被处罚或封号，其整个经营模式不受影响，如何应对这种通过网址进行线上作案的非法行为已成为一个亟待解决的问题。

发明内容

本说明书实施例提供一种风险网址的识别方法、装置及电子设备，用于实现对网络在线作案进行网址识别。

第一方面，本说明书实施例提供一种风险网址的识别方法，所述方法包括：

获取待识别的目标网址；

爬取所述目标网址对应的文本信息和图像信息；

通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征；

通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。

可选的，所述通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征，包括：

对所述文本信息进行向量转换获得文本特征向量，对所述图像信息进行向量转换获得图像特征向量；

通过自编码器对所述文本特征向量和所述图像特征向量进行降维，获得所述文本特征向量的文本表征和所述图像特征向量的图像表征，所述文本表征和所述图像表征的特征维度相同；

获取所述文本表征和所述图像表征之间的典型相关系数；

基于所述文本表征、所述图像表征以及所述典型相关系数，通过多模态表示学习获取所述共同表征。

可选的，爬取所述目标网址对应的文本信息和图像信息，包括：

爬取所述目标网址对应的目标网页中的网页文本以及所述目标网页的网页截图；

爬取所述目标网页中的子链接以及所述子链接对应的子链接文本及子链接图像；

将所述网页文本和所述子链接文本作为所述目标网址对应的文本信息，将所述网页截图和所述子链接图像作为所述目标网址对应的图像信息。

可选的，所述获取待识别的目标网址，包括：

从向风险防控平台内获取投诉网址和/或所述风险防控平台的进件网址作为所述目标网址；以及，

从互联网中获取满足预设风险规则的网址作为所述目标网址。

可选的，所述从互联网中获取满足预设风险规则的网址作为所述目标网址，包括：

根据风险关键词进行网址检索获取所述目标网址；和/或，

对论坛类网页进行风险投诉信息监控，基于监控获得的所述风险投诉信息抽取所述目标网址。

第二方面，本说明书实施例提供一种风险网址的识别装置，所述装置包括：

获取单元，用于获取待识别的目标网址；

爬取单元，用于爬取所述目标网址对应的文本信息和图像信息；

学习单元，用于通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征；

分类单元，用于通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。

可选的，所述学习单元用于：

获取所述文本表征和所述图像表征之间的典型相关系数；

可选的，所述爬取单元用于：

可选的，所述获取单元用于：

可选的，所述获取单元还用于：

根据风险关键词进行网址检索获取所述目标网址；和/或，

第三方面，本说明书实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述方法对应的步骤。

第四方面，本说明书实施例提供一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以的上程序所包含的用于进行如第一方面所述方法对应的操作指令。

本说明书实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本说明书实施例提供一种风险网址的识别方法，获取待识别的目标网址；爬取目标网址对应的文本信息和图像信息；通过多模态表示学习获取文本信息与图像信息之间的共同表征；通过机器学习算法对共同表征进行分类确认目标网址是否为风险网址，实现了对网络在线作案进行网址识别，从而能够对可能进行在线作案的风险网址进行主动防控，减少通过网址线上作案的情况发生。并且，本方案通过获取网址对应的文本信息和图像信息进行多模态表示学习获得两者之间的共同表征，排除无效信息和干扰信息，基于其共同表征进行风险网址识别，提升了风险网址识别的准确率。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种风险网址的识别方法的流程图；

图2为本说明书实施例提供的一种风险网址的识别装置的示意图；

图3为本说明书实施例提供的一种电子设备的示意图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书实施例提供一种风险网址的识别方法，用于实现对网络在线作案进行网址识别，提高风险网址识别的准确性，从而对网络在线作案进行主动防控。

下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

请参考图1，本实施例提供一种风险网址的识别方法，包括如下步骤S10～S16：

S10、获取待识别的目标网址。

其中，待识别的目标网址的来源包括内部来源和外部来源。内部来源是指风险防控平台，来自内部的目标网址为风险防控平台的投诉网址和进件网址。进件网址为一应用程序对接上游应用时所需的网址如线上商户网址。例如：某支付平台为风险网址的风险防控平台，那么可以获得该支付平台的上游支付渠道即进件网址作为待识别的目标网址。外部来源是指从互联网中获取到的满足预设风险规则的外部网址。

S12、爬取所述目标网址对应的文本信息和图像信息。

其中，可以通过内容爬虫爬取目标网址对应网页中的文本信息和图像信息。爬取的文本信息可以是目标网址的HTML内容信息和URL信息。爬取的图像信息可以是目标网址的首页截图信息。

S14、通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征。

其中，多模态表示学习为多模态机器学习(MML，Multimodal Machine Learning)中的表示学习(Representation)。多模态机器是一种综合利用多个模态信息的一种人工智能学习方式，包括：表示学习(Representation)、翻译(Translation)、对齐(Alignment)、多模态融合(Fusion)以及协同学习(Co-learning)。

S16、通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。

其中，所述机器学习算法可以是梯度提升迭代决策树GBDT、随机森林RF、线性回归LR、全连接神经网络MLP、支持向量机SVM等。通过对文本信息和图像信息的共同表征进行分类，可以有效排除网页中的无效信息，进而有效的提升风险网址识别的准确率和覆盖率，且针对黑产进行页面篡改的行为，有比较强的鲁棒性。

在具体实施过程中，S10在获取内部源的目标网址时，可以从风险防控平台内部获得投诉网址和/或进件网址，投诉网址包括用户在融资、赌博、被欺诈后向风险防控平台投诉的网址。S10在获取外部源的目标网址时，可以通过网址检索和/或论坛监控来获取。

网址检索：根据风险关键词进行网址检索获取目标网址。

首先，根据已知的风险网址获取已知的风险关键词；然后，获得与已知风险关键词相似的风险关键词；通过对已知的风险关键词或相似的风险关键词进行检索获取目标网址。具体的，可以根据已知的风险网址对应的网站关键词训练词向量，词向量的训练方式可以是bert/word2vec等；基于训练好的词向量，获取已知风险关键词的词向量获取相似词向量，再将相似词向量对应的关键词作为已知风险关键词的相似风险关键词。例如：已知“股票”是非法投融资类风险网址的风险关键词，根据词向量的相似度获取“理财”作为“股票”的相似风险关键词，分别对“股票”和“理财”进行网址检索获得待识别的目标网址。

论坛监控：对论坛类网页进行风险投诉信息监控，基于监控获得的风险投诉信息抽取目标网址。

对于论坛类的网页，如“贴吧”、“天涯论坛”、“知乎”等，其中往往包含用户大量的投诉信息，如“我被骗了好多钱，XXXX网页就是坑，千万别去了，都是坑”。进行风险投诉信息监控时，可以对投诉类关键词如：套路、坑人、骗钱、赌博等等进行监控，并提取网页中的投诉类关键词及其上下文，从而获取风险投诉信息。基于监控获得的风险投诉信息，通过实体抽取的方式获取到其中的网址作为目标网址。

通过内部源和外部源的目标网址获取，提高目标网址的覆盖率，对每一个目标网址进行风险网址识别，从而尽可能多的识别出风险网址，提高主动风险防控的覆盖率。

在获取到待识别的目标网址之后，进一步执行S12对目标网址进行网页信息爬取。为了进一步的扩充网址的覆盖，网页信息爬取时可以对目标网址进行多度拓展，将目标网页上的子链接的文本、图像以及URL也获取到。具体的，爬取目标网址对应的目标网页中的网页文本以及目标网页的网页截图；爬取目标网页中的子链接以及子链接对应的子链接文本及子链接图像；将网页文本和子链接文本作为目标网址对应的文本信息，将网页截图和子链接图像作为目标网址对应的图像信息。

在S12之后，继续执行S14进行多模态表示学习。通过DCCAE(Deep CCAAutoencode)方法学习文本信息和图像信息这两个模态的共同表征，具体包括如下步骤：

步骤1：信息预处理。对目标网址对应的文本信息进行向量转换获得文本特征向量x，对图像信息进行向量转换获得图像特征向量y。

步骤2：向量降维。文本特征向量x与图像特征向量y的向量维度往往不同，无法直接进行相关性计算，为此通过自编码器对文本特征向量和图像特征向量进行降维，获得文本特征向量的文本表征和图像特征向量的图像表征，文本表征和所述图像表征的特征维度相同。将文本特征向量x输入自编码器autoencoder，通过自编码器autoencoder学习得到中间层encoder的特征f(x)即为文本特征向量的文本表征。同样的，将图像特征向量y输入自编码器autoencoder，通过自编码器autoencoder学习得到中间层encoder的特征g(y)即为图像特征向量的图像表征。

步骤3：获取文本表征和图像表征之间的典型相关系数。通过典型相关分析方法(Canonical Correlation Analysis，CCA)对降维到相同维度的文本表征和图像表征进行相关性分析，获得f(x)和g(y)之间的典型相关系数即CCA系数。

步骤4：多模态表示学习。基于步骤2获得的文本表征、图像表征以及步骤3获得的CCA系数，通过多模态表示学习获得文本信息和图像信息之间的共同表征。由于目标网址对应目标网页中可能存才干扰信息，由此获得的文本表征f(x)和图像表征g(y)中也可能存在干扰信息，若直接利用文本表征f(x)和图像表征g(y)学习模型，由此获得的共同表征的准确性较低。本实施例在多模态表示学习时，将文本表征f(x)和图像表征g(y)之间的CCA系数加入到多模态表示学习的损失函数中，让多模态表示学习模型排除干扰信息和单模态的噪音，学习文本表征f(x)和图像表征g(y)之间的共同表征，包括文本特征f和图像特征g，提高共同表征的准确性。

在获得文本信息和图像信息的共同表征之后，执行S16对获得的共同表征进行分类，若共同表征为风险类型的概率大于设定阈值，确认共同表征对应的目标网址为风险网址；若共同表征为风险类型的概率不大于设定阈值，确认共同表征对应的目标网址不是风险网址。其中，多模态表示学习获得的共同表征包括目标网址的文本特征f和图像特征g，由于f和g之间具有CCA系数的约束，两者之间比较相似，在进行分类时，可以将f或g作为输入特征，通过分类器GBDT/RF/LR/MLP/SVM等进行分类。由于f和g已经是多模态表示学习过滤后的信息，所以该方案可以减少对黑产注入信息的依赖，提高了对风险网址识别的准确性。

在识别到风险网址之后，本实施例还可以进一步对风险网址进行主动巡检，实现基于风险网址的风险防控。主动巡检是主动风控的重要一环，根据风险网址对应的网站背后不断切码轮码的形态，通过模型化的方式或者微客的方式识别到背后的账户。其中，基于微客的识别方式主要是将识别到的风险网址通过任务的方式发放给微客，微客通过注册、充值的方式将网址背后的账户返回给风险防控平台，在风险防控平台后端进行账户处罚。对于已经识别到的风险网址，定期的通过微客任务进行巡检，以达到非法交易行为的防控。

基于同一发明构思，针对上述实施例提供的一种风险网址的识别方法，本实施对应提供第二方面，本说明书实施例提供一种风险网址的识别装置，请参考图2，该装置包括：

获取单元21，用于获取待识别的目标网址；

爬取单元22，用于爬取所述目标网址对应的文本信息和图像信息；

学习单元23，用于通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征；

分类单元24，用于通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。

作为一种可选的实施方式，所述学习单元23在进行多模态表示学习时，可以对所述文本信息进行向量转换获得文本特征向量，对所述图像信息进行向量转换获得图像特征向量；通过自编码器对所述文本特征向量和所述图像特征向量进行降维，获得所述文本特征向量的文本表征和所述图像特征向量的图像表征，所述文本表征和所述图像表征的特征维度相同；获取所述文本表征和所述图像表征之间的典型相关系数；基于所述文本表征、所述图像表征以及所述典型相关系数，通过多模态表示学习获取所述共同表征。

作为一种可选的实施方式，所述爬取单元22可以用于：爬取所述目标网址对应的目标网页中的网页文本以及所述目标网页的网页截图；爬取所述目标网页中的子链接以及所述子链接对应的子链接文本及子链接图像；将所述网页文本和所述子链接文本作为所述目标网址对应的文本信息，将所述网页截图和所述子链接图像作为所述目标网址对应的图像信息。

作为一种可选的实施方式，所述获取单元22在获取目标网址时，可以从向风险防控平台内获取投诉网址和/或所述风险防控平台的进件网址作为所述目标网址；以及，从互联网中获取满足预设风险规则的网址作为所述目标网址。

作为一种可选的实施方式，所述获取单元22还用于：根据风险关键词进行网址检索获取所述目标网址；和/或，对论坛类网页进行风险投诉信息监控，基于监控获得的所述风险投诉信息抽取所述目标网址。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述，此处不再详细阐述。

请参考图3，是根据一示例性实施例示出的一种用于实现风险网址的识别方法的电子设备700的框图。例如，电子设备700可以是计算机，数据库控制台，平板设备，个人数字助理等。

参照图3，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，输入/输出(I/O)的接口710，以及通信组件712。

处理组件702通常控制电子设备700的整体操作，诸如与显示，数据通信，及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理***，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

I/O接口710为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件712经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件712还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得电子设备能够执行一种风险网址的识别方法，所述方法包括：获取待识别的目标网址；爬取所述目标网址对应的文本信息和图像信息；通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征；通过机器学习算法对所述共同表征进行分类，确认所述目标网址是否为风险网址。

应当理解的是，本实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本实施例的范围仅由所附的权利要求来限制。以上所述仅为本实施例的较佳实施例，并不用以限制本实施例，凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.一种风险网址的识别方法，所述方法包括：

获取待识别的目标网址；

爬取所述目标网址对应的文本信息和图像信息；

2.如权利要求1所述的方法，所述通过多模态表示学习获取所述文本信息与所述图像信息之间的共同表征，包括：

获取所述文本表征和所述图像表征之间的典型相关系数；

3.如权利要求1所述的方法，爬取所述目标网址对应的文本信息和图像信息，包括：

4.如权利要求1所述的方法，所述获取待识别的目标网址，包括：

从风险防控平台内获取投诉网址，获取所述风险防控平台的进件网址，以及从互联网中获取满足预设风险规则的外部网址；

基于所述投诉网址、所述进件网址及所述外部网址获取，获取待识别的所述目标网址。

5.如权利要求4所述的方法，所述从互联网中获取满足预设风险规则的网址作为所述目标网址，包括：

根据风险关键词进行网址检索获取所述目标网址；和/或，

6.一种风险网址的识别装置，所述装置包括：

获取单元，用于获取待识别的目标网址；

7.如权利要求6所述的装置，所述学习单元用于：

获取所述文本表征和所述图像表征之间的典型相关系数；

8.如权利要求6所述的装置，所述爬取单元用于：

9.如权利要求6所述的装置，所述获取单元用于：

10.如权利要求9所述的装置，所述获取单元还用于：

根据风险关键词进行网址检索获取所述目标网址；和/或，

11.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1～5任一所述方法对应的步骤。

12.一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以的上程序所包含的用于进行如权利要求1～5任一所述方法对应的操作指令。