CN112819486B

CN112819486B - 用于身份证明的方法和***

Info

Publication number: CN112819486B
Application number: CN202110162884.0A
Authority: CN
Inventors: 王海; 李若愚
Original assignee: Alipay Labs Singapore Pte Ltd
Current assignee: Alipay Labs Singapore Pte Ltd
Priority date: 2020-02-20
Filing date: 2021-02-05
Publication date: 2021-12-21
Anticipated expiration: 2041-02-05
Also published as: CN112819486A; SG10202001528TA

Abstract

本文公开了用于实现身份证明的方法的计算机实现的方法、***和装置，其包括编码在计算机存储介质上的计算机程序。所述方法之一包括：训练与身份的历史数据相关联的空间分割模型以及接收对应于新身份的数据。所述数据包括身份的属性、每个属性的值以及与身份的行为相关的时间戳。该方法还包括：计算属性的值在第一时间戳和第二时间戳之间的出现次数；基于出现次数，使用空间分割模型从身份的历史数据中分割新身份；以及基于分割次数来证明所述身份的真实性。

Description

用于身份证明的方法和***

技术领域

本文广泛地但非排他地涉及用于身份证明的方法和***。

背景技术

在开展业务时，金融机构需要满足监管要求，例如反洗钱(AML)规定。特别地，电子钱包开展的金融相关业务在全球受到严格监管。为了避免洗钱和欺诈等的金融风险，许多地区的监管机构可能要求自然人在开设电子钱包账户时提供政府认可的身份证件(ID)图片，以证明其身份。

目前，诸如ID卡等用户信息和图片主要通过诸如网页和手机应用等在线渠道收集。对于电子钱包的运营商而言，在用户开设账户的过程中，需要检查上传的ID图片，以确保ID的真实性并防止欺诈者使用虚假ID来访问***。验证用户身份的处理称为了解您的客户(Know Your Customer，KYC)。在一些国家，政府拥有官方数据库和开放式查询界面。商家可以连接到官方数据源以验证ID信息。然而，并非每个国家都有这样的官方数据库。

一般而言，政府签发的ID卡通常具有一些安全特征，例如亮点、水印等。现有的利用计算机视觉(CV)技术检测虚假ID的方法包括：学习ID卡的安全特征以及开发CV算法，以基于ID图片是否具有安全特征来检测上传的ID图片是真实的还是虚假的。但是，现今欺诈者能够很好地假造ID图片，以至于ID卡上的材质、安全特征和内容布局与真实ID卡高度相似。结果，这些虚假ID即使是人眼也很难辨别，CV算法变得不足以验证ID的真实性和检测虚假ID。

发明内容

所描述的实施例提供了用于通过检测虚假身份证件(ID)进行身份证明的方法和***。在一些实施例中，所述方法使用空间分割技术来确定所接收的新身份的真实性。身份可以包括不同的属性和不同属性的值，并且可以计算这些值在特定时间段内的出现次数。针对不同条件(例如，通过选择身份的不同属性)的出现次数执行分割，直到将新身份与身份的历史数据分离开。分割次数表示异常程度，基于该异常程度可以将新身份确定为正常身份或虚假身份。在一些实施方式中，在执行分割之前可以基于文本频率字典来调整出现次数。有利地，此调整考虑了不同文本或值在实际中的出现频率的固有差异。

在一些实施方式中，所述身份的数据包括若干属性，例如姓名、出生日期、ID号、体重、身高、眼睛颜色、ID的有效期和地址。在一些实施方式中，当以图像的形式接收ID时(例如，通过网页或移动电话应用上传ID的图片)，可以使用光学字符识别(OCR)算法来提取与属性和属性的值相关的文本。此外，计算不同属性的值在一个时间段内的出现次数并将其表示为向量，称为速度向量，并进行分割以从历史数据中身份的速度向量的整个向量空间中分割出新身份的速度向量。所述时间段可以是滑动窗口的形式，该滑动窗口从现在开始在时间上回溯。有利地，在过去的时间段(例如，五分钟)内频繁出现的值可以被具有高值的速度向量捕获并反映，并且由于分离高值速度向量所需的分割次数少，因此具有频繁出现的值的身份可以被标识为异常。

根据一个实施例，提供了一种用于身份证明的方法。所述方法包括：训练与身份的历史数据相关联的空间分割模型，其中，所述历史数据包括所述身份的属性、所述属性的值以及与所述身份的行为相关的时间戳；接收对应于新身份的数据，其中，所述数据包括所述新身份的属性、每个所述属性的值以及与所述新身份的行为相关的时间戳；针对所述新身份和所述身份的历史数据，计算所述属性的值在第一时间戳和第二时间戳之间的出现次数；使用所述空间分割模型基于所述出现次数从所述身份的历史数据中分割所述新身份，其中，在经过一分割次数后所述新身份被分离；以及基于所述分割次数来证明所述新身份的真实性。

在一些实施方式中，属性的值在第一时间戳和第二时间戳之间的出现次数可以表示为向量。在一些实施方式中，可以基于文本频率调整出现次数，所述第一时间戳和所述第二时间戳之间可以具有滑动时间窗口的形式。在一些实施方式中，所述方法还可以包括确定所接收的数据是否包括与身份证件的图像相对应的数据，并从所述图像提取所述属性和所述属性的值。在一些实施方式中，可以通过包括新身份来更新所述身份的历史数据。

根据其他实施例，这些一般和具体实施例中的一个或多个可以使用包括多个模块、***、方法或计算机可读介质的设备，或设备、***、方法和计算机可读介质的任意组合来实现。前述和其他描述的实施例可以各自可选地包括以下实施例中的一些实施例、不包括以下实施例或以下实施例的全部。

附图说明

实施例和实施方式仅以示例的方式提供，对于本领域的普通技术人员来说，根据以下书面描述并结合附图阅读，所述实施例和实施方式将得到更好地理解并易于显现，其中：

图1是示出根据实施例的用于身份证明的方法示例的流程图。

图2是示出根据实施例的图1中的用于身份证明的方法的实施方式示例的流程图。

图3A是根据实施例的在二维平面中的正常点分割示例的示意图。

图3B是根据实施例的在二维平面中的异常点分割示例的示意图。

图4是根据实施例的用于身份证明的***的模块示例的示意图。

图5是根据实施例的计算机***示例的框图，该计算机***适合于执行图1和2所示的示例性方法的至少一些步骤。

技术人员将理解，图中的元素是为了简洁和清楚而示出的，并且不一定按比例绘制。例如，插图、框图或流程图中的一些元素的尺寸可能相对于其他元素被夸大，以帮助提升对本实施例的理解。

具体实施方式

将仅通过示例的方式，参考附图来描述实施例。附图中相同的附图标记和符号表示相同的要素或等同物。

以下描述的一些部分是以计算机存储器内的算法和对数据的操作的函数或符号表示来明确或隐含地呈现的。这些算法描述和函数或符号表示是数据处理领域的技术人员为了最有效地向本领域的其他技术人员传达其工作实质所采用的手段。在这里，算法通常被认为是通往期望结果的自洽的步骤序列。这些步骤是需要对诸如能够被存储、传输、组合、比较和以其他方式操纵的电信号、磁信号或光信号之类的物理量进行物理操纵的步骤。

除非另有明确说明，并且从以下内容显见，将理解的是，在本说明书的全文中，利用诸如“接收”、“获得”、“训练”、“确定”、“分割”、“计算”、“生成”“检测”、“指示”、“转换”、“添加”、“调整”、“比较”、“更新”、“提取”、“代表”、“证明”、“认证”、“输出”等术语，指代计算机***或类似电子设备的动作和处理，其将计算机***内的以物理量表示的数据操纵和转换为计算机***或其他信息存储、传输或显示设备内的以物理量类似地表示的其他数据。

本说明书还公开了用于执行所述方法的操作的装置。这样的装置可以被特殊地构造用于所需的目的，或者可以包括计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他设备。本文给出的算法和显示器与任何特定计算机或其他装置都没有内在联系。根据本文的教导，各种机器可以与程序一起使用。备选地，用于执行所需方法步骤的更专门的装置的构造可能是合适的。适合于执行本文描述的各种方法/处理的计算机的结构将从下面的描述呈现。

此外，本说明书还隐含地公开了一种计算机程序，因为对于本领域技术人员而言显见的是，本文所述方法的每个步骤可以通过计算机代码来实现。该计算机程序不旨在限于任何特定的编程语言及其实施方式。将理解的是，各种编程语言及其代码可以用于实现本文中包含的说明书的教导。而且，该计算机程序不旨在限于任何特定的控制流程。计算机程序还有许多其他变体，可以使用不同的控制流程，而不会背离本发明的范围。

此外，计算机程序的一个或多个步骤可以并行而不是依次地执行。这样的计算机程序可以存储在任何计算机可读介质上。该计算机可读介质可以包括诸如磁盘或光盘、存储芯片、或适合于与计算机接口的其他存储设备。计算机可读介质还可以包括诸如在互联网***中例示的硬连线介质、或诸如在GSM移动电话***中例示的无线介质。当在这样的计算机上加载并执行该计算机程序时，有效地产生了实现优选方法的步骤的装置。

本说明书也可以实现为硬件模块。更具体地，在硬件意义上，模块是设计用于与其他组件或模块一起使用的功能硬件单元。例如，模块可以使用分立的电子元件来实现，或者它可以形成整个电子电路的一部分，例如专用集成电路(ASIC)或现场可编程门阵列(FPGA)。还有许多其他的可能性。本领域技术人员将理解，该***还可以实现为硬件和软件模块的组合。

身份证明是验证身份真实性的行为或处理，并且可以被视为欺诈检测或虚假身份检测的一种形式，其中，在执行欺诈行为之前，对用户的合法性进行验证并且可能检测到潜在的欺诈者。有效的身份证明可以通过仅允许经认证的用户访问***的受保护资源而增强***的数据安全性。实施例寻求提供用于身份证明的方法和***，其检测欺诈者上传的虚假ID信息或图像。有利地，可以有效地减少或消除诸如洗钱和欺诈的金融风险。

本文描述的技术产生一种或多种技术效果。在一些实施例中，基于身份属性和身份行为的值的空间分割技术被用于虚假ID检测和身份证明，这在检测高度模仿真实ID的虚假ID的图片中是有效的。在一些实施例中，计算不同的身份属性的值在一个时间段内的出现频率并将其转换为用于执行空间分割的向量。向量可以反映ID的异常程度，这有助于识别该时间段内频繁出现的值，并确定身份的真实性。在一些实施例中，该时间段可以具有从现在开始在时间上回溯的滑动窗口的形式，这可以识别欺诈者在过去时间段内频繁上传的虚假ID图片。

图1是示出用于身份认证的方法的流程图100，包括以下步骤：

-110：训练与身份的历史数据相关联的空间分割模型，其中，所述历史数据包括身份的属性、所述属性的值以及与所述身份的行为相关的时间戳；

-120：接收对应于新身份的数据，其中，所述数据包括所述新身份的属性、每个所述属性的值以及与所述新身份的行为相关的时间戳；

-125：针对新身份和身份的历史数据，计算属性的值在第一时间戳和第二时间戳之间的出现次数；

-130：使用所述空间分割模型基于所述出现次数从所述身份的历史数据中分割所述新身份，其中，所述新身份在经过一分割次数之后被分离；

-140：基于所述分割次数来证明所述新身份的真实性；以及

-150：通过包括所述新身份来更新所述身份的历史数据。

在步骤110，训练与身份的历史数据相关联的空间分割模型。在一些实施例中，经训练的空间分割模型可以是树模型。身份的历史数据可以包括身份的属性和属性的值。身份的属性可以包括以下一些或全部：姓名、出生日期、地址、身高、体重、国家/地区、身份证件(ID)号等。取决于属性，属性的值可以是文本(例如，如果属性是姓名)或数字(例如，如果属性是出生日期)的形式。身份的历史数据还可以包括与身份行为有关的数据，例如与用户行为有关的时间戳。这些行为可包括开设账户、注册、更新身份信息、登入、登出以及诸如进行KYC的身份证明。这样的身份行为数据在身份证明和检测虚假ID中很重要，因为欺诈者的行为可能与正常用户不同(例如，上传具有重复信息的身份或在短时间内执行多次KYC尝试)。

在步骤120，接收对应于新身份的数据。所述数据可以包括新身份的属性、新身份的属性的值以及与新身份的行为相关的身份行为数据(例如，时间戳)。在一些实施例中，对应于新身份的数据可以作为图像数据接收，例如，ID卡或ID页面的图片。所述图片可以通过网页或移动应用上传。在一些实施方式中，首先，检查ID卡或ID页面的图片以确定该图片是否包括ID的图像。例如，如果上传了动物的图片，则所述图片将被确定为不符合，而处理将终止。在一些实施方式中，ID分类算法可以用于确定图像数据是否为可接受的。

在一些实施例中，一旦检查出图像数据包含ID的图像并且确定是可接受的，就可以使用算法来从图像数据提取新身份的属性和属性的值。在一些实施方式中，算法可以包括OCR算法。

在步骤125，针对新身份和身份的历史数据，计算属性的值在第一时间戳和第二时间戳之间的出现次数。在实施方式中，可以针对数据中所有属性或所选属性的值进行计算。第一和第二时间戳可以根据关注时间段设置。在一些实施例中，关注时间段可以采用从现在开始在时间上回溯的滑动窗口的形式，例如，过去的五分钟。这样，可以将第二时间戳设置为当前时间，并且可以将第一时间戳设置为当前的前五分钟。在一些实施方式中，可以计算每个身份的属性的值在两个时间戳之间的出现次数，并将出现次数表示为向量。有利地，所述向量可以基于身份的属性的值在一个时间段内出现的频率来反映身份的异常程度。

在步骤130，使用在步骤110开发的空间分割模型以及基于在步骤125计算的出现次数，从身份的历史数据中分割新身份。通过将新身份(例如，表示新身份中的属性的值的出现次数的向量)输入空间分割模型的算法中并针对不同的属性执行分割，在一分割次数后可以分离新身份。在步骤140，可以基于所述分割次数来证明新身份的真实性。将参照图3A和3B更详细地描述通过空间分割来分离新身份的一些示例。

可选地，在步骤150，可以将新身份添加到身份的历史数据中，并且可以更新历史数据以包括所接收的对应于新身份的数据。有利地，历史数据可以包括新身份、新身份的相关属性、属性的值以及新身份的行为数据，这可以增强将来的训练模型并提高准确性。

图2是示出以上参考图1描述的用于身份证明的方法的实施方式的流程图200。在处理的开始，接收ID卡或ID页面的图片210。ID分类算法可以用于确定图片210是否是ID(即，不是动物的照片或其他不可接受的图片)。如果确定图片210是ID卡或ID页面，则继续处理。如果不是，则处理终止。

在下一个步骤中，可以使用OCR算法来提取与ID卡或ID页面上的个人信息相关的文本，例如姓名、ID号、地址、出生日期等。身份的此类属性显示为“字段”，而属性的值显示为“值”。随后，可以计算每个值在预定时间段内(即，在两个预定时间戳之间)的出现频率，并且可以将值的出现次数生成为向量，称为速度向量。在一些实施例中，速度向量被构造为：D(速度向量)＝[V(姓名)，V(出生日期)，V(地址)，V(ID号)，…]，通过组合每个文本项的速度以形成特定于此身份的速度向量。如图2所示，在预定时间段内，如果姓名“James”出现3次、出生日期“8/1/1990”出现1次、地址(或州)“堪萨斯州”出现1次、ID号“123456”出现7次、则所生成的速度向量将为[3，1，1，7]。在一些实施方式中，预定的时间段可以采用滑动窗口的形式，滑动窗口是允许在从现在起时间上回溯的时间段内匹配事件的流模式。例如，两分钟的滑动窗口包括过去的两分钟内出现的所有事件。实际上，身份信息具有较低的重复可能性，并且一个身份只能在注册账户时使用一次。这样，如果特定身份字段值出现得太频繁，则可以将其视为异常。在现实生活中，由于欺诈者往往在特定时间段内上传一批虚假ID，因此出现频率和滑动窗口逻辑的实施方式可以有利地检测到此类欺诈者行为。

在生成表示ID卡图片210中所接收的新身份的速度向量之后，将速度向量输入到基于空间分割的算法中。所述算法可以促使在不同条件下执行分割，直到速度向量与整个向量空间分离为止。所述算法可以输出一分割次数，所述分割次数可以指示对应于新身份的速度向量的异常程度。在一些实施方式中，可以基于文本频率字典调整速度向量中的值。由于实际上不同文本的出现频率本来就不同，因此通过此调整可有利地考虑到这个因素，从而使输出中的分割次数更加可靠。例如，如果一个姓名在实际中经常出现，例如“史密斯”，则速度向量中的对应值本来就高于其他姓名，这可能导致速度向量被标识为异常点。如果使用文本频率字典来调整速度向量V(姓名)中的值，则可以减少此类错误输出。最后，基于所述分割次数来分离经调整的速度向量，所接收的新身份将被确定为正常或异常。

下面介绍示例性空间分割算法或分离算法。在为新身份生成速度向量之后，通过适当的方法将速度向量映射到高维空间上的一个点，然后使用不同的超平面(二维空间中的直线)对速度向量进行分割，直到单独的子空间仅包含这个点。

算法：SpaceSegment(x，T，e)

输入：x–示例，e–当前分割次数，T–经训练的树模型

输出：y–分割次数

1.If x is isolated then

2.Return y

3.End if

4.a＝T.splitAttr

5.If x.a<T.a.splitValue then

6.Return SpaceSegment(x,T.left,e+1)

7.Else x.a>＝T.a.splitValue then

8.Return SpaceSegment(x,T.right,e+1)

9.End if

如算法中所示，对于对应于新身份的新输入x，所述身份可以包括不同的属性[属性1，属性2，属性3…]。类似地，基于身份的历史数据，经训练的树模型T内有相同的属性，并且将基于这些属性对x进行分割。对于树模型，分割处理可以被视为将x放置在树T的顶部、然后逐层降落到树T的底部的处理。对于每次分离，从[属性1，属性2，属性3…]中随机选择一个属性作为splitAttribute，并在该属性的出现次数的取值范围内随机选择一个值作为splitValue。将splitValue与对应于x的速度向量中的属性值进行比较。根据比较结果，x将落入层的左子树或者右子树中，然后进行下一次分割，直到x落到叶节点为止，这意味着分割处理完成。分割次数将作为输出返回。

图3A是在二维平面中分割正常点的示意图300，图3B是在二维平面中分割异常点的示意图350。例如，二维平面代表两个所选属性、即姓名和ID号的值在两个时间戳之间的出现次数(即速度)。参照图3A，点X_normal具有速度向量值[2,1]，这是这一组中的常见值，因为大多数身份的V(姓名)低，而V(ID号)为1。结果，点X_normal被混合在具有相似值的许多相邻点内。在执行空间分割时，需要11次分割来分离点X_normal。参照图3B并使用图2中的先前示例，点X_anomaly具有速度向量值[3,7]，这在该组中是相对较少的值。结果，点X_anomaly远离大多数点，并且仅需要4次分割即可分离点X_anomaly。可以理解，虽然给出了二维平面的示例，但是空间分割技术可以应用于多维空间，并且可以通过多个超平面来分离或划分一个点，在多个超平面的情况下，选择多个属性。

根据以上实施例，可以理解，所述方法可以将ID卡或ID页面的图片转换为反映身份异常程度的速度因子，并将利用计算机视觉检测虚假ID的问题转化为空间分割方法，这是完全不同的角度。

图4是包括用于身份证明的模块的示例性***400的示意图。***400至少包括处理器模块402和存储器模块404。处理器模块402和存储器模块404互连。存储器模块404存储历史数据420和计算机程序代码(图4中未示出)。存储器模块404和计算机程序代码被配置为与处理器模块402一起使***400执行如本文中所述的用于身份证明的步骤。***400可以包括接收器模块406、训练模块408、生成器模块410、计算模块412、输出模块416和更新模块418。参照图1和图2，接收器模块406可以被配置为接收对应于身份的数据。训练模块408可以被配置为训练空间分割模型、ID分类模型和OCR模型。计算模块412可以被配置为计算身份的属性值在预定时段内的出现次数。生成器模块410可以被配置为基于所计算的出现次数来生成向量和向量空间。输出模块416可以被配置为，如果新身份被确定是欺诈性身份，则输出分割次数和/或结果。更新模块418可以被配置为通过包括由接收器模块406接收的新身份来更新历史数据420。这些模块的一个或多个或任意组合可以是用于身份认证的设备的一部分。

先前实施例中所示的***、装置、模块或单元可以通过使用计算机芯片或实体来实现，或者可以通过使用具有特定功能的产品来实现。典型实施例的设备是计算机(并且该计算机可以是个人计算机)、膝上型计算机、蜂窝电话、摄像电话、智能手机、个人数字助理、媒体播放器、导航设备、电子邮件接收和发送设备、游戏机、平板计算机、可穿戴设备、或者这些设备的任何组合。被描述为独立部件的模块可以是物理上独立的，也可以不是物理上独立的，并且显示为模块的部件可以是物理模块，也可以不是物理模块，可以位于一个位置或者可以分布在多个网络模块上。可根据实际需求选择一些或全部模块，以实现本文方案的目标。本领域的普通技术人员不需要创造性的努力就可以理解和实现本申请的实施例。

图5是适用于执行图1和图2所示的示例方法的至少一些步骤的示例计算机***500的框图。以下对计算机***/计算设备500的描述仅作为示例提供，并不意在限制。

如图5所示，示例性计算设备500包括用于执行软件例程的处理器502。尽管为了清楚起见示出了单个处理器，但是计算设备500还可以包括多处理器***。处理器502连接到用于与计算设备500的其他组件通信的通信设施506。通信设施506可以包括例如通信总线、交叉条或网络。

计算设备500还包括诸如随机存取存储器(RAM)的主存储器508和辅助存储器510。辅助存储器510可以包括：例如，存储驱动器512，其可以是硬盘驱动器、固态驱动器或混合驱动器；和/或可移动存储驱动器514，其可以包括磁带驱动器、光盘驱动器、固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)等。可移动存储驱动器514以众所周知的方式对可移动存储介质518进行读取和/或写入。可移动存储介质518可以包括由可移动存储驱动器514读取和写入的磁带、光盘、非易失性存储器存储介质等。如相关领域的技术人员将理解的，可移动存储介质518包括其中存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在备选实施方式中，辅助存储器510可以附加地或可选地包括其它类似装置，以允许计算机程序或其它指令被加载到计算设备500中。此类装置可以包括例如可移动存储单元522和接口520。可移动存储单元522和接口520的示例包括程序盒和盒式接口(例如，视频游戏机设备中建立的盒式接口)、可移动存储芯片(例如，EPROM或PROM)和相关插座、可移动固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)、以及其他可移动存储单元522和接口520，其允许将软件和数据从可移动存储单元522传输到计算机***500。

计算设备500还包括至少一个通信接口524。通信接口524允许经由通信路径526在计算设备500和外部设备之间传输软件和数据。在本文的不同实施例中，通信接口524允许在计算设备500和诸如公共数据或专用数据通信网络的数据通信网络之间传输数据。通信接口524可用于在不同的计算设备500之间交换数据，这些计算设备500构成互连计算机网络的一部分。通信接口524的示例可以包括调制解调器、网络接口(例如，以太网卡)、通信端口(例如，串行、并行、打印机、GPIB、IEEE 1394、RJ45、USB)、带有相关电路的天线等。通信接口524可以是有线的，也可以是无线的。经由通信接口524传输的软件和数据具有信号的形式，所述信号可以是能够由通信接口524接收的电子信号、电磁信号、光信号或其他信号。这些信号经由通信路径526提供给通信接口。

如图5所示，计算设备500还包括执行用于将图像呈现到相关显示器530的操作的显示器接口528和执行用于经由相关联的扬声器534播放音频内容的操作的音频接口532。

如本文使用的，术语“计算机程序产品”可以部分地指代可移动存储介质518、可移动存储单元522、安装在硬盘驱动器512中的硬盘、或通过通信路径526(无线链路或电缆)到通信接口524的载波承载软件。计算机可读存储介质指代向计算设备500提供记录的指令和/或数据以供执行和/或处理的任何非暂时性、非易失性有形存储介质。这种存储介质的示例包括磁带、CD-ROM、DVD、Blu-ray^TM盘、硬盘驱动器、ROM或集成电路、固态存储驱动器(例如，USB闪存驱动器、闪存设备、固态驱动器或存储卡)、混合驱动器、磁光盘或诸如PCMCIA卡之类的计算机可读卡，无论这些设备处于计算设备500的内部或外部。也可以参与向计算设备500提供软件、应用程序、指令和/或数据的暂时性或非有形计算机可读传输介质的示例包括无线电或红外传输信道以及到另一计算机或联网设备的网络连接、以及互联网或内联网，包括电子邮件传输和网站等上记录的信息。

计算机程序(也称为计算机程序代码)存储在主存储器504和/或辅助存储器510中。也可以经由通信接口524接收计算机程序。这些计算机程序在被执行时，使计算设备500能够执行本文中讨论的实施例的一个或多个特征。在不同的实施例中，计算机程序在被执行时，使处理器502能够执行上述实施例的特征。因此，这些计算机程序代表计算机***500的控制器。

软件可以存储在计算机程序产品中，并可以使用可移动存储驱动器514、存储驱动器512或接口520加载到计算设备500中。计算机程序产品可以是非暂时性计算机可读介质。或者，可以通过通信路径526将计算机程序产品下载到计算机***500。软件在由处理器502执行时，使计算设备500执行必要的操作以执行如图1和图2所示的方法。

应理解，图5的实施例仅作为示例来说明***500的操作和结构。因此，在一些实施例中，可以省略计算设备500的一个或多个特征。此外，在一些实施例中，计算设备500的一个或多个特征可以组合在一起。另外，在一些实施例中，计算设备500的一个或多个特征可以被分成一个或多个组件部分。

应理解，图5中所示的要素用以提供用于执行上述实施例中所描述的***的各种功能和操作的装置。

本领域技术人员将理解，如在具体实施例中所示，可以对本说明书进行许多变化和/或修改，而不脱离广义描述的本说明书的范围。因此，在所有方面，本实施例应被认为是说明性的而不是限制性的。

Claims

1.一种计算机实现的用于身份证明的方法，所述方法包括：

训练与身份的历史数据相关联的空间分割模型，其中，所述历史数据包括所述身份的属性、所述身份的所述属性的值以及与所述身份的行为相关的时间戳；

接收对应于新身份的数据，其中，所述数据包括所述新身份的属性、所述新身份的所述属性的值以及与所述新身份的行为相关的时间戳；

针对所述身份的历史数据和所述新身份，计算所述属性的值在第一时间戳和第二时间戳之间的出现次数；

使用所述空间分割模型基于所述出现次数从所述身份的历史数据中分割所述新身份，其中，所述新身份在经过一分割次数后被分离出；以及

基于所述分割次数，证明所述新身份的真实性。

2.根据权利要求1所述的方法，其中，所述属性的值在所述第一时间戳和所述第二时间戳之间的出现次数被表示为向量。

3.根据权利要求1所述的方法，其中，基于文本频率调整所述出现次数。

4.根据前述权利要求1至3中任一项所述的方法，其中，所述第一时间戳和所述第二时间戳之间具有滑动时间窗口的形式。

5.根据前述权利要求1至3中任一项所述的方法，还包括：

确定接收的数据是否包括与身份证件的图像相对应的数据；以及

响应于所述接收的数据被确定为包括与所述身份证件的图像相对应的数据，从所述图像提取所述新身份的属性和所述新身份的所述属性的值。

6.根据权利要求5所述的方法，其中，基于分类算法确定所述接收的数据是否包括与所述身份证件的图像相对应的数据。

7.根据权利要求5所述的方法，其中，基于光学字符识别OCR算法，从所述图像提取所述新身份的所述属性和所述新身份的所述属性的值。

8.根据前述权利要求1至3中任一项所述的方法，其中，所述空间分割模型包括树模型。

9.根据前述权利要求1至3中任一项所述的方法，所述方法还包括：

通过包括所述新身份来更新所述身份的历史数据。

10.根据前述权利要求1至3中任一项所述的方法，其中，所述身份的属性选自包括姓名、出生日期、出生地点、身高、体重、身份证件号和地址的组。

11.根据前述权利要求1至3中任一项所述的方法，其中，所述身份的行为选自包括注册、更新信息、登入、登出和身份证明的组。

12.根据权利要求11所述的方法，其中，所述身份证明包括了解您的客户KYC处理。

13.一种用于身份认证的***，所述***包括：

一个或多个处理器；以及

一个或多个计算机可读存储器，耦接至所述一个或多个处理器且其上存储有指令，所述指令能够由所述一个或多个处理器执行以执行权利要求1至12中任一项所述的方法。

14.一种用于身份认证的装置，所述装置包括多个模块，用于执行权利要求1至12中任一项所述的方法。