CN115204886A

CN115204886A - 账户识别的方法、装置、电子设备和存储介质

Info

Publication number: CN115204886A
Application number: CN202110388988.3A
Authority: CN
Inventors: 程乾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-10-18

Abstract

本申请提供一种账户识别的方法、装置、电子设备和存储介质。该方法包括：获取待识别账户所对应的第一文本，其中，第一文本是由待识别账户关联的至少一个文本信息拼接得到的；获取与待匹配风险标签相关联的关键词序列，其中，关键词序列中包括多个与待匹配风险标签具有语义相关性的关键词；对第一文本以及关键词序列进行拼接处理，得到目标文本；根据目标文本预测待识别账户与待匹配风险标签的匹配结果。该方法能够在预测时添加关键词序列可以为风险预测的过程添加关于风险状况的先验知识，从而能够提高风险标签预测的准确性和覆盖率，进而降低攻击性账户的误拦截比率和账户打击操作的错误率。

Description

账户识别的方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种账户识别的方法、装置、电子设备和存储介质。

背景技术

随着移动支付和互联网金融的发展，人们可以随时随地地对个人的资金进行操作，对于个人资金的管理和投资越来越方便和多元化。然而，赌博等违法活动也随之而来，如何识别参与违法活动的风险账户成为了急需解决的问题。

目前，对于风险账户的识别通常采用文本分类算法基于用户账户的信息进行标签分类，从而识别出用户账户的标签，再根据标签判断账户是否属于风险账户。

然而，文本分类算法在进行标签分类时经常会出现标签分类错误或者漏识别标签等问题，从而造成误拦截比率和账户打击操作的错误率较高，影响用户正常操作并且修正错误需要额外的成本投入，浪费资源。

发明内容

基于上述技术问题，本申请提供一种账户识别的方法，以提高风险标签预测的准确性和覆盖率，进而降低攻击性账户的误拦截比率和账户打击操作的错误率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种账户识别的方法，包括：

获取待识别账户所对应的第一文本，其中，所述第一文本是由所述待识别账户关联的至少一个文本信息拼接得到的；

获取与待匹配风险标签相关联的关键词序列，其中，所述关键词序列中包括多个与所述待匹配风险标签具有语义相关性的关键词；

对所述第一文本以及所述关键词序列进行拼接处理，得到目标文本；

根据所述目标文本预测所述待识别账户与所述待匹配风险标签的匹配结果。

根据本申请实施例的一个方面，提供一种账户识别装置，包括：

文本获取模块，用于获取待识别账户所对应的第一文本，其中，所述第一文本是由所述待识别账户关联的至少一个文本信息拼接得到的；

序列获取模块，用于获取与待匹配风险标签相关联的关键词序列，其中，所述关键词序列中包括多个与所述待匹配风险标签具有语义相关性的关键词；

拼接模块，用于对所述第一文本以及所述关键词序列进行拼接处理，得到目标文本；

预测模块，用于根据与所述目标文本预测所述待识别账户与所述待匹配风险标签的匹配结果。

在本申请的一些实施例中，基于以上技术方案，账户识别装置还包括：

第二文本获取模块，用于获取多个账户的多个第二文本，其中，每个账户的第二文本是由每个账户关联的至少一个文本信息拼接得到的；

相关词集合获取模块，用于获取相关词集合，其中，所述相关词集合包括至少一个相关词，所述相关词是根据所述多个第二文本中词语的出现频次确定的；

特征体积模块，用于根据所述相关词集合对所述多个第二文本进行特征提取，得到关键词特征向量；

分类模块，用于针对所述待匹配风险标签，通过标签分类模型对所述关键词特征向量进行分类，得到至少一个关键词；

组合模块，用于将所述关键词组成所述关键词序列。

在本申请的一些实施例中，基于以上技术方案，特征体积模块包括：

特征向量确定单元，用于根据所述相关词集合中相关词在所述多个第二文本中的出现频次，确定中间特征向量；

奇异值分解单元，用于对所述中间特征向量进行奇异值分解，得到关键词特征向量。

频次确定单元，用于对于所述多个第二文本中的各个第二文本，确定所述相关词集合中的所有相关词在所述第二文本中的出现频次；

文本权重确定单元，用于根据所有相关词在所述第二文本中的出现频次、所述第二文本的文本长度以及所述多个第二文本的平均文本长度，确定所有相关词在所述第二文本中的文本权重；

关键词向量确定单元，用于根据所有相关词在所述多个第二文本中的文本权重，确定关键词特征向量。

在本申请的一些实施例中，基于以上技术方案，相关词集合获取模块包括：

分词单元，用于对多个账户的多个第二文本进行分词，得到词语集合，所述词语集合包括至少一个词语；

集合确定单元，用于根据所述词语集合中各个词语在所述多个第二文本中的出现频次，确定相关词集合。

在本申请的一些实施例中，基于以上技术方案，预测模块包括：

文本转换单元，用于通过风险识别模型中的注意力层对所述目标文本进行文本转换，得到文本向量；

向量转换单元，用于通过所述风险识别模型中的编码器对所述文本向量进行向量转换，得到文本增强向量表示；

逻辑回归单元，用于根据所述文本增强向量进行逻辑回归计算，得到所述匹配结果。

训练数据获取模块，用于获取训练数据以及对应的匹配结果，所述训练数据中包括关键词序列样本以及多个账户的第二文本样本；

训练预测模块，用于将所述关键词序列样本以及第二文本输入样本到待训练模型中进行预测，得到训练预测结果；

模型训练模块，用于根据所述训练预测结果以及所述匹配结果，对所述待训练模型进行训练，得到所述风险识别模型。

第一匹配结果获取模块，用于获取与多个待匹配风险标签的多个匹配结果，其中，所述匹配结果为指示所述待识别账户是否存在风险的风险标识；

交易禁止模块，用于若任一匹配结果指示所述待识别账户存在风险，则禁止与所述待识别账户相关的交易操作。

风险等级确模块，用于若多个匹配结果指示所述待识别账户存在风险，则根据指示所述待识别账户存在风险的匹配结果的数量，确定所述待识别账户的风险等级。

第二匹配结果获取模块，用于获取与多个待匹配风险标签的多个匹配结果，其中，所述匹配结果为指示所述待识别账户存在风险的风险评分；

风险识别模块，用于若任一匹配结果的风险评分大于评分阈值，则确定所述待识别账户存在风险；

风险告警模块，用于若各个匹配结果的风险评分均小于评分阈值，则计算所述多个匹配结果的风险评分总和，若所述风险评分总和大于风险阈值，则对所述待识别账户进行告警。

第一文本表达模块，用于将所述第一文本输入到第一文本模型中，得到第一文本表达；

第二文本表达模块，用于将所述关键词序列输入到第二文本模型中，得到第二文本表达，其中，所述第一文本模型与所述第二文本模型共享模型参数；

相似度计算模块，用于根据所述第一文本表达和所述第二文本表达，确定所述第一文本与所述关键词序列之间的相似度；

匹配结果确定模块，用于根据所述相似度，确定所述待识别账户与所述待匹配风险标签的匹配结果。

词向量单元，用于将所述目标文本映射到词向量空间，生成特征图像；

卷积单元，用于通过卷积层对所述特征图像进行卷积，得到多个特征图；

池化单元，用于通过池化层对所述多个特征图进行池化操作，得到每个特征图的最大特征值；

全连接单元，用于将多个最大特征值输入到全连接层中，计算所述匹配结果。

根据本申请实施例的一个方面，提供一种账户识别设备，该账户识别提示设备包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，该处理器配置为经由执行可执行指令来执行如以上技术方案中的账户识别的方法。

根据本申请实施例的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时实现如以上技术方案中的账户识别的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的账户识别的方法。

在本申请的实施例中，首先获取到待识别账户的账户相关文本以及要识别的待匹配风险标签所对应的关键词序列，然后将账户相关文本和关键词序列拼接后输入到风险识别模型中预测账户对于待匹配风险标签的匹配结果。由于关键词序列时根据多个账户的账户相关文本确定的，在预测时添加关键词序列可以为风险预测的过程添加关于风险状况的先验知识，从而能够提高风险标签预测的准确性和覆盖率，进而降低攻击性账户的误拦截比率和账户打击操作的错误率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示意性地示出了本申请技术方案在一个应用场景中的示例性***构架示意图；

图2示出了本申请实施例中的一种账户识别的方法的流程示意图；

图3示出了本申请实施例中的关键词序列获取方法的流程示意图；

图4为本申请实施例中关键词序列的总体抽取流程的示意图；

图5为本申请实施例中风险识别模型的示意图；

图6为本申请实施例中账户识别总体流程的示意图；

图7示意性地示出了本申请实施例中账户识别装置的组成框图；

图8示出了适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，本申请可以应用于网络支付或移动支付场景。用户在每天使用网络支付应用的过程中，会累计大量的文本信息，例如出入账文本、个性签名、多人聊天群名称、历史昵称、投诉文本等文本信息。本申请的方案通过对这些文本信息进行分析，可以分析出用户在网络交易的过程中是否有违法行为，进而确定该用户是否是攻击性用户，并且据此对攻击性用户进行相应的打击操作，例如封禁账户、禁止交易或者冻结资金等，从而确保网络交易环境的安全。

具体地，在移动支付场景中，服务器可以获取用户进行过的交易、参与过的多人聊天群名称、历史昵称和被投诉的文本等信息。例如，某个用户的账户频繁地进行大笔的入账交易，参与过多个名称包括“返现”或者“返利”等词的多人聊天群，并且曾经卷入与其他用户的资金纠纷而被投诉。本申请的方案则可以根据收集到从其他用户的同类信息中总结出的先验知识，对该用户的行为进行预测，并且将该用户的账户判定为攻击性账户，从而对账户的违法行为进行打击。

本申请的方案可应用于个人计算机、服务器或者多个服务器构成的服务器***，并且具体可以采用人工智能的方式来实现。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了便于理解，以本申请的方案应用于移动支付程序这一场景为例进行说明。请参阅图1，图1示意性地示出了本申请技术方案在一个应用场景中的示例性***构架示意图。

由图1可以看出，该场景包括服务器以及手机、笔记本电脑等终端设备。移动支付程序的客户端在手机和笔记本电脑等终端设备上运行，并且与服务器进行通信。服务器根据终端设备的交易行为来收集用户的相关文本信息，包括投诉文本、出入账文本、群聊名称、历史昵称以及个性签名。然后，服务器可以根据移动支付程序的管理者的指令、根据管理者安排的定时任务或者响应于用户的请求和投诉等条件来预测用户账户所匹配的风险标签。风险标签是由管理者或者程序开发者根据经验预先定义的与违规行为相对应的标签，例如，电信违法活动、色情违法活动、返利违法活动或者聚众赌博等。在预测出用户账户的风险标签后，服务器则可以对相应的用户账户进行相关的打击操作，例如冻结和封禁等操作。

图1中的服务器具体可以是单个服务器、服务器集群或者云服务器等各类形式。服务器用于支持客户端的移动支付业务，例如转账付费、用户登录、聊天、举报投诉等各种类型的业务。在本申请中，服务器还会根据用户的文本信息来对用户的账户使用行为进行识别，从而确定用户账户所匹配的风险标签，并且根据风险标签对用户账户进行相关的打击操作，从而维护移动支付的交易环境。

客户端与服务器之间的通信方式可以采用任何有线或无线通信方式，本申请对此不作限制。

可以理解的是，图1中所示出的场景仅为本申请的方案所应用的场景示例，实际的应用场景可以采用其他适合网络结构，例如加入代理服务器和多级网络等，本申请对此不作限制。

本申请的方案还可以与区块链***相结合。具体地，服务器可以是区块链***中的一个节点。每次用户进行交易时，服务器将用户进行的交易的历史记录和相关信息加入到区块链***中进行存储，而本申请的方案可以由区块链中进行过数据同步的任一节点来执行，从而能够使得多台服务器构成的网络均可以执行本申请提供的方案。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

下面结合具体实施方式对本申请提供的技术方案做出详细说明。

请参阅图2，图2示出了本申请实施例中的一种账户识别的方法的流程示意图，本实施例的方法可以应用于如上文的服务器中，由服务器上的后台程序来执行。本实施例的方法可以包括如下步骤S201至步骤S204：

步骤S201，获取待识别账户所对应的第一文本，其中，第一文本是由待识别账户关联的至少一个文本信息拼接得到的。

在本实施例中，账户识别装置从待识别账户的历史信息中获取第一文本，而第一文本由待识别账户关联的至少一个文本信息拼接得到的。具体地，至少一个文本信息包括投诉文本、出入账文本、群聊名称、历史昵称和个性签名中的一个或者多个信息。账户识别装置将上述的至少一个文本信息拼接起来形成第一文本，具体的拼接方式可以是：投诉文本|出入账文本|群聊名称| 历史昵称|个性签名。可以理解的是，待识别账户不一定包括上述的所有种类信息，待识别账户不包含的信息可以被省略。账户识别装置获取至少一个文本信息来拼接第一文本的动作可以在本步骤执行的过程中进行，也可以由账户识别装置预先执行并存储在服务器中，并且在本步骤执行时从服务器中读取待识别账户所对应的第一文本。

步骤S202，获取与待匹配风险标签相关联的关键词序列，其中，关键词序列中包括多个与待匹配风险标签具有语义相关性的关键词。

在本实施例中，账户识别装置根据待匹配风险标签，获取与待匹配风险标签相关联的关键词序列。关键词序列中包括多个与待匹配风险标签具有语义相关性的关键词。语义相关性指的是，关键词与待匹配风险标签之间具有含义的指向性，例如，假设待匹配风险标签为“返利违法活动”，则关键词可能是“返利、返现、返佣金、返钱、反利”等相关联的词语。待匹配风险标签是从预先定义的风险标签中选取的风险标签，每一种风险标签对应于一种对违规行为或者违法行为。待匹配风险标签可以根据触发执行本方法的条件而定，例如，按照有用户对待识别账户进行投诉，则用户可以在投诉请求中选择其认定的标签，账户识别装置将投诉请求中的风险标签定为待匹配风险标签。待匹配风险标签也可以按照所有风险标签进行循环遍历的方式来确定，例如，供存在10个风险标签，则待匹配风险标签可以从依次确定为10个风险标签中的一个。

关键词序列可以是由账户识别装置预先生成并且存储在服务器中，在获取时按照风险标签作为标识从服务器中读取，也可以在需要使用关键词序列时直接生成。

步骤S203，对第一文本以及关键词序列进行拼接处理，得到目标文本。

在本实施例中，账户识别装置将第一文本和关键词序列拼接到一起，从而得到目标文本。具体地，拼接的顺序通常按照关键词序列+第一文本的顺序进行。在拼接操作中，可以添加分隔符来将第一文本和关键词序列分隔开来。

步骤S204，根据目标文本预测待识别账户与待匹配风险标签的匹配结果。

在本实施例中，账户识别装置根据目标文本预测待识别账户与待匹配标签的匹配结果。取决于测试方式的不同，匹配结果具体可以直接指示待识别账户与待匹配标签是否匹配，也可以指示待识别账户与待匹配标签匹配的概率。预测可以采用语句匹配的方式进行，例如，账户识别装置可以根据目标文本中的关键词序列对第一文本中出现的关键词进行识别和统计，然后根据识别到的关键词的数量、位置、频率、在第一文本中的占比以及与第一文本中其他文字的相关性等属性进行统计和分析，再按照对于各个属性预设的标准进行判断，从而得出一个综合判定结果，或者对匹配情况进行评分而作为匹配结果。预测的方式还可以采用机器学习模型或者向量机等对目标文本进行语句分析，从而得到第一文本与关键词序列中的关键词之间的相关程度，在按照相关程度的大小来确定匹配结果。

在获取到匹配结果后，服务器则可以根据匹配结果对用户账户进行进一步的操作，例如，可以暂停某笔涉嫌违法活动的交易、冻结资金、对账户的风险状态进行告警的操作。

在本申请的一个实施例中，如图3所示，为了得到关键词序列，本方法还包括如下步骤S301至步骤S305，详细说明如下：

步骤S301，获取多个账户的多个第二文本，其中，每个账户的第二文本是由每个账户关联的至少一个文本信息拼接得到的。

在本实施例中，账户识别装置获取多个账户的多个第二文本，其中，每个账户的第二文本是由每个账户关联的至少一个文本信息拼接得到的。具体地，第二文本所包括的内容与第一文本所包括的内容相同，区别在于，第二文本内容可以是根据其他用的历史信息生成的。第二文本可以是预先生成并且存储在服务器中的信息，也可以是在获取第二文本时，读取相应相互的至少一个文本信息并且进行拼接来生成的。

多个账户通常是本方法所应用的场景中的所有用户，其中包括大量的普通用户以及相对数量更少的攻击性用户，例如，在移动支付应用场景中，多个账户可以包括移动支付应用的所有注册账户。在一个实施例中，多个账户的范围可以被确定为高活跃度用户，即通过对账户的使用频率或者交易行为等信息进行统计，将其中的使用频率高或者交易行为多的账户挑选出来作为生成关键词序列的账户范围。

步骤S302，获取相关词集合，其中，相关词集合包括至少一个相关词，相关词是根据多个第二文本中词语的出现频次确定的。

具体地，相关词集合是根据大量用户账户的第二文本生成的。通常，相关词集合中所包括的词语是基于所有账户的第二文本生成的。某一个词语在所有的第二文本中出现频次高于一定的次数就可以被确定的相关词。例如，若某个词语在所有第二文本中出现5次以上，则其可以被确定为相关词。在一个实施例中，相关词还可以考虑第二文本中的长度和数量因素，例如，在出现5次的基础上，还考虑出现该词语的第二文本的长度，例如，一个词语A共出现10次，出现该词语A的第二文本的总长度为20000个字符，而另一个词语B共出现5次，出现该词语B的第二文本的总长度为2000个字符，则词语B的出现次数与文本长度的比例明显高于词语A，在设定的比例阈值低于词语B高于词语A的情况下，词语B可以被选为相关词而词语A不会。

步骤S303，根据相关词集合对多个第二文本进行特征提取，得到关键词特征向量。

其中，特征提取是根据相关词集合中的词语在多个第二文本中的出现情况，将多个第二文本转换成一个多维度的特征向量。特征向量中的各个元素将分别对应于一个第二文本中的一个相关词。取决于特征值的计算方法的不同，元素的取值可以表示该词语的重要性、相关程度以及计算方法规则的其他含义。例如，若获取了N个第二文本，而相关词集合中包括V个词语，则关键词特征向量可以是一个N*V的向量。

步骤S304，针对待匹配风险标签，通过标签分类模型对关键词特征向量进行分类，得到至少一个关键词。

具体地，标签分类模型是用于判断相关词与待匹配风险标签是否相关的机器学习模型，其可以采用决策树模型的方式实现，并根据关键词特征向量来判断相关词与相对应的待匹配标签的相关程度。标签分类模型可以是二分类模型，每个不同的待匹配标签都具有各自对应的标签分类模型，在获取关键词时，使用对应的标签分类模型来获取关键词。标签分类模型也可以是多分类模型，通过标签分类模型处理关键词特征向量来输出相关词是各个风险标签的关键词的可能性。这样，可以根据预先设置的阈值，一次性获取到多个风险标签对应的关键词。

在获取到待匹配风险标签对应的关键词后，可以按照各个关键词的重要性来对关键词进行排序，并且按照预定的关键词数量从中筛选出重要性较高的关键词。重要性可以按照标签分类模型计算出分数或可能性排序，按照关键词的出现次数或频率排序，按照与风险标签的语义关联性排序等方式，此处不做限制。

步骤S305，将关键词组成关键词序列。

账户识别装置将所获取到的关键词进行排列拼接，来组合成关键词序列。具体地，关键词在关键词序列中的位置可以按照各个关键词的重要性来排列。在各个关键之间，可以加入分隔符以便于后续处理时便于获取以及避免关键词长短不同而需要进行分词。例如，若返利违法活动标签对应的关键词包括返利、返现、返佣金、返钱、反利、返现金、获利、认购、垫钱、拉你进群、周期短、五倍、贪小便宜，则对应的关键词序列可以是“返利#返现#返佣金# 返钱#反利#返现金#获利#认购#垫钱#拉你进群#周期短#五倍#贪小便宜”。

可以理解的是，上述的过程是针对一个待匹配标签获取关键词序列的过程，在存在多个待匹配风险标签的情况下，对于每个待匹配风险标签重复上述过程，即，若存在M个标签，则上述过程可以重复M次，从而获取M个关键词序列。

在本申请的实施例中，根据相关词集合从多个账户的第二文本中生成针对于待匹配风险标签的关键词序列，关键词序列基于词语与风险标签的关系生成，并且还考虑到词语的重要程度，使得关键词序列能够充分体现出风险标签所对应的具体情况，从而形成用于识别风险状况的先验知识，有利于提升账户风险识别的准确性。

在本申请的一个实施例中，为了计算关键词特征向量，上述步骤S303，根据相关词集合对多个第二文本进行特征提取，还包括如下步骤，详细说明如下：

根据相关词集合中相关词在多个第二文本中的出现频次，确定中间特征向量。

对中间特征向量进行奇异值分解，得到关键词特征向量。

具体地，根据相关词在多个第二文本中的出现频次确定中间特征向量可以采用词频-逆向文件频率法来进行计算。词频指的是相关词在多个第二文本中的出现频率，可以通过对词数进行归一化来计算。逆向文件频率是相关词的普遍重要性的度量，可以通过第二文本的总数除以包括相关词的第二文本的数量来计算。然后再计算词频与逆向文件频率的乘积，来得到相关词的特征值。对于每个相关词进行计算，即可以得到中间特征向量。采用词频-逆向文件频率法，当某个词语在少数的第二文本中频率较高，而在多个第二文本的总体上频率较低时，可以得到较高的特征值，从而可以过滤掉在正常用户之间常见词语，而保留在数量相对较少的攻击性用户中出现频率较高的词。

由于相关词的数量和第二文本的数量通常较多，因此，中间特征向量的维度数量将会较大。因此，对中间特征向量进行奇异值分解，从而得到关键词特征序列。奇异值分解是一种矩阵分解的方式，其将特征向量分解为三个矩阵的乘积，从而将高维的关键词特征序列映射到低位空间中。

下面对关键词序列的抽取过程进行整体说明。为了便于介绍，请参阅图 4，图4为本申请实施例中关键词序列的总体抽取流程的示意图。如图4所示，首先，在获取到多个用户账户的第二文本后，将所获取到的第二文本输入到特征提取模块计算得到特征向量，再将特征向量水到奇异值分解模块中降维得到降维结果。然后，将降维结果输入到标签分类模型中，从而能够得到与待匹配风险标签相关联的词的结果。随后，根据标签分类模型输出的词的特征重要性，可以确定与待匹配风险标签相关联的词中最重要的若干个关键词，从而拼接成关键词序列。

在本申请的实施例中，根据相关词在多个第二文本中的出现频次进行特征提取，再对提取出的特征进行奇异值分解来降低维度，能够降低方案的计算量，从而提高整体的预测效率。

对于多个第二文本中的各个第二文本，确定相关词集合中的所有相关词在第二文本中的出现频次；

根据所有相关词在第二文本中的出现频次、第二文本的文本长度以及多个第二文本的平均文本长度，确定所有相关词在第二文本中的文本权重；

根据所有相关词在多个第二文本中的文本权重，确定关键词特征向量。

权重，对于所有相关词，可以统计其在各个第二文本中的出现频次。然后，根据所有相关词在第二文本中的出现频次、第二文本的文本长度以及多个第二文本的平均文本长度，确定所有相关词在第二文本中的文本权重。具体地，对于一个特定相关词j，统计其在一个特性第二文本i中的出现频次，在根据该特定相关词j在第二文本i中的出现频次、第二文本i的文本长度以及所有第二文本的平均文本长度，确定相关词j在第二文本i中的文本权重。计算所有相关词对于第二文本i的文本权重，即得到第二文本的特征向量，而计算所有相关词对于所有第二文本的文本权重，得到的特征矩阵即关键词特征向量。

具体地，对于一个相关词j在一个第二文本中i中文本权重，可以采用如下公式进行计算：

其中，w_ij是相关词j在第二文本i中的文本，f_ij是相关词j在第二文本i 中出现的频率。N是所有第二文本的数量。n_j是相关词j至少出现过一次的第二文本的数量。N/n_j就是逆向文档频率。dl是第二文本的长度。avg_dl 是所有第二文本的平均文档长度。

对于所有的相关词利用上述公式计算文本权重，即可以得到关键词特征向量。例如，若有N个第二文本和V个相关词，则需要进行N*V次计算，从而得到关键词特征向量。

在本申请的实施例中，在计算关键词特征向量时，将第二文本的长度考虑在内，从而避免由于第二文本长短差异带来的词频差距，从而能够提高特征提取的表达效果。

在本申请的一个实施例中，为了得到相关词集合，上述步骤S302，获取相关词集合，还包括如下步骤，详细说明如下：

对多个账户的多个第二文本进行分词，得到词语集合，词语集合包括至少一个词语；

根据词语集合中各个词语在多个第二文本中的出现频次，确定相关词集合。

其中，多个账户通常指的是应用场景中的所有账户。用于确定相关词集合的多个第二文本的范围可以大于上述的实施例中用于确定关键词序列的多个第二文本的范围。即，用于确定相关词集合的多个第二文本的范围可以是所有的用户账户，而用于确定关键词序列的多个第二文本的范围在可以从所有用户中挑选部分账户，例如最近5年内的活跃账户等。

对第二文本进行分词可以采用结巴分词(jieba)等分词方式进行分词。将所有的第二文本进行分词，再去掉重复的词可以得到词语集合。然后，根据各个词语在多个第二文本的出现次数进行过滤，即得到相关词集合。例如，可以将在在多个第二文本的出现次数大于5次的词挑选出来，形成相关词集合。

在本实施例中，提供了一种获取相关词集合的方法，通过对多个第二文本进行分词，再进行词频过滤，可以过滤区分能力不强的低频词，提升方案的可实施性。

在本申请的一个实施例中，为了预测匹配结果，上述步骤S204，根据目标文本预测待识别账户与待匹配风险标签的匹配结果，包括如下步骤，详细说明如下：

通过风险识别模型中的注意力层对目标文本进行文本转换，得到文本向量；

通过风险识别模型中的编码器对文本向量进行向量转换，得到文本增强向量表示；

根据文本增强向量进行逻辑回归计算，得到匹配结果。

具体地，目标文本输入到风险识别模型中后首先会被转换成特征向量，然后特性向量会经过注意力层来考虑其文本的不同融合方式，从而对其进行语义增强，，得到文本向量。然后，文本向量被输入到模型中的多个编码器中进行向量转换计算，具体地包括残差连接、标准化以及两次线性变换处理，从而再次对文本向量进行语义增强。风险识别模型中通常包括多个编码器。多个编码器串行执行，前一个编码器的输出作为后一个编码器的输入。最后一个编码的输出的结果即文本增强向量表示。

最后，利用sigmoid函数对文本增强向量表示逻辑回归运算，既可以得到最终的匹配结果。

风险识别模型具体可以采用BERT模型、GPT模型、ELMo模型等机器学习模型来实现。为了便于介绍，以BERT模型为例，请参阅图5，图5为本申请实施例中风险识别模型的示意图。如图5所示，目标文本在拼接时，在开头添加了标识“[CLS]”，并且在关键词序列和第一文本的末尾添加了“[SEP]”标识，将目标文本输入到模型中进行计算，标识“[CLS]”所对应的输出的0或1即为匹配结果。

可以理解的是，在本实施例中，采用了sigmoid函数作为示例，因此模型输出结果为0或1的二分类结果。在其它实施例中，还可以采用softmax 函数等其他函数，从而输入匹配概率等结果。

在本申请的实施例中，提供了一种基于目标文本进行预测的方式，通过风险识别模型对目标文本进行预测，得到匹配结果，提升了方案的可实施性。

在本申请的一个实施例中，为了得到风险识别模型，本申请还包括如下步骤，详细说明如下：

获取训练数据以及对应的匹配结果，训练数据中包括关键词序列样本以及多个账户的第二文本样本；

将关键词序列样本以及第二文本输入样本到待训练模型中进行预测，得到训练预测结果；

根据训练预测结果以及匹配结果，对待训练模型进行训练，得到风险识别模型。

其中，训练数据中的关键词序列样本是根据账户的历史文本生成的，多个账户的第二文本样本可以从已经识别出的攻击性账户和正常账户中提取。训练数据中，关键词序列样本中关键词之间的拼接方式以及关键词序列样本与第二文本样本之间的拼接顺序与上述实施例中描述的方式相同。

将训练数据输入到待训练模型中进行预测，即可以得到训练预测结果。待训练模型可以通过在已经预训练完成的BERT模型的输出端上加上少量神经网络层构成。根据训练预测结果和输入的训练数据所对应的实际匹配结果，可以根据损失函数添加的少量神经网络层进行特定任务参数的调整，而不调整已经预训练完成的BERT模型的参数，从而得到风险识别模型。

在本申请的实施例中，提供了对于风险识别模型的训练方式，具体介绍了采用关键词序列样本和第二文本样本以及相对应的匹配结果，来训练得到风险识别模型的方式，提升了方案的可实施性。

结合风险识别模型，本申请方案的账户识别总体流程可以参阅图6，图 6为本申请实施例中账户识别总体流程的示意图。其中，用户的所有文本包括待识别账户的第一文本和所有账户的第二文本。第二文本输入到关键词序列模型中，从而获取出对应于各个风险标签的关键词序列。所获得的关键词序列和待识别账户的第一文本则被输入到风险识别模型中，得到最终的识别结果。可以理解的是，关键词序列的确定不依赖于第一文本的识别过程而执行，也就是说，关键词序列的确定过程，包括相关词集合的确定过程均可以独立执行，并且将结果存储到服务器中，以备后续进行账户识别时使用。

在本申请的一个实施例中，在获取了匹配结果之后，本申请的方法还可以包括如下步骤，详细说明如下：

获取与多个待匹配风险标签的多个匹配结果，其中，匹配结果为指示待识别账户是否存在风险的风险标识；

若任一匹配结果指示待识别账户存在风险，则禁止与待识别账户相关的交易操作。

具体地，对于待识别账户，可以针对于多个待匹配风险标签执行上述实施例中介绍的账户识别方法，从而得到待识别账户与多个待匹配风险标签的匹配结果。匹配结果具体可以是0或者1的二分类结果，1标识待识别账户与待匹配风险标签匹配，即待识别账户存在待匹配风险标签所代表的违规操作，0则表示不匹配。

若任一匹配结果指示待识别账户存在风险，即任意匹配结果为1，则可以确定该待识别账户存在违规操作，从而禁止与待识别账户相关的交易操作，例如从待识别账户的出入账行为。

在本申请的实施例中，提供了一种禁止账户的交易操作的方法，基于多个识别结果来判断待识别账户的风险状态，并且在任意匹配结果指示待识别账户存在风险则认定存在账户存在风险，保证对于攻击性账户的准确识别，提升攻击性账户识别的覆盖率。

在本申请的一个实施例中，为了进一步确定账户的风险等级，在获取与多个待匹配风险标签的多个匹配结果之后，本申请的方法还可以包括如下步骤，详细说明如下：

若多个匹配结果指示待识别账户存在风险，则根据指示待识别账户存在风险的匹配结果的数量，确定待识别账户的风险等级。

具体地，若发现多个匹配结果指示待识别账户存在风险，则可以统计匹配结果的数量，即统计与待识别账户相匹配的风险标签的数量。相匹配的风险标签的数量越多，则表示该用户账户涉及的违规行为越多，也就意味着其风险等级越高。相应地，随着用户账户风险等级越高，对于用户账户采取的相应打击操作可以越严厉，例如从禁止交易到永久封禁账户。

在本申请的实施例中，通过账户所匹配的待匹配风险标签的数量来确定用户账户的风险等级，从而可以根据风险等级对账户采取不同的打击操作，从而提升方案的灵活性。

在本申请的一个实施例中，为了对用户账户进行风险识别，本申请的方法还可以包括如下步骤，详细说明如下：

获取与多个待匹配风险标签的多个匹配结果，其中，匹配结果为指示待识别账户存在风险的风险评分；

若任一匹配结果的风险评分大于评分阈值，则确定待识别账户存在风险；

若各个匹配结果的风险评分均小于评分阈值，则计算多个匹配结果的风险评分总和，若风险评分总和大于风险阈值，则对待识别账户进行告警。

具体地，在本实施例中，风险评分为取值范围在0值1之间的小数，并且其取值代表待识别账户与待匹配风险标签相匹配的概率，并且多个匹配结果是相互独立计算的。对于风险评分，可以设置评分阈值，当风险评分大于评分阈值时，则确定待识别账户存在风险。可以理解的是，可以对于不同的风险标签设置不同的评分阈值。

在本实施例中，若任一匹配结果的风险评分大于所对应的评分阈值，则确定待识别账户存在风险，并且可以进一步对待识别账户进行相关对应的处理。进一步，若各个匹配结果的风险评分均小于评分阈值，则可以确定该待识别账户没有风险。在此情况下，还可以进一步计算多个匹配结果的风险评分总和。将风险评分总和与风险阈值进行比较，若风险评分总和大于风险阈值，表示账户虽然并未达到存在风险的程度，然而其仍有涉及违规操作的可能性，进而可以向用户账户进行相应的告警，从而规范用户的使用行为。例如，对于一个待识别账户，其与三个待匹配风险标签相匹配的风险评分分别为0.4,0.3和0.4，假定评分阈值均为0.5，则该待识别账户与这三个待风险标签均不匹配，然而若风险阈值为1，则由于三个风险评分的总和1.1大于1, 则可以向该待识别账户发送告警信息，从而提醒用户可能受到相关风险的威胁。

在本申请的实施例中，提供了一种对账户进行风险识别的方法，通过风险评分来衡量待识别账户与风险标签之间的匹配概率，并且在进一步根据风险评分的总和来对账户进行告警，从而提高风险识别的覆盖面，潜在的违规账户进行提前告警，降低用户由于非主观的违规操作噪声账户受到打击可能性，从而提升用户体验。

在本申请的一个实施例中,还可以采用另一种方式来进行预测，具体地，在上述步骤S202获取与待匹配风险标签相关联的关键词序列之后，本申请的方法还可以包括如下步骤，详细说明如下:

将第一文本输入到第一文本模型中，得到第一文本表达；

将关键词序列输入到第二文本模型中，得到第二文本表达，其中，第一文本模型与第二文本模型共享模型参数；

根据第一文本表达和第二文本表达，确定第一文本与关键词序列之间的相似度；

根据相似度，确定待识别账户与待匹配风险标签的匹配结果。

在本实施例中，采用孪生模型的方式来预测第一文本与关键词序列之间的相似度。具体地，孪生模型包括第一文本模型和第二文本模型，这两个模型的结构相同，在训练的过程中共享参数。具体地，第一文本模型和第二文本模型可以采用BERT模型来实现，并且在这两个模型均所接收到的文字信息转换成对应的文本嵌入表达。具体地，将第一文本输入到第一文本模型中，得到第一文本表达，将关键词序列输入到第二文本模型中，得到第二文本表达。第一文本表达和第二文本表达均是特征向量的形式，并且其计算过程可以并行执行。然后，将第一文本表达和第二文本表达输入到孪生模型的相似度模块中进行相似度计算，再将计算结果输入到softmax函数中进行逻辑回归计算，从而得到最终的相似度。

对于相似度，可以预先设置相似度阈值，将计算得到的相似度与相似度阈值比较来确定匹配结果，也可以在对大量账户的相似度进行计算后，从中挑选出明显的离群值来作为匹配结果，例如，大量账户的相似度为0.02，而由少量用户的相似度为0.2，则可以确定这部分少量用户的账户与待匹配风险标签相匹配。

在本申请的实施例中，提供了一种预测待识别账户与待匹配风险标签的匹配结果的方法，通过孪生模型来判断第一文本与关键词序列的相似度，从而确定待识别账户与待匹配风险标签的匹配结果，由于结合关键词序列的先验知识，相较于依赖第一文本本身的语义进行分析，能够使得对账户的风险状态的识别更加准确。

在本申请的一个实施例中,还可以计算匹配结果，在上述步骤S204根据目标文本预测待识别账户与待匹配风险标签的匹配结果，可以包括如下步骤，详细说明如下:

将目标文本映射到词向量空间，生成特征图像；

通过卷积层对特征图像进行卷积，得到多个特征图；

通过池化层对多个特征图进行池化操作，得到每个特征图的最大特征值；

将多个最大特征值输入到全连接层中，计算匹配结果。

在本实施例中，采用TextCNN来计算待识别账户与待匹配风险标签的匹配结果。具体地，模型输入的目标文本首先被输入到输入层中来映射到词向量空间，生成特征图像。特征图像通常是采用二维矩阵的形式，转换的方式可以采用word2vec、glove等词嵌入的方式实现。

在特征图像后，则通过卷积层对特征图像进行卷积操作，得到多个特征图。在此步骤中，卷积核的宽度是与词向量的维度一致，且卷积核只会在高度方向移动。因此，每次卷积核滑动过的位置都是完整的单词，从而能够保证将词作为文本的最小粒度。每一次卷积操作相当于一次特征向量的提取，通过定义不同的窗口，就可以提取出不同的特征向量，构成卷积层的输出，从而输出多个特征图。

得到多个特征图后，将特征图输入到池化层中进行池化。在此步骤中，采用最大值池化的方式，即从每个滑动窗口产生的特征图中筛选出一个最大的特征，然后将这些特征拼接起来构成向量表示。在一个实施例中，也可以采用其他的池化方式，例如选出每个特征图中最大的K个特征，将特征向量中的每一维取平均等方式，达到的效果都是将不同长度的句子通过池化得到一个定长的向量表示。

池化后的结果被输入到全连接层中，并且可以采用Softmax激活函数输出待识别账户与待匹配风险标签相匹配的概率，或者可以输出二分类结果，直接表示匹配的结果。

在本申请的实施例中，通过卷积层、池化层、全连接层等模块对目标文本处理，从而计算匹配结果，相较于预训练模型的大量计算，采用本实施例的方法能够将模型的参数数量大幅降低，对计算设备的要求也相应降低，从而提升模型训练和计算的速度，从而最终提升的方案的运行速度并且降低方案的实施成本。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施，可以用于执行本申请上述实施例中的账户识别的方法。图7示意性地示出了本申请实施例中账户识别装置的组成框图。如图7所示，账户识别装置400主要可以包括：

文本获取模块410，用于获取待识别账户所对应的第一文本，其中，第一文本是由待识别账户关联的至少一个文本信息拼接得到的；

序列获取模块420，用于获取与待匹配风险标签相关联的关键词序列，其中，关键词序列中包括多个与待匹配风险标签具有语义相关性的关键词；

拼接模块430，用于对第一文本以及关键词序列进行拼接处理，得到目标文本；

预测模块440，用于根据与目标文本预测待识别账户与待匹配风险标签的匹配结果。

在本申请的一些实施例中，基于以上技术方案，账户识别装置400还包括：

相关词集合获取模块，用于获取相关词集合，其中，相关词集合包括至少一个相关词，相关词是根据多个第二文本中词语的出现频次确定的；

特征体积模块，用于根据相关词集合对多个第二文本进行特征提取，得到关键词特征向量；

分类模块，用于针对待匹配风险标签，通过标签分类模型对关键词特征向量进行分类，得到至少一个关键词；

组合模块，用于将关键词组成关键词序列。

特征向量确定单元，用于根据相关词集合中相关词在多个第二文本中的出现频次，确定中间特征向量；

奇异值分解单元，用于对中间特征向量进行奇异值分解，得到关键词特征向量。

频次确定单元，用于对于多个第二文本中的各个第二文本，确定相关词集合中的所有相关词在第二文本中的出现频次；

文本权重确定单元，用于根据所有相关词在第二文本中的出现频次、第二文本的文本长度以及多个第二文本的平均文本长度，确定所有相关词在第二文本中的文本权重；

关键词向量确定单元，用于根据所有相关词在多个第二文本中的文本权重，确定关键词特征向量。

分词单元，用于对多个账户的多个第二文本进行分词，得到词语集合，词语集合包括至少一个词语；

集合确定单元，用于根据词语集合中各个词语在多个第二文本中的出现频次，确定相关词集合。

在本申请的一些实施例中，基于以上技术方案，预测模块440包括：

文本转换单元，用于通过风险识别模型中的注意力层对目标文本进行文本转换，得到文本向量；

向量转换单元，用于通过风险识别模型中的编码器对文本向量进行向量转换，得到文本增强向量表示；

逻辑回归单元，用于根据文本增强向量进行逻辑回归计算，得到匹配结果。

训练数据获取模块，用于获取训练数据以及对应的匹配结果，训练数据中包括关键词序列样本以及多个账户的第二文本样本；

训练预测模块，用于将关键词序列样本以及第二文本输入样本到待训练模型中进行预测，得到训练预测结果；

模型训练模块，用于根据训练预测结果以及匹配结果，对待训练模型进行训练，得到风险识别模型。

第一匹配结果获取模块，用于获取与多个待匹配风险标签的多个匹配结果，其中，匹配结果为指示待识别账户是否存在风险的风险标识；

交易禁止模块，用于若任一匹配结果指示待识别账户存在风险，则禁止与待识别账户相关的交易操作。

风险等级确模块，用于若多个匹配结果指示待识别账户存在风险，则根据指示待识别账户存在风险的匹配结果的数量，确定待识别账户的风险等级。

第二匹配结果获取模块，用于获取与多个待匹配风险标签的多个匹配结果，其中，匹配结果为指示待识别账户存在风险的风险评分；

风险识别模块，用于若任一匹配结果的风险评分大于评分阈值，则确定待识别账户存在风险；

风险告警模块，用于若各个匹配结果的风险评分均小于评分阈值，则计算多个匹配结果的风险评分总和，若风险评分总和大于风险阈值，则对待识别账户进行告警。

第一文本表达模块，用于将第一文本输入到第一文本模型中，得到第一文本表达；

第二文本表达模块，用于将关键词序列输入到第二文本模型中，得到第二文本表达，其中，第一文本模型与第二文本模型共享模型参数；

相似度计算模块，用于根据第一文本表达和第二文本表达，确定第一文本与关键词序列之间的相似度；

匹配结果确定模块，用于根据相似度，确定待识别账户与待匹配风险标签的匹配结果。

词向量单元，用于将目标文本映射到词向量空间，生成特征图像；

卷积单元，用于通过卷积层对特征图像进行卷积，得到多个特征图；

池化单元，用于通过池化层对多个特征图进行池化操作，得到每个特征图的最大特征值；

全连接单元，用于将多个最大特征值输入到全连接层中，计算匹配结果。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

需要说明的是，图8示出的电子设备的计算机***500仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机***500包括中央处理单元(Central Processing Unit， CPU)501，其可以根据存储在只读存储器(Read-Only Memory，ROM)502 中的程序或者从储存部分508加载到随机访问存储器(Random Access Memory，RAM)503中的程序而执行各种适当的动作和处理。在RAM 503 中，还存储有***操作所需的各种程序和数据。CPU 501、ROM502以及 RAM 503通过总线504彼此相连。输入/输出(Input/Output，I/O)接口505 也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分507；包括硬盘等的储存部分 508；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510 上，以便于从其上读出的计算机程序根据需要被安装入储存部分508。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的***中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory， EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM， U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种账户识别的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个账户的多个第二文本，其中，每个账户的第二文本是由每个账户关联的至少一个文本信息拼接得到的；

获取相关词集合，其中，所述相关词集合包括至少一个相关词，所述相关词是根据所述多个第二文本中词语的出现频次确定的；

根据所述相关词集合对所述多个第二文本进行特征提取，得到关键词特征向量；

针对所述待匹配风险标签，通过标签分类模型对所述关键词特征向量进行分类，得到至少一个关键词；

将所述关键词组成所述关键词序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述相关词集合对所述多个第二文本进行特征提取，包括：

根据所述相关词集合中相关词在所述多个第二文本中的出现频次，确定中间特征向量；

对所述中间特征向量进行奇异值分解，得到关键词特征向量。

4.根据权利要求2所述的方法，其特征在于，所述根据所述相关词集合对所述多个第二文本进行特征提取，包括：

对于所述多个第二文本中的各个第二文本，确定所述相关词集合中的所有相关词在所述第二文本中的出现频次；

根据所有相关词在所述第二文本中的出现频次、所述第二文本的文本长度以及所述多个第二文本的平均文本长度，确定所有相关词在所述第二文本中的文本权重；

根据所有相关词在所述多个第二文本中的文本权重，确定关键词特征向量。

5.根据权利要求2所述的方法，其特征在于，所述获取相关词集合，包括：

对多个账户的多个第二文本进行分词，得到词语集合，所述词语集合包括至少一个词语；

根据所述词语集合中各个词语在所述多个第二文本中的出现频次，确定相关词集合。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本预测所述待识别账户与所述待匹配风险标签的匹配结果，包括：

通过风险识别模型中的注意力层对所述目标文本进行文本转换，得到文本向量；

通过所述风险识别模型中的编码器对所述文本向量进行向量转换，得到文本增强向量表示；

根据所述文本增强向量进行逻辑回归计算，得到所述匹配结果。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取训练数据以及对应的匹配结果，所述训练数据中包括关键词序列样本以及多个账户的第二文本样本；

将所述关键词序列样本以及第二文本输入样本到待训练模型中进行预测，得到训练预测结果；

根据所述训练预测结果以及所述匹配结果，对所述待训练模型进行训练，得到所述风险识别模型。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括:

获取与多个待匹配风险标签的多个匹配结果，其中，所述匹配结果为指示所述待识别账户是否存在风险的风险标识；

若任一匹配结果指示所述待识别账户存在风险，则禁止与所述待识别账户相关的交易操作。

9.根据权利要求8所述的方法，其特征在于，所述获取与多个待匹配风险标签的多个匹配结果之后，所述方法还包括:

若多个匹配结果指示所述待识别账户存在风险，则根据指示所述待识别账户存在风险的匹配结果的数量，确定所述待识别账户的风险等级。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括:

获取与多个待匹配风险标签的多个匹配结果，其中，所述匹配结果为指示所述待识别账户存在风险的风险评分；

若任一匹配结果的风险评分大于评分阈值，则确定所述待识别账户存在风险；

若各个匹配结果的风险评分均小于评分阈值，则计算所述多个匹配结果的风险评分总和，若所述风险评分总和大于风险阈值，则对所述待识别账户进行告警。

11.根据权利要求2所述的方法，其特征在于，所述获取与待匹配风险标签相关联的关键词序列之后，所述方法还包括：

将所述第一文本输入到第一文本模型中，得到第一文本表达；

将所述关键词序列输入到第二文本模型中，得到第二文本表达，其中，所述第一文本模型与所述第二文本模型共享模型参数；

根据所述第一文本表达和所述第二文本表达，确定所述第一文本与所述关键词序列之间的相似度；

根据所述相似度，确定所述待识别账户与所述待匹配风险标签的匹配结果。

12.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本预测所述待识别账户与所述待匹配风险标签的匹配结果，包括：

将所述目标文本映射到词向量空间，生成特征图像；

通过卷积层对所述特征图像进行卷积，得到多个特征图；

通过池化层对所述多个特征图进行池化操作，得到每个特征图的最大特征值；

将多个最大特征值输入到全连接层中，计算所述匹配结果。

13.一种账户识别装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的账户识别的方法。

15.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的账户识别的方法。