CN109961296A - 商户类型识别方法及装置 - Google Patents
商户类型识别方法及装置 Download PDFInfo
- Publication number
- CN109961296A CN109961296A CN201711416934.3A CN201711416934A CN109961296A CN 109961296 A CN109961296 A CN 109961296A CN 201711416934 A CN201711416934 A CN 201711416934A CN 109961296 A CN109961296 A CN 109961296A
- Authority
- CN
- China
- Prior art keywords
- trade company
- information
- identified
- merchant
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种商户类型识别方法及装置,属于数据挖掘分析领域。所述商户类型识别方法包括:接收商户类型识别请求;获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信息;分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得到所述待识别商户的预测数据集;将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分类预测模型的输出结果;以及根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。本发明的技术方案结合了数据挖掘分析技术,通过简单预处理操作及商户分类预测模型即可识别商户的类型,减少了前期特征获取所需的人力成本,模型的部署构建复杂度低,模型的通用性强。
Description
技术领域
本发明涉及数据挖掘分析领域,特别涉及一种商户类型识别方法及装置。
背景技术
目前,商户和个人消费者之间进行网络交易时大多是通过第三方平台实现。 第三方平台的服务商可提供高级接口,为商户完成支付申请、技术开发、机具 调试、活动营销等全生态链服务。服务商在开展各种针对特定商户类型的营销 活动时,也会对特定类型商户实行佣金优惠费率。例如,微信支付开展的针对 围餐商户的0费率优惠和相应服务商返佣的活动。在这个活动中,微信支付需 要对围餐商户进行相应的补贴。在预算固定的情况下,如果无法识别假冒的围 餐商户,这些假冒商户就会骗走微信的大量补贴,使得预算提前被用完。此外 这个0费率活动也可能会被原先从事刷单、洗钱等不法活动的人员所利用。而且在通过微信支付收款的商家中,也存在开展违反国家法律,需要被打击的业 务,比如洗钱,诈骗,色情,赌博等。因此,精准识别商户类型对于保证服务 商的平台收入和营销活动预算的正常使用极其重要,精准识别商户类型是一个 非常重要的问题,并且识别结果具有广泛的实际应用,比如大数据分析、广告 投放等等。
现有的技术方案或采用人工识别分类,或采用传统机器学***台进 行商户支付帐号注册时,并没有经过人工确认和校验,导致服务商无法直接得 知商户的真实类型。
发明内容
为了解决现有技术的问题,本发明提供了一种商户类型识别方法及装置, 根据简单预处理操作及商户分类预测模型即可精准识别商户的类型。所述技术 方案如下:
一方面,本发明提供了一种商户类型识别方法,所述方法包括:
接收商户类型识别请求;
获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信 息;
分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得 到所述待识别商户的预测数据集;
将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分 类预测模型的输出结果;以及
根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。
另一方面,本发明提供了一种商户类型识别装置,所述装置包括:
请求接收模块,用于接收商户类型识别请求;
信息获取模块,用于获取与所述商户类型识别请求相对应的待识别商户的 信息以及用户个人信息;
特征提取模块,用于分别提取所述待识别商户的信息和所述用户个人信息 对应的特征数据,得到所述待识别商户的预测数据集;
数据输入模块,用于将所述预测数据集输入到已训练好的商户分类预测模 型,得到所述商户分类预测模型的输出结果;
商户识别模块,用于根据所述商户分类预测模型的输出结果,确定所述待 识别商户的类型。
本发明提供的技术方案带来的有益效果如下:
1)通用性强,可以方便的应用于不同的业务场景中;
2)模型性能高,维护成本低;
3)显著提高对疑似欺诈商户的召回,而且可以根据业务方人手平衡召回- 准确指标;
4)充分利用丰富的用户个人数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的商户类型识别方法的流程图;
图2是本发明实施例提供的商户类型模型的训练方法流程图;
图3是本发明实施例提供的商户预测分类模型中的堆叠模型的构造图;
图4是本发明实施例提供的商户类型模型的训练方法中样本商户的信息获 取方法的流程图;
图5是本发明实施例提供的商户类型识别装置的模块框图;
图6是本发明实施例提供的商户预测分类模型训练及实践的流程框图;
图7是本发明实施例提供的商户类型识别装置的计算机终端的硬件结构框 图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施 例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所 有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。 应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实 施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括” 和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了 一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那 些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或 设备固有的其它步骤或单元。在本发明的一个实施例中,提供了一种商户类型 识别方法,参见图1,方法流程包括:
S101、接收商户类型识别请求。
具体地,识别请求是针对某一类商户(如欺诈商户,围餐商户等)发起的, 该请求的目的是识别得到该商户的类型(商户类型可以为线上/线下、围餐/非围 餐、欺诈/正常以及其他类型等),发起请求需要触发动作,在本申请中,触发 动作可能由用户在相关应用(如社交应用、地图、购物平台等)中查看该商户 信息时触发,也可以由服务商的前端管理人员进行手工触发或者是由服务商的 后台***进行定期或者不定期的自动触发,本发明对触发发起请求的方式不作 具体限定。
S102、获取与所述商户类型识别请求相对应的待识别商户的信息以及用户 个人信息。
具体地,商户类型识别请求信息中会附带待识别的商户的ID(全称为: Virtualidentity electronic identification,即通用账户,俗称网络身份证)信息,该 商户ID信息是对商户身份标识的唯一编码,根据ID信息可以找到相应商户。 商户类型识别请求相对应的待识别商户的信息包括待识别商户的交易流水信息 以及商户ID信息等,其中,交易流水数据,包括但不限于:a)交易时间;b)交 易ip地址;c)交易金额区间;d)支付渠道(借记卡,***,零钱);e)支付场 景(app跳转,扫码支付,jsapi等);f)是否支付成功等信息。
具体地,用户的个人信息是指用户在相关应用(如社交应用、地图、购物 平台等)中的个人信息,本实施例中用户个人信息可以为微信用户的个人信息, 包括但不限于:a)年龄;b)性别;c)常住省市;d)使用设备(ios,andriod);e) 注册来源(手机号,qq号)等,为了保护隐私,以上部分数据可以减少精确度, 比如把精确金额转化成为小于50,50-100,100-500,500-1000,等等区间。
在本实施例中,服务器或者终端可以从相应的数据库中分别获取所述商户 类型识别请求相对应的待识别商户的信息以及用户个人信息,如从微信商户集 合数据库中获取待识别商户的信息,从微信用户个人数据库中获取用户的个人 信息等。
具体地,用户个人信息可以包括相关应用(如社交应用、地图、购物平台 等)中的用户与待识别商户进行交易的信息,待识别商户的信息中也可以包括 该待识别商户与用户在相关应用(如社交应用、地图、购物平台等)中进行交 易的信息,用户与商户进行交易的信息可以直接在待识别商户的交易流水信息 获取,也可以通过查找与该待识别商户进行交易的用户的ID,通过用户ID从相 应的用户个人信息中获取而得到。通过获取与商户类型识别请求相对应的待识 别商户的信息以及用户个人信息,组成待识别商户类型的预测的原始数据源。
S103、分别提取所述待识别商户的信息和所述用户个人信息对应的特征数 据,得到所述待识别商户的预测数据集。
具体地,待识别商户的信息包括该待识别商户的交易流水信息,通过从S102 中的待识别商户类型的预测的原始数据源中提取的特征字段作为待识别商户的 信息和用户个人信息对应的特征数据,这些特征数据包括但不限于:
1.交易规模:金额分布,笔数分布,天数,账号数,支付失败率等;
2.用户特征:年龄,性别,重复购买,注册来源,使用设备,常住省市等;
3.交易时间:不同时间段的交易占比;
4.支付面额:不同金额区间的交易占比;占比最高交易区间;
5.支付方式:渠道,场景等等。
对于这些由特征字段组成的特征数据,需要转化为计算机能读取的特征向 量,因为非数值特征无法直接被模型使用,需要通过转码的方式把他们变成数 值特征。比如:用00001来表示这个交易规模最大的商户,00010表示这个交易 规模第二大的商户,对用户特征等的转码方式也是类似。通过提取一些能够为 识别商户类型的特征字段,比如姓名、性别、重复购买、注册来源等等,根据 这些特征字段,从上述待识别的商户的信息和用户个人信息中分别获取对应的 如上特征字段组成的特征数据,并将特征数据转变为特征向量,这些特征向量 组成所述待识别商户的预测数据集。
S104、将所述预测数据集输入到已训练好的商户分类预测模型,得到所述 商户分类预测模型的输出结果。
具体地,已训练好的商户分类预测模型是根据训练数据集训练得到,对于 不同的业务场景,训练数据集不同,识别得到的商户类型也不相同,如在欺诈 识别的业务场景中,训练数据集采用的是与欺诈识别相关的特征数据,则该商 户分类预测模型能够识别出商户类型是为欺诈商户还是为正常商户,如在实体 店分类识别的业务场景中,训练数据集采用的是与实体店类别相关的特征数据, 则该商户分类预测模型能够识别出商户类型可以为医院、超市、加油站等,即 通过将预测数据集输入到已训练好的不同的商户分类预测模型,得到不同的商 户分类预测模型的对应的输出结果。
S105、根据所述商户分类预测模型的输出结果,确定所述待识别商户的类 型。
具体地,商户分类预测模型为多分类预测模型,输出的分类结果的数量可 以为两种及两种以上。在训练该商户分类预测模型前,首先设定模型输出结果 与商户类型的对应规则,按照规则将模型输出的分类结果对应标注相关商户类 型,从而得到待识别商户的类型。
本发明通过对商户流水信息以及用户个人信息进行特征信息的提取,对提 取的特征进行简单预处理操作,并将处理后的特征数据输入到商户分类预测模 型,不需要人工确认和校验,便可精确识别商户的类型,减少了前期特征获取 所需的人力成本,模型的部署构建复杂度低,模型的通用性强。
在本发明的一个实施例中,提供了一种商户分类预测模型的训练方法,参 见图2,方法流程包括:
S21、获取样本商户的信息和用户个人信息。
具体地,样本商户的信息包括样本商户的ID信息、标注有样本商户的商户 类型标签以及该样本商户的交易流水的信息。训练过程中的用户个人信息与上 述识别过程中的用户个人信息的获取来源相同,都是通过获取用户在相关应用 (如社交应用、地图、购物平台等)中的个人信息。本实施例中用户个人信息 可以为微信用户的个人信息,包括但不限于:a)年龄;b)性别;c)常住省市;d) 使用设备(ios,andriod);e)注册来源(手机号,qq号)等,为了保护隐私, 以上部分数据可以减少精确度,比如把精确金额转化成为小于50,50-100, 100-500,500-1000,等等区间。
具体地,样本商户的信息的具体获取过程包括:
S210、分别获取目标商户的训练样本信息以及相关应用中的所有商户的信 息。
具体地,目标商户的训练样本信息包括该目标商户的ID信息及对应的备注 标签,备注标签为人工标注的该目标商户对应的商户类型,备注标签即为商户 的具体类型,备注标签的方式有很多,具体的商户类型是根据具体业务场景来 定义的。比如在欺诈识别中,可分为正常商户和欺诈商户。识别商户类型的逻 辑纯粹由业务场景决定。如果不需要欺诈识别,就不会进行欺诈识别。在针对 某些实体店的分类中,可分为医院,超市,加油站等。所述相关应用中的所有 商户的交易信息包括所述所有商户的ID信息以及交易流水信息,上述信息存在 于相关应用中(如社交应用、地图、购物平台等)。在进行训练之前,先要对 训练的数据进行预处理,确定样本商户及其相关的信息。需要从经过人工标注 的商户类型中选取部分商户作为目标商户,将该目标商户的ID信息以及人工标 注的对该目标商户的商户类型的备注标签作为该目标商户的训练样本信息,另 外,还需要拉取相关应用(如社交应用、地图、购物平台等)中的所有的商户 交易信息,所述商户交易信息包括所有商户ID信息以及交易流水信息。
S211、遍历所述所有商户的交易信息,将所述所有商户的ID信息与所述目 标商户的ID信息进行匹配,将所述所有商户中匹配成功的商户确定为样本商户, 并将所述备注标签作为所述样本商户的商户类型标签。
具体地,将目标商户ID信息与相关应用中的所有商户ID信息进行匹配, 匹配成功,即将该相关应用中的商户确定为样本商户,并打上备注标签作为样 本商户的商户类型标签,将所述样本商户对应的商户交易信息及商户类型标签 作为所述样本商户的信息,即样本商户的信息包括该样本商户对应的商户交易 信息及匹配得到的目标商户对应的商户类型标签。
本发明的一个实施例中,由于识别商户类型的逻辑纯粹由业务场景决定, 如果需要欺诈识别,就会进行欺诈识别。如果不需要欺诈识别,就不会进行欺 诈识别。商户类型标签可以包括但不限于以下几类:线上/线下、围餐/非围餐、 欺诈/正常以及其他类型标签等,对于这几类商户类型的识别的相关情形包括:
1.线上/线下商户识别。在某些业务场景中,需要判定一个商户是否具有一 个线下实体店,由于纯线上的商户和具有线下实体店的商户有一些明显的区别, 比如纯线上商户交易的地点和时间分布都相对分散,而线下实体店的商户的交 易的地点为固定的,交易时间也一般是属于商户的正常的营业时间,通过获取 交易的地点和时间信息并根据对应的特点进行线上/线下商户的识别。
2.围餐/非围餐商户识别。围餐商户是指餐饮业中提供多人聚餐服务的商家, 通常是先就餐后买单,不包括快餐,小吃,烘培等。在针对“围餐”商户的优 惠活动中,需要精确识别冒充围餐享受优惠的商户。围餐商户和其他餐饮商户 或者其他任何类型商户有一些区别,比如就餐通常集中在特定的时间段,交易 金额的分布等。
3.多类别商户识别,在针对某些实体店的分类中,可以分为医院,超市,加 油站等商户类型。
本发明通过结合商户信息和用户个人信息针对不同业务应用场景建立了相 应的商户类型精准识别模型,通过简单预处理操作及商户分类预测模型即可识 别商户的类型,减少了前期特征获取所需的人力成本,模型的部署构建复杂度 低,模型的通用性强。
S213、获取所述相关应用中所述用户个人信息。
具体地,服务器或者终端可以从相应的数据库中分别获取S210中所述的相 关应用中的商户的信息和用户个人信息。以相关应用是微信为例,服务器或者 终端从微信中存放商户信息的数据库中获取所有商户的信息,从微信用户个人 数据库中获取用户的个人信息等。微信用户个人信息包括该微信用户与上述 S210中的样本商户的交易信息。在训练模型的过程中,服务器或者终端可以从 相应的数据库中分别获取商户的交易流水信息以及用户个人信息,如从微信商 户集合数据库中获取商户的交易流水信息,从微信用户个人数据库中获取用户 的个人信息等。这样通过使用微信商户的交易流水数据和微信用户个人画像数 据针对不同业务应用场景建立了相应的商户类型精准识别模型,不仅使用微信支付交易流水数据,也使用了丰富的微信用户个人数据,结合业务经验提取特 征,结合机器学习分类模型对特定商户类型进行识别来分类。
S22、分别提取所述样本商户的信息以及用户个人信息对应的样本特征数 据,得到所述商户分类预测模型的训练数据集。
具体地,样本商户信息包括该样本商户对应的商户交易信息及商户类型标 签,S22中的用户个人信息与S201中的用户个人信息的来源相同。样本商户信 息和用户个人信息对应的样本特征数据为从上述样本商户信息和用户个人信息 中提取的样本特征字段,包括但不限于:
1.交易规模:金额分布,笔数分布,天数,账号数,支付失败率等;
2.用户特征:年龄,性别,重复购买,注册来源,使用设备,常住省市等;
3.交易时间:不同时间段的交易占比;
4.支付面额:不同金额区间的交易占比;占比最高交易区间;
5.支付方式:渠道,场景等等;
6.样本商户的商户类型标签等等。
对于这些由特征字段组成的特征数据,需要转化为计算机能读取的特征向 量,因为非数值特征无法直接被模型使用,需要通过转码的方式把他们变成数 值特征。比如:在业务类型为欺诈识别场景中,商户类型的标签为正常商户和 欺诈商户,则用00001来表示正常商户,00010表示欺诈商户,对用户特征等的 转码方式也是类似。通过提取一些能够为识别商户类型的特征字段,比如姓名、 性别、重复购买、注册来源等等,根据这些特征字段,从样本商户的交易流水 信息和用户个人信息中分别获取对应的如上特征字段,通过获取与商户类型识 别请求相对应的样本商户的信息以及用户个人信息,组成所述商户分类预测模 型的训练数据集。
S23、将所述训练数据集分别训练所述商户分类预测模型的各个子模型,确 定所述商户分类预测模型的各个子模型的参数,得到所述商户分类预测模型。
具体地,商户分类预测模型中包括多个独立预测的子模型,为了满足以上 需求同时兼顾预测性能,本技术方案采用堆叠模型。其他的机器学习分类模型 也可能满足需求,这里只详细阐述一种实现。
具体地,堆叠模型采用了集成模型的思想,通过集合多个独立预测模型的 结果,达到更好的准确率和泛化能力。这个设计方案的堆叠模型由7个子模型 组成,分别为:1.逻辑回归;2.神经网络;3.Gradient boosting;4.随机森林; 5.Adaboosting;6.Bagging;7.ExtraTrees。堆叠模型的构造如图3所示,其中, 图3中的“x”是指特征,所述特征是机器学习模型的输入。上述七个子模型是 图3中的d1,d2等,f()是把这七个子模型的预测结果汇总的函数,y是最终的 预测结果(比如属于围餐商户的概率)。本技术方案中f()采用的汇总函数是将 各个模型输出的概率相加,最终的结果是概率最大的对应的那个类别。
具体地,在对模型进行训练时,特征“x”为确定的,通过不断输入特征“x”, 从而可以对各个子模型中参数进行调整,以便输出的“y”与特征“x”所对应 的样本商户的商户类型接近,当输出的“y”与特征“x”所对应的样本商户的 商户类型一致时,确定当前各个子模型中参数为训练得到的各个子模型的最佳 状态,从而得出该最佳状态的各个子模型为商户分类预测模型的子模型。
至此,可以通过利用训练样本数据和用户个人数据根据业务场景来区分当 前商户的类型。如上述S211中提到的商户类型的标签中,打标为“围餐”的标 签的商户,则该模型的训练样本数据是判定当前这个商户类型为围餐或者非围 餐商户的数据,训练的目的为商户分类预测模型进行商户类型的精准识别并进 行分类。
在本发明的一个实施例中,步骤S104中所述将所述预测数据集输入到已训 练好的商户分类预测模型,得出所述商户分类预测模型的输出结果,包括:
S1041、将所述预测数据集分别输入到所述商户分类预测模型中的各个子模 型,得到所述各个子模型对应的所述待识别商户所对应的子概率。
具体地,每个子模型的各个商户类型子概率之和均为1。图3中的d1,d2 至d7等这七个子模型中的每一个都是独立训练,并且独立给出预测结果。预测 结果输出是属于各个类别的概率。比如在欺诈识别的场景中,可以分为正常商 户(Normal business,简称NB)和欺诈商户(Fraudulentbusiness,简称FB), 通过d1对特征进行训练得到NB和FB对应的概率分别为0.3和0.7,通过d2 对特征进行训练得到NB和FB对应的概率分别为0.4和0.6,即d1和d2是独立 训练,并且独立给出结果的。即,各个子模型分别得到的是待识别商户的商户 类型对应的一组概率,如果待识别的商户对应的类型只有2种(如欺诈/正常商 户),则每个子模型得到的一组的概率为2个,这2个概率之和为1,如果待识 别的商户对应的类型为N(N>2)种类型(如医院、超市、加油站等),每个子 模型得到的一组的概率为N个,这N个概率之和为1。
S1042、通过汇总函数对所述待识别商户所对应的子概率进行计算,得到所 述待识别商户所对应的总概率。
具体地,汇总函数即为图3中的f(),汇总函数f()是用各个子模型的输出结 果进行“投票”的函数,输出y。f()有硬投票和软投票之分。硬投票是指每个子 模型投一票。比如,模型训练的目标是识别欺诈商户。7个子模型中3个识别为 欺诈,欺诈就有3票,4个识别为非欺诈,非欺诈就有4票,所以f()输出为非 欺诈。软投票就是模型子模型输出的是各个商户类型的概率。f()统计各个类别 对应概率之和。概率和最大的那个类别就是输出结果。建模过程中使用了 scikit-learnpython软件库,具体每个子模型的技术细节和训练属于机器学习领域 通用的方法,在此不再详细叙述。
S1043、根据所述待识别商户所对应的总概率,确定所述待识别商户的类型。
具体地,本发明实施例是通过将所述预测数据集分别输入到商户分类预测 的各个子模型(如d1,d2等),得到所述商户分类预测的各个子模型对应的商 户类型的概率。通过汇总函数(如f())将所述商户分类预测的各个子模型对应 的商户类型的概率进行计算,得到所述商户类型所对应的总概率(如输出y), 根据所述商户类型所对应的总概率,确定所述商户的类型。
作为本发明的一个实施例,确定商户的类型是通过采用将所述待识别商户 所对应的总概率与预先设定的阈值进行比较,根据比较的结果确定所述待识别 商户的商户类型。当所述样本特征为欺诈商户的特征信息,所述预先设定的阈 值的取值为0.6至1之间的任意一个值时,若所述待识别商户所对应的总概率大 于所述预先设定的阈值,所述待识别商户的类型为欺诈商户,若所述待识别商 户所对应的总概率小于所述预先设定的阈值,所述待识别商户的类型为正常商 户。
具体地,如已训练好的模型是应用于对欺诈商户进行识别,当获取所有商 户的交易流水数据以及用户的个人数据后,提取相应的特征向量组成预测数据 集(特征向量组成的预测数据集为图3中的X),并将所述预测数据集分别输 入到7个子模型(即为d1,d2等)中进行预测得到7组相应的概率,如d1得 到一组概率为(0.3,0.7),d2得到一组概率为(0.4,0.6)等等,然后通过汇 总函数f()对得出的7组概率进行计算,如该模型是对欺诈商户进行识别,设定 的阈值为0.6,即大于0.6的商户认为是欺诈商户,反之为正常商户,如果采用硬投票进行计算,则d1的识别结果为欺诈商户,d2的识别结果为正常商户,最 后的结果就按欺诈和正常商户的概率最大的那个类别确定为商户类型(如欺诈 商户有3票,正常商户有4票,则商户类型为正常商户)。如采用软投票的方 法则正常商户的概率为0.3+0.4=0.7,欺诈商户的概率为0.7+0.6=1.3,由于1.3 大于0.7,则最后的结果为商户类型为欺诈商户。
在本发明中,由于采用的是线性模型,该线性模型提供了很好的可解释性。 模型输出同时提供了这个模型最重要的特征的原始值和在线性模型中的贡献, 使得很容易诊断某商户被标记为某类型的原因。最重要的特征列表由综合各个 子模型的特征重要性排序得到(这里忽视无法对特征重要性进行排序的模型)。 模型的可解释性由这个模型的线性子模型提供(即逻辑回归模型)。
具体地,上述提到的阈值是通过人工预先设定,该预先设定的阈值是根据 所述商户分类预测模型进行训练时的所述样本特征进行设定,比如,当所述样 本特征为欺诈商户的特征信息时,所述预先设定的阈值的取值可以为大于0.6而 小于0.9之间的任意一个值;当所述待识别商户所对应的总概率大于所述预先设 定的阈值时,所述待识别商户的类型为欺诈商户;当所述待识别商户所对应的 总概率小于所述预先设定的阈值时,所述待识别商户的类型为正常商户。该预 先设定的阈值具体是体现在图3中的f()和y之间,通过调整概率阈值可以实现 召回率和准确率的权衡。根据业务方的使用情况,需要对某个商户类型的预测 召回率和准确率之间做权衡。在需要识别欺诈商户的场景中,召回率是指模型 正确找到的欺诈商户占总欺诈商户的比例,越高越好。准确率是指模型预测结 果中的疑似欺诈商户中真正是欺诈商户比例,越高越好。但是在模型训练完成 后,无法同时提高两者。提高一个就会降低另一个。在业务方人手充裕时,倾 向于提高召回率。这样就能尽可能发现多的欺诈商户。而在业务方人手紧缺的 时候,倾向于提高准确率,减少对商户的误判。模型设计需要能够根据业务方 使用需求随时灵活调整两者的平衡。比如设定可疑类别的概率要大于一个阈值 (比如0.7)才认为该商户是可疑商户。将所述商户类型所对应的总概率与预先 设定的阈值进行比较,根据比较的结果确定所述商户的类型。比如,将训练模 型的围餐商户类型的训练数据分别输入到7个训练好的预测子模型中,得到每 个围餐商户类型的预测概率;将每个围餐商户类型的训练概率汇总后得到围餐 商户类型的总的训练概率;将围餐商户类型的总的训练概率与预先设定的阈值 进行比较,如果围餐商户类型的总的训练概率比预先设定的阈值大,则认为围 餐商户类型为围餐商户,反之,则为非围餐用户。
作为本发明中的一个实施例,商户可以是使用微信支付收款的商家。商户 类型是根据具体业务场景来定义的。比如在欺诈识别中,可分为正常商户和欺 诈商户。比如一个业务需要识别围餐商户。那么我们就会用有围餐商户样本的 数据去训练一个机器学习模型,使得模型能够识别出哪些商户属于围餐商户。 如果一个业务只关心商户是否有实体店交易,我们就会用有实体店商业样本的 数据去训练机器学习模型,使得模型能识别出纯线上交易商户。至于具体的特 征(就餐集中在特定的时间段),是由模型中的算法自动计算得到。
本发明通过结合待识别商户的交易流水数据以及用户个人数据,通过提取 这两类数据的相应的特征数据,并输入到已训练好的商户分类预测模型中,实 现对特定商户类型进行识别并分类,本发明可以应用在相关应用中,如微信中, 可以通过精准识别商户类型精准打击微信支付平台上的违法欺诈行为有很大帮 助,同时也保护了微信支付的收入,避免不法商户利用微信支付针对特定类型 商户的优惠活动获取不正当利益。而且本发明通过简单预处理操作及商户分类 预测模型即可识别商户的类型,减少了前期特征获取所需的人力成本,模型的 部署构建复杂度低,模型的通用性强。
在本发明的一个实施例中,提供了一种商户类型识别装置,所述装置的模 块架构参见图5,所述装置包括以下模块:
请求接收模块510,用于接收商户类型识别请求;
信息获取模块520,用于获取与所述商户类型识别请求相对应的待识别商户 的信息以及用户个人信息;
特征提取模块530,用于分别提取所述待识别商户的信息和所述用户个人信 息对应的特征数据,得到所述待识别商户的预测数据集;
数据输入模块540,用于将所述预测数据集输入到已训练好的商户分类预测 模型,得到所述商户分类预测模型的输出结果;
商户识别模块550,用于根据所述商户分类预测模型的输出结果,确定所述 待识别商户的类型。
进一步地,所述装置还包括训练模块560,用于训练商户分类预测模型,所 述训练模块560包括:
样本获取子模块561,用于获取样本商户的信息和用户个人信息;
样本特征提取模块562,用于分别提取所述样本商户的信息以及用户个人信 息对应的样本特征数据,得到所述商户分类预测模型的训练数据集;
模型子模块563,用于将所述训练数据集分别训练所述商户分类预测模型的 各个子模型,确定所述商户分类预测模型的各个子模型的参数,得到所述商户 分类预测模型。
所述样本获取子模块561包括:
目标商户获取单元5611,用于分别获取目标商户的训练样本信息以及相关 应用中的所有商户的交易信息,所述目标商户的训练样本信息包括所述目标商 户的ID信息及对应的备注标签,所述备注标签为人工标注的所述目标商户对应 的商户类型,所述所有商户的交易信息包括所述所有商户的ID信息以及交易流 水信息;
遍历匹配单元5612,用于遍历所述所有商户的交易信息,将所述所有商户 的ID信息与所述目标商户的ID信息进行匹配,将所述所有商户中匹配成功的 商户确定为样本商户,并将所述备注标签作为所述样本商户的商户类型标签;
用户信息获取单元5613,用于获取所述相关应用中所述用户个人信息。
所述数据输入模块540包括:
概率计算子单元5411,用于将所述预测数据集分别输入到所述商户分类预 测模型中的各个子模型,得到所述各个子模型对应的所述待识别商户所对应的 子概率;
概率计算总单元5412,用于通过汇总函数对所述待识别商户所对应的概率 进行计算,得到所述待识别商户所对应的总概率;
识别单元5413,用于根据所述待识别商户所对应的总概率,确定所述待识 别商户的类型。
所述识别单元5413包括:
比较单元54131,用于将所述待识别商户所对应的总概率与预先设定的阈值 进行比较,根据比较的结果确定所述待识别商户的商户类型。
需要说明的是:上述实施例提供的商户类型识别装置在进行商户类型识别 时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而 将上述功能分配由不同的功能模块完成,即将商户类型识别装置的内部结构划 分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,本实施例 提供的商户类型识别装置实施例与上述实施例提供商户类型识别方法属于同一 构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本发明实施例提供的商户预测分类模型训练及实践的流程框图。 作为本发明的一个实施例,由于识别商户类型的逻辑纯粹由业务场景决定,本 实施例以针对微信中围餐/非围餐商户的识别为例进行阐述商户类型识别的训练 以及实践的完整过程。本发明实施例提供的方法实施例可以在移动终端、计算 机终端或者类似的运算装置中执行,在本发明的一个实施例中,以运行在服务 器上为例。
商户预测分类模型训练过程包括以下步骤:
步骤1:微信应用的后台服务器从目标商户训练样本数据库61和商户信息 数据库62中分别获取目标商户的训练样本信息以及微信应用中的所有商户的信 息。
具体地,该目标商户的训练样本信息包括该目标商户的ID信息及标注为围 餐商户类型的备注标签,获取的微信应用中的所有的商户的信息包括所有商户 ID信息以及交易流水信息。
步骤2:服务器遍历获取到的所有商户的信息,将所有商户的ID信息与目 标商户的ID信息进行匹配,并将所有商户中匹配成功的商户确定为样本商户, 并将该匹配成功的商户标注为围餐商户的标签。
步骤3:服务器获取用户个人信息数据库63中的微信用户的个人信息。
步骤4:服务器分别提取步骤1和步骤2中获取到的样本商户的信息中的对 应的样本特征数据以及步骤3中获取到的用户个人信息对应的样本特征数据, 从而实现611样本特征数据提取对应的过程,得到商户分类预测模型的机器学 习训练数据612的集合。
步骤5:服务器将步骤4中获得的机器学习训练数据的集合通过训练模型 613,分别训练所述商户分类预测模型的各个子模型,从而确定所述商户分类预 测模型的各个子模型的参数,得到商户分类预测模型614,通过该商户分类预测 模型可以对围餐/非围餐商户进行识别。
商户预测分类模型实践过程包括以下步骤:
步骤1:服务器获取商户信息数据库62和商户集合数据库64中待识别商户 的信息以及用户个人信息数据库63中微信用户的个人信息,作为待识别商户类 型的预测的原始数据源。
步骤2:服务器分别进行待识别商户的信息和微信用户个人信息的预测特征 数据提取621,得到待识别商户的机器学习预测数据622的集合。
待识别商户的信息和用户个人信息对应的特征数据包括但不限于:
1.交易规模:金额分布,笔数分布,天数,账号数,支付失败率等;
2.用户特征:年龄,性别,重复购买,注册来源,使用设备,常住省市等;
3.交易时间:不同时间段的交易占比;
4.支付面额:不同金额区间的交易占比;占比最高交易区间;
5.支付方式:渠道,场景等等。
步骤3:将机器学习预测数据622预测数据集分别输入到商户分类预测模型 614中的7个子模型,进行模型预测623,7个子模型的独立给出待识别商户所 对应的7组子概率,通过汇总函数对这7组子概率进行计算,得到待识别商户 所对应的总概率,根据总概率确定待识别商户类型,得到的商户类型即为商户 分类预测结果65。
本实施例中以汇总函数采用硬投票方式进行举例说明。由于模型训练的目 标是识别围餐/非围餐商户。7个子模型中3个识别为围餐,围餐商户为3票,4 个识别为非围餐,非围餐为4票,所以得到的总概率为围餐占3/7,非围餐占4/7 最终输出商户类型为非围餐商户。
本发明通过结合待识别商户的交易流水数据以及微信应用中用户个人数 据,通过提取这两类数据的相应的特征数据,并输入到已训练好的商户分类预 测模型中,实现对围餐/非围餐商户类型进行识别并分类,可以通过精准识别商 户类型精准打击微信支付平台上的违法欺诈行为有很大帮助,同时也保护了微 信支付的收入,避免不法商户利用微信支付针对特定类型商户的优惠活动获取 不正当利益。
本发明实施例提供的方法实施例可以在移动终端、计算机终端或者类似的 运算装置中执行,在本发明的一个实施例中,以运行在计算机终端上为例,图7 是本发明实施例的商户类型识别装置的计算机终端的硬件结构框图。如图7所 示,终端800可以包括RF(Radio Frequency,射频)电路110、包括有一个或 一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传 感器150、音频电路160、WiFi(wireless fidelity,无线保真)模块170、包括有一 个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员 可以理解,图7中示出的终端结构并不构成对终端的限定,可以包括比图示更 多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地, 将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将 涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个 放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦 合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电 路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任 一通信标准或协议,包括但不限于GSM(Global System of Mobilecommunication, 全球移动通讯***)、GPRS(General Packet Radio Service,通用分组无线服务)、 CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、 电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存 储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器 120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、 功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区 可存储根据终端800的使用所创建的数据(比如音频数据、电话本等)等。此 外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器, 例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地, 存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存 储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以 及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地, 输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称 为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使 用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附 近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面 131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户 的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控 制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器 180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电 容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131, 输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包 括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、 鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端 800的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和 其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用 LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode, 有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖 显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理 器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面 板141上提供相应的视觉输出。虽然在图7中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将 触敏表面131与显示面板141集成而实现输入和输出功能。
终端800还可包括至少一种传感器150,比如光传感器、运动传感器以及其 他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境 光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在 终端800移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种, 重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可 检测出重力的大小及方向,可用于识别终端姿态的应用(比如横竖屏切换、相 关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于 终端800还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他 传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端800之间的音频 接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161, 由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号 转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处 理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出 至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外 设耳机与终端800的通信。
WiFi属于短距离无线传输技术,终端800通过WiFi模块170可以帮助用户 收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联 网访问。虽然图7示出了WiFi模块170,但是可以理解的是,其并不属于终端 800的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端800的控制中心,利用各种接口和线路连接整个终端的 各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调 用存储在存储器120内的数据,执行终端800的各种功能和处理数据,从而对 终端进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选地, 处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理 操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以 理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端800还包括给各个部件供电的电源190(比如电池),优选的,电源可 以通过电源管理***与处理器180逻辑相连,从而通过电源管理***实现管理 充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直 流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电 源状态指示器等任意组件。
尽管未示出,终端800还可以包括摄像头、蓝牙模块等,在此不再赘述。 具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器, 以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中, 且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于 进行以下操作的指令:
接收商户类型识别请求;
获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信 息;
分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得 到所述待识别商户的预测数据集;
将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分 类预测模型的输出结果;以及
根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。
具体地,终端的处理器还用于执行以下操作的指令:训练所述商户分类预 测模型,所述方法包括:
获取样本商户的信息和用户个人信息;
分别提取所述样本商户的信息以及用户个人信息对应的样本特征数据,得 到所述商户分类预测模型的训练数据集;
将所述训练数据集分别训练所述商户分类预测模型的各个子模型,确定所 述商户分类预测模型的各个子模型的参数,得到所述商户分类预测模型。
具体地,终端的处理器还用于执行以下操作的指令:
分别获取目标商户的训练样本信息以及相关应用中的所有商户的信息,所 述目标商户的训练样本信息包括所述目标商户的ID信息及对应的备注标签,所 述备注标签为人工标注的所述目标商户对应的商户类型,所述所有商户的信息 包括所述所有商户的ID信息以及交易流水信息;
遍历所述所有商户的信息,将所述所有商户的ID信息与所述目标商户的ID 信息进行匹配,将所述所有商户中匹配成功的商户确定为样本商户,并将所述 备注标签作为所述样本商户的商户类型标签;
获取所述相关应用中所述用户个人信息。
具体地,终端的处理器还用于执行以下操作的指令:
将所述预测数据集分别输入到所述商户分类预测模型中的各个子模型,得 到所述各个子模型对应的所述待识别商户所对应的子概率;
通过汇总函数对所述待识别商户所对应的子概率进行计算,得到所述待识 别商户所对应的总概率;
根据所述待识别商户所对应的总概率,确定所述待识别商户的类型。
具体地,终端的处理器还用于执行以下操作的指令:将所述待识别商户所 对应的总概率与预先设定的阈值进行比较,根据比较的结果确定所述待识别商 户的商户类型。
在本发明的一个实施例中,提供了一种计算机可读存储介质,该计算机可 读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也 可以是单独存在,未装配入终端中的计算机可读存储介质。计算机可读存储介 质存储有一个或者一个以上程序,一个或者一个以上程序被一个或者一个以上 的处理器用来执行商户类型识别方法的指令,所述方法指令包括:
接收商户类型识别请求;
获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信 息;
分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得 到所述待识别商户的预测数据集;
将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分 类预测模型的输出结果;以及
根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。
进一步地,所述方法包括训练所述商户分类预测模型,所述训练过程包括:
获取样本商户的信息和用户个人信息;
分别提取所述样本商户的信息以及用户个人信息对应的样本特征数据,得 到所述商户分类预测模型的训练数据集;
将所述训练数据集分别训练所述商户分类预测模型的各个子模型,确定所 述商户分类预测模型的各个子模型的参数,得到所述商户分类预测模型。
进一步地,所述获取样本商户的信息和用户个人信息,包括:
分别获取目标商户的训练样本信息以及相关应用中的所有商户的信息,所 述目标商户的训练样本信息包括所述目标商户的ID信息及对应的备注标签,所 述备注标签为人工标注的所述目标商户对应的商户类型,所述所有商户的信息 包括所述所有商户的ID信息以及交易流水信息;
遍历所述所有商户的信息,将所述所有商户的ID信息与所述目标商户的ID 信息进行匹配,将所述所有商户中匹配成功的商户确定为样本商户,并将所述 备注标签作为所述样本商户的商户类型标签;
获取所述相关应用中所述用户个人信息。
进一步地,所述将所述预测数据集输入到已训练好的商户分类预测模型, 得到所述商户分类预测模型的输出结果,包括:
将所述预测数据集分别输入到所述商户分类预测模型中的各个子模型,得 到所述各个子模型对应的所述待识别商户所对应的子概率;
通过汇总函数对所述待识别商户所对应的子概率进行计算,得到所述待识 别商户所对应的总概率;
根据所述待识别商户所对应的总概率,确定所述待识别商户的类型。
进一步地,所述根据所述待识别商户所对应的总概率,确定所述商户的类 型,包括:将所述待识别商户所对应的总概率与预先设定的阈值进行比较,根 据比较的结果确定所述待识别商户的商户类型。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过 硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于 一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或 光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的 精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的 保护范围之内。
Claims (11)
1.一种商户类型识别方法,其特征在于,所述方法包括:
接收商户类型识别请求;
获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信息;
分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得到所述待识别商户的预测数据集;
将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分类预测模型的输出结果;以及
根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括训练所述商户分类预测模型,包括:
获取样本商户的信息和用户个人信息;
分别提取所述样本商户的信息以及用户个人信息对应的样本特征数据,得到所述商户分类预测模型的训练数据集;
将所述训练数据集分别训练所述商户分类预测模型的各个子模型,确定所述商户分类预测模型的各个子模型的参数,得到所述商户分类预测模型。
3.根据权利要求2所述的方法,其特征在于,所述获取样本商户的信息和用户个人信息,包括:
分别获取目标商户的训练样本信息以及相关应用中的所有商户的信息,所述目标商户的训练样本信息包括所述目标商户的ID信息及对应的备注标签,所述备注标签为人工标注的所述目标商户对应的商户类型,所述所有商户的信息包括所述所有商户的ID信息以及交易流水信息;
遍历所述所有商户的信息,将所述所有商户的ID信息与所述目标商户的ID信息进行匹配,将所述所有商户中匹配成功的商户确定为样本商户,并将所述备注标签作为所述样本商户的商户类型标签;
获取所述相关应用中所述用户个人信息。
4.根据权利要求1所述的方法,其特征在于,所述将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分类预测模型的输出结果,包括:
将所述预测数据集分别输入到所述商户分类预测模型中的各个子模型,得到所述各个子模型对应的所述待识别商户所对应的子概率;
通过汇总函数对所述待识别商户所对应的子概率进行计算,得到所述待识别商户所对应的总概率;
根据所述待识别商户所对应的总概率,确定所述待识别商户的类型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别商户所对应的总概率,确定所述商户的类型,包括:
将所述待识别商户所对应的总概率与预先设定的阈值进行比较,根据比较的结果确定所述待识别商户的商户类型。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:
当所述样本特征为欺诈商户的特征信息,所述预先设定的阈值的取值为0.6至1之间的任意一个值时;
若所述待识别商户所对应的总概率大于所述预先设定的阈值,所述待识别商户的类型为欺诈商户;
若所述待识别商户所对应的总概率小于所述预先设定的阈值,所述待识别商户的类型为正常商户。
7.一种商户类型识别装置,其特征在于,所述装置包括:
请求接收模块,用于接收商户类型识别请求;
信息获取模块,用于获取与所述商户类型识别请求相对应的待识别商户的信息以及用户个人信息;
特征提取模块,用于分别提取所述待识别商户的信息和所述用户个人信息对应的特征数据,得到所述待识别商户的预测数据集;
数据输入模块,用于将所述预测数据集输入到已训练好的商户分类预测模型,得到所述商户分类预测模型的输出结果;
商户识别模块,用于根据所述商户分类预测模型的输出结果,确定所述待识别商户的类型。
8.根据权利要求7所述的装置,其特征在于,还包括训练模块,用于训练商户分类预测模型,所述训练模块包括:
样本获取子模块,用于获取样本商户的信息和用户个人信息;
样本特征提取模块,用于分别提取所述样本商户的信息以及用户个人信息对应的样本特征数据,得到所述商户分类预测模型的训练数据集;
模型子模块,用于将所述训练数据集分别训练所述商户分类预测模型的各个子模型,确定所述商户分类预测模型的各个子模型的参数,得到所述商户分类预测模型。
9.根据权利要求8所述的装置,其特征在于,所述样本获取子模块包括:
目标商户获取单元,用于分别获取目标商户的训练样本信息以及相关应用中的所有商户的信息,所述目标商户的训练样本信息包括所述目标商户的ID信息及对应的备注标签,所述备注标签为人工标注的所述目标商户对应的商户类型,所述所有商户的信息包括所述所有商户的ID信息以及交易流水信息;
遍历匹配单元,用于遍历所述所有商户的信息,将所述所有商户的ID信息与所述目标商户的ID信息进行匹配,将所述所有商户中匹配成功的商户确定为样本商户,并将所述备注标签作为所述样本商户的商户类型标签;
用户信息获取单元,用于获取所述相关应用中所述用户个人信息。
10.根据权利要求7所述的装置,其特征在于,所述数据输入模块包括:
概率计算子单元,用于将所述预测数据集分别输入到所述商户分类预测模型中的各个子模型,得到所述各个子模型对应的所述待识别商户所对应的子概率;
概率计算总单元,用于通过汇总函数对所述待识别商户所对应的子概率进行计算,得到所述待识别商户所对应的总概率;
识别单元,用于根据所述待识别商户所对应的总概率,确定所述待识别商户的类型。
11.根据权利要求7所述的装置,其特征在于,所述识别单元包括:
比较单元,用于将所述待识别商户所对应的总概率与预先设定的阈值进行比较,根据比较的结果确定所述待识别商户的商户类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711416934.3A CN109961296A (zh) | 2017-12-25 | 2017-12-25 | 商户类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711416934.3A CN109961296A (zh) | 2017-12-25 | 2017-12-25 | 商户类型识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109961296A true CN109961296A (zh) | 2019-07-02 |
Family
ID=67020550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711416934.3A Pending CN109961296A (zh) | 2017-12-25 | 2017-12-25 | 商户类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961296A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458581A (zh) * | 2019-07-11 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 商户业务周转异常的识别方法及装置 |
CN110610575A (zh) * | 2019-09-20 | 2019-12-24 | 北京百度网讯科技有限公司 | 硬币识别方法及装置、收银机 |
CN110619585A (zh) * | 2019-08-16 | 2019-12-27 | 广州越秀金融科技有限公司 | 推荐数据的方法、装置、存储介质和处理器 |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN111159398A (zh) * | 2019-12-05 | 2020-05-15 | 银联智策顾问(上海)有限公司 | 一种识别商户类型的方法及装置 |
CN111428217A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及*** |
CN112581271A (zh) * | 2020-12-21 | 2021-03-30 | 上海浦东发展银行股份有限公司 | 一种商户交易风险监测方法、装置、设备及存储介质 |
CN112732912A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 敏感倾向表述检测方法、装置、设备及存储介质 |
WO2021164232A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 用户识别方法、装置、设备及存储介质 |
CN113554099A (zh) * | 2021-07-27 | 2021-10-26 | ***股份有限公司 | 一种识别异常商户的方法及装置 |
CN113592160A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于融合处理的用户设备的失联风险预测方法、***和计算机设备 |
CN113971863A (zh) * | 2021-10-19 | 2022-01-25 | 无锡格林通安全装备有限公司 | 基于fft-gmm-k近邻的火焰探测方法 |
WO2023244164A1 (en) * | 2022-06-13 | 2023-12-21 | Gp Network Asia Pte. Ltd. | Method and device for detecting merchant from payment transaction |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184574A (zh) * | 2015-06-30 | 2015-12-23 | 电子科技大学 | 一种套用商户类别码欺诈行为的检测方法 |
CN105590261A (zh) * | 2014-12-31 | 2016-05-18 | ***股份有限公司 | 商户风险估算方法及*** |
WO2017041651A1 (zh) * | 2015-09-09 | 2017-03-16 | 阿里巴巴集团控股有限公司 | 一种用户数据分类的方法和设备 |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107067293A (zh) * | 2017-03-07 | 2017-08-18 | 北京三快在线科技有限公司 | 商家分类方法、装置及电子设备 |
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN107465741A (zh) * | 2017-08-02 | 2017-12-12 | 北京小度信息科技有限公司 | 信息推送方法和装置 |
-
2017
- 2017-12-25 CN CN201711416934.3A patent/CN109961296A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105590261A (zh) * | 2014-12-31 | 2016-05-18 | ***股份有限公司 | 商户风险估算方法及*** |
CN105184574A (zh) * | 2015-06-30 | 2015-12-23 | 电子科技大学 | 一种套用商户类别码欺诈行为的检测方法 |
WO2017041651A1 (zh) * | 2015-09-09 | 2017-03-16 | 阿里巴巴集团控股有限公司 | 一种用户数据分类的方法和设备 |
CN106650721A (zh) * | 2016-12-28 | 2017-05-10 | 吴晓军 | 一种基于卷积神经网络的工业字符识别方法 |
CN107067293A (zh) * | 2017-03-07 | 2017-08-18 | 北京三快在线科技有限公司 | 商家分类方法、装置及电子设备 |
CN107301221A (zh) * | 2017-06-16 | 2017-10-27 | 华南理工大学 | 一种多特征维度堆融合的数据挖掘方法 |
CN107465741A (zh) * | 2017-08-02 | 2017-12-12 | 北京小度信息科技有限公司 | 信息推送方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458581A (zh) * | 2019-07-11 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 商户业务周转异常的识别方法及装置 |
CN110458581B (zh) * | 2019-07-11 | 2024-01-16 | 创新先进技术有限公司 | 商户业务周转异常的识别方法及装置 |
CN110619585A (zh) * | 2019-08-16 | 2019-12-27 | 广州越秀金融科技有限公司 | 推荐数据的方法、装置、存储介质和处理器 |
CN110610575A (zh) * | 2019-09-20 | 2019-12-24 | 北京百度网讯科技有限公司 | 硬币识别方法及装置、收银机 |
US11354887B2 (en) | 2019-09-20 | 2022-06-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Coin identification method, device, and cash register |
CN110750697A (zh) * | 2019-10-30 | 2020-02-04 | 汉海信息技术(上海)有限公司 | 商户分类方法、装置、设备及存储介质 |
CN111159398A (zh) * | 2019-12-05 | 2020-05-15 | 银联智策顾问(上海)有限公司 | 一种识别商户类型的方法及装置 |
CN111159398B (zh) * | 2019-12-05 | 2023-10-31 | 银联智策顾问(上海)有限公司 | 一种识别商户类型的方法及装置 |
WO2021164232A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 用户识别方法、装置、设备及存储介质 |
CN111428217A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 |
CN111784448A (zh) * | 2020-06-24 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 一种商户数据的处理方法及*** |
CN112581271A (zh) * | 2020-12-21 | 2021-03-30 | 上海浦东发展银行股份有限公司 | 一种商户交易风险监测方法、装置、设备及存储介质 |
CN112581271B (zh) * | 2020-12-21 | 2022-11-15 | 上海浦东发展银行股份有限公司 | 一种商户交易风险监测方法、装置、设备及存储介质 |
CN112732912A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 敏感倾向表述检测方法、装置、设备及存储介质 |
CN112732912B (zh) * | 2020-12-30 | 2024-04-09 | 平安科技(深圳)有限公司 | 敏感倾向表述检测方法、装置、设备及存储介质 |
CN113592160A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于融合处理的用户设备的失联风险预测方法、***和计算机设备 |
CN113554099A (zh) * | 2021-07-27 | 2021-10-26 | ***股份有限公司 | 一种识别异常商户的方法及装置 |
CN113971863A (zh) * | 2021-10-19 | 2022-01-25 | 无锡格林通安全装备有限公司 | 基于fft-gmm-k近邻的火焰探测方法 |
WO2023244164A1 (en) * | 2022-06-13 | 2023-12-21 | Gp Network Asia Pte. Ltd. | Method and device for detecting merchant from payment transaction |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961296A (zh) | 商户类型识别方法及装置 | |
CN108875781A (zh) | 一种标签分类方法、装置、电子设备及存储介质 | |
CN107944380A (zh) | 身份识别方法、装置及存储设备 | |
CN104392350B (zh) | 一种虚拟资源数据的处理方法、装置和*** | |
US20160132866A1 (en) | Device, system, and method for creating virtual credit card | |
CN104951960B (zh) | 基于目标物消息的交互方法及装置 | |
CN107992728A (zh) | 人脸验证方法及装置 | |
CN106446797A (zh) | 图像聚类方法及装置 | |
CN108121803A (zh) | 一种确定页面布局的方法和服务器 | |
CN108470253A (zh) | 一种用户识别方法、装置及存储设备 | |
CN104160734A (zh) | 测量与移动装置关联的体验质量 | |
CN110516967A (zh) | 一种信息评估的方法以及相关装置 | |
CN110503409B (zh) | 信息处理的方法以及相关装置 | |
CN103714316B (zh) | 图像识别方法、装置及电子设备 | |
CN109905545A (zh) | 一种消息处理方法及终端、计算机可读存储介质 | |
CN107783906A (zh) | 测试方法、装置及存储介质 | |
CN111708944A (zh) | 多媒体资源识别方法、装置、设备及存储介质 | |
CN109194689A (zh) | 异常行为识别方法、装置、服务器及存储介质 | |
CN113596844A (zh) | 一种基于数据信息的预警方法、装置、介质及电子设备 | |
CN109544139A (zh) | 一种支付方法、终端及可读存储介质 | |
CN108573169A (zh) | 最近任务列表显示方法和装置、存储介质、电子设备 | |
CN107256334A (zh) | 食谱搭配方法及相关产品 | |
US20170034092A1 (en) | Method and device for processing short message | |
CN108763509A (zh) | 一种数据处理方法、移动终端 | |
CN107330867A (zh) | 图像合成方法、装置、计算机可读存储介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |