一种行业识别模型确定方法和装置
技术领域
本说明书涉及互联网技术领域,尤其涉及一种行业识别模型确定方法和装置。
背景技术
随着电子支付的发展,很多商户选择接入支付平台,交易时买家可通过扫码等方式进行电子支付。而对于不同行业的商家,支付平台可能会采用不同的接入规则。举例说明:商户是支付宝会员体系中重要的一部分,为了支持餐饮商户和支付宝的合作,支付宝规定,所有餐饮商户接入支付宝收银即可享受支付宝收款零费率。而与此同时,很多非餐饮商家为了利益,可能会伪造商户门头照、商户名称等申请参与零费率活动。针对这类风险,虽然已经有人工客服的排查,还是会漏过一批非餐饮商户。为了避免不符合条件的商户伪造信息。需要一种商户行业识别方法。
现有技术中,对于商户的行业识别只有基于关键词的识别策略,即维护不同行业对应的相关词库,对提交审核商户的商户名称,商品名称进行排查,但是这种方法比较容易被对方规避,同时还需要定期的对词库进行扩充。
发明内容
针对上述技术问题,本说明书实施例提供一种行业识别模型确定方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种行业识别模型确定方法,该方法包括:
获取至少一个已确定行业类型的样本商户;
获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
根据本说明书实施例的第二方面,提供一种基于行业识别模型的商户行业确定方法,该方法包括:
获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;
将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
根据本说明书实施例的第三方面,提供一种行业识别模型确定装置,该装置包括:
样本确定模块:用于获取至少一个已确定行业类型的样本商户;
信息获取模块:用于获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
数据提取模块:用于通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
模型训练模块:用于将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
根据本说明书实施例的第四方面,提供一种基于行业识别模型的商户行业确定装置,该装置包括:
信息获取模块:用于获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;
数据提取模块:用于通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;
行业识别模块:用于将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种行业识别模型确定方法,该方法包括:
获取至少一个已确定行业类型的样本商户;
获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
根据本说明书实施例的第六方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种基于行业识别模型的商户行业确定方法,该方法包括:
获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;
将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
本说明书实施例所提供的技术方案,提供了一种行业识别模型确定方法,先获取已确定行业类型的样本商户,通过预定义的数据提取策略从所述交易信息集合中提取出描述样本商户所在行业的营业形态的行业特征数据,通过行业特征数据训练用于识别商户行业的识别模型。进而可利用识别模型通过识别行业特征确定商户的所在行业,和现有技术汇总基于词库的筛选策略相比,虚假行业类型商户难以规避对于本申请对于行业特征的识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书一示例性实施例示出的行业识别模型确定方法的一种示意图;
图2是本说明书一示例性实施例示出的交易数据的一种示意图;
图3是本说明书一示例性实施例示出的基于行业识别模型的商户行业识别方法的一种流程图;
图4是本说明书一示例性实施例示出的餐饮行业识别模型的确定方法的一种流程图;
图5是本说明书一示例性实施例示出的一种交易数据的资金热力示意图;
图6是本说明书一示例性实施例示出的模型网络构成示意图;
图7是本说明书一示例性实施例示出的行业识别模型确定装置的一种示意图;
图8是本说明书一示例性实施例示出的基于行业识别模型的商户行业识别装置的一种示意图;
图9是本说明书一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着电子支付的发展,很多商户选择接入支付平台,交易时买家可通过扫码等方式进行电子支付。而对于不同行业的商家,支付平台可能会采用不同的接入规则。举例说明:商户是支付宝会员体系中重要的一部分,为了支持餐饮商户和支付宝的合作,支付宝规定,所有餐饮商户接入支付宝收银即可享受支付宝收款零费率。而与此同时,很多非餐饮商家为了利益,可能会伪造商户门头照、商户名称等申请参与零费率活动。针对这类风险,虽然已经有人工客服的排查,还是会漏过一批非餐饮商户。为了避免不符合条件的商户伪造信息。需要一种商户行业识别方法。
现有技术中,对于商户的行业识别只有基于关键词的识别策略,即维护不同行业对应的相关词库,对提交审核商户的商户名称,商品名称进行排查,但是这种方法比较容易被对方规避,同时还需要定期的对词库进行扩充。
针对以上问题,本说明书实施例提供一种行业识别模型确定方法,以及一种用于执行该方法的行业识别模型确定装置。通过训练能够进行行业识别的模型来判断商户的行业。
下面对本实施例涉及的行业识别模型确定方法进行详细说明,参见图1所示,该方法可以包括以下步骤:
S101,获取至少一个已确定行业类型的样本商户;
获取已确定行业类型的样本商户的方式有多种方式,可以根据应用场景自行设定。举例说明:若应用场景为支付宝电子支付平台接入的商户,商户行业类型为餐饮行业,则可从支付宝平台各个行业的口碑商户中获取对应类型的样本商户。
进一步地,可设定一种需要让模型重点识别的目标行业类型,如餐饮行业类型,则在获取样本商户时,可采集比例较高的行业类型为餐饮行业的商户作为正样本,采集比例较低的行业类型为非餐饮行业的商户作为负样本。以重点训练模型识别商户是否为餐饮行业的能力。
S102,获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
S103,通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
其中,数据提取策略需要预先根据行业类型进行规定,不同的行业类型对应着不同的数据提取策略。通过将样本商户的交易信息进行整合提取,获取不同行业对应的不同形式的行业特征数据。
其中,行业特征数据可包括样本商户在预定时间段内,每个单位时间的至少一种类别的交易信息。参见图2,为其中一种提取出的行业特征数据的示意图,即获取不同商户单日内每个小时段的其中一种交易数据(如营业额数据),将提取结果作为营业特征数据。
举例说明,可为某一类型行业设定5种类别的交易数据作为营业特征数据,这5种类别的交易数据分别为该样本商户单个小时内收款的总金额、单个小时的交易次数、单个小时均笔交易金额、单个小时交易金额方差以及单个小时的交易人数,这五种类别的数据用于刻画餐饮商户的营业形态。当行业类型为餐饮行业时,通过上述行业类型数据可以看出,大部分的餐饮商户交易集中在早上晚三餐,且交易金额都比较少。提取上述交易数据作为行业特征数据能够看出餐饮行业的营业形态。
进一步地,通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据后,还可将同一样本商户任一类别的交易信息表达为交易图像,所述交易图像的横坐标用于表示交易的发生日期,所述交易图像的纵坐标用于表示每个发生日期内的不同发生时间点,所述交易图像中像素点的颜色用于表示所述类别的交易信息的数值大小。
S104,将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
具体地,将样本商户的已确定的行业类型和对应的行业特征数据作为一组训练数据,训练用于识别商户行业的识别模型。
如上文所述,将同一样本商户任一类别的交易信息表达为交易图像后,还可将表达同一样本商户不同类型交易特征的交易图像数据作为CNN神经网络不同通道的输入数据,训练用于识别商户行业的识别模型。
其中,行业识别模型的训练方式具体过程可为:
将表达不同类型交易特征的交易图像数据分别处理为对应的一维向量序列;
将所述不同一维向量序列分别进行数据标准化处理,并将数据标准化处理后的不同一维向量序列整合重构为一个三维向量序列;
将所述三维向量序列作为不同通道的输入数据,输入CNN神经网络的卷积池化层,将反复卷积池化后的输出结果作为特征向量;
将特征向量展开为一维向量输入CNN神经网络全连接层,以完成行业识别模型对于所述样本商户的行业特征的学习。
基于上述训练出的行业识别模型,可进一步针对未知类型的商户进行行业识别方法,参见图3,包括以下步骤:
S301,获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;具体实施方式参照步骤S102;
S302,通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;具体实施方式参照步骤S103;
S303,将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
具体地,获取未知行业类型的商户的行业特征数据,将该行业特征数据输入已针对特定行业类型训练完成的行业识别模型,进而可判断出该未知商户是否属于该特定行业类型。
针对不同类型的商户行业,均可根据该行业的行业特征训练对应的行业识别模型,下面以餐饮行业类型举例,进行更具体的模型训练方法介绍,参考图4,包括如下步骤:
S401,获取至少一个餐饮行业的样本商户;
S402,将每个样本商户预定天数内,每小时内预定类型的交易数据合并成为天数*24*类型数量的交易图像;
具体地,将每个样本商户最近七天,每小时的5种交易数据合并成为7*24*5的资金热力图。
其中,这5种类别的交易数据分别为该样本商户单个小时内收款的总金额、单个小时的交易次数、单个小时均笔交易金额、单个小时交易金额方差以及单个小时的交易人数,这五种类别的数据用于刻画餐饮商户的营业形态。
将上述交易转化为交易图像数据,参见图5,为六个餐饮商户7天内交易金额特征对应的热力图,其中横纵坐标为交易发生的日期和具体的时间节点,图像中像素点的颜色深浅代表了交易金额的数值,具体对应情况见右侧的色条。
可以看出,大部分的餐饮商户交易集中在早上晚三餐,且交易金额都比较少。此即为餐饮商户的营业形态。
需要注意,7天和24小时都是其中一种可以选择的时间划分方式,具体实施时可根据实际情况选择其他的时间划分方式。收款的总金额、交易次数、均笔交易金额、交易金额方差以及交易人数这5种类别的交易数据也可以根据实际情况增加,减少或变动为其他类型的数据。上述时间划分和类型选择方式均不对本实施例造成限制。
S403,将5种不同资金热力图数据作为五个通道的输入数据,训练用于识别商户行业的识别模型。
具体地,该训练模型可仿照VGG-Net网络结构,采用[卷积-激活-池化]*3-Dropout-全连接-Dropout-分类的结构。
其中,在本实施例中,数据流的整体流程如下:
a)将餐饮商户七天内每小时内收款的总金额、每小时内的交易次数、每小时内均笔交易金额、每小时内交易金额方差以及每小时的内的交易人数作为模型的五个通道输入,五条序列都为7*24长的一维向量。
b)将五条序列信息处理成[-1,1]区间内数值,并重构成为7*24*5的三维向量。其中,金额序列中大于1000的金额设置为1000,然后将(金额-500)/1000作为输入序列。
c)参见图6,采用CNN神经网络对输入序列反复卷积池化,得到包括5种交易数据类型的资金序列特征向量。
d)将资金序列特征向量展开成为一维向量输入全连接神经网络进行分类训练。
通过上述流程训练出针对餐饮行业的识别模型后,在后续应用阶段,仍使用上述a,b步骤清洗出3维交易数据,将清洗出的数据输入训练好的模型产出评价分数,并将评价分数不符合标准的高危商户返回人工客服进行复审。
可以看出,该基于交易热力图的深度神经网络行业识别模型,可以对符合餐饮交易形态的商户进行排查,即选择出交易集中在早中晚三餐、交易金额较小的商户。和基于词库的商户名称筛选策略相比,虚假餐饮商户难移规避策略,同时模型效果不会随着时间衰退,不用定期重训模型。
相应于上述方法实施例,本说明书实施例还提供一种行业识别模型确定方法装置,参见图7所示,所述装置可以包括:样本确定模块710,信息获取模块720,数据提取模块730和模型训练模块740。
样本确定模块710:用于获取至少一个已确定行业类型的样本商户;
信息获取模块720:用于获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
数据提取模块730:用于通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
模型训练模块740:用于将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
相应于上述方法实施例,本说明书实施例还提供一种基于权利要求10行业识别模型的商户行业确定装置,参见图8所示,所述装置包括:信息获取模块810,数据提取模块820和行业识别模块830。
信息获取模块810:用于获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;
数据提取模块820:用于通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;
行业识别模块830:用于将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述行业识别模型确定方法,所述方法至少包括:
获取至少一个已确定行业类型的样本商户;
获取预设时间段内,包含样本商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出样本商户的行业特征数据,所述行业特征数据通过样本商户在不同时间点的交易信息描述样本商户所在行业在不同时间点的营业形态;
将样本商户的行业特征数据作为输入数据,训练用于识别商户行业的识别模型。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现一种基于前述行业识别模型的商户行业确定方法,所述方法包括:
获取预设时间段内,包含待检验商户每笔交易信息的交易信息集合;
通过预定义的数据提取策略从所述交易信息集合中提取出待检验商户的行业特征数据;
将待检验商户的行业特征数据输入训练好的行业识别模型,以确定待检验商户的所在行业。
图9示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。
处理器1110可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1120可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1120可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1120中,并由处理器1110来调用执行。
输入/输出接口1130用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1140用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1150包括一通路,在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的行业识别模型确定方法,所述方法至少包括:
检测到调用图形编码页面后,启动当前设备的前置图像采集模块进行图像采集;
对采集到的图像进行图像识别,若所述采集到的图像中包含预置的扫码模块的特征,则计算所述扫码模块相对于图形编码当前展示位置的偏移距离;
根据所述偏移距离计算目标展示位置,将所述图形编码在所述目标展示位置进行展示。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。