CN107133628A - 一种建立数据识别模型的方法及装置 - Google Patents

一种建立数据识别模型的方法及装置 Download PDF

Info

Publication number
CN107133628A
CN107133628A CN201610110817.3A CN201610110817A CN107133628A CN 107133628 A CN107133628 A CN 107133628A CN 201610110817 A CN201610110817 A CN 201610110817A CN 107133628 A CN107133628 A CN 107133628A
Authority
CN
China
Prior art keywords
training
model
sample
training sample
data identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610110817.3A
Other languages
English (en)
Inventor
姜晓燕
杨旭
代斌
褚崴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610110817.3A priority Critical patent/CN107133628A/zh
Priority to TW106104133A priority patent/TWI739798B/zh
Priority to PCT/CN2017/073444 priority patent/WO2017143919A1/zh
Publication of CN107133628A publication Critical patent/CN107133628A/zh
Priority to US16/112,637 priority patent/US11551036B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种建立数据识别模型的方法及装置,用于根据包括正、负样本的训练样本建立数据识别模型,该方法采用采用训练样本进行逻辑回归训练,得到第一模型;对训练样本按比例采样,获得第一训练样本集;采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。本发明的装置包括第一训练模块、采样模块、选择模块和最终模型训练模块。本发明的方法及装置,提高了数据识别模型的稳定性。

Description

一种建立数据识别模型的方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及一种建立数据识别模型的方法及装置。
背景技术
商家的信用是消费者决定是否消费的重要指标,目前网上电商平台也是按照商家的信用高低进行排名。商家的信用根据交易的数量和评分逐步累积,刚开的店铺没有信用,排名就会靠后。消费者出于对自身权益的考虑,更愿意选择信用较高的商家或者销量较高的商品。而商家排名的先后直接关系到消费者是否能够搜索到商家,搜索不到的情况下,消费者就无法进入商家的店铺进行消费。
因此网上商家都有提升信用的需求,催生了一些专为商家提升信用的网站和个人,通过刷单等虚假交易行为来提升商家的信用。虚假交易行为不利于市场的健康发展,不利于保护消费者的权益,属于电商平台需要严厉打击的行为。
电商平台例如小微金服花呗和信贷业务,在使用时都要利用训练得到的识别模型来识别交易是否是虚假交易。通常在业务上通过TOP抓坏率来衡量对虚假交易的识别是否准确,所谓抓坏率也称为召回率,是指识别出的虚假交易占虚假交易总数的比率。TOP抓坏率是用于对训练得到的模型进行评估的指标,按模型识别得到的虚假交易概率对交易记录进行排序,然后对排序后的交易记录进行分组,计算各组的抓坏率,如果TOP抓坏率保持稳定且能达到设定的标准,则判断模型可靠,可用于后续的识别。
然而目前小微金服等电商平台在训练识别模型时,一般是先对训练样本通过特征工程处理后,经过逻辑回归算法训练得到识别模型,然后采用测试样本来计算抓坏率,根据抓坏率来判断训练得到的识别模型是否可靠。
但是现在训练得到的识别模型是使用逻辑回归模型,对于训练样本按比例采样,没有对正样本进行区分,导致噪音进入逻辑回归算法,无法有效提高TOP抓坏率和保证稳定性。并且随着虚假交易维度越来越多,线性模型已经无法学到更多维度的信息,模型单一,效果受限。
发明内容
本发明的目的是提供一种建立数据识别模型的方法及装置,以解决现有技术逻辑回归模型训练时噪音的影响,以及模型单一、效果不理想等问题。结合机器学习和深度学习进行训练,在判断虚假交易时,有效提高TOP抓坏率,取得很好的效果。
为了实现上述目的,本发明技术方案如下:
一种建立数据识别模型的方法,用于根据包括正、负样本的训练样本建立数据识别模型,所述建立数据识别模型的方法包括:
采用训练样本进行逻辑回归训练,得到第一模型;
对训练样本按比例采样,获得第一训练样本集;
采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;
采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。
进一步地,所述建立数据识别模型的方法,在进行按比例采样或进行逻辑回归训练前,还包括:
对训练样本进行特征工程预处理。
进一步地,所述建立数据识别模型的方法,在采用训练样本进行逻辑回归训练之前,还包括:
对训练样本进行特征筛选,所述特征筛选通过计算特征的信息值,去除信息值小于设定阈值的特征。
优选地,所述从第一模型识别后具有识别结果的正样本中选择出第二训练样本集之前,还包括:
采用第一训练样本集进行DNN训练,得到第二模型。
进一步地,所述从第一模型识别后具有识别结果的正样本中选择出第二训练样本集,包括:
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,从第一模型识别后具有识别结果的正样本中选择出概率小于所述阈值概率的样本作为第二训练样本集。
本发明优选地选择第二训练样本集的方法能够选择出更加符合训练要求的样本,提高最终数据识别模型的稳定性。
本发明还提出了一种建立数据识别模型的装置,用于根据包括正、负样本的训练样本建立数据识别模型,所述装置包括:
第一训练模块,用于采用训练样本进行逻辑回归训练,得到第一模型;
采样模块,用于对训练样本按比例采样,获得第一训练样本集;
选择模块,用于采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;
最终模型训练模块,用于采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。
进一步地,所述装置还包括:
预处理模块,用于在进行按比例采样或进行逻辑回归训练前,对训练样本进行特征工程预处理。
进一步地,所述装置还包括:
特征筛选模块,用于在采用训练样本进行逻辑回归训练之前,对训练样本进行特征筛选,所述特征筛选通过计算特征的信息值,去除信息值小于设定阈值的特征。
优选地,本发明所述装置还包括:
第二训练模块,用于采用第一训练样本集进行DNN训练,得到第二模型。
进一步地,所述选择模块从第一模型识别后具有识别结果的正样本中选择出第二训练样本集时,执行如下操作:
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,从第一模型识别后具有识别结果的正样本中选择出概率小于所述阈值概率的样本作为第二训练样本集。
本发明提出的一种建立数据识别模型的方法及装置,通过对全部训练样本进行特征工程预处理以及特征筛选,并根据逻辑回归训练得到的第一模型识别结果和采用第一训练样本集进行DNN训练的结果,从具有识别结果的所有正样本中选择出第二训练样本集,来结合深度神经网络训练得到最终的数据识别模型,提高了模型的稳定性。
附图说明
图1为本发明建立数据识别模型的方法流程图;
图2为本发明数据识别模型评估效果对照图;
图3为本发明建立数据识别模型的装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
如图1所示,本实施例一种建立数据识别模型的方法,包括:
步骤S1、对训练样本进行特征工程预处理。
对于获取的全部训练样本,由于样本中的特征有些值缺失,或者偏差超出正常的范围,会影响到后续的训练,通常需要对样本进行特征工程处理。本实施例首先对样本进行特征工程预处理,即对样本的特征进行数据替换和清洗,剔除无意义特征。例如对样本中缺失的特征进行数据替换等。
步骤S2、对预处理后的训练样本进行特征筛选,采用特征筛选后的训练样本进行逻辑回归训练,采用训练得到的第一模型对正样本进行识别。
全部训练样本中包括正样本和负样本,本实施例以虚假交易为例来进行说明,正样本表示是虚假交易的样本,负样本表示不是虚假交易的样本。
在模型识别中,因为有些特征与最终识别结果关系不大,若把这些特征作为变量会使得模型识别结果变差,或一般情况下应使特征数大大小于样本数,所以有必要采用特征筛选来筛选掉不重要甚至有负作用的特征。进行特征筛选的方法很多,例如有最近邻算法、偏最小二乘法等。本实施例优选地通过采用信息值IV(information value)来对样本的特征进行筛选。通过计算样本每个特征对应的信息值,将特征对应的信息值小于设定阈值的样本特征去除,减少其对样本分布的影响。
本实施例计算样本特征对应的信息值是根据所有训练样本的特征来计算,假设一条训练样本的特征包括{feature 1、feature 2、…、feature m},对于其中的一个特征feature i,i属于(1~m),m为特征数量。所有训练样本对应该feature i的值为{i1,i2,…,in},n为训练样本总数。
则可以根据feature i的值进行分组,例如将feature i的值为a的划分为一组,这样将fenturei分为K组,根据如下公式计算特征feature i的信息值IV:
其中,Disgoodki为样本组中负样本数量,Disbadki为样本组中正样本数量。本实施例不限定哪个为负样本数量,哪个为正样本数量,即也可以用Disgoodki表示正样本数量,Disbadki表示负样本数量。从而可以根据特征对应的信息值来筛选特征,将对应信息值小于设定阈值的特征舍弃,保留对结果有影响的特征用来进行后续的训练,提高训练模型的可靠性。
在进行特征筛选后,采用特征筛选后的全部训练样本进行逻辑回归训练得到第一模型,该模型即为现有技术方案中采用的识别模型。本发明在此基础上进一步训练以得到更加可靠的模型。一般来说采用特征筛选后的全部训练样本进行逻辑回归训练得到第一模型稳定性比较好,可以选择其中的一些样本来进行后续的训练,以使得后续训练得到的模型具有较好的稳定性。衡量模型稳定性一般采用TOP抓坏率指标,TOP抓坏率可以根据模型识别样本得到的虚假交易概率来进行计算。
为此,本实施例采用训练得到的第一模型对所有正样本进行识别,得到每个训练样本对应的为虚假交易的概率,记所有正样本及其识别得到的概率为训练集合B,即通过第一模型识别后具有识别结果的正样本。在后续步骤中根据识别结果从训练集合B中选择一部分训练样本作为后续的训练用。
步骤S3、对预处理后的训练样本按比例采样,采用采样后得到的第一训练样本集进行DNN训练,得到第二模型。
为了从训练集合B中选择一部分训练样本作为后续的训练用,可以直接从训练集合B中选择识别准确的样本作为后续训练采用的第二训练样本集。
本实施例优选地对预处理后的全部训练样本按比例采样得到训练集合A(第一训练样本集),例如正负样本的比例为1:10。在操作中,先选择出所有的正样本,然后从负样本中选择足够多的负样本,保持1:10的比例。然后采用采样后得到的第一训练样本集进行DNN训练,可以得到一个第二模型。深度神经网络DNN(Deep Neural Networks)是近年来机器学习领域中的研究热点,DNN训练广泛应用在语音识别及其他数据分类上,关于DNN训练的内容这里不再赘述。
在后续步骤中根据第二模型的训练结果与第一模型的训练结果从训练集合B中选择第二训练样本集。
根据实验得到的经验,第二模型的识别结果稳定性不够。而结合第二训练样本集在后续步骤中进行训练能够得到稳定性好的最终数据识别模型。
需要说明的是,本实施例对全部训练样本进行特征工程预处理,以及采用特征筛选来筛选掉不重要甚至有负作用的特征,都是为了训练得到的模型更加可靠。在具体的实施例中,可以在训练得到第一模型和训练得到第二模型时都需要对训练样本进行预处理和特征筛选,也可以仅在训练得到第一模型时进行特征筛选,而在训练第二模型时不进行特征筛选。容易理解的是,即使不进行特征工程预处理及特征筛选,也能提高训练得到的模型的识别效果,使得训练得到的模型的识别效果好于现有技术,这里不再赘述。
步骤S4、根据采用第一训练样本集进行DNN训练的结果与采用第一模型对正样本进行识别的结果,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集。
ROC曲线是显示模型真正率和假正率的一种图形化方法,常用来评估模型的效果,ROC曲线上每个点对应有三个值,分别为纵坐标真正率(True Positive Rate,TPR)、横坐标假正率(False Positive Rate,FPR)和阈值概率。真正率(True Positive Rate,TPR)是指被模型预测为正的正样本与正样本实际数量的比率;假正率(False Positive Rate,FPR)是指被模型预测为正的负样本与负样本实际数量的比率;阈值概率是用来判定预测结果为正的判定阈值,如果样本预测的结果大于该阈值概率则判定为正,否则判定为负。模型的预测效果越好,其TPR越接近于1,FPR越接近于0。
本实施例从训练集合B中选择一部分训练样本作为后续的训练用,选择的具体方法包括:
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,选择训练集合B中概率小于该阈值概率的样本,作为第二训练样本集。
需要说明的是,选择的第二训练样本集中的样本数量小于第一训练样本集中的正样本数量,最多不超过第一训练样本集中的正样本数量,这样是为了保证正负样本的比例,以防止正样本过多导致模型整体效果变差。
选择第二训练样本集还可以根据模型评估得到的概率,从训练集合B中按照概率从大到小顺序选择一定数量的样本第二训练样本集。或者根据经验设定一个阈值,从训练集合B中选择概率大于该阈值的样本作为第二训练样本集。本发明优选地根据ROC曲线的交点进行选择,能够保证在后续的训练中得到更好的结果。
步骤S5、采用第一训练样本集和第二训练样本集进行DNN训练得到最终的数据识别模型。
最后采用第一训练样本集和第二训练样本集进行DNN训练得到最终的数据识别模型,关于DNN深度学习训练模型,这里不再赘述。如图2所示的ROC曲线表明,本实施例训练得到的最终的数据识别模型效果远远好于直接通过逻辑回归训练得到的第一模型效果。图2中上面的曲线为本实施例训练得到的最终的数据识别模型对应的ROC曲线,下面的曲线为直接通过逻辑回归训练得到的第一模型对应的ROC曲线。
通过对最终数据识别模型TOP抓坏率的计算,可以发现本实施例提出的建立数据识别模型的方法大大提高了模型的稳定性。
如图3所示,本实施例还提出了一种建立数据识别模型的装置,用于根据包括正、负样本的训练样本建立数据识别模型,该装置包括:
第一训练模块,用于采用训练样本进行逻辑回归训练,得到第一模型;
采样模块,用于对训练样本按比例采样,获得第一训练样本集;
选择模块,用于采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;
最终模型训练模块,用于采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。
与上述方法对应地,容易理解的是,本装置还包括:
预处理模块,用于在进行按比例采样或进行逻辑回归训练前,对训练样本进行特征工程预处理。
以及,本装置还包括:
特征筛选模块,用于在采用训练样本进行逻辑回归训练之前,对训练样本进行特征筛选,所述特征筛选通过计算特征的信息值,去除信息值小于设定阈值的特征。
优选地,本装置还包括:
第二训练模块,用于采用第一训练样本集进行DNN训练,得到第二模型。
则本实施例采用优选的方法来选择第二训练数据集,选择模块从第一模型识别后具有识别结果的正样本中选择出第二训练样本集时,执行如下操作:
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,从第一模型识别后具有识别结果的正样本中选择出概率小于所述阈值概率的样本作为第二训练样本集。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种建立数据识别模型的方法,用于根据包括正、负样本的训练样本建立数据识别模型,其特征在于,所述建立数据识别模型的方法包括:
采用训练样本进行逻辑回归训练,得到第一模型;
对训练样本按比例采样,获得第一训练样本集;
采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;
采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。
2.根据权利要求1所述的建立数据识别模型的方法,其特征在于,所述建立数据识别模型的方法,在进行按比例采样或进行逻辑回归训练前,还包括:
对训练样本进行特征工程预处理。
3.根据权利要求2所述的建立数据识别模型的方法,其特征在于,所述建立数据识别模型的方法,在采用训练样本进行逻辑回归训练之前,还包括:
对训练样本进行特征筛选,所述特征筛选通过计算特征的信息值,去除信息值小于设定阈值的特征。
4.根据权利要求1所述的建立数据识别模型的方法,其特征在于,所述从第一模型识别后具有识别结果的正样本中选择出第二训练样本集之前,还包括:
采用第一训练样本集进行DNN训练,得到第二模型。
5.根据权利要求4所述的建立数据识别模型的方法,其特征在于,所述从第一模型识别后具有识别结果的正样本中选择出第二训练样本集,包括:
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,从第一模型识别后具有识别结果的正样本中选择出概率小于所述阈值概率的样本作为第二训练样本集。
6.一种建立数据识别模型的装置,用于根据包括正、负样本的训练样本建立数据识别模型,其特征在于,所述装置包括:
第一训练模块,用于采用训练样本进行逻辑回归训练,得到第一模型;
采样模块,用于对训练样本按比例采样,获得第一训练样本集;
选择模块,用于采用训练得到的第一模型对正样本进行识别,从第一模型识别后具有识别结果的正样本中选择出第二训练样本集;
最终模型训练模块,用于采用采样后得到的第一训练样本集与所述第二训练样本集进行深度神经网络DNN训练,得到最终的数据识别模型。
7.根据权利要求6所述的建立数据识别模型的装置,其特征在于,所述装置还包括:
预处理模块,用于在进行按比例采样或进行逻辑回归训练前,对训练样本进行特征工程预处理。
8.根据权利要求7所述的建立数据识别模型的装置,其特征在于,所述装置还包括:
特征筛选模块,用于在采用训练样本进行逻辑回归训练之前,对训练样本进行特征筛选,所述特征筛选通过计算特征的信息值,去除信息值小于设定阈值的特征。
9.根据权利要求6所述的建立数据识别模型的装置,其特征在于,所述装置还包括:
第二训练模块,用于采用第一训练样本集进行DNN训练,得到第二模型。
10.根据权利要求9所述的建立数据识别模型的装置,其特征在于,所述选择模块从第一模型识别后具有识别结果的正样本中选择出第二训练样本集时,执行如下操作:
对训练得到的第一模型进行评估,得到第一模型对应的ROC曲线;
对训练得到的第二模型进行评估,得到第二模型对应的ROC曲线;
根据第一模型与第二模型ROC曲线的交点对应的阈值概率,从第一模型识别后具有识别结果的正样本中选择出概率小于所述阈值概率的样本作为第二训练样本集。
CN201610110817.3A 2016-02-26 2016-02-26 一种建立数据识别模型的方法及装置 Pending CN107133628A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610110817.3A CN107133628A (zh) 2016-02-26 2016-02-26 一种建立数据识别模型的方法及装置
TW106104133A TWI739798B (zh) 2016-02-26 2017-02-08 一種建立資料識別模型的方法及裝置
PCT/CN2017/073444 WO2017143919A1 (zh) 2016-02-26 2017-02-14 一种建立数据识别模型的方法及装置
US16/112,637 US11551036B2 (en) 2016-02-26 2018-08-24 Methods and apparatuses for building data identification models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610110817.3A CN107133628A (zh) 2016-02-26 2016-02-26 一种建立数据识别模型的方法及装置

Publications (1)

Publication Number Publication Date
CN107133628A true CN107133628A (zh) 2017-09-05

Family

ID=59684712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610110817.3A Pending CN107133628A (zh) 2016-02-26 2016-02-26 一种建立数据识别模型的方法及装置

Country Status (4)

Country Link
US (1) US11551036B2 (zh)
CN (1) CN107133628A (zh)
TW (1) TWI739798B (zh)
WO (1) WO2017143919A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109242165A (zh) * 2018-08-24 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种模型训练及基于模型训练的预测方法及装置
CN109325357A (zh) * 2018-08-10 2019-02-12 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价***
CN110163652A (zh) * 2019-04-12 2019-08-23 上海上湖信息技术有限公司 获客转化率预估方法及装置、计算机可读存储介质
CN110363534A (zh) * 2019-06-28 2019-10-22 阿里巴巴集团控股有限公司 用于识别异常交易的方法及装置
CN111160485A (zh) * 2019-12-31 2020-05-15 中国民用航空总局第二研究所 基于回归训练的异常行为检测方法、装置及电子设备

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133628A (zh) 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN107391760B (zh) * 2017-08-25 2018-05-25 平安科技(深圳)有限公司 用户兴趣识别方法、装置及计算机可读存储介质
CN109559214A (zh) 2017-09-27 2019-04-02 阿里巴巴集团控股有限公司 虚拟资源分配、模型建立、数据预测方法及装置
US11539716B2 (en) * 2018-07-31 2022-12-27 DataVisor, Inc. Online user behavior analysis service backed by deep learning models trained on shared digital information
CN109685527B (zh) * 2018-12-14 2024-03-29 拉扎斯网络科技(上海)有限公司 检测商户虚假交易的方法、装置、***及计算机存储介质
CN110009509B (zh) * 2019-01-02 2021-02-19 创新先进技术有限公司 评估车损识别模型的方法及装置
CN109636242A (zh) * 2019-01-03 2019-04-16 深圳壹账通智能科技有限公司 企业评分方法、装置、介质及电子设备
CN110263824B (zh) * 2019-05-29 2023-09-05 创新先进技术有限公司 模型的训练方法、装置、计算设备及计算机可读存储介质
CN110472137B (zh) * 2019-07-05 2023-07-25 中国平安人寿保险股份有限公司 识别模型的负样本构建方法、装置和***
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及***
CN111340102B (zh) * 2020-02-24 2022-03-01 支付宝(杭州)信息技术有限公司 评估模型解释工具的方法和装置
CN111667028B (zh) * 2020-07-09 2024-03-12 腾讯科技(深圳)有限公司 一种可靠负样本确定方法和相关装置
CN111931848B (zh) * 2020-08-10 2024-06-14 中国平安人寿保险股份有限公司 数据的特征提取方法、装置、计算机设备及存储介质
CN112350956B (zh) * 2020-10-23 2022-07-01 新华三大数据技术有限公司 一种网络流量识别方法、装置、设备及机器可读存储介质
WO2024129793A1 (en) * 2022-12-15 2024-06-20 Schlumberger Technology Corporation Machine learning based methane emissions monitoring
CN115905548B (zh) * 2023-03-03 2024-05-10 美云智数科技有限公司 水军识别方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096207B2 (en) * 2002-03-22 2006-08-22 Donglok Kim Accelerated learning in machine vision using artificially implanted defects
CN104636732A (zh) * 2015-02-12 2015-05-20 合肥工业大学 一种基于序列深信度网络的行人识别方法
CN105184226A (zh) * 2015-08-11 2015-12-23 北京新晨阳光科技有限公司 数字识别方法和装置及神经网络训练方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443141B2 (en) * 2008-06-02 2016-09-13 New York University Method, system, and computer-accessible medium for classification of at least one ICTAL state
CN102147851B (zh) * 2010-02-08 2014-06-04 株式会社理光 多角度特定物体判断设备及多角度特定物体判断方法
CN101799875B (zh) * 2010-02-10 2011-11-30 华中科技大学 一种目标检测方法
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US20150112765A1 (en) * 2013-10-22 2015-04-23 Linkedln Corporation Systems and methods for determining recruiting intent
CN103902968B (zh) * 2014-02-26 2015-03-25 中国人民解放军国防科学技术大学 一种基于AdaBoost分类器的行人检测模型训练方法
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
CN104702492B (zh) * 2015-03-19 2019-10-18 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN104966097B (zh) * 2015-06-12 2019-01-18 成都数联铭品科技有限公司 一种基于深度学习的复杂文字识别方法
WO2017004448A1 (en) * 2015-07-02 2017-01-05 Indevr, Inc. Methods of processing and classifying microarray data for the detection and characterization of pathogens
CN107133628A (zh) 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
US20170249594A1 (en) * 2016-02-26 2017-08-31 Linkedln Corporation Job search engine for recent college graduates

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096207B2 (en) * 2002-03-22 2006-08-22 Donglok Kim Accelerated learning in machine vision using artificially implanted defects
CN104636732A (zh) * 2015-02-12 2015-05-20 合肥工业大学 一种基于序列深信度网络的行人识别方法
CN105184226A (zh) * 2015-08-11 2015-12-23 北京新晨阳光科技有限公司 数字识别方法和装置及神经网络训练方法和装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390A (zh) * 2017-11-22 2018-03-13 阿里巴巴集团控股有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
CN109241770B (zh) * 2018-08-10 2021-11-09 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109325357A (zh) * 2018-08-10 2019-02-12 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN109325357B (zh) * 2018-08-10 2021-12-14 深圳前海微众银行股份有限公司 基于rsa的信息值计算方法、设备及可读存储介质
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质
CN109242165A (zh) * 2018-08-24 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种模型训练及基于模型训练的预测方法及装置
CN109919931A (zh) * 2019-03-08 2019-06-21 数坤(北京)网络科技有限公司 冠脉狭窄度评价模型训练方法及评价***
CN110163652A (zh) * 2019-04-12 2019-08-23 上海上湖信息技术有限公司 获客转化率预估方法及装置、计算机可读存储介质
CN110163652B (zh) * 2019-04-12 2021-07-13 上海上湖信息技术有限公司 获客转化率预估方法及装置、计算机可读存储介质
CN110363534A (zh) * 2019-06-28 2019-10-22 阿里巴巴集团控股有限公司 用于识别异常交易的方法及装置
CN111160485A (zh) * 2019-12-31 2020-05-15 中国民用航空总局第二研究所 基于回归训练的异常行为检测方法、装置及电子设备
CN111160485B (zh) * 2019-12-31 2022-11-29 中国民用航空总局第二研究所 基于回归训练的异常行为检测方法、装置及电子设备

Also Published As

Publication number Publication date
WO2017143919A1 (zh) 2017-08-31
US20180365522A1 (en) 2018-12-20
TW201732662A (zh) 2017-09-16
TWI739798B (zh) 2021-09-21
US11551036B2 (en) 2023-01-10

Similar Documents

Publication Publication Date Title
CN107133628A (zh) 一种建立数据识别模型的方法及装置
JP6771751B2 (ja) リスク評価方法およびシステム
CN109583468B (zh) 训练样本获取方法,样本预测方法及对应装置
CN109949286A (zh) 用于输出信息的方法和装置
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN108985060A (zh) 一种大规模安卓恶意软件自动化检测***及方法
CN110610193A (zh) 标注数据的处理方法及装置
CN109191276B (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN107729469A (zh) 用户挖掘方法、装置、电子设备及计算机可读存储介质
KR102362872B1 (ko) 인공지능 학습을 위한 클린 라벨 데이터 정제 방법
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定***及方法
KR20200075120A (ko) 기업 부도 예측 시스템 및 이의 동작 방법
CN113240506A (zh) 一种基于无监督领域自适应的金融风控冷启动建模方法
CN110084609A (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN107784411A (zh) 模型中关键变量的探测方法及装置
CN106022915A (zh) 企业信用风险评估方法和装置
CN116151857A (zh) 一种营销模型的构建方法及装置
CN110555007A (zh) 盗号行为判别方法、装置、计算设备及存储介质
CN110728310B (zh) 一种基于超参数优化的目标检测模型融合方法及融合***
Fang et al. ACRM: Attention cascade R-CNN with Mix-NMS for metallic surface defect detection
CN113554099A (zh) 一种识别异常商户的方法及装置
CN113469816A (zh) 基于多组学技术的数字货币识别方法、***和存储介质
Pristyanto et al. Comparison of ensemble models as solutions for imbalanced class classification of datasets
Fanca et al. Romanian coins recognition and sum counting system from image using TensorFlow and Keras

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170905

WD01 Invention patent application deemed withdrawn after publication