CN113344613A - 一种数据匹配的方法、装置、电子设备及存储介质 - Google Patents
一种数据匹配的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113344613A CN113344613A CN202110580067.7A CN202110580067A CN113344613A CN 113344613 A CN113344613 A CN 113344613A CN 202110580067 A CN202110580067 A CN 202110580067A CN 113344613 A CN113344613 A CN 113344613A
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- matching
- candidate object
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种数据匹配的方法、装置、电子设备及存储介质。其中方法包括:获取用户的特征信息;根据特征信息对用户进行分类,得到用户对应的分类结果;确定分类结果对应的候选对象;将特征信息输入候选对象对应的匹配度预测模型,得到用户与候选对象之间的匹配值;根据匹配值,在所有候选对象中选择得到与用户匹配的目标对象。本申请先通过对用户进行分类,可以快速缩小需要与用户进行匹配值计算的候选对象的范围;并且,通过匹配度预测模型,可以快速综合用户各个维度的信息,预测得到候选对象与用户之间的匹配值,进而便于基于匹配值对用户进行后续评估,可以有效提高匹配的准确性。
Description
技术领域
本申请涉及资源分配技术领域,尤其涉及一种数据匹配的方法、装置、电子设备及存储介质。
背景技术
随着互联网的发展,越来越多的商家通过线上平台向消费者提供产品。
在相关技术中,对于商家以及消费者需要进行双向选择的场景(例如:金融类产品销售)中,商家需要在消费者的资质满足其要求之后,才会向其销售对应的产品,相关技术中的线上平台只能够向用户推荐大量的产品,然后由用户自己选择感兴趣的产品,进而会在双向选择的场景下,造成消费者无法选择得到真正适合的产品,商家也无法获取合适的用户的问题。基于此,会给商家引导大量无效的消费者,增加商家的信息筛选工作,影响商家的成单率;同时消费者在进行产品选择之后却无法通过,也会降低消费者的用户体验;进而影响平台的整体运营效率。
由此可见,相关技术中的数据匹配的方法存在匹配准确性差的技术问题。
发明内容
为了解决相关技术中存在的匹配准确性差的技术问题,本申请提供了一种数据匹配的方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种数据匹配的方法,包括:
获取用户的特征信息;
根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果;
确定所述分类结果对应的候选对象;
将所述特征信息输入所述候选对象对应的匹配度预测模型,得到所述用户与所述候选对象之间的匹配值;
根据所述匹配值,在所有所述候选对象中选择得到与所述用户匹配的目标对象。
可选的,如前述的方法,所述根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果,包括:
将所述特征信息输入预设的决策树模型中,得到所述用户的置信度;
在所有置信度区间中,确定包括所述置信度的目标置信度区间;
确定所述目标置信度区间的分类结果为所述用户的分类结果。
可选的,如前述的方法,所述匹配度预测模型包括:预先训练得到的被选择率预测模型以及虚拟资源交换率预测模型;所述将所述特征信息输入所述匹配度预测模型,得到所述用户与所述候选对象之间的匹配值,包括:
确定所述候选对象对应的权重信息;
将所述特征信息输入所述被选择率预测模型,得到所述用户被所述候选对象选择的被选择概率值;
将所述特征信息输入所述虚拟资源交换率预测模型,得到所述用户与所述候选对象之间的虚拟资源交换概率值;
将所述权重信息、所述被选择概率值以及所述虚拟资源交换概率值相乘,得到所述匹配值。
可选的,如前述的方法,在所述将所述特征信息输入所述候选对象对应的匹配度预测模型之前,还包括:
在任一子匹配项下,确定所述候选对象匹配的正样本历史数据集合,以及与所述候选对象不匹配的负样本历史数据集合;所述子匹配项为被选择概率或虚拟资源交换概率;
对所述正样本历史数据正样本历史数据集合进行划分得到第一正样本历史数据子集和第二正样本历史数据子集;对所述负样本历史数据集合进行划分得到第一负样本历史数据子集和第二负样本历史数据子集;
根据所述第一正样本历史数据子集和第一负样本历史数据子集,得到用于对所述子匹配项对应的待训练模型进行训练的训练数据集合,根据所述第二正样本历史数据子集和第二负样本历史数据子集,得到用于对所述待训练模型进行验证的验证数据集合;
在通过所述训练数据集合对所述待训练模型进行训练后,得到训练后模型;
在所述训练后模型通过所述验证数据集合验证,并且满足预设精度要求时,根据所述训练后模型得到所述子匹配项下的子匹配度预测模型。
可选的,如前述的方法,在所述通过所述训练数据对所述待训练模型进行训练后,还包括:
确定特征集合中的各个候选特征的重要性权重值;所述特征集合包括:所述训练数据中的已有特征以及衍生特征;所述衍生特征由所述待训练模型通过训练,根据已有特征学习得到;
根据所述重要性权重值对所有所述候选特征进行划分得到第一特征子集以及第二特征子集,将所述第一特征子集中任一个特征的重要性权重值大于或等于所述第二特征子集中任一个特征的重要性权重值。
可选的,如前述的方法,将所述特征信息输入所述候选对象对应的匹配度预测模型,包括:
确定所述匹配度预测模型的目标特征集;
在所述特征信息中,筛选得到与所述目标特征集中的已有特征对应的第一目标特征信息;
在所述特征信息中,通过确定与所述目标特征集中的衍生特征对应的特征信息集,得到所述衍生特征对应的第二目标特征信息;
将所述第一目标特征信息以及第二目标特征信息输入所述匹配度预测模型。
可选的,如前述的方法,在所述获取用户的特征信息之后,还包括:
将所述特征信息输入预设的决策树模型中,得到所述用户的置信度;
在所述置信度小于预设下限值时,将所述用户标记为无需分配至任一候选对象的无需分配用户。
第二方面,本申请实施例提供了一种数据匹配的装置,包括:
获取模块,用于获取用户的特征信息;
分类模块,用于根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果;
对象确定模块,用于确定所述分类结果对应的候选对象;
预测模块,用于将所述特征信息输入所述候选对象对应的匹配度预测模型,得到所述用户与所述候选对象之间的匹配值;
选择模块,用于根据所述匹配值,在所有所述候选对象中选择得到与所述用户匹配的目标对象。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现如前述任一项所述的方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行如前任一项所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,先通过对用户进行分类,可以快速缩小需要与用户进行匹配值计算的候选对象的范围;并且,通过匹配度预测模型,可以快速综合用户各个维度的信息,预测得到候选对象与用户之间的匹配值,进而便于基于匹配值对用户进行后续评估,可以有效提高匹配的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据匹配的方法的流程图;
图2为本申请另一实施例提供的一种数据匹配的方法的流程图;
图3为本申请另一实施例提供的一种数据匹配的方法的流程图;
图4为本申请另一实施例提供的一种数据匹配的方法的流程图;
图5为本申请实施例提供的一种数据匹配的装置的框图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在一些场景中,当平台同时对接有消费者以及商家,且商家和消费者需要双向选择时,为了提高商家和消费者互相选择对方的概率;本申请实施例提供一种如图1所示的数据匹配的方法,包括如下所述步骤S1至S5:
步骤S1,获取用户的特征信息。
具体的,特征信息,可以是用于表征用户身份、喜好等特征的信息,可以包括多组相互对应的特征以及特征值,例如:当特征为年龄时,特征值为20岁。
其中一种可选的实现方式中,可以通过获取用户在实现本实施例方法的平台中上传的用户信息,以及通过对用户在平台中的历史行为进行分析得到的行为信息,得到特征信息。
举例的:首先,可以获取用户自身上传至平台中的包括但不限于如下所述的相关信息:教育水平、收入水平、年龄、性别、地区等;其次,当用户在本平台中进行浏览(例如:进行商品浏览或者视频观看等)或进行会员注册之后可以确定用户的会员信息(可以包括:会员等级、累计开通会员时长等信息),通过获取浏览商品历史记录可以分析得到用户的对商品的购买意愿信息;最后,可以基于教育水平、年龄、性别、地区、会员信息以及购买意愿信息等,得到与该用户对应的特征信息。进一步的,还可以通过上述信息,生成与该用户对应的用户画像,以通过用户画像表征该用户的特征信息。
步骤S2,根据特征信息对用户进行分类,得到用户对应的分类结果。
具体的,对用户进行分类,是为了便于后期根据用户对应的分类结果,给用户推送对应的商家或产品,以提高用户快速选择得到感兴趣商家或产品的概率。
其中一种可选的实现方式中,可以通过将特征信息输入训练好的模型或者用于进行分类的决策树中,以根据特征信息对用户进行分类,得到该用户对应的分类结果。
举例的:当用户的特征信息中包括:教育水平高、收入水平高时,对用户进行分类得到的分类结果可以是信用等级高的分类结果;当用户的特征信息中包括存在逾期行为时,则用户的分类结果可以是信用等级低。
步骤S3,确定分类结果对应的候选对象。
具体的,候选对象可以是用于推送给用户的商家或者产品。
每个分类结果对应的候选对象都可以预先设置,并且每个分类结果都可以对应有一个候选对象或多个候选对象;特别的,当分类结果表征用户不满足被推送任一商家或者产品的要求时,则该分类结果可以不设置有对应的候选对象。
举例的,当分类结果包括:高信用等级、中信用等级、低信用等级三档时;且预先设置中,高信用等级对应的候选对象为银行类机构(例如:包括银行A、银行B、银行C等等);中信用等级对应的候选对象为消费金融类机构(例如:机构A、机构B、机构C等等),低信用等级对应的候选对象为空。
步骤S4,将特征信息输入候选对象对应的匹配度预测模型,得到用户与候选对象之间的匹配值。
具体的,每个候选对象有对应的匹配度预测模型,且匹配度预测模型用于确定用户与候选对象之间的匹配值,通过匹配值,则可以表征:各个用户选择候选对象的概率,以及用户被候选对象选择的概率中的至少一个。
举例的,由于每个候选对象有对应的匹配度预测模型,因此,可以将每个候选对象的历史数据对该候选对象对应的待训练模型进行训练,得到匹配度预测模型。
步骤S5,根据匹配值,在所有候选对象中选择得到与用户匹配的目标对象。
具体的,在得到用户与各个候选对象之间的匹配值之后,可以先对该用户分别与各个候选对象之间的匹配值进行排序,然后选择匹配值最高的候选对象作为目标对象。
举例的,当用户对应的分类结果为高信用等级时,给其分配的候选对象包括银行A、银行B、银行C;且按照步骤S4计算得到的与银行A、银行B、银行C之间的匹配值分别为80、90和60时,则选择匹配值为90的银行B作为目标对象。
综上所述,通过本实施例中的方法,先通过对用户进行分类,可以快速缩小需要与用户进行匹配值计算的候选对象的范围;并且,通过匹配度预测模型,可以快速综合用户各个维度的信息,预测得到候选对象与用户之间的匹配值,进而便于基于匹配值对用户进行后续评估,可以有效提高匹配的准确性。
如图2所示,在一些实施例中,如前述的方法,所述步骤S2根据特征信息对用户进行分类,得到用户对应的分类结果,包括如下所述步骤S21至S23:
步骤S21,将特征信息输入预设的决策树模型中,得到用户的置信度。
具体的,置信度,为分类结果所依据的数据,因此置信度表征的数据类型与分类结果依据的数据类型相一致;举例的,当分类结果是依据用户的信用度时,则置信度为用于评价用户的信用度的信用值。
决策树模型是一种简单易用的非参数分类器,不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强。在本申请中,决策树模型,可以是用于根据特征信息,对用户进行分析,确定用户置信度的模型。当将特征信息输入决策树模型之后,决策树模型中的各个决策点可以对特征信息中的各个子特征信息进行决策,进而在对需要进行分析的所有子特征信息进行决策之后,得到用户的置信度。
举例的:当特征信息中包括:子特征A(特征信息为a)、子特征B(特征信息为b)、子特征C(特征信息为c)时。并且决策树模型中依次包括用于对子特征A、子特征B和子特征C进行分类的决策点A、决策点B和决策点C;在依次通过决策点A、决策点B和决策点C对各个子特征进行决策分类之后,输出特征信息对应的置信度,并将其作为用户的置信度。
步骤S22,在所有置信度区间中,确定包括置信度的目标置信度区间;
步骤S23,确定目标置信度区间的分类结果为用户的分类结果。
具体的,可以预先设置多个置信度区间,置信度区间可以是一个数值区间,并且,每个置信度区间对应一个分类结果。
可以先确定置信度被包含于哪个置信度区间内,然后基于置信度区间与分类结果之间的一一对应关系,确定用户的分类结果。
举例的,当置信度区间包括:置信度区间I[0.3,1],置信度区间II(0.1,0.3),置信度区间III[0,0.1];且置信度用于表征用于逾期还款概率时,上述三个置信度区间对应的分类结果可以分别是:低信用等级、中信用等级,高信用等级;当存在一置信度为0.444时,则判断其位于置信度区间I中,且其对应的信用等级为低信用等级。
在将实施例方法应用于借贷场景中,可以得到如下表所示的结果:
用户分类 | 低信用等级 | 中信用等级 | 高信用等级 |
逾期率 | 12.40% | 6.70% | 3.30% |
人群分布情况 | 37.20% | 13.60% | 49.20% |
由此可知,低信用等级、中信用等级、高信用等级用户逾期率分别为12.4%、6.70%和3.30%,降低明显,因而信用等级区分明显,达到了良好的分层效果;并且,采用本实施例中的方法可以达到快速对用户进行分类的目的,降低人工对用户资质进行筛选造成的效率低下的问题。
如图3所示,在一些实施例中,如前述的方法,匹配度预测模型包括:预先训练得到的被选择率预测模型以及虚拟资源交换率预测模型;所述步骤S4将特征信息输入匹配度预测模型,得到用户与候选对象之间的匹配值,包括如下所述步骤S411至S414:
步骤S411,确定候选对象对应的权重信息。
具体的,权重信息,可以是与各个候选对象对应的,对各个候选对象进行选择时的加权信息。
举例的,当提供本实施例的方法对应服务的平台用于将用户导向候选对象,并且在用户与候选对象进行双向选择之后,权重信息可以是该平台可以得到的来自于候选对象的分润系数。
步骤S412,将特征信息输入被选择率预测模型,得到用户被候选对象选择的被选择概率值。
具体的,用户与候选对象之间存在一个双向选择的情况,因此,在将用户推送给候选对象时,还需要判断候选对象是否会选择该用户;被选择率预测模型则是用于计算用户被候选对象选择的被选择概率值的模型;并且,被选择概率值是被选择率预测模型通过对特征信息进行处理后计算得到;进一步的,被选择率预测模型可以事先通过多个历史用户的特征信息进行训练得到。
步骤S413,将特征信息输入虚拟资源交换率预测模型,得到用户与候选对象之间的虚拟资源交换概率值。
具体的,由前可知,由于用户与候选对象之间存在一个双向选择的情况,因此,在候选对象选择该用户之后,还需要该用户与该候选对象的进行虚拟资源交换之后,才能判定为用户与候选对象之间产生交易;被虚拟资源交换率预测模型则是用于计算用户与候选对象之间进行虚拟资源交换概率值的模型;并且,虚拟资源交换概率值是虚拟资源交换率预测模型通过对特征信息进行处理后计算得到;进一步的,虚拟资源交换率预测模型可以事先通过多个历史用户的特征信息进行训练得到。
步骤S414,将权重信息、被选择概率值以及虚拟资源交换概率值相乘,得到匹配值。
也就是说,匹配值是权重信息λ、被选择概率值PassRate以及虚拟资源交换概率值DrawdowmRate之积。
举例的,对于每个候选对象i对应的匹配值Maxi为:
Maxi=PassRate(i)×DrawdowmRate(i)×λi。
进而,通过本实施例中的方法,可以计算得到每个用户与每个候选对象之间的匹配值,以便对后期根据匹配值确定用户的具体分配至的候选对象,可以有效提高成单率,并减少无效的推送。
如图4所示,在一些实施例中,如前述的方法,在所述步骤S4将特征信息输入候选对象对应的匹配度预测模型之前,还包括如下所述步骤P1至P5:
步骤P1,在任一子匹配项下,确定候选对象匹配的正样本历史数据集合,以及与候选对象不匹配的负样本历史数据集合;子匹配项为被选择概率或虚拟资源交换概率。
具体的,正样本历史数据集合中的每个样本数据,是与候选对象匹配的历史用户的历史特征信息。
负样本历史数据集合中的每个样本数据,是与候选对象不匹配的历史用户的历史特征信息。
进一步的,当子匹配项为被选择概率时,正样本历史数据集合中的每个样本数据,是被候选对象选择的历史用户的历史特征信息;负样本历史数据集合中的每个样本数据,是未被候选对象选择的历史用户的历史特征信息。
当子匹配项为虚拟资源交换概率时,正样本历史数据集合中的每个样本数据,是与候选对象进行虚拟资源交换的历史用户的历史特征信息;负样本历史数据集合中的每个样本数据,是未与候选对象进行虚拟资源交换的历史用户的历史特征信息。
其中一种可选的实现方式中,可以预先将历史特征信息按照每个候选对象进行分组,得到与每个候选对象对应的历史特征信息集合;然后根据子匹配项,对候选对象对应的历史特征信息集合进一步进行分组,分别得到与该候选对象对应的,用于获取被选择概率的历史特征信息集合,以及虚拟资源交换概率的历史特征信息集合;最后再分别对被选择概率对应的历史特征信息集合,以及虚拟资源交换概率对应的历史特征信息集合按照正样本以及负样本进行拆分,得到被选择概率对应的正样本历史数据集合和负样本历史数据集合,以及虚拟资源交换概率对应的正样本历史数据集合和负样本历史数据集合。
步骤P2,对正样本历史数据集合进行划分得到第一正样本历史数据子集和第二正样本历史数据子集;对负样本历史数据集合进行划分得到第一负样本历史数据子集和第二负样本历史数据子集。
具体的,在得到正样本历史数据集合以及负样本历史数据集合之后,可以通过对集合中的数据进行分组,进而得到第一正样本历史数据子集、第二正样本历史数据子集、第一负样本历史数据子集和第二负样本历史数据子集。
在一些可选的实现方式中,可以将正样本历史数据集合平均分为10份数据,在每次训练时,取其中5份数据作为第一正样本历史数据子集,另5份数据作为第二正样本历史数据子集;将负样本历史数据集合平均分为10份数据,取其中5份数据作为第一负样本历史数据子集,另5份数据作为第二负样本历史数据子集。
步骤P3,根据第一正样本历史数据子集和第一负样本历史数据子集,得到用于对子匹配项对应的待训练模型进行训练的训练数据集合,根据第二正样本历史数据子集和第二负样本历史数据子集,得到用于对待训练模型进行验证的验证数据集合。
具体的,根据第一正样本历史数据子集和第一负样本历史数据子集,得到用于对子匹配项对应的待训练模型进行训练的训练数据集合,也就是说,将正样本历史数据集合中的部分数据加入训练数据集合中,作为训练数据,以及将负样本历史数据集合中的部分数据加入训练数据集合中,作为训练数据。
根据第二正样本历史数据子集和第二负样本历史数据子集,得到用于对待训练模型进行验证的验证数据集合,也就是说,将正样本历史数据集合中的部分数据加入验证数据集合中,作为验证数据,以及将负样本历史数据集合中的部分数据加入验证数据集合中,作为验证数据。在前述步骤P2的基础上,每次训练时,轮流将正样本历史数据集合中5份数据作为第一正样本历史数据子集,另5份数据作为第二正样本历史数据子集;以及轮流将负样本历史数据集合中5份数据作为第一负样本历史数据子集,另5份数据作为第二负样本历史数据子集。进而可以实现5折交叉验证的目的。
步骤P4,在通过训练数据集合对待训练模型进行训练后,得到训练后模型。
也就是说,训练数据集合中的数据是用于对待训练模型进行训练的,并且在完成训练之后,即可得到训练后模型。
其中一种可选的实现方式中,待训练模型可以采用XGBoost模型,其中,XGBoost是集成学习算法GBDT的一种优化实现,属于前向加法模型,原理上每轮迭代采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树,训练完毕后将所有决策树相加,得到最终预测结果。
步骤P5,在训练后模型通过验证数据集合验证,并且满足预设精度要求时,根据训练后模型得到子匹配项下的子匹配度预测模型。
具体的,可以将待验证数据集合中的验证数据输入训练后模型中,得到由训练后模型对验证数据进行处理后输出的预测信息,在满足某一比例(例如95%)的预测信息符合验证数据对应的真实结果时,判定满足预设精度要求,进而将该训练后模型作为子匹配项对应的子匹配度预测模型。
通过本实施例中的方法,可以将生成的正负样本进行离线Hive存储,然后基于正负样本对待训练模型进行训练和验证,进而可以使模型对不同类型的信息均能得到良好的预测效果,可以有效提高准确性。
在一些实施例中,如前述的方法,在所述步骤P4通过训练数据对待训练模型进行训练后,还包括如下所述步骤P6和P7:
步骤P6,确定特征集合中的各个候选特征的重要性权重值;特征集合包括:训练数据中的已有特征,以及衍生特征;衍生特征由待训练模型通过训练后,根据已有特征学习得到。
具体的,在通过特征信息对待训练模型进行训练之后,待训练模型会根据特征信息中的已有特征进行学习后,得到衍生特征,其中,衍生特征生成的原因包括:特征信息自身的变化,使特征信息中出现很多原来没有的特征;进行特征学习时,算法根据特征之间的某种关系,产生了衍生特征,有时衍生特征更能反应特征信息中不同特征之间的关系。
重要性权重值,可以是用于指示特征集合中的各个特征对预测结果的影响程度的权重值。
在一些可选的实现方式中,当待训练模型采用XGBoost模型时,在通过训练数据对XGBoost模型进行训练时,XGBoost模型在预测得到结果的同时,还可以得到各个候选特征的重要性权重值。
步骤P7,根据重要性权重值对所有候选特征进行划分得到第一特征子集以及第二特征子集,将第一特征子集中任一个特征的重要性权重值大于或等于第二特征子集中任一个特征的重要性权重值。
也就是说,根据重要性权重值对各个候选特征进行划分,并且划分得到第一特征子集和第二特征子集的方式可以为:确定需要选择的候选特征重要性权重值的最小值,将重要性权重值大于或等于最小值的候选特征划分至第一特征子集中,将重要性权重值小于或等于最小值的候选特征划分至第二特征子集中。
通过本实施例中的方法,可以对候选特征进行划分,以便与后期进行模型训练时,可以采用中药行权重值高的候选特征进行训练,进而可以提高训练的速度以及准确性。
在一些实施例中,如前述的方法,所述步骤S4将特征信息输入候选对象对应的匹配度预测模型,包括如下所述步骤S421至S424:
步骤S421,确定匹配度预测模型的目标特征集。
具体的,目标特征集中包括:匹配度预测模型用于进行匹配度预测的特征。
可选的,目标特征集中的特征,可以包括特征信息中已有的特征,以及在训练时,根据训练数据学习得到的衍生特征。
步骤S422,在特征信息中,筛选得到与目标特征集中的已有特征对应的第一目标特征信息;
具体的,第一目标特征信息,为特征信息中与已有特征的特征类型一致的特征对应的信息。
由于并不是特征信息中的所有信息匹配度预测模型都会采用,并用于预测分析;因此,需要在特征信息中确定与已有特征对应的第一目标特征信息,可选的,可以通过已有特征对应的特征类型字段信息在特征信息中进行匹配,得到第一目标特征信息。
举例的:当已有特征包括:年龄、性别以及收入时;则分别通过年龄、性别以及收入在特征信息中进行筛选,以得到年龄、性别以及收入对应的第一目标特征信息。
步骤S423,在特征信息中,通过确定与目标特征集中的衍生特征对应的特征信息集,得到衍生特征对应的第二目标特征信息。
具体的,第二目标特征信息,为用于得到衍生特征的各个特征所对应的信息;进一步的,通过确定各个衍生特征,即可得到匹配度预测模型所需的所有第二目标特征信息。
举例的,当衍生特征为匹配度预测模型根据特征1、特征2和特征3预测得到时,该衍生特征对应的第二目标特征信息为:特征1对应的信息、特征2对应的信息以及特征3对应的信息。
步骤S424,将第一目标特征信息以及第二目标特征信息输入匹配度预测模型。
具体的,由于第一目标特征信息以及第二目标特征信息是根据已有特征以及衍生特征得到的,因此匹配度预测模型只需上述两种信息即可用于进行预测,进而只需将第一目标特征信息以及第二目标特征信息输入匹配度预测模型即可。
在一些实施例中,如前述的方法,在所述步骤S1获取用户的特征信息之后,还包括如下所述步骤A1和A2:
步骤A1,将特征信息输入预设的决策树模型中,得到用户的置信度。
具体的,本实施例中该步骤的具体实现方式,可参照前述实施例中步骤S21中的相关描述,在此不再进行赘述。
步骤A2,在置信度不在预设置信度区间内时,将用户标记为无需分配至任一候选对象的无需分配用户。
具体的,无需分配用户,可以是该用户不满足分配至候选对象的条件时,用于对该用户进行标记的信息。
预设置信度区间内,可以是用户可以分配至某一候选对象的最低值和最高值构成的区间信息。
举例的,当预设置信度区间为[0,0.3]时,且该用户甲的逾期率(即:置信度)为0.54时,该用户甲的逾期率不在预设置信度区间内,因此将该用户甲标记为无需分配用户;当另一用户乙的逾期率为0.03时,用户乙逾期率在预设置信度区间内,因此无需对该用户乙进行标记。
通过本实施例中的方法,可以对用户进一步进行分类,并且当该用户为无需分配用户时,则可以不将其分配至任一候选对象,可以有效避免无用的推送,提升成功率;并且可以有效降低推送所占用的***资源(例如:带宽资源)。
如图5所示,根据本申请另一方面的一个实施例,还提供了一种数据匹配的装置,包括:
获取模块1,用于获取用户的特征信息;
分类模块2,用于根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果;
对象确定模块3,用于确定所述分类结果对应的候选对象;
预测模块4,用于将所述特征信息输入所述候选对象对应的匹配度预测模型,得到所述用户与所述候选对象之间的匹配值;
选择模块5,用于根据所述匹配值,在所有所述候选对象中选择得到与所述用户匹配的目标对象。
具体的,本发明实施例的装置中各模块实现其功能的具体过程可参见方法实施例中的相关描述,此处不再赘述。
根据本申请的另一个实施例,还提供一种电子设备,包括:如图6所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的程序时,实现上述方法实施例的步骤。
上述电子设备提到的总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供一种存储介质,存储介质包括存储的程序,其中,程序运行时执行上述方法实施例的方法步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据匹配的方法,其特征在于,包括:
获取用户的特征信息;
根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果;
确定所述分类结果对应的候选对象;
将所述特征信息输入所述候选对象对应的匹配度预测模型,得到所述用户与所述候选对象之间的匹配值;
根据所述匹配值,在所有所述候选对象中选择得到与所述用户匹配的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果,包括:
将所述特征信息输入预设的决策树模型中,得到所述用户的置信度;
在所有置信度区间中,确定包括所述置信度的目标置信度区间;
确定所述目标置信度区间的分类结果为所述用户的分类结果。
3.根据权利要求1所述的方法,其特征在于,所述匹配度预测模型包括:预先训练得到的被选择率预测模型以及虚拟资源交换率预测模型;所述将所述特征信息输入所述匹配度预测模型,得到所述用户与所述候选对象之间的匹配值,包括:
确定所述候选对象对应的权重信息;
将所述特征信息输入所述被选择率预测模型,得到所述用户被所述候选对象选择的被选择概率值;
将所述特征信息输入所述虚拟资源交换率预测模型,得到所述用户与所述候选对象之间的虚拟资源交换概率值;
将所述权重信息、所述被选择概率值以及所述虚拟资源交换概率值相乘,得到所述匹配值。
4.根据权利要求1所述的方法,其特征在于,在所述将所述特征信息输入所述候选对象对应的匹配度预测模型之前,还包括:
在任一子匹配项下,确定所述候选对象匹配的正样本历史数据集合,以及与所述候选对象不匹配的负样本历史数据集合;所述子匹配项为被选择概率或虚拟资源交换概率;
对所述正样本历史数据正样本历史数据集合进行划分得到第一正样本历史数据子集和第二正样本历史数据子集;对所述负样本历史数据集合进行划分得到第一负样本历史数据子集和第二负样本历史数据子集;
根据所述第一正样本历史数据子集和第一负样本历史数据子集,得到用于对所述子匹配项对应的待训练模型进行训练的训练数据集合,根据所述第二正样本历史数据子集和第二负样本历史数据子集,得到用于对所述待训练模型进行验证的验证数据集合;
在通过所述训练数据集合对所述待训练模型进行训练后,得到训练后模型;
在所述训练后模型通过所述验证数据集合验证,并且满足预设精度要求时,根据所述训练后模型得到所述子匹配项下的子匹配度预测模型。
5.根据权利要求4所述的方法,其特征在于,在所述通过所述训练数据对所述待训练模型进行训练后,还包括:
确定特征集合中的各个候选特征的重要性权重值;所述特征集合包括:所述训练数据中的已有特征以及衍生特征;所述衍生特征由所述待训练模型通过训练,根据已有特征学习得到;
根据所述重要性权重值对所有所述候选特征进行划分得到第一特征子集以及第二特征子集,将所述第一特征子集中任一个特征的重要性权重值大于或等于所述第二特征子集中任一个特征的重要性权重值。
6.根据权利要求1所述的方法,其特征在于,将所述特征信息输入所述候选对象对应的匹配度预测模型,包括:
确定所述匹配度预测模型的目标特征集;
在所述特征信息中,筛选得到与所述目标特征集中的已有特征对应的第一目标特征信息;
在所述特征信息中,通过确定与所述目标特征集中的衍生特征对应的特征信息集,得到所述衍生特征对应的第二目标特征信息;
将所述第一目标特征信息以及第二目标特征信息输入所述匹配度预测模型。
7.根据权利要求1所述的方法,其特征在于,在所述获取用户的特征信息之后,还包括:
将所述特征信息输入预设的决策树模型中,得到所述用户的置信度;
在所述置信度小于预设下限值时,将所述用户标记为无需分配至任一候选对象的无需分配用户。
8.一种数据匹配的装置,其特征在于,包括:
获取模块,用于获取用户的特征信息;
分类模块,用于根据所述特征信息对所述用户进行分类,得到所述用户对应的分类结果;
对象确定模块,用于确定所述分类结果对应的候选对象;
预测模块,用于将所述特征信息输入所述候选对象对应的匹配度预测模型,得到所述用户与所述候选对象之间的匹配值;
选择模块,用于根据所述匹配值,在所有所述候选对象中选择得到与所述用户匹配的目标对象。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1至7任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580067.7A CN113344613B (zh) | 2021-05-26 | 2021-05-26 | 一种数据匹配的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110580067.7A CN113344613B (zh) | 2021-05-26 | 2021-05-26 | 一种数据匹配的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113344613A true CN113344613A (zh) | 2021-09-03 |
CN113344613B CN113344613B (zh) | 2023-09-01 |
Family
ID=77471641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110580067.7A Active CN113344613B (zh) | 2021-05-26 | 2021-05-26 | 一种数据匹配的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113344613B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963910A (en) * | 1996-09-20 | 1999-10-05 | Ulwick; Anthony W. | Computer based process for strategy evaluation and optimization based on customer desired outcomes and predictive metrics |
WO2002005123A2 (en) * | 2000-07-06 | 2002-01-17 | Protigen, Inc. | System and method for using psychological significance pattern information for matching with target information |
CN102737334A (zh) * | 2011-03-02 | 2012-10-17 | 奥多比公司 | 微细分定义*** |
WO2012160567A1 (en) * | 2011-05-20 | 2012-11-29 | Yogesh Chunilal Rathod | A system and method for providing unified active search engine based on search result item specific identified, dynamic, contextual & accessible active links. |
US8484225B1 (en) * | 2009-07-22 | 2013-07-09 | Google Inc. | Predicting object identity using an ensemble of predictors |
CN106326371A (zh) * | 2016-08-12 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 服务推送方法及装置 |
CN107194723A (zh) * | 2017-05-17 | 2017-09-22 | 中国科学技术大学 | 网络小额贷款中借款项目与出借人的双向匹配推荐方法 |
JP2019079302A (ja) * | 2017-10-25 | 2019-05-23 | 日本電気株式会社 | 営業活動支援システム、営業活動支援方法および営業活動支援プログラム |
CN110866805A (zh) * | 2019-11-13 | 2020-03-06 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和*** |
CN111104585A (zh) * | 2018-10-25 | 2020-05-05 | 北京嘀嘀无限科技发展有限公司 | 一种问题推荐方法及装置 |
-
2021
- 2021-05-26 CN CN202110580067.7A patent/CN113344613B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963910A (en) * | 1996-09-20 | 1999-10-05 | Ulwick; Anthony W. | Computer based process for strategy evaluation and optimization based on customer desired outcomes and predictive metrics |
WO2002005123A2 (en) * | 2000-07-06 | 2002-01-17 | Protigen, Inc. | System and method for using psychological significance pattern information for matching with target information |
US8484225B1 (en) * | 2009-07-22 | 2013-07-09 | Google Inc. | Predicting object identity using an ensemble of predictors |
CN102737334A (zh) * | 2011-03-02 | 2012-10-17 | 奥多比公司 | 微细分定义*** |
WO2012160567A1 (en) * | 2011-05-20 | 2012-11-29 | Yogesh Chunilal Rathod | A system and method for providing unified active search engine based on search result item specific identified, dynamic, contextual & accessible active links. |
CN106326371A (zh) * | 2016-08-12 | 2017-01-11 | 北京奇艺世纪科技有限公司 | 服务推送方法及装置 |
CN107194723A (zh) * | 2017-05-17 | 2017-09-22 | 中国科学技术大学 | 网络小额贷款中借款项目与出借人的双向匹配推荐方法 |
JP2019079302A (ja) * | 2017-10-25 | 2019-05-23 | 日本電気株式会社 | 営業活動支援システム、営業活動支援方法および営業活動支援プログラム |
CN111104585A (zh) * | 2018-10-25 | 2020-05-05 | 北京嘀嘀无限科技发展有限公司 | 一种问题推荐方法及装置 |
CN110866805A (zh) * | 2019-11-13 | 2020-03-06 | 第四范式(北京)技术有限公司 | 一种推荐对象的方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN113344613B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN108985830B (zh) | 基于异质信息网络的推荐评分方法、装置 | |
CN111291895B (zh) | 组合特征评估模型的样本生成和训练方法及装置 | |
CN112100387A (zh) | 用于文本分类的神经网络***的训练方法及装置 | |
US20200380524A1 (en) | Transaction feature generation | |
CN108921398A (zh) | 店铺质量评价方法及装置 | |
CN110825969A (zh) | 数据处理方法、装置、终端和存储介质 | |
CN111275503A (zh) | 一种获取流失用户召回成功率的数据处理方法及装置 | |
CN112529663A (zh) | 商品推荐方法、装置、终端设备及存储介质 | |
CN111754287B (zh) | 物品筛选方法、装置、设备和存储介质 | |
CN109189922B (zh) | 评论评估模型的训练方法和装置 | |
CN114581249A (zh) | 基于投资风险承受能力评估的金融产品推荐方法及*** | |
CN112199500B (zh) | 针对评论的情感倾向识别方法、装置及电子设备 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN117764669A (zh) | 物品推荐方法、装置、设备、介质及产品 | |
CN117132317A (zh) | 数据处理方法、装置、设备、介质及产品 | |
CN113344613B (zh) | 一种数据匹配的方法、装置、电子设备及存储介质 | |
CN111062449A (zh) | 预测模型的训练方法、兴趣度预测方法、装置和存储介质 | |
CN114254588B (zh) | 数据标签处理方法和装置 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
JP2021022199A5 (zh) | ||
CN111242449A (zh) | 一种企业情报流失预测方法 | |
CN111753992A (zh) | 筛选方法和筛选*** | |
CN116523546B (zh) | 智能读者行为分析预测***数据采集分析的方法和装置 | |
CN114283018A (zh) | 综合风险评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |