CN110197426B - 一种信用评分模型的建立方法、装置及可读存储介质 - Google Patents

一种信用评分模型的建立方法、装置及可读存储介质 Download PDF

Info

Publication number
CN110197426B
CN110197426B CN201810339615.5A CN201810339615A CN110197426B CN 110197426 B CN110197426 B CN 110197426B CN 201810339615 A CN201810339615 A CN 201810339615A CN 110197426 B CN110197426 B CN 110197426B
Authority
CN
China
Prior art keywords
short message
model
sender
variable
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810339615.5A
Other languages
English (en)
Other versions
CN110197426A (zh
Inventor
吴汉杰
黄勇卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810339615.5A priority Critical patent/CN110197426B/zh
Publication of CN110197426A publication Critical patent/CN110197426A/zh
Application granted granted Critical
Publication of CN110197426B publication Critical patent/CN110197426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信用评分模型的建立方法、装置及可读存储介质,属于计算机技术领域。本发明公开的信用评分模型的建立方法中,通过对短信样本集进行分析处理以得到短信特征变量,进而再基于短信特征变量来建立信用评分模型,由于某个时间段内的短信可以较为真实、普遍地反映出用户在该时间段内的实际情况,例如实际的经济情况和消费能力,所以通过短信作为信用评分模型的建模依据能够确保信用评分模型的普适性和适用性,并且由于不再对金融要素进行特殊要求,所以能够较为便捷、准确地满足大多数企业的信用评分需要。

Description

一种信用评分模型的建立方法、装置及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种信用评分模型的建立方法、装置及可读存储介质。
背景技术
近年来,随着互联网技术的快速发展,人们越来越多的通过互联网进行各种数据业务,而用户的信用评估也就成为了一个热门话题,目前一般是通过个人信用评分模型对用户进行信用评估。
现有技术中的个人信用评分模型,一般是直接利用一些金融行为特征来建立的,换句话说,目前在个人信用评分时采用的评分要素主要涉及的是用户的金融行为特征,例如违约历史、债务负担、***还款,等等,然而,对于非金融行业的公司来说,涉及的金融相关的特征数据较少,所以在进行用户信用评价时,通过目前的个人信用评分模型难以全面的为自己的用户建立客观的信用评价指标,从而使得用户的个人信用评价的准确性较低。
发明内容
本发明实施例提供一种信用评分模型的建立方法、装置及可读存储介质,用于解决现有技术中用户的个人信用评价的准确性较低的技术问题。
第一方面,提供一种信用评分模型的建立方法,该方法包括:
获得短信样本集;
对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量;其中,所述短信特征变量用于描述短信的相关信息;
根据所述短信特征变量,构建短信中间信用模型;
根据所述短信中间信用模型,建立信用评分模型。
在上述技术方案中,通过对短信样本集进行分析处理以得到短信特征变量,进而再基于短信特征变量来建立信用评分模型,由于某个时间段内的短信可以较为真实、普遍地反映出用户在该时间段内的实际情况,例如实际的经济情况和消费能力,所以通过短信作为信用评分模型的建模依据能够确保信用评分模型的普适性和适用性,同时,由于不再对金融要素进行特殊要求,所以能够较为便捷、准确地满足大多数企业的信用评分需要,提高信用评分的准确性。
在一种可能的设计中,对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量,包括:
确定所述短信样本集中的每条样本短信的内容、发送方和接收时间;
根据每条样本短信的内容、发送方和接收时间,分别创建所述短信样本集的短信内容特征变量、短信发送方特征变量和短信作息特征变量。
由于信用评分模型的建模依据是短信,所以在本设计中充分利用了短信的几大要素创建建模基础变量,具体来说,就是利用短信的内容、发送方和接收时间这三个要素分别创建了短信内容特征变量、短信发送方特征变量和短信作息特征变量这三个建模基础变量,使得建模基础变量能够贴近短信自身的特点,提高建模的准确性和适用性。
在一种可能的设计中,创建所述短信样本集的短信内容特征变量,包括:
对所有样本短信的短信内容以分类关键词进行匹配,以分别确定每条样本短信的短信类型;
针对每种短信类型所包括的样本短信,以对应的信息提取模板提取每条短信的结构化信息;
根据短信类型和对应的结构化信息,确定针对短信内容的建模基础特征;
根据所述短信内容的建模基础特征,创建所述短信内容特征变量。
对于每一条样本短信都有对应的属性,而属性的不同可以对功能的不同,所以可以按照分类关键词对所有的样本短信进行分类,而每一类样本短信可以具有相同或类似的结构,所以可以以每一类样本短信对应的信息提取模板来提取每条样本短信的结构化信息,进而再根据提取的结构化信息来创建建模基础特征,通过同一类样本短信的信息提取模板来提取该类包括的所有样本短信的结构化信息的方式,可以对同类样本短信进行格式化、快速的相似处理,进而提高处理效率,以提高短信内容特征变量的创建速度。
在一种可能的设计中,创建所述短信样本集的短信发送方特征变量,包括:
根据短信发送方的号码和/或短信内容中的预定标识符处的信息,确定每条短信的发送方;
针对发送方是企业的企业样本短信,根据企业的属性对所述企业样本短信进行发送方分类;
根据发送方分类结果,确定针对短信发送方的建模基础特征;
根据所述短信发送方的建模基础特征,创建所述短信发送方特征变量。
根据短信的发送方的既有特点来创建短信发送方特征变量,可以尽量使用短信自身现有的特征,无需再对短信自身进行任何转换,增强了使用短信作为建模依据的普适性,同时也可以提高建模效率。
在一种可能的设计中,创建所述短信样本集的短信作息特征变量,包括:
根据短信的接收时间将所有样本短信划分为至少两个接收时间段;
根据每个接收时间段所包括的样本短信的数量和/或短信类型,确定针对短信作息的建模基础特征;
根据所述短信作息的建模基础特征,创建所述短信作息特征变量。
根据短信的接收时间的既有特点来创建短信作息特征变量,可以尽量使用短信自身现有的特征,无需再对短信自身进行任何转换,增强了使用短信作为建模依据的普适性,同时也可以提高建模效率。
在一种可能的设计中,所述方法还包括:
将所述短信样本集中的每个用户、每种短信类型、每类发送方、每个时间段、每个预定日期中的至少一种所包括的样本短信的金额数值特征和/或短信接收频次特征作为建模基础特征。
因为涉及到金额数值和短信接收频次的特征能够在较大程度上反映用户的实际经济状况和消费能力,其在例如贷款等项目中的信用评价所占的权重也较大,所以在确定建模基础特征时将其考虑在内,可以提高所建模型的适用性和准确性。
在一种可能的设计中,获得所述短信样本集的短信特征变量,包括:
对每种短信特征变量包括的多个建模基础特征进行聚合转化,以获得针对每种短信特征变量的至少一个衍生变量,并根据获得的衍生变量确定所述短信特征变量;和/或,
针对每种短信特征变量包括的多个建模基础特征,分别以预定规则进行筛选以获得筛选后的建模基础特征,并根据筛选后的建模基础特征确定所述短信特征变量。
在本设计中,可以对多个建模基础特征进行一定的处理后在进行短信特征变量的创建,这样可以在一定程度上减少建模基础变量的数量,这对于建模基础特征过多的情形有较大的好处,因为建模基础特征过多的话可能导致过度拟合的风险,所以通过减少建模基础变量的数量的方式可以在一定程度上降低过度拟合的概率。其中,通过对变量进行聚合衍生可以使得变量的表现性和稳定更好,以及,通过预定规则进行筛选的方式可以使得建模的样本均衡,尽量减少某种变量因样本过多或过少而导致的样本不均衡,从而使得样本所表示的范围更大,以增强模型的普适性。
第二方面,提供一种信用评分模型的建立装置,该装置包括:
样本获得模块,用于获得短信样本集;
变量获得模块,用于对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量;其中,所述短信特征变量用于描述短信的相关信息;
模型建立模块,用于根据所述短信特征变量,构建短信中间信用模型,以及根据所述短信中间信用模型,建立信用评分模型。
在一种可能的设计中,所述变量获得模块具体用于:
确定所述短信样本集中的每条样本短信的内容、发送方和接收时间;
根据每条样本短信的内容、发送方和接收时间,分别创建所述短信样本集的短信内容特征变量、短信发送方特征变量和短信作息特征变量。
在一种可能的设计中,所述变量获得模块具体用于:
对所有样本短信的短信内容以分类关键词进行匹配,以分别确定每条样本短信的短信类型;
针对每种短信类型所包括的样本短信,以对应的信息提取模板提取每条短信的结构化信息;
根据短信类型和对应的结构化信息,确定针对短信内容的建模基础特征;
根据所述短信内容的建模基础特征,创建所述短信内容特征变量。
在一种可能的设计中,所述变量获得模块具体用于:
根据短信发送方的号码和/或短信内容中的预定标识符处的信息,确定每条短信的发送方;
针对发送方是企业的企业样本短信,根据企业的属性对所述企业样本短信进行发送方分类;
根据发送方分类结果,确定针对短信发送方的建模基础特征;
根据所述短信发送方的建模基础特征,创建所述短信发送方特征变量。
在一种可能的设计中,所述变量获得模块具体用于:
根据短信的接收时间将所有样本短信划分为至少两个接收时间段;
根据每个接收时间段所包括的样本短信的数量和/或短信类型,确定针对短信作息的建模基础特征;
根据所述短信作息的建模基础特征,创建所述短信作息特征变量。
在一种可能的设计中,所述装置还包括:
确定模块,用于将所述短信样本集中的每个用户、每种短信类型、每类发送方、每个时间段、每个预定日期中的至少一种所包括的样本短信的金额数值特征和/或短信接收频次特征作为建模基础特征。
在一种可能的设计中,所述变量获得模块具体用于:
对每种短信特征变量包括的多个建模基础特征进行聚合转化,以获得针对每种短信特征变量的至少一个衍生变量,并根据获得的衍生变量确定所述短信特征变量;和/或,
针对每种短信特征变量包括的多个建模基础特征,分别以预定规则进行筛选以获得筛选后的建模基础特征,并根据筛选后的建模基础特征确定所述短信特征变量。
第三方面,提供一种信用评分模型的建立装置,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面中任一种方法包括的步骤。
第四方面,提供一种可读存储介质,所述可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面中任一种方法包括的步骤。
第五方面,提供一种信用评分模型的建立装置,该装置包括至少一个处理器及可读存储介质,当该可读存储介质中包括的指令被该至少一个处理器执行时,可以执行第一方面中任一所述的方法包括的步骤。
第六方面,提供一种芯片***,该芯片***包括处理器,还可以包括存储器,用于实现第一方面任一所述的方法。该芯片***可以由芯片构成,也可以包含芯片和其他分立器件。
本发明实施例提供的技术方案,可以应用于服务器中,例如可以应用于建模服务器中,由于短信能够较为准确、客观地反映用户的实际生活情况和消费能力,所以本发明实施例中的将短信作为建模依据而创建的信用评分模型也就能够客观、准确地对用户进行信用评分,并且短信所涉及到的用户行为特征较多且分布广泛,例如涉及到出行、财产、购物、餐饮、通讯等行为特征,所以可以降低对金融特征的要求,进而可以提高信用评分模型的普适性和适用性。并且,可以直接利用短信既有的短信要素创建模型,无需对短信进行其它的转化,从而可以进一步地增强方案的普适性,还可以提高建模效率,另外,在建模的过程中可以以预定规则对多个建模基础变量进行一定程度的衍生或者筛选,这样可以适当地减少建模基础变量的数量,使得建立的模型能够具有更好的表达性和稳定性,同时也可以降低过度拟合的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中的信用评分模型的建立方法的应用场景示意图;
图2为本发明实施例中的信用评分模型的建立方法的另一应用场景示意图;
图3为本发明实施例中的信用评分模型的建立方法的流程图;
图4为本发明实施例中的创建短信特征变量的示意图;
图5为本发明实施例中的创建短信中间信用模型的示意图;
图6为本发明实施例中的创建信用评分模型的示意图;
图7为本发明实施例中的创建信用评分模型的另一示意图;
图8为本发明实施例中的信用评分模型的建立装置的结构示意图;
图9为本发明实施例中的信用评分模型的建立装置的另一结构示意图;
图10为本发明实施例中的信用评分模型的建立装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的保护。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例中,“多个”可以表示至少两个,例如可以是两个、三个或者更多个,本申请实施例不做限制。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,在不做特别说明的情况下,一般表示前后关联对象是一种“或”的关系。
以下对本文中涉及的部分用语进行说明,以便于本领域技术人员理解。
1、短信样本,短信(Short Message Service,SMS),是用户通过手机或其他电信终端直接发送或接收的文字或数字信息,样本是在研究中实际观测或调查的一部分个体,而短信样本,即是将用户通过电信终端接收到的短信作为分析依据来创建预测模型,例如根据短信样本创建信用评分模型。
2、信用评分,个人信用评分是指信用评估机构利用信用评分模型对消费者的个人信用信息进行量化分析,以分值形式表述,信用评分得分越高表明该用户的征信越好,那么在进行例如贷款等申请时更容易通过贷款审批,而信用评分得分越低表明该用户对于贷款的还款能力和/或还款意愿较低,从而导致坏账的概率较大。
换句话说,信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信用分数。根据客户的信用分数,授信者可以分析客户按时还款的可能性。据此,授信者可以决定是否准予授信以及授信的额度和利率。虽然授信者通过分析客户的信用历史资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。
3、信用评分模型,信用评分模型是近年来兴起的一种为了保障银行和其他金融部门的金融安全而设立的一种关于人身金融权限的划定模型。通过对大量样本数据进行分析,再结合一些算法即可创建出信用评分模型,目前常用的信用评分模型创建方法包括logistic回归方法、决策树法、等等。
下面简单介绍本发明实施例的技术背景。
如前所述,目前市面上的个人信用评分模型,一般都是直接利用用户的一些金融行为特征来建立的,然而对于非金融行业的公司来说,涉及的金融相关的特征数据较少,所以通过目前的信用评价体系难以全面的为自己的用户建立客观、准确的信用评价指标。例如,目前的个人信用评级的方法,大多数都是和FIFO(Financial Controlling)体系类似的,FICO体系的主要评分要素包括违约历史、债务负担、信用历史、信用种类、新申请信用,可见这些评分要素主要涉及的是用户的金融行为特征,而对于非金融公司来说,例如违约历史、债务、信用等金融行为特征的相关数据就较少,所以就不能全方位的为自己产品的用户建立客观的信用评价指标。
鉴于以上所述,本发明实施例提供一种通过短信样本建立信用评分模型的方法,即将短信作为建模依据来创建信用评分模型,以使得信用评分模型的方式更为多样化,由于短信能够在一定程度上客观、准确、普遍地反映出用户的实际生活情况和消费能力,所以通过短信作为信用评分模型的建模依据能够确保信用评分模型的普适性,同时由于不再对金融行为特征作特殊要求,这样可以广泛地满足大部分企业的信用评价需求。
下面对本发明实施例能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施时,可以根据实际需要应用本发明实施例提供的技术方案。
请参考图1,其为本发明实施例提供的一种应用场景示意图,该场景可以包括服务器和终端设备,服务器和终端设备之间可通过通信网络进行通信连接,该通信网络可以为局域网、广域网、无线网等等。通过该服务器可以建立各种信用评分模型,例如本发明实施例中的根据短信样本集建立信用评分模型,所以可以将其称作建模服务器,而对于短信样本集所包括的样本短信可以直接存储在建模服务器中,或者也可以由建模服务器从其它服务器中获得。通过建模服务器建立的信用评分模型可以通过通信网络发送给终端设备,进一步地,终端设备可以直接利用接收到的信用评分模型对用户进行信用评分,例如对于贷款用户进行信用评分,进而可以根据最终的信用评分决定是否放贷以及贷款利率和还贷方式及周期,等等;可选的,建模服务器在创建了信用评分模型之后也可以直接利用该信用评分模型来对用户进行信用评价。
请参考图2,其为本发明实施例提供的另一应用场景示意图。该场景中包括多个服务器和终端设备,具体地,包括建模服务器1、信息存储服务器2和应用程序(Application,APP)服务器3,当然,与图1类似地,多个服务器之间以及APP服务器3与终端设备之间均可以建立通信连接,在图2中为了简便所以未对通信网络进行示出。其中,建模服务器1与图1中的服务器可以具有相同的功能,此处就不再多作说明;信息存储服务器2是能够进行信息存储的服务器,例如是可以为用户提供云存储的云端存储服务器,或者是可以提供海量信息的搜索服务器,在信息存储服务器2中可以存储有海量用户授权的短信信息;APP服务器3可以提供APP的安装包和更新包,终端设备通过从APP服务器3中下载安装包和更新包并进行安装,可以实现APP的安装和更新。
在图2所示的应用场景中,建模服务器1可以先从信息存储服务器2处获得海量用户的短信作为创建信用评分模型的短信样本集,然后再根据获得的短信样本集建立信用评分模型。在建立信用评分模型之后,可以直接使用该信用评分模型来对用户进行信用评分,例如对于贷款用户进行信用评分,进而可以根据最终的信用评分决定是否放贷以及贷款利率和还贷方式及周期,等等;或者可以将创建的信用评分模型提供给APP服务器3,APP服务器3在开发或者更新APP时可以将获得的信用评分模型作为一个功能模块集成到相应的APP中,以使得对应的APP可以直接包括信用评分的功能,进一步地,终端设备在安装包括有前述的信用评分功能的APP之后,则可以根据用户所提供的一些资料对用户进行信用评分,例如进行前述举例的贷款信用评分。
无论是图1还是图2中的终端设备,其均可以是手机、平板电脑、掌上电脑(Personal Digital Assistant,PDA),笔记本电脑、车载设备、智能穿戴式设备等等能够通过信用评分模型对用户进行信用评分的设备,而图1和图2中均是以手机为例进行图示说明。具体来说,终端设备中可安装有各种APP客户端,通过安装的APP客户端可以通过信用评分模型对用户进行信用评分,这些APP客户端可以是仅能够进行信用评分的APP客户端,或者也可以是集成有信用评分功能的其它APP的客户端,例如具有贷款功能的APP客户端。
为进一步说明本发明实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。
请参见图3,图3为本发明实施例提供的信用评分模型的建立方法的流程图,该方法可以应用于能够创建信用评分模型的设备,例如可以应用于图1中的服务器和图2中的建模服务器1。该方法的流程描述如下。
步骤31、获得短信样本集。
其中,短信样本集为大量短信的集合,为了确保模型的准确性和普适性,短信样本集中可以包括海量的样本短信,例如200万条样本短信。另外,由于一般来说,短信属于用户的隐私信息,所以本发明实施例中的短信样本集中的样本短信均可以是预先经用户授权后而收集到的短信,例如用户针对手机管家这一APP授权,在被用户授权之后,手机管家就具有读取用户的短信信息的权限,所以通过手机管家就可以获得授权用户的所有短信。
在确定短信样本集时,至少可以从短信数量和短信接收时间段两方面进行选择,例如一些可能的选择方案如下。
方案1:将短信数量作为选择条件。例如可以通过大数据统计分析,获得每个样本用户最近接收到的100条短信,假设样本用户数量为5万,那么总的样本短信数量即为500万。
方案2:将短信接收时间段作为选择条件。假设样本用户数量为5万,例如可以通过大数据统计分析,获得每个样本用户在最近1个月内接收到的所有短信,由于每个样本用户在最近1个月内所接收到的短信数量并非一致,所以对于最终的样本短信的数量暂时无法明确,需要根据具体的样本用户而定。
在具体实施过程中,可以从授权的所有的样本用户中随机选择预定数量(例如5万)的样本用户,进而再按照方案1或方案2将选中的样本用户的相关短信作为最终的短信样本集,这样能够尽量确保样本的随机和均衡,使得最终所建立的信用评分模型能够具有普适性。或者,还可以从授权的所有样本用户中按照预定比例分别选择相应数量的好客户群体、坏客户群体和中间客户群体以组合成预定数量(例如5万)的样本用户,而这里所说的好客户群体、坏客户群体和中间客户群体可以是指通过其它信用评分模型进行信用评分后所确定的客户群,在此基础上,再通过这些不同信用等级的客户群体的短信情况来建立信用评分模型,可以认为是对之前信用评分的修正,不仅可以确保最终建立的信用评分模型的普适性,还可以提高信用评分的准确性。
另外,样本用户具有能够唯一标识用户的用户标识,通过用户标识可以确保短信样本集中每个样本用户都是唯一不重复的,进而保证样本的准确。用户标识例如可以是身份证号、客户识别模块(Subscriber Identity Module,SIM)的***(即电话号码)、国际移动设备识别码(International Mobile Equipment Identity,IMEI)、用户昵称,等等。并且,由于需要获得短信,所以至少需要知晓用户的电话号码。
步骤32、对短信样本集中的所有样本短信进行分析处理,以获得短信样本集的短信特征变量;其中,该短信特征变量用于描述短信的相关信息。
在本发明实施例中,是根据短信样本集中的样本短信来创建信用评分模型,所以在获得了短信样本集之后,首先需要根据短信样本集确定用于建模的特征变量,又由于建模依据是短信,所以在本发明实施例中将依据短信进行建模所需要的特征变量称作短信特征变量。
由于短信特征变量是根据短信自身的相关信息进行提取转化的,所以短信特征变量是用于描述短信的相关信息的。一般来说,与短信相关的信息大概可以包括短信内容、短信发送方(包括发送方号码和名称)、短信接收时间这三个短信要素,所以为了确保建模的准确和提高普适程度,在本发明实施例中,就分别从这三个短信要素出发来创建短信样本集的短信特征变量,具体来说,例如可以根据短信内容创建短信内容特征变量,根据短信发送方创建短信发送方特征变量,根据短信接收时间创建短信作息特征变量。也就是说,根据短信的三个既有要素,可以创建用于直接建模的短信内容特征变量、短信发送方特征变量和短信作息特征变量这三类短信特征变量,这样可以尽量直接利用短信的明显要素,方案相对简便,进而增强建模方案的适用性。
请参见图4所示的短信特征变量的设计流程示意图,首先按照前述的方案1或方案2从短信样本库中选择了短信样本集,例如短信样本集包括500万条样本短信,进而再对该短信样本集中的每条样本短信进行分析处理,以得到最终的短信特征变量。为了便于理解,以下分别对短信内容特征变量、短信发送方特征变量和短信作息特征变量的创建过程进行介绍。
1)短信内容特征变量。
首先,识别每条样本短信的短信内容,再以分类关键词对每条短信内容进行匹配以确定出每条样本短信的短信类型,换句话说,可以以分类关键词对短信样本集中的所有样本短信按类型归类,其中短信的类型用于表明短信属于何种类型的短信,例如属于***账单类型、航空类型、天然气缴费类型、话费账单类型、网上购物类型、移动支付类型,贷款提醒类型,流量不足提醒类型,工资收入类型,等等。
在具体实施时,可以预设一个或多个分类关键词,例如预设的分类关键词是“账单”、“房贷”、“微信支付”、“燃气费”、“公积金”、“支付宝”、“余额”等等中的一种或多种。分类关键词具有正负两种属性,例如将具有正属性的称作正向分类关键词,以及将具有负属性的称作负向分类关键词,在以正向分类关键词进行分类时,所得到的匹配短信的内容中则一定包括正向分类关键词本身,按照相反意思理解,那么在以负向分类关键词进行分类时,所得到的匹配短信的内容中则一定不包括负向分类关键词本身,通过正向分类关键词和负向分类关键词组合,可以提高分类效率。并且,在以分类关键词对一条样本短信进行分类时,可以设置一个或多个分类关键词,例如可以同时设置两个正向分类关键词,或者同时设置一个正向分类关键词和一个负向分类关键词,分类关键词的数量越多那么得到的分类结果也越精确,但是分类得到的短信数量也可能越少,所以在实际中可以根据实际需要设置分类关键词的个数,以确保分类的效率和准确。
表1
Figure BDA0001630309660000141
以表1为例对上述方案进行举例说明,假设短信样本集包括1000条样本短信,当以正向分类关键词“账单”进行筛选时,可以得到678条包含“账单”的样本短信,自然当以负向分类关键词“账单”进行筛选时,就可以得到不包括“账单”的322条样本短信,进一步地,当同时以正向分类关键词“账单”和“***”进行筛选时,可以得到348条样本短信,以及同时以正向分类关键词“账单”和“实时话费”进行筛选时,可以得到127条样本短信,以及,当以正向分类关键词“账单”和负向分类关键词“***”进行筛选时得到了330条样本短信。
在实际中,例如对于“***账单”这一类型的短信,其短信内容一般是格式化的,例如一般会包括“应还款”、“最低还款”、“到期还款日”等关键信息,并且在这些关键信息之后还会紧随固定格式的数字,例如在“应还款”的关键信息之后紧跟“¥1800.76”的数字,则说明本期***账单的应还款是1800.76元。再例如,对于“话费账单”这一类型的短信,其短信内容一般也是格式化的,例如某短信的内容是“本月实时话费233.20元,当前可用余额338.88元,剩余免费通话94分钟,国内通用流量800M,已使用327M”,则可可知本月已使用话费为233.20元,等等。
由于每种类型的短信之间具有较大的共性,其一般都包括一些格式化的内容,所以本发明实施例在确定了样本短信的短信类型之后,可以再以对应的信息提取模板提取每条短信的结构化信息,例如前述“***账单”例子中的“应还款¥1800.76”,以及前述“话费账单”例子中的“当前可用余额338.88元”,等等。在具体实施时,每类样本短信对应的信息提取模板可以是预先设置的,或者也可以是根据各种类型的短信之间的共性临时动态创建的,本发明实施例对此不作限制。
在获得了每条短信类型的结构化信息之后,则可以根据短信类型和对应的结构化信息来确定针对短信内容的建模基础特征,例如对于“***账单”这种类型的短信,可以获得如表2所示的建模基础特征。
表2
Figure BDA0001630309660000161
又例如对于“淘宝”这种类型的短信,可以获得如表3所示的建模基础特征。
表3
Figure BDA0001630309660000162
当然,表2和表3只是示意性的举例说明,在具体实施时还可以设置其它的建模基础特征,本发明实施例对此不作限制。在一种可能的实施方式中,针对某种类型的短信来说,可以将涉及到金额数值和接收频次的相关特征均作为建模基础特征,例如表1中的应还款和最低还款是涉及到金额数值的特征,而短信类型占比和短信接收天数是与短信接收频次相关的特征,因为涉及到金额数值和短信接收频次的特征能够在较大程度上反映用户的实际经济状况和消费能力,其在例如贷款等项目中的信用评价所占的权重也较大,所以在确定建模基础特征时将其考虑在内,可以提高所建模型的适用性和准确性。
进一步地,在获得了针对短信内容的建模基础特征之后,则可以根据获得的这些建模基础特征来创建短信内容特征变量,而具体的创建方式可以按照现有技术的方式实施,本发明实施例不作限制。
2)短信发送方特征变量。
首先,可以根据短信发送方的号码和/或短信内容中的预定标识符处的信息来确定每条短信的发送方。例如,如果发送方的号码是10086,如图4中所示的通过查找号码黄页库则可以确定发送方是“***”,如果发送的号码是95559,则可以通过查找号码黄页库确定发送方是“交通银行”,如果发送的号码是“138*****087”或者“183*****980”则可以认为是私人发送的,等等。或者例如,对于企业发送的短信,在短信内容中一般会以“【】”或“[]”等预定标识符来标识企业名称,例如某短信内容中包括“【***】”或“[东方航空]”,则可以确定对应的企业用户是“***”和“东方航空”,即,可以提取预定标识符中的信息作为发送方名称。另外,在另一种可能的实施方式中,还可以直接从短信内容中识别出企业名称,进而直接确定出发送方,这与前述的以分类关键词对短信内容进行分类的方式类似,此处就不展开说明了。在具体实施时,为了确保准确性,可以将前述几种方式组合实施,当然也可以单一地实施,本发明实施例不作限制。
在实际中,一般企业发送的短信能够较为普遍、准确地表示用户的实际经济情况和消费能力,例如银行、通信运营商、贷款公司、购物平台、餐饮商户、航空公司、第三方支付平台等等,所以在对短信的发送方进行识别之后,可以根据企业的属性对企业样本短信进行发送方分类,企业的属性表明该企业属于哪种性质的企业,一种示例的发送方分类结果如表4所示。
表4
发送方号码 发送方名称 属性分类
95559 交通银行 银行
106902643095 淘宝 购物平台
95533 建设银行 银行
106907556993615 京东 购物平台
10690755616533 滴滴出行 交通
95378 四川航空 交通
10657318300605 **微贷 P2P
10086 *** 通信
进一步地,可以根据发送方分类结果确定出针对短信发送方的建模基础特征,在具体实施过程中,在根据企业属性进行分类之后,还可以再对短信内容进行解析和结构化信息提取,具体的方式可以参照前述介绍,例如可以获得针对短信发送方的如表5所示的建模基础特征,最后再根据获得的建模基础特征创建短信发送方特征变量。
表5
Figure BDA0001630309660000181
当然,表5只是示意性的举例说明,在具体实施时还可以设置其它的建模基础特征,本发明实施例对此不作限制。在一种可能的实施方式中,针对某种类型的发送方来说,可以将涉及到金额数值和接收频次的相关特征均作为建模基础特征,例如表5中所示的“购物平台”中的消费金额、“P2P”中的贷款金额应和贷款次数、“交通”中的出行频率等等,因为涉及到金额数值和短信接收频次的特征能够在较大程度上反映用户的实际经济状况和消费能力,其在例如贷款等项目中的信用评价所占的权重也较大,所以在确定建模基础特征时将其考虑在内,可以提高所建模型的适用性和准确性。
最后,在获得了针对短信发送方的建模基础特征之后,则可以根据获得的这些建模基础特征来创建短信发送方特征变量,而具体的创建方式可以按照现有技术的方式进行实施,本发明实施例不作限制。
3)短信作息特征变量。
首先,可以根据短信接收时间将所有样本短信划分为至少两个接收时间段,例如划分为08:30-18:00、19:00-23:00以及其它时间段这三个时间段,其中的08:30-18:00可以近似表示工作时间段,19:00-23:00可以近似表示下班后时间段,其它则可以近似表示休息时间段。此外,还可以按照日期来划分接收时间段,例如划分为月上旬、月中旬和月下旬这三个时间段。在另一种可能的实施方式中,还可以按照特殊时间设置接收时间段,例如对于11月来说,由于11月11日是各大网络购物平台和实体商铺大力促销的“双十一大促”日期,所以可以将11月11日单独设置为一个接收时间段,又例如,一般来说,工资一般集中在月末发放,所以可以将邻近月末的几天(例如25日-30日)单独设置为一个接收时间段,等等。
进一步地,再根据每个接收时间段所包括的样本短信的数量和/或短信类型来确定针对短信作息的建模基础特征,一种可能的示例如表6所示。
表6
Figure BDA0001630309660000201
当然,表6只是示意性的举例说明,在具体实施时还可以设置其它的建模基础特征,本发明实施例对此不作限制。在一种可能的实施方式中,针对某个时间段或者某个预定日期所包括的所有样本短信,可以将涉及到金额数值和接收频次的相关特征均作为建模基础特征,因为涉及到金额数值和短信接收频次的特征能够在较大程度上反映用户的实际经济状况和消费能力,其在例如贷款等项目中的信用评价所占的权重也较大,所以在确定建模基础特征时将其考虑在内,可以提高所建模型的适用性和准确性。
最后,在获得了针对短信接收时间的建模基础特征之后,则可以根据获得的这些建模基础特征来创建短信作息特征变量,而具体的创建方式可以按照现有技术的方式进行实施,本发明实施例不作限制。
以上通过1)2)3)分别针对短信内容特征变量、短信发送方特征变量和短信作息特征变量的创建分别进行了介绍,可见,无论是对于哪种特征变量而言,在进行变量创建的过程中,都可能会产生若干个建模基础变量,而在具体实施过程中,可以直接根据分别包括的所有建模基础变量以特定的方式来创建对应的短信特征变量,或者也可以按照以下方式中的至少一种针对每种短信特征变量所包括的多个建模基础变量进行处理后,再进行短信特征变量的创建。
方式1:对每种短信特征变量包括的多个建模基础特征进行聚合转化,进而获得针对每种短信特征变量的至少一个衍生变量,再根据获得的衍生变量来创建对应的短信特征变量。
具体来说,例如可以将相邻或较为近似的多个建模基础特征衍生为一个衍生变量,例如对于短信作息特征变量来说,如果划分了09:00-12:00和13:00-17:00这两个接收时间段,由于这两者之间有个共性就是处于工作时段,所以如果为了能够对工作时段这个时间段有更好的拟合表现的话,则可以将这两个时间段进行组合以衍生出09:00-17:00时间段,用于表示工作时段的一个变量,通过对变量进行组合衍生,可以使得变量的表现性和稳定性更好。
同时,通过衍生的方式可以在一定程度上减少建模基础特征的数量,这对于建模基础变量过多的情形有较大的好处,因为建模基础特征过多的话可能导致过度拟合的风险,所以通过衍生的方式适当减少建模基础特征的数量还可以在一定程度上降低过度拟合的概率。
方式2:针对每种短信特征变量包括的多个建模基础特征,可以先分别以预定规则进行筛选而获得筛选后的建模基础特征,再根据筛选后的建模基础特征来创建最终的短信特征变量。
在一种可能的实施方式中,预定规则可以是建模基础特征的数量不得大于设定值,例如在采用逻辑回归方式进行模型创建的过程中,根据经验表明引入的变量在25个之内的话可以得到一个比较理想的建模效果,如果引入的变量过多的话则可能导致过度拟合的风险。
在另一种可能的实施方式中,预定规则可以指选择柯尔莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov,KS)值大于预定值的建模基础变量作为建模的输入变量,例如预定值设置为0.2,因为KS值较高反映的是多数的情况,KS值高的变量表明其对应的好坏样本的区分程度越好,能够使得建模的样本均衡,以尽量减少某种变量因样本过多或过少而导致的样本不均衡,可以使得样本所表示的范围更大,以提高模型的普适性。
也就是说,在通过建模基础变量创建各种短信特征变量时,可以先以预定规则对多个建模基础变量进行一定的衍生或者筛选,这样可以适当地减少建模基础变量的数量,使得建立的模型能够具有更好的表达性和稳定性,同时也可以降低过度拟合的风险。
步骤33、根据短信特征变量,构建短信中间信用模型。
在本发明实施例中,在构建短信中间信用模型之前,可以针对每种短信特征变量先分别建立针对该种短信特征变量的子模型,请参见图5所示,具体来说,可以先基于对应的建模基础变量得到对应的子模型,例如针对短信内容特征变量和短信发送方特征变量来说,均可以基于其对应包括的建模基础变量创建金额数值子模型、接收频次子模型和其它子模型,然后再基于这些子模型对应创建短信内容子模型和短信发送方子模型,类似地,也可以创建得到短信作息子模型,最后,再根据短信内容子模型、短信发送方子模型和短信作息子模型创建最终的短信中间信用模型,例如可以为每种短信特征变量设置一个权重值,然后再以现有的方式结合设定的权重值来创建以得到最终的短信中间信用模型。
步骤34、根据短信中间信用模型,建立信用评分模型。
在获得了短信中间信用模型之后,可选的,可以直接将其作为最终的信用评分模型使用,或者,也可以将其作为一个中间子模型,进而再作为一个变量因子与其它的子模型一起,以现有的模型创建方法建立最终的信用评分模型。
以下再结合附图对本发明实施例中的方案从整体上进行简要说明。
如图6所示,首先,通过对各种短信特征变量包括的短信进行分析处理,可以获得每种短信特征变量下的建模基础变量,例如图6中的短信作息的建模基础变量、短信发送方的建模基础变量和短信内容建模基础变量,进而再对这些建模基础变量进行衍生以得到衍生后的建模基础变量,或者还可以以预定规则进行筛选以得到筛选后的建模基础变量,图6中是以衍生为例进行图示说明。进一步地,再分别根据这些衍生变量创建对应的子模型,参考前面的描述,可以得到短信内容子模型、短信发送方子模型和短信作息子模型,其中,例如在创建短信发送方子模型的过程中,还可以先创建金额数据子模型、接收频次子模型和其它子模型,进而再根据这些子模型创建短信发送方子模型。应当理解的是,图6中仅是简要的图示说明,在具体实施中,例如除了对短信发送方子模型先进行了金额数值子模型、接收频次子模型和其它子模型的创建之外,其它的短信内容子模型、和短信作息子模型都可以采用类似的处理方式,进一步地,可以根据构建的子模型通过逻辑回归方式建立得到短信中间信用模型。
在其它的实施方式中,请参见图7所示,在得到了衍生后的建模基础变量之后,如图6所示的得到了短信作息衍生变量、短信发送方衍生变量和短信内容衍生变量之后,还可以分别对这些衍生变量进行WOE(Weight of Evidence,证据权重)转化,以图7所示的可以对短信发送方衍生变量和短信内容衍生变量分别进行WOE转化以得到短信发送方WOE变量和短信内容WOE变量,进而再根据短信发送方WOE变量创建天数子模型、手机号子模型、短信数子模型和其它子模型,以及根据短信内容WOE变量创建接收频次子模型、金额数值子模型和其它子模型,进而在分别根据相应的子模型创建短信发送方子模型和短信内容子模型。其中,在将衍生变量进行WOE转化后,可以使得转化后的WOE变量可以将逻辑回归模型转化为标准评分卡格式,以使得后续在利用逻辑回归方法创建模型时的适配性更好,效率更高。
在具体实施过程中,可以选择相同的建模方式来创建不同的子模型,或者也可以根据变量的特性不同来选择不同的方式创建对应的子模型,例如一种示意的方式如图7所示,可以采用决策树方法建立短信作息子模型,以及采用逻辑回归方式建立短信内容子模型和短信发送方子模型,以及采用逻辑回归方式根据短信作息子模型、短信发送方子模型和短信内容子模型创建短信中间信用模型,本发明实施例对具体采用的模型创建方法不作具体限制。
另外,例如在采用逻辑回归方式创建子模型时,可以采用将变量逐个引入模型的模型创建思想,并且每引入一个变量之后可以先进行F检验,然后再对已经引入的变量逐个进行t检验,当原来引入的变量由于后面新引入的变量变得不再显著时则可以将其删除,这样确保每次引入新的变量之前回归方程中只包含显著性变量,以尽量提高模型的有效性。
例如在使用决策树方式创建子模型时,针对区间型变量可以采用ProbF、列名型变量采用ProbChisq、序数型变量采用Entropy准则,并且每个变量尽量只在一层使用而不在多层引入。另外,对于决策树的分支和每个节点的样本量都可以进行一定限制,例如最大拆分分支设置为5以及每个节点的样本量大于500,这样可以尽量地防止过度拟合,以及,缺失值也可以单独作为一个类别而参与模型创建,即尽量不剔除有缺失值的样本,使得样本能够包括尽可能多地呈现各种情况,提高模型的普适性和宽范围使用。
进一步地,可以直接将得到的短信中间信用模型作为最终的信用评分模型用于用户的信用评分,例如本发明实施例中所创建的信用评分模型作为一个信用评分模型集成在某一贷款APP中,那么当用户提出贷款请求时,可以获得该用户的手机号码,进而再获得该手机号码在最近一个月的所有授权短信,最后再将这些授权短信作为评分依据输入到该信用评分模型中,即可获得相应的信用评分,由于用户在一段时间内的短信能够较为真实、全面地、客观地反映出用户最近时间段内的实际经济情况和消费情况,所以将短信作为信用评分依据进行信用评分是较为准确的。
同时,通过创建的信用评分模型对用户进行信用评分,相当于也是对该模型的验证,即在实现评分的同时还可以通过继续学习训练的方式对创建的信用评分模型进行修正和优化调整,通过交叉验证的方式可以持续动态地确保模型评分的准确性和有效性。
本发明实施例中,通过对短信样本集进行分析处理以得到短信特征变量,进而再基于短信特征变量来建立信用评分模型,由于某个时间段内的短信可以较为真实、普遍地反映出用户在该时间段内的实际情况,例如实际的经济情况和消费能力,所以通过短信作为信用评分模型的建模依据能够确保信用评分模型的普适性和适用性,同时,由于不再对金融要素进行特殊要求,所以能够较为便捷、准确地满足大多数企业的信用评分需要。
基于同一发明构思,本发明实施例还提供一种信用评分模型的建立装置,该装置可以是服务器,例如图1中的服务器和图2中的建模服务器1,能够实现前述的信用评分模型的建立方法中建模服务器的功能;或者,该信用评分模型的建立装置也可以是能够支持服务器实现前述的信用评分模型的建立方法中的装置。该信用评分模型的建立装置可以是硬件结构、软件模块、或硬件结构加软件模块。该信用评分模型的建立装置可以由芯片***实现,芯片***可以由芯片构成,也可以包含芯片和其他分立器件
请参见图8所示,本发明实施例中的信用评分模型的建立装置可以包括样本获得模块81、变量获得模块82和模型建立模块83。其中:
样本获得模块81,用于获得短信样本集;
变量获得模块82,用于对短信发送方特征变量短信样本集中的所有样本短信进行分析处理,以获得短信发送方特征变量短信样本集的短信特征变量;其中,该短信发送方特征变量短信特征变量用于描述短信的相关信息;
模型建立模块83,用于根据短信发送方特征变量短信特征变量,构建短信中间信用模型,以及根据短信中间信用模型,建立信用评分模型。
在一种可能的实施方式中,变量获得模块82具体可以用于确定短信样本集中的每条样本短信的内容、发送方和接收时间,再根据每条样本短信的内容、发送方和接收时间,分别创建所述短信样本集的短信内容特征变量、短信发送方特征变量和短信作息特征变量。
在一种可能的实施方式中,变量获得模块82具体可以用于对所有样本短信的短信内容以分类关键词进行匹配,以分别确定每条样本短信的短信类型,再针对每种短信类型所包括的样本短信,以对应的信息提取模板提取每条短信的结构化信息,进而根据短信类型和对应的结构化信息确定针对短信内容的建模基础特征,最后再根据短信内容的建模基础特征来创建短信内容特征变量。
在一种可能的实施方式中,变量获得模块82具体可以用于根据短信发送方的号码和/或短信内容中的预定标识符处的信息确定每条短信的发送方,再针对发送方是企业的企业样本短信,根据企业的属性对所述企业样本短信进行发送方分类,最后根据发送方分类结果,确定针对短信发送方的建模基础特征,以及根据短信发送方的建模基础特征来创建短信发送方特征变量。
在一种可能的实施方式中,变量获得模块82具体可以用于:根据短信的接收时间将所有样本短信划分为至少两个接收时间段,再根据每个接收时间段所包括的样本短信的数量和/或短信类型,确定针对短信作息的建模基础特征,最后根据短信作息的建模基础特征来创建短信作息特征变量。
在一种可能的实施方式中,请参见图9所示,信用评分模型的建立装置还可以包括确定模块91,该确定模块91用于将短信样本集中的每个用户、每种短信类型、每类发送方、每个时间段、每个预定日期中的至少一种所包括的样本短信的金额数值特征和/或短信接收频次特征作为建模基础特征。
在一种可能的实施方式中,变量获得模块82具体可以用于对每种短信特征变量包括的多个建模基础特征进行聚合转化,以获得针对每种短信特征变量的至少一个衍生变量,并根据获得的衍生变量确定短信特征变量;和/或,针对每种短信特征变量包括的多个建模基础特征,分别以预定规则进行筛选以获得筛选后的建模基础特征,并根据筛选后的建模基础特征确定短信特征变量。
其中,前述信用评分模型的建立方法实施例涉及的各步骤的所有相关内容均可以援引到本发明实施例中的对应功能模块的功能描述,在此不再赘述。
本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,另外,在本发明各个实施例中的各功能模块可以集成在一个处理器中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
基于同一发明构思,本发明实施例还提供另一种信用评分模型的建立装置,请参见图10,其示出了本发明一个实施例提供的信用评分模型的建立装置的结构示意图,该信用评分模型的建立装置例如可以图1中的服务器和图2中的建模服务器1。具体来讲:
该信用评分模型的建立装置包括处理器1001、随机存取存储器(Random AccessMemory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的***存储器1004,以及连接***存储器1004和处理器1001的***总线1005。该信用评分模型的建立装置还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1006,和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
处理器1001是信用评分模型的建立装置的控制中心,可以利用各种接口和线路连接整个信用评分模型的建立装置的各个部分,通过运行或执行存储在存储器(例如随机存取存储器102和只读存储器1003)内的指令以及调用存储在存储器内的数据,信用评分模型的建立装置的各种功能和处理数据,从而对信用评分模型的建立装置进行整体监控。
可选的,处理器1001可包括一个或多个处理单元,处理器1001可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1001中。在一些实施例中,处理器1001和存储器可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1001可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、RAM、静态随机访问存储器(Static RandomAccess Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、ROM、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到***总线1005的基本输入/输出***1006连接到处理器1001。所述基本输入/输出***1006还可以包括输入输出控制器以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到处理器1001。所述大容量存储设备1007及其相关联的计算机可读介质为该信用评分模型的建立装置包提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器904和大容量存储设备907可以统称为存储器。
根据本发明的各种实施例,该信用评分模型的建立装置包还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即该信用评分模型的建立装置包可以通过连接在所述***总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本申请实施例提供的重复信息的确定方法的指令。
本领域普通技术人员可以理解上述实施例的签到方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括ROM、RAM、磁盘或光盘等。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,该可读存储介质存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如前述的信用评分模型的建立方法的步骤。
基于同一发明构思,本发明实施例还提供一种信用评分模型的建立装置,该装置包括至少一个处理器及可读存储介质,当该可读存储介质中包括的指令被该至少一个处理器执行时,可以如前述的信用评分模型的建立方法的步骤。
基于同一发明构思,本发明实施例还提供一种芯片***,该芯片***包括处理器,还可以包括存储器,用于实现如前述的信用评分模型的建立方法的步骤。该芯片***可以由芯片构成,也可以包含芯片和其他分立器件
在一些可能的实施方式中,本发明提供的信用评分模型的建立方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述描述的根据本发明各种示例性实施方式的信用评分模型的建立方法中的步骤。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种信用评分模型的建立方法,其特征在于,所述方法包括:
获得短信样本集;
对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量;其中,所述短信特征变量用于描述短信的相关信息,包括短信内容特征变量、短信发送方特征变量和短信作息特征变量;
根据所述短信特征变量,构建短信中间信用模型;
根据所述短信中间信用模型,建立信用评分模型;
其中,所述短信内容特征变量、所述短信发送方特征变量和所述短信作息特征变量均包括建模基础特征;则所述根据所述短信特征变量,构建短信中间信用模型,包括:
基于所述短信内容特征变量包括的建模基础特征,创建所述短信内容特征变量对应的建模基础特征子模型,并基于所述短信内容特征变量对应的建模基础特征子模型,获得短信内容子模型;
基于所述短信发送方特征变量包括的建模基础特征,创建所述短信发送方特征变量对应的建模基础特征子模型,并基于所述短信发送方特征变量对应的建模基础特征子模型,获得短信发送方子模型;
基于所述短信作息特征变量包括的建模基础特征,创建所述短信作息特征变量对应的建模基础特征子模型,并基于所述短信作息特征变量对应的建模基础特征子模型,获得短信作息子模型;
根据所述短信内容子模型、所述短信发送方子模型和所述短信作息子模型,构建所述短信中间信用模型。
2.如权利要求1所述的方法,其特征在于,对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量,包括:
确定所述短信样本集中的每条样本短信的内容、发送方和接收时间;
根据每条样本短信的内容、发送方和接收时间,分别创建所述短信样本集的短信内容特征变量、短信发送方特征变量和短信作息特征变量。
3.如权利要求2所述的方法,其特征在于,创建所述短信样本集的短信内容特征变量,包括:
对所有样本短信的短信内容以分类关键词进行匹配,以分别确定每条样本短信的短信类型;
针对每种短信类型所包括的样本短信,以对应的信息提取模板提取每条短信的结构化信息;
根据短信类型和对应的结构化信息,确定针对短信内容的建模基础特征;
根据所述短信内容的建模基础特征,创建所述短信内容特征变量。
4.如权利要求2所述的方法,其特征在于,创建所述短信样本集的短信发送方特征变量,包括:
根据短信发送方的号码和/或短信内容中的预定标识符处的信息,确定每条短信的发送方;
针对发送方是企业的企业样本短信,根据企业的属性对所述企业样本短信进行发送方分类;
根据发送方分类结果,确定针对短信发送方的建模基础特征;
根据所述短信发送方的建模基础特征,创建所述短信发送方特征变量。
5.如权利要求2所述的方法,其特征在于,创建所述短信样本集的短信作息特征变量,包括:
根据短信的接收时间将所有样本短信划分为至少两个接收时间段;
根据每个接收时间段所包括的样本短信的数量和/或短信类型,确定针对短信作息的建模基础特征;
根据所述短信作息的建模基础特征,创建所述短信作息特征变量。
6.如权利要求2-5中任一权利要求所述的方法,其特征在于,还包括:
将所述短信样本集中的每个用户、每种短信类型、每类发送方、每个时间段、每个预定日期中的至少一种所包括的样本短信的金额数值特征和/或短信接收频次特征作为建模基础特征。
7.如权利要求2-5中任一权利要求所述的方法,其特征在于,获得所述短信样本集的短信特征变量,包括:
对每种短信特征变量包括的多个建模基础特征进行聚合转化,以获得针对每种短信特征变量的至少一个衍生变量,并根据获得的衍生变量确定所述短信特征变量;和/或,
针对每种短信特征变量包括的多个建模基础特征,分别以预定规则进行筛选以获得筛选后的建模基础特征,并根据筛选后的建模基础特征确定所述短信特征变量。
8.一种信用评分模型的建立装置,其特征在于,包括:
样本获得模块,用于获得短信样本集;
变量获得模块,用于对所述短信样本集中的所有样本短信进行分析处理,以获得所述短信样本集的短信特征变量;其中,所述短信特征变量用于描述短信的相关信息,包括短信内容特征变量、短信发送方特征变量和短信作息特征变量;
模型建立模块,用于根据所述短信特征变量,构建短信中间信用模型,以及根据所述短信中间信用模型,建立信用评分模型;
其中,所述短信内容特征变量、所述短信发送方特征变量和所述短信作息特征变量均包括建模基础特征;
所述模型建立模块,具体用于:
基于所述短信内容特征变量包括的建模基础特征,创建所述短信内容特征变量对应的建模基础特征子模型,并基于所述短信内容特征变量对应的建模基础特征子模型,获得短信内容子模型;
基于所述短信发送方特征变量包括的建模基础特征,创建所述短信发送方特征变量对应的建模基础特征子模型,并基于所述短信发送方特征变量对应的建模基础特征子模型,获得短信发送方子模型;
基于所述短信作息特征变量包括的建模基础特征,创建所述短信作息特征变量对应的建模基础特征子模型,并基于所述短信作息特征变量对应的建模基础特征子模型,获得短信作息子模型;
根据所述短信内容子模型、所述短信发送方子模型和所述短信作息子模型,构建所述短信中间信用模型。
9.如权利要求8所述的装置,其特征在于,所述变量获得模块具体用于:
确定所述短信样本集中的每条样本短信的内容、发送方和接收时间;
根据每条样本短信的内容、发送方和接收时间,分别创建所述短信样本集的短信内容特征变量、短信发送方特征变量和短信作息特征变量。
10.如权利要求9所述的装置,其特征在于,还包括:
确定模块,用于将所述短信样本集中的每个用户、每种短信类型、每类发送方、每个时间段、每个预定日期中的至少一种所包括的样本短信的金额数值特征和/或短信接收频次特征作为建模基础特征。
11.一种信用评分模型的建立装置,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-7任一项所述的方法包括的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-7任一项所述的方法包括的步骤。
CN201810339615.5A 2018-04-16 2018-04-16 一种信用评分模型的建立方法、装置及可读存储介质 Active CN110197426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810339615.5A CN110197426B (zh) 2018-04-16 2018-04-16 一种信用评分模型的建立方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810339615.5A CN110197426B (zh) 2018-04-16 2018-04-16 一种信用评分模型的建立方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN110197426A CN110197426A (zh) 2019-09-03
CN110197426B true CN110197426B (zh) 2023-07-04

Family

ID=67751052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810339615.5A Active CN110197426B (zh) 2018-04-16 2018-04-16 一种信用评分模型的建立方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN110197426B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177653B (zh) * 2019-12-10 2023-05-30 中国建设银行股份有限公司 一种信用评估方法和装置
TWI829895B (zh) * 2020-03-20 2024-01-21 中華電信股份有限公司 基於健康度之模型監控系統及其方法
CN112102074B (zh) * 2020-10-14 2024-01-30 深圳前海弘犀智能科技有限公司 一种评分卡建模方法
CN112348094A (zh) * 2020-11-10 2021-02-09 上海优扬新媒信息技术有限公司 数据处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179454A (ja) * 2005-12-28 2007-07-12 Fujitsu Ltd 振込申込受付システム、振込申込受付方法、およびコンピュータプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104639756B (zh) * 2015-02-10 2017-10-13 北京羽乐创新科技有限公司 一种显示短信的方法及装置
US20160364823A1 (en) * 2015-06-11 2016-12-15 Raymond Cao Systems and methods for on-demand transportation
US20160364679A1 (en) * 2015-06-11 2016-12-15 Raymond Cao Systems and methods for on-demand transportation
CN106027533A (zh) * 2016-05-25 2016-10-12 珠海市小源科技有限公司 移动终端用的征信方法及其装置
CN106296389A (zh) * 2016-07-28 2017-01-04 联动优势科技有限公司 一种用户信用度的评估方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179454A (ja) * 2005-12-28 2007-07-12 Fujitsu Ltd 振込申込受付システム、振込申込受付方法、およびコンピュータプログラム

Also Published As

Publication number Publication date
CN110197426A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN110119413B (zh) 数据融合的方法和装置
CN110197426B (zh) 一种信用评分模型的建立方法、装置及可读存储介质
CN112507116B (zh) 基于客户应答语料的客户画像方法及其相关设备
US20200175403A1 (en) Systems and methods for expediting rule-based data processing
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
CN111046192A (zh) 银行涉案账户的识别方法及装置
US20140316960A1 (en) Merchant bank tool
CN112365202B (zh) 一种多目标对象的评价因子筛选方法及其相关设备
CN115063233A (zh) 一种银行业务服务流程的实现方法、***及装置
CN112613978A (zh) 银行资本充足率的预测方法、装置、电子设备及介质
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN112950359B (zh) 一种用户识别方法和装置
CN110795466A (zh) 基于大数据处理的反欺诈方法、服务器及计算机可读存储介质
CN112910953B (zh) 业务数据的推送方法、装置和服务器
WO2021093320A1 (zh) 用于输出信息的方法和装置
WO2019095569A1 (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN115914363A (zh) 消息推送方法、装置、计算机设备和存储介质
CN111177653A (zh) 一种信用评估方法和装置
CN113094595A (zh) 对象识别方法、装置、计算机***及可读存储介质
CN113890948A (zh) 基于语音外呼机器人对话数据的资源分配方法及相关设备
CN112598499A (zh) 确定授信额度的方法和装置
CN112990311A (zh) 一种准入客户的识别方法和装置
CN112734352A (zh) 一种基于数据维度的单据审核方法和装置
CN111582648A (zh) 用户策略生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant