一种基于知识图谱的信用评级方法、装置及电子设备
技术领域
本申请涉及深度学习技术领域,尤其涉及一种基于知识图谱的信用评级方法、装置及电子设备。
背景技术
目前,对企业信用评级的研究主要集中在与企业相关的风险分析领域,随着风险数据复杂程度的提高,带来了对其分析需求的提升,因而深度学习的应用已经成为了风险管理领域的研究前沿,也必将在风险管理领域产生颠覆性的变革。深度学习是通过人工神经网络发展而衍生的,包含复杂多层次的学习结构,其建立是基于模仿人类大脑的学习机制。深度学习模型通过对每一数据特征的学习,继而将新的特征输入到下一层中,在这个过程中新的特征是通过对学习到的数据特征进行特定的特征变换得到的,提升了模型的预测效果。
在实际评级过程中,风险预测的指标多种多样,各项指标间互相关联,直接将这些指标作为特征进行分类回归,由于没有利用到更全和更深层的特征,用常规机器学***台上使用,进行企业经营风险、股票风险、外汇风险等的预测。
以上各种基于机器学习的风险预测实现方案中,虽然机器学习为人们提供了一种可靠和令人信服的预测能力,但企业信用评级的难点在于多维度数据的获取能力和统一关联表示,这是传统机器学习技术无法实现的。因此,目前的风险预测实现方案会由于无法得到高维度的特征而存在预测准确性低的技术问题。
发明内容
有鉴于此,本申请提供一种基于知识图谱的信用评级方法、装置及电子设备,如下:
一种基于知识图谱的信用评级方法,所述方法包括:
获得目标语料,所述目标语料中包含多个语句;
利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象在至少一个信息维度上的特征词;
利用每个所述信息维度对应的风险识别模型,对所述目标对象在每个所述信息维度上的特征词进行风险识别,以得到所述目标对象在每个所述信息维度对应的信用评级结果,所述风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,所述信用评级结果表征其对应的目标对象在相应信息维度上的信用风险的高低。
上述方法,优选的,所述知识图谱通过以下方式获得:
读取关系型数据库中存储的结构化数据,所述结构化数据与至少一个目标对象相关;
利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
上述方法,优选的,所述知识图谱通过以下方式获得:
利用至少一个目标对象对应的预设词,获得行业网站中与所述目标对象相关的目标页面;
读取所述目标页面中的页面内容;
根据所述页面内容,生成三元组数据,以得到所述知识图谱。
上述方法,优选的,所述目标页面至少包括与所述预设词相关联的第一页面和对所述第一页面进行站内采集所得到的第二页面。
上述方法,优选的,所述风险识别模型通过以下方式训练得到:
获得多个具有信用评级标签的训练特征词集合;所述训练特征词集合为利用所述知识图谱对训练语料中的语句进行词抽取所得到的特征词集合;所述训练特征词集合包括至少一个信息维度上的训练特征词;
将每个所述信息维度上的训练特征词作为相应风险识别模型的输入样本,以所述训练特征词集合的信用评级标签作为所述风险识别模型的输出样本,对所述风险识别模型进行训练。
上述方法,优选的,所述风险识别模型对所述训练语料对应的训练特征词集合进行风险识别得到的信用评级测试结果与所述训练语料所对应的信用评级标签之间的差值大于或等于预设阈值。
一种基于知识图谱的信用评级装置,所述装置包括:
语料获得单元,用于获得目标语料,所述目标语料中包含多个语句;
特征抽取单元,用于利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象在至少一个信息维度上的特征词;
风险识别单元,用于利用每个所述信息维度对应的风险识别模型,对所述目标对象在每个所述信息维度上的特征词进行风险识别,以得到所述目标对象在每个所述信息维度对应的信用评级结果,所述风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,所述信用评级结果表征其对应的目标对象在相应信息维度上的信用风险的高低。
上述装置,优选的,还包括:
第一图谱构建单元,用于读取关系型数据库中存储的结构化数据,所述结构化数据与至少一个目标对象相关;利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
上述装置,优选的,还包括:
第二图谱构建单元,用于利用至少一个目标对象对应的预设词,获得行业网站中与所述目标对象相关的目标页面;读取所述目标页面中的页面内容;根据所述页面内容,生成三元组数据,以得到所述知识图谱。
一种电子设备,包括:
存储器,用于存储应用程序及应用程序运行所产生的数据;
处理器,用于执行所述应用程序,以实现:获得目标语料,所述目标语料中包含多个语句;利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象在至少一个信息维度上的特征词;利用每个所述信息维度对应的风险识别模型,对所述目标对象在每个所述信息维度上的特征词进行风险识别,以得到所述目标对象在每个所述信息维度对应的信用评级结果,所述风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,所述信用评级结果表征其对应的目标对象在相应风险维度上的信用风险的高低。
由上述方案可知,本申请提供的一种基于知识图谱的信用评级方法、装置及电子设备中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象在至少一个信息维度上的特征词,由此,利用每个信息维度对应的风险识别模型,对目标对象在每个所述信息维度上的特征词进行风险识别,以得到目标对象在每个信息维度对应的信用评级结果,以此来表征其对应的目标对象在相应信息维度上的信用风险的高低。可见,本申请中利用知识图谱对多信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的信用评级结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的一种基于知识图谱的信用评级方法的流程图;
图2-图3分别为本申请实施例一的部分流程图;
图4为本申请实施例二提供的一种基于知识图谱的信用评级装置的结构示意图;
图5-图6分别为本申请实施例二的另一结构示意图;
图7为本申请实施例三提供的一种电子设备的结构示意图;
图8为本申请实施例进行网页内容获取的示例流程图;
图9为本申请实施例中的卷积神经网络示意图;
图10为本申请所实现的***架构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,为本申请实施例一提供的一种基于知识图谱的信用评级方法的实现流程图,该方法适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用进行评级。
具体的,本实施例中的方法可以包括以下步骤:
步骤101:获得目标语料。
其中,目标语料中包含多个语句。例如,目标语料为新闻片段,或者目标语料为总结报告,或者,目标语料为发言稿等。
需要说明的是,目标语料中的语句描述有待评级的目标对象,如企业或个人等,另外,目标语料中的语句还描述有与目标对象相关的内容。例如,目标语料中的语句描述有某个企业在多个信息维度上的相关内容,如企业经营状况维度上的关于经营状态、注册资本、财务指标等相关内容,再如企业工商信息维度上的关于法人股东变更、对外投资等相关内容,等等。
步骤102:利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词。
其中,目标语料对应的多个特征词中包括至少一个目标对象在至少一个信息维度上的特征词。例如,目标语料对应的特征词中包含有企业A在经营状况维度上的特征词和企业B在经营状况和工商信息维度上的特征词。
具体的,本实施例中可以预先构建包含多个三元组数据的知识图谱,这里的三元组数据可以为关系型的三元组,如实体-关系-实体的三元组,也可以为属性型的三元组,如实体-属性-属性值的三元组,这些三元组数据包含有多个企业在多个信息维度上的三元组。基于此,本实施例中利用知识图谱中的三元组数据,对目标语料中的每个语句进行词的抽取,进而抽取出目标语料所对应的多个特征词,如“企业A”对“企业B”有“投资”的关系三元组,再如“企业A”是“销售”类公司,且销售额为“100万”的属性三元组,等等。
步骤103:利用每个信息维度对应的风险识别模型,对目标对象在每个信息维度上的特征词进行风险识别,以得到目标对象在每个信息维度对应的信用评级结果。
其中,风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,最终所得到的目标对象在其中一个信息维度上的信用评级结果表征其对应的目标对象在相应信息维度上的信用风险的高低。
例如,本实施例中预先构建多个风险识别模型,每个风险识别模型对应于一个信息维度,如经营状态维度上对应的风险识别模型和工商信息维度上对应的风险识别模型,等等,之后,利用每个信息维度上对应的多个具有信用评级标签的训练特征词集合对相应信息维度上的风险识别模型进行训练,训练后的风险识别模型能够对目标对象在相应信息维度上的信用进行评级,以得到目标对象在该信息维度上的信用评级结果,而目标对象在该信息维度上的信用评级结果能够表征目标对象在相应信息维度上的信用风险的高低,如企业A在经营状态维度上的信用评级结果表征企业A在经营状态维度上的信用风险较高,企业B在工商信息维度上的信用评级结果表征企业B在工商信息维度上的信用风险较低,等等。
在一种实现方式中,本实施例中的风险识别模型可以为基于机器学习算法所构建的深度学习模型,如基于卷积神经网络CNN(Convolutional Neural Networks)所构建的深度学习模型等。
由上述方案可知,本申请实施例一提供的一种基于知识图谱的信用评级方法中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象在至少一个信息维度上的特征词,由此,利用每个信息维度对应的风险识别模型,对目标对象在每个所述信息维度上的特征词进行风险识别,以得到目标对象在每个信息维度对应的信用评级结果,以此来表征其对应的目标对象在相应信息维度上的信用风险的高低。可见,本实施例中利用知识图谱对多信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的信用评级结果的准确性。
在一种实现方式中,本实施例中的知识图谱可以通过以下方式获得,如图2中所示:
步骤201:读取关系型数据库中存储的结构化数据。
其中,关系型数据库为存储有与目标对象相关的结构化数据的数据库,如注册数据库中包含有店铺、品牌及用户等结构化数据,这些结构化数据与至少一个目标对象如企业或个人等相关。
具体的,本实施例中可以通过堆栈或者队列等方式读取关系型数据库中的表和列等结构化数据。
步骤202:利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
其中,在具体实现中,本实施例中的预设映射关系可以理解为从关系型数据库映射到语义数据的映射规范,具体可以利用可视化的规范配置工具,对结构化数据与三元组之间的预设映射关系进行配置。具体的,本实施例中通过对结构化数据中的基本结构和知识图谱的三元组的结构进行解析,如解析每个表格的含义及表之间的关联等以及三元组中的实体和实体属性等,进而配置出结构化数据与三元组之间的预设映射关系,如数据库中的user表对应知识图谱中的人物这个概念,数据库中的表中phone这个字段对应知识图谱中人物上定义的联系方式这个属性,等等。基于此,在从结构化数据向三元组数据进行转换时,利用该预设映射关系,将表中的行和列中的元素映射为三元组中的实体、实体关系或实体属性等元素,由此,得到三元组数据,进而形成知识图谱。
在一种实现方式中,本实施例中知识图谱还可以通过以下方式进行补充或者丰富,如图3中所示:
步骤301:利用至少一个目标对象对应的预设词,获得行业网站中与目标对象相关的目标页面。
其中,本实施例中可以基于预先设置的能够代表目标对象所在行业的种子词汇,即预设词,利用搜索引擎或搜索接口等对行业网站(包含行业知识库的页面)进行页面搜索,以获得到与目标对象相关的目标页面。
在一种实现方式中,目标页面中可以只包括与预设词相关联的第一页面,如直接包含该预设词的页面,或者,目标页面中还可以进一步包含有对第一页面进行站内采集所得到的第二页面,即第一页面中所包含的链接所对应的页面等等。
具体的,本实施例中可以先利用搜索引擎或搜索接口搜索包含预设词的第一页面,再对第一页面进行站内采集,且采集的最大深度设置为3层,即从首页开始,使用深度优先采集策略,总共采集3层。在其他实现方式中,采集深度也可以设置为其他数值,如2层或4层等。
步骤302:读取目标页面中的页面内容。
其中,本实施例中可以使用爬虫等技术对目标页面中的页面内容进行获取,以得到其中的文字等内容。
步骤303:根据页面内容,生成三元组数据,以得到所述知识图谱。
其中,本所述中可以使用预先构建并训练的三元组抽取模型对页面内容进行三元组抽取,以得到三元组数据,由此组成知识图谱。三元组抽取模型可以为基于深度学习算法所构建的模型,且利用具有三元组标签的训练语句样本进行训练,由此使得训练完成的三元组抽取模型能够对语句进行三元组抽取,以得到相应的三元组数据,并添加到知识图谱中。
在一种实现方式中,本实施例中的风险识别模型可以通过以下方式训练得到:
首先,获得多个具有信用评级标签的训练特征词集合,这里的每个训练特征词集合可以为利用知识图谱对相应的训练语料中的语句进行词抽取所得到的特征词集合;
需要说明的是,这里的训练特征词集合中包含多个信息维度上的训练特征词;
之后,将每个信息维度上的训练特征词作为该信息维度上对应的风险识别模型的输入样本,以训练特征词集合的信用评级标签作为该信息维度上的风险识别模型的输出样本,对风险识别模型进行训练。
具体的,本实施例中将每个信息维度上的训练特征词输入到相应信息维度上对应的风险识别模型中,并得到该风险识别模型针对输入的训练特征词所输出的信用评级测试结果,之后,将该信用评级测试结果与信用评级标签进行比对,并根据比对结果所表征的差异值来对风险识别模型的模型参数进行调整,以使得风险识别模型的损失函数减小,以此列推,直到损失函数收敛,训练完成。
进一步的,本实施例中为了提高训练样本的准确性,在对风险识别模型进行训练之前,先筛选出难样本。也就是说,参与到风险模型训练的训练语料为准确性较高的样本语料,此时风险识别模型对训练语料对应的训练特征词集合进行风险识别得到的信用评级测试结果与训练语料所对应的信用评级标签之间的差值大于或等于预设阈值。
具体实现中,本实施例中可以先利用风险识别模型进行小风险样本的测试训练,进而根据测试结果获得到预设阈值之后,利用该预设阈值筛选出参与训练的训练语料,再经过训练语料的反复迭代训练之后最终得到风险识别模型。
参考图4,为本申请实施例二提供的一种基于知识图谱的信用评级装置的结构示意图,该装置适用于能够进行数据处理的电子设备中,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用进行评级。
具体的,本实施例中的装置可以包括以下单元:
语料获得单元401,用于获得目标语料,所述目标语料中包含多个语句;
特征抽取单元402,用于利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象在至少一个风险维度上的特征词;
风险识别单元403,用于利用每个所述风险维度对应的风险识别模型,对所述目标对象在每个所述风险维度上的特征词进行风险识别,以得到所述目标对象在每个所述风险维度对应的信用评级结果,所述风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,所述信用评级结果表征其对应的目标对象在相应风险维度上的信用风险的高低。
由上述方案可知,本申请实施例二提供的一种基于知识图谱的信用评级装置中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象在至少一个信息维度上的特征词,由此,利用每个信息维度对应的风险识别模型,对目标对象在每个所述信息维度上的特征词进行风险识别,以得到目标对象在每个信息维度对应的信用评级结果,以此来表征其对应的目标对象在相应信息维度上的信用风险的高低。可见,本实施例中利用知识图谱对多信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的信用评级结果的准确性。
在一种实现方式中,本实施例中的装置还可以包括以下单元,如图5中所示:
第一图谱构建单元404,用于读取关系型数据库中存储的结构化数据,所述结构化数据与至少一个目标对象相关;利用结构化数据与三元组之间的预设映射关系,将所述结构化数据转换为三元组数据,以得到所述知识图谱。
第二图谱构建单元405,用于利用至少一个目标对象对应的预设词,获得行业网站中与所述目标对象相关的目标页面;读取所述目标页面中的页面内容;根据所述页面内容,生成三元组数据,以得到所述知识图谱。
可选的,所述目标页面至少包括与所述预设词相关联的第一页面和对所述第一页面进行站内采集所得到的第二页面。
在另一种实现方式中,本实施例中的装置还可以包括以下单元,如图6中所示:
模型训练单元406,用于获得多个具有信用评级标签的训练特征词集合;所述训练特征词集合为利用所述知识图谱对训练语料中的语句进行词抽取所得到的特征词集合;所述训练特征词集合包括至少一个信息维度上的训练特征词;将每个所述信息维度上的训练特征词作为相应风险识别模型的输入样本,以所述训练特征词集合的信用评级标签作为所述风险识别模型的输出样本,对所述风险识别模型进行训练。
可选的,所述风险识别模型对所述训练语料对应的训练特征词集合进行风险识别得到的信用评级测试结果与所述训练语料所对应的信用评级标签之间的差值大于或等于预设阈值。
需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。
参考图7,为本申请实施例三提供的一种电子设备的结构示意图,该电子设备可以为能够进行数据处理的电子设备,如计算机或服务器等。本实施例中的技术方案主要用于对目标对象如企业或个人的信用进行评级。
具体的,本实施例中的电子设备可以包括以下结构:
存储器701,用于存储应用程序及应用程序运行所产生的数据;
处理器702,用于执行所述应用程序,以实现:获得目标语料,所述目标语料中包含多个语句;利用预先构建的知识图谱,对所述目标语料中各个语句进行词抽取,以得到所述目标语料对应的多个特征词,所述特征词包括至少一个目标对象在至少一个风险维度上的特征词;利用每个所述风险维度对应的风险识别模型,对所述目标对象在每个所述风险维度上的特征词进行风险识别,以得到所述目标对象在每个所述风险维度对应的信用评级结果,所述风险识别模型为利用多个具有信用评级标签的训练特征词集合进行训练得到,所述信用评级结果表征其对应的目标对象在相应风险维度上的信用风险的高低。
由上述方案可知,本申请实施例三提供的一种电子设备中,在获得到目标语料之后,利用预先构建的知识图谱,对目标语料中各个语句进行词抽取,以得到目标语料对应的多个特征词,这些特征词中包括至少一个目标对象在至少一个信息维度上的特征词,由此,利用每个信息维度对应的风险识别模型,对目标对象在每个所述信息维度上的特征词进行风险识别,以得到目标对象在每个信息维度对应的信用评级结果,以此来表征其对应的目标对象在相应信息维度上的信用风险的高低。可见,本实施例中利用知识图谱对多信息维度上的特征词进行抽取,由此丰富输入到深度学习模型中的特征内容,由此来提高所获取到的信用评级结果的准确性。
需要说明的是,本实施例中处理器的具体实现可以参考前文中的相应内容,此处不再详述。
以利用本申请的技术方案对企业信用评级为例,对本申请的技术方案进行举例说明:
首先,本申请中通过引入知识图谱技术解决多源异构数据的语义表示与理解问题,提升大数据企业信用评分的有效性。具体的,本申请的技术方案的实现主要分为两部分:企业知识图谱的构建和基于企业知识图谱的信用评分***实现。如下:
1、企业知识图谱的构建
企业知识图谱构建基本上采用企业工商相关的结构化数据以及互联网中各类垂直站点数据作为数据来源。具有以下特点:
(1)行业覆盖较广、行业深度可观。数据源均来自企业强相关的数据,数据相关性与企业紧密结合;
(2)可靠性高:对于企业的内部结构化数据,通常情况下用于支撑企业本身的业务,因此可靠性非常高;企业数据存储在关系型数据库中,只需将关系型数据进行一定程度的转化即可得到结构化三元组数据,可靠性良好。
(3)结构性强:对于内部结构化数据,绝大多数是通过关系数据库进行存储的;开放行业数据基本上由较高质量的网站编辑后发表,结构性良好。
在构建企业知识图谱时,可以预先定义数据模式,采用自顶向下的知识图谱方式。数据模式是知识图谱中最核心的部分,定义好数据模式后,接下来可以从各种数据源中进行数据层面的填充。具体步骤如下:
1)数据库向三元组转换:
本申请提出一组从关系数据库映射到语义数据的映射规范,即前文中的预设映射关系,可以命名为D2RML(relation database to RDF mapping language),该规范使用XML语言描述;基于XML语言的易用性和通用性,使得D2RML能够轻易地被普通用户理解与使用;使用该语言时,并不要求用户使用资源描述框架RDF(Resource Description Framework)等相关的知识,降低了使用门槛。此外,本申请还提供一种可视化的规范配置工具,用户在此工具上仅需要通常一些简单的配置即可完成映射规律的制定。
D2RML中的主要关键词及相应的描述功能如下:
(a)dbtype:源数据库的类型,有mysql、oracle、sqlserver等,类型决定了连接时使用的驱动;
(b)dburl:数据库连接字符串,指定数据库的地址、端口和使用的数据库等信息。
(c)dbuser:数据库的用户名;
(d)dbpwd:数据库的密码;
(e)table:源数据表;
(f)concept:导入目标概念;
(g)name的colname属性:实体名称来源列;
(h)synonym的colname属性:同义实体来源列;
(i)parent的tablename属性:父概念的表名;
(j)attribute的colname指定属性来源列,attrname则指定属性名。
例如,一个映射文件如下所示:
在从结构化数据中进行知识图谱三元组映射转换时,首先解析结构化数据中的基本结构,包括每个表格的含义以及表之间的关联,同时解析知识图谱的结构,然后使用D2RML语言把结构化数据中的表格与知识图谱中的概念或实体关联起来,实现转换。
2)结构化数据知识映射
定义好映射配置文件后,接下来便可以依据配置的映射关系从数据库中转换知识图谱的三元组。本实施例中可以通过知识转换引擎连接配置文件中配置的目标数据库,读取相应表格中的结构化数据,把数据库中的表和列的数据分别映射成概念的实体以及实体的属性,然后把这些映射得到的知识存储到知识图谱中。
3)互联网数据采集与映射
为了丰富知识图谱,本申请提出了一种基于搜索引擎和在线百科的行业知识库与行业网站自动发现算法,以挖掘出更多的关于各企业的三元组,丰富到知识图谱中。
本申请通过以下算法流程实现页面采集及内容获取,如图8中所示:
(1)利用一些能够代表行业的种子词汇,在搜索引擎和在线百科的搜索接口中进行搜索。对于搜索引擎返回的网页文档,选取排列在前面的一定数据的结果直接添加到目标网页列表。对于百科返回的页面,先进入到相应的文章页,然后在文章页面中寻找两类链接,即普通的外部链接和参考文献的外链,添加到目标网页列表。
(2)对于目标网页列表中的目标网页依据网站进行归类,如列表页、详情页和其他页面,不同页面的采集策略不同。
(3)对得到的网页进行站内采集,采集的最大深度设置为3层,即从首页开始,使用深度优先采集策略,总共采集3层。
(4)网站的内容分析,对每个网站已经采集到的网页的内容进行提取保存;对于网站的内容,如果其中包含行业关键词的频度很高,则说明该网站的确是和行业相关的,选取作为目标数据源,否则说明其中仅包含少量的实例而摒弃,最后以保存的内容生成相应的三元组,并添加到知识图谱中。
2、基于企业知识图谱的信用评分***实现
本申请中,基于企业知识图谱的信用评分***即前文中的风险识别模型可以基于卷积神经网络构建,其中,卷积神经网络可以为输入的句子或者图像数据自动提取特征,并进行分类任务,可以提取到更多的特征用作下一步训练的输入在自然语言处理中,卷积神经网络(CNN)通常用于字符级信息建模等自然语言处理任务,本申请使用CNN对输入字的词向量利用窗口滑动将当前字与前后汉字连接,计算前后字对当前字的影响,所生成的词表示词语特征。本申请以“卷积神经网络”一词为例,其CNN层结构如图9所示。卷积完成后提取出字符与字符之间的上下文信息,生成词语和句子表示特征,再输入到下层神经网络中。
需要说明的是,在进行风险识别的机器学习模型(即风险识别模型)训练中,传统的机器学习算法往往会遇到一个无法解决问题的,那就风险样本数据不足,能够提取的特征有限。因为在正常的生产环境中,无害数据远远大于有害数据,而基于统计学的传统机器学习算法只有在大量的、高质量的样本数据训练下才能得到比较理想的识别模型。基于深度机器学习DBN(Deep Belief Network)算法的风险识别模型的思想是使用可以使用有限无害数据进行训练,通过多层神经网络RBM(Restricted Boltzmann Machine)的迭代来进行多维度、多层次的学习,这来快速的增加学习得到特征数量。
本申请采用的方法是首先基于深度机器学习DBN算法进行小风险样本的训练,取一个阈值获得准确样本,然后再次将准确的测试样本再次使用DBN进行训练,如此反复迭代最终得到最终风险识别模型。
结合图10所示的企业信用评分***的设计架构图,本申请中充分结合主流大数据产品,保证其易用性、灵活性及可扩展性。其应用层选用接口开发,来提供一系列的服务能力,同时保证部署的简易性和可扩展性。
整个***可以执行单机及分布式部署,利用图谱实现企业风险评估与信用评分,变更事件提示;利用知识图谱统一数据接口新增企业实体,并建立风险关系,使用分布式异步算法计算图谱企业总体信用以及风险预警趋势等信息。具体如下:
本申请中的***可以基于云主机、独立服务器或者第三方虚拟主机搭建,以MSSQL、MySQL和orade等中的一种或多种数据库为基础;
在数据层中实现存储、缓存、自定义函数、事务处理、读写数据库等处理;
在业务层进行知识图谱的构建,即利用映射规则进行图谱的构建,基于图谱刻画企业、和企业相关的事件,如信用评估、监控企业、监控统计、事件列表及规则配置等处理,而CNN和DBN是业务层中信用评估的主要实现,并且,在数据层和业务层之间进行异步计算;
在展示层中见模板引擎渲染以及请求接收等处理;
在前端UI(User Interface)以超文本标记语言html(HyperText MarkupLanguage)、层叠样式表css(Cascading Style Sheets)、jQuery和图片等形式为用户提供交互界面。
可见,本申请能够更深层的分析企业的经营状态和舆情走向,对每个企业通过知识图谱进行各维度信息全面刻画,实现及时有效基于企业各维度数据的信用评分。并且,本申请中基于企业特征及相关的历史负面样本、投诉样本,通过深度学***。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。