CN109345399B - 理赔风险评估方法、装置、计算机设备及存储介质 - Google Patents

理赔风险评估方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109345399B
CN109345399B CN201811238812.4A CN201811238812A CN109345399B CN 109345399 B CN109345399 B CN 109345399B CN 201811238812 A CN201811238812 A CN 201811238812A CN 109345399 B CN109345399 B CN 109345399B
Authority
CN
China
Prior art keywords
entity
data
settlement
knowledge
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811238812.4A
Other languages
English (en)
Other versions
CN109345399A (zh
Inventor
邢欣来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811238812.4A priority Critical patent/CN109345399B/zh
Publication of CN109345399A publication Critical patent/CN109345399A/zh
Application granted granted Critical
Publication of CN109345399B publication Critical patent/CN109345399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了理赔风险评估方法、装置、计算机设备及存储介质。该方法包括:获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。该方法采用知识图谱技术实现了结合知识图谱数据关联性优势,发现新的关联因子。

Description

理赔风险评估方法、装置、计算机设备及存储介质
技术领域
本发明涉及理赔风险控制技术领域,尤其涉及一种理赔风险评估方法、装置、计算机设备及存储介质。
背景技术
目前,受到数据的有限性、及大规模计算平台缺乏等原因,传统保险企业只能基于有限的特征(如年龄、性别、出险情况),结合经验提炼出来一些简单规则去辅助保险员的核保、核赔工作。而随着社会发展,新的保险欺诈类型不断涌现,风控函数根据经验设定相关参数,对于新的欺诈类型不敏感;理赔风险因子与理赔规则相对依赖人工总结,其准确程度难以控制。
发明内容
本发明实施例提供了一种理赔风险评估方法、装置、计算机设备及存储介质,旨在解决现有技术中理赔风险因子与理赔规则相对依赖人工总结,其准确程度难以控制的问题。
第一方面,本发明实施例提供了一种理赔风险评估方法,其包括:
获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;
接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;
将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
第二方面,本发明实施例提供了一种理赔风险评估装置,其包括:
初始知识图谱构建单元,用于获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;
理赔因子解析单元,用于接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;
相关实体获取单元,用于将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的理赔风险评估方法。
第四方面,本发明实施例还提供了一种存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的理赔风险评估方法。
本发明实施例提供了一种理赔风险评估方法、装置、计算机设备及存储介质。该方法将当前上报理赔数据中包括的理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。该方法实现了结合知识图谱数据关联性优势,发现新的关联因子。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的理赔风险评估方法的流程示意图;
图2为本发明实施例提供的理赔风险评估方法的子流程示意图;
图3为本发明实施例提供的理赔风险评估方法的另一子流程示意图;
图4为本发明实施例提供的理赔风险评估方法的另一子流程示意图;
图5为本发明实施例提供的理赔风险评估方法的另一子流程示意图;
图6为本发明实施例提供的理赔风险评估装置的示意性框图;
图7为本发明实施例提供的理赔风险评估装置的子单元示意性框图;
图8为本发明实施例提供的理赔风险评估装置的另一子单元示意性框图;
图9为本发明实施例提供的理赔风险评估装置的另一子单元示意性框图;
图10为本发明实施例提供的理赔风险评估装置的另一子单元示意性框图;
图11为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的理赔风险评估方法的流程示意图,该理赔风险评估方法应用于管理服务器中,该方法通过安装于管理服务器中的应用软件进行执行,管理服务器即是用于进行理赔风险评估的企业终端。
如图1所示,该方法包括步骤S101~S103。
S101、获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱。
在本实施例中,历史理赔数据中至少包括保单号、投保人、投保金额、投保类型、投保有效期、投保人地址、投保人联系号码、投保人证件号码等数据;这些数据都能作为与理赔相关的风险因子。当获取了海量的历史理赔数据之后,就可以根据历史理赔数据构建知识图谱。
其中,知识图谱的逻辑结构分为两个层次:数据层和模式层。
在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。如果以[实体-关系-实体]或者[实体-属性-值]三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。
模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息抽取、知识融合以及知识加工。
通过将历史理赔数据提炼的实体和关系来构建知识图谱,知识图谱中风险因子不仅会与其他风险因子关联,还会与其他数据进行关联,通过图挖掘算法可抽取出与当前上报理赔数据最相关的数据邻域或邻域集合,即从相关联的的数据中发现新的相关因子。
在一实施例中,如图2所示,步骤S101包括:
S1011、提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;
S1012、对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;
S1013、对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
其中,知识图谱有自底向上和自顶向下这两种构建方式。其中,自顶向下构建是借助百科类互联网网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
目前知识图谱大多采用自底向上的方式构建,本申请的实施例中也主要采用自底向上的知识图谱构建技术,按照知识获取的过程分为3个层次:信息抽取、知识融合以及知识加工。通过对历史理赔数据进行上述3个处理过程,即可得到初始知识图谱。
采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程,每一轮更新包括3个步骤:
A1)信息抽取,即从各种类型的数据源中提取出实体(概念)、属性以及实体之间的相互关系,在此基础上形成本体化的知识表达;
A2)知识融合,在获得新知识后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
A3)知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理、拓展现有知识、得到新知识。
在一实施例中,如图3所示,步骤S1011包括:
S10111、通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;
S10112、对第一处理数据进行实体属性抽取,得到第二处理数据;
S10113、对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
在本实施例中,进行信息抽取时,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。所涉及的关键技术包括:命名实体识别、关系抽取和属性抽取。
命名实体识别(named entity recognition,NER)也称实体抽取,是指从文本数据集中自动识别出命名实体,常采用的方法是并基于条件随机场进行实体边界识别。其中条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。
历史理赔数据经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。此时,本申请的实施例中可通过基于自监督(self-supervised)学习方式的开放信息抽取原型***(TextRunner),该***采用少量人工标记数据作为训练集,据此得到一个实体关系分类模型,再依据该实体关系分类模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别[实体-关系-实体]三元组,以实现对第一处理数据进行实体属性抽取,得到第二处理数据。
属性抽取的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络***息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。本申请的实施例中可基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽。
在一实施例中,如图4所示,步骤S10111包括:
S10111a、获取已归纳的实体类别;
S10111b、通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
在本实施例中,进行实体抽取时,可以采用现有已归纳的112种实体类别,并基于条件随机场进行实体边界识别,最后采用自适应感知机实现了对实体的自动分类,以实现通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
S102、接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子。
在本实施例中,用户通过智能终端所上报的当前上报理赔数据中一般包括保险类型(如车险、产险、寿险等)、报险时间、报险地址等数据、报案数据中的报险类型、报险地址等信息都可视为理赔因子。根据当前上报理赔数据中的理赔因子以及所得到的初始知识图谱,可计算初始知识图谱中与理赔因子相关性值超出预设的相关性阈值的相关因子。
S103、将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
在本实施例中,在计算与理赔因子相关性值超出预设的相关性阈值的相关实体时,可采用基于距离的模型来进行计算(即计算所述理赔因子与所述初始知识图谱中每一实体之间的距离以作为相关性值)。因为初始知识图谱中的每一实体与其他实体均可以进行向量化,然后计算每一实体向量化后对应的词向量与理赔因子中对应的语义向量之间的皮尔逊相关度,即可获取实体因子与理赔因子的相关性值。之后,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示,就能推荐选取哪些相关实体以构建理赔则。
在一实施例中,如图5所示,步骤S103包括:
S1031、获取所述理赔因子中对应的语义向量;
S1032、获取初始知识图谱中所包括实体中每一实体对应的词向量;
S1033、获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;
S1034、若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量,及与词向量对应的相关实体。
在本申请的实施例中,所述理赔因子中包括多个关键词,每一关键词又对应一个词向量,将多个关键词的词向量分别乘以对应权重值后求和,得到所述理赔因子中对应的语义向量。之后将该语义向量与初始知识图谱中所包括实体中每一实体对应的词向量求皮尔逊相关度,以获取与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值的词向量,并获取词向量对应的相关实体,这些相关实体就能作为构建理赔则的候选理赔因子。其中,两个向量之间的皮尔逊相关度定义为两个变量之间的协方差和标准差的商。
该方法将当前上报理赔数据中包括的理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。该方法实现了结合知识图谱数据关联性优势,发现新的关联因子。
本发明实施例还提供一种理赔风险评估装置,该理赔风险评估装置用于执行前述理赔风险评估方法的任一实施例。具体地,请参阅图6,图6是本发明实施例提供的理赔风险评估装置的示意性框图。该理赔风险评估装置100可以配置于管理服务器中。
如图6所示,理赔风险评估装置100包括初始知识图谱构建单元101、理赔因子解析单元102、和相关实体获取单元103。
其中,初始知识图谱构建单元101,用于获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱。
在本实施例中,历史理赔数据中至少包括保单号、投保人、投保金额、投保类型、投保有效期、投保人地址、投保人联系号码、投保人证件号码等数据;这些数据都能作为与理赔相关的风险因子。当获取了海量的历史理赔数据之后,就可以根据历史理赔数据构建知识图谱。
通过将历史理赔数据提炼的实体和关系来构建知识图谱,知识图谱中风险因子不仅会与其他风险因子关联,还会与其他数据进行关联,通过图挖掘算法可抽取出与当前上报理赔数据最相关的数据邻域或邻域集合,即从相关联的的数据中发现新的相关因子。
在一实施例中,如图7所示,初始知识图谱构建单元101包括:
实体抽取单元1011,用于提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;
知识融合单元1012,用于对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;
知识加工单元1013,用于对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
目前知识图谱大多采用自底向上的方式构建,本申请的实施例中也主要采用自底向上的知识图谱构建技术,按照知识获取的过程分为3个层次:信息抽取、知识融合以及知识加工。通过对历史理赔数据进行上述3个处理过程,即可得到初始知识图谱。
在一实施例中,如图8所示,实体抽取单元1011,包括:
第一数据处理单元10111,用于通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;
第二数据处理单元10112,用于对第一处理数据进行实体属性抽取,得到第二处理数据;
属性抽取单元10113,用于对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
在本实施例中,进行信息抽取时,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。所涉及的关键技术包括:命名实体识别、关系抽取和属性抽取。
命名实体识别(named entity recognition,NER)也称实体抽取,是指从文本数据集中自动识别出命名实体,常采用的方法是并基于条件随机场进行实体边界识别。其中条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场中,随机变量Y的分布为条件机率,给定的观察值则为随机变量X。
历史理赔数据经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关的语料中提取出实体之间的关联关系,通过关联关系将实体(概念)联系起来,才能够形成网状的知识结构。此时,本申请的实施例中可通过基于自监督(self-supervised)学习方式的开放信息抽取原型***(TextRunner),该***采用少量人工标记数据作为训练集,据此得到一个实体关系分类模型,再依据该实体关系分类模型对开放数据进行分类,依据分类结果训练朴素贝叶斯模型来识别[实体-关系-实体]三元组,以实现对第一处理数据进行实体属性抽取,得到第二处理数据。
属性抽取的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物,可以从网络***息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息,实现对实体属性的完整勾画。由于可以将实体的属性视为实体与属性值之间的一种名词性关系,因此也可以将属性抽取问题视为关系抽取问题。本申请的实施例中可基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽。
在一实施例中,如图9所示,第一数据处理单元10111包括:
历史实体类别获取单元10111a,用于获取已归纳的实体类别;
实体边界识别单元10111b,用于通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
在本实施例中,进行实体抽取时,可以采用现有已归纳的112种实体类别,并基于条件随机场进行实体边界识别,最后采用自适应感知机实现了对实体的自动分类,以实现通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
理赔因子解析单元102,用于接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子。
在本实施例中,用户通过智能终端所上报的当前上报理赔数据中一般包括保险类型(如车险、产险、寿险等)、报险时间、报险地址等数据、报案数据中的报险类型、报险地址等信息都可视为理赔因子。根据当前上报理赔数据中的理赔因子以及所得到的初始知识图谱,可计算初始知识图谱中与理赔因子相关性值超出预设的相关性阈值的相关因子。
相关实体获取单元103,用于将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
在本实施例中,在计算与理赔因子相关性值超出预设的相关性阈值的相关实体时,可采用基于距离的模型来进行计算。因为初始知识图谱中的每一实体与其他实体均可以进行向量化,然后计算每一实体向量化后对应的词向量与理赔因子中对应的语义向量之间的皮尔逊相关度,即可获取实体因子与理赔因子的相关性值。之后,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示,就能推荐选取哪些相关实体以构建理赔则。
在一实施例中,如图10所示,相关实体获取单元103包括:
语义向量获取单元1031,用于获取所述理赔因子中对应的语义向量;
词向量获取单元1032,用于获取初始知识图谱中所包括实体中每一实体对应的词向量;
皮尔逊相关度计算单元1033,用于获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;
相关实体判断单元1034,用于若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量,及与词向量对应的相关实体。
在本申请的实施例中,所述理赔因子中包括多个关键词,每一关键词又对应一个词向量,将多个关键词的词向量分别乘以对应权重值后求和,得到所述理赔因子中对应的语义向量。之后将该语义向量与初始知识图谱中所包括实体中每一实体对应的词向量求皮尔逊相关度,以获取与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值的词向量,并获取词向量对应的相关实体,这些相关实体就能作为构建理赔则的候选理赔因子。
该装置将当前上报理赔数据中包括的理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。该方法实现了结合知识图谱数据关联性优势,发现新的关联因子。
上述理赔风险评估装置可以实现为计算机程序的形式,该计算机程序可以在如图11所示的计算机设备上运行。
请参阅图11,图11是本发明实施例提供的计算机设备的示意性框图。
参阅图11,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行理赔风险评估方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行理赔风险评估方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
在一实施例中,处理器502在执行根据历史理赔数据进行知识图谱的构建,得到初始知识图谱的步骤时,执行如下操作:提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
在一实施例中,处理器502在执行识提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息的步骤时,执行如下操作:通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;对第一处理数据进行实体属性抽取,得到第二处理数据;对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
在一实施例中,处理器502在执行通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据的步骤时,执行如下操作:获取已归纳的实体类别;通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
在一实施例中,处理器502在执行获取与所述理赔因子之间的相关性值超出预设的相关性阈值的相关实体的步骤时,执行如下操作:获取所述理赔因子中对应的语义向量;获取初始知识图谱中所包括实体中每一实体对应的词向量;获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量,及与词向量对应的相关实体。
本领域技术人员可以理解,图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图11所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序被处理器执行时实现以下步骤:获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示。
在一实施例中,所述根据历史理赔数据进行知识图谱的构建,得到初始知识图谱的步骤,包括:提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
在一实施例中,所述提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息的步骤,包括:通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;对第一处理数据进行实体属性抽取,得到第二处理数据;对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
在一实施例中,所述通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据的步骤,包括:获取已归纳的实体类别;通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
在一实施例中,所述获取与所述理赔因子之间的相关性值超出预设的相关性阈值的相关实体的步骤,包括:获取所述理赔因子中对应的语义向量;获取初始知识图谱中所包括实体中每一实体对应的词向量;获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量,及与词向量对应的相关实体。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种理赔风险评估方法,其特征在于,包括:
获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;
接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;
将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示;
其中,所述初始知识图谱中每一实体对应一个理赔风险因子;
所述理赔因子包括报险类型以及报险地址;
获取与所述理赔因子之间的相关性值超出预设的相关性阈值的相关实体,包括:
获取所述理赔因子中对应的语义向量;
获取初始知识图谱中所包括实体中每一实体对应的词向量;
获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;
若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量及与词向量对应的相关实体。
2.根据权利要求1所述的理赔风险评估方法,其特征在于,所述根据历史理赔数据进行知识图谱的构建,得到初始知识图谱,包括:
提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;
对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;
对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
3.根据权利要求2所述的理赔风险评估方法,其特征在于,所述提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息,包括:
通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;
对第一处理数据进行实体属性抽取,得到第二处理数据;
对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
4.根据权利要求3所述的理赔风险评估方法,其特征在于,所述通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据,包括:
获取已归纳的实体类别;
通过条件随机场对历史理赔数据与已归纳的实体类别进行比对和实体边界识别,得到第一处理数据。
5.一种理赔风险评估装置,其特征在于,包括:
初始知识图谱构建单元,用于获取历史理赔数据,根据历史理赔数据进行知识图谱的构建,得到初始知识图谱;
理赔因子解析单元,用于接收当前上报理赔数据,解析当前上报理赔数据中包括的理赔因子;
相关实体获取单元,用于将所述理赔因子导入初始知识图谱,计算所述理赔因子与所述初始知识图谱中每一实体之间的相关性值,若有实体与所述理赔因子之间的相关性值大于预设的相关性阈值,将相应的相关实体进行显示;
其中,所述初始知识图谱中每一实体对应一个理赔风险因子;
所述理赔因子包括报险类型以及报险地址;
所述相关实体获取单元,包括:
获取所述理赔因子中对应的语义向量;
获取初始知识图谱中所包括实体中每一实体对应的词向量;
获取所述理赔因子中对应的语义向量与每一词向量的皮尔逊相关度;
若存在实体的词向量与所述语义向量之间的皮尔逊相关度超出预设的相关性阈值,获取对应实体的词向量及与词向量对应的相关实体。
6.根据权利要求5所述的理赔风险评估装置,其特征在于,所述初始知识图谱构建单元,包括:
实体抽取单元,用于提取历史理赔数据中所述包括的实体、属性以及实体之间的相互关系,得到抽取后的知识表达信息;
知识融合单元,用于对抽取后的知识表达信息进行依次实体链接和知识合并,得到融合后的知识表达信息;
知识加工单元,用于对融合后的知识表达信息依次进行本体构建、知识推理和质量评估,得到初始知识图谱。
7.根据权利要求6所述的理赔风险评估装置,其特征在于,所述实体抽取单元,包括:
第一数据处理单元,用于通过条件随机场从历史理赔数据中提取出命名实体,得到第一处理数据;
第二数据处理单元,用于对第一处理数据进行实体属性抽取,得到第二处理数据;
属性抽取单元,用于对第二处理数据进行属性抽取,得到抽取后的知识表达信息。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的理赔风险评估方法。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的理赔风险评估方法。
CN201811238812.4A 2018-10-23 2018-10-23 理赔风险评估方法、装置、计算机设备及存储介质 Active CN109345399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811238812.4A CN109345399B (zh) 2018-10-23 2018-10-23 理赔风险评估方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811238812.4A CN109345399B (zh) 2018-10-23 2018-10-23 理赔风险评估方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109345399A CN109345399A (zh) 2019-02-15
CN109345399B true CN109345399B (zh) 2024-03-26

Family

ID=65311336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811238812.4A Active CN109345399B (zh) 2018-10-23 2018-10-23 理赔风险评估方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109345399B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060166A (zh) * 2019-03-13 2019-07-26 平安科技(深圳)有限公司 智能理赔方法、装置、计算机设备以及存储介质
US11966928B2 (en) 2019-05-08 2024-04-23 International Business Machines Corporation Intelligent learning and application of operational rules
CN110322216A (zh) * 2019-05-30 2019-10-11 阿里巴巴集团控股有限公司 基于知识图谱的案件审核方法以及装置
CN110503236A (zh) * 2019-07-08 2019-11-26 中国平安人寿保险股份有限公司 基于知识图谱的风险预测方法、装置、设备以及存储介质
CN110689322A (zh) * 2019-09-27 2020-01-14 成都知识视觉科技有限公司 一种适用于保险理赔流程的人工智能辅助核赔***
CN110866836B (zh) * 2019-11-14 2022-12-06 支付宝(杭州)信息技术有限公司 计算机执行的医疗保险立案审核方法和装置
CN111159431A (zh) * 2019-12-30 2020-05-15 深圳Tcl新技术有限公司 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN113434627A (zh) * 2020-03-18 2021-09-24 中国电信股份有限公司 工单的处理方法、装置和计算机可读存储介质
CN111652704A (zh) * 2020-06-09 2020-09-11 唐松 一种基于知识图谱和图深度学习的金融信用风险评估方法
CN111797406A (zh) * 2020-07-15 2020-10-20 智博云信息科技(广州)有限公司 一种医疗基金数据分析处理方法、装置及可读存储介质
CN112069808A (zh) * 2020-09-28 2020-12-11 深圳壹账通智能科技有限公司 融资风控方法、装置、计算机设备及存储介质
CN112215711B (zh) * 2020-10-13 2023-09-19 中国银行股份有限公司 产品风险评估方法及装置
CN113379053A (zh) * 2020-12-17 2021-09-10 中国人民公安大学 应急响应决策方法、装置及电子设备
CN112508745B (zh) * 2021-02-05 2021-08-27 北京肇祺信息科技有限公司 一种文书评估方法及装置
CN113469577A (zh) * 2021-07-27 2021-10-01 中国银行股份有限公司 审计项目人员预分配方法及装置
CN113643141B (zh) * 2021-08-30 2024-06-21 深圳平安医疗健康科技服务有限公司 解释性结论报告生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133735A (ja) * 2010-12-24 2012-07-12 Kddi Corp ソーシャルグラフ更新システム、ソーシャルグラフ更新方法、およびプログラム
CN105373590A (zh) * 2015-10-22 2016-03-02 百度在线网络技术(北京)有限公司 知识数据的处理方法及装置
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN108305175A (zh) * 2017-12-30 2018-07-20 上海栈略数据技术有限公司 基于智能医学知识图谱的保险理赔风控辅助审核***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012133735A (ja) * 2010-12-24 2012-07-12 Kddi Corp ソーシャルグラフ更新システム、ソーシャルグラフ更新方法、およびプログラム
CN105373590A (zh) * 2015-10-22 2016-03-02 百度在线网络技术(北京)有限公司 知识数据的处理方法及装置
WO2017212268A1 (en) * 2016-06-08 2017-12-14 Blippar.Com Limited Data processing system and data processing method
CN108305175A (zh) * 2017-12-30 2018-07-20 上海栈略数据技术有限公司 基于智能医学知识图谱的保险理赔风控辅助审核***

Also Published As

Publication number Publication date
CN109345399A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109345399B (zh) 理赔风险评估方法、装置、计算机设备及存储介质
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US11526809B2 (en) Primary key-foreign key relationship determination through machine learning
CN109992646B (zh) 文本标签的提取方法和装置
US10298757B2 (en) Integrated service centre support
Jiang et al. A multi-objective PSO approach of mining association rules for affective design based on online customer reviews
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111309822A (zh) 用户身份识别方法及装置
Farnadi et al. Soft quantification in statistical relational learning
US11593665B2 (en) Systems and methods driven by link-specific numeric information for predicting associations based on predicate types
US12008047B2 (en) Providing an object-based response to a natural language query
CN112100396A (zh) 一种数据处理方法和装置
Cardoso et al. Supporting biomedical ontology evolution by identifying outdated concepts and the required type of change
US20220129754A1 (en) Utilizing machine learning to perform a merger and optimization operation
Qureshi et al. Performance evaluation of machine learning models on large dataset of android applications reviews
Chen et al. A hybrid approach for question retrieval in community question answerin
CN115965464A (zh) 空壳企业识别方法、装置、存储介质及电子装置
CN115221954A (zh) 用户画像方法、装置、电子设备以及存储介质
Liu et al. Dynamic updating of the knowledge base for a large-scale question answering system
Xu et al. Dr. right!: Embedding-based adaptively-weighted mixture multi-classification model for finding right doctors with healthcare experience data
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
US20170076219A1 (en) Prediction of future prominence attributes in data set
Beheshti et al. Data curation apis
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
CN113868438B (zh) 信息可信度的校准方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant