CN118070805A - 信息判别方法、装置、计算机设备及存储介质 - Google Patents

信息判别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN118070805A
CN118070805A CN202410361954.9A CN202410361954A CN118070805A CN 118070805 A CN118070805 A CN 118070805A CN 202410361954 A CN202410361954 A CN 202410361954A CN 118070805 A CN118070805 A CN 118070805A
Authority
CN
China
Prior art keywords
information
entity
text
standard
wind control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410361954.9A
Other languages
English (en)
Inventor
赵栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Health Insurance Company of China Ltd
Original Assignee
Ping An Health Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Health Insurance Company of China Ltd filed Critical Ping An Health Insurance Company of China Ltd
Priority to CN202410361954.9A priority Critical patent/CN118070805A/zh
Publication of CN118070805A publication Critical patent/CN118070805A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于数据处理领域及金融科技领域,涉及一种信息判别方法,包括:获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。本申请还提供一种信息判别装置、计算机设备及存储介质。本申请提高了健康险理赔风控环节中有效信息的准确性。

Description

信息判别方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理领域及金融科技领域,应用于针对健康险的理赔风控环节中的不实告知信息进行判别的场景中,尤其涉及一种信息判别方法、装置、计算机设备及存储介质。
背景技术
随着金融科技的快速发展,其在保险行业的各种业务场景中的应用也越来越广泛,这其中也包括了理赔风控。对于保险行业而言,理赔风控是各保险公司运营过程里非常重要的环节,通过理赔风控可以有效地拦截大量欺诈错赔案件,降低理赔损失。
在理赔风控这个环节,有效信息的获取和结构化一直以来是风控工程师或审核员重点探索的方向,无论是对风控策略的制定,还是对风控模型的训练,都可以起到决定性作用,以确保达到预期风控效果。而在所有类型的保险公司中,健康险公司的理赔风控重点在于识别客户是否存在既往疾病不实告知风险,故而有效信息的获取和结构化这一方向就显得尤为重要。
目前,对于健康险公司而言,理赔风控的数据来源主要是由客户提供或由录入人员录入的结构化信息,根据这些结构化信息,虽然可以获取较全面的结构化数据,但若要确定客户是否存在不全告知、不实告知等欺诈行为,还需要由审核人员从理赔影像材料(如主诉、现病史、家族史等描述)中去查看是否存在家族遗传疾病、既往疾病以及不良生活史的就诊描述。这种方式非常耗时耗力,并且高度依赖于审核人员的工作经验和工作态度,准确性难以得到保障,不仅人力成本较高,还容易产生信息错漏的问题。
发明内容
本申请实施例的目的在于提出一种信息判别方法、装置、计算机设备及存储介质,以解决难以保障健康险的理赔风控环节中所得到的有效信息的准确性的技术问题。
为了解决上述技术问题,本申请实施例提供一种信息判别方法,采用了如下所述的技术方案:
一种信息判别方法,包括下述步骤:
获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
进一步的,所述命名实体识别模型包括BiLSTM-CRF模型,所述根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息的步骤,具体包括:
根据所述第一正则规则提取所述待判别文本信息中的有效文本信息,并对所述有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息;
根据所述BiLSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息;
将所述第一实体标签信息和所述第二实体标签信息作为所述目标实体标签信息。
进一步的,所述BiLSTM-CRF模型包括Bi-LSTM层和CRF层,所述根据所述BiLSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息的步骤,具体包括:
将所述有效文本信息输入所述BiLSTM-CRF模型;
根据所述Bi-LSTM层构建所述第二实体对应的特征词向量;
根据所述CRF层对所述特征词向量进行标注,得到所述第二实体标签信息。
进一步的,所述根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息的步骤,具体包括:
根据所述第二正则规则,对所述目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息;
根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息。
进一步的,所述根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息的步骤,具体包括:
根据文本编辑距离计算所述第一标准信息中的第二实体名称与预设实体名称之间的文本相似度;
根据所述文本相似度对所述第二实体名称进行更新,得到更新后的第一标准信息,作为所述标准实体标签信息。
进一步的,在所述将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分的步骤之前,还包括:
获取携带有风控指标信息的历史风控数据;
根据所述风控指标信息进行特征提取,得到特征向量集;
根据所述特征向量集,构建逻辑回归模型,并将所述逻辑回归模型作为所述风险评估模型。
进一步的,所述获取目标风控用户对应的待判别图像的步骤,具体包括:
获取所述目标风控用户对应的风控图像信息;
根据预设维度对所述风控图像信息进行筛选,得到所述待判别图像。
为了解决上述技术问题,本申请实施例还提供一种信息判别装置,采用了如下所述的技术方案:
一种信息判别装置,包括:
获取模块,用于获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
标签提取模块,用于根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
标准化处理模块,用于根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
确定模块,用于将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的信息判别方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的信息判别方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请公开的信息判别方法,通过获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;而后,根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;再根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;最终,将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。本申请通过结合OCR技术、正则规则与命名实体识别技术,从风控相关的图像材料中提取得到标准化的实体标签信息并进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的信息判别方法的一个实施例的流程图;
图3是根据本申请的信息判别装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的信息判别方法一般由终端设备执行,相应地,信息判别装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的信息判别方法的一个实施例的流程图。所述的信息判别方法,包括以下步骤:
步骤S201,获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
需要指出的是,信息判别方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式发送或接收数据。上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
需要说明的是,保险是金融行业的重要组成部分,而金融科技对保险行业有着重要的影响。随着金融科技的发展,保险公司在金融科技方面的创新包括基于互联网开展的渠道创新、产品创新和服务创新,对于保险公司而言,无论是产品、营销和核保,还是理赔、服务和反欺诈,均需要在业务场景的基础上结合金融科技方面的创新,以求达到更好的效果。
在本实施例中,为了在健康险的理赔风控环节实现反欺诈,针对理赔风控环节中的不实告知信息进行判别,首先可以获取目标风控用户对应的待判别图像,并利用OCR技术对待判别图像进行文本提取,得到待判别文本信息。具体地,目标风控用户即为需要确定是否存在不实告知行为的用户,而为了获取目标风控用户对应的待判别图像,首先可以获取目标风控用户对应的风控图像信息,再根据预设维度对风控图像信息进行筛选,从而得到待判别图像,例如,风控图像信息可以包括理赔风控环节目标风控用户报案时提供的就诊时账单明细、病案首页、入院记录、出院小结、检查报告、体检报告等影像材料,这些影像材料包含了对于目标风控用户的各种情况的信息描述,出于健康险的角度,可以从既往就诊信息描述、家族病史信息描述、不良史信息描述三个维度对影像材料进行筛选,并将剩余的影像材料作为待判别图像,而后即可利用OCR(光学字符识别)技术对待判别图像进行文本提取,从而得到待判别文本信息,用于后续进行信息判别。
步骤S202,根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
在本实施例中,得到待判别文本信息后,即可根据预设的第一正则规则和命名实体识别模型,对待判别文本信息进行标签提取,得到目标实体标签信息。具体地,文本提取得到的待判别文本信息中包括较多描述性语言,多为无关信息,因此可以根据预设的第一正则规则提取待判别文本信息中的有效文本信息,例如,将待判别文本信息以标点符号为单位进行分段,再根据第一正则规则保留包含了既往就诊信息、家族病史信息、不良史信息三类情况的文本段,作为有效文本信息。可以理解的是,在有效文本信息中,包含了可以通过正则规则提取的第一实体,如既往就诊信息中的既往就诊时间实体和不良史信息中的不良史实体,也包含了无法通过正则规则提取的第二实体,如既往就诊信息和家族病史信息中的疾病实体,故,在得到有效文本信息后,还可以根据第一正则规则对有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息,再根据预设的命名实体识别模型如BiLSTM-CRF模型,对有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息,最终将第一实体标签信息和第二实体标签信息作为目标实体标签信息。
步骤S203,根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
在本实施例中,得到目标实体标签信息后,即可根据预设的第二正则规则和文本相似度计算标准,对目标实体标签信息进行标准化处理,得到标准实体标签信息。具体地,为了后续将目标实体标签信息用于不实告知信息的判别,需要对目标实体标签信息进行标准化,首先可以根据预设的第二正则规则,对目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息,再根据预设的文本相似度计算标准,对第一标准信息进行第二实体名称标准化,例如,第二实体为疾病实体,第二实体名称标准化即为将疾病实体名称转换为疾病标准名称,使其标准化,从而得到第二实体名称标准化完成的标准实体标签信息。
步骤S204,将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
在本实施例中,得到标准实体标签信息后,即可将标准实体标签信息输入预设的风险评估模型,并根据风险评估模型的输出结果确定目标风控用户对应的不实告知风险评分。具体地,本实施例针对健康险的理赔风控环节进行不实告知信息的判别,对于标准实体标签信息中的第二实体如疾病实体,若其所对应的疾病发生在保单生效期内,则可以确定不属于不实告知类疾病,此外,疾病种类繁多,若有疾病不在保单生效期内,但也不属于严重疾病,如感冒、骨折等,同样不属于不实告知类疾病,因此,需要对不实告知类疾病进行判断以及剔除,可以预先获取携带有风控指标信息的历史风控数据,风控指标信息包括如既往时间差、产品、疾病类别等,可以作为模型入参,并以案件是否提调作为模型出参,从而构建风险评估模型,该风险评估模型属于逻辑回归模型,可以对标准实体标签信息进行风险评估,该风险评估模型的输出结果,即对应了标准实体标签信息中各个疾病实体属于不实告知类疾病的概率,根据该输出结果,可以转换为各个疾病实体的不实告知风险评分卡,最终可以确定目标风控用户对应的不实告知风险评分,从而用于针对不实告知信息的判别。
本申请通过结合OCR技术、正则规则与命名实体识别技术,从风控相关的图像材料中提取得到标准化的实体标签信息并进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述命名实体识别模型包括BiLSTM-CRF模型,上述根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息的步骤包括:
根据所述第一正则规则提取所述待判别文本信息中的有效文本信息,并对所述有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息;
根据所述BiLSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息;
将所述第一实体标签信息和所述第二实体标签信息作为所述目标实体标签信息。
在本实施例中,命名实体识别模型包括BiLSTM-CRF模型,在得到待判别文本信息后,即可根据预设的第一正则规则提取待判别文本信息中的有效文本信息,并对有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息,再根据BiLSTM-CRF模型对有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息,从而将第一实体标签信息和第二实体标签信息作为目标实体标签信息。具体地,通过文本提取得到待判别文本信息后,由于待判别文本信息中几乎都是描述性语言,因此需要根据预设的第一正则规则对其进行无效信息的剔除,首先以标点符号为单位对待判别文本信息进行分段,继而通过第一正则规则保留含有既往就诊信息、家族病史信息以及不良史信息的文本段,例如,在第一正则规则中,保留文本段的规则包括:包含有年前、年余、岁时、月前、月余等字样,并且不包含不伴、不累及、未见、未发现、无、否认等否定字样的文本段保留;包含父母、兄弟、姐妹、爷爷、奶奶、家族等相关字样,并且不包含相应否定词字样的文本段保留;包含烟、酒、尘、污染等相关字样,并且不包含相关否定词字样的文本段保留。而后根据既往就诊信息、家族病史信息以及不良史信息这三类情况针对保留的文本段进行类别划分,并根据正则规则对第一实体进行实体识别和标签标注,以得到第一实体标签信息,例如,第一实体包括既往就诊时间实体和不良史实体,针对既往就诊时间实体,可以对包括但不限于“*年前”、“*年半前”、“*年余”、“*年”、“*月前”、“*月余”、“*个月”、“*岁时”等字样进行提取并标注;针对不良史实体,可以直接识别吸烟、酗酒、毒气烟尘环境工作等字样,并根据持续时间标注高、中、低程度标签,其中,1年内为低,1-5年为中,超过5年为高。在得到第一实体标签信息后,可以根据预设的BiLSTM-CRF模型,对有效文本信息中的第二实体进行命名实体识别,以得到第二实体标签信息,最终将第一实体标签信息和第二实体标签信息作为目标实体标签信息。
本申请通过正则规则和命名实体识别技术,对待判别文本信息进行标签提取,得到目标实体标签信息,从而用于判别健康险的理赔风控环节中是否存在不实告知信息,保障了健康险的理赔风控环节中所得到的有效信息的准确性,避免了由人工主观进行审核而导致的信息错漏,并提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述BiLSTM-CRF模型包括Bi-LSTM层和CRF层,上述根据所述BiLSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息的步骤包括:
将所述有效文本信息输入所述BiLSTM-CRF模型;
根据所述Bi-LSTM层构建所述第二实体对应的特征词向量;
根据所述CRF层对所述特征词向量进行标注,得到所述第二实体标签信息。
在本实施例中,BiLSTM-CRF模型包括Bi-LSTM层和CRF层,为了对有效文本信息中的第二实体进行命名实体识别,可以将有效文本信息输入BiLSTM-CRF模型,并根据Bi-LSTM层构建第二实体对应的特征词向量,再根据CRF层对特征词向量进行标注,从而得到第二实体标签信息。具体地,通过正则规则,将有效文本信息分为既往就诊信息、家族病史信息以及不良史信息三类并提取第一实体后,有效文本信息中还存在无法通过正则规则进行提取的实体,即第二实体,例如既往就诊信息和家族病史信息中的疾病实体,由于疾病名称数不胜数,所以无法通过正则规则进行提取,故而,主要通过命名实体识别模型即BiLSTM-CRF模型对第二实体进行命名实体识别,其中,BiLSTM-CRF模型包括Bi-LSTM层和CRF层,Bi-LSTM(双向长短记忆网络)层能够记住长句子的前后信息,可以有效提取疾病实体前后文本特征,构建疾病文本特征词向量,而后将特征词向量作为CRF(条件随机场)层的入参,CRF层使用P(Y|X)建模,具有全局归一性,通过CRF层为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息,从而解决标注偏差问题,确保输出的第二实体标签信息更为准确。
本申请通过Bi-LSTM与CRF结合后的模型进行命名实体识别,可以确保输出的第二实体标签信息有效,并与第一实体标签信息结合作为目标实体标签信息,用于判别健康险的理赔风控环节中是否存在不实告知信息,保障了健康险的理赔风控环节中所得到的有效信息的准确性,避免了由人工主观进行审核而导致的信息错漏。
在本实施例的一些可选的实现方式中,上述根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息的步骤包括:
根据所述第二正则规则,对所述目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息;
根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息。
在本实施例中,得到目标实体标签信息后,即可根据预设的第二正则规则,对目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息,并根据预设的文本相似度计算标准,对第一标准信息进行第二实体名称标准化,得到标准实体标签信息。具体地,上述通过第一正则规则提取的第一实体标签信息中,与时间相关的部分,无论是单位、数量还是数字形式都种类较多,不利于进行信息判别,故而需要先统一转换为与保单生效日时间相同的格式,例如“两年前”,则会在当前就诊时间的基础上减去2年,得到与保单生效时间格式(yyyy-mm-dd)相同的既往疾病就诊时间,同时,还可以计算其与当前就诊时间的月份差值,从而得到既往疾病就诊时间的量化指标。根据预设的第二正则规则,将目标实体标签信息转换为统一时间格式的第一标准信息后,即可根据预设的文本相似度计算标准,对第一标准信息进行第二实体名称标准化,即对第一标准信息中的第二实体如疾病实体的名称进行标准化,并将标准化后的第一标准信息作为标准实体标签信息。
本申请通过结合正则规则与文本相似度计算,得到标准化的实体标签信息,以使得后续可以用于不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息的步骤包括:
根据文本编辑距离计算所述第一标准信息中的第二实体名称与预设实体名称之间的文本相似度;
根据所述文本相似度对所述第二实体名称进行更新,得到更新后的第一标准信息,作为所述标准实体标签信息。
在本实施例中,得到第一标准信息后,即可根据文本编辑距离计算第一标准信息中的第二实体名称与预设实体名称之间的文本相似度,并根据文本相似度对第二实体名称进行更新,得到更新后的第一标准信息,作为标准实体标签信息。具体地,针对第二实体如疾病实体,存在预设实体名称如预先设有健康险标准疾病库,利用文本编辑距离可以计算疾病实体名称与健康险标准疾病库中疾病名称的相似度,再将相似度最高的疾病名称作为提取的疾病标准名称,对疾病实体名称进行替换,同时输出对应的疾病标准编码。
可选地,在相似度匹配时可以预先设置相似度阈值,若任一疾病实体名称与健康险标准疾病库中所有疾病名称的相似度均小于70%,则表明无法找到对应的疾病标准名称,该疾病实体则不会应用于实际的不实告知风险评估中。
本申请通过文本相似度计算对实体名称进行标准化,有利于后续进行不实告知信息的判别,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性。
在本实施例的一些可选的实现方式中,在上述将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分的步骤之前,还包括:
获取携带有风控指标信息的历史风控数据;
根据所述风控指标信息进行特征提取,得到特征向量集;
根据所述特征向量集,构建逻辑回归模型,并将所述逻辑回归模型作为所述风险评估模型。
在本实施例中,将标准实体标签信息输入预设的风险评估模型之前,需要对风险评估模型进行构建,可以获取携带有风控指标信息的历史风控数据,并根据风控指标信息进行特征提取,得到特征向量集,而后根据特征向量集,构建逻辑回归模型,并将逻辑回归模型作为风险评估模型。具体地,在标准实体标签信息中,有部分疾病实体并不是发生在保单生效日前,或者即使发生在保单生效日前,也不属于严重疾病,因此需要结合风险评估模型进行判别,可以从历史风控数据中获取风控指标信息如既往时间差、产品、疾病类别、案件是否提调等,再将既往时间差、产品以及疾病类别作为模型入参,并将案件是否提调作为模型出参,通过对风控指标信息的特征提取得到特征向量集,再根据特征向量集进行逻辑回归模型的训练,并将训练完成的逻辑回归模型作为风险评估模型,该风险评估模型可以输出标准实体标签信息中各个疾病实体属于不实告知类疾病的概率,并根据输出结果转换为各个疾病实体的不实告知风险评分卡,最终可以确定目标风控用户对应的不实告知风险评分。
可选地,在模型训练时,还可以将既往时间差指标基于χ2分箱技术进行分箱离散化,并进行WOE编码转换,以提高风险评估模型的评分效果。
本申请通过风险评估模型的预先构建,使其后续可以用于对标准化的实体标签信息进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述获取目标风控用户对应的待判别图像的步骤包括:
获取所述目标风控用户对应的风控图像信息;
根据预设维度对所述风控图像信息进行筛选,得到所述待判别图像。
在本实施例中,首先可以获取目标风控用户对应的风控图像信息,再根据预设维度对风控图像信息进行筛选,从而得到目标风控用户对应的待判别图像,例如,当目标风控用户进行理赔报案时,一般会提供就诊时账单明细、病案首页、入院记录、出院小结、检查报告、体检报告等影像材料,其中,病案首页、入院记录、出院小结等影像材料中存在就诊人对自己过往就诊疾病、家族疾病、吸烟酗酒等情况的描述信息,而后从既往就诊信息描述、家族病史信息描述、不良史信息描述三个预设维度,即可对这些影像材料进行筛选,得到待判别图像,用于后续进行文本提取得到待判别文本信息。
本申请通过获取待判别图像时的预先筛选,避免了初始影像材料过多导致的时间成本增加,在后续健康险的理赔风控环节中判别是否存在不实告知信息时,提高了对于不实告知信息判别的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种信息判别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的信息判别装置300包括:获取模块301、标签提取模块302、标准化处理模块303以及确定模块304。
其中:
获取模块301,用于获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
标签提取模块302,用于根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
标准化处理模块303,用于根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
确定模块304,用于将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
本申请提供的信息判别装置,通过结合OCR技术、正则规则与命名实体识别技术,从风控相关的图像材料中提取得到标准化的实体标签信息并进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述命名实体识别模型包括BiLSTM-CRF模型,标签提取模块302还用于:
根据所述第一正则规则提取所述待判别文本信息中的有效文本信息,并对所述有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息;
根据所述BiLSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息;
将所述第一实体标签信息和所述第二实体标签信息作为所述目标实体标签信息。
本申请提供的信息判别装置,通过正则规则和命名实体识别技术,对待判别文本信息进行标签提取,得到目标实体标签信息,从而用于判别健康险的理赔风控环节中是否存在不实告知信息,保障了健康险的理赔风控环节中所得到的有效信息的准确性,避免了由人工主观进行审核而导致的信息错漏,并提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,上述BiLSTM-CRF模型包括Bi-LSTM层和CRF层,标签提取模块302还用于:
将所述有效文本信息输入所述BiLSTM-CRF模型;
根据所述Bi-LSTM层构建所述第二实体对应的特征词向量;
根据所述CRF层对所述特征词向量进行标注,得到所述第二实体标签信息。
本申请提供的信息判别装置,通过Bi-LSTM与CRF结合后的模型进行命名实体识别,可以确保输出的第二实体标签信息有效,并与第一实体标签信息结合作为目标实体标签信息,用于判别健康险的理赔风控环节中是否存在不实告知信息,保障了健康险的理赔风控环节中所得到的有效信息的准确性,避免了由人工主观进行审核而导致的信息错漏。
在本实施例的一些可选的实现方式中,标准化处理模块303还用于:
根据所述第二正则规则,对所述目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息;
根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息。
本申请提供的信息判别装置,通过结合正则规则与文本相似度计算,得到标准化的实体标签信息,以使得后续可以用于不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,标准化处理模块303还用于:
根据文本编辑距离计算所述第一标准信息中的第二实体名称与预设实体名称之间的文本相似度;
根据所述文本相似度对所述第二实体名称进行更新,得到更新后的第一标准信息,作为所述标准实体标签信息。
本申请提供的信息判别装置,通过文本相似度计算对实体名称进行标准化,有利于后续进行不实告知信息的判别,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性。
在本实施例的一些可选的实现方式中,信息判别装置300还用于:
获取携带有风控指标信息的历史风控数据;
根据所述风控指标信息进行特征提取,得到特征向量集;
根据所述特征向量集,构建逻辑回归模型,并将所述逻辑回归模型作为所述风险评估模型。
本申请提供的信息判别装置,通过风险评估模型的预先构建,使其后续可以用于对标准化的实体标签信息进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
在本实施例的一些可选的实现方式中,获取模块301还用于:
获取所述目标风控用户对应的风控图像信息;
根据预设维度对所述风控图像信息进行筛选,得到所述待判别图像。
本申请提供的信息判别装置,通过获取待判别图像时的预先筛选,避免了初始影像材料过多导致的时间成本增加,在后续健康险的理赔风控环节中判别是否存在不实告知信息时,提高了对于不实告知信息判别的效率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如信息判别方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述信息判别方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请提供的计算机设备,通过结合OCR技术、正则规则与命名实体识别技术,从风控相关的图像材料中提取得到标准化的实体标签信息并进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的信息判别方法的步骤。
本申请提供的计算机可读存储介质,通过结合OCR技术、正则规则与命名实体识别技术,从风控相关的图像材料中提取得到标准化的实体标签信息并进行不实告知风险的评估,从而可以在健康险的理赔风控环节中判别是否存在不实告知信息,避免了由人工主观进行审核而导致的信息错漏,并保障了健康险的理赔风控环节中所得到的有效信息的准确性,提高了对于不实告知信息判别的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种信息判别方法,其特征在于,包括下述步骤:
获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
2.根据权利要求1所述的信息判别方法,其特征在于,所述命名实体识别模型包括BiLSTM-CRF模型,所述根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息的步骤,具体包括:
根据所述第一正则规则提取所述待判别文本信息中的有效文本信息,并对所述有效文本信息中的第一实体进行实体识别和标签标注,得到第一实体标签信息;
根据所述Bi LSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息;
将所述第一实体标签信息和所述第二实体标签信息作为所述目标实体标签信息。
3.根据权利要求2所述的信息判别方法,其特征在于,所述BiLSTM-CRF模型包括Bi-LSTM层和CRF层,所述根据所述Bi LSTM-CRF模型对所述有效文本信息中的第二实体进行命名实体识别,得到第二实体标签信息的步骤,具体包括:
将所述有效文本信息输入所述Bi LSTM-CRF模型;
根据所述Bi-LSTM层构建所述第二实体对应的特征词向量;
根据所述CRF层对所述特征词向量进行标注,得到所述第二实体标签信息。
4.根据权利要求3所述的信息判别方法,其特征在于,所述根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息的步骤,具体包括:
根据所述第二正则规则,对所述目标实体标签信息进行时间格式转换,得到统一时间格式的第一标准信息;
根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息。
5.根据权利要求4所述的信息判别方法,其特征在于,所述根据所述文本相似度计算标准,对所述第一标准信息进行第二实体名称标准化,得到所述标准实体标签信息的步骤,具体包括:
根据文本编辑距离计算所述第一标准信息中的第二实体名称与预设实体名称之间的文本相似度;
根据所述文本相似度对所述第二实体名称进行更新,得到更新后的第一标准信息,作为所述标准实体标签信息。
6.根据权利要求1所述的信息判别方法,其特征在于,在所述将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分的步骤之前,还包括:
获取携带有风控指标信息的历史风控数据;
根据所述风控指标信息进行特征提取,得到特征向量集;
根据所述特征向量集,构建逻辑回归模型,并将所述逻辑回归模型作为所述风险评估模型。
7.根据权利要求1至6任一项所述的信息判别方法,其特征在于,所述获取目标风控用户对应的待判别图像的步骤,具体包括:
获取所述目标风控用户对应的风控图像信息;
根据预设维度对所述风控图像信息进行筛选,得到所述待判别图像。
8.一种信息判别装置,其特征在于,包括:
获取模块,用于获取目标风控用户对应的待判别图像,并利用OCR技术对所述待判别图像进行文本提取,得到待判别文本信息;
标签提取模块,用于根据预设的第一正则规则和命名实体识别模型,对所述待判别文本信息进行标签提取,得到目标实体标签信息;
标准化处理模块,用于根据预设的第二正则规则和文本相似度计算标准,对所述目标实体标签信息进行标准化处理,得到标准实体标签信息;
确定模块,用于将所述标准实体标签信息输入预设的风险评估模型,并根据所述风险评估模型的输出结果确定所述目标风控用户对应的不实告知风险评分。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的信息判别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的信息判别方法的步骤。
CN202410361954.9A 2024-03-27 2024-03-27 信息判别方法、装置、计算机设备及存储介质 Pending CN118070805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410361954.9A CN118070805A (zh) 2024-03-27 2024-03-27 信息判别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410361954.9A CN118070805A (zh) 2024-03-27 2024-03-27 信息判别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN118070805A true CN118070805A (zh) 2024-05-24

Family

ID=91097182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410361954.9A Pending CN118070805A (zh) 2024-03-27 2024-03-27 信息判别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN118070805A (zh)

Similar Documents

Publication Publication Date Title
Sun Applying deep learning to audit procedures: An illustrative framework
CN107945024B (zh) 识别互联网金融借贷企业经营异常的方法、终端设备及存储介质
CN112507116B (zh) 基于客户应答语料的客户画像方法及其相关设备
CN113449046A (zh) 基于企业知识图谱的模型训练方法、***及相关装置
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN116757812A (zh) 检测异常数据的方法、装置、电子设备及存储介质
CN116453125A (zh) 基于人工智能的数据录入方法、装置、设备及存储介质
CN114756669A (zh) 问题意图的智能分析方法、装置、电子设备及存储介质
CN113743721A (zh) 营销策略生成方法、装置、计算机设备及存储介质
CN117522538A (zh) 招投标信息处理方法、装置、计算机设备及存储介质
CN117273968A (zh) 一种跨业务线产品的会计凭证生成方法及其相关设备
CN117114901A (zh) 基于人工智能的投保数据处理方法、装置、设备及介质
CN114708073B (zh) 一种围标串标智能检测方法、装置、电子设备及存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN118070805A (zh) 信息判别方法、装置、计算机设备及存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113779998A (zh) 业务信息的结构化处理方法、装置、设备及存储介质
CN112270224A (zh) 保险责任解析方法、装置及计算机可读存储介质
CN116308237B (zh) 一种erp邮件处理方法及其相关设备
CN117312991B (zh) 一种分类识别***的构建方法及其相关设备
CN114202768B (zh) 保单理赔风险评估方法、装置、电子设备及存储介质
CN114066473A (zh) 用户还款意向预测方法、装置、计算机设备及存储介质
CN117407750A (zh) 基于元数据的数据质量监控方法、装置、设备及存储介质
CN116975749A (zh) 车辆损失估算方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination