CN115063035A - 基于神经网络的客户评估方法、***、设备及存储介质 - Google Patents

基于神经网络的客户评估方法、***、设备及存储介质 Download PDF

Info

Publication number
CN115063035A
CN115063035A CN202210859101.9A CN202210859101A CN115063035A CN 115063035 A CN115063035 A CN 115063035A CN 202210859101 A CN202210859101 A CN 202210859101A CN 115063035 A CN115063035 A CN 115063035A
Authority
CN
China
Prior art keywords
neural network
target
information
client
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210859101.9A
Other languages
English (en)
Inventor
王美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Health Insurance Company of China Ltd
Original Assignee
Ping An Health Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Health Insurance Company of China Ltd filed Critical Ping An Health Insurance Company of China Ltd
Priority to CN202210859101.9A priority Critical patent/CN115063035A/zh
Publication of CN115063035A publication Critical patent/CN115063035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提出一种基于神经网络的客户评估方法、***、设备及存储介质,该方法包括:获取目标客户的保单信息、历史理赔信息和沟通信息;根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户的评估分数,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。主要目的在于挖掘客户对购买保险的潜在需求并提高恶意理赔的避免率,从而实现对保险的精准推送。

Description

基于神经网络的客户评估方法、***、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于神经网络的客户评估方法、***、设备及存储介质。
背景技术
倾听客户声音是保险公司满足客户需求、优化客户服务的关键途径。作为保险客户声音的重要获取方式,从客服会话数据中分析提取线索是保险企业提升自身竞争力的有效手段。通过客服会话分析,保险公司可以更加充分、全面地了解客户诉求,从而驱动企业提升服务质量,助力企业进行产品升级。然而行业内对于客服会话数据的分析很大程度上依赖于人工介入,面临着无法从海量客服会话数据中高效捕捉客户声音、及时提供反馈的现状。
在进行客服会话分析时,当前各大领域较为通用的分析方法主要侧重于会话情绪、会话目的方面的分析,其中会话情绪分析在保险领域的应用价值较为局限,会话目的分析在复杂的保险场景下需要以大量人工制定的判定规则作为依据。但是,现有客服会话分析方法与保险领域销售、核保、理赔三大核心业务的关联并不紧密,适用于保险领域的客服会话分析方法仍处于较为欠缺的状态。
因此,亟需一种针对保险领域的客户会话分析,以分析客户是否愿意购买保险以及购买保险后是否具有理赔风险,从而挖掘潜在客户,并规避恶意理赔的情况。
发明内容
本发明提供一种基于神经网络的客户评价方法,其主要目的在于挖掘客户对购买保险的潜在需求并提高恶意理赔的避免率,从而实现对保险的精准推送。
第一方面,本发明实施例提供一种基于神经网络的客户评估方法,包括:
获取目标客户的保单信息、历史理赔信息和沟通信息;
根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户的评估分数,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
优选地,所述样本客户对应的标签,通过如下方式获得:
从数据仓库中筛选出具有沟通记录的样本客户;
对所述样本客户的保单信息、历史理赔信息和沟通信息进行数据清洗,得到清洗后的样本数据;
对清洗后的样本数据进行探索性分析,得到观察期;
根据所述样本客户是否在观察期内是否发生目标行为,获取所述客户对应的标签。
优选地,所述从数据仓库中筛选出具有沟通记录的样本客户,包括:
将所述数据仓库的应用日志同步到大数据集群,并对所述应用日志进行数据清洗;
对清洗后的应用日志进行拆分,得到沟通记录对应的字段信息;
根据所述沟通记录对应的字段信息,从客户数据库中筛选出所述样本客户。
优选地,所述目标行为表示保险购买行为,所述样本客户对应的标签为在所述观察期发生购买行为和在所述观察期未发生购买行为,所述目标评估神经网络为购买评估神经网络。
优选地,所述目标行为表示恶意理赔行为,所述样本客户对应的标签为在所述观察期发生恶意理赔行为和在所述观察期未发生恶意理赔行为,所述目标评估神经网络为恶意评估神经网络。
优选地,所述沟通信息,通过如下方式获取:
获取所述目标客户与客服人员的沟通记录文本;
对所述沟通记录文本进行分词处理;
对分词处理后的沟通记录文本进行关键字特征提取,将提取的关键字特征作为所述沟通信息。
优选地,所述静态特征包括所述目标客户的性别、年龄、职业、婚姻状况、购买保险的保费,所述动态特征包括所述目标客户在预设历史时间段保费缴纳金额、所述预设历史时间段内是否续保。
第二方面,本发明实施例提供一种基于神经网络的客户评估***,包括:
信息获取模块,用于获取目标客户的保单信息、历史理赔信息和沟通信息;
特征获取模块,用于根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
概率计算模块,用于将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户购买概率或恶意理赔概率,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于神经网络的客户评估方法的步骤。
第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于神经网络的客户评估方法的步骤。
本发明实施例提出的一种基于神经网络的客户评估方法、***、设备及存储介质,通过采集目标客户的保单信息、历史理赔信息和沟通信息,根据这些信息中所包含的与购买保险、恶意理赔等信息,提取出目标客户的静态特征和动态特征,并将该特征输入到目标评估神经网络中,得到目标客户的评估分数,以根据该评估分数得出该客户是否有购买保险的意愿,或者,是否有恶意理赔的风险。本发明实施例通过在保单信息、历史理赔信息、目标客户的沟通信息中尽可能捕捉与保险购买、恶意理赔等相关的信息,最大限度地挖掘客户对购买保险的潜在需求并提高恶意理赔的避免率,从而实现对保险的精准推送。
附图说明
图1为本发明实施例提供的一种基于神经网络的客户评估方法的场景示意图;
图2为本发明实施例提供的一种基于神经网络的客户评估方法的流程图;
图3为本发明实施例提供的一种基于神经网络的客户评估***的结构示意图;
图4为本发明实施例中提供的一种计算机设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为本发明实施例提供的一种基于神经网络的客户评估方法的场景示意图,如图1所示,用户在客户端提供的页面上输入保单信息、历史理赔信息和沟通信息,客户端接收到该保单信息、历史理赔信息和沟通信息后,将该保单信息、历史理赔信息和沟通信息发送到服务端。服务端接收到该保单信息、历史理赔信息和沟通信息,执行该基于神经网络的客户评估方法,以实现对目标客户的评估。
需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
图2为本发明实施例提供的一种基于神经网络的客户评估方法的流程图,如图2所示,该方法包括:
S210,获取目标客户的保单信息、历史理赔信息和沟通信息;
首先获取目标客户的保单信息、历史理赔信息和沟通信息,一般而言,保险公司都有相关的客户数据记录***,该客户数据记录***上记录有客户的基础属性信息和与保险有关的信息,该基础属性信息包括姓名、性别、年龄、职业、婚姻状况、身高、体重和体检记录等基础信息,与保险有关的信息包括以前是否购买过保险、购买过什么样的保险、购买保险年限、保费、理赔额度、历史理赔信息等,每个保险公司可以根据自己的需求记录客户数据,具体所包含的信息可以根据实际情况进行确定,本发明实施例在此不做具体限定。本发明实施例中的目标客户即为客户数据记录***中记录的客户,本发明实施例中通过提取出目标客户的保单信息、历史理赔信息和沟通信息,对目标客户进行评估分析,看该目标客户是否属于保险公司的潜在客户。本发明实施例中,目标客户的保单信息包括保险类型、保险额度、保险费用、保险购买年限、保险期限、是否有对保单进行修改、如果有对保单进行修改修改内容具体是啥等信息,保险类型包括医疗保险、养老保险、意外保险等,从购买的保险类型中客户分析出客户对保险的重视程度,越重视购买保险的概率越多,保险额度表示保险最高理赔额度,保险费用表示每年购买保险目标客户需要缴纳的费用,保险购买年限是指购买保险的年度,保险期限是指每个保险的保障时间,是否对保单进行修改是指该目标客户在购买保险时是否对保单条款内容进行修改,如果修改了,记录修改的具体内容,通过这些保单信息可以看出该目标客户对保险的重要程度以及保险条款的重要程度,具体保单信息可以根据实际情况进行确定,本发明实施例在此不做具体限定;历史理赔信息是指该目标客户的过去时间段的保险理赔信息,包括理赔次数、理赔时间、理赔缘由、理赔额度、受益人等信息,理赔次数是指目标客户过去时间段进行了保险理赔的次数,理赔时间是指每次进行保险理赔时的时间,理赔缘由是指进行保险理赔的缘由,如果是医疗保险,就可以记录进行保险理赔的疾病,如果是意外保险,就可以记录进行保险理赔的意外事件,理赔额度是指进行理赔的实际金额,受益人是指该保险的最终受益对象,具体可以根据实际情况进行确定,本发明实施例在此不做具体限定;沟通信息一般是指目标客户与该保险公司进行沟通的信息记录,如果有语音沟通记录,先将语音沟通记录转换为文字记录,然后将所有文字记录提取出来,并且提取出其中的关键敏感词,以对提取出的关键敏感词进行分析,提取出客户对保险的意思,本发明实施例中的关键敏感词包括理赔、赔偿、补偿、购买、买等信息,该关键敏感词可以是预先设定的,不同类型的保险对应的关键敏感词可能不同,具体可以根据实际情况进行确定,本发明实施例对此不做具体限定。
在信息***的时代,从海量的文本数据中挖掘出有价值的关键信息,十分重要,关键词也就是能够表达文档中心内容的词语,关键词提取是文本挖掘领域的一个分支,本发明实施例中,从沟通信息中提取出本方案所关注的关键敏感信息,关键词提取算法也主要有两类:有监督方法和无监督方法。在机器学习领域,“有监督”的定义就是指算法需要人工标注数据,有监督关键词提取算法,主要是利用机器学习算法,训练已有的文本数据以及其关键词,生成可以用来检测文本关键词的模型,之后利用这个模型处理新的文本数据,并检测出其中的关键词,有监督的文本关键词提取算法目前需要高昂的人工成本,也就是需要对已有的数据集进行标注,例如将文本标记为积极、消极或中立来评估文本隐含的情感。而无监督关键词提取算法,只需要选择一种评估关键词的方法,比如这个词出现的频率、位置等,通过这种方法来抽取可能的关键词,现有的文本关键词提取主要采用适用性较强、成本较低的无监督关键词抽取。常见的无监督关键词提取方法包括TF-IDF算法、LDA算法和Word2vec算法,TF-IDF算法主要是通过统计方法,评估词对文档的重要性。一个基本思想是,一个词在文档中出现的次数越多,显然这个词会相对更具代表性,但是如果这个词在很多的文档中都有出现,那么他出现次数再多也不具备文档区分能力;LDA算法是目前关键词检测技术中最流行的方法之一,每篇文档由不同的词组成的同时,同时也存在多个潜在的主题,比如体育,娱乐,新闻,政治,而每个主题也有属于它的不同的词,比如属于“体育”主题可能会有“足球,篮球,比赛”,属于“娱乐”主题可能会有“明星,电影,唱片”等等,LDA的目的就是在上述条件的基础之上,根据文档中的词来找到文档最可能的几个主题以及其中的词;Word2vec算法主要研究词与词之间的关系,它将所有文本数据集中出现的全部不重复的词都转化成了向量,这种数据格式包含了这个词与其他所有词的相似度,因此就可以根据词之间的关系进行分类,通过分类算法得到多个类别的中心词,之后再计算每个类中词语与类别中心的相似度并排序,最后选择最接近的中心的前几个词作为关键词。
本发明实施例通过在保单信息、历史理赔信息、目标客户的沟通信息中尽可能捕捉与保险购买、恶意理赔等相关的信息,以最大限度地挖掘客户对购买保险的潜在需求并提高恶意理赔的避免率。
S220,根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
然后根据保单信息、历史理赔信息和沟通信息,获取到静态特征和动态特征,上述步骤中保单信息、历史理赔信息和沟通信息是通过关键词进行记录的,通过对这些信息进行特征提取,分别提取到静态特征和动态特征。在对文本数据进行处理时,很大一部分精力都用在数据集的特征提取上,因此需要记录一下常用的文本特征提取方法。在自然语言处理中把文本数据变成向量数据,在向量数据中可以得到很多来自于文本数据当中的语言特性,这种方式叫做文本表示或文本特征构造。本发明实施例中,根据保单信息、历史理赔信息和沟通信息提取出静态特征和动态特征,静态特征是指目标客户固有的稳定性特征,一般不会随着时间的变化或者保险类型的变化而随意改变,静态特征可以描述出目标客户对购买保险的一些基本情况和基本态度,比如性别、职业、婚姻状况、身体状况等等,不同职业对保险的态度不同,比如医生对保险的购买意愿就会高一些,而且结婚后家庭主要劳动力购买保险的意愿也会更高一些,因此通过静态特征可以确定目标客户的基本情况,动态特征是在静态特征的基础上进一步分析该目标客户的意愿购买情况,动态特征一般包括目标客户对现在已有保险的缴费情况、每年保险的续保情况,是全款缴费还是分期缴费等等,如果是分期缴费,该保险是否按时缴费了等情况,具体可以根据实际情况进行确定,本发明实施例在此不进行具体限定。
本发明实施例中结合静态特征和动态特征对目标客户进行全面分析,以保证目标客户分析的准确率。
S230,将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户的评估分数,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
最后将静态特征和动态特征输入到目标评估神经网络中,得到目标客户的评估分数,目标评估神经网络是利用样本客户对应的静态特征和动态特征、样本客户对应的标签进行训练得到。本发明实施例中目标评估神经网络输出得是目标客户的评估分数,本发明实施例中是为了分析该目标客户是否具有保险购买愿望,如果有,则分析该愿望有多强,并且还分析该目标客户是否存在骗保的概率,如果存在,则分析该骗保的概率有多少,骗保也就是恶意理赔,比如某客户在购买保险前,身体上已经出现了甲状腺的相关症状,为了骗保,有些人在已经患了相关疾病后,故意去买甲状腺相关的医疗保险,以实现恶意理赔,本发明实施例中通过保单信息、历史理赔信息和沟通信息,分析出目标客户存在恶意理赔的概率,并根据该概率,给出相应的评估分数,也就是目标客户可能进行保险购买的评估分数包括两个方面的评估分数,继续购买保险的评估分数和恶意理赔的评估分数,可以理解的是,购买保险对应的评估分数越高,该目标客户对保险公司的潜力越大,恶意理赔的评估分数越低,该目标客户对保险公司的潜力越大;购买保险对应的评估分数越低,保险公司分配在该目标客户上的精力就应该越少,恶意理赔的评估分数越高,该保险公司就越应该规避该目标客户。
需要说明的是,本发明实施例中的目标评估神经网络属于神经网络中的一种,在使用该目标评估神经网络前,也需要对其进行训练或者更新训练,通过取得的样本和标签,对自回归语音合成模型进行训练。该目标评估神经网络的训练过程可以分为三个步骤:定义目标评估神经网络的结构和前向传播的输出结果;按照上述描述的过程定义损失函数以及反向传播优化的算法;最后生成会话并在训练数据上反复运行反向传播优化算法。
其中,神经元是构成神经网络的最小单位,一个神经元可以有多个输入和一个输出,每个神经元的输入既可以是其它神经元的输出,也可以是整个神经网络的输入。该神经网络的输出即是所有神经元的输入加权和,不同输入的权重就是神经元参数,神经网络的优化过程就是优化神经元参数取值的过程。
神经网络的效果及优化的目标是通过损失函数来定义的,损失函数给出了神经网络的输出结果与真实标签之间差距的计算公式,监督学习为神经网络训练的一种方式,其思想就是在已知答案的标注数据集上,该神经网络给出的结果要尽量接近真实的答案(即标签)。通过调整神经网络中的参数对训练数据进行拟合,使得神经网络对未知的样本提供预测能力。
反向传播算法实现了一个迭代的过程,每次迭代开始的时候,先取一部分训练数据,通过前向传播算法得到神经网络的预测结果。因为训练数据都有正确的答案,所以可以计算出预测结果和正确答案之间的差距。基于这个差距,反向传播算法会相应的更新神经网络参数的取值,使得和真实答案更加接近。
通过上述方法完成训练过程后,即可利用完成训练后的自回归语音合成模型进行应用。
本发明实施例提出的一种基于神经网络的客户评估方法,通过采集目标客户的保单信息、历史理赔信息和沟通信息,根据这些信息中所包含的与购买保险、恶意理赔等信息,提取出目标客户的静态特征和动态特征,并将该特征输入到目标评估神经网络中,得到目标客户的评估分数,以根据该评估分数得出该客户是否有购买保险的意愿,或者,是否有恶意理赔的风险。本发明实施例通过在保单信息、历史理赔信息、目标客户的沟通信息中尽可能捕捉与保险购买、恶意理赔等相关的信息,最大限度地挖掘客户对购买保险的潜在需求并提高恶意理赔的避免率,从而实现对保险的精准推送。
在上述实施例的基础上,优选地,所述样本客户对应的标签,通过如下方式获得:
从数据仓库中筛选出具有沟通记录的样本客户;
对所述样本客户的保单信息、历史理赔信息和沟通信息进行数据清洗,得到清洗后的样本数据;
对清洗后的样本数据进行探索性分析,得到观察期;
根据所述样本客户是否在观察期内是否发生目标行为,获取所述客户对应的标签。
作为一种实施方式,首先从数据仓库中筛选出具有沟通记录的样本客户,本发明实施例中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,它是单个数据存储,出于分析性报告和决策支持目的而创建,为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。对于保险公司,数据仓库存储目标客户数据、保险数据和理赔数据等信息,由于数据仓库中存储了很多客户的信息,但是并不是每个客户与销售人员的沟通记录都被记录了的,只有通过指定沟通软件进行沟通的客户才具有沟通记录,其它通过电话沟通、微信沟通这些指定外的沟通软件进行沟通的,由于数据接口的限定性,这些沟通记录并没有办法被数据仓库记录,因此需要从数据仓库中筛选出具有沟通记录的样本客户。对数据仓库进行筛选,具体筛选方法可以是根据沟通记录对应的字段进行筛选,如果只进行单一的筛选,这样可以直接用数据库语句经行筛选,筛选出具有相应字段的数据,从而将筛选出来的客户作为样本客户。
接着进行数据清洗,数据清洗包含缺失数据处理、重复数据处理、异常数据处理及不一致数据整理四部分。数据缺失是数据库中常有的情况,但是为了得到完备的信息表用于数据挖掘,就必须解决数据缺失的情况,因此处理数据缺失通常利用以下三种方法。第一种是删除有缺失信息的记录,当记录中主要信息缺失,尤其是丢失较多关键信息的时候,数据已经不能够反应其所能够代表的信息,这时就可以将记录某条记录删除,但这种情况仅适用于数据量较大的情况,也就是说删除并不影响所有信息的完整性,显然当数据量较少、或缺少数据的记录较多时,完全通过删除整条记录的方法并不可行,这可能会对数据质量造成重大影响,删除记录的方法有一定适用范围。第二种方法是对信息进行人工补全,同样这种方法也有着自己的局限性,当数据量较大时,尤其在海量数据情况下,此种方法会耗费较大人力且效率极低。还可以利用默认值来代替缺失的信息,将缺失属性值的属性视为特殊的属性,为缺失的信息值设置特殊的属性值,从而得到完备的信息。第三种方法是利用数学公式将数据对已有信息的值进行统计分析,利用统计的值进行补全。可以使用平均值填补空缺值,或者使用同类型样本预测值进行补全空缺值,还可以使用贝叶斯公式和判定树这样的基于推断的方法进行填充,这样不会影响信息的质量。显然如果采用的公式不合适,会对下一步信息分析造成不利影响。
重复数据除了包括真正意义上的重复数据还包括属性冗余与属性数据的冗余两部分的数据。对于真正数值或属性值重复的数据处理起来也较为简单,可以直接删除。但属性冗余与属性数据的冗余需要经过分析再将其删除。如在数据仓库中,会利用不同数据库收集数据,因此会出现多个属性名称表示同一属性的情况;还有就是对于有些数据可以从别的属性中得到,年龄可以从生日中得到,可以将重复部分的数据直接删除。属性数据的冗余是指某些属性的值已经包含某些属性中的值,如在处理国内用户地址时会有国家省份等详细地址,其实这些信息中国家这部分属于重复数据,将国家剔除并不会影响对数据的分析。这种重复属性的剔除不仅可以精简数据库中的相关记录,降低存储空间的占用,也利于数据分析效率的提升。
异常数据也是较为常见的情况,其是指在数据集中出现部分数据和其他数据有很大区别或者不一致的情况。有区别并不代表数据就一定为异常,这些特殊的数据也可能反应出实际中的情况。这时判断数据是否是异常数据就十分必要,如果数据位异常则需要将数据剔除,避免影响数据分析的准确性。但是对于某些不一致的数据并不一定就是异常数据,对于这种数据要注意其背后隐藏的信息,找出造成不一致数据的原因。
接着对清洗后的数据进行探索性分析,得到该样本客户对应的观察期,该观察期表示是以某一时间节点之后的时间段,对样本客户在该时间节点之前的保单信息、历史理赔信息和沟通信息进行特征提取,得到该样本客户的静态特征和动态特征,但是为了对样本客户进行标签标注,需要根据该时间节点之后的观察期内是否发生目标行为来进行标注,本发明实施例中目标行为包括购买保险行为和恶意理赔行为,如果该样本客户在观察期内有购买保险行为,则对该样本客户进行标注为有购买保险标签,否则,对该样本客户标注为无购买保险标签,如果该样本客户在观察期内有恶意理赔行为,则对该样本客户进行标注为有恶意理赔标签,否则,对该样本客户标注为无恶意理赔标签。
本发明实施例中探索性分析是是对变量进行深入和详尽的描述性统计分析,它在一般描述性统计指标的基础上,增加关于数据其他特征的文字与图形描述,分析结果更加细致与全面,有助于对数据做进一步分析。探索性分析能够生成关于所有个案、或不同分组个案的综合统计量及图形;可以进行数据筛选工作,例如检测异常值、极端值、数据缺口等;还可以进行假设检验。通过探索性分析,能够帮助我们决定选择何种统计方法进行数据建模,判断是否需要把数据转换成正态分布,以及是否需要做非参数统计。探索性分析适用于对数值型的变量(连续型或比率型)进行分析,因素变量应该是取有限个离散值的分类变量(用于对数据进行分组)。
在上述实施例的基础上,优选地,所述从数据仓库中筛选出具有沟通记录的样本客户,包括:
将所述数据仓库的应用日志同步到大数据集群,并对所述应用日志进行数据清洗;
对清洗后的应用日志进行拆分,得到沟通记录对应的字段信息;
根据所述沟通记录对应的字段信息,从客户数据库中筛选出所述样本客户。
作为一种实施方式,本发明实施例中从数据仓库中筛选出具有沟通记录的样本客户,具体包括如下几个步骤:将数据仓库的应用日志同步到大数据集群,并对应用日志进行数据清洗,离线的数据线仓库用于负责将不同数据源的数据同步到数据仓库,以及定时将数据同步到业务***,要实现不同数据库与数据仓库之间数据的双向同步,必须把数据转换成某种中间状态进行数据格式的统一。然后对清洗后的应用日志进行拆分,得到沟通记录对应的字段信息;根据沟通记录对应的字段信息,从客户数据库中筛选出样本客户。
在上述实施例的基础上,优选地,所述目标行为表示保险购买行为,所述样本客户对应的标签为在所述观察期发生购买行为和在所述观察期未发生购买行为,所述目标评估神经网络为购买评估神经网络。
具体地,本发明实施例中的目标行为表示保险购买行为,则样本客户对应的标签为在所述观察期发生购买行为和在所述观察期未发生购买行为,目标评估神经网络为购买评估神经网络,目标客户的评估分数为保险购买行为的评估分数。目标客户的保险信息、历史理赔信息和沟通信息也是与保险购买行为相关的保险信息、历史理赔信息和沟通信息。
在上述实施例的基础上,优选地,所述目标行为表示恶意理赔行为,所述样本客户对应的标签为在所述观察期发生恶意理赔行为和在所述观察期未发生恶意理赔行为,所述目标评估神经网络为恶意评估神经网络。
具体地,本发明实施例中的目标行为表示恶意理赔行为,则样本客户对应的标签为在所述观察期发生恶意理赔行为和在所述观察期未发生恶意理赔行为,目标评估神经网络为恶意理赔评估神经网络,目标客户的评估分数为恶意理赔行为的评估分数。目标客户的保险信息、历史理赔信息和沟通信息也是与恶意理赔行为相关的保险信息、历史理赔信息和沟通信息。
需要说明的是,购买评估神经网络和恶意理赔神经网络为两种不同的神经网络,每个神经网络的训练样本是不同的。
在上述实施例的基础上,优选地,所述沟通信息,通过如下方式获取:
获取所述目标客户与客服人员的沟通记录文本;
对所述沟通记录文本进行分词处理;
对分词处理后的沟通记录文本进行关键字特征提取,将提取的关键字特征作为所述沟通信息。
具体地,沟通信息包括目标客户和客服人员的沟通记录文本,并对沟通记录文本进行分词处理,对分词处理后的沟通记录文本进行关键字特征提取,将提取出来的关键字特征作为沟通信息。
图3为本发明实施例提供的一种基于神经网络的客户评估***的结构示意图,如图3所示,该***包括:信息获取模块310、特征获取模块320和概率计算模块330,其中:
信息获取模块310用于获取目标客户的保单信息、历史理赔信息和沟通信息;
特征获取模块320用于根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
概率计算模块330用于将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户购买概率或恶意理赔概率,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
本实施例为与上述方法实施例相对应的***实施例,具体实施方式与上述方法执行过程相同,本***实施例在此不再赘述。
在上述实施例的基础上,优选地,所述概率计算模块包括筛选单元、清洗单元、分析单元和标签单元,其中:
所述筛选单元用于从数据仓库中筛选出具有沟通记录的样本客户;
所述清洗单元用于对所述样本客户的保单信息、历史理赔信息和沟通信息进行数据清洗,得到清洗后的样本数据;
所述分析单元用于对清洗后的样本数据进行探索性分析,得到观察期;
所述标签单元用于根据所述样本客户是否在观察期内是否发生目标行为,获取所述客户对应的标签。
在上述实施例的基础上,优选地,所述筛选单元包括同步单元、字段单元和选取单元,其中:
所述同步单元用于将所述数据仓库的应用日志同步到大数据集群,并对所述应用日志进行数据清洗;
所述字段单元用于对清洗后的应用日志进行拆分,得到沟通记录对应的字段信息;
所述选取单元用于根据所述沟通记录对应的字段信息,从客户数据库中筛选出所述样本客户。
在上述实施例的基础上,优选地,所述目标行为表示保险购买行为,所述样本客户对应的标签为在所述观察期发生购买行为和在所述观察期未发生购买行为,所述目标评估神经网络为购买评估神经网络。
在上述实施例的基础上,优选地,所述目标行为表示恶意理赔行为,所述样本客户对应的标签为在所述观察期发生恶意理赔行为和在所述观察期未发生恶意理赔行为,所述目标评估神经网络为恶意评估神经网络。
在上述实施例的基础上,优选地,所述信息获取模块包括文本模块、分词模块和关键字模块,其中:
所述文本模块用于获取所述目标客户与客服人员的沟通记录文本;
所述分词模块用于对所述沟通记录文本进行分词处理;
所述关键字模块用于对分词处理后的沟通记录文本进行关键字特征提取,将提取的关键字特征作为所述沟通信息。
在上述实施例的基础上,优选地,所述静态特征包括所述目标客户的性别、年龄、职业、婚姻状况、购买保险的保费,所述动态特征包括所述目标客户在预设历史时间段保费缴纳金额、所述预设历史时间段内是否续保。
上述基于神经网络的客户评估***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图4为本发明实施例中提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作***、计算机程序和数据库。该内存储器为计算机存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于神经网络的客户评估方法过程中生成或获取的数据,如保单信息、历史理赔信息和沟通信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于神经网络的客户评估方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的基于神经网络的客户评估方法的步骤。或者,处理器执行计算机程序时实现基于神经网络的客户评估***这一实施例中的各模块/单元的功能。
在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于神经网络的客户评估方法的步骤。或者,该计算机程序被处理器执行时实现上述基于神经网络的客户评估***这一实施例中的各模块/单元的功能。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于神经网络的客户评估方法,其特征在于,包括:
获取目标客户的保单信息、历史理赔信息和沟通信息;
根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户的评估分数,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
2.根据权利要求1所述的基于神经网络的客户评估方法,其特征在于,所述样本客户对应的标签,通过如下方式获得:
从数据仓库中筛选出具有沟通记录的样本客户;
对所述样本客户的保单信息、历史理赔信息和沟通信息进行数据清洗,得到清洗后的样本数据;
对清洗后的样本数据进行探索性分析,得到观察期;
根据所述样本客户是否在观察期内是否发生目标行为,获取所述客户对应的标签。
3.根据权利要求2所述的基于神经网络的客户评估方法,其特征在于,所述从数据仓库中筛选出具有沟通记录的样本客户,包括:
将所述数据仓库的应用日志同步到大数据集群,并对所述应用日志进行数据清洗;
对清洗后的应用日志进行拆分,得到沟通记录对应的字段信息;
根据所述沟通记录对应的字段信息,从客户数据库中筛选出所述样本客户。
4.根据权利要求3所述的基于神经网络的客户评估方法,其特征在于,所述目标行为表示保险购买行为,所述样本客户对应的标签为在所述观察期发生购买行为和在所述观察期未发生购买行为,所述目标评估神经网络为购买评估神经网络。
5.根据权利要求3所述的基于神经网络的客户评估方法,其特征在于,所述目标行为表示恶意理赔行为,所述样本客户对应的标签为在所述观察期发生恶意理赔行为和在所述观察期未发生恶意理赔行为,所述目标评估神经网络为恶意评估神经网络。
6.根据权利要求1所述的基于神经网络的客户评估方法,其特征在于,所述沟通信息,通过如下方式获取:
获取所述目标客户与客服人员的沟通记录文本;
对所述沟通记录文本进行分词处理;
对分词处理后的沟通记录文本进行关键字特征提取,将提取的关键字特征作为所述沟通信息。
7.根据权利要求1至5任一所述的基于神经网络的客户评估方法,其特征在于,所述静态特征包括所述目标客户的性别、年龄、职业、婚姻状况、购买保险的保费,所述动态特征包括所述目标客户在预设历史时间段保费缴纳金额、所述预设历史时间段内是否续保。
8.一种基于神经网络的客户评估***,其特征在于,包括:
信息获取模块,用于获取目标客户的保单信息、历史理赔信息和沟通信息;
特征获取模块,用于根据所述保单信息、历史理赔信息和沟通信息,获取静态特征和动态特征,其中,所述静态特征表示所述目标客户固定的基本属性,所述动态特征表示所述目标客户随时间变化的动态属性;
概率计算模块,用于将所述静态特征和所述动态特征输入目标评估神经网络中,得到所述目标客户购买概率或恶意理赔概率,其中,所述目标评估神经网络通过样本客户对应的静态特征和动态特征、所述样本客户对应的标签进行训练得到。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于神经网络的客户评估方法的步骤。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于神经网络的客户评估方法的步骤。
CN202210859101.9A 2022-07-21 2022-07-21 基于神经网络的客户评估方法、***、设备及存储介质 Pending CN115063035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210859101.9A CN115063035A (zh) 2022-07-21 2022-07-21 基于神经网络的客户评估方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210859101.9A CN115063035A (zh) 2022-07-21 2022-07-21 基于神经网络的客户评估方法、***、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115063035A true CN115063035A (zh) 2022-09-16

Family

ID=83205656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210859101.9A Pending CN115063035A (zh) 2022-07-21 2022-07-21 基于神经网络的客户评估方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115063035A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238195A (zh) * 2022-09-19 2022-10-25 太平金融科技服务(上海)有限公司深圳分公司 目标对象的确定方法、装置、设备、介质和产品
CN116150341A (zh) * 2023-04-23 2023-05-23 之江实验室 理赔事件检测方法、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238195A (zh) * 2022-09-19 2022-10-25 太平金融科技服务(上海)有限公司深圳分公司 目标对象的确定方法、装置、设备、介质和产品
CN116150341A (zh) * 2023-04-23 2023-05-23 之江实验室 理赔事件检测方法、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
EP3483797A1 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US10692019B2 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
CN113535963B (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN115063035A (zh) 基于神经网络的客户评估方法、***、设备及存储介质
US10706359B2 (en) Method and system for generating predictive models for scoring and prioritizing leads
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
EP3576024A1 (en) Accessible machine learning
US20230308360A1 (en) Methods and systems for dynamic re-clustering of nodes in computer networks using machine learning models
CN113065329A (zh) 数据的处理方法和装置
US20210073247A1 (en) System and method for machine learning architecture for interdependence detection
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
KR20220099690A (ko) 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램
CN112950392A (zh) 信息展示方法、后验信息确定方法及装置及相关设备
TR2021021471A2 (tr) Emekli̇li̇k şi̇rketleri̇ i̇çi̇n geli̇şti̇ri̇len bi̇r si̇stem ve yöntem
CN114757275A (zh) 业务规则提取方法及装置、存储介质及电子设备
CN117371562A (zh) 圈客模型训练方法、信息推荐方法、装置、设备及介质
Sing et al. Judgemental Analysis of Data and Prediction Using Ann
Yadav et al. Impact of Double Negation through Majority Voting of Machine Learning Algorithms
Kumar et al. Framework On Text And Predictive Analytics
Durugkar Analyzing Big Data Using Recent Machine Learning Techniques to Assist Consumers in Online Purchase Decision
CN116126367A (zh) 模型更新方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination