CN113269179A - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113269179A
CN113269179A CN202110704361.4A CN202110704361A CN113269179A CN 113269179 A CN113269179 A CN 113269179A CN 202110704361 A CN202110704361 A CN 202110704361A CN 113269179 A CN113269179 A CN 113269179A
Authority
CN
China
Prior art keywords
information
target
type
user
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110704361.4A
Other languages
English (en)
Other versions
CN113269179B (zh
Inventor
欧阳高询
席齐
张蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110704361.4A priority Critical patent/CN113269179B/zh
Publication of CN113269179A publication Critical patent/CN113269179A/zh
Application granted granted Critical
Publication of CN113269179B publication Critical patent/CN113269179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能,提供一种数据处理方法、装置、设备及存储介质。该方法能够获取历史训练数据,历史训练数据包括第一历史信息、第二历史信息及处理信息,根据历史训练数据计算信息增益,将第一历史信息作为根结点,根据信息增益从第二历史信息中选取的目标信息作为子结点生成信息分析决策树,获取用户信息及用户报告,分析用户信息,得到目标值,从用户报告中提取目标名称,确定目标名称所属的目标类型,若目标值为预设值,目标类型为预设类型,从用户报告中提取目标因素,将目标名称及目标因素输入至信息分析决策树中,得到目标建议。本发明能够准确的确定出核保建议。此外,本发明还涉及区块链技术,所述目标建议可存储于区块链中。

Description

数据处理方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
保险核保是保险公司对投保人的投保申请进行审查、核定和选择风险的过程。在保险核保这一过程中,通常由专门的核保人员对投保申请进行审查,然而,这种方式的审查效率低下,其次,由于这种方式过度依赖核保人员的业务水平,从而导致无法准确的确定出核保建议。
发明内容
鉴于以上内容,有必要提供一种数据处理方法、装置、设备及存储介质,能够准确的确定出核保建议。
一方面,本发明提出一种数据处理方法,所述数据处理方法包括:
获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
根据所述历史训练数据计算所述第二历史信息的信息增益;
将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析所述用户信息,得到目标值;
从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
根据本发明优选实施例,所述根据所述历史训练数据计算所述第二历史信息的信息增益包括:
对于所述第二历史信息中的任一信息,将所述历史训练数据中包含所述任一信息的数据确定为样本数据,并从所述样本数据中筛选出多个类型样本及每个类型样本的正样本及负样本;
计算每个类型样本的样本总量,并计算每个正样本的第一数量及每个负样本的第二数量;
根据所述样本总量、所述第一数量及所述第二数量确定与每个类型样本对应的第一信息熵,包括:
Figure BDA0003131581640000021
其中,E为所述第一信息熵,n总为所述样本总量,n1为所述第一数量,n2为所述第二数量;
计算所述历史训练数据的训练总量,并计算所述历史训练数据中正样本的第三数量及所述历史训练数据中负样本的第四数量;
根据所述训练总量、所述第三数量及所述第四数量确定与所述历史训练数据对应的第二信息熵;
根据所述第二信息熵、所述样本总量、所述训练总量、所述第一信息熵确定出所述任一信息的信息增益,包括:
Figure BDA0003131581640000022
其中,G为所述信息增益,E2为所述第二信息熵,j为所述多个类型样本的类型数量,m为所述训练总量,Ei为第i个类型样本的第一信息熵。
根据本发明优选实施例,所述将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树包括:
将所述信息增益最大的所述第二历史信息确定为所述目标信息,并将除所述目标信息外的所述第二历史信息确定为特征信息;
从所述历史训练数据中提取所述目标信息中每个类型的数据作为待测样本;
计算每个待测样本与所述特征信息的信息增益作为特征增益;
将所述特征增益最大的所述特征信息确定为属性信息;
将所述第一历史信息作为根结点、所述目标信息作为所述根结点的子结点、所述属性信息作为所述子结点的分支结点,以及所述处理信息作为终结点构建所述信息分析决策树。
根据本发明优选实施例,所述根据所述处理指令获取用户信息及用户报告包括:
解析所述处理指令的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示用户的信息作为用户识别码,并将与所述用户识别码对应的用户确定为目标用户;
从所述数据信息中获取指示标签的信息作为信息标签;
根据所述信息标签生成信息授权请求,并将所述信息授权请求发送至所述目标用户的用户终端;
当接收到所述用户终端基于所述信息授权请求发送的授权响应时,从所述授权响应中获取信息提取密钥;
基于所述信息提取密钥从信息库中获取同时与所述目标用户及所述信息标签对应的信息作为所述用户信息;
从报告库中获取与所述目标用户对应的信息作为初筛报告,并选取报告时间最大的所述用户报告作为所述用户报告。
根据本发明优选实施例,所述分析所述用户信息,得到目标值包括:
对所述用户信息进行分词处理,得到目标分词;
将所述目标分词与类型映射表中的类型词汇进行匹配,所述类型映射表中存储有多个类型信息与指示每个类型信息的类型词汇;
当所述目标分词中的任一分词与所述类型词汇匹配成功时,从所述信息分词中提取与所述任一分词存在映射关系的信息作为所述多个类型信息中任一类型信息的信息值;
获取所述用户信息的信息权重;
根据所述信息权值对所述信息值进行加权运算,得到所述目标值。
根据本发明优选实施例,所述从所述用户报告中提取目标名称包括:
基于OCR算法从所述用户报告中识别出报告信息;
根据预设词典对所述报告信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
从所述预设词典中获取所述路径分词对应的分词权重,并计算每个切分路径中所述分词权重的总和,得到路径权重;
将所述路径权重最大的切分路径对应的所述路径分词确定为所述信息分词;
根据预设库对所述信息分词进行遍历,并将与所述预设库中任一特征匹配的信息分词确定为所述目标名称。
根据本发明优选实施例,所述目标类型包括第一类型及第二类型,所述确定所述目标名称所属的目标类型包括:
获取与所述第一类型对应的第一名称,并获取与所述第二类型对应的第二名称;
若所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称,获取所述第一名称的第一向量,并获取所述第二名称的第二向量;
确定所述第一向量的表征方式,并根据所述表征方式对所述目标名称进行向量化处理,得到目标向量;
计算所述目标向量与所述第一向量的第一相似度,并计算所述目标向量与所述第二向量的第二相似度;
若所述第一相似度大于或者等于所述第二相似度,将所述目标类型确定为所述第一类型;或者
若所述第一相似度小于所述第二相似度,将所述目标类型确定为所述第二类型。
另一方面,本发明还提出一种数据处理装置,所述数据处理装置包括:
获取单元,用于获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
计算单元,用于根据所述历史训练数据计算所述第二历史信息的信息增益;
生成单元,用于将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
所述获取单元,还用于接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析单元,用于分析所述用户信息,得到目标值;
确定单元,用于从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
提取单元,用于若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
输入单元,用于根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述数据处理方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述数据处理方法。
由以上技术方案可以看出,本发明通过所述历史训练数据能够准确的确定出所述第二历史信息的信息增益,并根据所述第一历史信息、所述信息增益及所述第二历史信息能够准确的生成所述信息分析决策树,通过分析所述用户信息,以及从所述用户报告中提取的所述目标名称,能够初步确定出所述处理指令的核保建议,进而在所述目标值为预设值,以及所述目标类型为预设类型时,通过从所述用户报告中提取的目标因素及所述目标名称能够准确的生成所述目标建议。此外,在初步确定出所述核保建议后对所述目标因素及所述目标名称进行进一步分析,能够提高所述目标建议的生成效率。
附图说明
图1是本发明数据处理方法的较佳实施例的流程图。
图2是本发明数据处理装置的较佳实施例的功能模块图。
图3是本发明实现数据处理方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明数据处理方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述数据处理方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息。
在本发明的至少一个实施例中,所述第一历史信息是指该历史训练数据样本下,用户所获取的疾病,例如,所述第一历史信息可以是疾病名称。所述第二历史信息是指导致所述第一历史信息出现的因素,例如,所述第二历史信息可以是病因。所述处理信息是指核保人员对该用户的核保建议。
进一步地,所述处理信息可以包括:投保、拒保、加费等。
S11,根据所述历史训练数据计算所述第二历史信息的信息增益。
在本发明的至少一个实施例中,所述信息增益是指所述历史训练数据中导致所述第一历史信息产生的概率。
在本发明的至少一个实施例中,所述电子设备根据所述历史训练数据计算所述第二历史信息的信息增益包括:
对于所述第二历史信息中的任一信息,将所述历史训练数据中包含所述任一信息的数据确定为样本数据,并从所述样本数据中筛选出多个类型样本及每个类型样本的正样本及负样本;
计算每个类型样本的样本总量,并计算每个正样本的第一数量及每个负样本的第二数量;
根据所述样本总量、所述第一数量及所述第二数量确定与每个类型样本对应的第一信息熵,包括:
Figure BDA0003131581640000081
其中,E为所述第一信息熵,n总为所述样本总量,n1为所述第一数量,n2为所述第二数量;
计算所述历史训练数据的训练总量,并计算所述历史训练数据中正样本的第三数量及所述历史训练数据中负样本的第四数量;
根据所述训练总量、所述第三数量及所述第四数量确定与所述历史训练数据对应的第二信息熵;
根据所述第二信息熵、所述样本总量、所述训练总量、所述第一信息熵确定出所述任一信息的信息增益,包括:
Figure BDA0003131581640000082
其中,G为所述信息增益,E2为所述第二信息熵,j为所述多个类型样本的类型数量,m为所述训练总量,Ei为第i个类型样本的第一信息熵。
例如,所述第二历史信息包括A、B及C,对于第二历史信息A(吸烟),所述第二历史信息A包含有三种情况{每天吸烟、每周吸烟频次大于4天、每周吸烟频次小于2天},从历史训练数据中获取到包含所述第二历史信息A的数据确定为样本数据,所述样本数据有{样本1,样本2,…,样本10},所述训练总量为10,第三数量为5,第四数量为5,从所述样本数据中筛选出类型样本“每天吸烟”有{样本1,样本2},该类型的正样本为空集,负样本为{样本1,样本2},类型样本“每周吸烟频次大于4天”{样本3,样本4,样本5,样本6,样本7},该类型的正样本为{样本3,样本4,样本5},负样本为{样本6,样本7},类型样本“每周吸烟频次小于2天,”为{样本8,样本9.,样本10},该类型的正样本有{样本8,样本9.},负样本为{样本10},经计算,类型样本“每天吸烟”的样本总量为2,第一数量为0,第二数量为2,类型样本“每周吸烟频次大于4天”的样本总量为5,第一数量为3,第二数量为2,类型样本“每周吸烟频次小于2天”的样本总量为3,第一数量为2,第二数量为1,经确认,类型样本“每天吸烟”的第一信息熵为0,类型样本“每周吸烟频次大于4天”的第一信息熵为0.97096,类型样本“每周吸烟频次小于2天”的第一信息熵为0.914961,所述第二信息熵为1,因此,所述第二历史信息A(吸烟)的信息增益为0.24。
通过对所述历史训练数据进行分析,能够准确生成所述任一信息的信息增益。
S12,将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树。
在本发明的至少一个实施例中,所述信息分析决策树中包含有根结点、子结点、分支结点以及终结点。其中,所述根结点为所述第一历史信息。所述子结点及所述分支结点分别为所述第二历史信息,所述终结点为所述处理信息。
所述目标信息是指所述信息增益最大的第二历史信息。
在本发明的至少一个实施例中,所述电子设备将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树包括:
将所述信息增益最大的所述第二历史信息确定为所述目标信息,并将除所述目标信息外的所述第二历史信息确定为特征信息;
从所述历史训练数据中提取所述目标信息中每个类型的数据作为待测样本;
计算每个待测样本与所述特征信息的信息增益作为特征增益;
将所述特征增益最大的所述特征信息确定为属性信息;
将所述第一历史信息作为根结点、所述目标信息作为所述根结点的子结点、所述属性信息作为所述子结点的分支结点,以及所述处理信息作为终结点构建所述信息分析决策树。
通过对所述历史训练数据进行分析,能够快速构建出所述信息分析决策树。
S13,接收处理指令,并根据所述处理指令获取用户信息及用户报告。
在本发明的至少一个实施例中,所述处理指令中包括用户识别码、指令编号及触发用户等。
所述用户信息是指所述处理指令中投保人的基本信息,所述用户报告是指该投保人距离当前最近的检查报告。
在本发明的至少一个实施例中,所述电子设备根据所述处理指令获取用户信息及用户报告包括:
解析所述处理指令的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示用户的信息作为用户识别码,并将与所述用户识别码对应的用户确定为目标用户;
从所述数据信息中获取指示标签的信息作为信息标签;
根据所述信息标签生成信息授权请求,并将所述信息授权请求发送至所述目标用户的用户终端;
当接收到所述用户终端基于所述信息授权请求发送的授权响应时,从所述授权响应中获取信息提取密钥;
基于所述信息提取密钥从信息库中获取同时与所述目标用户及所述信息标签对应的信息作为所述用户信息;
从报告库中获取与所述目标用户对应的信息作为初筛报告,并选取报告时间最大的所述用户报告作为所述用户报告。
其中,所述信息标签是指指示用户的基本信息的标签,所述基本信息包括,但不限于:贷款情况、年龄、年收入、职业等。
所述信息库中存储有多个用户的基本信息。
所述报告库中存储有多个用户的检查报告,以及,每个用户不同时期的检查报告等。
通过解析所述报文,能够快速获取到所述数据信息,进而能够快速确定出所述目标用户,从而在接收到所述授权响应时从所述信息库中快速所述用户信息,能够确保所述用户信息的获取合法性,同时,通过所述报告时间能够准确的从所述报告库中获取所述用户报告。
S14,分析所述用户信息,得到目标值。
在本发明的至少一个实施例中,所述目标值是指所述处理指令中目标用户的信誉值。
在本发明的至少一个实施例中,所述电子设备分析所述用户信息,得到目标值包括:
对所述用户信息进行分词处理,得到目标分词;
将所述目标分词与类型映射表中的类型词汇进行匹配,所述类型映射表中存储有多个类型信息与指示每个类型信息的类型词汇,所述多个类型信息包括贷款信息、年收入及职业稳定性;
当所述目标分词中的任一分词与所述类型词汇匹配成功时,从所述信息分词中提取与所述任一分词存在映射关系的信息作为所述多个类型信息中任一类型信息的信息值;
获取所述用户信息的信息权重;
根据所述信息权值对所述信息值进行加权运算,得到所述目标值。
通过对所述用户信息进行量化处理,能够准确的确定出所述目标值。
S15,从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型。
在本发明的至少一个实施例中,所述目标名称是指所述用户报告中存在的疾病,所述目标类型是指所述目标名称对应的类型。
在本发明的至少一个实施例中,所述电子设备从所述用户报告中提取目标名称包括:
基于OCR算法从所述用户报告中识别出报告信息;
根据预设词典对所述报告信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
从所述预设词典中获取所述路径分词对应的分词权重,并计算每个切分路径中所述分词权重的总和,得到路径权重;
将所述路径权重最大的切分路径对应的所述路径分词确定为所述信息分词;
根据预设库对所述信息分词进行遍历,并将与所述预设库中任一特征匹配的信息分词确定为所述目标名称。
其中,所述预设词典中存储有多个自定义分词,及每个自定义分词对应的权重。
所述预设库中存储有多个不同的第一类型疾病及第二类型疾病,所述第一类型疾病是指轻症型对应的疾病,所述第二类型疾病是指重症型对应的疾病。所述任一特征是指任一疾病。
通过OCR算法能够准确的从所述用户报告中识别出所述报告信息,从而根据所述预设词典对所述报告信息进行切分,以及所述预设词典中的权重,能够准确的确定出所述信息分词,进而根据所述预设库能够准确的从所述信息分词中筛选出所述目标名称。
在本发明的至少一个实施例中,所述目标类型包括第一类型及第二类型,所述电子设备确定所述目标名称所属的目标类型包括:
获取与所述第一类型对应的第一名称,并获取与所述第二类型对应的第二名称;
若所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称,获取所述第一名称的第一向量,并获取所述第二名称的第二向量;
确定所述第一向量的表征方式,并根据所述表征方式对所述目标名称进行向量化处理,得到目标向量;
计算所述目标向量与所述第一向量的第一相似度,并计算所述目标向量与所述第二向量的第二相似度;
若所述第一相似度大于或者等于所述第二相似度,将所述目标类型确定为所述第一类型;或者
若所述第一相似度小于所述第二相似度,将所述目标类型确定为所述第二类型。
其中,所述第一类型是指轻症型,第二类型是指重症型。
所述第一名称是指轻症疾病的名称,所述第二名称是指重症疾病的名称。
所述表征方式是指向量映射表。
通过上述实施方式,能够在所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称时,准确的确定出所述目标名称所属的类型。
在本发明的至少一个实施例中,所述方法还包括:
若所述第一名称中包含所述目标名称,将所述目标类型确定为所述第一类型;或者
若所述第二名称中包含所述目标名称,将所述目标类型确定为所述第二类型。
通过所述第一名称及所述第二名称,能够快速确定出所述目标名称所属的类型。
S16,若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素。
在本发明的至少一个实施例中,所述预设值包括优质信誉对应的信誉值及较优信誉对应的信誉值,所述预设类型包括第一类型。
所述目标因素是指导致所述目标用户所患的所述目标名称的因素。
在本发明的至少一个实施例中,所述电子设备从所述用户报告中提取目标因素包括:
从所述信息分词中提取与预设标签对应的信息作为所述报告因素,所述预设标签用于指示因素;
对所述报告因素进行纠错处理,得到所述目标因素。
通过所述预设标签,能够准确的从所述信息分词中提取出所述报告因素,进而通过对所述报告因素进行纠错处理,能够得到统一表述的所述目标因素。
S17,根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
需要强调的是,为进一步保证上述目标建议的私密和安全性,上述目标建议还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述目标建议是针对所述处理指令的建议,所述目标建议可以包括“投保”、“拒保”、“加费及加费数额”等。
所述目标路径是指所述信息分析决策树中的分支。
本实施例通过所述目标名称及所述目标因素能够准确的确定出所述目标路径,从而通过所述目标路径能够快速并准确的获取到所述目标建议。
在本发明的至少一个实施例中,在得到所述处理指令的目标建议后,所述方法还包括:
获取所述处理指令的指令编号;
根据所述指令编号及所述目标建议生成提示信息;
采用对称加密技术加密所述提示信息,得到密文;
从所述处理指令中获取触发用户;
将所述密文发送至所述触发用户的绑定设备。
通过上述实施方式,能够快速生成所述提示信息,进而对所述提示信息进行加密,能够提高所述提示信息的安全性,同时从所述处理指令获取所述触发用户,能够准确将所述密文发送至相应设备中。
由以上技术方案可以看出,本发明通过所述历史训练数据能够准确确定出所述第二历史信息的信息增益,并根据所述第一历史信息、所述信息增益及所述第二历史信息能够准确的生成所述信息分析决策树,通过分析所述用户信息,以及从所述用户报告中提取的所述目标名称,能够初步确定出所述处理指令的核保建议,进而在所述目标值为预设值,以及所述目标类型为预设类型时,通过从所述用户报告中提取的目标因素及所述目标名称能够准确的生成所述目标建议。此外,在初步确定出所述核保建议后对所述目标因素及所述目标名称进行进一步分析,能够提高所述目标建议的生成效率。
如图2所示,是本发明数据处理装置的较佳实施例的功能模块图。所述数据处理装置11包括获取单元110、计算单元111、生成单元112、分析单元113、确定单元114、提取单元115、输入单元116、生成单元117、加密单元118及发送单元119。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
获取单元110获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息。
在本发明的至少一个实施例中,所述第一历史信息是指该历史训练数据样本下,用户所获取的疾病,例如,所述第一历史信息可以是疾病名称。所述第二历史信息是指导致所述第一历史信息出现的因素,例如,所述第二历史信息可以是病因。所述处理信息是指核保人员对该用户的核保建议。
进一步地,所述处理信息可以包括:投保、拒保、加费等。
计算单元111根据所述历史训练数据计算所述第二历史信息的信息增益。
在本发明的至少一个实施例中,所述信息增益是指所述历史训练数据中导致所述第一历史信息产生的概率。
在本发明的至少一个实施例中,所述计算单元111根据所述历史训练数据计算所述第二历史信息的信息增益包括:
对于所述第二历史信息中的任一信息,将所述历史训练数据中包含所述任一信息的数据确定为样本数据,并从所述样本数据中筛选出多个类型样本及每个类型样本的正样本及负样本;
计算每个类型样本的样本总量,并计算每个正样本的第一数量及每个负样本的第二数量;
根据所述样本总量、所述第一数量及所述第二数量确定与每个类型样本对应的第一信息熵,包括:
Figure BDA0003131581640000161
其中,E为所述第一信息熵,n总为所述样本总量,n1为所述第一数量,n2为所述第二数量;
计算所述历史训练数据的训练总量,并计算所述历史训练数据中正样本的第三数量及所述历史训练数据中负样本的第四数量;
根据所述训练总量、所述第三数量及所述第四数量确定与所述历史训练数据对应的第二信息熵;
根据所述第二信息熵、所述样本总量、所述训练总量、所述第一信息熵确定出所述任一信息的信息增益,包括:
Figure BDA0003131581640000162
其中,G为所述信息增益,E2为所述第二信息熵,j为所述多个类型样本的类型数量,m为所述训练总量,Ei为第i个类型样本的第一信息熵。
例如,所述第二历史信息包括A、B及C,对于第二历史信息A(吸烟),所述第二历史信息A包含有三种情况{每天吸烟、每周吸烟频次大于4天、每周吸烟频次小于2天},从历史训练数据中获取到包含所述第二历史信息A的数据确定为样本数据,所述样本数据有{样本1,样本2,…,样本10},所述训练总量为10,第三数量为5,第四数量为5,从所述样本数据中筛选出类型样本“每天吸烟”有{样本1,样本2},该类型的正样本为空集,负样本为{样本1,样本2},类型样本“每周吸烟频次大于4天”{样本3,样本4,样本5,样本6,样本7},该类型的正样本为{样本3,样本4,样本5},负样本为{样本6,样本7},类型样本“每周吸烟频次小于2天,”为{样本8,样本9.,样本10},该类型的正样本有{样本8,样本9.},负样本为{样本10},经计算,类型样本“每天吸烟”的样本总量为2,第一数量为0,第二数量为2,类型样本“每周吸烟频次大于4天”的样本总量为5,第一数量为3,第二数量为2,类型样本“每周吸烟频次小于2天”的样本总量为3,第一数量为2,第二数量为1,经确认,类型样本“每天吸烟”的第一信息熵为0,类型样本“每周吸烟频次大于4天”的第一信息熵为0.97096,类型样本“每周吸烟频次小于2天”的第一信息熵为0.914961,所述第二信息熵为1,因此,所述第二历史信息A(吸烟)的信息增益为0.24。
通过对所述历史训练数据进行分析,能够准确生成所述任一信息的信息增益。
生成单元112将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树。
在本发明的至少一个实施例中,所述信息分析决策树中包含有根结点、子结点、分支结点以及终结点。其中,所述根结点为所述第一历史信息。所述子结点及所述分支结点分别为所述第二历史信息,所述终结点为所述处理信息。
所述目标信息是指所述信息增益最大的第二历史信息。
在本发明的至少一个实施例中,所述生成单元112将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树包括:
将所述信息增益最大的所述第二历史信息确定为所述目标信息,并将除所述目标信息外的所述第二历史信息确定为特征信息;
从所述历史训练数据中提取所述目标信息中每个类型的数据作为待测样本;
计算每个待测样本与所述特征信息的信息增益作为特征增益;
将所述特征增益最大的所述特征信息确定为属性信息;
将所述第一历史信息作为根结点、所述目标信息作为所述根结点的子结点、所述属性信息作为所述子结点的分支结点,以及所述处理信息作为终结点构建所述信息分析决策树。
通过对所述历史训练数据进行分析,能够快速构建出所述信息分析决策树。
所述获取单元110接收处理指令,并根据所述处理指令获取用户信息及用户报告。
在本发明的至少一个实施例中,所述处理指令中包括用户识别码、指令编号及触发用户等。
所述用户信息是指所述处理指令中投保人的基本信息,所述用户报告是指该投保人距离当前最近的检查报告。
在本发明的至少一个实施例中,所述获取单元110根据所述处理指令获取用户信息及用户报告包括:
解析所述处理指令的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示用户的信息作为用户识别码,并将与所述用户识别码对应的用户确定为目标用户;
从所述数据信息中获取指示标签的信息作为信息标签;
根据所述信息标签生成信息授权请求,并将所述信息授权请求发送至所述目标用户的用户终端;
当接收到所述用户终端基于所述信息授权请求发送的授权响应时,从所述授权响应中获取信息提取密钥;
基于所述信息提取密钥从信息库中获取同时与所述目标用户及所述信息标签对应的信息作为所述用户信息;
从报告库中获取与所述目标用户对应的信息作为初筛报告,并选取报告时间最大的所述用户报告作为所述用户报告。
其中,所述信息标签是指指示用户的基本信息的标签,所述基本信息包括,但不限于:贷款情况、年龄、年收入、职业等。
所述信息库中存储有多个用户的基本信息。
所述报告库中存储有多个用户的检查报告,以及,每个用户不同时期的检查报告等。
通过解析所述报文,能够快速获取到所述数据信息,进而能够快速确定出所述目标用户,从而在接收到所述授权响应时从所述信息库中快速所述用户信息,能够确保所述用户信息的获取合法性,同时,通过所述报告时间能够准确的从所述报告库中获取所述用户报告。
分析单元113分析所述用户信息,得到目标值。
在本发明的至少一个实施例中,所述目标值是指所述处理指令中目标用户的信誉类型。
在本发明的至少一个实施例中,所述分析单元113分析所述用户信息,得到目标值包括:
对所述用户信息进行分词处理,得到目标分词;
将所述目标分词与类型映射表中的类型词汇进行匹配,所述类型映射表中存储有多个类型信息与指示每个类型信息的类型词汇,所述多个类型信息包括贷款信息、年收入及职业稳定性;
当所述目标分词中的任一分词与所述类型词汇匹配成功时,从所述信息分词中提取与所述任一分词存在映射关系的信息作为所述多个类型信息中任一类型信息的信息值;
获取所述用户信息的信息权重;
根据所述信息权值对所述信息值进行加权运算,得到所述目标值。
通过对所述用户信息进行量化处理,能够准确的确定出所述目标值。
确定单元114从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型。
在本发明的至少一个实施例中,所述目标名称是指所述用户报告中存在的疾病,所述目标类型是指所述目标名称对应的类型。
在本发明的至少一个实施例中,所述确定单元114从所述用户报告中提取目标名称包括:
基于OCR算法从所述用户报告中识别出报告信息;
根据预设词典对所述报告信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
从所述预设词典中获取所述路径分词对应的分词权重,并计算每个切分路径中所述分词权重的总和,得到路径权重;
将所述路径权重最大的切分路径对应的所述路径分词确定为所述信息分词;
根据预设库对所述信息分词进行遍历,并将与所述预设库中任一特征匹配的信息分词确定为所述目标名称。
其中,所述预设词典中存储有多个自定义分词,及每个自定义分词对应的权重。
所述预设库中存储有多个不同的第一类型疾病及第二类型疾病。所述第一类型疾病是指轻症型对应的疾病,所述第二类型疾病是指重症型对应的疾病。所述任一特征是指任一疾病。
通过OCR算法能够准确从所述用户报告中识别出所述报告信息,从而根据所述预设词典对所述报告信息进行切分,以及所述预设词典中的权重,能够准确的确定出所述信息分词,进而根据所述预设库能够准确的从所述信息分词中筛选出所述目标名称。
在本发明的至少一个实施例中,所述目标类型包括第一类型及第二类型,所述确定单元114确定所述目标名称所属的目标类型包括:
获取与所述第一类型对应的第一名称,并获取与所述第二类型对应的第二名称;
若所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称,获取所述第一名称的第一向量,并获取所述第二名称的第二向量;
确定所述第一向量的表征方式,并根据所述表征方式对所述目标名称进行向量化处理,得到目标向量;
计算所述目标向量与所述第一向量的第一相似度,并计算所述目标向量与所述第二向量的第二相似度;
若所述第一相似度大于或者等于所述第二相似度,将所述目标类型确定为所述第一类型;或者
若所述第一相似度小于所述第二相似度,将所述目标类型确定为所述第二类型。
其中,所述第一类型是指轻症型,第二类型是指重症型。
所述第一名称是指轻症疾病的名称,所述第二名称是指重症疾病的名称。
所述表征方式是指向量映射表。
通过上述实施方式,能够在所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称时,准确的确定出所述目标名称所属的类型。
在本发明的至少一个实施例中,若所述轻症疾病中包含所述目标名称,所述确定单元114将所述目标类型确定为所述第一类型;或者
若所述重症疾病中包含所述目标名称,所述确定单元114将所述目标类型确定为所述第二类型。
通过所述第一名称及所述第二名称,能够快速确定出所述目标名称所属的类型。
若所述目标值为预设值,以及所述目标类型为预设类型,提取单元115从所述用户报告中提取目标因素。
在本发明的至少一个实施例中,所述预设值包括优质信誉对应的信誉值及较优信誉对应的信誉值,所述预设类型包括第一类型。
所述目标因素是指导致所述目标用户所患的所述目标名称的因素。
在本发明的至少一个实施例中,所述提取单元115从所述用户报告中提取目标因素包括:
从所述信息分词中提取与预设标签对应的信息作为所述报告因素,所述预设标签用于指示因素;
对所述报告因素进行纠错处理,得到所述目标因素。
通过所述预设标签,能够准确的从所述信息分词中提取出所述报告因素,进而通过对所述报告因素进行纠错处理,能够得到统一表述的所述目标因素。
输入单元116根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
需要强调的是,为进一步保证上述目标建议的私密和安全性,上述目标建议还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述目标建议是针对所述处理指令的建议,所述目标建议可以包括“投保”、“拒保”、“加费及加费数额”等。
所述目标路径是指所述信息分析决策树中的分支。
本实施例通过所述目标名称及所述目标因素能够准确的确定出所述目标路径,从而用过所述目标路径能够快速并准确的获取到所述目标建议。
在本发明的至少一个实施例中,在得到所述处理指令的目标建议后,所述获取单元110获取所述处理指令的指令编号;
生成单元117根据所述指令编号及所述目标建议生成提示信息;
加密单元118采用对称加密技术加密所述提示信息,得到密文;
所述获取单元110从所述处理指令中获取触发用户;
发送单元119将所述密文发送至所述触发用户的绑定设备。
通过上述实施方式,能够快速生成所述提示信息,进而对所述提示信息进行加密,能够提高所述提示信息的安全性,同时从所述处理指令获取所述触发用户,能够准确将所述密文发送至相应设备中。
由以上技术方案可以看出,本发明通过所述历史训练数据能够准确确定出所述第二历史信息的信息增益,并根据所述第一历史信息、所述信息增益及所述第二历史信息能够准确的生成所述信息分析决策树,通过分析所述用户信息,以及从所述用户报告中提取的所述目标名称,能够初步确定出所述处理指令的核保建议,进而在所述目标值为预设值,以及所述目标类型为预设类型时,通过从所述用户报告中提取的目标因素及所述目标名称能够准确的生成所述目标建议。此外,在初步确定出所述核保建议后对所述目标因素及所述目标名称进行进一步分析,能够提高所述目标建议的生成效率。
如图3所示,是本发明实现数据处理方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如数据处理程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作***以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、计算单元111、生成单元112、分析单元113、确定单元114、提取单元115、输入单元116、生成单元117、加密单元118及发送单元119。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种数据处理方法,所述处理器13可执行所述计算机可读指令从而实现:
获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
根据所述历史训练数据计算所述第二历史信息的信息增益;
将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析所述用户信息,得到目标值;
从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
根据所述历史训练数据计算所述第二历史信息的信息增益;
将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析所述用户信息,得到目标值;
从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法包括:
获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
根据所述历史训练数据计算所述第二历史信息的信息增益;
将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析所述用户信息,得到目标值;
从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据所述历史训练数据计算所述第二历史信息的信息增益包括:
对于所述第二历史信息中的任一信息,将所述历史训练数据中包含所述任一信息的数据确定为样本数据,并从所述样本数据中筛选出多个类型样本及每个类型样本的正样本及负样本;
计算每个类型样本的样本总量,并计算每个正样本的第一数量及每个负样本的第二数量;
根据所述样本总量、所述第一数量及所述第二数量确定与每个类型样本对应的第一信息熵,包括:
Figure FDA0003131581630000011
其中,E为所述第一信息熵,n总为所述样本总量,n1为所述第一数量,n2为所述第二数量;
计算所述历史训练数据的训练总量,并计算所述历史训练数据中正样本的第三数量及所述历史训练数据中负样本的第四数量;
根据所述训练总量、所述第三数量及所述第四数量确定与所述历史训练数据对应的第二信息熵;
根据所述第二信息熵、所述样本总量、所述训练总量、所述第一信息熵确定出所述任一信息的信息增益,包括:
Figure FDA0003131581630000021
其中,G为所述信息增益,E2为所述第二信息熵,j为所述多个类型样本的类型数量,m为所述训练总量,Ei为第i个类型样本的第一信息熵。
3.如权利要求1所述的数据处理方法,其特征在于,所述将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树包括:
将所述信息增益最大的所述第二历史信息确定为所述目标信息,并将除所述目标信息外的所述第二历史信息确定为特征信息;
从所述历史训练数据中提取所述目标信息中每个类型的数据作为待测样本;
计算每个待测样本与所述特征信息的信息增益作为特征增益;
将所述特征增益最大的所述特征信息确定为属性信息;
将所述第一历史信息作为根结点、所述目标信息作为所述根结点的子结点、所述属性信息作为所述子结点的分支结点,以及所述处理信息作为终结点构建所述信息分析决策树。
4.如权利要求1所述的数据处理方法,其特征在于,所述根据所述处理指令获取用户信息及用户报告包括:
解析所述处理指令的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示用户的信息作为用户识别码,并将与所述用户识别码对应的用户确定为目标用户;
从所述数据信息中获取指示标签的信息作为信息标签;
根据所述信息标签生成信息授权请求,并将所述信息授权请求发送至所述目标用户的用户终端;
当接收到所述用户终端基于所述信息授权请求发送的授权响应时,从所述授权响应中获取信息提取密钥;
基于所述信息提取密钥从信息库中获取同时与所述目标用户及所述信息标签对应的信息作为所述用户信息;
从报告库中获取与所述目标用户对应的信息作为初筛报告,并选取报告时间最大的所述用户报告作为所述用户报告。
5.如权利要求1所述的数据处理方法,其特征在于,所述分析所述用户信息,得到目标值包括:
对所述用户信息进行分词处理,得到目标分词;
将所述目标分词与类型映射表中的类型词汇进行匹配,所述类型映射表中存储有多个类型信息与指示每个类型信息的类型词汇;
当所述目标分词中的任一分词与所述类型词汇匹配成功时,从所述信息分词中提取与所述任一分词存在映射关系的信息作为所述多个类型信息中任一类型信息的信息值;
获取所述用户信息的信息权重;
根据所述信息权值对所述信息值进行加权运算,得到所述目标值。
6.如权利要求1所述的数据处理方法,其特征在于,所述从所述用户报告中提取目标名称包括:
基于OCR算法从所述用户报告中识别出报告信息;
根据预设词典对所述报告信息进行切分,得到多个切分路径及每个切分路径对应的路径分词;
从所述预设词典中获取所述路径分词对应的分词权重,并计算每个切分路径中所述分词权重的总和,得到路径权重;
将所述路径权重最大的切分路径对应的所述路径分词确定为所述信息分词;
根据预设库对所述信息分词进行遍历,并将与所述预设库中任一特征匹配的信息分词确定为所述目标名称。
7.如权利要求1所述的数据处理方法,其特征在于,所述目标类型包括第一类型及第二类型,所述确定所述目标名称所属的目标类型包括:
获取与所述第一类型对应的第一名称,并获取与所述第二类型对应的第二名称;
若所述第一名称中不包含所述目标名称,以及所述第二名称中不包含所述目标名称,获取所述第一名称的第一向量,并获取所述第二名称的第二向量;
确定所述第一向量的表征方式,并根据所述表征方式对所述目标名称进行向量化处理,得到目标向量;
计算所述目标向量与所述第一向量的第一相似度,并计算所述目标向量与所述第二向量的第二相似度;
若所述第一相似度大于或者等于所述第二相似度,将所述目标类型确定为所述第一类型;或者
若所述第一相似度小于所述第二相似度,将所述目标类型确定为所述第二类型。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取单元,用于获取历史训练数据,所述历史训练数据包括第一历史信息、第二历史信息及处理信息;
计算单元,用于根据所述历史训练数据计算所述第二历史信息的信息增益;
生成单元,用于将所述第一历史信息作为根结点,以及根据所述信息增益从所述第二历史信息中选取到的目标信息作为子结点生成信息分析决策树;
所述获取单元,还用于接收处理指令,并根据所述处理指令获取用户信息及用户报告;
分析单元,用于分析所述用户信息,得到目标值;
确定单元,用于从所述用户报告中提取目标名称,并确定所述目标名称所属的目标类型;
提取单元,用于若所述目标值为预设值,以及所述目标类型为预设类型,从所述用户报告中提取目标因素;
输入单元,用于根据所述目标名称及所述目标因素从所述信息分析决策树中确定目标路径,并从所述目标路径中获取终结点作为目标建议。
9.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的数据处理方法。
CN202110704361.4A 2021-06-24 2021-06-24 数据处理方法、装置、设备及存储介质 Active CN113269179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704361.4A CN113269179B (zh) 2021-06-24 2021-06-24 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704361.4A CN113269179B (zh) 2021-06-24 2021-06-24 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113269179A true CN113269179A (zh) 2021-08-17
CN113269179B CN113269179B (zh) 2024-04-05

Family

ID=77235795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704361.4A Active CN113269179B (zh) 2021-06-24 2021-06-24 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113269179B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722371A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 一种基于决策树的药品推荐方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN111405081A (zh) * 2020-03-13 2020-07-10 北京奇艺世纪科技有限公司 基于决策树的dns调整方法、装置、计算机设备和存储介质
CN111581296A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 数据相关性分析方法、装置、计算机***及可读存储介质
CN111639487A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
WO2021115133A1 (zh) * 2020-09-30 2021-06-17 平安科技(深圳)有限公司 驾驶行为识别方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN111405081A (zh) * 2020-03-13 2020-07-10 北京奇艺世纪科技有限公司 基于决策树的dns调整方法、装置、计算机设备和存储介质
CN111581296A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 数据相关性分析方法、装置、计算机***及可读存储介质
CN111639487A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 基于分类模型的字段抽取方法、装置、电子设备及介质
WO2021115133A1 (zh) * 2020-09-30 2021-06-17 平安科技(深圳)有限公司 驾驶行为识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘敏娜;: "ID3算法在程序设计类课程成绩分析中的应用研究", 电子设计工程, no. 09, pages 48 - 50 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722371A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 一种基于决策树的药品推荐方法、装置、设备及存储介质
CN113722371B (zh) * 2021-08-31 2024-04-12 深圳平安智慧医健科技有限公司 一种基于决策树的药品推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113269179B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN112669138B (zh) 数据处理方法及相关设备
CN113283675B (zh) 指标数据分析方法、装置、设备及存储介质
CN111488363A (zh) 数据处理方法、装置、电子设备及介质
CN113032528B (zh) 案件分析方法、装置、设备及存储介质
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
CN113435196A (zh) 意图识别方法、装置、设备及存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN113536770B (zh) 基于人工智能的文本解析方法、装置、设备及存储介质
CN113570391B (zh) 基于人工智能的社群划分方法、装置、设备及存储介质
CN115222443A (zh) 客户群体划分方法、装置、设备及存储介质
CN113268597B (zh) 文本分类方法、装置、设备及存储介质
CN114860742A (zh) 基于人工智能的ai客服交互方法、装置、设备及介质
CN113269179B (zh) 数据处理方法、装置、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN113283389A (zh) 手写文字质量检测方法、装置、设备及存储介质
CN113010785A (zh) 用户推荐方法及设备
CN116629423A (zh) 用户行为预测方法、装置、设备及存储介质
CN116757207A (zh) 基于人工智能的icd自动编码方法及相关设备
CN113343700B (zh) 数据处理方法、装置、设备及存储介质
CN113342977B (zh) ***图像分类方法、装置、设备及存储介质
CN112949305B (zh) 负反馈信息采集方法、装置、设备及存储介质
CN113283677A (zh) 指标数据处理方法、装置、设备及存储介质
CN113420143A (zh) 文书摘要生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant