CN111104980B - 确定分类结果的方法、装置、设备及存储介质 - Google Patents

确定分类结果的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111104980B
CN111104980B CN201911314951.5A CN201911314951A CN111104980B CN 111104980 B CN111104980 B CN 111104980B CN 201911314951 A CN201911314951 A CN 201911314951A CN 111104980 B CN111104980 B CN 111104980B
Authority
CN
China
Prior art keywords
classification
reference data
sum
probability
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911314951.5A
Other languages
English (en)
Other versions
CN111104980A (zh
Inventor
李欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911314951.5A priority Critical patent/CN111104980B/zh
Publication of CN111104980A publication Critical patent/CN111104980A/zh
Application granted granted Critical
Publication of CN111104980B publication Critical patent/CN111104980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种确定分类结果的方法、装置、设备及存储介质,属于机器学习领域。所述方法包括:获取分类参考数据;将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;基于所述多个概率值,确定综合概率信息;将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。本申请可以根据被分类对象的多种数据,通过多个机器学习模型对被分类对象进行分类,能够提高分类结果准确性。

Description

确定分类结果的方法、装置、设备及存储介质
技术领域
本申请涉及机器学习领域,特别涉及一种确定分类结果的方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,人们可以在各种场景中产生不同的数据,例如,用户在网上的浏览数据,用户使用终端的操作数据,用户在银行的借贷数据等等。技术人员可以将上述数据作为分类参考数据,通过分类参考数据的特征,对用户进行分类,例如,根据用户的点赞频率判断用户是否在恶意刷赞。
在现有技术中,分类参考数据一般是与被分的类别直接相关的一类或几类数据,并对相应的数据设置不同的范围,再根据数据所在的范围,确定被分类对象的类别。例如,获取用户在一定时间范围内的点赞次数,根据用户的点赞次数判断用户是否存在恶意刷赞行为。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
目前进行分类时,只是根据与类别直接相关的分类参考数据,对分类的对象进行分类,导致对对象进行分类时参考的数据较少,从而使分类的准确性较低。
发明内容
本申请实施例提供了一种确定分类结果的方法、装置、设备及存储介质,能够解决提高分类的准确性。所述技术方案如下:
一方面,提供了一种确定分类结果的方法,所述方法包括:
获取分类参考数据;
将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;
基于所述多个概率值,确定综合概率信息;
将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。
可选的,所述获取分类参考数据之前,所述方法包括:
获取基分类器样本数据,其中,所述样本数据包括样本分类参考数据和基准概率值;
基于所述基分类器样本数据分别对所述多个初始的基分类器进行训练,得到多个经过训练的基分类器。
可选的,所述将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,包括:
将所述多个概率值、所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果。
可选的,所述获取分类参考数据之前,所述方法包括:
获取次级分类器样本数据,其中,所述次级分类器样本数据包括样本分类参考数据和基准分类结果;
将所述次级分类器样本数据中的样本分类参考数据,分别输入经过训练的多个基分类器,得到多个训练概率值;
基于所述多个训练概率值,确定训练综合概率信息;
基于所述多个训练概率值、所述训练综合概率信息、所述次级分类器样本数据中的样本分类参考数据和基准分类结果,对初始的次级分类器进行训练,得到经过训练的次级分类器。
可选的,所述综合概率信息包括所述多个概率值的平方误差和、绝对误差和、及预期偏差和中的一种或多种信息。
可选的,所述获取分类参考数据,包括:
获取基于区块链存储的分类参考数据。
可选的,所述将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果之后,还包括:
将所述分类结果存储于区块链中。
另一方面,提供了一种确定分类结果的装置,所述装置包括:
获取模块,被配置为获取分类参考数据;
第一输入模块,被配置为将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;
确定模块,被配置为基于所述多个概率值,确定综合概率信息;
第二输入模块,被配置为将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。
可选的,所述获取分类参考数据之前,所述装置还包括第一训练装置,被配置为:
获取基分类器样本数据,其中,所述样本数据包括样本分类参考数据和基准概率值;
基于所述基分类器样本数据分别对所述多个初始的基分类器进行训练,得到多个经过训练的基分类器。
可选的,所述第二输入模块,被配置为:
将所述多个概率值、所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果。
可选的,所述装置还包括第二训练装置,被配置为:
获取次级分类器样本数据,其中,所述次级分类器样本数据包括样本分类参考数据和基准分类结果;
将所述次级分类器样本数据中的样本分类参考数据,分别输入经过训练的多个基分类器,得到多个训练概率值;
基于所述多个训练概率值,确定训练综合概率信息;
基于所述多个训练概率值、所述训练综合概率信息、所述次级分类器样本数据中的样本分类参考数据和基准分类结果,对初始的次级分类器进行训练,得到经过训练的次级分类器。
可选的,所述获取模块,被配置为:
获取基于区块链存储的分类参考数据。
可选的,所述装置还包括存储模块,被配置为:
将所述分类结果存储于区块链中。
再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上所述的确定分类结果的方法所执行的操作。
再一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的确定分类结果的方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果是:
通过多个机器学习模型组成的集成分类模型,将被分类对象的相关数据输入到集成分类模型,从而得到被分类对象的分类结果,可见,本申请可以根据被分类对象的多种数据,通过多个机器学习模型对被分类对象进行分类,能够提高分类结果准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种集成分类模型的示意图;
图2是本申请实施例提供的一种确定分类结果的方法流程图;
图3是本申请实施例提供的一种确定分类结果的方法流程图;
图4是本申请实施例提供的一种确定分类结果的方法流程图;
图5是本申请实施例提供的一种确定分类结果的方法示意图;
图6是本申请实施例提供的一种确定分类结果的装置结构示意图;
图7是本申请实施例提供的一种终端结构示意图;
图8是本申请实施例提供的一种服务器结构示意图;
图9是本申请实施例提供的数据共享***示意图;
图10是本申请实施例提供的区块链结构示意图;
图11是本申请实施例提供的区块产生的过程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的确定分类结果的方法可以由计算机设备实现,该计算机设备可以是服务器或终端。可以由服务器或终端单独实现,也可以由服务器和终端共同实现。终端可以是手机、平板电脑、智能穿戴设备、台式计算机、笔记本电脑等。该服务器可以是一个单独的服务器也可以是一个服务器组,如果是单独的服务器,该服务器可以负责下述方案中的所有处理,如果是服务器组,服务器组中的不同服务器分别可以负责下述方案中的不同处理,具体的处理分配情况可以由技术人员根据实际需求任意设置,此处不再赘述。本实施例以服务器执行对象检测为例进行方案的说明,其它情况与之类似,不再赘述。
本申请涉及人工智能技术,其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的机器学习技术,其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。具体通过如下实施例进行说明。
图1是本申请实施例提供的一种集成分类模型的示意图。参见图1,该集成分类模型可以由基分类器层和次级分类器层组成,其中,基分类器层中包括多个基分类器,次级分类器层中包括一个次级分类器,多个基分类器和次级分类器可以是任何能够产生分类结果的分类器,例如,决策树、逻辑回归、朴素贝叶斯、神经网络等算法。在应用时,可以先将待分类的样本数据输入到基分类器层中的多个基分类器中,得到多个分类概率,再将待分类的样本数据和多个分类概率输入到次级分类器,得到待分类样本数据的分类结果。在本申请实施例的确定分类结果的方法中,除了可以将待分类的样本数据和多个分类概率值输入到次级分类器,还可以通过多个分类概率值得到综合概率信息,然后将待分类的样本数据和多个分类概率值和综合概率信息其中输入到次级分类器中,得到待分类样本数据的分类结果。其中,综合概率信息可以是通过多个分类概率值得到的平方误差和、绝对误差和、及预期偏差和中的一种或多种信息。另外,本申请实施例提供的基分类器、和次级分类器可以将数据分为多个类别,本申请实施例以二分类为例,即数据只有两种类别,对方案进行详细说明,其他情况与之类似,不再赘述。
图2是本申请实施例提供的一种确定分类结果的方法流程图。该实施例用于对集成分类模型中基分类器层中的多个基分类器进行训练,参见图2,该实施例包括:
步骤201、获取基分类器样本数据,其中,样本数据包括样本分类参考数据和基准概率值。
其中,待训练的基分类器为多个,多个基分类器可以是不同的用于分类的机器学习模型,不同的机器学习模型中可以包括不同的分类算法,例如决策树、逻辑回归、朴素贝叶斯,也可以是由相同的算法,但算法中设置的参数不同组成的机器学习模型。基分类器样本数据是用于训练基分类器的样本数据,基准概率值可以是样本数据的标签值,用于表示每个样本数据的真实类别信息。
在实施中,可以获取大量的样本数据对多个基分类器进行训练,其中,每个样本数据还对应有标签值,该标签值用于表示每个样本数据的真实类别,可以是1或0。例如,获取的样本数据是用户的在银行的历史借贷信息,则标签值为1可以表示通过该历史借贷信息可以判定再次贷款给该用户将存在风险,标签值为0可以表示通过该历史借贷信息可以判定再次贷款给该用户不存在风险。其中,用户的在银行的历史借贷信息,可以包括用户的借贷记录、年龄、性别、学历等信息。
步骤202、基于基分类器样本数据分别对多个初始的基分类器进行训练,得到多个经过训练的基分类器。
在实施中,分类框架中的基分类器层中包括多个基分类器,技术人员可以通过获取的样本数据分别对多个基分类器进行训练。对于每个基分类器的训练可以采用交叉验证的方法,即将获取的训练样本分为多组训练样本,每组训练样本中分为多个训练子样本和验证子样本,可以用多个训练子样本对基分类器进行训练,再用一个验证子样本对训练之后的基分类器的精度进行验证,得到训练的基分类器的精度值,当精度值达到预设的精度阈值时,便可完成训练,得到训练之后的基分类器。
图3是本申请实施例提供的一种确定分类结果的方法流程图。该实施例用于对集成分类模型中次级分类器层中的次级分类器进行训练,参见图3,该实施例包括:
步骤301、获取次级分类器样本数据,其中,次级分类器样本数据包括样本分类参考数据和基准分类结果。
其中,次级分类器层中可以有一个次级分类器,次级分类器样本数据是用于训练次级分类器的样本数据,基准分类结果用于表示每个样本数据的真实类别信息,其中,用于训练次级分类器的样本数据可以与上述训练多个基准分类器的样本数据相同。
步骤302、将次级分类器样本数据中的样本分类参考数据,分别输入经过训练的多个基分类器,得到多个训练概率值。
在实施中,可以将用于训练次级分类器的样本数据先输入的训练好的多个基分类器中,得到每个样本数据对应的概率值,该概率值即为训练概率值。需要说明的是,此处不对基分类器个数进行限制。当训练好的基分类器M个时,将每个样本数据输入的训练好的M个基分类器中,得到对于样本数据,属于目标类别的M个训练概率值。
步骤303、基于多个训练概率值,确定训练综合概率信息。
在实施中,训练综合概率信息可以由上述的多个训练概率信息进行计算得到的,可以是平方误差和、绝对误差和、和预期偏差和等。
平方误差和可以为上述M个基分类器得到的训练概率信息与期望预测概率之间的平方误差和,公式如下:
Figure BDA0002325591010000081
其中,
Figure BDA0002325591010000082
为平方误差和,
Figure BDA0002325591010000083
为样本x的期望预测概率,
Figure BDA0002325591010000084
为每第i个基分类器得到的概率值。在训练次级分类器时,可以采用基分类器预测为正类的概率用作次级分类器的输入特征,则期望预测概率为1,即
Figure BDA0002325591010000085
例如,用在银行中已经失信的用户的历史借贷信息,对次级分类模型进行训练。
绝对误差和可以为上述M个基分类器得到的训练概率信息与期望预测概率之间的绝对误差和,
Figure BDA0002325591010000086
为绝对误差,公式如下:
Figure BDA0002325591010000087
预期偏差和可以为为使用上述M个基分类器的预期偏差和。预期偏差和记为
Figure BDA0002325591010000088
公式如下:
Figure BDA0002325591010000089
步骤304、基于多个训练概率值、训练综合概率信息、次级分类器样本数据中的样本分类参考数据和基准分类结果,对初始的次级分类器进行训练,得到经过训练的次级分类器。
在实施中,用于训练次级分类器的训练样本包括,样本数据、每个样本数据对应的多个训练概率值、基于多个训练概率值得到的训练综合概率信息。利用上述训练样本对次级分类器进行训练,其中,训练次级分类器的训练方式,可以与上述训练基分类器的训练方式相同,即同样采用交叉验证的训练方式。即将训练样本分为多组训练样本,每组训练样本中分为多个训练子样本和验证子样本,可以用多个训练子样本对次级分类器进行训练,再用一个验证子样本对训练之后的次级分类器的精度进行验证,得到训练的次级分类器的精度值,当精度值达到预设的精度阈值时,便可完成训练,得到训练之后的次级分类器。
图4是本申请实施例提供的一种确定分类结果的方法流程图。该实施例为基于上述训练之后的多个基分类器和次级分类器组成的集成分类模型的应用,参见图4,该实施例包括:
步骤401、获取分类参考数据。
在实施中,分类参考数据为待分类对象的相关数据,可以从存储相关数据的数据库中获取,例如,在银行的数据库中获取用户在银行的借贷信息,则待分类对象为用户,分类参考数据为用户在银行的借贷信息。另外,还可以获取基于区块链存储的分类参考数据。当分类参考数据预先存储在基于区块链技术的数据共享***中,则可以通过能够访问数据共享***的客户端,获取相应的分类参考数据。
步骤402、将分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值。
其中,多个基分类器是集成分类模型中基分类器层中的多个由不同算法构成的机器学习模型,例如决策树、逻辑回归、朴素贝叶斯,也可以是由相同的算法,但算法中设置的参数不同组成的机器学习模型。
在实施中,将获取的待分类的数据信息输入到上述已经训练好的多个基分类器中得到多个概率值。例如,将每个用户在银行的历史借贷信息输入到多个基分类器,得到再次贷款给该用户之后,用户存在无法还贷的情况的概率值。
步骤403、基于多个概率值,确定综合概率信息。
在实施中,基于上述步骤402中得到的多个概率值,得到综合概率信息,其中综合概率信息的计算方式与上述步骤303中基于多个概率值,得到训练综合概率信息的计算方式相同,即按照上述公式,得到多个概率值对应的平方误差和、绝对误差和以及和预期偏差和。
步骤404、将综合概率信息和分类参考数据,输入经过训练的次级分类器,得到分类结果。
其中,次级分类器为集成分类模型中次级分类器层中用于分类的机器学习模型。次级分类器的输入可以有技术人员设定,若次级分类器的输入为上述得到的综合概率信息和分类参考数据,则对应步骤304对次级分类器训练的训练数据为综合概率信息和样本数据。
在实施中,可以将上述得到的综合概率信息,即通过多个基分类器得到的概率值进行计算之后得到的平方误差和、绝对误差和、和预期偏差和,以及分类参考数据组成次级输入数据,输入到训练之后的次级分类器中,得到每个分类参考数据对应的分类结果。
可选的,可以将上述得到的多个概率值、综合概率信息和分类参考数据,输入经过训练的次级分类器,得到分类结果。
在实施中,还可以将上述有多个基分类器得到的概率值和综合概率信息以及分类参考数据组成次级输入数据,输入到经过训练的次级分类器,得到分类结果,如图5所示,分类参考数据为用户在银行的历史借贷信息,将历史借贷信息输到多个基分类器中,基于每个基分类器得到一个概率值,该概率值为得到再次贷款给该用户之后,用户存在无法还贷的情况的概率值,根据多个概率值得到综合概率信息,再将多个概率值,综合概率信息和用户在银行的历史借贷信息输入到次级分类器中,得到再次贷款给该用户之后,用户是否存在无法还贷的结果。
可选的,将所述分类结果存储于区块链中。
在实施中,可以将分类结果存储在基于区块链的数据共享***中,例如,将存在之后无法还贷的用户的信息存储在数据共享***,参见图9所示的数据共享***,数据共享***900是指用于进行节点与节点之间数据共享的***,该数据共享***中可以包括多个节点901,多个节点901可以是指数据共享***中各个客户端,该客户端可以向数据共享的***存储数据或读取数据。每个节点901在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享***内的共享数据。为了保证数据共享***内的信息互通,数据共享***中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享***中的任意节点接收到分类结果时,数据共享***中的其他节点便根据共识算法获取该分类结果,将该分类结果作为共享数据中的数据进行存储,使得数据共享***中全部节点上存储的数据均一致。
对于数据共享***中的每个节点,均具有与其对应的节点标识,而且数据共享***中的每个节点均可以存储有数据共享***中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享***中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
节点名称 节点标识
节点1 117.114.151.174
节点2 117.116.189.145
节点N 119.123.789.258
表1
数据共享***中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图10,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图11,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
其中,SHA256为计算特征值所用的特征值算法;version(版本号)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享***中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享***中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
本申请实施例通过多个机器学习模型组成的集成分类模型,将被分类对象的相关数据输入到集成分类模型,从而得到被分类对象的分类结果,可见,本申请可以根据被分类对象的多种数据,通过多个机器学习模型对被分类对象进行分类,能够提高分类结果准确性。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图6是本申请实施例提供的一种确定分类结果的装置机构示意图,参见图6该装置包括:
获取模块610,被配置为获取分类参考数据;
第一输入模块620,被配置为将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;
确定模块630,被配置为基于所述多个概率值,确定综合概率信息;
第二输入模块640,被配置为将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。
可选的,所述获取分类参考数据之前,所述装置还包括第一训练装置,被配置为:
获取基分类器样本数据,其中,所述样本数据包括样本分类参考数据和基准概率值;
基于所述基分类器样本数据分别对所述多个初始的基分类器进行训练,得到多个经过训练的基分类器。
可选的,所述第二输入模块640,被配置为:
将所述多个概率值、所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果。
可选的,所述装置还包括第二训练装置,被配置为:
获取次级分类器样本数据,其中,所述次级分类器样本数据包括样本分类参考数据和基准分类结果;
将所述次级分类器样本数据中的样本分类参考数据,分别输入经过训练的多个基分类器,得到多个训练概率值;
基于所述多个训练概率值,确定训练综合概率信息;
基于所述多个训练概率值、所述训练综合概率信息、所述次级分类器样本数据中的样本分类参考数据和基准分类结果,对初始的次级分类器进行训练,得到经过训练的次级分类器。
可选的,所述获取模块,被配置为:
获取基于区块链存储的分类参考数据。
可选的,所述装置还包括存储模块,被配置为:
将所述分类结果存储于区块链中。
需要说明的是:上述实施例提供的确定分类结果的装置在确定分类结果时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定分类结果的装置与确定分类结果的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本申请中一个示例性实施例提供的计算机设备,该计算机设备可以是终端700,如图7为该终端的结构框图。该终端700可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的确定分类结果的方法。
在一些实施例中,终端700还可选包括有:***设备接口703和至少一个***设备。处理器701、存储器702和***设备接口703之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口703相连。具体地,***设备包括:射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。
***设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和***设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和***设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置终端700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端700的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位终端700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测终端700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时,可以检测用户对终端700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时,由处理器701根据用户对触摸显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制触摸显示屏705的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏705的显示亮度;当环境光强度较低时,调低触摸显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时,由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时,由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对终端700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图8是本申请实施例提供的一种计算机设备,该设备可以是服务器,如图8为服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中确定分类结果的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(Read-OnlyMemory,只读存储器,)、RAM(Random Access Memory,随机存取存储器)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种确定分类结果的方法,其特征在于,所述方法包括:
获取分类参考数据;
将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;
基于所述多个概率值,确定综合概率信息,所述综合概率信息包括所述多个概率值的平方误差和、绝对误差和、及预期偏差和中的一种或多种信息,所述平方误差和为所述多个概率值与期望预测概率之间的平方误差和,所述绝对误差和为所述多个概率值与期望预测概率之间的绝对误差和,所述预期偏差和为使用所述多个基分类器的预期偏差和;
将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述获取分类参考数据之前,所述方法包括:
获取基分类器样本数据,其中,所述样本数据包括样本分类参考数据和基准概率值;
基于所述基分类器样本数据分别对所述多个初始的基分类器进行训练,得到多个经过训练的基分类器。
3.根据权利要求1所述的方法,其特征在于,所述将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,包括:
将所述多个概率值、所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果。
4.根据权利要求3所述的方法,其特征在于,所述获取分类参考数据之前,所述方法包括:
获取次级分类器样本数据,其中,所述次级分类器样本数据包括样本分类参考数据和基准分类结果;
将所述次级分类器样本数据中的样本分类参考数据,分别输入经过训练的多个基分类器,得到多个训练概率值;
基于所述多个训练概率值,确定训练综合概率信息;
基于所述多个训练概率值、所述训练综合概率信息、所述次级分类器样本数据中的样本分类参考数据和基准分类结果,对初始的次级分类器进行训练,得到经过训练的次级分类器。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取分类参考数据,包括:
获取基于区块链存储的分类参考数据。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果之后,还包括:
将所述分类结果存储于区块链中。
7.一种确定分类结果的装置,其特征在于,所述装置包括:
获取模块,被配置为获取分类参考数据;
第一输入模块,被配置为将所述分类参考数据,分别输入经过训练的多个基分类器,得到多个概率值,其中,所述多个基分类器是由不同算法构成的机器学习模型;
确定模块,被配置为基于所述多个概率值,确定综合概率信息,所述综合概率信息包括所述多个概率值的平方误差和、绝对误差和、及预期偏差和中的一种或多种信息,所述平方误差和为所述多个概率值与期望预测概率之间的平方误差和,所述绝对误差和为所述多个概率值与期望预测概率之间的绝对误差和,所述预期偏差和为使用所述多个基分类器的预期偏差和;
第二输入模块,被配置为将所述综合概率信息和所述分类参考数据,输入经过训练的次级分类器,得到分类结果,其中,所述次级分类器为机器学习模型。
8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的确定分类结果的方法所执行的操作。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的确定分类结果的方法所执行的操作。
CN201911314951.5A 2019-12-19 2019-12-19 确定分类结果的方法、装置、设备及存储介质 Active CN111104980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911314951.5A CN111104980B (zh) 2019-12-19 2019-12-19 确定分类结果的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911314951.5A CN111104980B (zh) 2019-12-19 2019-12-19 确定分类结果的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111104980A CN111104980A (zh) 2020-05-05
CN111104980B true CN111104980B (zh) 2021-09-28

Family

ID=70422353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911314951.5A Active CN111104980B (zh) 2019-12-19 2019-12-19 确定分类结果的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111104980B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651671A (zh) * 2021-01-18 2021-04-13 中国民航信息网络股份有限公司 一种航班舱位调整方法及相关设备
CN113111284A (zh) * 2021-04-12 2021-07-13 中国铁塔股份有限公司 归类信息展示方法、装置、电子设备和可读存储介质
CN113569986B (zh) * 2021-08-18 2023-06-30 网易(杭州)网络有限公司 计算机视觉数据分类方法、装置、电子设备及存储介质
CN115827880B (zh) * 2023-02-10 2023-05-16 之江实验室 一种基于情感分类的业务执行方法及装置
CN116223962B (zh) * 2023-05-08 2023-07-07 中科航迈数控软件(深圳)有限公司 线束电磁兼容性预测方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127198A (zh) * 2016-06-20 2016-11-16 华南师范大学 一种基于多分类器集成的图像文字识别方法
CN109145108A (zh) * 2017-06-16 2019-01-04 贵州小爱机器人科技有限公司 文本层叠分类器训练方法、分类方法、装置及计算机设备
CN109324604B (zh) * 2018-11-29 2020-05-26 中南大学 一种基于多源信号的智能列车综合故障分析方法
CN110097098A (zh) * 2019-04-18 2019-08-06 腾讯科技(深圳)有限公司 基于基分类器的数据分类方法及装置、介质和电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348523A (zh) * 2019-07-15 2019-10-18 北京信息科技大学 一种基于Stacking的恶意网页集成识别方法及***

Also Published As

Publication number Publication date
CN111104980A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111091132B (zh) 基于人工智能的图像识别方法、装置、计算机设备及介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN110083791B (zh) 目标群组检测方法、装置、计算机设备及存储介质
CN111182453A (zh) 定位方法、装置、电子设备及存储介质
CN112069414A (zh) 推荐模型训练方法、装置、计算机设备及存储介质
CN108288032B (zh) 动作特征获取方法、装置及存储介质
CN111897996A (zh) 话题标签推荐方法、装置、设备及存储介质
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN110647881A (zh) 确定图像对应的卡片类型的方法、装置、设备及存储介质
CN114154068A (zh) 媒体内容推荐方法、装置、电子设备及存储介质
CN113918767A (zh) 视频片段定位方法、装置、设备及存储介质
CN113724189A (zh) 图像处理方法、装置、设备及存储介质
CN111353513B (zh) 一种目标人群筛选的方法、装置、终端和存储介质
CN111563201A (zh) 内容推送方法、装置、服务器及存储介质
CN110837557A (zh) 摘要生成方法、装置、设备及介质
CN110990728A (zh) 兴趣点信息的管理方法、装置、设备及存储介质
CN111414496B (zh) 基于人工智能的多媒体文件的检测方法和装置
CN113936240A (zh) 确定样本图像的方法、装置、设备及存储介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN113762585A (zh) 数据的处理方法、账号类型的识别方法及装置
CN113139614A (zh) 特征提取方法、装置、电子设备及存储介质
CN114764480A (zh) 群组类型识别方法、装置、计算机设备及介质
CN113763932A (zh) 语音处理方法、装置、计算机设备及存储介质
CN111652432A (zh) 用户属性信息的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant