CN110516950A - 一种面向实体解析任务的风险分析方法 - Google Patents

一种面向实体解析任务的风险分析方法 Download PDF

Info

Publication number
CN110516950A
CN110516950A CN201910773251.6A CN201910773251A CN110516950A CN 110516950 A CN110516950 A CN 110516950A CN 201910773251 A CN201910773251 A CN 201910773251A CN 110516950 A CN110516950 A CN 110516950A
Authority
CN
China
Prior art keywords
risk
feature
value
probability
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910773251.6A
Other languages
English (en)
Inventor
陈群
陈肇强
侯博议
王丽娟
罗雨晨
李战怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201910773251.6A priority Critical patent/CN110516950A/zh
Publication of CN110516950A publication Critical patent/CN110516950A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明针对实体解析任务,通过决策树来生成作为风险特征的规则;对于每个风险特征,假设其匹配概率服从各自的正态分布,其中包含了三个可调参数,期望,方差和特征的重要度;给定任一记录对,其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加;对于给定的记录对,得到其匹配概率的正态分布和机器标签后,采用风险值来评估机器标签的风险;风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供,方差和特征的重要度权重则是在风险训练数据集上,采用学习排序技术和梯度下降优化方法来学习它们的最优值。风险模型训练完成后,输入任一记录对的机器标签,风险模型返回该标签的风险值。

Description

一种面向实体解析任务的风险分析方法
技术领域
本发明属于数据集成与清洗领域,用于实体解析任务,通过该技术分析分类器预测的标签是错误值的风险。
背景技术
在数据集成与清洗领域中,一个重要的任务是识别数据源中表示现实世界同一个实体的记录,即实体解析。现有的实体解析方法中,一类广泛运用的方法是基于机器学习的实体解析方法。这类方法首先将可能代表同一实体的记录形成候选记录对,如果记录对中的两条记录表示同一实体,则标签为“匹配”,否则,标签为“不匹配”;然后选取一部分的记录对,进行人工标注,形成带有真实标签的训练数据;接着选择一个分类模型,例如,支持向量机,决策树,随机森林,深度神经网络等,在训练数据上训练得到最优的分类器;最后将得到的分类器运用于未标注的数据中,预测相应的标签。然而,由于记录中存在缺失值或错误数据等,实体解析任务本身很具挑战性,实际中很难得到一个能够准确标注所有的记录对的分类器,总会存在着将匹配的记录对标注为“不匹配”,或者是将不匹配的记录对标注为“匹配”的情况。因此,基于机器学习的实体解析方法中的一个重要的挑战是,如何分析机器标签是错误的风险?准确地分析机器标签的风险将有助于用最少的人力成本来改善实体解析的结果;评估并改进分类器等。
目前,针对风险分析的相关研究中,一种直观的方法是采用分类器(具体指深度神经网络模型)给出的标签概率值来分析其风险,即:一种标签类别所对应的预测概率值越高,那么,其错误的风险越小。第二种方法是对前述方法的改进,通过修改分类器的目标函数,并增加一个分布外(Out of Distribution)的训练数据集来重新优化分类器,使得分类器能够识别分布外的数据并给出更低的预测概率值。第三种方法是首先为每种标签构建一个代表该类标签的簇,然后对于给定的任一测试数据,计算该数据与其机器标签所在的簇的距离,并计算与该数据距离最近的其它标签所在簇的距离,最后通过比较这两个距离来计算标签的风险。然而,上述的三种风险分析方法不具备可解释性,并且没有独立的可学习的风险模块。新近提出的一种静态的风险分析方法是用贝叶斯推理来估计记录对的匹配概率,然后用条件风险值(Conditional Value at Risk)来评估标签为错误的风险。同样的,这种方法不能够动态地学习调整风险模型。
发明内容
要解决的技术问题
针对上述已有的风险分析算法存在的不足,本发明提出一种具备可解释性和可动态学习的风险分析框架,用于分析量化分类器给出的机器标签的风险。
技术方案
如图1所示,所提的风险分析框架主要包括三个部分:生成风险特征、构建风险模型和训练风险模型。针对实体解析任务,通过决策树来生成具有可解释性、高区分度和高覆盖率的规则,所得到的规则作为风险特征;对于每个风险特征,假设其匹配概率服从各自的正态分布,其中包含了三个可调参数,期望,方差和特征的重要度;给定任一记录对,其匹配概率的分布则是该记录对符合的所有风险特征所对应的正态分布的加权叠加;对于给定的记录对,得到其匹配概率的正态分布和机器标签后,采用风险值(Value at Risk)来评估机器标签的风险;风险特征的匹配概率的期望根据分类器训练数据集所提供的匹配频率统计提供,方差和特征的重要度权重则是在风险训练数据集上,采用学习排序技术(Learn toRank)和梯度下降优化方法来学习它们的最优值。风险模型训练完成后,输入任一记录对的机器标签,风险模型返回该标签的风险值。
一种面向实体解析任务的风险分析方法,其特征在于步骤如下:
步骤1:将训练好的分类器作用在未标注数据集D上,获得预测的机器标签;其中D={d1,d2,......,dn},每一个di表示一个候选记录对<ri1,ri2>,如果ri1和ri2表示同一个现实世界的实体,则将di标注为“匹配”,否则,标注为“不匹配”;
步骤2:根据具体的数据集,设计相应的属性相似度对比方法,假设为{h1(·,·),h2(·,·),h3(·,·),......},对于任意的一个hi,输入di中两个实体ri1和ri2的相对应的属性值,则hi输出这两个实体的属性相似度;
步骤3:在分类器的训练数据DT上,基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值,采用决策树技术,训练得到一个规则集F={f1,f2,......,fk};每一条规则都是由若干个条件以谓词连接词“与”组成,并推出一个“匹配”或者“不匹配”的结论;每一个条件则是由一个属性相似度对比方法和相应的阈值所声明,它们之前的关系是“>”或者“≤”;
步骤4:对于每一个风险特征fi,假设其蕴含的匹配概率值服从一个期望为方差为的正态分布,并且该特征的重要度权重为wi;为表述方便,k个风险特征的匹配概率的期望用向量形式来表示,即同理,方差权重w=[w1,w2,......,wk]T;对于任意的一个数据di,其对应的特征向量为xi=[xi1,xi2,......,xik],其中,如果di满足第j个风险特征,则xij=1,否则,xij=0;对于分类器输出的类别概率的权重,不是用一个参数来表示,而是用一个重要度函数来表示,即
其中,α和β是待优化参数,对于每一个分类器的预测概率值,fw(x)返回其相对应的权重;
步骤5:根据分类器的训练数据DT,计算每一个的风险特征的匹配概率的期望;对于风险特征fi,假设训练数据DT中符合该特征的数据确个,其中,标签为“匹配”的数据有个,那么,该特征的匹配概率的期望可以估计为而风险特征的权重wi,和其匹配概率的分布的方差为待求参数;
步骤6:假设记录对di的匹配概率同样服从正态分布然后,根据该记录对所对应的风险特征来估计其分布。具体地,其期望值为方差为其中,表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘;简而言之,记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的;风险特征f1的分布和风险特征f2的分布以相等权重的方式叠加得到记录对d1的分布;
步骤7:在获得一个记录对di的匹配概率分布和分类器预测的标签后,采用风险值来度量机器标签与真实标签不同的风险;记di所对应的匹配概率的累计分布函数的反函数为那么,在给定置信度水平为θ的条件下,当di的机器标签为“不匹配”时,其风险为
当di的机器标签为“匹配”时,其风险为
步骤8:假设已存在一个带有真实标签的风险模型训练数据DS,所述的DS与数据集D同分布,在DS上,采用学习排序技术来最优化风险模型中的待求参数,即风险特征的权重wi,和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值,给定两个记录对di和dj,不妨假设它们对应的被错误分类的风险值分别为γi和γj,并且,如果γi大于γj,那么di排在dj的前面;采用logistic函数将它们的风险值映射为di排在dj前面的后验概率
而其目标概率为
其中,如果记录对di被错误分类,那么,gi=1,否则,gi=0;根据所定义的记录对排序位置的后验概率和目标概率,在风险模型训练数据DS上,所定义的目标损失函数为交叉熵损失函数
步骤9:采用梯度下降方法来寻找最优参数,使得步骤8中的交叉熵损失函数的值最小;
步骤10:求出风险模型的未知参数后,对于数据集D上的每一个记录对,根据步骤7,可以求得其对应的机器标签的风险值。
有益效果
本发明提出的一种面向实体解析任务的风险分析方法,通过具有可解释性的风险特征,对分类器的输出标签进行风险的量化分析;风险分析模型提供了可学习的参数,能够从少量的带真实标签的目标数据中学习有效的模型,以更好地评估分类器在目标数据上的机器标签的风险;所提的风险分析技术可以将分类器视作“黑盒子”,不需要用到分类器的内部信息,具有较好的便利性和较广的适用范围。
附图说明
图1是本发明提出的面向实体解析任务的风险分析框架。
图2是一个估计记录对的匹配概率分布的示例,记录对的分布由两个风险特征的分布以相等的权重叠加得到。
图3是根据一个正态分布计算风险值(Value at Risk,VaR)的示意图。红色区域的面积大小是1-θ,表示了风险损失大于0.757的概率。此时,风险值VaR=0.757。
图4是面向实体解析任务的风险分析流程图。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
一个常见的实体解析任务的执行过程为:对于一个经过Blocking技术过滤后的未标注的数据集D={d1,d2,......,dn},每一个di表示一个候选记录对<ri1,ri2>,如果ri1和ri2表示同一个现实世界的实体,则将di标注为“匹配”,否则,标注为“不匹配”。假设有一个带有真实标签的数据集其中,yi∈{“匹配”,“不匹配”}。然后在DT上训练一个分类器G。最后,对于每一个di∈D,分类器G都将预测一个标签,即
然而,对于一个真实标签未知的记录对di,分类器预测的机器标签可能存在着错误。本发明提出的风险分析技术能够量化机器标签是错误的风险,具体的实施步骤如下:
步骤1:将训练好的分类器作用在未标注数据集D上,获得预测的机器标签。
步骤2:根据具体的数据集,设计相应的属性相似度对比方法,假设为{h1(·,·),h2(·,·),h3(·,·),......},对于任意的一个hi,输入di中两个实体ri1和ri2的相对应的属性值,则hi输出这两个实体的属性相似度。
步骤3:在分类器的训练数据DT上,基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值,采用决策树(Decision Tree)技术,训练得到一个规则集F={f1,f2,......,fk}。每一条规则都是由若干个条件以谓词连接词“与”组成,并推出一个“匹配”或者“不匹配”的结论。每一个条件则是由一个属性相似度对比方法和相应的阈值所声明,它们之前的关系是“>”或者“≤”。例如,规则f1:h1(ri1,ri2)>0.8∧h2(ri1,ri2)≤0.1→“匹配”。这里所得到的规则集即是可解释的风险特征。此外,分类器输出的类别概率也作为一个风险特征。
步骤4:对于每一个风险特征fi,我们假设其蕴含的匹配概率值服从一个期望为方差为的正态分布,并且该特征的重要度权重为wi。为表述方便,k个风险特征的匹配概率的期望用向量形式来表示,即同理,方差权重w=[w1,w2,......,wk]T。对于任意的一个数据di,其对应的特征向量为xi=[xi1,xi2,......,xik],其中,如果di满足第j个风险特征,则xij=1,否则,xij=0。需要注意的是,对于分类器输出的类别概率的权重,我们不是用一个参数来表示,而是用一个重要度函数来表示,即
其中,α和β是待优化参数。对于每一个分类器的预测概率值,fw(x)返回其相对应的权重。
步骤5:根据分类器的训练数据DT,计算每一个的风险特征的匹配概率的期望。对于风险特征fi,假设训练数据DT中符合该特征的数据有个,其中,标签为“匹配”的数据有个,那么,该特征的匹配概率的期望可以估计为而风险特征的权重wi,和其匹配概率的分布的方差为待求参数。
步骤6:我们假设记录对di的匹配概率同样服从正态分布然后,根据该记录对所对应的风险特征来估计其分布。具体地,其期望值为方差为其中,表示矩阵的哈达玛积(Hadamard product),其操作是将两个向量中的对应元素相乘。简而言之,记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的。一个示例如图2所示,风险特征f1的分布和风险特征f2的分布以相等权重的方式叠加得到记录对d1的分布。
步骤7:在获得一个记录对di的匹配概率分布和分类器预测的标签后,我们采用风险值(VaR)来度量机器标签与真实标签不同的风险。不妨记di所对应的匹配概率的累计分布函数的反函数为那么,在给定置信度水平为θ的条件下,当di的机器标签为“不匹配”时,其风险为
当di的机器标签为“匹配”时,其风险为
图3给出了一个当机器标签为“不匹配”时,计算VaR的示例:红色区域的面积大小是1-θ,表示了风险损失大于0.757的概率。此时,风险值VaR=0.757。
步骤8:假设已存在一个带有真实标签的风险模型训练数据DS。一般而言,DS与数据集D同分布。在DS上,我们采用学习排序技术(Learn to Rank)来最优化风险模型中的待求参数,即风险特征的权重wi,和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值。给定两个记录对di和dj,不妨假设它们对应的被错误分类的风险值分别为γi和γj,并且,如果γi大于γj,那么di排在dj的前面。我们采用logistic函数将它们的风险值映射为di排在dj前面的后验概率
而其目标概率为
其中,如果记录对di被错误分类,那么,gi=1,否则,gi=0。根据所定义的记录对排序位置的后验概率和目标概率,在风险模型训练数据DS上,我们所定义的目标损失函数为交叉熵损失函数
步骤9:我们采用梯度下降方法来寻找最优参数,使得步骤8中的交叉熵损失函数的值最小。
步骤10:求出风险模型的未知参数后,对于数据集D上的每一个记录对,根据步骤7,可以求得其对应的机器标签的风险值。

Claims (1)

1.一种面向实体解析任务的风险分析方法,其特征在于步骤如下:
步骤1:将训练好的分类器作用在未标注数据集D上,获得预测的机器标签;其中D={d1,d2,……,dn},每一个di表示一个候选记录对<ri1,ri2>,如果ri1和ri2表示同一个现实世界的实体,则将di标注为“匹配”,否则,标注为“不匹配”;
步骤2:根据具体的数据集,设计相应的属性相似度对比方法,假设为{h1(·,·),h2(·,·),h3(·,·),……},对于任意的一个hi,输入di中两个实体ri1和ri2的相对应的属性值,则hi输出这两个实体的属性相似度;
步骤3:在分类器的训练数据DT上,基于步骤2中设定的属性相似度对比方法得到各个数据在不同属性上的相似度值,采用决策树技术,训练得到一个规则集F={f1,f2,……,fk};每一条规则都是由若干个条件以谓词连接词“与”组成,并推出一个“匹配”或者“不匹配”的结论;每一个条件则是由一个属性相似度对比方法和相应的阈值所声明,它们之前的关系是“>”或者“≤”;
步骤4:对于每一个风险特征fi,假设其蕴含的匹配概率值服从一个期望为方差为的正态分布,并且该特征的重要度权重为wi;为表述方便,k个风险特征的匹配概率的期望用向量形式来表示,即同理,方差权重w=[w1,w2,……,wk]T;对于任意的一个数据di,其对应的特征向量为xi=[xi1,xi2,……,xik],其中,如果di满足第j个风险特征,则xii=1,否则,xij=0;对于分类器输出的类别概率的权重,不是用一个参数来表示,而是用一个重要度函数来表示,即
其中,α和β是待优化参数,对于每一个分类器的预测概率值,fw(x)返回其相对应的权重;
步骤5:根据分类器的训练数据DT,计算每一个的风险特征的匹配概率的期望;对于风险特征fi,假设训练数据DT中符合该特征的数据有个,其中,标签为“匹配”的数据有个,那么,该特征的匹配概率的期望可以估计为而风险特征的权重wi,和其匹配概率的分布的方差为待求参数;
步骤6:假设记录对di的匹配概率同样服从正态分布然后,根据该记录对所对应的风险特征来估计其分布。具体地,其期望值为方差为其中,表示矩阵的哈达玛积,其操作是将两个向量中的对应元素相乘;简而言之,记录对的匹配概率的分布是由风险特征的匹配概率的分布的加权叠加来估计的;风险特征f1的分布和风险特征f2的分布以相等权重的方式叠加得到记录对d1的分布;
步骤7:在获得一个记录对di的匹配概率分布和分类器预测的标签后,采用风险值来度量机器标签与真实标签不同的风险;记di所对应的匹配概率的累计分布函数的反函数为那么,在给定置信度水平为θ的条件下,当di的机器标签为“不匹配”时,其风险为
当di的机器标签为“匹配”时,其风险为
步骤8:假设已存在一个带有真实标签的风险模型训练数据DS,所述的DS与数据集D同分布,在DS上,采用学习排序技术来最优化风险模型中的待求参数,即风险特征的权重wi,和其匹配概率的分布的方差学习排序技术是为了使被错误分类的记录对的风险值能够大于被正确分类的记录对的风险值,给定两个记录对di和dj,不妨假设它们对应的被错误分类的风险值分别为γi和γj,并且,如果γi大于γj,那么di排在dj的前面;采用logistic函数将它们的风险值映射为di排在dj前面的后验概率
而其目标概率为
其中,如果记录对di被错误分类,那么,gi=1,否则,gi=0;根据所定义的记录对排序位置的后验概率和目标概率,在风险模型训练数据DS上,所定义的目标损失函数为交叉熵损失函数
步骤9:采用梯度下降方法来寻找最优参数,使得步骤8中的交叉熵损失函数的值最小;
步骤10:求出风险模型的未知参数后,对于数据集D上的每一个记录对,根据步骤7,可以求得其对应的机器标签的风险值。
CN201910773251.6A 2019-08-21 2019-08-21 一种面向实体解析任务的风险分析方法 Pending CN110516950A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910773251.6A CN110516950A (zh) 2019-08-21 2019-08-21 一种面向实体解析任务的风险分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910773251.6A CN110516950A (zh) 2019-08-21 2019-08-21 一种面向实体解析任务的风险分析方法

Publications (1)

Publication Number Publication Date
CN110516950A true CN110516950A (zh) 2019-11-29

Family

ID=68626944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910773251.6A Pending CN110516950A (zh) 2019-08-21 2019-08-21 一种面向实体解析任务的风险分析方法

Country Status (1)

Country Link
CN (1) CN110516950A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314934A (zh) * 2020-02-14 2020-06-19 西北工业大学 一种统一最优判决的网络协同探测方法
CN111369547A (zh) * 2020-03-10 2020-07-03 上海鹰瞳医疗科技有限公司 基于风险权重评估医学机器学习模型性能的方法和设备
CN111539576A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险识别模型的优化方法及装置
CN112711755A (zh) * 2020-12-26 2021-04-27 重庆扬成大数据科技有限公司 科技特派员通过云平台进行信息筛选工作方法
CN113610167A (zh) * 2021-08-10 2021-11-05 宿迁旺春机械制造有限公司 基于度量学习与视觉感知的设备风险检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111314934A (zh) * 2020-02-14 2020-06-19 西北工业大学 一种统一最优判决的网络协同探测方法
CN111314934B (zh) * 2020-02-14 2021-08-10 西北工业大学 一种统一最优判决的网络协同探测方法
CN111369547A (zh) * 2020-03-10 2020-07-03 上海鹰瞳医疗科技有限公司 基于风险权重评估医学机器学习模型性能的方法和设备
CN111369547B (zh) * 2020-03-10 2023-10-17 上海鹰瞳医疗科技有限公司 基于风险权重评估医学机器学习模型性能的方法和设备
CN111539576A (zh) * 2020-04-29 2020-08-14 支付宝(杭州)信息技术有限公司 一种风险识别模型的优化方法及装置
CN111539576B (zh) * 2020-04-29 2022-04-22 支付宝(杭州)信息技术有限公司 一种风险识别模型的优化方法及装置
CN112711755A (zh) * 2020-12-26 2021-04-27 重庆扬成大数据科技有限公司 科技特派员通过云平台进行信息筛选工作方法
CN113610167A (zh) * 2021-08-10 2021-11-05 宿迁旺春机械制造有限公司 基于度量学习与视觉感知的设备风险检测方法

Similar Documents

Publication Publication Date Title
CN110516950A (zh) 一种面向实体解析任务的风险分析方法
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
Zhang et al. Fruit classification by biogeography‐based optimization and feedforward neural network
Mathur et al. Crop classification by support vector machine with intelligently selected training data for an operational application
Guo et al. Supplier selection based on hierarchical potential support vector machine
Fan et al. Wafer fault detection and key step identification for semiconductor manufacturing using principal component analysis, AdaBoost and decision tree
CN110135231A (zh) 动物面部识别方法、装置、计算机设备和存储介质
Kumar et al. Extraction of sift features for identifying disaster hit areas using machine learning techniques
US11449639B2 (en) Differential privacy to prevent machine learning model membership inference
CN111967527B (zh) 一种基于人工智能牡丹品种识别方法及识别***
Perner How to interpret decision trees?
CN109726331A (zh) 对象偏好预测的方法、装置和计算机可读介质
CN110781970A (zh) 分类器的生成方法、装置、设备及存储介质
Ertekin et al. Learning to predict the wisdom of crowds
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置
Xu et al. Novel Early-Warning Model for Customer Churn of Credit Card Based on GSAIBAS-CatBoost.
CN112435103B (zh) 一种事后多样性解释的智能推荐方法及***
da Silva et al. Prior specification via prior predictive matching: Poisson matrix factorization and beyond
KR20220097215A (ko) 임베딩 정규화 방법 및 이를 이용한 전자 장치
Wang et al. Research of advanced gtm and its application to gas-oil reservoir identification
Gras López Detection of unsupervised anomalies in light sensors.
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理***
Reddy et al. The Study of Supervised Classification Techniques in Machine Learning using Keras
Zhao et al. Understanding and Improving the Intermediate Features of FCN in Semantic Segmentation
Chen et al. Intelligent Statistical Method of Accounting Information Teaching Data Based on SVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191129