CN114764682A - 一种基于多机器学习算法融合的大米安全风险评估方法 - Google Patents

一种基于多机器学习算法融合的大米安全风险评估方法 Download PDF

Info

Publication number
CN114764682A
CN114764682A CN202210306564.2A CN202210306564A CN114764682A CN 114764682 A CN114764682 A CN 114764682A CN 202210306564 A CN202210306564 A CN 202210306564A CN 114764682 A CN114764682 A CN 114764682A
Authority
CN
China
Prior art keywords
expert
weight
rice
hazard
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210306564.2A
Other languages
English (en)
Other versions
CN114764682B (zh
Inventor
赵峙尧
王姿懿
于家斌
许继平
白玉廷
王小艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202210306564.2A priority Critical patent/CN114764682B/zh
Publication of CN114764682A publication Critical patent/CN114764682A/zh
Application granted granted Critical
Publication of CN114764682B publication Critical patent/CN114764682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Agronomy & Crop Science (AREA)
  • Animal Husbandry (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)

Abstract

本发明提出一种基于多机器学习算法融合的大米安全风险评估方法。本发明方法包括:获取大米危害物检测数据并进行预处理;从危害物指标层面入手,依据AHP算法与SC算法实现专家分类,结合专家评估结果的一致性权重差异求解专家类别内权重与专家间权重,构建大米安全风险评估指标体系,将预处理后的危害物检测数据与综合权重加权求和,获得大米危害物风险值;采用多机器学习算法融合构建大米安全风险评估模型,以实现风险快速评估。本发明方法以更客观的方式有效兼顾了全部专家的意见,避免对无效信息”的放大和对“有效信息”的缩小。本发明能有效降低监管成本,提高风险发现与响应处置效率,可为监管部门提供精准高效的决策依据。

Description

一种基于多机器学习算法融合的大米安全风险评估方法
技术领域
本发明属于食品质量检测和食品安全风险评估技术领域,涉及大数据处理以及机器学习等技术,具体为一种基于多机器学习算法融合的大米安全风险评估方法。
背景技术
近年来食品安全事件频发,对食品***提出了更高的要求,世界各国相继出台一系列严苛的食品***政策。为进一步强化风险监测、风险评估与供应链管理,提高风险发现与响应处置效率,各级政府部门大力推动食品安全领域的数字化建设,强化“大数据+食品”监管,发挥大数据、人工智能等技术在食品安全风险评估、监管等领域的优势作用。
目前,食品安全风险评估方法主要包括定性评估方法、定量评估方法,以及综合风险评估方法三大类。定性评估方法是一种主观性较强的评估方法,主要依据评估者的知识和经验对风险指标进行分析判断,依据判断结果与矩阵模型计算指标风险值。其中,基于单一专家评估的定性评估方法相对成熟,包括德尔菲法、层次分析法、决策实验室法,指标打分法等。基于多位专家的定性评估方法分为主观赋权与客观赋权两类,其中,基于主观的赋权方法,是以专家先验信息为基础划分专家权重,如:名望、知识水平等,并依据专家权重结果计算风险值;基于客观的赋权方法以专家评估结果的一致性指标值为基础划分专家权重,同样依据专家权重结果计算风险值。实际决策中,基于多位专家的定性评估方法公信度较高,且在专家赋权方法研究中,客观赋权法相较于主观应用更为广泛。定量评估方法是一种客观性较强的评估方法,通过数理模型计算得出指标风险值,包括蒙特卡洛定量评估法、灰色关联理论法、模糊综合评价模型,机器学习人工神经网络模型等。综合风险评估方法是定性与定量评估方法的结合,通过定性评估方法构建指标体系,依据指标体系与定量评估方法构建风险评估模型。
随着数字化转型的加速推进,食品检测数据呈指数***式增长,数据处理难、分析难成为制约食品安全风险监管的首要难题,也直接影响以数据为载体的风险评估模型的准确性。现有的风险评估方法中,定性评估法人工成本较高且评估进程较长,定量评估法存在指标精度较低或过拟合性能较弱等问题,使得风险评估结果的准确率偏低且时间成本较高,从而造成缺失精准定位风险值的能力。
发明内容
针对现有技术中食品安全风险评估时间长、评估结果准确率低、不能精准定位风险的问题,本发明提供了一种基于多机器学习算法融合的大米安全风险评估方法,依据主客观结合的综合风险评估法构建大米安全风险评估模型,基于定性评估方法和聚类算法筛选安全风险评估指标,采用多机器学习算法融合进行大米安全风险评估。
本发明的一种基于多机器学习算法融合的大米安全风险评估方法,实现包括如下:
(1)获取大米危害物检测数据并进行预处理。
所述预处理包括依次对检测数据进行噪声过滤,数据集成与归一化处理。
设危害物有k种,预处理后的危害物检测数据包括所有危害物的标准化的检测值;
(2)构建大米安全风险评估指标体系。
获取专家对大米危害物指标的评估结果,然后执行:(1)先基于层次分析法AHP计算各专家的评估指标权重,评估指标权重是指对各大米危害物指标的评估权重;(2)再基于谱聚类法SC划分专家类别;(3)计算专家类别间权重以及专家类别内权重;其中,类别内专家数量越多、一致性差异越小,则该专家类别的权重越大;(4)最后确定各危害物指标的综合权重;
对第j个指标,计算得到第i位专家对第j个指标的评估权重为wij,由SC算法将m位专家的评估结果聚为H类,其中第i位专家划分到类别hi中,hi∈{h1,h2,...hH},计算得到类别 hi的权重为
Figure BDA0003565697460000021
类别hi内专家i评估结果所占的权重为
Figure BDA0003565697460000022
则加权后得到第i位专家评估结果对第j个指标的权重
Figure BDA0003565697460000023
群决策后得到第j个指标的综合权重
Figure BDA0003565697460000024
将步骤一预处理后的危害物检测数据与综合权重加权求和,获得大米危害物风险值Y。
(3)为了能更快速准确地给提供直观的大米安全风险评估结果,本发明采用多机器学习算法融合构建大米安全风险评估模型。
构建大米危害物风险评估模型选取XGBoost与LightGBM两种机器学习算法组成基学习器,选取长短期记忆网络LSTM作为元学习器;将预处理后的危害物检测数据输入大米危害物风险评估模型,基学习器中的两种机器学习算法的输出与预处理后的危害物检测数据一起再输入元学习器,最后模型输出大米危害物风险值Y。
本发明方法根据大米危害物风险值Y判断大米质量安全情况。根据各危害物检测数据与对应综合权重的加权值,可确定危害物对大米质量安全的影响,定位主要危害物。
相对于现有技术,本发明的优点在于:
(1)本发明方法基于群决策模型筛选大米安全风险指标,构建大米安全风险指标评价体系,在保证少数服从多数的前提下,有效避免群决策中对“无效信息”的放大和对“有效信息”的缩小,以更客观的方式有效兼顾了全部专家的意见;本发明方法充分考虑到专家知识水平、经验和对大米危害物指标的熟悉程度各不相同,以更加客观的方式构建大米安全风险评估指标体系。
(2)本发明方法提出了一种基于融合算法构建,综合考虑到各算法观测数据的角度与原理的差异,基于Stacking集成学习策略,对差异化算法取长补短,通过大米安全风险评估模型BXGB-BLGB-GLSTM可快速准确地分析大米危害物风险值,为监管部门评估决策提供科学有效的依据。
(3)本发明方法通过对危害物检测数据进行预处理,提取有效信息,可以提升大米危害物风险评估模型预测的准确性。
(4)本发明方法解决了现有技术中食品安全风险评估时间长、评估结果准确率低、不能精准定位风险的问题,能有效降低监管成本,提高风险发现与响应处置效率,可为监管部门提供精准高效的决策依据。
附图说明
图1是本发明的大米安全风险评估方法的整体流程示意图;
图2是本发明的混合模型BXGB-BLGB-GLSTM的构架示意图;
图3是本发明实施例使用BXGB-BLGB-GLSTM模型评估结果对比图;
图4是本发明实施例使用XGBoost模型评估结果对比图;
图5是本发明实施例使用LightGBM模型评估结果对比图;
图6是本发明实施例使用LSTM模型评估结果对比图;
图7是本发明实施例使用BP模型评估结果对比图;
图8是本发明实施例使用SVM模型评估结果对比图;
图9是本发明实施例使用KNN模型评估结果对比图。
具体实施方式
下面将结合附图和实例对本发明作进一步的详细说明。
本发明提供的一种基于多机器学习算法融合的大米安全风险评估方法,实现过程和效果验证包括如下五个步骤。下面具体说明各步骤。
步骤一:对获取的大米危害物检测数据进行预处理。
本发明实例以2018年中国除港澳台外的31个省(自治区、直辖市)的大米危害物抽检数据为基础进行实例分析,此数据包含检测省份、检测时间、检测项目及结果等,其中检测项目包含铬、苯并[α] 芘、铅、无机砷,黄曲霉毒素B等;按危害物种类不同分为重金属类危害物、真菌毒素类危害物,污染物类危害物;按检测结果分为具体数值、小于某一具体数据或未检出;结果判定分为合格或不合格,大米危害物检测数据样本如表1所示。
表1大米危害物检测数据样本
Figure BDA0003565697460000031
Figure BDA0003565697460000041
为了提取多元数据中的有效信息,依次对检测数据进行噪声过滤,数据集成与归一化处理。通过对检测数据进行预处理,提取有效信息,以提升评估模型预测的准确性。
(1)噪声过滤。由于危害物检测结果、检测单位与结果判定彼此分离,因此本发明中的噪声指代因单位记录错误造成的统计误差,噪声过滤即删除样本检测结果判定与检测结果不符的数据。
(2)数据集成与归一化处理。由于检测结果格式各异,不利于后续风险评估模型构建,因此统一检测数据格式为浮点型,并利用如公式(1)的梯形隶属度函数标准化统一后的危害物检测结果。
Figure BDA0003565697460000042
其中,x表示某个危害物检测结果,xmax为该危害物的国家标准值,
Figure BDA0003565697460000043
为无风险最大值,C(x)表示对危害物检测结果x标准化后的值。
步骤二:构建大米安全风险评估指标体系。
本发明在构建大米安全指标体系时,基于大米危害物检测数据以及业内权威专家评价数据,选用定性评估方法中较为成熟的层次分析法(Analytic Hierarchy Process,AHP)统计汇总各指标专家打分结果,采用适合高维聚类、对数据分布的适应性较强且聚类效果优秀的谱聚类算法(Spectral Clustering,SC)构造一套基于指标权重分配的群决策赋权模型,以更加客观的方式构建大米安全风险评估指标体系。
考虑到专家知识水平、经验和对大米危害物指标的熟悉程度各不相同,为了结合不同专家的打分特点,本发明基于专家打分结果构建大米安全风险评估指标体系。首先对专家打分结果进行无监督分类,结合适用于高维数据的无监督聚类算法构造一套基于指标权重分配的群决策赋权模型,以更加客观的方式构建大米危害物风险评估指标体系,具体流程如图1所示。首先获取各专家对大米危害物指标的打分结果,然后继续后面步骤。
(1)基于AHP算法计算评估指标权重。在计算指标权重过程中,AHP算法依据危害物种类的不同,层次化需要分析的大米危害物检测项目,并依据专家打分结果构建如公式(2)所示的判断矩阵Ak×k,赋予各危害物指标相应的权值。其中,k为危害物指标个数。
Figure BDA0003565697460000044
其中,判断矩阵中元素aij代表第i个危害物指标与第j个危害物指标对比后,按1~9标度法判定第i个危害物指标的相对影响力大小,且aij满足
Figure BDA0003565697460000051
aij>0,判断矩阵中的元素标度及含义如表2所示。
表2是判断矩阵中的元素标度及含义
a<sub>ij</sub>标度 a<sub>ij</sub>标度的含义
a<sub>ij</sub>=1 第i个危害物指标与第j个危害物指标的影响力相同
a<sub>ij</sub>=3 第i个危害物指标比第j个危害物指标的影响力稍强
a<sub>ij</sub>=5 第i个危害物指标比第j个危害物指标的影响力强
a<sub>ij</sub>=7 第i个危害物指标比第j个危害物指标的影响力强很多
a<sub>ij</sub>=9 第i个危害物指标比第j个危害物指标的影响力强非常多
根据公式(2)可获得每位专家的判断矩阵,对每位专家依据判断矩阵Ak×k计算最大特征根λmax及专家评估指标权重W={w1,w2,...,wk},其中wi表示专家对第i个大米危害物指标的评估权重,如公式(3)~(5)所示。
AW=λmaxW (3)
Figure BDA0003565697460000052
Figure BDA0003565697460000053
利用最大特征根可进行矩阵一致性检测。
设参与评估的专家共m个,则全体专家对各危害物指标的评估权重记为W*,如式(6)所示。
Figure BDA0003565697460000054
式(6)中,wij为经AHP算法求解的第i位专家对第j个指标的评估权重值。上角标T表示转置。
(2)基于SC算法划分专家类别。SC算法是一种基于图论的聚类方法,其主要思想是将高维样本数据看做空间中的一个点,用边将各数据点连接起来,距离较近的两点间边权重较高,距离较远的两点间边权重较低。通过切图,使得切图后各子图内边权重和尽可能大,不同子图之间边权重和尽可能小,从而达到对高维样本数据聚类的目的。
为了提高指标权重的客观性,降低主观误差,本发明结合不同专家的打分特点,采用适合高维聚类、对数据分布的适应性较强且聚类效果优秀的SC算法对专家打分结果进行无监督分类。本发明基于高维指标权重的余弦相似度计算专家相容度并构建相容度矩阵,将专家的相容度作为SC算法的输入,其中余弦相似度l如式(7)所示。
Figure BDA0003565697460000061
式(7)中,Wx,Wy分别代表专家x、y的评估指标权重,k为危害物指标个数。
依据式(7)中相似度计算公式,可得m维向量相容度矩阵L,如式(8)所示。
Figure BDA0003565697460000062
矩阵中元素lxy(x,y=1,2,…m)代表专家x和y的相容度,根据公式(7)计算得到。
在SC算法d分类时,为了达到最优聚类结果,本发明选用如公式(9)所示的CH_score评价聚类效果,通过对比CH_score大小,选取值最大的聚类结果。
Figure BDA0003565697460000063
Figure BDA0003565697460000064
Figure BDA0003565697460000065
其中,BD为专家类别之间协方差矩阵,WD为专家类别内协方差矩阵,tr为矩阵的迹,d为类别个数。设Cq表示类q中所有专家评估结果的集合,cq表示当前类q的聚类中心点, ce表示所有专家评估结果的中心点,mq表示所在类q中包含的专家评估结果的个数。依据谱聚类原理,类别内部数据的协方差越小越好,类别之间的协方差越大越好,这样的 Calinski-Harabaz分数会高,聚类的结果就更好。
(3)计算专家类别间权重。对于专家类别间指标权重的计算,设本发明经SC算法,将 m位专家评估结果分为H类,表示为{h1,h2,...hH},在聚类簇hi(i=1,2,…H)中,类别内专家数量越多、一致性差异越小,则赋予hi相对高的权重值。具体步骤如下:
步骤3.1,构建专家类别间一致性权重差异值。设基于AHP算法得到的第i位专家评估指标权重为Wi、所属类别为hi、且hi中包含
Figure BDA0003565697460000066
个专家评估结果。Wi与其他专家评估指标权重的一致性权重差异值为Di,如式(12)所示,第hi类专家与其它类专家类别间一致性权重差异值为
Figure BDA0003565697460000067
如式(13)所示;
Figure BDA0003565697460000068
Figure BDA0003565697460000069
步骤3.2,构造专家类间权重约束条件。基于对专家数目与一致性差异的综合考虑,得到专家间权重计算模型与约束条件,满足式(14)和(15);
Figure BDA0003565697460000071
Figure BDA0003565697460000072
其中,
Figure BDA0003565697460000073
为专家类别hi的权重。
步骤3.3,计算专家类别间权重系数。经公式计算,可得聚类簇hi的专家类别间权重
Figure BDA0003565697460000074
如式(16)所示。
Figure BDA0003565697460000075
基于专家分类结果,将全部专家类别间权重结果记为β*,如式(17)所示。
Figure BDA0003565697460000076
(4)计算专家类别内权重。本发明同样从专家指标权重入手,对专家评估结果进行一致性检验,剔除未通过一致性检验的指标权重,确定指标合理区间,构建专家类别内权重优化模型,具体实现步骤包括如下:
步骤4.1,确定指标合理区间。设聚类簇hi中包含
Figure BDA0003565697460000077
位专家给出的权重信息,则每个风险指标都存在
Figure BDA0003565697460000078
个权重值,利用
Figure BDA0003565697460000079
个指标权重的密度分布,确定指标合理区间。
对于指标j而言,所有专家能接受的指标取值范围为
Figure BDA00035656974600000710
满足:
Figure BDA00035656974600000711
指标取值的区间长度为r,指标j满足
Figure BDA00035656974600000712
设δ=rj/2,δ为一致性检验标准,若wij的δ领域内不含指标j的其他权重值,则wij为奇异点。
通过遍历指标j的所有权重值,删除所有奇异点后,确定第j个指标合理区间
Figure BDA00035656974600000713
步骤4.2,构建专家类别内权重优化模型。为了最大限度的综合在合理区间内的专家意见,模型中如式(18)的目标函数Obj满足专家类别内权重值
Figure BDA00035656974600000714
与wij的偏差和最小;模型中约束条件为T处于指标合理区间内,且类别内专家的权重值和为1,如式(19)所示。
Figure BDA00035656974600000715
Figure BDA00035656974600000716
基于专家分类结果,将全部专家类别内权重结果记为T*,如式(20)所示。
Figure BDA0003565697460000081
其中,tij为第j个聚类簇内第i个专家评估结果所占的权重。
步骤4.3,加权得出综合指标权重。依据专家类别内权重优化模型计算结果、聚类结果与专家类别间权重计算结果加权,得到各指标的综合权重S={s1,s2,...,sk},如式(21)和(22)所示。
Figure BDA0003565697460000082
Figure BDA0003565697460000083
其中,sij表示加权后的第i位专家对第j个指标的权重,si表示群决策后第i个指标的综合权重。此处
Figure BDA0003565697460000084
是指类别hi内专家i评估结果所占的权重。
步骤4.4,计算大米危害物综合风险值。基于步骤一清洗后的数据C与综合指标权重S 加权,得到低维综合风险值,即大米危害物风险评估模型输出值Y,如式(23)所示。
Y=S×C(x) (23)
其中,C(x)是由标准化的k种危害物检测值组成的向量。将所有种类的危害物检测值乘以对应的综合权重后再求和,即得到最终大米危害物风险值Y。
根据所输出的风险值Y即可检测当前大米的质量安全情况,并可根据标准化的危害物检测值与危害物的综合权重能确定该种危害物对于大米质量安全的影响,从而可定位其中的高风险因素。监管机构可根据所获得的风险值进行反馈,对大米质量安全进行监管,进行重要危害物的检测和处理。
本发明有效避免群决策中对“无效信息”的放大和对“有效信息”的缩小,以更客观的方式有效兼顾了全部专家的意见,进而构建了更加合理和准确的大米危害物指标体系。
步骤三:构建大米危害物风险评估模型。
机器学习算法相比于传统数理模型具有更快的风险识别能力,因此本发明基于机器学习算法构建风险评估模型,同时考虑到单一机器学习算法评估的准确性较低,为进一步提高评估模型的精确度,本发明跳出由单一算法构成的风险评估模型框架,综合集成、分类以及优化算法的优势,通过Stacking(堆叠)模型融合构建了一种基于多机器学习算法融合的大米安全风险评估模型,以实现在分析海量且复杂的数据时,能更快速准确地给消费者提供直观的大米安全风险评估结果。
本发明选用的Stacking模型是一种将多个不同的算法结合在一起的集成模型,以此来提高评估模型整体预测精度。为保证融合模型评估的准确性,在学习器的选择上应保证各学习器具有较好的独立预测能力,因此本发明首先选择泛化能力强的极端梯度提升树XGBoost (Extreme Gradient Boosting)算法与轻量级梯度提升器LightGBM(LightGradient Boosting Machine)算法作为基学习器;为实现算法间信息有效互补,随后选择与基学习器原理相差较大的LSTM(长短期记忆网络)作为元学习器构建融合模型。
为提高模型运行精度、节约人工调参时间,对于超参数较多的树模型,本发明选用贝叶斯优化算法(Bayesian optimization algorithm,BOA)率定XGBoost与LightGBM模型参数;对于训练速度慢的神经网络算法,本发明选用收敛速度快的灰狼优化算法(GreyWolf Optimizer,GWO)对LSTM算法的初始权重、阈值和隐藏层神经元数进行自动寻优,在模型参数优化后,最终形成融合模型BXGB-BLGB-GLSTM的构架,如图2所示。
如图2所示,将步骤一预处理后的数据输入基学习器,在基学习器中分别经XGBoost算法与LightGBM算法进行预测,输出的预测结果与步骤一预处理后的数据一起作为元学习器的输入数据,经元学习器的LSTM算法预测输出大米危害物风险结果Y。本发明的融合模型 BXGB-BLGB-GLSTM实现了上述步骤二中的计算过程。
步骤四:模型实验。
1)划分数据集。首先将步骤一预处理后的数据C(x)作为BXGB-BLGB-GLSTM模型的输入数据,并按照3:1的训练测试比,对数据集进行划分。
2)模型训练。在模型融合中,为避免数据被基学习器重复学习,造成模型过拟合问题,本发明对训练集执行K折交叉验证。K折交叉验证是一种评估泛化性能的统计学方法。在K 折交叉验证中,将数据均分为K个部分,每一个部分为一折,在训练过程中,利用K-1折数据作为训练集进行训练,使用剩余的1折数据作为验证集对模型进行校验。使用K折交叉验证能够使数据充分地利用,避免因数据差异而导致训练集和验证集分布不匀的极端情况出现。
将数据训练集划分成K份大小相等的子训练集,遍历每一个子训练集,使基学习器(XGBoost模型和LightGBM模型)都完成K次训练,每个基学习器训练结束都分别在训练集和测试集上输出结果{x1,x2,...,xk},对于M个基学习器就可以输出M个测试集预测结果,将 M个测试集预测结果与C(x)合并构成元数据集,并经过元学习器(LSTM模型)学习,输出BXGB-BLGB-GLSTM模型的预测结果。
步骤五:模型评估分析与对比。
为更清晰地对比说明本发明模型的实验结果,本发明采用相关系数R2、平均绝对误差 MAE、平均平方误差MSE这3个指标对模型进行评估,各指标计算如式(24)~式(26)。
Figure BDA0003565697460000091
Figure BDA0003565697460000092
Figure BDA0003565697460000101
式(24)~式(26)中,N为样本数据量;yoi、ymi分别代表第i个样本的危害物综合风险值与预测值;
Figure BDA0003565697460000102
分别代表所有样本的综合风险平均值与平均预测值。R2的大小与曲线的拟合程度呈正相关;MAE、MSE为衡量变量精度的重要指标,与模型精度呈负相关。
本发明实施例以2018年中国除港澳台外的31个省的大米危害物检测数据为基础进行实例分析,对获取的大米危害物检测数据按照步骤一的方式完成预处理,并依据筛选流程构建大米危害物风险指标体系,如表3所示。
表3大米危害物风险指标体系
风险指标类别 风险指标
重金属类危害物 铅、镉、铬、总汞、无机砷
真菌毒素类危害物 黄曲霉毒素B1、赭曲霉毒素A、脱氧雪腐镰刀烯醇、玉米赤霉烯酮
污染物类危害物 苯并[α]芘、磷化铝
在指标权重构建方面,本发明共收集有效专家打分问卷50份,部分专家打分问卷结果如表4所示。
表4部分专家打分问卷结果
Figure BDA0003565697460000103
基于表4打分结果结合步骤二计算得出专家综合指标权重,如表5所示。
表5专家综合指标权重
Figure BDA0003565697460000104
Figure BDA0003565697460000111
在大米危害物风险评估模型实验方面,本发明实验环境是i5-6200U CPU,8G RAM的 Win10操作***,代码基于Jupyter Notebook平台通过python3实现。基于此环境配置,将步骤一清洗后的数据C(x)作为风险评估模型输入数据,综合风险值Y作为风险评估模型输出数据,通过模型训练各参数配置结果如表6所示。
表6各模型算法最佳参数配置
Figure BDA0003565697460000112
其中,参数n_estimators与epochs来控制估计量的数量,learning_rate为学习率, max_depth为树模型的最大深度、seed为随机数种子、max_features为最佳***点时考虑的特征数目、min_samples_split为***内部节点需要的最少样例数、subsample为样本采样率、 batch_size为训练1次所选取的样本数、optimizer为模型优化器、activation为激励函数。
基于表6的仿真参数配置,将C(x)输入BXGB-BLGB-GLSTM风险评估模型中,可得出各风险指标综合风险值与预测值的对比曲线,基于BXGB-BLGB-GLSTM模型评估结果对比如图3所示。其中X轴代表样本数目(单位:个),Y轴表示各类危害物的污染程度(单位:%)。其中污染程度大于1(即:Y>1)代表该危害物明显超标;且当Y∈(0,1)时,Y轴数值大小与危害物污染程度呈正相关。
将BXGB-BLGB-GLSTM模型评估结果与经研究证实预测效果较突出的单一模型预测结果进行对比分析,基于XGBoost模型评估结果对比如图4所示,基于LightGBM模型评估结果对比如图5所示,基于LSTM模型评估结果对比如图6所示,基于BP模型评估结果对比如图7所示,基于SVM模型评估结果对比如图8所示,基于KNN模型评估结果对比如图9 所示。
由图3~图9所示的模型对比实验曲线可知,当Y∈(0.2,0.35)时,各种模型的预测值与真实值的重合度较高;而当Y∈(0,0.2)∪(0.35,+∞)时,即各类危害物的污染程度偏低或偏高时,部分模型(如:KNN、SVM,BP)平均拟合效果较差,在污染程度较高(较低)时易出现污染程度被高估(低估)的情况。
为更清晰地对比各模型实验结果,本发明结合R2、MAE、MSE这3个指标对模型进行评估,各算法评估指标参数对比如表7所示。
表7各模型算法评估指标参数对比
模型 R<sup>2</sup> MAE MSE
BXGB-BLGB-GLSTM 0.937165550918625 0.010853262188760 0.000205881888677
XGBoost 0.827113560494595 0.019379027245068 0.000566475670789
LightGBM 0.759188224211823 0.022529495706231 0.000789038241599
LSTM 0.746908638159939 0.021653373041345 0.000829273246528
BP 0.729470385424174 0.024493740457837 0.000886411018260
SVM 0.744607468363948 0.023041551003774 0.000836813205750
KNN 0.739849107809394 0.022235136330000 0.000852404338835
综合对比上述模型,本发明提供的BXGB-BLGB-GLSTM混合模型相比于单一模型算法在预测方面具有更高的准确性以及更强的稳定性,能够直观准确地分析食品安全危害物风险值,可为监管部门评估决策提供科学有效的依据。
以上,仅为本发明最佳实施方案,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于多机器学习算法融合的大米安全风险评估方法,其特征在于,包括以下步骤:
步骤一:获取大米危害物检测数据并进行预处理;
所述预处理包括噪声过滤,数据集成与归一化处理;
预处理后的危害物检测数据包括所有危害物的标准化的检测值;
步骤二:构建大米安全风险评估指标体系;
获取专家对大米危害物指标的评估结果,然后执行:(1)先基于层次分析法AHP计算各专家的评估指标权重,评估指标权重是指对各大米危害物指标的评估权重;(2)再基于谱聚类法SC划分专家类别;(3)计算专家类别间权重以及专家类别内权重;其中,类别内专家数量越多、一致性差异越小,则该专家类别的权重越大;(4)最后确定各危害物指标的综合权重;
对第j个指标,由步骤(1)得到第i位专家对第j个指标的评估权重为wij,由步骤(2)将m位专家的评估结果聚为H类,其中第i位专家划分到类别hi中,hi∈{h1,h2,...hH},由步骤(3)得到类别hi的权重为
Figure FDA0003565697450000011
由步骤(4)得到类别hi内专家i评估结果所占的权重为
Figure FDA0003565697450000012
则加权后得到第i位专家评估结果对第j个指标的权重sij如下:
Figure FDA0003565697450000013
群决策后得到第j个指标的综合权重si如下:
Figure FDA0003565697450000014
将步骤一预处理后的危害物检测数据与综合权重加权,获得大米危害物风险值Y;
根据大米危害物风险值Y判断大米质量安全情况;
根据各危害物检测数据与对应综合权重的加权值,确定危害物对大米质量安全的影响;
步骤三:采用多机器学习算法融合构建大米危害物风险评估模型;
大米危害物风险评估模型选取XGBoost与LightGBM两种机器学习算法组成基学习器,选取长短期记忆网络LSTM作为元学习器;将预处理后的危害物检测数据输入大米危害物风险评估模型,基学习器中的两种机器学习算法的输出与预处理后的危害物检测数据一起再输入元学习器,最后模型输出大米危害物风险值Y。
2.根据权利要求1所述的方法,其特征在于,所述的步骤一中,噪声过滤是指删除样本检测结果判定与检测结果不符的数据;数据集成与归一化处理是指,统一检测数据格式为浮点型,并利用梯形隶属度函数标准化统一后的危害物检测结果。
3.根据权利要求2所述的方法,其特征在于,所述的步骤一中,利用如下函数标准化统一数据格式后的危害物检测结果;
Figure FDA0003565697450000021
其中,C(x)表示对危害物检测结果x标准化后的值,xmax为该危害物的国家标准值,xmin为无风险最大值,
Figure FDA0003565697450000022
4.根据权利要求1所述的方法,其特征在于,所述的步骤二中,在基于AHP计算指标的评估权重时,依据专家打分结果构建对大米危害物指标的判断矩阵,判断矩阵的行和列对应大米危害物指标,矩阵元素代表两个危害物指标的相对影响力大小。
5.根据权利要求1所述的方法,其特征在于,所述的步骤二中,基于SC算法划分专家类别时,包括:首先,基于专家对大米危害物指标的评估权重计算相容度矩阵,矩阵中元素代表两专家相容度,相容度通过计算指标中的余弦相似度得到;其次,将相容度矩阵输入SC算法,利用CH指标评价聚类效果,选取聚类效果最好的分类结果。
6.根据权利要求1所述的方法,其特征在于,所述的步骤二中,计算专家类别间权重的方法包括:
步骤3.1,构建专家类别间一致性权重差异值;
设第i位专家的评估指标权重为Wi,所属专家类别为hi,类别hi中包含
Figure FDA00035656974500000210
个专家评估结果;则计算第i位专家与其他专家评估指标权重的一致性权重差异值Di如下:
Figure FDA0003565697450000023
其中,Wi为第j位专家的评估指标权重,Wi={wi1,wi2,...,wik};
则第hi类专家与其它专家类别间的一致性权重差异值
Figure FDA0003565697450000024
计算如下:
Figure FDA0003565697450000025
步骤3.2,构造专家类间的权重约束条件如下:
Figure FDA0003565697450000026
Figure FDA0003565697450000027
其中,
Figure FDA0003565697450000028
为专家类别hi的权重;
步骤3.3,计算专家类别间权重如下:
Figure FDA0003565697450000029
7.根据权利要求1所述的方法,其特征在于,所述的步骤二中,计算专家类别内权重的方法如下:
步骤4.1,确定指标合理区间;
对第j个危害物指标,所有专家能接受的指标取值范围为
Figure FDA0003565697450000031
其中:
Figure FDA0003565697450000032
指标j取值的区间长度
Figure FDA0003565697450000033
设一致性检验标准δ=rj/2,若wij的δ领域内不含指标j的其他权重值,则wij为奇异点;
遍历指标j的所有权重值,删除所有奇异点后,确定第j个指标的合理区间
Figure FDA0003565697450000034
步骤4.2,构建专家类别内权重优化模型;
设专家类别hi中包含
Figure FDA0003565697450000035
位专家的评估指标权重,则模型的目标函数Obj满足专家类别内权重值
Figure FDA0003565697450000036
与wij的偏差和最小,如下:
Figure FDA0003565697450000037
Figure FDA0003565697450000038
其中,ti表示类别hi内第i位专家评估结果所占的权重。
8.根据权利要求1所述的方法,其特征在于,所述的步骤三中,选用贝叶斯优化算法BOA率定XGBoost与LightGBM模型参数;选用灰狼优化算法GWO对LSTM的初始权重、阈值和隐藏层神经元数进行自动寻优;最终获得融合模型BXGB-BLGB-GLSTM作为大米危害物风险评估模型。
9.根据权利要求1或8所述的方法,其特征在于,所述的步骤三中,对大米危害物风险评估模型进行训练,包括:
(1)将采集的危害物检测数据按照3:1的比例划分为训练集和测试集;对
(2)将训练集划分成大小相等的K份子训练集,对训练集执行K折交叉验证,对大米危害物风险评估模型完成K次训练。
CN202210306564.2A 2022-03-25 2022-03-25 一种基于多机器学习算法融合的大米安全风险评估方法 Active CN114764682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210306564.2A CN114764682B (zh) 2022-03-25 2022-03-25 一种基于多机器学习算法融合的大米安全风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210306564.2A CN114764682B (zh) 2022-03-25 2022-03-25 一种基于多机器学习算法融合的大米安全风险评估方法

Publications (2)

Publication Number Publication Date
CN114764682A true CN114764682A (zh) 2022-07-19
CN114764682B CN114764682B (zh) 2023-04-07

Family

ID=82364952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210306564.2A Active CN114764682B (zh) 2022-03-25 2022-03-25 一种基于多机器学习算法融合的大米安全风险评估方法

Country Status (1)

Country Link
CN (1) CN114764682B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758888A (zh) * 2022-11-17 2023-03-07 厦门智康力奇数字科技有限公司 一种基于多机器学习算法融合的农产品安全风险评估方法
CN116739617A (zh) * 2023-06-08 2023-09-12 中国标准化研究院 一种基于数据分析的食品相关产品风险管理***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014092230A1 (ko) * 2012-12-13 2014-06-19 대한민국 (식품의약품안전청장) 위해예측기반 수입식품검사 시스템 및 방법
CN111461576A (zh) * 2020-04-27 2020-07-28 宁波市食品检验检测研究院 一种食品中化学危害物安全风险模糊综合评价方法
CN111582718A (zh) * 2020-05-08 2020-08-25 国网安徽省电力有限公司电力科学研究院 基于网络层次分析法的电缆通道火灾风险评估方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014092230A1 (ko) * 2012-12-13 2014-06-19 대한민국 (식품의약품안전청장) 위해예측기반 수입식품검사 시스템 및 방법
CN111461576A (zh) * 2020-04-27 2020-07-28 宁波市食品检验检测研究院 一种食品中化学危害物安全风险模糊综合评价方法
CN111582718A (zh) * 2020-05-08 2020-08-25 国网安徽省电力有限公司电力科学研究院 基于网络层次分析法的电缆通道火灾风险评估方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
程加迁等: "蔬菜水果重金属膳食暴露评估中风险权重的确定方法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115758888A (zh) * 2022-11-17 2023-03-07 厦门智康力奇数字科技有限公司 一种基于多机器学习算法融合的农产品安全风险评估方法
CN115758888B (zh) * 2022-11-17 2024-04-23 厦门智康力奇数字科技有限公司 一种基于多机器学习算法融合的农产品安全风险评估方法
CN116739617A (zh) * 2023-06-08 2023-09-12 中国标准化研究院 一种基于数据分析的食品相关产品风险管理***及方法

Also Published As

Publication number Publication date
CN114764682B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN114764682B (zh) 一种基于多机器学习算法融合的大米安全风险评估方法
CN111461576A (zh) 一种食品中化学危害物安全风险模糊综合评价方法
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及***
CN112613536B (zh) 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN113191926B (zh) 基于深度集成学习网络的粮油农作物供应链危害物辨识方法及***
CN107704883A (zh) 一种菱镁矿矿石的品级的分类方法及***
CN115602337A (zh) 一种基于机器学习的刺激隐核虫疾病预警方法及***
CN111476274A (zh) 一种大数据预测分析的方法、***、装置及存储介质
CN115221973A (zh) 一种基于增强加权异质集成学习的航空轴承故障诊断方法
CN112182152A (zh) 基于深度学习的新浪微博用户情感影响力分析方法
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN112766739B (zh) 一种基于bwm-e模型的肉制品中重金属污染评价方法
CN117370766A (zh) 一种基于深度学习的卫星任务规划方案评估方法
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
CN112151185A (zh) 一种儿童呼吸疾病与环境数据关联分析方法及***
CN116502887A (zh) 基于无监督聚类和极限学习机的大米加工链风险评价方法
CN110659996A (zh) 基于机器学习的股票投资风险预警***及方法
CN106778252A (zh) 基于粗糙集理论与waode算法的入侵检测方法
CN114626594A (zh) 一种基于聚类分析和深度学习的中长期电量预测方法
CN112733903B (zh) 基于svm-rf-dt组合的空气质量监测与告警方法、***、装置和介质
CN113205274A (zh) 一种施工质量定量化排名方法
CN113837913A (zh) 一种村镇耕地资源承载力关键阈值确定方法及装置
Sun Multiple criteria decision analysis techniques in aircraft design and evaluation processes
CN110928924A (zh) 基于神经网络的电力***客户满意度分析与预测方法
CN111062118A (zh) 一种基于神经网络预测分层的多层软测量建模***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant