CN111242170A - 食品检验检测项目预知方法及装置 - Google Patents

食品检验检测项目预知方法及装置 Download PDF

Info

Publication number
CN111242170A
CN111242170A CN201911415857.9A CN201911415857A CN111242170A CN 111242170 A CN111242170 A CN 111242170A CN 201911415857 A CN201911415857 A CN 201911415857A CN 111242170 A CN111242170 A CN 111242170A
Authority
CN
China
Prior art keywords
food
inspection
sample
name
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911415857.9A
Other languages
English (en)
Other versions
CN111242170B (zh
Inventor
刘芬
林文辉
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201911415857.9A priority Critical patent/CN111242170B/zh
Publication of CN111242170A publication Critical patent/CN111242170A/zh
Application granted granted Critical
Publication of CN111242170B publication Critical patent/CN111242170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开食品检验检测项目预知方法及装置。该方法,包括:获取用户输入的待检测食品名称;利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;将所述数值向量转换成libsvm格式,作为待分类的特征向量;根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。该方法能够根据输入的食品名称,预知食品检验检测项目,速度快、准确性高。

Description

食品检验检测项目预知方法及装置
技术领域
本发明涉及食品安全技术领域,尤其涉及一种食品检验检测项目预知方法及装置。
背景技术
为了确保食品的安全性,需要对不同的食品进行采样,从微生物、生物毒素、农药残留、兽药残留、重金属、食品添加、非法检出物等多个方面,依据检测标准对食品的相关指标进行检测,进而根据评定标准作出是否合格的结果判定。
另一方面,目前食品市场高度繁荣,食品种类多种多样。在确定具体的某种食品适用的检验检测项目及检测标准时,需要反复筛选、比对和排查,甚至在检测工作已经启动后,还会需要补充检测项目。因此,对检验人员的工作经验和知识储备要求比较高,另外,还存在检测辅助工作时间延长,效率低,工作量大,一致性差,甚至准确度低的缺陷。
发明内容
针对现有技术的不足,本发明提供一种食品检验检测项目预知方法及装置,以解决目前确定食品检验检测项目时准确度不高、效率低的问题。
第一方面,本发明提供一种食品检验检测项目预知方法,包括:
获取用户输入的待检测食品名称;
利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
将所述数值向量转换成libsvm格式,作为待分类的特征向量;
根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
进一步地,所述的食品检验检测项目预知方法,还包括建立词库的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
进一步地,所述的食品检验检测项目预知方法,还包括建立线性多分类模型的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
进一步地,所述的食品检验检测项目预知方法,还包括建立检验检测标准体系的步骤:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
进一步地,所述的食品检验检测项目预知方法,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
第二方面,本发明提供一种食品检验检测项目预知装置,包括:
待检测食品名称获取单元,用于:获取用户输入的待检测食品名称;
分词单元,用于:利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
数值向量确定单元,用于:利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
特征向量确定单元,用于:将所述数值向量转换成libsvm格式,作为待分类的特征向量;
食品细类编号确定单元,用于:根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
检验检测项目获取单元,用于:根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
进一步地,所述的食品检验检测项目预知装置,还包括:词库建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
进一步地,所述的食品检验检测项目预知装置,还包括:线性多分类模型建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
进一步地,所述的食品检验检测项目预知装置,还包括:检验检测标准体系建立单元,用于:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
进一步地,所述的食品检验检测项目预知装置,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
本发明提供的食品检验检测项目预知方法及装置,基于食品名称来识别食品所属类别,根据食品检验检测数据构建检验检测标准体系,并构建从食品所属类别到检验检测项目及检定标准的映射关系,从而实现根据输入的食品名称,预知食品检验检测项目的目的。
该方法从食品抽样数据、检验项目数据和食品细类名称及编号出发,经过关联、拼接、汇总、分词及生成特征向量等操作,形成训练样本和测试样本;并建立包括每种食品类别的检验检测标准体系。
基于以上训练样本和测试样本,利用liblinear工具包中的线性SVM模型构建食品名称到食品类别的分类模型。针对获取的食品名称,利用该分类模型确定食品类别,并根据食品类别从检验检测标准体系中查找对应的检验检测标准明细,进而预知食品的检测检测项目,速度快、准确性高。
该食品检验检测项目预知方法及装置应用在生产企业中,便于企业规范生产环节;应用在检测机构中,有利于提升检验检测效率;应用在食品***结构中,有助于提升食品安全标准化管理水平。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明优选实施方式的食品检验检测项目预知方法的流程示意图;
图2是本发明优选实施方式的食品检验检测项目预知装置的组成示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
不同的食物类别有不同的检验依据、评定依据和检验检测项目。本方明实施例的方法建立“食品名称→食品类别→检验检测标准体系→检验检测项目”的知识映射体系,通过食品分类模型,实现食品名称到食品类别的自动关联;并构建食品类别的检验检测标准体系,进而预知检验检测项目。不仅可以规范企业生产、加工、销售食品等各个环节的操作,还能帮助检测机构提高检测效率,助力政府的食品安全标准管理。
如图1所示,本发明实施例的食品检验检测项目预知方法,包括:
步骤S100:获取用户输入的待检测食品名称;
步骤S200:利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
步骤S300:利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
步骤S400:将所述数值向量转换成libsvm格式,作为待分类的特征向量;
步骤S500:根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
步骤S600:根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
进一步地,该实施例的食品检验检测项目预知方法,还包括建立词库的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
进一步地,该实施例的食品检验检测项目预知方法,还包括建立线性多分类模型的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
进一步地,该实施例的食品检验检测项目预知方法,还包括建立检验检测标准体系的步骤:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
进一步地,该实施例的食品检验检测项目预知方法,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
如图2所示,本发明实施例的食品检验检测项目预知装置,包括:
待检测食品名称获取单元10,用于:获取用户输入的待检测食品名称;
分词单元20,用于:利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
数值向量确定单元30,用于:利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
食品细类编号确定单元40,用于:将所述数值向量转换成libsvm格式,作为待分类的特征向量;
特征向量确定单元50,用于:根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
检验检测项目获取单元60,用于:根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
进一步地,该实施例的食品检验检测项目预知装置,还包括:词库建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
进一步地,该实施例的食品检验检测项目预知装置,还包括:线性多分类模型建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
进一步地,该实施例的食品检验检测项目预知装置,还包括:检验检测标准体系建立单元,用于:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
进一步地,该实施例的食品检验检测项目预知装置,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
本发明实施例的食品检验检测项目预知方法及装置,从食品抽样数据(包括食品名称和食品细类名称)、检验项目数据和食品细类名称及编号出发,经过数据预处理、特征构造、格式转换等步骤,获取模型的训练样本、测试样本和食品类别对应的检验检测标准体系。基于以上训练样本和测试样本,利用liblinear工具包中的线性SVM模型构建食品名称到食品类别的分类模型。针对获取的食品名称,利用该分类模型确定食品类别,并根据食品类别从检验检测标准体系中查找对应的检验检测标准明细,进而预知食品的检测检测项目,速度快、准确性高。
具体实施时,从食品***部门数据库中获取食品抽样数据、检验项目数据和食品细类数据,并采用适当的数据结构在本地存储这些数据,以下一步数据利用和开发。
本发明另一个实施例的食品检验检测项目预知方法的实施步骤包括:
(1)数据预处理
(2)特征构造及数据格式转换
(3)分类模型训练、测试、评估
(4)食品类别预测及检验检测项目预知。
(1)数据预处理
为了构建食品名称到食品类别的分类模型,需要从食品抽样数据中获取样品名称以及该样品所属的食品细类,作为建立分类模型的样本数据。每一个样本数据中至少包括食品名称和食品细类这两项基本信息。
进一步地,在构建与食品类别对应的检验检测标准体系时,需将各种食品细类的检验项目名称(通常,包括多项检验项目)、各项检验项目的标准最小允许限、标准最大允许限、标准允许限单位、检验依据、评定依据等,按照食品细类进行汇总,从而在后续查询时提高查询速度。
具体地,汇总后的数据采用以下的数据结构进行组织及存储。从检验项目数据中抽取食品细类ID、检验依据、评定依据字段,回复:包括
1)以预先设定的分隔符(如,空格,如,下划线-)拼接检验项目名称、标准最小允许限、标准最大允许限、标准最小允许限等单位字段,作为新字段检验项目。
2)针对每个食品细类ID,以预先设定的(如,冒号:,如,星号*)分隔符分别将所有的检验依据、评定依据和检验项目进行拼接。
采用这种数据组织方法,可以便于关联食品细类ID和食品细类名称,快速搜索到每种食品细类对应的评定依据、检验依据和检测项目相关信息。(2)特征构造及数据格式转换
2.a)、借助自然语言处理(Natural Language Processing,简称NLP)的分词工具对样本数据中的食品名称进行分词,例如“冰糖雪梨”被分成“冰糖”和“雪梨”2个词;
将全部的样本数据中的食品名称分词后,利用Word2Vec工具形成词库。需要说明的是,word2vec方法可以一次性地统一生成词库和词向量。
和药品名称相似,为了便于口口相传,提高传播力,食品的商品名称通常比较短,目前的分词工具非常适合处理内容量小的文字组合,准确率高,效率高,满足本发明实施例的食品名称分词要求。
尽管词典可以提供更加完善的词汇储备,但设置词典将显著增加搜索空间,显著降低搜索效率。
2.b)、利用Word2Vec方法,通过设置方法中的参数,获得剔除了低频词的词库和每个词对应的数值向量。
删除低频次,包括根据词出现的频次,将低于阈值的词从词库中删掉。如果出现从来没有出现过的食品,就将该食品名称进行分词后,添加频数,保证频数大于最低频次,和其他词放在一起,重新生成词向量。
应该理解为,该词库中的词的内容各不相同,且各词对应的数值向量具有相同的维度,如,维度数记为N。
应该理解为,词库中的词已经做了同义词等效替换。词库的容量大小适当,各词的内容已经充分精简,各词之间的离散度足够。不太理解你这句的意思。
2.c)、针对每个食品名称,遍历其分词后的词列表;
针对任一词,若该词在2.b)步骤中生成的词库中存在,则将该词对应的数值向量提取出来;若没有找到该词,则直接跳过该词,转到词列表中的下一个词。
最终,将词列表中所有词对应的向量的和作为该食品名称的特征向量。
例如,假设“冰糖”和“雪梨”都可以在词库中找到,且“冰糖”对应的数值向量为v1、“雪梨”对应的数值向量为v2,则食品名称“冰糖雪梨”对应的特征向量为v=v1+v2。
2.d)、根据预先建立的食品细类表中食品细类ID和食品细类名称的映射关系,将样本数据中的食品细类名称对应的食品细类ID结合2.c)步骤中食品名称对应的数值向量组合后,构成特征向量,并将特征向量转换成libsvm格式的数据,作为后续分类模型的输入数据。
(3)分类模型训练、测试与评估
样本数据对应的特征向量形成的向量空间表示是高维稀疏数据,因此,适合采用线性分类器进行分类。而liblinear在解决较大规模样本的模型训练和预测上具有效率高的优势,可以用于解决于百万数量级样本的分类,训练速度极快。采用liblinear工具包里的线性svm算法生成食品名称到食品类别的分类模型,效率高,准确性好。模型建立及训练的具体步骤如下:
3.a)、划分样本。
基于得到的libsvm格式的数据,按照4:1的比例划分训练样本和测试样本。
3.b)、分类模型训练、测试与评估
设置分类模型参数,进行模型训练。将训练好的模型用于测试样本,对每个食品名称的食品类别进行预测,并以准确率和召回率作为模型分类效果的评价标准。
经过测试,线性svm分类模型在使用默认参数的情况下,应用于食品名称到食品细类映射问题中,整体准确率可以达到78%。
根据准确率和召回率,多轮次地调整线性svm多分类模型的参数和word2vec方法的参数,直到分类模型的分类效果达到预先设定的分类精度;
将该线性svm多分类模型进行序列化保存。
应该理解为,训练好的分类模型是序列化保存的。具体实施时,序列化保存可以通过编程语言实现。
具体实施时,通过遍历各参数在各自取值范围内的值,来使准确率和召回率均达到较优值。
其中,类别的准确率和召回率的计算公式如下:
准确率=TP/(TP+FP);
召回率=TP/(TP+FN)
假设每个食品类别是正类,则除该食品类别外的其他食品类别为负类。比如,共有3个食品类别A、B、C,将A看做正类时,B和C为负类;将B看做正类时,A和C是负类;而将C看做正类时,A和B是负类。
那么,上式中的TP表示预测结果为正类、实际也为正类的样本数量,FP表示预测为正类、实际为负类的样本数量,FN表示预测结果为负类、实际为正类的样本数量。
记类别_准确率和类别_召回率是每个类别判定的衡量标准。假设预测类别和真实类别相同的个数为TP,预测为某类别的个数是N,真实类别为某类别的个数是M,则该类别的准确率和召回率的计算公式分别为:
类别_准确率=TP/N
类别_召回率=TP/M
而分类模型的分类效果是要考虑所有类别的预测效果的,所以整体准确率是最后的衡量标准。整体准确率=TP/测试样本总数
3.c)、分类模型预测。
加载训练好的模型,输入待分类的食品名称,输出预测类别。
鉴于以上步骤建立的是多分类模型,其输出结果是一个食品名称对应多个食品细类的概率,将概率最大的那个食品细类作为该食品的预测类别。(4)食品类别预测及检验检测项目预知
通过加载训练好的分类模型,获取任一食品的食品名称所属的食品类别进行类别预测,并根据食品所属类别关联食品类别的检验检测标准明细数据,抽取该类别对应的检验依据、评定依据及检验项目(包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位),实现该食品的检验检测项目预知。
具体实施时,通过接口调用的形式,应用构建的线性SVM多分类模型。用户在页面输入食品名称,通过后台运算,可以在前端页面显示该食品名称分词后的结果、该食品所属的食品类别,以及对应的检验检测项目(包括检验项目、检验依据和评定依据)。
综上,该实施例的食品检验检测项目预知方法及装置,具有以下特点:
1)将liblinear工具包应用于食品类别识别领域,实现从食品到食品所属类别的自动分类;
2)建立“食品名称→食品类别→检验检测标准→检验检测项目”的知识映射体系,通过食品分类模型预测的类别,关联食品类别的检验检测标准数据,进而预知该食品的检验检测项目,为构建层次化食品类别体系和检验检测标准体系提供思路,为高风险检验检测项目预知提供理论支持。
3)将自然语言处理理论和工具应用于食品类数据的分析,通过分词工具实现对食品名称的分词,借助word2vec方法构建每个食品名称的数值向量,实现对食品文本类数据向量化的操作。
综上,该实施例的食品检验检测项目预知方法及装置,基于食品名称来识别食品类别,根据食品检验检测数据构建检验检测标准体系,进而预知食品检验检测项目。通过构建食品名称到食品类别的分类模型,实现对食品的自动分类,关联食品类别和检验检测标准明细数据,可预知该食品的检验检测项目。
这对于检测机构而言,从食品名称可直接预知检验检测项目(包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位)、检验依据和评定依据,提高了检验检测效率。对于生产企业而言,便于了解检测标准,进而规范自己的生产环节。对政府而言,也有助于食品安全标准管理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
以上已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (10)

1.一种食品检验检测项目预知方法,其特征在于,包括以下步骤:
获取用户输入的待检测食品名称;
利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
将所述数值向量转换成libsvm格式,作为待分类的特征向量;
根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
2.根据权利要求1所述的食品检验检测项目预知方法,其特征在于,还包括建立词库的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
3.根据权利要求1所述的食品检验检测项目预知方法,其特征在于,还包括建立线性多分类模型的步骤:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
4.根据权利要求1所述的食品检验检测项目预知方法,其特征在于,还包括建立检验检测标准体系的步骤:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
5.根据权利要求1至4中任一项所述的食品检验检测项目预知方法,其特征在于,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
6.一种食品检验检测项目预知装置,其特征在于,包括:
待检测食品名称获取单元,用于:获取用户输入的待检测食品名称;
分词单元,用于:利用预先设定的分词工具,生成所述待检测食品名称对应的词列表;
数值向量确定单元,用于:利用所述词列表,遍历预先设定的词库,确定与所述待检测食品名称对应的数值向量;
特征向量确定单元,用于:将所述数值向量转换成libsvm格式,作为待分类的特征向量;
食品细类编号确定单元,用于:根据所述待分类的特征向量,利用预先确定的线性多分类模型,确定所述待检测食品名称对应的食品细类编号;
检验检测项目获取单元,用于:根据所述食品细类编号,从预先确定的检验检测标准体系中查询得到对应的至少一项检验检测项目。
7.根据权利要求6所述的食品检验检测项目预知装置,其特征在于,还包括:词库建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,对所述样品名称数据进行分词,得到分词后的样品名称分词数据;
对所述样品名称分词数据,利用Word2Vec工具,确定与所述样品名称数据对应的初始词库;
确定所述初始词库中全部的词的出现频率的算术平均值或中值;
将所述词库中,出现频率低于所述算术平均值或中值的词对应的频率调整为所述算术平均值或中值,以得到标准词库。
8.根据权利要求6所述的食品检验检测项目预知装置,其特征在于,还包括:线性多分类模型建立单元,用于:
从获取的食品抽样数据中提取出样品名称数据;
利用分词工具,确定各样品名称的分词列表;
利用Word2Vec工具,确定与所述样品名称数据对应的词库,其中,词库中的每个词对应由一个数值向量;
利用与所述样品名称数据对应的词库,逐一遍历各样品名称的分词列表,确定各样品名称的数值向量;
从获取的食品抽样数据中提取出样品细类数据,并确定各样品细类对应的食品细类编号;
将各样品名称的数值向量和各样品名称对应的食品细类编号组成特征向量,并转换成libsvm格式,选择第一比例数的libsvm格式的特征向量作为训练样本,选择第二比例数的libsvm格式的特征向量作为预测样本;其中,第一比例数与第二比例数之和为1;
步骤A:利用所述训练样本,基于liblinear工具包里的线性svm算法训练线性多分类模型,并将所述线性多分类模型序列化保存;
利用所述预测样本,检测所述序列化保存的线性多分类模型的分类精度,若不满足精度要求,则返回步骤A,继续训练线性多分类模型,直到利用所述预测样本得到的预测的精度满足要求。
9.根据权利要求6所述的食品检验检测项目预知装置,其特征在于,还包括:检验检测标准体系建立单元,用于:
从获取的食品抽样数据中提取出样品细类数据;
获取与各样品细类对应的全部的检验检测项目;
其中,每项所述检验检测项目包括检验项目名称、标准最小允许限、标准最大允许限、标准允许限单位、检验依据和评定依据;
获取与各样品细类对应的食品细类编号集;
确定食品细类编号与检验检测项目之间的映射关系,即确定以食品细类编号为索引的检验检测标准体系。
10.根据权利要求6至9中任一项所述的食品检验检测项目预知装置,其特征在于,
所述检验检测项目的属性值包括标准最小允许限、标准最大允许限、标准允许限单位、检验依据、和/或评定依据。
CN201911415857.9A 2019-12-31 2019-12-31 食品检验检测项目预知方法及装置 Active CN111242170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911415857.9A CN111242170B (zh) 2019-12-31 2019-12-31 食品检验检测项目预知方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911415857.9A CN111242170B (zh) 2019-12-31 2019-12-31 食品检验检测项目预知方法及装置

Publications (2)

Publication Number Publication Date
CN111242170A true CN111242170A (zh) 2020-06-05
CN111242170B CN111242170B (zh) 2023-07-25

Family

ID=70879634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911415857.9A Active CN111242170B (zh) 2019-12-31 2019-12-31 食品检验检测项目预知方法及装置

Country Status (1)

Country Link
CN (1) CN111242170B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330200A (zh) * 2020-11-24 2021-02-05 南通大学 一种提升食品检测效果的信息处理方法和装置
CN113283768A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 食品检测项目提取方法、装置、设备及存储介质
CN115526546A (zh) * 2022-11-08 2022-12-27 成都市食品检验研究院 一种食品企业风险分级智能化管控***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140013219A1 (en) * 2012-07-06 2014-01-09 Canon Kabushiki Kaisha Apparatus and method for generating inspection report(s)
US20160104277A1 (en) * 2013-06-21 2016-04-14 Fujifilm Corporation Packeted drug inspection device and method
CN108596187A (zh) * 2018-03-30 2018-09-28 青岛海尔智能技术研发有限公司 商品纯净度检测方法及展示柜
US20180357531A1 (en) * 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
CN109214829A (zh) * 2018-08-02 2019-01-15 佛山鑫达智汇科技有限公司 食品安全溯源方法和装置
WO2019037197A1 (zh) * 2017-08-25 2019-02-28 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140013219A1 (en) * 2012-07-06 2014-01-09 Canon Kabushiki Kaisha Apparatus and method for generating inspection report(s)
US20160104277A1 (en) * 2013-06-21 2016-04-14 Fujifilm Corporation Packeted drug inspection device and method
US20180357531A1 (en) * 2015-11-27 2018-12-13 Devanathan GIRIDHARI Method for Text Classification and Feature Selection Using Class Vectors and the System Thereof
WO2019037197A1 (zh) * 2017-08-25 2019-02-28 平安科技(深圳)有限公司 主题分类器的训练方法、装置及计算机可读存储介质
CN108596187A (zh) * 2018-03-30 2018-09-28 青岛海尔智能技术研发有限公司 商品纯净度检测方法及展示柜
CN109214829A (zh) * 2018-08-02 2019-01-15 佛山鑫达智汇科技有限公司 食品安全溯源方法和装置
CN110245800A (zh) * 2019-06-19 2019-09-17 南京大学金陵学院 一种基于优化向量空间模型定制商品信息分类标识的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112330200A (zh) * 2020-11-24 2021-02-05 南通大学 一种提升食品检测效果的信息处理方法和装置
CN113283768A (zh) * 2021-06-01 2021-08-20 平安国际智慧城市科技股份有限公司 食品检测项目提取方法、装置、设备及存储介质
CN115526546A (zh) * 2022-11-08 2022-12-27 成都市食品检验研究院 一种食品企业风险分级智能化管控***

Also Published As

Publication number Publication date
CN111242170B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US10755045B2 (en) Automatic human-emulative document analysis enhancements
EP3716165A1 (en) Esg criteria-based enterprise evaluation device and operation method thereof
CN111242170B (zh) 食品检验检测项目预知方法及装置
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
WO2015015826A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
CN107463616B (zh) 一种企业信息分析方法及***
CN105912645A (zh) 一种智能问答方法及装置
Antonio et al. Sentiment analysis for covid-19 in Indonesia on Twitter with TF-IDF featured extraction and stochastic gradient descent
CN116629620B (zh) 一种风险等级确定方法、装置、电子设备及存储介质
Hase Automated content analysis
CN116542800A (zh) 基于云端ai技术的智能化财务报表分析***
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
CN107577738A (zh) 一种通过svm文本挖掘处理数据的fmeca方法
CN112685374A (zh) 日志分类方法、装置及电子设备
CN117828076A (zh) 一种基于传播链路的舆情分级预警方法及***
JPH01188934A (ja) 文書自動分類装置
Garcia de Alford et al. Reducing age bias in machine learning: An algorithmic approach
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Lou Deep learning-based sentiment analysis of movie reviews
CN108021595A (zh) 检验知识库三元组的方法及装置
CN110618980A (zh) 基于法律文本精确匹配和矛盾检测的***及方法
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及***
Hisham et al. An innovative approach for fake news detection using machine learning
CN115310869A (zh) 一种督查事项的联合督查方法、***、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant