CN115186776B

CN115186776B - 一种红宝石产地分类的方法、装置及存储介质

Info

Publication number: CN115186776B
Application number: CN202211107096.2A
Authority: CN
Inventors: 宁珮莹; 张天阳; 唐娜; 丁汀; 黎辉煌; 蒙彩珍
Original assignee: Guo Jian Center Shenzhen Jewelry Inspection Laboratory Co ltd
Current assignee: Guo Jian Center Shenzhen Jewelry Inspection Laboratory Co ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-13
Anticipated expiration: 2042-09-13
Also published as: CN115186776A

Abstract

本发明公开了一种红宝石产地分类的方法、装置及存储介质，方法包括：获取训练样本数据生成训练集；在训练集中随机选择若干个样本特征生成若干个特征集；根据若干个特征集生成若干个决策树；获取待测样本的特征数据，将特征数据输入到若干个决策树，以使每个决策树输出的一个产地预测结果，在所有决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果；根据粗分类结果，将待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果；根据待测样本的特征数据，分别计算N个感知机的损失函数，选择损失函数值最小的感知机输出的产地判断结果作为产地分类结果，提高了红宝石产地分类方法的精度。

Description

一种红宝石产地分类的方法、装置及存储介质

技术领域

本发明涉及红宝石产地鉴定技术领域，尤其涉及一种红宝石产地分类的方法、装置及存储介质。

背景技术

红宝石为颜色呈红色的刚玉。属于刚玉族矿物，主要成分是三氧化二铝，可含有微量杂质元素钒、铬、铁和钛等。红宝石颜色成分中含铬而呈红到粉红色，含量越高颜色越鲜艳。红宝石主要产出国包括缅甸、莫桑比克、泰国、斯里兰卡、马达加斯加、越南、坦桑尼亚等。由于产地不同的红宝石溢价明显，红宝石产地鉴定方法的市场需求较为强烈，目前主要手段是在宝石专家的参与下，利用红宝石的宏观表征进行产地鉴定存在成本高、产地鉴定过程可重复性低、准确率低精确性不足等缺点；利用光谱学特征鉴定方法，有特征重叠，特性不明显等缺点；人工智能在珠宝鉴定行业中的现有技术的应用仍处于原始阶段，智能化程度非常低，仅仅为简单的数学线性判别、归一处理等，深度有待于进一步提升；无损检测红宝石化学成分数据通常为无红宝石标准样品测试法，数据无法溯源，同时极大可能存在基体效应数据不稳定技术弊端，因此获得的数据定量化程度低，准确率低，误差高；只对个别产地的个别样品做研究，缺乏齐全产地、自主分析的数据库支撑，精确性低，产地误判风险大。

发明内容

本发明提供了一种红宝石产地分类的方法、装置及存储介质，利用历史鉴定数据库的定量化检测和鉴定和人工智能算法的分类计算实现提高红宝石产地分类方法的精度的效果。

为了提高红宝石产地分类方法的精确度，本发明实施例提供了一种红宝石产地分类的方法，包括：获取训练样本数据生成训练集，其中，所述训练样本数据包括红宝石训练样本、对应的产地分类信息和对应的无损定量曲线，所述红宝石训练样本以对应的特征化学元素作为样本特征；在所述训练集中随机选择若干个所述样本特征生成一个特征集，重复若干次随机选择操作，获得若干个特征集，其中，所述特征集包括所述样本特征和所述产地分类信息；根据若干个所述特征集生成若干个决策树；

获取待测样本的特征数据，将所述特征数据输入到若干个所述决策树，以使每个所述决策树输出的一个产地预测结果，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，其中，N为正整数；

根据训练集的数据，计算若干个判断不同产地的感知机的损失函数；根据所述损失函数计算对应的感知机的各隐含层的梯度，对各所述隐含层的参数进行梯度下降；根据不同的训练集的数据，更新各个感知机的损失函数和各个感知机的各所述隐含层的梯度直到各个感知机的损失函数收敛；获得若干个判断不同产地的感知机，其中，一个所述感知机对输入数据的一个产地进行判断；

根据所述粗分类结果，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：

将N个待测样本的特征数据输入对应的N个感知机，利用多层全连接神经网络和sigmoid激活函数，结合神经网络反向传播算法链式求导，对所述待测样本是否产自预测产地进行判断，获得N个产地判断结果；根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

作为优选方案，本发明利用训练样本的无损定量曲线作为训练数据，对红宝石成分元素检测的定量化程度高，提高了红宝石成分元素检测准确率和可重复率；基于红宝石成分元素检测，利用随机森林算法进行粗分类，再使用深度神经网络，多层感知机进行细分类，达到红宝石产地分类的目的，通过人工智能算法对红宝石成分元素特征进行筛选和分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

作为优选方案，获取训练样本数据生成训练集，具体为：

获取大量已知产地的红宝石训练样本；将所述红宝石训练样本按产地分类，获得对应的产地分类信息；确定所述红宝石训练样本的特征化学元素，并在无损成分分析仪器中建立对应无损定量曲线，其中，所述特征化学元素包括硅、镁、钾、钙、钛、钒、铬、铁、镓和锌，所述无损定量曲线包括红宝石的微量元素含量、微量元素含量比值和微量元素含量的线性组合；

将所述红宝石训练样本、对应的所述产地分类信息和对应的所述无损定量曲线作为训练样本数据生成训练集，其中，所述红宝石训练样本以对应的特征化学元素作为训练样本的特征。

作为优选方案，本发明对不同矿区所产红宝石的成分元素特征的无损有效采集，保证了红宝石样品的完整性。通过收集不同矿区所产红宝石的成分元素特征，包括微量元素含量及它们的比值及线性组合作为训练数据，建立精确的历史鉴定数据库。使用成分元素特征的无损定量曲线作为训练数据，对红宝石成分元素检测的定量化程度高，提高了红宝石成分元素检测准确率和可重复率，从而提高了红宝石产地分类的精度。

作为优选方案，根据若干个所述特征集生成若干个决策树，具体为：

根据每个决策树的特征，计算基尼指数选择出的特征作为根节点，设置每个所述决策树的非叶节点的节点为决策节点，设置每个所述决策树的叶节点为输出单元，其中，每一个所述决策节点为样本特征以及对应的判断值，每一个所述叶节点对应一个产地预测结果。

作为优选方案，本发明从所有训练集中随机选择若干个特征组成特征集生成决策树，构成若干个随机特征的决策树，决策树的决策节点对样本特征进行逐一判断，最后每个决策树生成一个产地预测结果，通过若干个随机特征组合构成的决策树对预测红宝石的成分元素特征进行判断和筛选，对红宝石的产地进行一个大致的分类。利用随机森林算法通过对预测红宝石的成分元素特征进行判断和筛选，从而进行粗分类的分类方法，提高了红宝石产地分类的精度。

作为优选方案，生成若干个决策树之后，还包括：

在若干个决策树的训练过程中，采用信息增益比或基尼指数评估不纯度减少量的方式，对划分的特征进行选择，具体为：

当采用信息增益比评估不纯度减少量的方式，对划分特征进行选择时，将特征f划分为m个取值区间，使用所述特征对节点的样本集合X进行划分生成m个分支节点，其中，第j 个分支节点包含的样本集合

为所述样本集合X中在所述特征f上取值为第j个取值区间的样本子集；

使用特征f对样本集合X进行划分所带来的信息增益为：

其中，

为X中划分到子集

的样本比例；

为样本集合

的信息增益；

在给定特征f的情况下，使用信息增益最大的分类准则进行特征选择：

当采用基尼指数评估不纯度减少量的方式，对划分特征进行选择时，特征f关于样本集合X的基尼指数为：

其中，

为该节点处当前样本集合属于类别i的样本数占总样本数的比例，在给定特征

的情况下，使用基尼准则进行特征选择：

作为优选方案，在决策树的训练过程中，采用信息增益比或基尼指数评估不纯度减少量的方式，对划分特征进行选择。这种划分特征进行选择应用在节点自动分叉和自适应特征权值的过程中，选择重点的特征作为产地分类判断的分析重点，提高对关键特征对产地分类判断的影响，从而提高红宝石产地分类的精度。

作为优选方案，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，具体为：

将所有的决策树的产地预测结果输入到结合器中进行决策投票，待测样本的特征数据为x，由所有所述决策树构成的随机森林模型为

，其中，

中的k为随机森林模型中决策树的数量，

为随机森林模型

中的第k颗决策树，所述特征数据x在随机森林

的输出为

，所述产地预测结果的类别i的总票数为：

其中，

为对应的决策树j在产地预测结果的类别i上投票的权值；K为随机森林模型中决策树的数量；

选取投票票数由多到少排序的前N个预测产地作为粗分类结果。

作为优选方案，本发明通过若干个随机特征组合构成的决策树对预测红宝石的成分元素特征进行判断和筛选，获得若干个产地预测结果，筛选出数量最多的N个产地，在所有产地中，判断该预测样本属于这N个产地中其中一个。利用随机森林算法通过对预测红宝石的成分元素特征进行判断和筛选，从而进行粗分类的分类方法，提高了红宝石产地分类的精度。

作为优选方案，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：

感知机中的单层全联接为：

其中，f为激活函数，待测样本为x，产地为i；

为待测样本x对应的单层全连接的变换矩阵；

为变换矩阵的第i列；

为x的第i个分量；

神经网络反向传播目标函数为：

其中，x为待测样本，t为期望输出，z为实际输出。

所述感知机的架构如下：

其中，不同隐含层的尺寸分别为：

作为优选方案，本发明通过随机森林算法对对预测红宝石的成分元素特征进行判断和筛选，对红宝石产地进行了一个粗分类，判断预测样本属于N个产地中其中一个，再通过使用深度神经网络和多层感知机进行细分类，确定预测样本最终的产地。通过人工智能算法对红宝石成分元素特征进行特征分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

相应地，本发明还提供一种红宝石产地分类的装置，包括：训练模块、粗分类模块和分类判断模块；

其中，所述训练模块用于获取训练样本数据生成训练集，其中，所述训练样本数据包括红宝石训练样本、对应的产地分类信息和对应的无损定量曲线，所述红宝石训练样本以对应的特征化学元素作为样本特征；在所述训练集中随机选择若干个所述样本特征生成一个特征集，重复若干次随机选择操作，获得若干个特征集，其中，所述特征集包括所述样本特征和所述产地分类信息；根据若干个所述特征集生成若干个决策树；

所述粗分类模块用于获取待测样本的特征数据，将所述特征数据输入到若干个所述决策树，以使每个所述决策树输出的一个产地预测结果，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，其中，N为正整数；

所述分类判断模块用于根据训练集的数据，计算若干个判断不同产地的感知机的损失函数；根据所述损失函数计算对应的感知机的各隐含层的梯度，对各所述隐含层的参数进行梯度下降；根据不同的训练集的数据，更新各个感知机的损失函数和各个感知机的各所述隐含层的梯度直到各个感知机的损失函数收敛；获得若干个判断不同产地的感知机，其中，一个所述感知机对输入数据的一个产地进行判断；根据所述粗分类结果，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：将N个待测样本的特征数据输入对应的N个感知机，利用多层全连接神经网络和sigmoid激活函数，结合神经网络反向传播算法链式求导，对所述待测样本是否产自预测产地进行判断，获得N个产地判断结果；根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

作为优选方案，本发明的红宝石产地分类的装置的训练模块利用训练样本的无损定量曲线作为训练数据，对红宝石成分元素检测的定量化程度高，提高了红宝石成分元素检测准确率和可重复率；粗分类模块基于红宝石成分元素检测，利用随机森林算法进行粗分类，分类判断模块再使用深度神经网络和多层感知机进行细分类，达到红宝石产地分类的目的，通过人工智能算法对红宝石成分元素特征进行筛选和分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

作为优选方案，粗分类模块包括：决策投票单元和分类结果单元；

，其中，

中的k为随机森林模型中决策树的数量，

为随机森林模型

中的第k颗决策树，所述特征数据x在随机森林

的输出为

，所述产地预测结果的类别i的总票数为：

其中，

所述分类结果单元用于选取投票票数由多到少排序的前N个预测产地作为粗分类结果。

作为优选方案，本发明粗分类模块通过若干个随机特征组合构成的决策树对预测红宝石的成分元素特征进行判断和筛选，获得若干个产地预测结果，筛选出数量最多的N个产地，在所有产地中，判断该预测样本属于这N个产地中其中一个。利用随机森林算法通过对预测红宝石的成分元素特征进行判断和筛选，从而进行粗分类的分类方法，提高了红宝石产地分类的精度。

作为优选方案，分类判断模块包括：判断结果单元，具体为：

感知机中的单层全联接为：

其中，f为激活函数，待测样本为x，产地为i；

为待测样本x对应的单层全连接的变换矩阵；

为变换矩阵的第i列；

为x的第i个分量；

神经网络反向传播目标函数为：

其中，x为待测样本，t为期望输出，z为实际输出。

所述感知机的架构如下：

其中，不同隐含层的尺寸分别为：

作为优选方案，本发明通过随机森林算法对对预测红宝石的成分元素特征进行判断和筛选，对红宝石产地进行了一个粗分类，判断预测样本属于N个产地中其中一个，分类判断模块再通过使用深度神经网络和多层感知机进行细分类，确定预测样本最终的产地。通过人工智能算法对红宝石成分元素特征进行特征分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本发明内容所述的一种红宝石产地分类的方法。

附图说明

图1是本发明提供的红宝石产地分类的方法的一种实施例的流程示意图；

图2是本发明提供的红宝石产地分类的装置的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，为本发明实施例提供的一种红宝石产地分类的方法，包括步骤S101-S103：

步骤S101：获取训练样本数据生成训练集，其中，所述训练样本数据包括红宝石训练样本、对应的产地分类信息和对应的无损定量曲线，所述红宝石训练样本以对应的特征化学元素作为样本特征；在所述训练集中随机选择若干个所述样本特征生成一个特征集，重复若干次随机选择操作，获得若干个特征集，其中，所述特征集包括所述样本特征和所述产地分类信息；根据若干个所述特征集生成若干个决策树。

在本实施例中，获取训练样本数据生成训练集，具体为：

在本实施例中，获取659粒红宝石训练样本，总共有9个产地，如下表所示将样品按产地分类：

从已有的9个产地的样品中每个产地选3粒样品，共27粒。从这27粒样品分别提取出十个特征元素定值。确定红宝石训练样本的特征化学元素硅、镁、钾、钙、钛、钒、铬、铁、镓、锌，并在无损成分分析仪器EDXRF中建立对应的10条无损定量曲线，包括红宝石训练样本的微量元素含量、微量元素含量的比值及微量元素含量线性组合，获得训练样本数据。根据红宝石训练样本的10个特征的排列组合，获得红宝石训练样本的100个特征组合。

在本实施例中，在所述训练集中的的100个特征组合随机选择10个样本特征生成一个特征集，重复K次随机选择操作，获得K个特征集，K为正整数，根据K个特征集，构建对应的K个决策树，由K个决策树构建成一个随机森林。

在本实施例中，读取训练样本数据内容，包括数据的个数、微量元素个数、微量元素含量、产地名和编号的映射关系；将对应的训练样本数据打包为构建决策树操作的矩阵类型。

在本实施例中，根据若干个所述特征集生成若干个决策树，具体为：

在本实施例中，生成若干个决策树之后，还包括：

使用特征f对样本集合X进行划分所带来的信息增益为：

其中，

为X中划分到子集

的样本比例；

其中，

的情况下，使用基尼准则进行特征选择：

在本实施例中，在训练每一个决策树时，若决策树的某个叶结点对应的特征数据数量大于设置的最小分叉数，根据训练策略对叶节点进行分叉，其中，最小分叉数为5。根据不同的训练集，对不同的特征采取自适应权值，关键的特征被赋予的权值比其他特征被赋予的权值大。

步骤S102：获取待测样本的特征数据，将所述特征数据输入到若干个所述决策树，以使每个所述决策树输出的一个产地预测结果，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，其中，N为正整数。

在本实施例中，取待测样本数据的个数、微量元素个数和微量元素含量；对于待测样本中的各个特征，将特征按照每一个决策树涉及到的特征数据对每个决策树进行数据分发，运行各个决策树，得到各个决策树的分类结果。

在本实施例中，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，具体为：

，所述特征数据x在随机森林

的输出为

，所述产地预测结果的类别i的总票数为：

其中，

为对应的决策树j在产地预测结果的类别i上投票的权值；

在本实施例中，在K个决策树的产地预测结果中，选取数量由多到少排序的前5个预测产地作为粗分类结果。

步骤S103：根据所述粗分类结果，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果；根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

在本实施例中，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：

将N个待测样本的特征数据输入对应的N个感知机，利用多层全连接神经网络和sigmoid激活函数，结合神经网络反向传播算法链式求导，对所述待测样本是否产自预测产地进行判断，获得N个产地判断结果；

其中，所述感知机中的单层全联接为：

其中，f为激活函数，待测样本为x，产地为i；

神经网络反向传播目标函数为：

其中，x为待测样本，t为期望输出，z为实际输出。

所述感知机的架构如下：

其中，不同隐含层的尺寸分别为：

在本实施例中，根据粗分类结果的5个预测产地，选择对应的5个产地的感知机，将待测数据输入这5个感知机，分别计算5个感知机的损失函数，将损失函数最小的一个感知机对应的产地作为产地判断结果。根据产地编号的映射关系，将上一步得到的产地结果映射为实际的产地名，将产地名写入固定文本文件作为产地文件，检测产地文件的修改记录，若有修改记录，则更新相应字段，显示完成预测。

实施本发明实施例，具有如下效果：

本发明利用训练样本的无损定量曲线作为训练数据，对红宝石成分元素检测的定量化程度高，提高了红宝石成分元素检测准确率和可重复率；基于红宝石成分元素检测，利用随机森林算法进行粗分类，再使用深度神经网络，多层感知机进行细分类，达到红宝石产地分类的目的，通过人工智能算法对红宝石成分元素特征进行筛选和分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

实施例二

请参照图2，为本发明实施例提供的一种红宝石产地分类的装置，包括：训练模块201、粗分类模块202和分类判断模块203；

其中，所述训练模块201用于获取训练样本数据生成训练集，其中，所述训练样本数据包括红宝石训练样本、对应的产地分类信息和对应的无损定量曲线，所述红宝石训练样本以对应的特征化学元素作为样本特征；在所述训练集中随机选择若干个所述样本特征生成一个特征集，重复若干次随机选择操作，获得若干个特征集，其中，所述特征集包括所述样本特征和所述产地分类信息；根据若干个所述特征集生成若干个决策树；

所述粗分类模块202用于获取待测样本的特征数据，将所述特征数据输入到若干个所述决策树，以使每个所述决策树输出的一个产地预测结果，在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，其中，N为正整数；

所述分类判断模块203用于根据所述粗分类结果，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果；根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

在本实施例中，粗分类模块包括：决策投票单元和分类结果单元；

，所述特征数据x在随机森林

的输出为

，所述产地预测结果的类别i的总票数为：

其中，

为对应的决策树j在产地预测结果的类别i上投票的权值；

在本实施例中，分类判断模块包括：感知机计算单元和判断结果单元；

所述感知机计算单元用于根据训练集的数据，计算若干个判断不同产地的感知机的损失函数；根据所述损失函数计算对应的感知机的各隐含层的梯度，对各所述隐含层的参数进行梯度下降；根据不同的训练集的数据，更新各个感知机的损失函数和各个感知机的各所述隐含层的梯度直到各个感知机的损失函数收敛；获得若干个判断不同产地的感知机，其中，一个所述感知机对输入数据的一个产地进行判断；

所述判断结果单元用于将N个待测样本的特征数据输入对应的N个感知机，利用多层全连接神经网络和sigmoid激活函数，结合神经网络反向传播算法链式求导，对所述待测样本是否产自预测产地进行判断，获得N个产地判断结果；

其中，所述感知机中的单层全联接为：

其中，f为激活函数，待测样本为x，产地为i；

神经网络反向传播目标函数为：

其中，x为待测样本，t为期望输出，z为实际输出。

所述感知机的架构如下：

其中，不同隐含层的尺寸分别为：

上述的红宝石产地分类的装置可实施上述方法实施例的红宝石产地分类的方法。上述方法实施例中的可选项也适用于本实施例，这里不再详述。本申请实施例的其余内容可参照上述方法实施例的内容，在本实施例中，不再进行赘述。

实施本发明实施例，具有如下效果：

本发明的红宝石产地分类的装置的训练模块利用训练样本的无损定量曲线作为训练数据，对红宝石成分元素检测的定量化程度高，提高了红宝石成分元素检测准确率和可重复率；粗分类模块基于红宝石成分元素检测，利用随机森林算法进行粗分类，分类判断模块再使用深度神经网络和多层感知机进行细分类，达到红宝石产地分类的目的，通过人工智能算法对红宝石成分元素特征进行筛选和分析，实现红宝石产地自动化判定，从而提高了红宝石产地分类的精度。

实施例三

相应地，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的红宝石产地分类的方法。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据移动终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种红宝石产地分类的方法，其特征在于，包括：

获取训练样本数据生成训练集，其中，所述训练样本数据包括红宝石训练样本、对应的产地分类信息和对应的无损定量曲线，所述红宝石训练样本以对应的特征化学元素作为样本特征；在所述训练集中随机选择若干个所述样本特征生成一个特征集，重复若干次随机选择操作，获得若干个特征集，其中，所述特征集包括所述样本特征和所述产地分类信息；根据若干个所述特征集生成若干个决策树；

根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

2.如权利要求1所述的一种红宝石产地分类的方法，其特征在于，所述获取训练样本数据生成训练集，具体为：

3.如权利要求1所述的一种红宝石产地分类的方法，其特征在于，所述根据若干个所述特征集生成若干个决策树，具体为：

4.如权利要求3所述的一种红宝石产地分类的方法，其特征在于，所述生成若干个决策树之后，还包括：

当采用信息增益比评估不纯度减少量的方式，对划分特征进行选择时，将特征f划分为 m个取值区间，使用所述特征对节点的样本集合X进行划分生成m个分支节点，其中，第j个分支节点包含的样本集合

使用特征f对样本集合X进行划分所带来的信息增益为：

其中，

为X中划分到子集

的样本比例；

为样本集合

的信息增益；

其中，

为该节点处当前样本集合属于类别i的样本数占总样本数的比例，在给定特征f的情况下，使用基尼准则进行特征选择：

。

5.如权利要求3所述的一种红宝石产地分类的方法，其特征在于，所述在所有所述决策树的产地预测结果中，筛选出数量由多到少排序的前N个预测产地作为粗分类结果，具体为：

，其中，

中的k为随机森林模型中决策树的数量，

为随机森林模型

中的第k颗决策树，所述特征数据x在随机森林

的输出为

，所述产地预测结果的类别i的总票数为：

其中，

6.如权利要求1所述的一种红宝石产地分类的方法，其特征在于，所述将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：

感知机中的单层全联接为：

其中，f为激活函数，待测样本为x，产地为i；

为待测样本x对应的单层全连接的变换矩阵；

为变换矩阵的第i列；

为x的第i个分量；

神经网络反向传播目标函数为：

其中，x为待测样本，t为期望输出，z为实际输出；

所述感知机的架构如下：

其中，不同隐含层的尺寸分别为：

。

7.一种红宝石产地分类的装置，其特征在于，包括：训练模块、粗分类模块和分类判断模块；

所述分类判断模块用于根据训练集的数据，计算若干个判断不同产地的感知机的损失函数；根据所述损失函数计算对应的感知机的各隐含层的梯度，对各所述隐含层的参数进行梯度下降；根据不同的训练集的数据，更新各个感知机的损失函数和各个感知机的各所述隐含层的梯度直到各个感知机的损失函数收敛；获得若干个判断不同产地的感知机，其中，一个所述感知机对输入数据的一个产地进行判断；

根据所述粗分类结果，将所述待测样本的特征数据输入对应的N个感知机，获得N个产地判断结果，具体为：将N个待测样本的特征数据输入对应的N个感知机，利用多层全连接神经网络和sigmoid激活函数，结合神经网络反向传播算法链式求导，对所述待测样本是否产自预测产地进行判断，获得N个产地判断结果；根据所述待测样本的特征数据，分别计算N个所述感知机的损失函数，选择所述损失函数的值最小的感知机输出的产地判断结果作为产地分类结果。

8.如权利要求7所述的一种红宝石产地分类的装置，其特征在于，所述粗分类模块包括：决策投票单元和分类结果单元；

所述决策投票单元用于将所有的决策树的产地预测结果输入到结合器中进行决策投票，待测样本的特征数据为x，由所有所述决策树构成的随机森林模型为