CN111522867B

CN111522867B - 配方快速筛选与推荐方法及其

Info

Publication number: CN111522867B
Application number: CN202010210459.XA
Authority: CN
Inventors: 彭莉娟; 吴亚东; 张建军; 吴毅; 薛炜; 杨甜; 周阳; 胡浩
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2023-11-10
Anticipated expiration: 2040-03-23
Also published as: CN111522867A

Abstract

***配方快速筛选与推荐***，包括***配方快速筛选单元和***相似配方推荐单元；***配方快速筛选单元包括基础资源数据库、数据处理模块、Mysql数据库、参数引入模块和可视化分析模块；***相似配方推荐单元包括配方样本数据预处理模块、配方聚类模型建立模块和可视化交互模块；数据预处理模块对配方的成分比例、分子组成、性能数据以及感度数据进行分析预处理；配方聚类模型建立模块确定聚类中心并且获取类簇；可视化交互模块展示被筛选的数据，本发明通过高维多元平行坐标可视交互技术、数据挖掘与可视分析技术，设计并实现了***配方快速筛选与推荐方法及***，同时提供多种方便、灵活的交互方式，便于用户分析和理解数据。

Description

***配方快速筛选与推荐方法及其***

技术领域

本发明涉及含能材料***配方筛选及推荐领域，尤其涉及***配方快速筛选与推荐方法及其***。

背景技术

2016年，我国提出含能材料基因组研究计划(Energy Materials GenomeInitiative，EMGI)，其目标是充分发挥数据库、计算和实验的交叉作用，利用现有的计算机及大数据分析技术，用于发现决定含能材料性能的“基因”，并以此设计、合成新型含能材料，未来含能材料的研发强调通过多学科交叉融合来推动创新，提倡军民技术良***流来促进含能材料的发展。

在***配方筛选以及推荐过程中，会涉及配方的化学性质、热性质、爆轰性质、感度等高维多元数据。在信息可视化领域，关于高维多元数据的处理和可视分析一直是研究热点，在20世纪80年代中期和90年代初期，Inselberg等提出了一种高维多元数据可视化技术，称为平行坐标技术。该项技术是目前可视分析高维多元数据的主流技术。在该方法中，每个高维多元数据对象被映射在互相平行的属性轴上，并根据每条属性的属性值将相邻2个属性轴建立连接关系，边是连接N个数据点的折线。要达到快速，科学地解决***配方快速筛选以及推荐问题，就需要人与计算机能够深度交互，协同处理问题。现有技术中在***配方筛选和推荐过程中，会涉及配方的化学性质、热性质、爆轰性质、感度等高维多元数据，这些高维多元数据多且杂的特点给科研人员造成了巨大的困扰。传统的***配方筛选和推荐方法大多都依赖于数据的直观展示以及研究人员的经验，与可视化以及数据挖掘等方法的结合较少，难以快捷且方便的完成***配方快速筛选与推荐的目标。

为解决上述问题，本申请中提出***配方快速筛选与推荐方法及其***。

发明内容

(一)发明目的

为解决背景技术中存在的现有技术中在***配方筛选和推荐过程中，会涉及配方的化学性质、热性质、爆轰性质、感度等高维多元数据，这些高维多元数据多且杂的特点给科研人员造成了巨大的困扰。传统的***配方筛选和推荐方法大多都依赖于数据的直观展示以及研究人员的经验，与可视化以及数据挖掘等方法的结合较少，难以快捷且方便的完成***配方快速筛选与推荐的目标的技术问题，本发明提出***配方快速筛选与推荐方法及其***，本发明通过高维多元平行坐标可视交互技术、数据挖掘与可视分析技术，设计并实现了***配方快速筛选与推荐方法及***，同时提供多种方便、灵活的交互方式，便于用户分析和理解数据，用以解决配方筛选和推荐的问题。

(二)技术方案

为解决上述问题，本发明提供了***配方快速筛选与推荐***，包括***配方快速筛选单元和***相似配方推荐单元；

***配方快速筛选单元包括基础资源数据库、数据处理模块、Mysql数据库、参数引入模块和可视化分析模块；

基础资源数据库存储***配方的基础参数信息；

数据处理模块对数据清洗、含能知识收集以及数据分割；数据处理模块数据发送至Mysql数据库；

Mysql数据库读取数据后在高维多元平行坐标中展示相应的配方数据；

参数引入模块引入***配方的不同参数；

可视化分析模块分析数据并得到筛选结果；

***相似配方推荐单元包括配方样本数据预处理模块、配方聚类模型建立模块和可视化交互模块；

数据预处理模块对配方的成分比例、分子组成、性能数据以及感度数据进行分析预处理；

配方聚类模型建立模块确定聚类中心并且获取类簇；

可视化交互模块展示被筛选的数据。

优选的，用户可以通过分子式、成分、密度、爆速、爆压、爆热、摩擦感度、撞击感度进行配方筛选，筛选的结果将会呈现在高维多元平行坐标图中。

优选的，数据预处理模块包括规范化数据格式、计算替代数据、归一化数据和随机生成数据。

优选的，配方聚类模型建立模块基于融合密度峰值以及K-Means算法来实现。

优选的，可视化交互模块包括t-SNE、饼图、散点图、平行坐标图和折线图。

优选的，可视化交互模块具备框选、点击和关联操作。

基于***配方快速筛选与推荐***的操作方法，包括以下具体步骤：

S1、对***配方基础资源数据库进行筛选；并对筛选出的数据进行处理；数据处理包括对数据清洗、含能知识收集以及数据分割；并将数据发送至Mysql数据库；

S2、将数据处理完后，存入Mysql数据库中。对数据库中的数据读取之后，即可在高维多元平行坐标中展示相应的配方数据。高维多元平行坐标中轴的数量可以根据配方数据的维度做出相应的更改。

S3、对高维多元平行坐标中进行可视化分析得到筛选出的***配方；包括平行坐标协同交互展示和范围筛选交互展示；

S4、对配方样本数据进行预处理，预处理包括对配方成分比例数据、配方成分分子式数据、配方性能数据以及配方感度数据进行分析；

S5、建立配方聚类模型；

S6、可视化交互模块展示被筛选的数据；保存聚类结果标签，并对含能材料多维度的数据进行展示，帮助用户完成配方聚类标签设置，进而完成相似配方的推荐功能。

优选的，S5中通过融合密度峰值以及K-Means算法来建立聚类模型。

优选的，建立聚类模型包括计算每个点的局部密度ρ_i、计算每个点的距离δ_i、确定聚类中心、获取类簇。

优选的，密度峰值算法将那些具有较大距离且同时具有较大局部密度的点定义为聚类中心；通过使用密度峰值算法，确认配方聚类数目；

将上一步骤中得到的配方聚类数目作为K-Means算法的初始聚类中心数目，然后计算每一个对象到每一个聚类中心的距离，之后便依次比较每一个对象到每一个聚类中心的距离，将对象分配到距离最近的聚类中心的类簇中，直到聚类中心部不再变化或是达到一定的迭代次数后，便可得到相应的聚类结果。

本发明的上述技术方案具有如下有益的技术效果：本发明通过高位平行坐标可视交互技术，提供对***配方高维多元数据的各个属性范围设定的灵活交互方式，用户通过交互选择感兴趣的***配方性能属性分支并设置数值范围，通过多视图展示配方快速筛选的结果。在这基础上，分析和处理多维度的配方数据，融合数据挖掘与可视分析方法，建立配方聚类分类模型，针对不同的聚类结果，提供了丰富的可视化展示与交互方法，用以解决***配方的相似推荐问题。传统的***配方筛选和推荐方法大多都依赖于数据的直观展示以及研究人员的经验，难以快捷且方便的完成研究人员的任务需求。本发明通过高维多元平行坐标可视交互技术、数据挖掘与可视分析技术，设计并实现了***配方快速筛选与推荐方法及***，同时提供多种方便、灵活的交互方式，便于用户分析和理解数据，用以解决配方筛选和推荐的问题。

附图说明

图1为本发明提出的***配方快速筛选与推荐***的整体流程图。

图2为本发明提出的***配方快速筛选与推荐***中***相似配方推荐单元整体流程图。

图3为本发明提出的***配方快速筛选与推荐方法及其***中配方聚类器模型建立流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-3所示，本发明提出的***配方快速筛选与推荐***，包括***配方快速筛选单元和***相似配方推荐单元；

基础资源数据库存储***配方的基础参数信息；

参数引入模块引入***配方的不同参数；

可视化分析模块分析数据并得到筛选结果；

配方聚类模型建立模块确定聚类中心并且获取类簇；

可视化交互模块展示被筛选的数据。

在一个可选的实施例中，用户可以通过分子式、成分、密度、爆速、爆压、爆热、摩擦感度、撞击感度进行配方筛选，筛选的结果将会呈现在高维多元平行坐标图中。

在一个可选的实施例中，数据预处理模块包括规范化数据格式、计算替代数据、归一化数据和随机生成数据。

在一个可选的实施例中，配方聚类模型建立模块基于融合密度峰值以及K-Means算法来实现。

在一个可选的实施例中，可视化交互模块包括t-SNE、饼图、散点图、平行坐标图和折线图。

在一个可选的实施例中，可视化交互模块具备框选、点击和关联操作。

S5、建立配方聚类模型；

在一个可选的实施例中，S5中通过融合密度峰值以及K-Means算法来建立聚类模型。

在一个可选的实施例中，建立聚类模型包括计算每个点的局部密度ρ_i、计算每个点的距离δ_i、确定聚类中心、获取类簇。

在一个可选的实施例中，密度峰值算法将那些具有较大距离且同时具有较大局部密度的点定义为聚类中心；通过使用密度峰值算法，确认配方聚类数目；

本发明中，基于***配方基础资源数据库，利用高维多元数据平行坐标及多视图多维关联可视交互技术，实现含能材料配方快速筛选，进而提升***配方选型的速率；含能材料数据不同于一般的高维多元数据，其数据不仅很难搜集而且其非数值化离散数据并不能很好地适应平行坐标轴，因此本发明中使用了部分测试数据和真实数据，同时对数据进行了一定的处理和筛选，使其能够适应离散数据状态下地多维数据展示。将数据处理完后，存入Mysql数据库中。对数据库中的数据读取之后，即可在高维多元平行坐标中展示相应的配方数据。高维多元平行坐标中轴的数量可以根据配方数据的维度做出相应的更改(扩展或减少)。

高维多元平行坐标可视化技术是一种典型的基于几何的多维可视化技术，它可以在一张视图中清晰地展示所有维度的数据。该技术的主要思想是将N维数据属性空间通过N条等距离的平行轴映射到二维平面上，每个轴线代表代表一个属性维度，轴线上的取值范围从对应属性的最小值到最大值均匀分布，每一条数据可以根据其属性值用线段在N条平行轴上连接起来成N-1条折线段。这N-1条线段与N条坐标轴相交的N个点分别代表了数据点的N维数据。这条代表N维数据的折线可用N-1个线性无关的方程所表示，方程如下：

由公式(1)可以得出：

x_i+1＝m_ix_i+b_i，i＝1，2，......，n-1 (2)

其中，m_i＝k_i+1/k_i表示斜率，b_i＝(a_i+1-m_ia_i)表示在x_ix_i+1平面中x_i+1轴上的截距；

尽管平行坐标可视化技术具备展示所有维度和所有数据的能力，但由于它平等的对待各个维度，从而使多个集合的数据交织在一起。当数据规模较大时，平行坐标中的边数量增多，各边之间形成大量的重叠，造成视觉上的混淆，难以独自完成数据分析和可视化任务；

本发明中采用了多视图协同可视分析技术；多视图协同可视分析是使用多种可视化技术对同一个数据对象进行可视化，并通过交互实现多种技术的融合的多视图并行分析。相比于传统的平行坐标技术，多视图协同可视分析技术可以从更多的角度更直观的展示数据，跨越了单一视图视觉通量限制的问题，使得整个可视分析流程更加具有逻辑性；本文采用采用多视图协同可视分析技术，有效的结合了平行坐标及饼状图和雷达图的优势，不仅支持原始数据的解读，而且可以按要求对数据进行局部展示以及数据信息对比展示；平行坐标可视交互技术支持整体到细节，细节到整体的循环筛选过程。通过交互，选择***配方性能属性分支。对每个性能数据属性，采用相互平行的坐标轴进行表示。对每条***配方，采用一条穿过所有坐标的折线表示。通过平行坐标，便于查看***配方条目在各个性能属性上的分布。通过交互技术，支持方便地切换筛选对象；

用户可以刷取密度、爆速、爆压、爆热、摩擦感度、撞击感度六个坐标轴的任意一个，也可以多个轴同时刷取，通过刷取来限定各个属性的范围。在用户刷取之后，被刷取的范围会高亮显示，再次点击坐标轴下方会取消刷取。同时会更新主成分展示图、详细信息表的数据；用户可以通过分子式、成分、密度、爆速、爆压、爆热、摩擦感度、撞击感度进行配方筛选，筛选的结果将会呈现在高维多元平行坐标图中，同时会显示符合筛选条件的数据条目数，以及筛选的数据中，主要成分的占比情况。

用户在刷取坐标轴或者通过范围筛选之后，如所示，在平行坐标的下方会生成展示具体信息的表格，通过勾选表格前面的勾选框，以雷达图的形式展示所勾选的配方对比信息。通过范围筛选、主成分展示和对比分析，符合条件的***信息会被快速的从高维多元数据中被筛选出来，这为含能材料研究人员节约了大量时间。

本发明对高维多元平行坐标中进行可视化分析得到筛选出的***配方后基于数据挖掘与可视分析技术的融合，对配方的成分比例、分子组成、性能数据以及感度数据进行分析预处理，结合多种可视交互技术，提出相似配方推荐方法，帮助研究人员发现相似配方。

1、配方样本数据预处理

本发明对四种类别的多维度的含能材料数据进行处理，分别为配方成分比例数据、配方成分分子式数据、配方性能数据以及配方感度数据。

需要对配方成分比例和分子式原始数据的数据格式进行处理，部分处理后数据如表1所示：

表1部分处理后配方成分比例数据

对于配方成分比例，假设样本数据中存在成分C₁，C₂，…，C_n，其中n为成分总数量。可得配方成分比例的属性维度集和C＝{C₁，C₂，…，C_n}，其值则为对应成分在配方中的质量分数。

配方成分分子式则是将集合原子集合A＝{C，H，O，N，Al，F，Cl}内的元素作为其属性维度。配方中每个成分的比例乘以其分子式中各个原子的数量的和作为该配方的分子式属性中各个维度的值。

设爆速为v(m/s)，爆压为p(GPa)，爆热为h(kj/kg)，则配方性能数据的属性维度集合P＝{v，p，h}。因为性能数据不同维度之间的数据范围跨度较大，因此，这里采用离差标准化的方法来对配方性能数据进行归一化处理，以此来解决上述问题。

离差标准化的是一种对原始数据的线性变化，可以让数据落到[0，1]的区间，便于模型对不同单位或量级的指标能够进行比较和加权。其公式如下：

设撞击感度为i(％)，摩擦感度为f(％)，则配方感度数据属性维度集和S＝{i，f}。由于配方感度数据存在着文献记载较少的情况，通过随机生成一组(0，1)区间的测试数据来替代缺失的配方感度数据。

2、配方聚类模型建立方法、

在对配方样本数据进行上述的预处理后，通过融合密度峰值以及K-Means算法来实现一种针对配方的聚类模型建立方法。

下述的点距离均采用欧式距离计算，表示为：

将每一种配方当作一个点，多维属性的值作为其在空间中的坐标位置，以此来完成以下计算。

1、计算每个点的局部密度ρ_i

点的密度就是，以点为中心，以dist_cutoff为半径，画一个小圆圈，数数里面几个点，圆圈中点的个数就是点的局部密度。

其中局部密度ρ_i定义为：

其中dist_cutoff表示截断距离，

2、计算每个点的距离δ_i

高密度点之间的距离δ_i定义为：

3、确定聚类中心

密度峰值算法将那些具有较大距离且同时具有较大局部密度的点定义为聚类中心。

通过使用密度峰值算法，可以完成所求配方数据中类中心数目的搜索，确认配方聚类数目，要得到更精确的聚类结果，还需要使用K-Means算法来进一步计算得出。

4、获取类簇

将上一步骤中得到的配方聚类数目作为K-Means算法的初始聚类中心数目，然后计算每一个对象到每一个聚类中心的距离，之后便依次比较每一个对象到每一个聚类中心的距离，将对象分配到距离最近的聚类中心的类簇中，直到聚类中心部不再变化或是达到一定的迭代次数后，便可得到相应的聚类结果。至此完成配方聚类模型的建立。

3、基于T分布随机近邻嵌入的结果展示优化可视化技术

经过上述步骤后，已经初步得到了配方样本在不同目标下的聚类结果。

然而，对于含能材料配方这种多目标，多维度的数据，很容易出现“拥堵问题”即高纬度数据在低维度下无法得到可信映射，随着维度的增加，点之间的距离分布极不均衡的状况。因此采用t-SNE(t-distributed stochastic neighbor embedding)算法来减轻“拥挤问题”，用于优化聚类模型可视化结果的展示。

4、多样化可视交互技术

通过使用Echarts开源图形库来绘制图形，实现数据可视化，同时将多目标的配方聚类过程以动画的形式进行展示，辅以表格、饼状图、折线图、柱状图以及平行坐标图，并结合框选、点击、关联等可视化交互技术，对含能材料多维度的数据进行展示，帮助用户完成配方聚类标签设置，进而完成相似配方的推荐功能。

针对多目标多维度的配方聚类，只能对其类别进行简单的划分，要能够达到相似配方推荐的目的，还需要用户对聚类结果进行标签设置。相似配方***提供了点击、框选、关联等可视交互手段，来帮助用户完成标签设置。

散点图

点击散点图中的某一个节点。***将会展示出与其一个组别的数据，包含在其他三个不同聚类中的数据与其同类的配方数据，同时也会展示出其点击类别的所属类的一些数据信息，例如：与其同一个类的所有配方的具体配方信息，所属聚类标签信息，该类中主成分含量，原子数量，感度，性能等。通过可视化的方式展示了配方的基础信息。

平行坐标图

平行坐标图非常适合于多维度数据的探索。通过刷选平行坐标图中某条维度的数据，相应的配方信息表格、原子个数折线图、成分比例玫瑰图和感度柱状图都会进行更新，用于展示被刷选的数据。

通过上述交互，研究人员能够对不同目标下不同类别的配方进行多角度的探索，由此对不同类别配方的进行标签设置。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.***配方快速筛选与推荐***，其特征在于，包括***配方快速筛选单元和***相似配方推荐单元；

基础资源数据库存储***配方的基础参数信息；

参数引入模块引入***配方的不同参数；

可视化分析模块分析数据并得到筛选结果；

配方聚类模型建立模块确定聚类中心并且获取类簇；

可视化交互模块展示被筛选的数据；

S2、将数据处理完后，存入Mysql数据库中，对数据库中的数据读取之后，即可在高维多元平行坐标中展示相应的配方数据，高维多元平行坐标中轴的数量可以根据配方数据的维度做出相应的更改；

S5、建立配方聚类模型；

S6、可视化交互模块展示被筛选的数据；保存聚类结果标签，并对含能材料多维度的数据进行展示，帮助用户完成配方聚类标签设置，进而完成相似配方的推荐功能；

S5中通过融合密度峰值以及K-Means算法来建立聚类模型；

建立聚类模型包括计算每个点的局部密度ρ_i、计算每个点的距离δ_i、确定聚类中心、获取类簇；

其中所述配方聚类模型建立方法，包括以下步骤：

点距离均采用欧式距离计算，表示为：

将每一种配方当作一个点，多维属性的值作为其在空间中的坐标位置，以此来完成以下计算；

1、计算每个点的局部密度ρ_i

点的密度以点为中心，以dist_cutoff为半径，画一个小圆圈，数数里面几个点，圆圈中点的个数就是点的局部密度；

其中局部密度ρ_i定义为：

其中dist_cutoff表示截断距离，

2、计算每个点的距离δ_i

高密度点之间的距离δ_i定义为：

3、确定聚类中心

密度峰值算法将那些具有较大距离且同时具有较大局部密度的点定义为聚类中心；通过使用密度峰值算法，确认配方聚类数目；

4、获取类簇

将上一步骤中得到的配方聚类数目作为K-Means算法的初始聚类中心数目，然后计算每一个对象到每一个聚类中心的距离，之后便依次比较每一个对象到每一个聚类中心的距离，将对象分配到距离最近的聚类中心的类簇中，直到聚类中心部不再变化或是达到一定的迭代次数后，便可得到相应的聚类结果；

将多目标的配方聚类过程以动画的形式进行展示，辅以表格、饼状图、折线图、柱状图以及平行坐标图，并结合框选、点击、关联可视化交互技术，对含能材料多维度的数据进行展示，帮助用户完成配方聚类标签设置，进而完成相似配方的推荐功能。

2.根据权利要求1所述的***配方快速筛选与推荐***，其特征在于，用户可以通过分子式、成分、密度、爆速、爆压、爆热、摩擦感度、撞击感度进行配方筛选，筛选的结果将会呈现在高维多元平行坐标图中。

3.根据权利要求1所述的***配方快速筛选与推荐***，其特征在于，数据预处理模块包括规范化数据格式、计算替代数据、归一化数据和随机生成数据。

4.根据权利要求1所述的***配方快速筛选与推荐***，其特征在于，配方聚类模型建立模块基于融合密度峰值以及K-Means算法来实现。

5.根据权利要求1所述的***配方快速筛选与推荐***，其特征在于，可视化交互模块包括t-SNE、饼图、散点图、平行坐标图和折线图。

6.根据权利要求1所述的***配方快速筛选与推荐***，其特征在于，可视化交互模块具备框选、点击和关联操作。