CN113963758A

CN113963758A - 无序材料热力学稳定结构的预测推荐方法、设备、终端

Info

Publication number: CN113963758A
Application number: CN202111357893.1A
Authority: CN
Inventors: 温晓东; 袁晓泽; 周余伟; 杨勇; 李永旺
Original assignee: Shanxi Institute of Coal Chemistry of CAS
Current assignee: Shanxi Institute of Coal Chemistry of CAS
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-01-21

Abstract

本发明属于无序结构材料技术领域，公开了一种无序材料热力学稳定结构的预测推荐方法、设备、终端，采用已有程序产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；采用机器学习中聚类算法对结构进行聚类；从每个聚类结果中推荐得到采用密度泛函理论优化的待优化结构；采用密度泛函理论方法对推荐的结构进行优化；从优化结构的轨迹中准备训练集；训练机器学习势模型；采用训练的机器学习势模型优化没有弛豫的结构；采用多代运行的方式，判断是否达到设置的终止条件；满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。本发明适用于预测和推荐无序材料热力学稳定结构以及晶体结构预测。

Description

无序材料热力学稳定结构的预测推荐方法、设备、终端

技术领域

本发明属于无序结构材料技术领域，尤其涉及一种无序材料热力学稳定结构的预测推荐方法、设备、终端。

背景技术

目前，当两种(或两种以上)原子或离子在晶体结构中占据某种位置时，如果它们相互间的分布是任意的，即它们占据任何一个该种位置的几率都是相同的，则这种结构称为无序结构(disorder structure)。无序结构的种类分为多种形式(包括替代/缺陷/共占据等)。无序结构材料由于其独特的性质在半导体、高温超导体、金属合金、陶瓷和沸石催化剂等领域被广泛应用。研究无序材料的结构对于理解无序材料性质具有非常重要的价值。

实验中可以利用多种手段表征材料的结构，衍射技术可以提供平均长程结构信息，固态核磁共振、拉曼、红外或X射线吸附近边结构等光谱可以提供局部结构相关信息。然而，这种光谱提供的局部结构相关信息通常难以仅凭借实验来解释清楚。这使得分子建模对于深入理解此类***至关重要。超胞近似是处理无序结构最常用的方法之一，通过构建一个大的周期性单元格，在其边界内尽可能地反映无序***的局部结构特性：组成、配位等。目前很多程序(SOD，supercell，enumlib，disorder等)可以实现不同无序状态下(替代/缺陷/共占据)超胞结构模型创建，从而有效减少需要考虑的超胞结构。然而随着超胞尺寸的增加或者在特殊替代/缺陷/共占据情况下，通过这些程序得到的非冗余结构数量仍旧很大，如何从这些非冗余结构中找出热力学稳定的结构是非常重要的问题，当前最常见的做法有以下几种：一是采用随机的方式，随机选择几个结构采用密度泛函理论优化，优化后的结构作为候选结构；二是采用相对廉价的方式(比如经验势函数)计算所有结构的能量，按能量从低到高进行排序，选出前几个结构采用密度泛函理论优化，优化后的结构作为候选结构；三是采用穷举方法，采用密度泛函理论优化所有非冗余结构，然后选择能量最低的结构最为候选结构。目前常见的几种做法要么提供的候选者不可靠(方法一和二)，要么需要高昂的计算资源和时间成本(方法三)。在解释实验谱图信息过程中，有时仅依靠找到的热力学最稳定的结构是不全面的，往往还需要许多能量与热力学最稳定结构能量相近的结构进行统计平均才能得到与实验谱图信息一致的结果。因此从非冗余结构中不仅找出热力学最稳定结构，同时找到许多能量与最稳定结构能量相近的结构是十分有必要的。

通过上述分析，现有技术存在的问题及缺陷为：

(1)随着超胞尺寸的增加或者在特殊替代/缺陷/共占据情况下，通过程序(SOD，supercell，enumlib，disorder等)得到的非冗余结构数量仍旧很大。

(2)现有采用的随机的方式和采用的相对廉价的方式提供的候选者不可靠；现有采用的穷举方法需要高昂的计算资源和时间成本。

(3)在解释实验谱图信息过程中，有时仅依靠找到的热力学最稳定的结构是不全面的，往往还需要许多能量与热力学最稳定结构能量相近的结构进行统计平均才能得到与实验谱图信息一致的结果。

解决以上问题及缺陷的难度为：采用密度泛函理论优化大量非冗余结构时所需要非常大的时间成本和非常多的计算资源。举例而言，BaScO2F中存在O/F共占据情况(O/F:0.667/0.333)。为了得到BaScO2F中O和F最有利的分布构型，当超胞尺寸为2×2×2时，非冗余结构数目为2664，在具有72个核计算机上采用密度泛函理论优化一个单胞原子数目为40结构大约平均需要0.5h，优化2664个结构大约需要55天，商业超算收费按0.10元/核/小时计算，则需要95904元；当超胞尺寸为2×2×3时，非冗余结构数目增至6849807个，则需要更大的时间成本和计算资源。

解决以上问题及缺陷的意义为：极大的节省了时间成本和金钱成本，快速可靠地从众多非冗余结构中提供了无序材料热力学稳定结构的预测推荐，有助于实验上无序材料结构表征的过程，加速了无序材料研发的进程。具体而言，可以将上例BaScO2F 2×2×2超胞中采用密度泛函理论优化2664个结构所需55天的时间成本和95904元的金钱成本降低到仅需要采用密度泛函理论优化29个结构所需7天的时间成本和209元的金钱成本。

发明内容

针对现有技术存在的问题，本发明提供了一种无序材料热力学稳定结构的预测推荐方法、设备、终端。

本发明是这样实现的，一种无序材料热力学稳定结构的预测推荐方法，所述无序材料热力学稳定结构的预测推荐方法包括以下步骤：

步骤一，采用已有程序(如supercell程序)产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；利用对称性去除了大量对称性等价的结构，极大的减少了需要考虑的构型数量，可以快速得到指定替代/缺陷/共占据状态下的所有非冗余结构，为后续步骤提供了一个总的结构集。

步骤二，采用机器学习中聚类算法对结构进行聚类；聚类可以有效实现差异性采样，既可以保证推荐结果的多样性，又可以使训练集覆盖更丰富的采样空间，提高模型预测能力。

步骤三，从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；兼顾能量和多样性的推荐原则极大提高了推荐的候选结构成为无序材料热力学稳定结构的预测推荐概率。

步骤四，采用密度泛函理论方法对推荐的结构进行优化；采用密度泛函理论优化结构既可以使构型更加合理，向势能面低能区域靠近，又可以为机器学习势模型建立在线提供训练集。

步骤五，从优化结构的轨迹中准备训练集；采用优化轨迹准备训练集可以有效捕获结构优化过程中的信息，使训练的模型更加适用于后续采用机器学习势进行结构弛豫。

步骤六，训练机器学习势模型；采用集成的方法可以有效提高模型的准确性和健壮性，训练好的机器学习势模型可以替代高精度的密度泛函理论计算结构的能量和力，从而极大节省了时间，降低了计算成本。

步骤七，采用训练的机器学习势模型优化没有弛豫的结构；采用训练好的机器学习势模型优化没有弛豫的结构可以使构型更加合理，朝着势能面的低能区域靠近，提高了构型成为局部最小值的概率。

步骤八，采用多代运行的方式，判断是否达到设置的终止条件，如果没有，重复步骤二至步骤八，直至满足终止条件；多代运行的方式可以不断增加训练集，更新机器学习模型，使模型预测能力不断提高，有效提升预测和推荐能力。

步骤九，满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。不仅有效的提升了发现热力学最稳定结构的几率，而且有效的提供了一批能量与热力学最稳定结构相近的结构。

进一步，步骤二中，所述采用机器学习中聚类算法对结构进行聚类，包括：

设置聚类数目，聚类过程中将每个结构转化为特征矢量作为聚类的输入，晶体结构采用原子中心对称函数ACSFs转换为特征矢量；原子中心对称函数包含径向和角函数两部分，描述原子i径向环境的径向对称函数G2为

函数G2是一个高斯函数乘以截止函数的求和。高斯函数的宽度用参数η来定义，高斯函数的中心通过参数R_s移动到一定的径向距离，移动的G2函数适用于描述参考原子周围的球壳，截断函数采用如下形式：

其中，R_ij是原子i与原子j的距离，如果R_ij大于截断半径R_c，截断函数和它的导数值为零；中心原子i的角函数是角

的余弦函数的求和，表达式为：

其中，λ的值是+1或1，角度分辨率由参数ζ提供；ζ值越大，非零对称函数值的范围就越窄，故使用一组带有不同ζ值的角函数来获得以每个参考原子为中心的角的分布；角分布通过选择适当的η和R_c确定，用于控制径向部分；通过设置不同的参数值，即可用一系列函数G2和G4将中心原子的局部环境转化为特征矢量；将相同元素的原子特征矢量相加，得到同一元素的特征矢量，进而将不同元素的特征矢量按顺序拼接得到，通过计算两个结构的特征矢量之间的距离，即可定量描述两个结构的相似性。

进一步，步骤三中，所述优化结构的策略，采用聚类的方式对结构集合进行聚类，根据步骤六训练的机器学习势模型预测每个聚类中结构的能量，并按照能量从低到高进行排序，选择待优化结构时兼顾能量优先和多样性原则。

进一步，步骤五中，所述训练集来源于步骤四中每个结构优化过程中的每一帧结构，同时兼顾选择时前后两帧结构能量差，能量差小于设定值时当前帧结构不加入训练集。

进一步，步骤六中，所述训练机器学习势模型，包括：

采用集成的方式同时训练多个机器学***均值作为预测结果，每个机器学习势模型训练过程中同时训练结构对应的能量和力；其中，所述机器学习势模型采用后向传播神经网络BPNN，其他机器学习势模型同样适用本发明的方法。

进一步，步骤七中，采用训练好的机器学习势模型优化没有弛豫的结构；优化后收敛的结构保存到机器学习势模型优化后收敛的结构集中供步骤九使用；优化后没有收敛的结构作为步骤二聚类结构的来源。

进一步，步骤九中，满足终止条件后，将机器学习势模型优化后收敛的结构集进行按能量排序，推荐出前K个结构采用步骤四更可靠的密度泛函理论方法验证；将验证后的K个结构加入采用密度泛函理论优化的结构集，最终将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选择前N个作为推荐的热力学稳定的结构集。

本发明的另一目的在于提供一种应用所述的无序材料热力学稳定结构的预测推荐方法的无序材料热力学稳定结构的预测推荐***，所述无序材料热力学稳定结构的预测推荐***包括：

非冗余结构确定模块，用于采用已有程序(如supercell程序)产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

结构聚类模块，用于采用机器学习中聚类算法对结构进行聚类；

待优化结构获取模块，用于从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；

推荐结构优化模块，用于采用密度泛函理论方法对推荐的结构进行优化；

训练集获取模块，用于从优化结构的轨迹中准备训练集；

模型训练模块，用于训练机器学习势模型；

未弛豫结构优化模块，用于采用训练的机器学习势模型优化未弛豫的结构；

多代运行模块，用于采用多代运行的方式，判断是否达到设置的终止条件；

结构集推荐模块，用于在满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)采用已有程序(如supercell程序)产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

(2)采用机器学习中聚类算法对结构进行聚类；

(3)从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；

(4)采用密度泛函理论方法对推荐的结构进行优化；

(5)从优化结构的轨迹中准备训练集；

(6)训练机器学习势模型；

(7)采用训练的机器学习势模型优化没有弛豫的结构；

(8)采用多代运行的方式，判断是否达到设置的终止条件，如果没有，重复步骤(2)至步骤(8)，直至满足终止条件；

(9)满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的无序材料热力学稳定结构的预测推荐***。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的无序材料热力学稳定结构的预测推荐方法，以无序结构材料为研究对象，采用目前已有程序(如supercell程序)获得指定替代/缺陷/共占据状态下的所有非冗余结构，基于机器学习以非常小的计算成本和时间成本推荐出这些非冗余结构中热力学稳定的结构集，推荐的热力学稳定结构集中不仅包含热力学最稳定结构，而且包含许多与热力学最稳定结构能量相近的结构，从而为实验提供可靠的理论模型。因此，采用本发明提供的方法，克服了已有无序结构程序(SOD，enumlib，supercell，disorder)存在的缺陷，填补了无序材料这一领域的空白；打破了传统枚举计算所有非冗余结构的做法，改变了需要进行大量密度泛函理论计算的观点，仅需非常小的计算成本和和时间成本就可以找到热力学最稳定的结构，同时还可以预测和推荐许多与热力学最稳定结构能量相近的结构；这一发明既可以作为一种理论表征仪器与实验表征仪器进行协作，快速在线为实验提供候选结构，助力结构表征，也可适应于基于骨架模板修饰发现具有优良功能的材料，具有广阔富有价值的商业应用场景。同时本发明不仅适用于无序结构材料的预测和推荐，还可以通过与采样技术结合适用于更广范围晶体结构预测，用于新材料的发现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的无序材料热力学稳定结构的预测推荐方法流程图。

图2是本发明实施例提供的无序材料热力学稳定结构的预测推荐方法原理图。

图3是本发明实施例提供的无序材料热力学稳定结构的预测推荐***结构示意图；

图中：1、非冗余结构确定模块；2、结构聚类模块；3、待优化结构获取模块；4、推荐结构优化模块；5、训练集获取模块；6、模型训练模块；7、未弛豫结构优化模块；8、多代运行模块；9、结构集推荐模块。

图4是本发明实施例提供的实例BaScO2F(ICSD:150171)2×2×2扩胞后2664个非冗余结构采用VASP优化后结构标记名与能量对应图。

图5是本发明实施例提供的运行代数与每代采用密度泛函理论优化结构能量的关系图。

图6是本发明实施例提供的实例∈-Fe2C 2×2×3超胞结构中10496个非冗余结构采用VASP优化后的总能量和最稳定的结构示意图。

图7是本发明实施例提供的运行代数与每代采用密度泛函理论优化结构能量的关系图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种无序材料热力学稳定结构的预测推荐方法、设备、终端，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的无序材料热力学稳定结构的预测推荐方法包括以下步骤：

S101，采用已有程序(如supercell程序)产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

S102，采用机器学习中聚类算法对结构进行聚类；

S103，从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；

S104，采用密度泛函理论方法对推荐的结构进行优化；

S105，从优化结构的轨迹中准备训练集；

S106，训练机器学习势模型；

S107，采用训练的机器学习势模型优化没有弛豫的结构；

S108，采用多代运行的方式，判断是否达到设置的终止条件，如果没有，重复S102至S108，直至满足终止条件；

S109，满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

本发明实施例提供的无序材料热力学稳定结构的预测推荐方法原理图如图2所示。

如图3所示，本发明实施例提供的无序材料热力学稳定结构的预测推荐***包括：

非冗余结构确定模块1，用于采用已有程序supercell产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

结构聚类模块2，用于采用机器学习中聚类算法对结构进行聚类；

待优化结构获取模块3，用于从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；

推荐结构优化模块4，用于采用密度泛函理论方法对推荐的结构进行优化；

训练集获取模块5，用于从优化结构的轨迹中准备训练集；

模型训练模块6，用于训练机器学习势模型；

未弛豫结构优化模块7，用于采用训练的机器学习势模型优化未弛豫结构；

多代运行模块8，用于采用多代运行的方式，判断是否达到设置的终止条件；

结构集推荐模块9，用于在满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

下面结合具体实施例对本发明的技术方案作进一步描述。

实施例1

本发明实施例提供的无序材料热力学稳定结构的预测推荐方法，包括：

步骤一：采用已有程序(如supercell程序)产生指定替代/缺陷/共占据状态下的所有可能的非冗余结构；

步骤二：采用机器学习中聚类算法对结构进行聚类；

步骤三：从每个聚类结果中推荐出下一步需要采用密度泛函理论优化的结构，推荐原则遵循能量优先和多样性优先；

步骤四：用密度泛函理论方法对推荐的结构进行优化；

步骤五：从优化结构的轨迹中准备训练集；

步骤六：训练机器学习势模型；

步骤七：采用训练的机器学习势模型优化没有弛豫的结构；

步骤八：判断是否达到设置的终止条件，如果没有，重复步骤二至步骤八，直至满足终止条件；

步骤九：满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

本发明实施例提供的步骤二和步骤三中描述的推荐给步骤四待优化结构的策略，采用聚类的方式对结构集合进行聚类，根据步骤六训练的机器学习势模型预测每个聚类中结构的能量，并按照能量从低到高进行排序，选择待优化结构时兼顾能量优先和多样性原则，从而可以保证推荐给步骤四待优化的结构具有更大概率成为热力学稳定的结构。

本发明实施例提供的步骤四采用密度泛函理论优化这种可靠的方法优化步骤三推荐的结构。

本发明实施例提供的步骤五中训练集来源于步骤四中每个结构优化过程中的每一帧结构，同时兼顾选择时前后两帧结构能量差，能量差小于设定值时当前帧结构不加入训练集。

本发明实施例提供的步骤六采用集成的方式同时训练多个机器学***均值作为预测结果，每个机器学习势模型训练过程中同时训练结构对应的能量和力。本例中用机器学习势模型本发明采用BPNN(后向传播神经网络)，但不限于BPNN，其他机器学习势模型同样适用于本方法。

本发明实施例提供的步骤七采用训练好的机器学习势模型优化没有弛豫的结构。优化后收敛的结构可以保存到机器学习势模型优化后收敛的结构集中供步骤九使用；优化后没有收敛的结构作为步骤二聚类结构的来源。

本发明实施例提供的无序材料热力学稳定结构的预测推荐方法，采用多代运行的方式，当不满足步骤八中的终止条件时，重复步骤二至步骤八操作。通过多代运行的方式，一方面可以使得训练样本增加，模型训练更可靠，使得推荐给步骤四待优化的结构有更大概率成为热力学稳定的结构；另一方面机器学习势模型优化的弛豫结构中收敛的结构数目不断增加，极大提高了找到热力学稳定结构的概率。

本发明实施例提供的无序材料热力学稳定结构的预测推荐方法，采用步骤九满足终止条件后将机器学习势模型优化后收敛的结构集进行按能量排序，推荐出前K个结构采用步骤四更可靠的密度泛函理论方法验证，然后将验证后的K个结构加入采用密度泛函理论优化的结构集，最终将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选择前N个作为推荐的热力学稳定的结构集。采用这种推荐方法不仅可以找到热力学最稳定结构，而且可以找到许多能量与热力学最稳定结构能量相近的结构。

实施例2

根据本发明提供的一种无序材料热力学稳定结构的预测推荐方法，采用如下具体技术方案实现的：

步骤一，采用已用程序如supercell程序产生指定替代/缺陷/共占据状态下的所有可能的非冗余结构，此过程中需要指定超胞尺寸。

步骤二，采用机器学习中聚类算法(比如K-means)对结构进行聚类，这里需要聚类的结构对于第一代是指步骤一产生的非冗余结构，对于第二代及以后是指上一代机器学习势模型优化后没有收敛的结构。聚类数目一般设置较小(推荐值为3或5)，聚类过程中需要将每个结构转化为特征矢量作为聚类的输入，晶体结构采用原子中心对称函数(ACSFs)转换为特征矢量。原子中心对称函数包含径向和角函数两部分，描述原子i径向环境的径向对称函数G2为

函数G2是一个高斯函数乘以截止函数的求和。高斯函数的宽度用参数η来定义，高斯函数的中心可以通过参数R_s移动到一定的径向距离，这些移动的G2函数适用于描述参考原子周围的球壳，截断函数采用如下形式：

其中R_ij是原子i与原子j的距离，如果R_ij大于截断半径R_c，截断函数和它的导数值为零。中心原子i的角函数是角

的余弦函数的求和，表达式为：

λ的值可以是+1和1，角度分辨率由参数ζ提供。ζ值越大，非零对称函数值的范围就越窄。因此，可以使用一组带有不同ζ值的角函数来获得以每个参考原子为中心的角的分布。此外，这种角分布可以通过选择适当的η和R_c来确定，它们控制着径向部分。通过设置不同的参数值，就可以用一系列函数G2和G4将中心原子的局部环境转化为特征矢量。进一步如果需要整个结构的特征矢量，可以将相同元素的原子特征矢量相加，得到同一元素的特征矢量，进而将不同元素的特征矢量按顺序拼接得到，通过计算两个结构的特征矢量之间的距离，可以定量描述两个结构的相似性。

步骤三，从步骤二中每个聚类结果中推荐一个结构用于下一步采用密度泛函理论优化。推荐原则兼顾能量优先和多样性优先，第一代由于没有训练机器学习势，采用随机策略，从每个聚类结果中随机选择一个结构。第二代开始，采用已有机器学习势将每个聚类中结构按能量从低到高排序，从能量最低的结构开始选择，同时兼顾选择的结构与目前已采用密度泛函理论优化的结构之间的相似性，相似性计算采用步骤二说明的方法计算，当相似性大于设定值时，选择该结构，否则，选择能量排序第二的结构进行相似性判断，按照此步骤，直到选择出符合要求的结构。

步骤四，采用密度泛函理论方法对步骤三选出的结构进行优化，将优化后的结构保存到采用密度泛函理论优化的结构集中。

步骤五，准备训练集，提取步骤四中每个结构优化过程中每一帧结构(包括其对应的能量和力)，提取每一帧结构时要兼顾能量差异原则，即与上一帧结构能量大于设定值时才将其加入训练集。每代优化结构的优化轨迹按照上述方法提取然后加入到训练集中，随着优化结构数目增多，训练集数量会不断增加，可以设置最大训练集值T，当训练集数量大于设定值T时，对训练集按能量从低到高排序，选择前T结构用于训练。同时保存每代优化优化结构，便于步骤三及分析结果使用。

步骤六，训练机器学***均结果作为最终的预测结果。

步骤七，采用步骤六中训练的机器学习势模型优化没有弛豫的结构。第一代没有弛豫的结构指步骤一产生的结构去除采用密度泛函理论优化后的结构，第二代以后没有弛豫的结构指上一代机器学习势模型优化后没有收敛的结构去除采用当前代采用密度泛函理论优化的结构。机器学习势模型采用BFGS优化原子位置，收敛条件是当结构受力少于受力设定值或者集成BPNN模型预测的能量误差大于设定值。优化结束后，提取优化过程中最后一帧结构，分别保存到机器学习势优化收敛的结构集和当前代机器学习势模型优化未收敛的结构中。其中，机器学习势模型优化收敛的结构用于步骤九最后的采用密度泛函理论进一步验证使用，机器学习势模型优化未收敛的结构用于步骤二聚类使用。

步骤八，判断是否达到设置的终止条件，这里终止条件可以采用两种方式。第一种是判断是否达到设定的代数，如果达到设定代数，程序终止，如果没有达到，跳至步骤二往复循环直至满足终止条件。第二种是判断历史中最好个体存活的代数，如果历史中最好个体存活的代数到达设置的存活代数，程序终止，如果没有达到，跳至步骤二往复循环直至满足终止条件。

步骤九，满足终止条件后，将机器学习势优化后收敛的结构集中的结构按能量从低到高排序，推荐出前K个结构采用步骤四更可靠的密度泛函理论方法验证，然后将验证后的K个结构加入采用密度泛函理论优化的结构集，最终将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选择前N个作为推荐的热力学稳定的结构集。

实施例3

BaScO2F(ICSD:150171)结构中O原子和F原子属于同一位点共占据的，O/F占有率分别为0.667/0.333，单胞中原子数目为5，2×2×2超胞中原子数目为40，对应的非冗余结构数目达到2664个结构。本实例是基于机器学习势从2664个结构中推荐热力学稳定的结构集。

步骤一，采用supercell程序指定2×2×2扩胞方式产生BaScO2F所有可能的组合结构，共735471个结构，然后去除对称性等价的结构后得到非冗余结构，共2664个。

步骤二，采用scikit-learn中K-means算法对结构进行聚类，第一代需要聚类的结构是步骤一中2664个结构，第二代以后需要聚类的结构是指上一代机器学习势优化后没有收敛的结构。聚类数目为3，其中每个结构采用ACSFs转化为特征矢量，作为K-means输入。ACSFs对应的参数G2，G4参数设置如下：g2_etas＝[1]，g2_Rses＝[1，2，3]，g4_etas＝[1]，g4_zetas＝[1，2]，g4_lambdas＝[1，-1]。

步骤三，从每个聚类结果中选择一个结构，推荐给下一步采用密度泛函理论优化。对于第一代，本发明采用随机方式一共选择两个结构作为下一步待优化结构，本例中随机选取的结构是标号为34，259的结构；对于第二代及以后，兼顾能量优先和多样性优先原则从每个聚类结果中各选择一个，共三个待优化结构，会根据上一代机器学习势模型预测的能量对每个聚类结果的结构按能量从低到高排序，选择时从能量最低结构开始选择，同时判断结构与前几代采用密度泛函理论优化的能量最低的m结构之间的相似度进行比较，本例中设置m值为1，相似度设为0.5，相似度计算采用步骤二所描述方法，当相似度小于0.5时，考虑能量排名第二的结构，直到选出符合条件的候选结构。

步骤四，采用VASP软件优化步骤三选出的结构，将优化后的结构保存到采用密度泛函理论优化的结构集中。

步骤五，从优化结构的优化轨迹中制备训练集，第一代两个优化结构优化过程中共存在128帧结构(包含对应的结构的能量和力)，本发明设置能量差异值为0.01eV，前后结构能量差大于设定值才加入训练集，训练集数量为40，训练过程中T设置为20000。

步骤六，采用集成的方式，训练10组BPNN模型，10组训练的平均值作为预测结果。其中ACSFs对应的参数设置为：g2_etas＝[0.05，4，20]，g2_Rses＝[0]，g4_etas＝[0.005]，g4_zetas＝[1，4]，g4_lambdas＝[-1，1]。神经网络采用两个隐含层，每层四十个节点，对应激活函数为tanh函数，训练满足设定的能量收敛标准和力收敛标准后保存训练好的模型参数。

步骤七，采用步骤六中训练的机器学习势模型优化没有弛豫的结构。第一代没有弛豫的结构指步骤一产生的2664个非冗余结构去除步骤三采用密度泛函理论优化的2个结构，共2662个结构，第二代以后没有弛豫的结构指上一代机器学习势模型优化后没有收敛的结构去除采用当前代采用密度泛函理论优化的结构。采用BFGS算法优化原子位置，当受力小于0.05时结构收敛，收敛的结构的最后一帧结构(包括对应的能量和力)保存到机器学习势优化收敛的结构集，未收敛的结构的最后一帧结构(包括对应的能量和力)保存到机器学习势优化后没有收敛的结构中。本例中第一代机器学习势模型优化收敛的结构有13个，没有收敛的结构有2649个，2649个结构提供给下一代步骤二中聚类使用。

步骤八，判断是否达到设置的终止条件，这里终止条件设置本发明采用第一种方式，即设定的运行的代数，本例中本发明设定的代数为6，因此重复步骤二至步骤八，直到满足终止条件。

步骤九，满足终止条件后，从机器学习势优化后收敛的结构集中根据能量从低到高排序，选择出前12个结构推荐给密度泛函理论优化，优化后的结构保存到采用密度泛函理论优化的结构集中，最后将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选出前20个结构作为最终推荐的热力学稳定的结构集。

图4为实例BaScO2F(ICSD:150171)2×2×2扩胞后2664个非冗余结构采用VASP优化后结构标记名与能量对应图。采用密度泛函理论优化2664个结构目的是为了得到一个完备的测试集，从而可以评价本发明的方法是否利用较小的计算代价推荐出可靠的热力学稳定的结构集。

图5是运行代数与每代采用密度泛函理论优化结构能量的关系图。黑色空心球代表每代采用密度泛函理论优化结构的总能量，灰色实心球代表历史中(目前已运行的所有代中)采用密度泛函理论优化结构中能量最低结构的能量。本例中一共运行了六代，***出现的能量最低的结构在第五代和第六代依旧是历史中能量最低的结构。而且该结构就是图4中采用穷举法计算的2664个结构中能量最低的结构，其对应的能量值为-298.1296eV。

表1为实例BaScO2F(ICSD:150171)2×2×2扩胞后2664个非冗余结构采用VASP优化后按能量从低到高得到的排名前20的结构标记名和对应的能量。

表1

表2为本发明的方法在6代运行终止后推荐的前20的结构标记名和对应的能量以及推荐的结构是否出现在表格1中对应的结构中。通过表2，可以表现，本方法推荐的20个结构中有16个出现在表1中，表明本方法可以利用非常少的计算资源和时间代价推荐可靠的无序材料热力学稳定结构的预测推荐集。穷举法需要采用密度泛函理论优化全部2664个结构才能发现热力学最稳定的结构，本方法只需要采用密度泛函理论优化29个结构就可以发现热力学最稳定的结构，同时提供了一批能量与热力学最稳定结构能量相近的结构。

表2

推荐	结构标记名	总能量(eV)	是否在表1
				1	000029	-298.1296	是
2	001840	-298.1036	是
				3	000791	-298.0732	是
4	000210	-298.0698	是
				5	001873	-298.0495	是
6	001789	-298.0490	是
				7	000098	-298.0484	是
8	000095	-298.0477	是
				9	000537	-298.0450	是
10	000444	-298.0438	是
				11	001827	-298.0433	是
12	000794	-298.0429	是
				13	001818	-298.0409	是
14	000046	-298.0408	是
				15	000373	-298.0388	是
16	000211	-298.0379	是
				17	000479	-298.0335	否
18	000475	-298.0324	否
				19	001791	-298.0310	否
20	000230	-298.0305	否

实施例4

为了得到热力学稳定的ε-Fe2C结构，从ε-FeC结构出发通过制造缺陷的方式(去掉体系中一半C原子，缺陷比为0.5)产生ε-Fe2C结构。ε-FeC单胞中原子数目为4，2×2×3超胞中原子数目为48(24个Fe，24个C)，去掉12个C原子后对应的非冗余结构数目达到10496个结构。本示例是基于机器学习势从10496个结构中推荐热力学稳定的结构集。案例来源文章J.Phys.Chem.C 2017，121，39，21390–21396。

步骤一，采用supercell程序指定2×2×3扩胞方式产生ε-Fe2C所有可能的组合结构，共2704156个结构，然后去除对称性等价的结构后得到非冗余结构，共10496个。

步骤二，采用scikit-learn中K-means算法对结构进行聚类，第一代需要聚类的结构是步骤一中10496个结构，第二代以后需要聚类的结构是指上一代机器学习势优化后没有收敛的结构。聚类数目为3，其中每个结构采用ACSFs转化为特征矢量，作为K-means输入。ACSFs对应的参数G2，G4参数设置如下：g2_etas＝[1]，g2_Rses＝[1，2，3]，g4_etas＝[1]，g4_zetas＝[1，2]，g4_lambdas＝[1，-1]。

步骤三，从每个聚类结果中选择一个结构，推荐给下一步采用密度泛函理论优化。对于第一代，本发明采用随机方式一共选择两个结构作为下一步待优化结构，本例中随机选取的结构是标号为0，52的结构；对于第二代及以后，兼顾能量优先和多样性优先原则从每个聚类结果中各选择一个，共三个待优化结构，会根据上一代机器学习势模型预测的能量对每个聚类结果的结构按能量从低到高排序，选择时从能量最低结构开始选择，同时判断结构与前几代采用密度泛函理论优化的能量最低的m结构之间的相似度进行比较，本例中设置m值为1，相似度设为0.5，相似度计算采用步骤二所描述方法，当相似度小于0.5时，考虑能量排名第二的结构，直到选出符合条件的候选结构。

步骤五，从优化结构的优化轨迹中制备训练集，第一代两个优化结构优化过程中共存在74帧结构(包含对应的结构的能量和力)，本发明设置能量差异值为0.01eV，前后结构能量差大于设定值才加入训练集，训练集数量为18，训练过程中T设置为20000。

步骤七，采用步骤六中训练的机器学习势模型优化没有弛豫的结构。第一代没有弛豫的结构指步骤一产生的10496个非冗余结构去除步骤三采用密度泛函理论优化的2个结构，共10494个结构，第二代以后没有弛豫的结构指上一代机器学习势模型优化后没有收敛的结构去除采用当前代采用密度泛函理论优化的结构。采用BFGS算法优化原子位置，当受力小于0.05时结构收敛，收敛的结构的最后一帧结构(包括对应的能量和力)保存到机器学习势优化收敛的结构集，未收敛的结构的最后一帧结构(包括对应的能量和力)保存到机器学习势优化后没有收敛的结构中。本例中第一代机器学习势模型优化收敛的结构有0个，没有收敛的结构有10494个，10494个结构提供给下一代步骤二中聚类使用。

步骤八，判断是否达到设置的终止条件，这里终止条件设置本发明采用第一种方式，即设定的运行的代数，本例中本发明设定的代数为10，因此重复步骤二至步骤八，直到满足终止条件。

步骤九，满足终止条件后，从机器学习势优化后收敛的结构集中根据能量从低到高排序，选择出前21个结构推荐给密度泛函理论优化，优化后的结构保存到采用密度泛函理论优化的结构集中，最后将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选出前16个结构作为最终推荐的热力学稳定的结构集。

图6为实例∈-Fe2C 2×2×3超胞结构中10496个非冗余结构采用VASP优化后的总能量和最稳定的结构。图片来源于文章J.Phys.Chem.C 2017，121，39，21390–21396，文中作者采用密度泛函理论优化10496个结构后得到了热力学最稳定的结构，利用该实例从而可以评价本发明的方法是否利用较小的计算代价推荐出可靠的热力学稳定的结构集。需要说明的是本发明没有采用VASP优化这10496个非冗余结构，而是直接采用原文结果进行比较。在具体实施过程中本发明采用VASP优化结构时与原文作者参数并不是完全一致，在本发明计算参数下图5中所示热力学最稳定的结构的能量为-312.4113eV，比原文中采用的参数计算的能量还低一点，不过这对本发明的结论并没有影响。

图7是运行代数与每代采用密度泛函理论优化结构能量的关系图。黑色空心球代表每代采用密度泛函理论优化结构的总能量，灰色实心球代表历史中(目前已运行的所有代中)采用密度泛函理论优化结构中能量最低结构的能量。本例中一共运行了十代，第八代出现的能量最低构型的能量为-310.7659eV，与目标构型能量-312.4113eV还存在1.64eV的差距，并且在第九代和第十代维持了这个构型。

表3为本发明的方法在10代运行终止后推荐的前16的结构标记名和对应的能量。通过表3，可以表现，本方法推荐的16个结构对应的能量全部位于在图5中低能量区域，而且推荐的第一个结构对应的能量是-312.4113eV，正是10496个非冗余结构中最稳定的结构。表明本方法可以利用非常少的计算资源和时间代价推荐可靠的无序材料热力学稳定结构的预测推荐集。穷举法需要采用密度泛函理论优化全部10496个结构才能发现热力学最稳定的结构，本方法只需要采用密度泛函理论优化50个结构就可以发现热力学最稳定的结构，同时提供了一批能量与热力学最稳定结构能量相近的结构。

表3

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种无序材料热力学稳定结构的预测推荐方法，其特征在于，所述无序材料热力学稳定结构的预测推荐方法包括以下步骤：

步骤一，采用已有程序supercell产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

步骤二，采用机器学习中聚类算法对结构进行聚类；

步骤三，从每个聚类结果中推荐得到需要采用密度泛函理论优化的待优化结构，推荐原则遵循能量优先和多样性优先；

步骤四，采用密度泛函理论方法对推荐的结构进行优化；

步骤五，从优化结构的轨迹中准备训练集；

步骤六，训练机器学习势模型；

步骤七，采用训练的机器学习势模型优化没有弛豫的结构；

步骤八，采用多代运行的方式，判断是否达到设置的终止条件，如果没有，重复步骤二至步骤八，直至满足终止条件；

步骤九，满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集推荐热力学稳定的结构集。

2.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤二中，所述采用机器学习中聚类算法对结构进行聚类，包括：设置聚类数目，聚类过程中将每个结构转化为特征矢量作为聚类的输入，晶体结构采用原子中心对称函数ACSFs转换为特征矢量；原子中心对称函数包含径向和角函数两部分，描述原子i径向环境的径向对称函数G2为

函数G2是一个高斯函数乘以截止函数的求和；高斯函数的宽度用参数η来定义，高斯函数的中心通过参数R_s移动到一定的径向距离，移动的G2函数适用于描述参考原子周围的球壳，截断函数采用如下形式：

的余弦函数的求和，表达式为：

其中，λ的值是+1或1，角度分辨率由参数ζ提供；ζ值越大，非零对称函数值的范围就越窄，故使用一组带有不同ζ值的角函数来获得以每个参考原子为中心的角的分布；角分布通过选择适当的η和R_c确定，用于控制径向部分；通过设置不同的参数值，用一系列函数G2和G4将中心原子的局部环境转化为特征矢量；将相同元素的原子特征矢量相加，得到同一元素的特征矢量，进而将不同元素的特征矢量按顺序拼接得到，通过计算两个结构的特征矢量之间的距离，即可定量描述两个结构的相似性。

3.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤三中，所述优化结构的策略，采用聚类的方式对结构集合进行聚类，根据步骤六训练的机器学习势模型预测每个聚类中结构的能量，并按照能量从低到高进行排序，选择待优化结构时兼顾能量优先和多样性原则。

4.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤五中，所述训练集来源于步骤四中每个结构优化过程中的每一帧结构，同时兼顾选择时前后两帧结构能量差，能量差小于设定值时当前帧结构不加入训练集。

5.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤六中，所述训练机器学***均值作为预测结果，每个机器学习势模型训练过程中同时训练结构对应的能量和力；其中，所述机器学习势模型采用后向传播神经网络BPNN，其他机器学习势模型同样适用无序材料热力学稳定结构的预测推荐方法。

6.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤七中，采用训练好的机器学习势模型优化没有弛豫的结构；优化后收敛的结构保存到机器学习势模型优化后收敛的结构集中供步骤九使用；优化后没有收敛的结构作为步骤二聚类结构的来源。

7.如权利要求1所述无序材料热力学稳定结构的预测推荐方法，其特征在于，步骤九中，满足终止条件后，将机器学习势模型优化后收敛的结构集进行按能量排序，推荐出前K个结构采用步骤四更可靠的密度泛函理论方法验证；将验证后的K个结构加入采用密度泛函理论优化的结构集，最终将采用密度泛函理论优化的结构集中的结构按能量从低到高排序，选择前N个作为推荐的热力学稳定的结构集。

8.一种实施权利要求1～7任意一项所述无序材料热力学稳定结构的预测推荐方法的***，其特征在于，所述无序材料热力学稳定结构的预测推荐***包括：

非冗余结构确定模块，用于采用已用程序supercell产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

训练集获取模块，用于从优化结构的轨迹中准备训练集；

模型训练模块，用于训练机器学习势模型；

结构集推荐模块，用于在满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集预测和推荐热力学稳定的结构集。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

(1)采用已用程序supercell产生指定替代/缺陷/共占据状态下所有可能的非冗余结构；

(2)采用机器学习中聚类算法对结构进行聚类；

(4)采用密度泛函理论方法对推荐的结构进行优化；

(5)从优化结构的轨迹中准备训练集；

(6)训练机器学习势模型；

(7)采用训练的机器学习势模型优化没有弛豫的结构；

(9)满足终止条件后，基于密度泛函理论优化的结构集和机器学习势优化后收敛的结构集预测和推荐热力学稳定的结构集。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求8所述无序材料热力学稳定结构的预测推荐***。