CN116720585B

CN116720585B - 基于自主可控软硬件平台的低功耗ai模型推理优化方法

Info

Publication number: CN116720585B
Application number: CN202311007721.0A
Authority: CN
Inventors: ***; 庄莉; 王秋琳; 徐杰; 宋立华; 吕君玉; 陈锴; 丘志强; 郑耀松
Original assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-12-29
Anticipated expiration: 2043-08-11
Also published as: CN116720585A

Abstract

本发明公开了基于自主可控软硬件平台的低功耗AI模型推理优化方法，具体涉及计算模型领域；是通过采集硬件加速器结合AI模型的能效比、可编辑指数等参数，得到编程能效折衷系数，并评估性能释放调控性能和推理灵活性。满足指导阈值一的硬件加速器纳入扩展演进等级集合，选择优选加速器实现高效且灵活的AI推理。同时，采集实时吞吐量值和能耗值，计算实时推理能效，得到升华系数。升华系数大于等于指导阈值二的硬件加速器纳入扩展演进等级集合，选取性能较好且优化空间大的加速器作为最优加速器，实现高效、灵活的AI推理。综合考虑硬件加速器性能、能效和优化空间，找到最优平衡点，实现高效AI推理。

Description

基于自主可控软硬件平台的低功耗AI模型推理优化方法

技术领域

本发明涉及计算模型领域，更具体地说，本发明涉及基于自主可控软硬件平台的低功耗AI模型推理优化方法。

背景技术

低功耗AI模型推理是指在人工智能应用中，通过优化模型的计算任务，以降低其能耗。模型推理是指将已经经过训练的AI模型应用于新的输入数据，进行实际预测或推断的过程。在资源有限的环境，例如移动设备、边缘计算和物联网，低功耗AI模型推理变得尤为重要，因为低功耗可带来更长的续航时间、更少的能源消耗以及更高的计算效率。为实现低功耗AI模型推理，常常采用专用的硬件加速器来加速模型推理过程，这是一种广泛采用的方法。

每种AI模型具有其独特的特点和优缺点，而每种硬件加速器及其所在平台与AI模型之间的匹配度也因此各异。因此，选择适配度最佳的硬件加速器对于实现高效AI模型推理至关重要。在这一复杂而多元化的环境中，确保硬件选择与AI模型完美契合成为重中之重。

选择硬件加速器是一个重要的决策，涉及到硬件性能、成本、功耗等多个方面的考虑。传统的选择方式通常基于经验和对硬件规格的对比，存在以下不足：

1.传统的选择方式大多主要依赖于经验和直觉，缺乏***性的方法和数据支持，可能导致选择不够理想或满足不了实际应用需求；

2.传统方式大多仅通过硬件规格的对比，如频率、内存大小等，来选择硬件加速器，忽略了与实际应用场景的匹配度；

3.硬件加速器的性能优化往往需要结合具体的优化策略，而传统选择方式大多无法全面考虑这些策略对硬件的要求；

4.传统选择方式大多缺乏对硬件加速器在实际应用场景下的性能数据支持，难以准确评估其适用性和匹配度。

为了解决上述问题，现提供一种技术方案。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供，通过采集硬件加速器结合AI模型的能效比、可编辑指数等参数，得到编程能效折衷系数，并进行性能释放调控性能和推理灵活性的评估。满足指导阈值一的条件的硬件加速器被纳入扩展演进等级集合，从中选择优选硬件加速器，实现高效且灵活的AI推理。同时，通过采集硬件加速器在平台上运行AI模型的实时吞吐量值和能耗值，计算实时推理能效，得到升华系数。升华系数大于等于指导阈值二的硬件加速器纳入扩展演进等级集合，计算至臻演进等级集合和扩展演进等级集合的交集数据，并从中选取性能较好且具有较大优化空间的硬件加速器作为最优加速器，以实现高效的AI模型推理，并在资源有限的情况下发挥最佳性能。通过这样的方法，综合考虑了硬件加速器的性能、能效和优化空间，找到了在性能和灵活性上的最优平衡点，实现高效、灵活的AI推理，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

步骤S100：统计可用的AI模型和硬件加速器，并进行排列组合；

步骤S200：采集每种排列组合在平台运行过程中的效能参数、塑性参数和优化空间参数；

步骤S300：将效能参数和塑性参数进行加权求和，得到编程能效折衷系数，将编程能效折衷系数与指导阈值一进行比较，生成至臻演进等级集合；

步骤S400：对优化空间参数进行处理，得到升华系数，将升华系数与指导阈值二进行比较，生成扩展演进等级集合；

步骤S500：将至臻演进等级集合和扩展演进等级集合进行交集运算，获得最优硬件加速器。

在一个优选的实施方式中，步骤S100具体包括以下内容：

统计可用的AI模型和硬件加速器，将AI模型和硬件加速器进行排列组合。

在一个优选的实施方式中，步骤S200具体包括以下内容：

统计所有排列组合，将排列组合中所设定的AI模型和硬件加速器投入到平台中运行，使用相同的优化策略数据进行推理，采集硬件加速器在平台上运行AI模型完成单次推理的效能参数、塑性参数和优化空间参数；

其中，效能参数包括能效比，塑性参数包括可编辑程度。

在一个优选的实施方式中，能效比的获取逻辑为：

步骤S201：采集硬件加速器在平台上运行AI模型完成单次推理的推理速度值、吞吐量值以及能耗值；

步骤S202：将推理速度值、吞吐量值以及能耗值进行计算得到推理效能，计算公式为：，式中，/>为推理效能，/>分别为数据推理速度值、吞吐量值以及能耗值。

在一个优选的实施方式中，可编辑指数的获取逻辑为：

步骤S211：统计硬件加速器中可编辑的功能数量，即可由用户进行配置的功能单元数量，记为e；

步骤S212：统计硬件加速器中总功能数量，包括固定功能和可编辑功能的总和，记为t；

步骤S213：计算可编辑指数，即硬件加速器的可编程性，使用以下计算公式：，式中，/>为可编辑指数，/>分别为可编辑的功能数量、总功能数量。

在一个优选的实施方式中，将编程能效折衷系数和指导阈值一进行比较，将编程能效折衷系数大于等于指导阈值一的排列组合纳入到至臻演进等级集合中，并按照编程能效折衷系数从大到小顺序排序。

在一个优选的实施方式中，步骤S400具体包括以下内容：

步骤S401：优化空间参数包括实时吞吐量值以及实时能耗值；

步骤S402：采集每个单位时间点的实时吞吐量值以及实时能耗值，将实时吞吐量值除以对应的实时能耗值，得到实时推理效率；

步骤S403：将各个时间点的实时推理效率数据按时间顺序排序，计算各个数据的升华指数，计算公式为：，/>为升华系数，/>为各个时间点的实时推理效率数据，i=1、2、3、……、n，n为正整数，/>为所有实时推理效率数据的平均值。

在一个优选的实施方式中，将升华系数和指导阈值二进行比较，将升华系数大于等于指导阈值二的纳入到扩展演进等级集合中，并按照升华系数从大到小排序。

在一个优选的实施方式中，步骤S500具体包括以下内容：

在获得扩展演进等级集合和硬件加速器集合后，将扩展演进等级集合和硬件加速器集合进行交集运算获得交集数据，根据交集数据中每个硬件加速器的出现次数，确定组合最多次数的硬件加速器，并将其标记为优选硬件加速器，若多个硬件加速器出现次数相同，则进一步比较升华系数，将升华系数最大的硬件加速器标记为优选硬件加速。

本发明基于自主可控软硬件平台的低功耗AI模型推理优化方法的技术效果和优点：

1.通过采集硬件加速器结合AI模型的每种排列组合的能效比和可编辑指数，从而获得编程能效折衷系数。通过对编程能效折衷系数进行分析，评估硬件加速器结合AI模型推理时的性能释放调控性能以及推理的灵活性。根据运行调节要求满足指导阈值一的条件，并将满足条件的纳入到扩展演进等级集合中，从众多硬件加速器中选取合适的加速器作为优选硬件加速器，以实现高效且灵活的AI推理。进而能够在众多硬件加速器与AI模型的组合中，寻找到最优的平衡点，以满足推理性能的要求并提高推理的灵活性，从而在资源有限的情况下，实现更高效、更灵活的AI模型推理；

2.通过采集硬件加速器在平台上运行AI模型完成一次推理的实时吞吐量值和实时能耗值，计算实时推理能效。多次采集推理能效并进行综合分析，得到升华系数。通过升华系数分析硬件加速器结合AI模型推理时的可调整空间，将升华系数大于等于指导阈值二的硬件加速器纳入扩展演进等级集合。最后，计算至臻演进等级集合和扩展演进等级集合的交集数据，并从交集内选择硬件加速器作为最优加速器。这样的方法综合考虑了硬件加速器在推理中的性能和能效表现，从而选取性能较好且有较大优化空间的硬件加速器作为最优加速器，以实现高效的AI模型推理，并在资源有限的情况下发挥最佳性能。

附图说明

图1为本发明基于自主可控软硬件平台的低功耗AI模型推理优化方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1给出了本发明基于自主可控软硬件平台的低功耗AI模型推理优化方法，其包括如下步骤：

步骤S100具体包括以下内容：

步骤S200具体包括以下内容：

其中，效能参数包括能效比，塑性参数包括可编辑程度。

在实际应用中，优化硬件加速器的推理耗能对于提高***性能和节约能源至关重要。高能效的硬件加速器能够降低能源消耗，减少运行成本，并延长设备的续航时间。同时，较低的能耗意味着硬件加速器产生较少的热量，可以降低散热需求，进一步提升***的稳定性和可靠性。优化推理耗能还有助于实现绿色计算，减少对环境的影响，为可持续发展作出贡献。

能效比的获取逻辑为：

推理效能用于表示单位能耗下硬件加速器所能实现的推理任务数量，用于体现任务处理能力，较高的推理效能意味着硬件加速器在相同能耗下能够完成更多推理任务，表明其在推理任务中具有更高的能效性能，能够以更少的能量完成更多的计算任务。

硬件加速器的可编辑指数在现实中具有重要意义。它是评估硬件加速器灵活性和适应性的关键指标，反映了硬件加速器的可配置性和可编程性。较高的可编辑指数意味着硬件加速器具有更大的灵活性，能够适应多样化的任务和算法，提供更大的通用性和可扩展性。通过评估可编辑指数，可以优化硬件设计，平衡性能与能效，选择最适合特定应用需求的硬件加速器，为硬件设计工程师和应用开发者提供更好的决策依据。

可编辑指数的获取逻辑为：

可编辑指数用于体现硬件加速器的使用灵活性，硬件加速器在平台上的可编程性决定了其是否能够适应不同类型的AI模型和任务，表示硬件是否可以进行定制化和优化。较高可编程性允许硬件加速器在不同场景下发挥更大的潜力，满足不同的需求。

步骤S300具体包括以下内容：

将能效比和可编辑指数的经过加权求和获得编程能效折衷系数，例如，通过以下公式获得编程能效折衷系数，表达式为：，式中，/>为编程能效折衷系数，/>、/>为推理效能、可编辑指数，/>分别为推理效能、可编辑指数的预设比例系数，且/>均大于0；

编程能效折衷系数是用于体现硬件加速器在平台上运行AI模型时的性能控制灵活度的重要指标。较大的编程能效折衷系数意味着在相同能耗下，硬件加速器能够实现更多的推理任务，并具有更大的灵活性。这表明硬件加速器与AI模型配合使用时，能够更好地结合，更好地适应不同的计算需求。硬件加速器的高编程能效折衷系数使其在多样化的应用场景中具有更大的适用性和优势，同时在推理任务中实现更高的性能效率，从而为实际应用提供了更为优化和高效的计算加速解决方案。

将编程能效折衷系数和指导阈值一进行比较，若编程能效折衷系数大于等于指导阈值一，表示硬件加速器在平台上运行AI模型时的性能控制灵活度较好，处理任务和能耗控制方面更加合理，将编程能效折衷系数大于等于指导阈值一的排列组合纳入到至臻演进等级集合中，并按照编程能效折衷系数从大到小顺序排序。

本发明通过采集硬件加速器结合AI模型的每种排列组合的能效比和可编辑指数，从而获得编程能效折衷系数。通过对编程能效折衷系数进行分析，评估硬件加速器结合AI模型推理时的性能释放调控性能以及推理的灵活性。根据运行调节要求满足指导阈值一的条件，并将满足条件的纳入到扩展演进等级集合中，从众多硬件加速器中选取合适的加速器作为优选硬件加速器，以实现高效且灵活的AI推理。进而能够在众多硬件加速器与AI模型的组合中，寻找到最优的平衡点，以满足推理性能的要求并提高推理的灵活性，从而在资源有限的情况下，实现更高效、更灵活的AI模型推理。

当硬件加速器在平台上运行AI模型推理时，其可调节空间是指硬件加速器在实际应用中可以进行优化和调整的范围。这一参数对于硬件加速器在实际使用中的适用性和性能优化至关重要；

如果硬件加速器具有较大的可调节空间，意味着在运行AI模型推理过程中，它具有更多的优化和调整潜力。这将为性能优化和能效改进提供更大的机会。通过灵活调整硬件加速器的设置和参数，可以更好地适应不同的AI模型和推理场景，从而提高推理效率、降低能耗，实现更优的计算性能；

因此，可调节空间的大小直接影响硬件加速器在实际应用中的适用性和优化效果。拥有较大的可调节空间可以带来更多的优势，使硬件加速器在不同应用场景下都能够发挥更好的性能，从而更好地满足用户的需求。因此，评估硬件加速器的可调节空间是选择合适的硬件加速器的重要指标之一。

步骤S400具体包括以下内容：

步骤S401：优化空间参数包括实时吞吐量值以及实时能耗值；

步骤S402：采集每个单位时间点的实时吞吐量值以及实时能耗值，将实时吞吐量值除以对应的实时能耗值，得到实时推理效率，实时推理效率表示在当前时间点下，硬件加速器在平台上运行AI模型进行实时推理过程中的性能和能耗的综合表现；

升华系数用于体现硬件加速器结合AI模型在推理过程中的可调整空间大小，调整空间指数越大说明硬件加速器在实时推理过程中具有较大的调整空间，具有较大的优化潜力，这为进一步优化推理效率，提高性能和能耗平衡提供了有益的指导和方向。

将升华系数和指导阈值二进行比较，若升华系数大于等于指导阈值二，说明硬件加速器结合AI模型在推理过程中的可调整空间越大，说明优化可提升的上限较大，具有更大的优化空间，可以进一步的提高推理效率，达到更高的性能水平，将升华系数大于等于指导阈值二的纳入到扩展演进等级集合中，并按照升华系数从大到小排序。

步骤S500具体包括以下内容：

在获得扩展演进等级集合和硬件加速器集合后，将扩展演进等级集合和硬件加速器集合进行交集运算获得交集数据，根据交集数据中每个硬件加速器的出现次数，确定组合最多次数的硬件加速器，并将其标记为优选硬件加速器，若多个硬件加速器出现次数相同，则进一步比较升华系数，将升华系数最大的硬件加速器标记为优选硬件加速器。

这样的选择方式可以更加客观地评估硬件加速器在推理过程中的控制灵活性。通过统计交集数据中硬件加速器的出现次数，可以得知每个加速器在与AI模型的结合中使用的频率，从而选取常用的硬件加速器作为优选硬件加速器，以提高推理的稳定性和适用性。当多个硬件加速器出现次数相同时，比较它们的升华系数，选择具有更大优化潜力的加速器，以实现更高效的推理过程。

本发明通过采集硬件加速器在平台上运行AI模型完成一次推理的实时吞吐量值和实时能耗值，计算实时推理能效。多次采集推理能效并进行综合分析，得到升华系数。通过升华系数分析硬件加速器结合AI模型推理时的可调整空间，将升华系数大于等于指导阈值二的硬件加速器纳入扩展演进等级集合。最后，计算至臻演进等级集合和扩展演进等级集合的交集数据，并从交集内选择硬件加速器作为最优加速器。这样的方法综合考虑了硬件加速器在推理中的性能和能效表现，从而选取性能较好且有较大优化空间的硬件加速器作为最优加速器，以实现高效的AI模型推理，并在资源有限的情况下发挥最佳性能。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络，或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD），或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件，或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM)、随机存取存储器（random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自主可控软硬件平台的低功耗AI模型推理优化方法，其特征在于，包括如下步骤：

步骤S500：将至臻演进等级集合和扩展演进等级集合进行交集运算，获得最优硬件加速器；

步骤S100具体包括以下内容：

统计可用的AI模型和硬件加速器，将AI模型和硬件加速器进行排列组合；

步骤S200具体包括以下内容：

其中，效能参数包括能效比，塑性参数包括可编辑程度；

能效比的获取逻辑为：

步骤S202：将推理速度值、吞吐量值以及能耗值进行计算得到推理效能，计算公式为：，式中，/>为推理效能，/>分别为数据推理速度值、吞吐量值以及能耗值；

可编辑指数的获取逻辑为：

步骤S213：计算可编辑指数，即硬件加速器的可编程性，使用以下计算公式：，式中，/>为可编辑指数，/>分别为可编辑的功能数量、总功能数量；

步骤S400具体包括以下内容：

步骤S401：优化空间参数包括实时吞吐量值以及实时能耗值；

2.根据权利要求1所述的基于自主可控软硬件平台的低功耗AI模型推理优化方法，其特征在于：

将编程能效折衷系数和指导阈值一进行比较，将编程能效折衷系数大于等于指导阈值一的排列组合纳入到至臻演进等级集合中，并按照编程能效折衷系数从大到小顺序排序。

3.根据权利要求2所述的基于自主可控软硬件平台的低功耗AI模型推理优化方法，其特征在于：

将升华系数和指导阈值二进行比较，将升华系数大于等于指导阈值二的纳入到扩展演进等级集合中，并按照升华系数从大到小排序。

4.根据权利要求3所述的基于自主可控软硬件平台的低功耗AI模型推理优化方法，其特征在于：步骤S500具体包括以下内容：