CN117093376A

CN117093376A - 一种应用于国产gpu环境下的智能识别模型适配方法

Info

Publication number: CN117093376A
Application number: CN202311352128.XA
Authority: CN
Inventors: 马文胜; 韩丽萍; 李海宁; 何涛; 贺梓然; 戴军
Original assignee: Party Member Education Center Of Organization Department Of Shandong Provincial Committee Of Communist Party Of China
Current assignee: Party Member Education Center Of Organization Department Of Shandong Provincial Committee Of Communist Party Of China
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-11-21

Abstract

本发明涉及人工智能和国产化基础平台领域，且公开了一种应用于国产GPU环境下的智能识别模型适配方法，包括以下步骤：S1：硬件设备基础环境检测；S1：硬件设备基础环境检测；S2：指令集业务架构适配；S3：深度学***台在实际业务应用需求中的适配性能和可靠性进行评估，确保国产硬件平台能够满足项目需求。结合潜在发展和优化需求，综合考察硬件设备的各方面能力是否能够形成良好支撑。

Description

一种应用于国产GPU环境下的智能识别模型适配方法

技术领域

本发明属于人工智能和国产化基础平台领域，更为具体地讲，涉及一种应用于国产GPU环境下的智能识别模型适配方法。

背景技术

随着人工智能和大数据技术的发展，智能识别、辅助审核在各类平台、网站资源生产和发布中的应用越来越广泛。目前智能识别技术主要基于英伟达等国外GPU显卡实现，国产芯片、AI加速卡等硬件产品性能相对较低、兼容性较差、适配度较低，因此，虽然寒武纪等国产GPU已经支持主流深度学习框架，但是缺乏和主流AI框架的适配技术手段及对接的软件生态，需要进一步解决指令集支持等问题。

发明内容

本发明的目的在于将主流深度学***台，提供一种应用于国产GPU环境下的智能识别模型适配方法，本发明能够实现充分对国产硬件平台在实际业务需求中的适配性能和可靠性进行评估，确保国产硬件平台能够满足项目需求。结合潜在发展和优化需求，综合考察硬件设备的各方面能力是否能够形成良好支撑。

本发明提供如下技术方案：一种应用于国产GPU环境下的智能识别模型适配方法，包括以下步骤：

S1：硬件设备基础环境检测；

S2：指令集业务架构适配；

S3：深度学习框架适配；

S4：智能识别模型训练调优和推理；

S5：智能识别模型性能稳定性提升；

S6：智能识别应用验证。

所述步骤S1：硬件设备基础环境检测的具体步骤包括：

S1.1：适配所述硬件固件和驱动程序，具体方法包括以下步骤：

S1.1.a：安装固件和驱动，安装过程中若出现固件或驱动版本过低，下载安装高版本驱动程序；若出现“掉卡”等驱动安装失败问题，重新安装驱动程序；

S1.1.b：使用终端命令确认固件和驱动有效安装；

S1.2：适配依赖组件库，具体方法包括以下步骤：

S1.2.a：源代码获取；

S1.2.b：安装能够支持多种目标架构的交叉编译工具；

S1.2.c：配置编译选项，通过构建***来管理编译过程；

S1.2.d：运行构建命令编译依赖库，生成目标架构编译的依赖库；

S1.2.e：安装编译后的依赖库，通过终端命令确认依赖库有效安装。

所述步骤S2：指令集业务架构适配的具体步骤包括：

S2.1：指令集业务架构兼容性测试，具体测试方法为：

针对业务场景的数据，安装相关分析处理的工具包；启动业务服务，进行测试，通过命令查看相关依赖是否安装成功；若成功安装则通过兼容性测试，去步骤S2.2；

否则，则进行相关工具包的适配步骤：1）源码获取；2）配置编译选项；3）生成目标架构的编译库；4）安装测试后去步骤S2.2；

S2.2：指令集业务QPS性能测试，具体测试方法为：

在原平台和目标平台分别使用同一套业务逻辑代码和算法模型，进行业务模块部署；针对业务中的算法和数据，对硬件平台的响应速度和吞吐量进行测试；根据业务需求和测试结果裁定指令集业务QPS性能测试结果。

所述步骤S3：深度学习框架适配的具体步骤包括：

S3.1：选择国产加速平台支持的深度学习框架；

S3.2：对主流深度学习框架进行源码编译构建安装；

S3.3：根据深度学习框架，运行官方示例demo代码，验证有效性。

所述步骤S4：智能识别模型训练调优和推理的具体步骤包括：

S4.1：安装智能模型的训练和推理所需的依赖环境；

S4.2：针对业务场景，准备数据集，划分好训练集和测试集，生成分类标签；

S4.3：在原平台和目标平台上分别进行算法模型实现，模型结构和参数保持一致；

S4.4：读入训练数据开始训练，训练完成后保存模型文件；

S4.5：加载训练好的智能模型文件，将模型格式转为国产平台支持的格式，封装模型推理接口，修改原平台预处理代码和后处理代码，使用封装的接口进行模型的推理和预测。

所述步骤S5：智能识别模型性能稳定性提升的具体步骤包括：

S5.1：智能模型性能评估，具体评估方法为：

S5.1a：针对业务场景，构建智能模型评估所需要的测试数据集，并上传到不同平台。在不同平台下，使用同一套测试数据、算法模型和评估标准，对需要识别的业务数据进行模型识别测试，统计识别结果。评估标准包含智能模型的精准率、召回率、F1以及mAP这4个评价指标。其中，精准率和召回率反映识别模型预测的精度和全面度，并通过F1反映综合指标；mAP则反映多类别预测场景下的识别模型的平均准确率。通过以上评估标准度量不同平台下的识别模型的性能；

S5.1b：对同一张图片推理10次，观察推理结果，出现模型输出性能不稳定，并且在测试集上的推理效果差的问题；

S5.2：模型输出性能提升，推理效果提升的具体方法有：

S5.2a：检查训练数据的质量，确保数据的准确性和充分性。可以通过数据清洗、数据增强等方式来提高数据质量；

S5.2b：调整模型的复杂度，避免过拟合。可以通过增加正则化项、减少模型参数等方式来控制模型的复杂度；

S5.2c：使用交叉验证等技术来评估模型的性能，避免过拟合。可以将数据集划分为多个训练集和验证集，通过验证集来评估模型的性能；

S5.2d：对模型进行调参，优化模型的性能。可以通过网格搜索、随机搜索等方式来寻找最优的超参数组合；

S5.2e：增加训练数据量，提高模型的泛化能力。可以通过数据增强、数据合成等方式来增加训练数据量；

S5.2f：使用迁移学习等技术来提高模型的泛化能力。可以使用预训练的模型作为基础模型，通过微调等方式来适应新的任务；

S5.2g：在测试集上进行模型调优，提高模型的泛化能力。可以使用验证集来评估模型的性能，然后在测试集上进行模型调优；

S5.3：性能提升验证：使用双向数据绑定方法对推理队列中的张量进行整合规范；

S5.4：重复S5.2和S5.3步骤，进行性能提升验证。

所述步骤S6：智能识别应用验证的具体步骤包括：

S6.1：源码安全监测，具体方法为：

首先针对国产GPU平台的AI计算加速卡，选择支持的深度学习框架版本，然后结合目标业务场景，对开源框架的源码进行安全风险检测，防止漏洞导致安全问题；

S6.2：智能模型开发，具体方法包括以下步骤：

S6.2.a：对主流的深度学习框架的接口进行封装，实现统一的开发接口；

S6.2.b：数据预处理，包括过滤、清洗、增广等；

S6.2.c：结合业务数据和需求，构建适合的深度神经网络模型；

S6.2.d：初始化模型训练，训练、验证完成后保存模型；

S6.3：智能模型部署，具体方法包括以下步骤：

S6.3.a：模型迁移：训练和验证后的模型转换为国产硬件平台环境的格式，生成离线模型；

S6.3.b：模型优化：根据部署环境的特性，进行模型剪枝，量化，蒸馏等操作以减小模型的大小和提高其在特定硬件上的性能；

S6.3.c：部署环境准备：包括安装必要的软件库，配置硬件设备，设置网络连接等；

S6.3.d：模型部署：将优化后的模型部署到目标环境中，并进行测试；

S6.3.e：模型监控和更新：在模型部署和运行过程中，持续监控其性能和功能，根据需要进行模型更新和优化；

S6.3.f：推理应用开发：根据审核业务需求和数据流，开发智能识别应用，调用离线模型自动审核业务中的实际样本，将识别结果传回业务处理流程，将识别结果显示到应用界面。

本发明具备以下有益效果：

本发明能够实现充分对国产硬件平台在实际应用需求中的适配性能和可靠性进行评估，确保国产硬件平台能够满足项目需求。结合潜在发展和优化需求，综合考察硬件设备的各方面能力是否能够形成良好支撑。

附图说明

图1是发明原理图；

图2是指令集业务架构适配流程图；

图3是算法模型适配流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种应用于国产GPU环境下的智能识别模型适配方法的原理图，具体步骤包括：

S1：硬件设备基础环境检测；

S2：指令集业务架构适配；

S3：深度学习框架适配；

S4：智能识别模型训练调优和推理；

S5：智能识别模型性能稳定性提升；

S6：智能识别应用验证。

在本实例中，测试环境为国产GPU寒武纪智能加速卡，型号为：MLU370-X8，作为对比的非国产显卡设备为英伟达GPU，型号为：NVIDIA 3080Ti，深度学习框架为百度飞浆PaddlePaddle框架。

所述步骤S1：硬件设备基础环境检测：

S1.1：适配所述硬件固件和驱动程序：

首先对GPU硬件安装固件和驱动，安装过程中若出现固件或驱动版本过低，下载安装高版本驱动程序；若出现“掉卡”等驱动安装失败问题，重新安装驱动程序；

安装完成之后使用终端命令（cnmon）确认固件和驱动有效安装；

S1.2：适配依赖组件库：

第1步进行源代码获取：在项目的官方网站或GitHub存储库中找到依赖库的源代码。第2步安装交叉编译工具：对于当前项目，安装能够支持多种目标架构的交叉编译工具，例如GCC（GNU编译器集合）。第3步配置编译选项：对于当前项目，通过构建***来管理编译过程，例如autoconf或cmake等。为项目目标架构配置编译工具，涉及到设置环境变量及其他可能的标志和选项，指向交叉编译器。第4步运行构建命令（如make）编译依赖库，生成目标架构编译的依赖库，执行安装和测试，安装和测试过程依据不同项目，在具体实施上有所不同。一般步骤为先将编译好的库安装到目标***，然后执行官方提供的demo程序，确认安装的有效性。

所述步骤S2：如图2所示，指令集业务架构适配具体步骤包括：

S2.1：指令集业务架构兼容性测试：

S2.2：指令集业务QPS性能测试：

在原平台和目标平台分别使用同一套业务逻辑代码和算法模型，进行业务模块部署；针对业务中的算法和数据，使用fastAPI封装接口服务并对硬件平台的响应速度和吞吐量进行测试；根据业务需求和测试结果裁定指令集业务QPS性能测试结果。

所述步骤S3：深度学习框架适配：

S3.1：主流框架适配：

第1步对主流深度学习框架进行源码编译构建安装，实例中采用百度飞浆PaddlePaddle框架，编译安装步骤包括：

1）准备相关依赖：

mm_v0.1_aarch64-kylin10.tar；

cntoolkit-3.1.4-1.ky10.aarch64.rpm；

cnnl-static-1.14.2-1.ky10.aarch64.rpm；

cnnl-1.14.2-1.ky10.aarch64.rpm；

cncl-1.5.2-1.ky10.aarch64.rpm；

2）2）编译进容器，代码如下：

gh repo clone Cambricon/mlu-ops

cd mlu-ops/bangc-ops；

./build.sh；

拷贝头文件到neuware下；

3）编译paddle：

CTR2.5对应的paddle仓库为:飞浆2.4版本库；

3.1）使用步骤1）中准备的rpm包安装更新底层库，命令为：

ARG CNTOOLKIT_VERSION=3.1.4-1；

ARG CNNL_VERSION=1.14.2-1；

ARG CNCL_VERSION-1.5.2-1；

ARG MLUOPS_VERSION=0.4.1-1；

3.2）进入工作环境命令为：

cd Paddle；

3.3）创建编译目录，命令为：

mkdir build&&cd build；

3.4）执行cmake，命令为：

cmake .. -DPY_VERSION=3.7 -DPYTHON_EXECUTABLE=`which python3` -DWITH_ARM=ON -DWITH_TESTING=OFF -DON_INFER=ON -DWITH_XBYAK=OFF -DCMAKE_CXX_FLAGS=”who-error -w” -DWITH_MLU=ON；

第2步根据深度学习框架，运行官方示例demo代码，验证有效性，验证代码如下：

cd Paddle；

pip install build/python/dist/paddlepaddle_mlu-0.0.0-cp37-cp37m-arm；

python；

import paddle；

paddle.utils.run_check()；

所述步骤S4：如图3所示，智能识别模型训练调优和推理具体实施步骤如下：

S4.1：安装智能模型的训练和推理所需的依赖环境，包括：寒武纪GPU驱动及依赖库、安装寒武纪mlu驱动、paddle_mlu以及后期寒武纪适配的yolox的docker镜像；

S4.2：针对业务场景，准备数据集，基于数据集中的样本存在类别不平衡的情况，使用分层划分方法，划分好训练集和测试集，确保训练集和测试集中的类别比例相似，生成分类标签；

S4.3：在原平台和目标平台上分别进行算法模型实现，指定相同的损失函数、优化器和评估指标，模型结构和参数保持一致；

S4.4：读入训练数据，开始训练，训练完成后保存模型文件；

S4.5：加载训练好的智能模型文件，将Paddle框架的模型格式转为ONNX格式，然后把ONNX格式的模型转为国产平台支持的MagicMind格式，封装模型推理接口，修改原平台预处理代码和后处理代码，使用封装的接口进行模型的推理和预测。

所述步骤S5：智能识别模型性能稳定性提升：

S5.1：智能模型性能评估，具体评估方法为：

S5.1a：针对业务场景，构建智能模型评估所需要的测试数据集，并上传到不同平台。在不同平台下，使用同一套测试数据、算法模型和评估标准，对需要审核的业务数据进行模型识别测试，统计识别结果。评估标准包含智能模型的精准率、召回率、F1以及mAP这4个评价指标。其中，精准率和召回率反映识别模型预测的精度和全面度，并通过F1反映综合指标；mAP则反映多类别预测场景下的识别模型的平均准确率。通过以上评估标准度量不同平台下的识别模型的性能；

S5.2：性能提升验证：使用双向数据绑定方法对推理队列中的张量进行整合规范；

S5.3：重复S5.1b步骤，进行性能提升验证。

所述步骤S6：智能识别应用验证：

S6.1：源码安全监测：

S6.2：智能模型开发：

第1步对主流的深度学习框架的接口进行封装，实现统一的开发接口；第2步进行数据预处理，包括过滤、清洗、增广等；第3步结合智能识别业务数据和需求，构建深度神经网络模型；第4步开始模型训练，训练、验证完成后保存模型权重文件；第5步将训练好的智能识别模型进行部署，具体方法包括以下步骤：

1）模型迁移：训练和验证后的模型转换为国产硬件平台环境的格式，生成离线模型；

2）模型优化：根据部署环境的特性，进行模型剪枝，量化，蒸馏等操作以减小模型的大小和提高其在特定硬件上的性能；

第6步准备部署环境，包括安装必要的软件库，配置硬件设备，设置网络连接等；第7步执行模型部署，将优化后的模型部署到目标环境中，并进行测试；第8步模型监控和更新：在模型部署和运行过程中，持续监控其性能和功能，根据需要进行模型更新和优化；第9步推理应用开发，根据智能识别业务需求和数据流，开发智能识别应用，调用离线模型自动识别业务中的实际样本，将识别结果传回业务处理流程，将识别结果显示到应用界面。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，包括以下步骤：

S1：硬件设备基础环境检测；

S2：指令集业务架构适配；

S3：深度学习框架适配；

S4：智能审核模型训练调优和推理；

S5：智能审核模型性能稳定性提升；

S6：智能审核应用验证。

2.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述S1：硬件设备基础环境检测的具体步骤包括：

S1.1：适配硬件固件和驱动程序，具体方法包括以下步骤：

S1.1.a：安装固件和驱动，安装过程中若出现固件或驱动版本过低，下载安装高版本驱动程序；若出现“掉卡”导致的驱动安装失败问题，重新安装驱动程序；

S1.1.b：使用终端命令确认固件和驱动有效安装；

S1.2：适配依赖组件库，具体方法包括以下步骤：

S1.2.a：源代码获取；

S1.2.b：安装能够支持多种目标架构的交叉编译工具；

S1.2.c：配置编译选项，通过构建***来管理编译过程；

3.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述S2：指令集业务架构适配的具体步骤包括：

S2.1：指令集业务架构兼容性测试，具体测试方法为：

否则，则进行相关工具包的适配步骤；

S2.2：指令集业务QPS性能测试，具体测试方法为：

4.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述S3：深度学习框架适配的具体步骤包括：

S3.1：主流框架适配，具体方法包括以下步骤：

S3.1.a：对主流深度学习框架进行源码编译构建安装；

S3.1.b：根据深度学习框架，运行官方示例demo代码，验证有效性。

5.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述S4：智能识别模型训练调优和推理的具体步骤包括：

S4.1：安装智能模型的训练和推理所需的依赖环境；

S4.4：读入训练数据开始训练，训练完成后保存模型文件；

6.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述步骤S5：智能识别模型性能稳定性提升的具体步骤包括：

S5.1：智能模型性能评估，具体评估方法为：

S5.1a：针对业务场景，构建智能模型评估所需要的测试数据集，并上传到不同平台；在不同平台下，使用同一套测试数据、算法模型和评估标准，对需要识别的业务数据进行模型识别测试，统计识别结果；评估标准包含智能模型的精准率、召回率、F1以及mAP这4个评价指标；其中，精准率和召回率反映识别模型预测的精度和全面度，并通过F1反映综合指标；mAP则反映多类别预测场景下的识别模型的平均准确率，通过以上评估标准度量不同平台下的识别模型的性能；

S5.3：重复S5.1步骤，进行性能提升验证。

7.根据权利要求1所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，所述步骤S6：智能识别应用验证的具体步骤包括：

S6.1：源码安全监测，具体方法为：

S6.2：智能模型开发；

S6.3：智能模型部署。

8.根据权利要求6所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，智能模型开发，具体方法包括以下步骤：

S6.2.b：数据预处理，包括数据过滤、数据清洗、数据增广；

S6.2.d：初始化模型训练，训练、验证完成后保存模型。

9.根据权利要求6所述的一种应用于国产GPU环境下的智能识别模型适配方法，其特征在于，智能模型部署，具体方法包括以下步骤：

S4.3.a：模型迁移：训练和验证后的模型转换为国产硬件平台环境的格式，生成离线模型；

S4.3.b：模型优化：根据部署环境的特性，进行模型剪枝，量化，蒸馏操作以减小模型的大小和提高其在特定硬件上的性能；

S4.3.c：部署环境准备：包括安装必要的软件库，配置硬件设备，设置网络连接；

S4.3.d：模型部署：将优化后的模型部署到目标环境中，并进行测试；

S4.3.e：模型监控和更新：在模型部署和运行过程中，持续监控其性能和功能，根据需要进行模型更新和优化；

S4.3.f：推理应用开发：根据智能识别业务需求和数据流，开发智能审核应用，调用离线模型自动审核业务中的实际样本，将审核结果传回业务处理流程，将审核结果显示到应用界面。