CN115471910A - 基于fpga实现的运动活动识别模型的模型训练方法及其设备 - Google Patents

基于fpga实现的运动活动识别模型的模型训练方法及其设备 Download PDF

Info

Publication number
CN115471910A
CN115471910A CN202211085380.4A CN202211085380A CN115471910A CN 115471910 A CN115471910 A CN 115471910A CN 202211085380 A CN202211085380 A CN 202211085380A CN 115471910 A CN115471910 A CN 115471910A
Authority
CN
China
Prior art keywords
neural network
activity recognition
convolutional neural
fpga
human activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211085380.4A
Other languages
English (en)
Inventor
颜延
任旭超
陈宇骞
王磊
熊璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202211085380.4A priority Critical patent/CN115471910A/zh
Publication of CN115471910A publication Critical patent/CN115471910A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种基于FPGA实现的运动活动识别模型的模型训练方法、终端设备以及计算机可读存储介质。所述方法包括:获取人类活动识别数据集,并从人类活动识别数据集划分人类活动识别训练集和人类活动识别测试集;将人类活动识别训练集输入卷积神经网络进行训练,其中,卷积神经网络包括若干组卷积IP核,以及全连接IP核;利用人类活动识别测试集测试训练完成的卷积神经网络,获取训练完成的卷积神经网络的性能评估信息。本申请通过以FPGA作为硬件平台,鉴于FPGA在深度学习加速方面的可行性,研究人体行为识别模型的FPGA实现;在基于UCI‑HAR的人体运动识别上,搭建了一个具有BN融合结构的卷积神经网络用于硬件实现,减少了内存的消耗,并取得非常好的分类结果。

Description

基于FPGA实现的运动活动识别模型的模型训练方法及其设备
技术领域
本申请主要涉及神经网络技术领域,尤其涉及一种基于FPGA实现的运动活动识别模型的模型训练方法、终端设备以及计算机可读存储介质。
背景技术
人体日常运动行为与人的健康指标、能量平衡有着密切联系例如可以通过对跑步,走路等运动行为的监测计算出个人的能量消耗,这在个人的健康运动以及身体能量平衡等方面具有积极的意义。另外,通过对人体异常运动行为(如跌倒等)的识别可以有效的对出现危险状况的个人进行及时救助。但这些工作的前提是需要研究出一种面向用户的实时的,便携的小型化的设备来支撑例如神经网络特征提取,分类器等算法的技术实现。
智能手机的日益普及和广泛接受,加上大量的嵌入式传感器,为采用手机作为数据采集手段开辟了一条道路。通过采集加速度计、陀螺仪等移动传感器的传输信号,可以根据人体的运动加速度和角旋转速度进行人体运动分析。除了数据获取,边缘智能(EdgeAI)的最新进展引入了开发自给式人工智能设备的另一个有趣的视角。EdgeAI在智能手机上使用预先训练的模型以低延迟实时提供按需预测,而不是依赖于训练模型的云部署。这样的进步提供了引人注目的生态***来建模人类活动识别(HAR),以便随着时间的推移快速而准确地对个人的活动模式进行个性化。然后可以将其整合到用于视频监控、患者康复、娱乐和智能家居的***的开发管道中。
FPGA作为边缘计算的一种形式在信号处理中已经得到了广泛的应用,其作为一种半定制电路,克服了在专用集成电路(ASIC)领域中定制电路不可编程的缺点,同时庞大数量的逻辑单元也使得可编程器件灵活性更好、应用领域更广。基于这些特点国内外很多研究者深入探索利用FPGA高效、低功耗等优点提高运动信号处理算法的实时性和能效性。
人类活动识别(HAR)有几个重要的应用程序,包括医疗监控、安全和监视、辅助生活、智能家居以及视频搜索和索引。尽管最近在这一领域取得了进展,但仍然存在重大挑战,需要非常高的精确度才能有效地应用到实际应用中,从老年护理到显微外科设备。深度学习模型可以实现最高的精确度,但这些模型不容易部署在资源非常有限的手持或可穿戴设备中。
目前在人体运动行为识别领域已经诞生了很多性能优异的深度学习算法模型,例如CNN以及GNN,但是这些模型都具有较高的层数以及模型复杂度,计算量大使得中间层产生的输出和权重参数量激增,这样也就带来了对硬件需求高,很难完成实时处理以及便携性差等问题,虽然前辈做了人体运动行为识别硬件化的研究,但是部分利用verilog,VHDL硬件描述语言进行开发,其具有开发周期长、成本高、难度大以及调试困难等缺点。且有技术利用Vivado HLS完成了神经网络模型的FPGA实现,但只限于硬件的加速化研究,并没有通过实际应用背景来具体化设计。
发明内容
本申请提供了一种基于FPGA实现的运动活动识别模型的模型训练方法、终端设备以及计算机可读存储介质。
为解决上述技术问题,本申请提供了一种基于FPGA实现的运动活动识别模型的模型训练方法,所述模型训练方法包括:
获取人类活动识别数据集,并从所述人类活动识别数据集划分人类活动识别训练集和人类活动识别测试集;
将所述人类活动识别训练集输入卷积神经网络进行训练,其中,所述卷积神经网络包括若干组卷积IP核,以及全连接IP核;
利用所述人类活动识别测试集测试训练完成的卷积神经网络,获取所述训练完成的卷积神经网络的性能评估信息。
其中,所述卷积IP核包括卷积层、归一化层以及激活函数。
其中,所述卷积IP核的详细运算过程如下:
Figure BDA0003834793430000031
其中,每个输出矩阵的大小是N-m+l,其中,
Figure BDA0003834793430000032
中的l表示第l个卷积层,i表示第i个卷积输出矩阵的某个值,j表示对应的输出矩阵的编号,从左往右依次表示为0到N,N表示卷积输出矩阵的个数。f表示非线性激活函数。
其中,所述归一化层的详细运算过程如下:
Figure BDA0003834793430000033
其中,μ为一个batch内的均值,σ2为一个batch内的标准差,ε为一个预设常数,γ和β均为一个可学习的参数,在训练过程中,和其他卷积核的参数一样,通过梯度下降来学习。
其中,所述全连接IP核设置于所述卷积神经网络的输出端,用于实现所述卷积神经网络最终的分类输出。
其中,所述将所述人类活动识别训练集输入卷积神经网络进行训练之后,所述模型训练方法还包括:
将所述训练完成的卷积神经网络的权值参数和偏置参数保存为预设文件格式,并存入初始化的存储卡,输入到测试平台进行测试。
其中,所述利用所述人类活动识别测试集测试训练完成的卷积神经网络,获取所述训练完成的卷积神经网络的性能评估信息,包括:
将所述人类活动识别测试集传输到所述测试平台,以使所述测试平台按照所述人类活动识别测试集对所述存储卡中的权值参数和偏置参数组成的卷积神经网络进行测试;
获取所述测试平台上的卷积神经网络返回的分类结果;
基于所述分类结果计算所述卷积神经网络的性能评估信息。
其中,所述性能评估信息的类型包括平均准确率、查全率、查准率以及F1值中的一种或多种指标类型。
为解决上述技术问题,本申请提供了一种终端设备,其中,所述终端设备包括处理器、与所述处理器连接的存储器,其中,所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的程序指令以实现如上述基于FPGA实现的运动活动识别模型的模型训练方法。
为解决上述技术问题,本申请提供了一种计算机可读存储介质,所述存储介质存储有程序指令,所述程序指令被执行时实现上述基于FPGA实现的运动活动识别模型的模型训练方法。
与现有技术相比,本申请的有益效果是:终端设备获取人类活动识别数据集,并从所述人类活动识别数据集划分人类活动识别训练集和人类活动识别测试集;将所述人类活动识别训练集输入卷积神经网络进行训练,其中,所述卷积神经网络包括若干组卷积IP核,以及全连接IP核;利用所述人类活动识别测试集测试训练完成的卷积神经网络,获取所述训练完成的卷积神经网络的性能评估信息。本申请通过以FPGA作为硬件平台,鉴于FPGA在深度学习加速方面的可行性,研究人体行为识别模型的FPGA实现;在基于UCI-HAR的人体运动识别上,搭建了一个具有BN融合结构的卷积神经网络用于硬件实现,减少了内存的消耗,并取得非常好的分类结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的基于FPGA实现的运动活动识别模型的模型训练方法一实施例的流程示意图;
图2是本申请提供的软硬件协同设计的设计方案总体框架示意图;
图3是本申请提供的基于FPGA实现的运动活动识别模型的模型训练方法的整体流程示意图;
图4是本申请提供的卷积神经网络一实施例的框架示意图;
图5是本申请提供的Vivado HLS设计流程的示意图;
图6是本申请提供的卷积层IP核一实施例的框架示意图;
图7是本申请提供的全连接层IP核一实施例的框架示意图;
图8是本申请提供的PC端训练测试结果以及vitis下通过串口返回的测试结果的示意图;
图9是本申请提供的终端设备的一实施例的框架示意图;
图10是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当本申请称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
针对上述现有技术的问题,本文提出了一种高泛化性的卷积神经网络结构,借助Vivado高层次综合(HLS)等设计工具,通过例如并行化以及数组分割等优化指令来实现硬件加速,以FPGA作为硬件平台,鉴于FPGA在深度学习加速方面的可行性,研究人体运动行为识别算法模型的FPGA实现。
本申请以FPGA(现场可编程逻辑门阵列,Field Programmable Gate Array)作为硬件平台,鉴于FPGA在深度学***躺六类动作进行分类验证,可用于判别对象的活动状态。其技术范畴主要包括了信号处理、深度学习以及FPGA设计,是一个基于信号的机器学习分类以及硬件化加速问题。
具体请参阅图1至图3,图1是本申请提供的基于FPGA实现的运动活动识别模型的模型训练方法一实施例的流程示意图,图2是本申请提供的软硬件协同设计的设计方案总体框架示意图,图3是本申请提供的基于FPGA实现的运动活动识别模型的模型训练方法的整体流程示意图。
如图1所示,本实施例的基于FPGA实现的运动活动识别模型的模型训练方法具体包括以下步骤:
步骤S11:获取人类活动识别数据集,并从人类活动识别数据集划分人类活动识别训练集和人类活动识别测试集。
在本申请实施例中,终端设备,即图2中的PC端获取UCI-HAR人类活动识别数据集作为模型训练的源数据。其中,UCI-HAR人类活动识别数据集是以智能手机采集的传感器数据为基础的活动识别,创建于2012年,实验团队来自意大利热那亚大学。
UCI-HAR人类活动识别数据集是从30名年龄在19岁到48岁之间的志愿者身上收集的,这些志愿者将智能手机绑在腰间,进行6项标准活动中的一项,通过开发的手机软件记录运动数据。同时记录每个执行活动的志愿者的视频,后期根据这些视频和传感器数据进行手动标记所属运动类别,类似剪辑视频中的音画同步。使用其嵌入式加速度计和陀螺仪,本申请以50Hz的恒定速率捕获了3轴线性加速度和3轴角速度。实验已被录像以手动标记数据。执行的六项活动分别为:Walking(行走)、Walking Upstairs(向上走)、WalkingDownstairs(向下走)、Sitting(坐)、Standing(站)、Laying(睡)。
终端设备还可以对原始的UCI-HAR人类活动识别数据集中的数据进行预处理。
在一种具体的实施例中,数据集中传感器信号通过应用噪声滤波器进行预处理,然后在2.56秒和50%重叠的固定宽度滑动窗口中进行采样(128个读数/窗口),从每个窗口通过九维采样数据来构建一个9*128大小的特征图,这些数据被随机分成两组,其中70%被选择用于生成训练数据,30%用作测试数据。
步骤S12:将人类活动识别训练集输入卷积神经网络进行训练,其中,卷积神经网络包括若干组卷积IP核,以及全连接IP核。
在本申请实施例中,将训练集放入卷积神经网络结构中进行训练,本发明所采用的卷积神经网络结构如图4所示,图4是本申请提供的卷积神经网络一实施例的框架示意图。
如图4所示,本申请的卷积神经网络由若干组卷积IP核,以及全连接IP核,其中,每一组卷积IP核包括卷积层、归一化层以及激活函数,而全连接IP核则设置于卷积神经网络的输出端,用于实现所述卷积神经网络最终的分类输出。
具体地,在卷积神经网络中批归一化(Batch Normalization,BN)因其可以加速神经网络训练、使网络训练更稳定,而且还有一定的正则化效果,所以得到了非常广泛的应用,训练过程中BN层的运算如下:
Figure BDA0003834793430000071
其中,μ为一个batch内的均值,σ2为一个batch内的标准差,ε为一个预设常数,例如0.001,γ和β均为一个可学习的参数,在训练过程中,和其他卷积核的参数一样,通过梯度下降来学习。
在python训练时候,在卷积层后面直接加BN层,但是,训练完成后进入硬件设计阶段,BN层一般是可以完全融合到前面的卷积层的,而且丝毫不影响性能,在本申请的实施例中只需要将网络中BN层去掉,读取原来的卷积层权重和偏置,以及BN层的四个参数(均值μ,方差σ2,γ,β),将其融合为一个Conv+BN+ReLu的结构(通过Vivado HLS将其设计为Conv2d用户IP核)。
最终将python环境下训练得到的卷积神经网络模型结构中卷积层中的权值参数(w)和偏置参数(b)保存为bin文件并存入初始化后的SD卡中。
在一种具体实施例中,终端设备可以利用Vivado HLS完成上述算法IP核设计。
如图5所示,图5是本申请提供的Vivado HLS设计流程的示意图。在图5中,VivadoHLS的设计流程首先是编译、执行(模拟)和调试C算法;可选地使用用户优化指令,将C算法合成到RTL(寄存器转换级电路,Register Transfer Level)实现中;综合生成全面的报告,并对设计进行分析;联合仿真验证RTL实现;并最终将RTL实施打包成多种IP格式。
下面分别介绍本申请中需要设计的两种算法IP核的设计:
1)conv2d卷积IP核
对卷积层的算法设计最终生成的用户IP核如图6所示,其中,图6是本申请提供的卷积层IP核一实施例的框架示意图。
卷积层作为CNN中最重要的一层,通过卷积运算对图像的隐藏特征信息进行提取,相比于传统神经网络,CNN使用了稀疏交互和权值共享两大核心思想。源于对生物视觉细胞局部感受野的理解,卷积神经网络采用局部过滤器,进行卷积过程,即取输入项的局部子矩阵与局部过滤器进行内积运算,输出结果作为卷积输出矩阵的对应维数的值,详细运算过程如下式所示:
Figure BDA0003834793430000081
其中,每个输出矩阵的大小是N-m+l,其中,
Figure BDA0003834793430000091
中的l表示第l个卷积层,i表示第i个卷积输出矩阵的某个值,j表示对应的输出矩阵的编号,从左往右依次表示为0到N,N表示卷积输出矩阵的个数。f表示非线性激活函数。在本申请实施例中,非线性激活函数可以采用ReLu函数。
2)FC全连接IP核
对全连接层的算法设计最终生成的用户IP核如图7所示,其中,图7是本申请提供的全连接层IP核一实施例的框架示意图。
全连接运算是特殊的卷积运算,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,因此为了减少参数,硬件实现中本申请尽量保证神经网络模型中拥有较少的全连接操作,全连接层只用于最终的分类输出。
步骤S13:利用人类活动识别测试集测试训练完成的卷积神经网络,获取训练完成的卷积神经网络的性能评估信息。
在本申请实施例中,模型训练完成后,通过测试集中的心拍数据对模型分类性能进行验证,实验结果显示卷积神经网络模型在训练集上的平均准确率为99.92%,在测试集上的平均准确率为96.27%。
在上述描述中,具体介绍了运动行为识别***的硬件实现。本***基于ZYNQ-7020平台的ARM+FPGA硬件结构,采用软硬件协同仿真的设计方法来实现常见人体行为动作的六分类算法。硬件部分首先通过Vivado HLS 2019.2工具设计实现卷积神经网络卷积层及全连接层IP核,通过Vivado 2019.2工具建立块设计(Block Design)配置连接IP核搭建硬件平台,通过vitis软硬件协同设计在FPGA开发板上实现运动行为识别***,最后对算法的FPGA设计和实现做了测试和分析。
此***总体分为PC端和FPGA Venes2平台(Zynq-7020核心板的Zynq芯片型号为XC7Z020CLG400-2,PL逻辑单元达85K,BRAM存储资源为4.9Mbit)两个部分,PC端一方面是用作与FPGA平台进行串口数据传输,其次需要将PC端训练好的卷积神经网络权值参数导入FPGA平台;FPGA平台的PS部分主要负责控制驱动各个接口,PL部分则负责卷积神经网络模型的运算加速。最终将计算结果通过串口返回给PC端进行显示,而设计方案的总体框图如图2所示。
本申请ARM+FPGA的硬件结构即发挥了FPGA逻辑控制对大量数据进行高速处理的优势,又结合了ARM软件编程灵活的特点,其主要流程图如图3所示。
具体地,PC端通过Uart串口将人类活动识别测试集传输到FPGA平台,然后将存储有训练完成的卷积神经网络的权值参数和偏置参数SD卡***FPGA平台。FPGA平台下载程序,加载卷积神经网络开始对人类活动识别测试集进行测试,以获取测试结果,即卷积神经网络的分类结果。FPGA平台通过串口将测试结果返回给PC端,由PC端进行卷积神经网络的性能评估。
在本申请实施例中,在算法的性能评估方面,除了平均准确率外,还选择了查全率(Recall)、查准率(Precision)、F1值(F1-score)这三个指标。对于数据集中的每个活动类别,将模型的预测与基本事实标签进行比较,以计算真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)的数量。总体精确度ACC等于:
Figure BDA0003834793430000101
并且一个典型类别的查准率(Precision)和召回率(Recall)可以通过以下公式计算:
Figure BDA0003834793430000102
Figure BDA0003834793430000103
其中,F1-Score是查准率和召回率的平衡组合,其计算公式为:
Figure BDA0003834793430000104
在一种具体实施例中,由本申请提供的模型训练方法训练得到的卷积神经网络的性能评估情况如下表所示:
表运动行为识别分类模型性能评估
运动行为类型 Precision[%] Recall[%] F1-score[%]
Walking 98.61 100.00 99.30
Walking Upstairs 95.83 100.00 97.87
Walking Downstairs 100.00 96.67 98.31
Sitting 95.00 86.36 90.48
Standing 88.16 94.37 91.16
Laying 100.00 100.00 100.00
在本申请实施例中,终端设备训练了一种基于卷积神经网络的运动行为识别分类模型。将滤波后的UCI-HAR动作识别数据库中的加速度,角速度,陀螺仪这九通道信号调整为9*128大小的特征矩阵,利用运动信号特征矩阵数据训练所提出的卷积神经网络模型,最终模型在测试集上进行验证的平均分类准确率为96.27%。在保证低延迟的条件下,本申请对资源利用方面也进行了优化,以适应给定的FPGA。此外,本申请通过选择最符合条件的AXI4协议来优化硬件和软件组件之间的通信。因此,本申请将***的性能较于纯ARM软件实现提高明显,并在高效利用有限的硬件资源的同时满足了实时约束。实现了基于FPGA的运动行为识别***。利用生成的高性能算法模块IP核,通过软硬件协同仿真设计,最终在Xilinx Zynq-7020开发平台上实现了分类准确率高、运算速度快、功耗低的运动行为识别***。
小型嵌入式处理器的性能由于成本、功耗和尺寸而受到限制,硬件加速通常会提高这些片上***(SoC)的性能,因此,当今的SoC(例如Xilinx Zynqs)将ARM处理器与FPGA结合在一个芯片上。这结合了这两个领域的优点:***的某些部分(例如操作***)可以更好地在软件中执行,而与性能相关,并行度高的任务则更好地在硬件中实现。本文借助Vivado高层次综合(HLS)等设计工具,可以从C和C++代码进行硬件综合,尽管这些条件可以快速实现硬件加速,但必须进行设计优化以满足资源和性能限制;再者使用vivado HLS开发避免了使用Verilog或VHDL硬件描述语言进行开发,会具有开发周期长、成本高、难度大以及调试困难等缺点,本申请的主要有益效果如下:
1.在基于UCI-HAR的人体运动识别上,搭建了一个具有BN融合结构的卷积神经网络用于硬件实现,减少了内存的消耗,并取得非常好的分类结果。
2.以FPGA作为硬件平台,鉴于FPGA在深度学习加速方面的可行性,研究人体行为识别模型的FPGA实现。
3.在保证低延迟的条件下,本申请对资源利用方面也进行了优化,以适应给定的FPGA。此外,本申请通过选择最符合条件的协议来优化硬件和软件组件之间的通信。因此,本申请将***的性能较于纯ARM软件实现大幅提高,并在高效利用有限的硬件资源的同时满足了实时约束。最终,本申请实现了将硬件IP核集成到了一个复杂的嵌入式***中。
本申请采取了来自UCI的UCI-HAR对算法进行验证,UCI数据集是一个常用的机器学习标准测试数据集,是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库。机器学习算法的测试大多采用的便是UCI数据集,其重要之处在于“标准”二字,新编的机器学习程序可以采用UCI数据集来进行测试,类似的机器学习算法也可以一较高下。
具体的PC端训练测试结果以及vitis下通过串口返回的测试结果如图8所示,虽然会因为硬件的定点量化从而损失一些准确度百分比,但不会影响整体***性能。
为实现上述实施例中的基于FPGA实现的运动活动识别模型的模型训练方法,本申请还提供另一种终端设备300,具体请参见图9,本申请实施例的终端设备300包括处理器31、存储器32、输入输出设备33以及总线34。
该处理器31、存储器32、输入输出设备33分别与总线34相连,该存储器32中存储有程序数据,处理器31用于执行程序数据以实现上述实施例所述的基于FPGA实现的运动活动识别模型的模型训练方法。
在本申请实施例中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电压控制***芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电压控制***(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable Gate Array)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,请继续参阅图10,图10是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质400中存储有程序数据41,该程序数据41在被处理器执行时,用以实现上述实施例的基于FPGA实现的运动活动识别模型的模型训练方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,方式利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于FPGA实现的运动活动识别模型的模型训练方法,其特征在于,所述模型训练方法包括:
获取人类活动识别数据集,并从所述人类活动识别数据集划分人类活动识别训练集和人类活动识别测试集;
将所述人类活动识别训练集输入卷积神经网络进行训练,其中,所述卷积神经网络包括若干组卷积IP核,以及全连接IP核;
利用所述人类活动识别测试集测试训练完成的卷积神经网络,获取所述训练完成的卷积神经网络的性能评估信息。
2.根据权利要求1的模型训练方法,其特征在于,
所述卷积IP核包括卷积层、归一化层以及激活函数。
3.根据权利要求2所述的模型训练方法,其特征在于,
所述卷积IP核的详细运算过程如下:
Figure FDA0003834793420000011
其中,每个输出矩阵的大小是N-m+l,其中,
Figure FDA0003834793420000012
中的l表示第l个卷积层,i表示第i个卷积输出矩阵的某个值,j表示对应的输出矩阵的编号,从左往右依次表示为0到N,N表示卷积输出矩阵的个数。f表示非线性激活函数。
4.根据权利要求2所述的模型训练方法,其特征在于,
所述归一化层的详细运算过程如下:
Figure FDA0003834793420000013
其中,μ为一个batch内的均值,σ2为一个batch内的标准差,ε为一个预设常数,γ和β均为一个可学习的参数,在训练过程中,和其他卷积核的参数一样,通过梯度下降来学习。
5.根据权利要求1所述的模型训练方法,其特征在于,
所述全连接IP核设置于所述卷积神经网络的输出端,用于实现所述卷积神经网络最终的分类输出。
6.根据权利要求1所述的模型训练方法,其特征在于,
所述将所述人类活动识别训练集输入卷积神经网络进行训练之后,所述模型训练方法还包括:
将所述训练完成的卷积神经网络的权值参数和偏置参数保存为预设文件格式,并存入初始化的存储卡,输入到测试平台进行测试。
7.根据权利要求6所述的模型训练方法,其特征在于,
所述利用所述人类活动识别测试集测试训练完成的卷积神经网络,获取所述训练完成的卷积神经网络的性能评估信息,包括:
将所述人类活动识别测试集传输到所述测试平台,以使所述测试平台按照所述人类活动识别测试集对所述存储卡中的权值参数和偏置参数组成的卷积神经网络进行测试;
获取所述测试平台上的卷积神经网络返回的分类结果;
基于所述分类结果计算所述卷积神经网络的性能评估信息。
8.根据权利要求7所述的模型训练方法,其特征在于,
所述性能评估信息的类型包括平均准确率、查全率、查准率以及F1值中的一种或多种指标类型。
9.一种终端设备,其特征在于,所述终端设备包括处理器、与所述处理器连接的存储器,其中,
所述存储器存储有程序指令;
所述处理器用于执行所述存储器存储的程序指令以实现如权利要求1至8所述的基于FPGA实现的运动活动识别模型的模型训练方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序指令,所述程序指令被执行时实现如权利要求1至8所述的基于FPGA实现的运动活动识别模型的模型训练方法。
CN202211085380.4A 2022-09-06 2022-09-06 基于fpga实现的运动活动识别模型的模型训练方法及其设备 Pending CN115471910A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211085380.4A CN115471910A (zh) 2022-09-06 2022-09-06 基于fpga实现的运动活动识别模型的模型训练方法及其设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211085380.4A CN115471910A (zh) 2022-09-06 2022-09-06 基于fpga实现的运动活动识别模型的模型训练方法及其设备

Publications (1)

Publication Number Publication Date
CN115471910A true CN115471910A (zh) 2022-12-13

Family

ID=84368972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211085380.4A Pending CN115471910A (zh) 2022-09-06 2022-09-06 基于fpga实现的运动活动识别模型的模型训练方法及其设备

Country Status (1)

Country Link
CN (1) CN115471910A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077586A (zh) * 2023-10-16 2023-11-17 北京汤谷软件技术有限公司 一种电路设计的寄存器传输级资源预测方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN114943324A (zh) * 2022-05-26 2022-08-26 中国科学院深圳先进技术研究院 神经网络训练方法、人体运动识别方法及设备、存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180357542A1 (en) * 2018-06-08 2018-12-13 University Of Electronic Science And Technology Of China 1D-CNN-Based Distributed Optical Fiber Sensing Signal Feature Learning and Classification Method
CN114943324A (zh) * 2022-05-26 2022-08-26 中国科学院深圳先进技术研究院 神经网络训练方法、人体运动识别方法及设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王嘉晨: "基于深度学习的高清图像目标检测算法FPGA实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, pages 27 *
苗珠环: "基于FPGA的VGG-16神经网络算法的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, pages 9 - 14 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117077586A (zh) * 2023-10-16 2023-11-17 北京汤谷软件技术有限公司 一种电路设计的寄存器传输级资源预测方法、装置及设备
CN117077586B (zh) * 2023-10-16 2024-01-19 北京汤谷软件技术有限公司 一种电路设计的寄存器传输级资源预测方法、装置及设备

Similar Documents

Publication Publication Date Title
Nguyen et al. Trends in human activity recognition with focus on machine learning and power requirements
Tang et al. Layer-wise training convolutional neural networks with smaller filters for human activity recognition using wearable sensors
Xu et al. Human activity recognition and embedded application based on convolutional neural network
Jafari et al. Sensornet: A scalable and low-power deep convolutional neural network for multimodal data classification
Sze Designing hardware for machine learning: The important role played by circuit designers
Torti et al. Embedded real-time fall detection with deep learning on wearable devices
Liu et al. Deepfood: Deep learning-based food image recognition for computer-aided dietary assessment
Adithya et al. Hand gestures for emergency situations: A video dataset based on words from Indian sign language
Coelho et al. A lightweight framework for human activity recognition on wearable devices
Li et al. Deep learning of smartphone sensor data for personal health assistance
WO2021139337A1 (zh) 基于深度学习模型的步态识别方法、装置和计算机设备
Zheng et al. Meta-learning meets the Internet of Things: Graph prototypical models for sensor-based human activity recognition
CN111954250A (zh) 一种轻量级Wi-Fi行为感知方法和***
CN111178288A (zh) 基于局部误差逐层训练的人体姿态识别方法和装置
Kong et al. Exploratory data analysis of human activity recognition based on smart phone
CN115471910A (zh) 基于fpga实现的运动活动识别模型的模型训练方法及其设备
Wang et al. Real-time block-based embedded CNN for gesture classification on an FPGA
Kulkarni et al. Sketching-based high-performance biomedical big data processing accelerator
Mohammadi et al. Static hand gesture recognition for American sign language using neuromorphic hardware
Contoli et al. A study on the application of tensorflow compression techniques to human activity recognition
Krishnan et al. Small-world-based structural pruning for efficient FPGA inference of deep neural networks
CN115954019B (zh) 一种融合自注意力和卷积操作的环境噪声识别方法及***
Wainwright et al. Human activity recognition making use of long short-term memory techniques
Wenzheng Human activity recognition based on acceleration sensor and neural network
WO2024049998A1 (en) Neuromorphic analog signal processor for predictive maintenance of machines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination