CN113468929A - 运动状态识别方法、装置、电子设备和存储介质 - Google Patents

运动状态识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113468929A
CN113468929A CN202010246320.0A CN202010246320A CN113468929A CN 113468929 A CN113468929 A CN 113468929A CN 202010246320 A CN202010246320 A CN 202010246320A CN 113468929 A CN113468929 A CN 113468929A
Authority
CN
China
Prior art keywords
target
probability
moment
target pedestrian
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010246320.0A
Other languages
English (en)
Inventor
李飞
范时伟
李向旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010246320.0A priority Critical patent/CN113468929A/zh
Publication of CN113468929A publication Critical patent/CN113468929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请提供了一种运动状态识别方法、装置、电子设备和计算机可读存储介质,属于图像识别领域。该方法通过将待识别的第一时刻的第一图像的至少两个关键点转化为图结构数据,从而将采用图结构数据来表示目标行人的姿态;然后再将图结构数据输入识别模型,通过识别模型对图结构数据进行处理,从而得到在第一时刻该目标行人的运动状态。通过上述过程,将结构复杂的第一图像转化为结构简单的图结构数据,提高了后续运动状态识别的效率。而由于关键点数据与图结构数据中的节点对应,因此图结构数据也反映了目标行人的姿态,电子设备将图结构数据输入识别模型,可以通过识别模型更加精准的识别出目标行人的运动状态。

Description

运动状态识别方法、装置、电子设备和存储介质
技术领域
本申请涉及图像识别领域,特别涉及一种运动状态识别方法、装置、电子设备和计算机可读存储介质。
背景技术
随着智能驾驶的到来,智能车成为各大厂商重点研究的目标。智能驾驶安全性也决定着智能车能否真正大面积投入使用。智能驾驶中的行人保护功能是体现智能驾驶安全性的重要部分,智能驾驶***中的行人感知与识别的性能直接决定了行人保护功能的可靠性。
相关技术中,行人感知通常依赖于视觉感知***,视觉感知***中包括感知模块和识别模块。感知模块用于确定行人的边界矩形框、中心点,对行人的边界矩形框、中心点对进行感知融合处理进而得到行人当前的位置、速度等信息。识别模块用于接收感知模块发送的信息,利用行人的位置、速度等信息对行人未来的运动状态进行识别。
但是,行人通常具有机动性强、速度低、目标小等特性,行人可能根据当前的情况随时改变自身的运动状态,行人的这种特性导致视觉感知***根据行人当前的位置、速度等信息识别行人运动状态的准确性不高。
发明内容
本申请实施例提供了一种运动状态识别方法、装置、电子设备和计算机可读存储介质。能够提高运动状态识别的准确性,所述技术方案如下:
第一方面,提供了一种运动状态识别方法,方法包括:
获取第一时刻的第一图像,所述第一图像包括目标行人;
将所述第一图像中的至少两个关键点转化为图结构数据,每个关键点对应于所述图结构数据中的一个节点,所述至少两个关键点用于表示所述目标行人的姿态;
将所述图结构数据输入识别模型,所述识别模型用于识别所述目标行人的运动状态;
通过所述识别模型对所述图结构数据进行处理,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率;
将所述第一目标概率符合目标条件的运动状态确定为在所述第一时刻所述目标行人的运动状态。
在上述过程中,电子设备可以基于关键点将结构复杂的第一图像转化为结构简单的图结构数据,提高了后续运动状态识别的效率。由于关键点数据与图结构数据中的节点对应,因此图结构数据也反映了目标行人的姿态,电子设备将图结构数据输入识别模型,可以通过识别模型更加精准的识别出目标行人的运动状态。
在一种可能的实施方式中,所述通过所述识别模型对所述图结构数据进行处理,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
提取所述图结构数据中每个节点的空域特征;
基于每个节点的注意力权重,将所述空域特征进行融合,得到所述第一时刻的融合特征;
基于所述第一时刻的融合特征和所述第一时刻之前的第二时刻的空时融合特征,确定所述第一时刻的空时融合特征,所述空时融合特征用于表示所述目标行人的姿态在时间和空间上的变化;
基于所述空时融合特征和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
其中,空域特征,也可以称为空间域特征、像素域特征,用于指示像素点在图像中的位置,在本申请实施例中,节点的空域特征用于反映节点在图像中的位置以及节点之间的连接关系。
在上述过程中,电子设备可以通过第二时刻的空时融合特征和第一时刻的融合特征,确定第一时刻的空时融合特。由于第二时刻的空时融合特征反映了目标行人在第二时刻的姿态变化情况,根据第二时刻空时融合特征和第一时刻的融合特征就可以反映目标行人从第二时刻到第一时刻的姿态变化情况,也即是第一时刻的空时融合特征。基于第一时刻的空时融合特征和第二目标概率输出的识别结果也就更加精准。
在一种可能的实施方式中,所述注意力权重的确定方法包括:
基于所述图结构数据的空域特征和所述每个关键点对应的参数矩阵,确定所述注意力权重。
在一种可能的实施方式中,所述提取所述图结构数据中每个节点的空域特征包括:
通过所述识别模型的空域特征提取层对所述图结构数据进行图卷积处理,得到所述图结构数据中每个节点的空域特征。
在一种可能的实施方式中,所述基于所述空时融合特征和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
基于所述空时融合特征,确定在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率;
基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,输出在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
在一种可能的实施方式中,所述基于所述空时融合特征,确定在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率包括:
将所述空时融合特征映射为第一概率序列,将所述第一概率序列中对应位置的数值,输出为在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率。
在一种可能的实施方式中,所述基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,输出在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,确定归一化因子,所述归一化因子为多种运动状态对应的所述初始概率和所述第二目标概率的乘积和;
基于所述归一化因子、所述初始概率和所述第二目标概率,确定在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
在上述实现方式中,电子设备在确定第一目标概率时参考了第二目标概率,由于目标行人的运动状态在相邻时刻是连续的,这样可以提高第一目标概率的精度,也就提高了运动状态识别的准确性。
在一种可能的实施方式中,响应于所述第一目标概率大于第一概率阈值,将所述第一概率阈值确定为所述第一目标概率;
响应于所述第一目标概率小于第二概率阈值,将所述第二概率阈值确定为所述第一目标概率;所述第一概率阈值大于所述第二概率阈值。
在一些可能的情况下,服务器通过模型可能计算的某个运动状态的第一目标概率过大,接近1,而其他概率接近于0,在这种情况下,识别模型可能会陷入局部最优解,导致错误,采用上述实现方式,服务器可以将第一目标概率的取值范围确定在第一概率阈值和第二概率阈值之间,避免了上述错误的发生。
在一种可能的实施方式中,所述将所述第一图像中的至少两个关键点转化为图结构数据之前,所述方法还包括:
对所述第一图像中的至少两个关键点进行平移和缩放中至少一项处理,基于处理后的至少两个关键点进行图结构数据转化操作。
在一种可能的实施方式中,所述对所述第一图像中的至少两个关键点进行平移和缩放中至少一项处理包括:
以所述目标行人的参考关键点作为原点建立坐标系,确定所述第一图像中至少两个关键点的坐标;
基于所述目标行人的高度对所述至少两个关键点的坐标进行平移和缩放中至少一项处理,得到多个处理后的关键点。
在这种实现方式下,电子设备可以将不同身高、不同骨骼尺寸的目标行人对应的关键点的坐标进行归一化处理,便于后续对于目标行人运动状态的识别。
在一种可能的实施方式中,所述识别模型是根据多个第一样本图像训练得到的;
所述第一样本图像标注了第一标签,所述第一标签表示样本行人的运动状态,所述第一标签根据样本行人的姿态确定。
第二方面,提供了一种运动状态识别装置,该运动状态识别装置具有实现上述第一方面或第一方面任一种可选方式中运动状态识别的功能。该运动状态识别装置包括至少一个模块,至少一个模块用于实现上述第一方面或第一方面任一种可选方式所提供的运动状态识别方法。
在一种可能的实施方式中,所述将所述第一图像中的至少两个关键点转化为图结构数据的触发条件包括:对所述第一图像进行图像识别,确定所述第一图像中包括所述目标行人。
在一种可能的实施方式中,所述装置应用于车载终端。
第三方面,提供了一种电子设备,该电子设备包括处理器,该处理器用于执行指令,使得该电子设备执行上述第一方面或第一方面任一种可选方式所提供的运动状态识别方法。第三方面提供的电子设备的具体细节可参见上述第一方面或第一方面任一种可选方式,此处不再赘述。
第四方面,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令,该指令由处理器读取以使电子设备执行上述第一方面或第一方面任一种可选方式所提供的运动状态识别方法。
第五方面,提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面或第一方面任一种可选方式所提供的运动状态识别方法。
第六方面,提供了一种芯片,当该芯片在电子设备上运行时,使得电子设备执行上述第一方面或第一方面任一种可选方式所提供的运动状态识别方法。
附图说明
图1是本申请实施例提供的一种运动状态识别方法的实施环境的示意图;
图2是本申请实施例提供的一种识别模型的结构图;
图3是本申请实施例提供的一种智能驾驶场景中感知***和规控***之间的交互示意图;
图4是本申请实施例提供的一种运动状态识别方法的流程图;
图5本申请实施例提供的一种图结构数据示意图;
图6本申请实施例提供的一种确定第一时刻空时融合特征的流程示意图;
图7本申请实施例提供的一种运动状态识别装置的结构示意图图;
图8是本申请实施例提供的一种终端100的结构示意图;
图9是本申请实施例提供的一种计算设备900的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“至少两个”的含义是指两个或多个,例如,至少两个第二报文是指两个或两个以上的第二报文。本申请中数据“多个”的含义是指三个多个多个。本申请中术语“***”和“网络”经常可互换使用。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
以下,示例性介绍本申请的硬件环境。
图1是本申请实施例提供的一种运动状态识别方法的实施环境的示意图。该实施环境包括:终端和运动状态识别平台。
参见图1,终端可以是车载终端101、智能手机102、平板电脑103或者便携式计算机104。当然,图1所示的几种终端仅是举例,终端也可以是其他支持运动状态识别功能的电子设备,例如交通摄像头、监控设备等等,本实施例对终端的设备类型不做限定。
终端可以运行有支持运动状态识别的应用程序。该应用程序可以是智能驾驶应用、交通违法检测应用、安保应用等。示例性的,终端是用户使用的终端,终端运行的应用程序内登录有用户账号,该用户账号可以预先在运动状态识别平台中注册。终端可以通过无线网络或有线网络与运动状态识别平台相连。
运动状态识别平台用于为支持运动状态识别的应用程序提供后台服务。例如,运动状态识别平台可以执行下述方法实施例,训练得到识别模型,将识别模型发送给终端,以便终端利用识别模型来进行运动状态识别。
运动状态识别平台包括服务器201以及数据库202。服务器201可以是一台服务器,也可以是多台服务器组成的集群。数据库202中可以用于存储样本集,例如包含大量样本图像的样本图像集。服务器201可以访问数据库202,得到数据库202存储的样本集,通过样本集训练得到识别模型。
本领域技术人员可以知晓,上述终端、服务器或者数据库的数量可以更多或更少。比如上述终端、服务器或者数据库可以仅为一个,或者上述为几十个或几百个,或者更多数量,此时虽图中未示出,运动状态识别***还包括其他终端、其他服务器或者其他数据库。
以上示例性介绍了***架构,以下示例性介绍基于上文提供的***架构进行运动状态识别的方法流程。
首先对本申请实施例提供的识别模型的结构进行说明:
在本申请实施例中,电子设备可以训练一个识别模型来基于第一图像识别目标行人的运动状态,在一种可能的实现方式中,该识别模型可以包括空域特征提取层、空域特征融合层、空时融合特征提取层以及初始概率确定层。下面对于各个层的功能进行介绍:
空域特征提取层用于对图结构数据进行特征提取,得到图结构数据的空域特征,方法包括:电子设备可以通过空域特征提取层对图结构数据进行图卷积处理,得到图结构数据中每个节点的空域特征,并将每个节点的空域特征发送至空域特征融合层。识别模型中至少包括两层空域特征提取层。
空域特征融合层用于对多个节点的空域特征进行融合,得到第一时刻的融合特征,方法包括:电子设备可以基于每个节点对应权重,将每个节点的空域特征进行加权求和,得到第一时刻的融合特征。电子设备可以将融合特征发送至空时融合特征提取层。
空时融合特征提取层用于根据第一时刻的融合特征和第一时刻之前的第二时刻的空时融合特征,确定第一时刻对应的空时融合特征,空时融合特征用于表示目标行人的姿态在时间和空间上的变化,方法包括:电子设备可以生成一个包含第一时刻的融合特征和第二时刻的空时融合特征的特征融合序列,对特征融合序列进行特征提取,得到第一时刻对应的空时融合特征,将第一时刻的空时融合特征发送至第一概率确定层。
初始概率确定层用于根据第一时刻的空时融合特征识别目标行人的不同运动状态分别对应的初始概率,方法包括:电子设备可以通过初始概率确定层将空时融合特征映射为一个初始概率序列,初始概率序列中的每个数字对应于一种运动状态的初始概率。
识别模型的结构可以参见图2。在一种可能的实施方式中,空时特征提取层的结构可以为图卷积网络(Graph Convolutional Network,GCN),空域特征融合层可以为一个包含注意力权重(Attention)的模型层,空时特征融合层的结构可以为循环门控单元(GatedRecurrent Unit,GRU),初始概率确定层可以为逻辑回归(Softmax)层。除了上述结构之外,在空域特征融合层之后,还可以包括一个参数调整层,参数调整层的结构可以为(BatchNormalization,BN),该参数调整层用于将空域融合特征层的得到的融合特征转化为标准正态分布的特征,使得空时特征融合层的输入落入对输入比较敏感的区域,以此避免梯度消失问题。当然,在其他可能的实施方式中,识别模型也可以包括其他结构的模型层,本申请对此不做限定。
运动状态识别的方法流程可以包括模型训练阶段以及模型识别阶段。以下,首先对模型训练阶段的方法流程进行介绍,通过图4实施例,对模型预测阶段的方法流程进行介绍。
识别模型的训练方法可以包括数据收集以及模型训练两个过程。
在数据收集过程中:电子设备可以获取多个在时序上相邻的第一样本图像,每个第一样本图像中均可以包括样本行人,相关技术人员可以根据样本行人的姿态在第一样本图像上标注不同样本行人的运动状态。第一样本图像可以来源于交通摄像头拍摄的图像以及车辆在实际行驶过程中拍摄的图像,本申请实施例对于第一样本图像的来源不做限定。
在模型训练过程中:电子设备可以生成一个初始识别模型,初始识别模型可以包括初始空域特征提取层、初始空域特征融合层、初始空时融合特征提取层以及初始概率确定层。电子设备可以对第一样本图像进行图像识别,在第一样本图像中确定样本行人所在的区域,在该区域内确定样本行人的至少两个关键点,将至少两个关键点转化为图结构数据,每个关键点对应于图结构数据中的一个节点。电子设备可以将图结构数据发送给初始空域特征提取层,通过初始空域特征提取层提取每个节点的空域特征。电子设备可以将每个节点的空域特征发送给初始空域特征融合层,通过初始空域特征融合层基于初始权重将每个节点的空域特征进行融合,得到第一样本融合特征。电子设备可以将第一样本融合特征发送至初始空时融合特征提取层,通过初始空时融合特征提取层基于第一样本融合特征和第二样本空时融合特征,确定节点对应的样本空时融合特征,其中,第二样本空时融合特征为第一样本融合特征前一时刻样本的空时融合特征。若不存在第二样本空时融合特征,也即是第一次训练过程中,电子设备可以将第二样本空时融合特征初始化为0,将0和第一样本融合特征输入初始空时融合特征提取层,通过初始空时融合特征提取层基于第一样本融合特征确定节点对应的第一样本空时融合特征。电子设备可以将节点对应的样本空时融合特征发送至初始概率确定层,由初始概率确定层将节点对应的样本空时融合特征映射为一个样本概率序列,样本概率序列中的每个数字对应于一种运动状态的初始概率。电子设备可以将初始概率符合目标条件的运动状态确定为样本行人的参考运动状态。电子设备可以基于第一样本图像上标注的不同样本行人对应的运动状态与参考运动状态之间的差异信息,调整初始识别模型中各个层的参数,直至初始识别模型符合迭代截止条件,将此时的初始识别模型作为识别模型。
除了上述识别模型训练过程,电子设备还可以单独训练一个关键点确定模型,该关键点确定模型具有从第一图像中确定目标行人关键点的能力。在本申请实施例中,关键点可以为目标行人的关节,那么电子设备可以将多个包含样本行人的图像输入初始关键点确定模型,以标注了样本行人关节的图像作为监督对初始关键点确定模型进行训练,得到具有确定第一图像中关键点能力的关键点确定模型。
需要说明的是,识别模型可以由服务器来训练,也可以由终端来训练,当然也可以通过终端和服务器之间的交互来进行训练,本申请实施例对于模型训练方法的执行主体不做限定。
本申请实施例提供的运动状态识别方法,不仅适用于智能驾驶的场景中,也适用于在智能交通、安防等需要对行人运动状态进行识别的场景。下面以智能驾驶场景为例对本申请实施例提供的运动状态识别方法进行说明:
在智能驾驶场景中,行人保护功能是智能驾驶车辆的重要功能之一,行人运动状态是行人的重要信息,行人运动状态的稳定识别可以改善感知***的性能,进而提高行人预测的精度以及时效性,在危险场景下有利于规控***采取紧急安全措施保障车辆安全与行人安全,避免碰撞的发生如图3所示。
本申请的实现可以借助于智能驾驶车辆的软硬件***,其中硬件***包括感知***中的传感器、处理器等。感知***用于对自车周围环境的感知,输出障碍物目标,处理器用于实现感知***、预测***、规划控制***中所需要的处理,如通用处理器、图形图像处理器等。软件***包括操作***、传感器驱动以及各个***的处理程序等。
本申请位于智能驾驶软件***中的感知预测***,本申请输出的行人运动状态可以发送给感知***、预测***中的其他子模块。
下面,以电子设备为服务器为例,来对运动状态识别方法的一种可能实现方式进行说明:
参见图4,该图4为本申请实施例提供的一种运动状态识别方法的流程图,具体包括如下步骤:
401、服务器获取第一图像,第一图像内包括目标行人。
其中,第一图像可以为车辆行驶过程中通过拍摄设备获取的图像,也可以为交通摄像头获取的图像,还可以为安防摄像头拍摄的图像。目标行人可以为待进行运动状态识别的行人,目标行人可以有一个,也可以有多个,下面以目标行人为一个为例进行说明。
终端在通过拍摄设备获取第一图像之后,可以将第一图像发送给服务器。服务器接收第一图像之后,可以基于第一图像,识别目标行人的运动状态。
402、服务器对第一图像中的至少两个关键点进行平移和缩放中至少一项处理,基于处理后的至少两个关键点进行步骤403所述的图结构数据转化操作。
其中,关键点可以为目标行人的关节,或者是其他能反应目标行人身体结构的节点。
在一种可能的实施方式中,服务器可以以目标行人的参考关键点作为原点建立坐标系,确定第一图像中至少两个关键点的坐标,其中,参考关键可以是目标行人的颈部关键点或者是鼻子关键点,本申请实施例对此不做限定。服务器可以基于目标行人的高度对至少两个关键点的坐标进行平移和缩放中至少一项处理,得到多个处理后的关键点。以关键点为目标行人的关节,参考关键点为颈部关键点为例进行说明,服务器可以将目标行人的颈部关节确定为颈部关键点,以颈部关键点为原点建立坐标系,确定第一图像中至少两个关键点的坐标,比如目标行人的肩部关节可以作为一个关键点,该关键点的坐标可以为(35,10)。服务器可以根据目标行人的至少两个关键点,确定目标行人的高度,该高度可以是目标行人在第一图像中高度维占据的像素单元个数。服务器可以将每个关键点的横坐标和纵坐标均与目标行人的高度相除,得到处理后的关键点。举例来说,服务器可以在目标行人的至少两个关键点中确定纵坐标最大的第一关键点和纵坐标最小的第二关键点,获取第一关键点和第二关键点的纵坐标差值的绝对值,将该绝对值作为目标行人的高度。在上述过程中,若第一关键点的坐标为(20,45),第二关键点的坐标为(15,15),那么服务器可以确定第一关键点和第二关键点的纵坐标差值的绝对值为30,目标行人的肩部关节的坐标就被服务器变换为了(1.17,0.33)。在这种实现方式下,服务器可以将不同身高、不同骨骼尺寸的目标行人对应的关键点的坐标进行归一化处理,便于后续对于目标行人运动状态的识别。具体方法可以参见公式(1)和公式(2)。
Pi=Pi-P0 (1)
xi=xi/H,yi=yi/H (2)
其中,P0为颈部关键点的坐标,Pi为第i个关键点的坐标,xi为第i个关键点的横坐标,yi为第i个关键点的纵坐标,H为第一关键点和第二关键点的纵坐标差值的绝对值。
在服务器执行步骤402之前,服务器需要从第一图像中确定至少两个关键点,下面对服务器在第一图像中确定关键点的方法进行说明:
服务器可以从其对应维护的数据库中调取训练过后的关键点确定模型,该关键点确定模型具有在第一图像中识别目标行人并确定关键点的能力,该关键点确定模型的训练方法可以参见之前的模型训练部分,在此不再赘述。服务器可以将第一图像输入到关键点确定模型中,由该关键点确定模型对第一图像进行卷积处理,在第一图像中确定出目标行人所在的区域,进一步在该区域内确定第一图像的至少两个关键点。若关键点为目标行人的关节,那么该关键点确定模型可以在第一图像中确定出目标行人的关节所在的位置,并将该位置作为关键点。该关键点确定模型可以为一个深度学习模型,例如卷积神经网络(Convolutional Neural Networks,CNN)等,本申请实施例对此不做限定。
403、服务器将第一图像中的至少两个关键点转化为图结构数据,每个关键点对应于图结构数据中的一个节点,至少两个关键点用于表示目标行人的姿态。
其中,图结构数据是一种非线性的数据结构,图结构数据中包括多个节点,图结构数据可以用于反映不同节点之间的关系。图5就是一种图结构数据,其中数字用于表示不同节点的编号,在一种可能的实施方式中,编号为0的节点可以为步骤402中所述的颈部关键点。在本申请中,关键点可以为目标行人的关节,那么服务器在第一图像中确定出至少两个关键点之后,可以根据目标行人关节之间的连接关系,将至少两个关键点转化为类似于图5的图结构数据。在这种实现方式下,服务器可以将结构较为复杂的第一图像转化为结构较为简单的图结构数据,同时图结构数据的每个节点也对应于第一图像的一个关键点,可以通过更少的数据进行运动状态识别,减少了计算资源的消耗,提高了运动状态识别的效率。
404、服务器将图结构数据输入识别模型,识别模型用于识别目标行人的运动状态。
其中,识别模型具有基于图结构数据识别目标行人运动状态的能力,识别模型的训练方法可以参见之前关于模型训练的部分,在此不再赘述。
405、服务器通过识别模型对图结构数据进行处理,得到在第一时刻目标行人的不同运动状态分别对应的第一目标概率,将第一目标概率符合目标条件的运动状态确定为在第一时刻目标行人的运动状态。
服务器可以通过识别模型获得目标行人运动状态的识别结果,详见下述步骤4051至4054。
4051、服务器通过识别模型提取图结构数据中每个节点的空域特征。
其中,空域特征可以用于反映节点的位置特征以及不同节点之间的连接关系。
在一种可能的实施方式中,服务器可以通过识别模型的空域特征提取层对图结构数据进行图卷积处理,得到图结构数据中每个节点的空域特征。参见公式(3),其中,f()为关键点的空域特征,A为节点的邻接矩阵,邻接矩阵用于表示不同节点之间的连接关系,若图结构数据中存在18个节点,那么A可以为一个18ⅹ18的矩阵,矩阵中的每一行表示一个节点Mi与其他节点的连接关系,若节点Mi与节点Mj直接相连,那么在矩阵A的i行j列的位置上的数字为1;若节点Mi与节点Mj不直接相连,那么在矩阵A的i行j列的位置上的数字为0,W0与W1对应第一层第二层图空域特征提取层的权重矩阵,X为所有节点的特征矩阵,tanh()为双曲正切激活函数,σ()为S型生长曲线(sigmoid)激活函数。
f(X,A)=σ(A·tanh(AXW0)W1) (3)
服务器可以将每个关键点的横坐标和纵坐标组成对应节点的坐标矩阵,将该坐标矩阵输入空域特征提取层,由空域特征提取层基于权重矩阵和节点的特征矩阵对该坐标矩阵进行处理,得到每个关键点的空域特征。
4052、服务器通过识别模型基于每个节点的注意力权重,将空域特征进行融合,得到第一时刻的融合特征。
其中,注意力权重用于表示在运动状态识别过程中不同节点的重要性。
在一种可能的实施方式中,服务器可以基于图结构数据的空域特征和每个关键点对应的参数矩阵,确定注意力权重,其中,参数矩阵可以在模型训练过程中确定,也可是开发人员根据实际情况设定的,本申请实施例对此不做限定。服务器可以基于注意力权重将每个节点的空域特征加权求和,得到第一时刻的融合特征。公式(4)是服务器确定注意力权重的原理,公式(5)是服务器基于注意力权重将每个节点的空域特征加权求和,得到第一时刻的融合特征的原理。
si=σ(Wi′fi) (4)
Figure BDA0002434068310000091
其中,W'i为第i个节点对应的参数矩阵,si为第i个节点的注意力权重,fi为第i个节点的空域特征,F为融合特征,K为图结构数据中节点的数量。
4053、服务器通过识别模型基于第一时刻的融合特征和第一时刻之前的第二时刻的空时融合特征,确定第一时刻的空时融合特征,空时融合特征用于表示目标行人的姿态在时间和空间上的变化。
其中,第二时刻的空时融合特征可以为服务器对第二图像进行上述401-4053的处理过程之后得到的空时融合特征,第二图像可以为第一图像的前一时刻获取的图像,第二图像中至少包括第一图像中的目标行人。
在一种可能的实施方式中,服务器可以将第一时刻的融合特征和第二时刻的空时融合特征输入识别模型的空时融合特征提取层中,由该空时融合特征提取层对第一时刻的融合特征和第二时刻的空时融合特征进行特征提取,得到多个关键点的空时融合特征。该空时融合特征提取层可以为一个循环神经网络(Recurrent Neural Network,RNN)层。
以采用RNN层为例进行说明,参见图6,ht-1为第二时刻的空时融合特征的隐状态信息、ht为第一时刻的空时融合特征的隐状态信息、xt-1为第二时刻的融合特征、xt为第一时刻的融合特征。需要说明的是,该空时融合特征提取层处理可以为图6所示的结构以外,也可以为其他循环神经网络结构,例如长短期记忆网络(Long-Short Term Memory,LSTM)以及门控循环单元(Gated Recurrent Unit,GRU)等,本申请实施例对此不做限定。
在另一种可能的实施方式中,服务器也可以通过识别模型的空时融合特征提取层确定第一时刻的融合特征和第二时刻的融合特征之间的差异信息,根据该差异信息,确定多个关键点的空时融合特征。举例来说,服务器可以采用向量来表示第一时刻的融合特征和第二时刻的融合特征。服务器可以根据第一时刻的特征融合向量和第二时刻的特征融合向量确定二者之间的差异信息,该差异信息可以反映目标行人的姿态在时间和空间上的变化。服务器可以将该差异信息作为第一时刻的空时融合特征。其中,差异信息可以为第一时刻的特征融合向量和第二时刻的特征融合向量之间余弦相似度的倒数。
4054、服务器通过识别模型基于空时融合特征和在第二时刻目标行人的不同运动状态分别对应的第二目标概率,得到在第一时刻目标行人的不同运动状态分别对应的第一目标概率,将第一目标概率符合目标条件的运动状态确定为在第一时刻目标行人的运动状态。
其中,运动状态可以包括奔跑、行走、下蹲、静止、跳跃等状态。
在一种可能的实施方式中,服务器可以通过识别模型,基于空时融合特征,确定在第一时刻目标行人的不同运动状态分别对应的初始概率。服务器可以基于初始概率和在第二时刻目标行人的不同运动状态分别对应的第二目标概率,输出在第一时刻目标行人的不同运动状态分别对应的第一目标概率。具体来说,服务器可以通过识别模型的初始概率确定层,将空时融合特征映射为第一概率序列,将第一概率序列中对应位置的数值,输出为在第一时刻目标行人的不同运动状态分别对应的初始概率。服务器可以将初始概率和第二目标概率进行加权求和,确定目标行人的不同运动状态分别对应的第一目标概率,将第一目标概率符合目标条件的运动状态确定为目标行人的运动状态。举例来说,若服务器通过识别模型的初始概率确定层将空时融合特征映射为初始概率序列[0.1,0.15,0.05,0.7],其中,0.1可以对应于奔跑的初始概率,0.15可以对应于行走的初始概率,0.05可以对应于下蹲的初始概率,0.7可以对应于静止的初始概率,服务器可以获取第二目标概率序列例如[0.04,0.06,0.1,0.8],其中,0.04可以对应于奔跑的第二目标概率,0.06可以对应于行走的第二目标概率,0.1可以对应于下蹲的第二目标概率,0.8可以对应于静止的第二目标概率。服务器可以对初始概率序列和第二目标概率序列中相同运动状态对应的概率进行加权求和,得到目标行人的不同运动状态分别对应的第一目标概率序列,例如[0.02,0.03,0.05,0.9],其中,0.02可以对应于奔跑的第一目标概率,0.03可以对应于行走的第一目标概率,0.05可以对应于下蹲的第一目标概率,0.9可以对应于静止的第一目标概率。服务器可以将第一目标概率最高的运动状态确定为目标行人的运动状态,在上述举例中,静止对应的第一目标概率最高,那么服务器可以将静止确定为目标行人的运动状态。
在另一种可能的实施方式中,服务器可以基于初始概率和在第二时刻目标行人的不同运动状态分别对应的第二目标概率,确定归一化因子,归一化因子为多种运动状态对应的初始概率和第二目标概率的乘积和。服务器可以基于归一化因子、初始概率和第二目标概率,确定在第一时刻目标行人的不同运动状态分别对应的第一目标概率。例如,服务器可以采用证据理论(Dempster-Shafer envidence theory,DS)确定归一化因子以及第一目标概率。服务器可以采用公式(6)确定归一化因子,采用公式(7)确定第一目标概率。
Figure BDA0002434068310000111
Figure BDA0002434068310000112
其中,Pft=i)为在第一时刻目标行人为第i个运动状态的第一目标概率,i=0对应静止,i=1对应行走,1-K为归一化因子,Pft-1=i)为在第二时刻目标行人为第i个运动状态的第二目标概率,P(θt=i)为初始概率,N为运动状态的数量。
除此之外,服务器还可以为计算出的目标概率设定第一概率阈值和第二概率阈值,参见公式8,响应于第一目标概率大于第一概率阈值,服务器可以将第一概率阈值确定为第一目标概率。响应于第一目标概率小于第二概率阈值,服务器可以将第二概率阈值确定为第一目标概率。当目标概率处于第一目标概率和第二目标概率之间时,服务器可以将目标概率确定为计算出的目标概率。其中,第一概率阈值大于第二概率阈值。例如,服务器可以将第一概率阈值确定为0.9,将第二概率阈值确定为0.1。当第一目标概率为0.93时,服务器可以将目标概率调整为0.9;当第一目标概率为0.01时,服务器可以将目标概率调整为0.1。
Figure BDA0002434068310000113
其中,Pmax为第一概率阈值,Pmin为第二概率阈值。
在一些可能的情况下,服务器通过模型可能计算的某个运动状态的第一目标概率过大,接近1,而其他概率接近于0,在这种情况下,识别模型可能会陷入局部最优解,导致错误,采用上述实现方式,服务器可以将第一目标概率的取值范围确定在第一概率阈值和第二概率阈值之间,避免了上述错误的发生。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是,上述步骤401-405是以服务器为执行主体进行说明的,在另一些可能的实现方式中,也可以由终端,或者由终端和服务器之间的交互来执行上述步骤401-405,本申请实施例对此不做限定。
通过本申请实施例提供的技术方案,电子设备可以确定第一图像中的关键点,并基于关键点将结构较为复杂的第一图像转化为结构较为简单的图结构数据,提高了后续运动状态识别的效率。电子设备可以将图结构数据输入识别模型,由识别模型对图结构数据进行处理,得到目标行人的运动状态。在电子设备通过识别模型对图结构数据进行处理的过程中,提取了图结构数据中每个节点的空域特征,并基于每个节点的注意力权重将多个节点的空域特征进行融合,得到第一时刻的融合特征。由于注意力权重反映了每个节点在运动状态识别过程中的重要性,得到的融合特征也就能够更加贴切的反映目标行人在第一时刻的姿态。在此之后,服务器根据第二时刻的空时融合特征和第一时刻的融合特征,确定第一时刻的空时融合特。由于第二时刻的空时融合特征反映了目标行人在第二时刻的姿态变化情况,根据第二时刻空时融合特征和第一时刻的融合特征就可以反映目标行人从第二时刻到第一时刻的姿态变化情况,也即是第一时刻的空时融合特征。服务器可以基于空时融合特征和在第二时刻目标行人的不同运动状态分别对应的第二目标概率,确定在第一时刻目标行人的不同运动状态分别对应第一目标概率,根据第一目标概率确定在第一时刻目标行人的运动状态。也就是说,在服务器确定第一目标概率的过程中,参考了第二目标概率,由于目标行人的运动状态在相邻时刻是连续的,这样可以提高第一目标概率的精度,也就提高了运动状态识别的准确性。
以上介绍了本申请实施例的运动状态识别方法,以下介绍本申请实施例的运动状态识别装置,应理解,该应用于运动状态识别装置其具有上述方法中电子设备的任意功能。
图7是本申请实施例提供的一种运动状态识别装置的结构示意图,如图7所示,该运动状态识别装置包括:
第一图像获取模块701,用于执行上述步骤401。
转化模块702,用于执行上述步骤403。
输入模块703,用于执行上述步骤404。
处理模块704,用于执行上述步骤405。
在一种可能的实施方式中,处理模块包括:
空域特征提取子模块,用于执行上述步骤4051。
空域特征融合子模块,用于执行上述步骤4052。
空时融合特征确定子模块,用于执行上述步骤4053。
输出子模块,用于执行上述步骤4054中确定第一目标概率的步骤。
在一种可能的实施方式中,注意力权重的确定方法包括:
基于图结构数据的空域特征和每个关键点对应的参数矩阵,确定注意力权重。
在一种可能的实施方式中,输出子模块还用于执行步骤4054中根据第一概率阈值和第二概率阈值确定第一目标概率的步骤。
在一种可能的实施方式中,装置还包括:
图像处理模块,用于执行上述步骤402。
在一种可能的实施方式中,识别模型是根据多个第一样本图像训练得到的;
第一样本图像标注了第一标签,第一标签表示样本行人的运动状态,第一标签根据样本行人的姿态确定。
在一种可能的实施方式中,所述将所述第一图像中的至少两个关键点转化为图结构数据的触发条件包括:对所述第一图像进行图像识别,确定所述第一图像中包括所述目标行人。
在一种可能的实施方式中,所述装置应用于车载终端。
应理解,图7实施例提供的运动状态识别装置对应于上述方法实施例中的电子设备,电子设备中的各模块和上述其他操作和/或功能分别为了实现方法实施例中的电子设备所实施的各种步骤和方法,具体细节可参见上述方法实施例,为了简洁,在此不再赘述。
应理解,图7实施例提供的运动状态识别装置在识别运动状态时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将运动状态识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的运动状态识别装置与上述运动状态识别的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
以上介绍了本申请实施例的电子设备,以下介绍电子设备可能的产品形态。
应理解,但凡具备上述电子设备的特征的任何形态的产品,都落入本申请的保护范围。还应理解,以下介绍仅为举例,不限制本申请实施例的电子设备的产品形态仅限于此。
本申请实施例提供了一种电子设备,该电子设备包括处理器,该处理器用于执行指令,使得该电子设备执行上述各个方法实施例提供的运动状态识别方法。
作为示例,处理器可以是一个通用中央处理器(central processing unit,CPU)、网络处理器(Network Processor,简称NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路,例如,专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。该处理器可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。该处理器的数量可以是一个,也可以是多个。
在一些可能的实施例中,该电子设备还可以包括存储器。
存储器可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。
存储器和处理器可以分离设置,存储器和处理器也可以集成在一起。在一些可能的实施例中,该电子设备还可以包括收发器。收发器用于与其它设备或通信网络通信,网络通信的方式可以而不限于是以太网,无线接入网(RAN),无线局域网(wireless local areanetworks,WLAN)等。
在一些可能的实施例中,执行上述图4实施例的电子设备可以实现为终端,以下对终端的硬件结构进行示例性描述。
图8是本申请实施例提供的一种终端100的结构示意图。终端100可以是图1所示硬件环境中的车载终端101、智能手机102、平板电脑103或者便携式计算机104,当然也可以是其他类型的终端。
终端100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中,终端100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从该存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现终端100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。该I2S接口和该PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等***器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现终端100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为终端100充电,也可以用于终端100与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端,例如AR设备等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端100的结构限定。在本申请另一些实施例中,终端100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为终端供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
终端100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得终端100可以通过无线通信技术与网络以及其他设备通信。该无线通信技术可以包括全球移动通讯***(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。该GNSS可以包括全球卫星定位***(global positioning system,GPS),全球导航卫星***(globalnavigation satellite system,GLONASS),北斗卫星导航***(beidou navigationsatellite system,BDS),准天顶卫星***(quasi-zenith satellite system,QZSS)和/或星基增强***(satellite based augmentation systems,SBAS)。
终端100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端100可以包括1个或N个显示屏194,N为大于1的正整数。
终端100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将该电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样,终端100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。此外,内部存储器121可以存储上述方法实施例中描述的识别模型。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行终端100的各种功能应用以及数据处理。
终端100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中,终端100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,终端100根据压力传感器180A检测该触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定终端100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测终端100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,终端100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当终端100是翻盖机时,终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端100附近有物体。当检测到不充分的反射光时,终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测终端100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,终端100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,终端100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端100对电池142加热,以避免低温导致终端100异常关机。在其他一些实施例中,当温度低于又一阈值时,终端100对电池142的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于终端100的表面,与显示屏194所处的位置不同。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于该骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音指令,实现语音功能。应用处理器可以基于该骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入,产生与终端100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过***SIM卡接口195,或从SIM卡接口195拔出,实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时***多张卡。该多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端100中,不能和终端100分离。终端100的软件***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。
在一些可能的实施例中,执行上述图4实施例的电子设备可以实现为计算设备,该计算设备可以是服务器、主机或个人计算机等。该计算设备可以由一般性的总线体系结构来实现。
参见图9,图9是本申请实施例提供的一种计算设备的结构示意图,该计算设备可以配置为上述方法实施例中的电子设备。
计算设备900可以是方法实施例全部或部分描述的内容中涉及的任一设备。计算设备包括至少一个处理器901、通信总线902、存储器903以及至少一个通信接口904。
处理器901可以是一个通用中央处理器(central processing unit,CPU)、网络处理器(NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路,例如,专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
通信总线902用于在上述组件之间传送信息。通信总线902可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器903可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,也可以是随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only Memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器903可以是独立存在,并通过通信总线902与处理器901相连接。存储器903也可以和处理器901集成在一起。
通信接口904使用任何收发器一类的装置,用于与其它设备或通信网络通信。通信接口904包括有线通信接口,还可以包括无线通信接口。其中,有线通信接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks,WLAN)接口,蜂窝网络通信接口或其组合等。
在具体实现中,作为一种实施例,处理器901可以包括一个或多个CPU,如图3中所示的CPU0和CPU1。
在具体实现中,作为一种实施例,计算机设备可以包括多个处理器,如图3中所示的处理器901和处理器905。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,计算机设备还可以包括输出设备906和输入设备907。输出设备906和处理器901通信,可以以多种方式来显示信息。例如,输出设备906可以是液晶显示器(liquid crystal display,LCD)、发光二级管(light emitting diode,LED)显示设备、阴极射线管(cathode ray tube,CRT)显示设备或投影仪(projector)等。输入设备907和处理器901通信,可以以多种方式接收用户的输入。例如,输入设备907可以是鼠标、键盘、触摸屏设备或传感设备等。
在一些实施例中,存储器903用于存储执行本申请方案的程序代码910,处理器901可以执行存储器903中存储的程序代码910。也即是,计算设备可以通过处理器901以及存储器903中的程序代码910,来实现方法实施例提供的方法。
本申请实施例的计算设备可对应于上述各个方法实施例中的电子设备,并且,该计算设备中的处理器910、收发器920等可以实现上述各个方法实施例中的电子设备所具有的功能和/或所实施的各种步骤和方法。为了简洁,在此不再赘述。
在一些可能的实施例中,执行上述图4实施例的电子设备也可以由通用处理器来实现。例如,该通用处理器的形态可以是一种芯片。具体地,实现电子设备的通用处理器包括处理电路和与该处理电路内部连接通信的输入接口以及输出接口,该输入接口可以将第一图像输入处理电路,处理电路用于执行步骤402至步骤405,该处理电路可以通过输出接口,输出运动状态识别的结果。可选地,该通用处理器还可以包括存储介质,存储介质可以存储处理电路执行的指令,该处理电路用于执行存储介质存储的指令以执行上述各个方法实施例。可选地,该存储介质还可以用于缓存识别模型,或者对识别模型进行持久化存储。
作为一种可能的产品形态,执行上述图4实施例的电子设备,还可以使用下述来实现:一个或多个现场可编程门阵列(英文全称:field-programmable gate array,英文简称:FPGA)、可编程逻辑器件(英文全称:programmable logic device,英文简称:PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其它适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
在一些可能的实施例中,执行上述图4实施例的电子设备还可以使用计算机程序产品实现。具体地,本申请实施例提供了一种计算机程序产品,当该计算机程序产品在电子设备上运行时,使得电子设备执行上述方法实施例中的运动状态识别方法。
应理解,上述各种产品形态的电子设备,比如终端100、计算设备900具有上述图4方法实施例中电子设备的任意功能,此处不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例中描述的各方法步骤和单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参见前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如,数字视频光盘(digitalvideo disc,DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种运动状态识别方法,其特征在于,所述方法包括:
获取第一时刻的第一图像,所述第一图像包括目标行人;
将所述第一图像中的至少两个关键点转化为图结构数据,每个关键点对应于所述图结构数据中的一个节点,所述至少两个关键点用于表示所述目标行人的姿态;
将所述图结构数据输入识别模型,所述识别模型用于识别所述目标行人的运动状态;
通过所述识别模型对所述图结构数据进行处理,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率;
将所述第一目标概率符合目标条件的运动状态确定为在所述第一时刻所述目标行人的运动状态。
2.根据权利要求1所述的方法,其特征在于,所述通过所述识别模型对所述图结构数据进行处理,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
提取所述图结构数据中每个节点的空域特征;
基于每个节点的注意力权重,将所述空域特征进行融合,得到所述第一时刻的融合特征;
基于所述第一时刻的融合特征和所述第一时刻之前的第二时刻的空时融合特征,确定所述第一时刻的空时融合特征,所述空时融合特征用于表示所述目标行人的姿态在时间和空间上的变化;
基于所述空时融合特征和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
3.根据权利要求2所述的方法,其特征在于,所述注意力权重的确定方法包括:
基于所述图结构数据的空域特征和所述每个关键点对应的参数矩阵,确定所述注意力权重。
4.根据权利要求2所述的方法,其特征在于,所述提取所述图结构数据中每个节点的空域特征包括:
通过所述识别模型的空域特征提取层对所述图结构数据进行图卷积处理,得到所述图结构数据中每个节点的空域特征。
5.根据权利要求2所述的方法,其特征在于,所述基于所述空时融合特征和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
基于所述空时融合特征,确定在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率;
基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,输出在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
6.根据权利要求5所述的方法,其特征在于,所述基于所述空时融合特征,确定在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率包括:
将所述空时融合特征映射为第一概率序列,将所述第一概率序列中对应位置的数值,输出为在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率。
7.根据权利要求5所述的方法,其特征在于,所述基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,输出在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率包括:
基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,确定归一化因子,所述归一化因子为多种运动状态对应的所述初始概率和所述第二目标概率的乘积和;
基于所述归一化因子、所述初始概率和所述第二目标概率,确定在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
8.根据权利要求5所述的方法,其特征在于,响应于所述第一目标概率大于第一概率阈值,将所述第一概率阈值确定为所述第一目标概率;
响应于所述第一目标概率小于第二概率阈值,将所述第二概率阈值确定为所述第一目标概率;所述第一概率阈值大于所述第二概率阈值。
9.一种运动状态识别装置,其特征在于,所述装置包括:
第一图像获取模块,用于获取第一时刻的第一图像,所述第一图像包括目标行人;
转化模块,用于将所述第一图像中的至少两个关键点转化为图结构数据,每个关键点对应于所述图结构数据中的一个节点,所述至少两个关键点用于表示所述目标行人的姿态;
输入模块,用于将所述图结构数据输入识别模型,所述识别模型用于识别所述目标行人的运动状态;
处理模块,用于通过所述识别模型对所述图结构数据进行处理,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率;将所述第一目标概率符合目标条件的运动状态确定为在所述第一时刻所述目标行人的运动状态。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:
空域特征提取子模块,用于提取所述图结构数据中每个节点的空域特征;
空域特征融合子模块,用于基于每个节点的注意力权重,将所述空域特征进行融合,得到所述第一时刻的融合特征;
空时融合特征确定子模块,用于基于所述第一时刻的融合特征和所述第一时刻之前的第二时刻的空时融合特征,确定所述第一时刻的空时融合特征,所述空时融合特征用于表示所述目标行人的姿态在时间和空间上的变化;
输出子模块,用于基于所述空时融合特征和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,得到在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
11.根据权利要求10所述的装置,其特征在于,所述注意力权重的确定方法包括:
基于所述图结构数据的空域特征和所述每个关键点对应的参数矩阵,确定所述注意力权重。
12.根据权利要求10所述的装置,其特征在于,所述空域特征提取子模块用于通过所述识别模型的空域特征提取层对所述图结构数据进行图卷积处理,得到所述图结构数据中每个节点的空域特征。
13.根据权利要求10所述的装置,其特征在于,所述输出子模块用于基于所述空时融合特征,确定在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率;基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,输出在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
14.根据权利要求13所述的装置,其特征在于,所述输出子模块用于将所述空时融合特征映射为第一概率序列,将所述第一概率序列中对应位置的数值,输出为在所述第一时刻所述目标行人的不同运动状态分别对应的初始概率。
15.根据权利要求13所述的装置,其特征在于,所述输出子模块用于基于所述初始概率和在所述第二时刻所述目标行人的不同运动状态分别对应的第二目标概率,确定归一化因子,所述归一化因子为多种运动状态对应的所述初始概率和所述第二目标概率的乘积和;基于所述归一化因子、所述初始概率和所述第二目标概率,确定在所述第一时刻所述目标行人的不同运动状态分别对应的第一目标概率。
16.根据权利要求13所述的装置,其特征在于,所述输出子模块还用于响应于所述第一目标概率大于第一概率阈值,将所述第一概率阈值确定为所述第一目标概率;
响应于所述第一目标概率小于第二概率阈值,将所述第二概率阈值确定为所述第一目标概率;所述第一概率阈值大于所述第二概率阈值。
17.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现权利要求1至权利要求8的任一项的运动状态识别方法所执行的操作。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求8的任一项所述的运动状态识别方法所执行的操作。
CN202010246320.0A 2020-03-31 2020-03-31 运动状态识别方法、装置、电子设备和存储介质 Pending CN113468929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010246320.0A CN113468929A (zh) 2020-03-31 2020-03-31 运动状态识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010246320.0A CN113468929A (zh) 2020-03-31 2020-03-31 运动状态识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113468929A true CN113468929A (zh) 2021-10-01

Family

ID=77865654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010246320.0A Pending CN113468929A (zh) 2020-03-31 2020-03-31 运动状态识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113468929A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677650A (zh) * 2022-05-25 2022-06-28 武汉卓鹰世纪科技有限公司 地铁乘客行人违法行为智能分析方法及装置
CN116152887A (zh) * 2022-12-08 2023-05-23 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677650A (zh) * 2022-05-25 2022-06-28 武汉卓鹰世纪科技有限公司 地铁乘客行人违法行为智能分析方法及装置
CN116152887A (zh) * 2022-12-08 2023-05-23 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法
CN116152887B (zh) * 2022-12-08 2023-09-26 山东省人工智能研究院 一种基于ds证据理论的动态人脸表情识别方法

Similar Documents

Publication Publication Date Title
US11871328B2 (en) Method for identifying specific position on specific route and electronic device
CN114119758B (zh) 获取车辆位姿的方法、电子设备和计算机可读存储介质
CN114946169A (zh) 一种图像获取方法以及装置
CN113705823A (zh) 基于联邦学习的模型训练方法和电子设备
CN112087649B (zh) 一种设备搜寻方法以及电子设备
CN110742580A (zh) 一种睡眠状态识别方法及装置
CN111625670A (zh) 一种图片分组方法及设备
WO2022022319A1 (zh) 一种图像处理方法、电子设备、图像处理***及芯片***
WO2022179604A1 (zh) 一种分割图置信度确定方法及装置
CN114242037A (zh) 一种虚拟人物生成方法及其装置
CN111563466A (zh) 人脸检测方法及相关产品
CN111738365B (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN112256868A (zh) 零指代消解方法、训练零指代消解模型的方法及电子设备
CN115619858A (zh) 一种物体重建方法以及相关设备
CN113542580A (zh) 去除眼镜光斑的方法、装置及电子设备
CN111191018B (zh) 对话***的应答方法和装置、电子设备、智能设备
CN114330374A (zh) 融合场景感知机器翻译方法、存储介质及电子设备
CN113971271A (zh) 一种指纹解锁的方法、装置、终端以及存储介质
CN114822543A (zh) 唇语识别方法、样本标注方法、模型训练方法及装置、设备、存储介质
CN113468929A (zh) 运动状态识别方法、装置、电子设备和存储介质
CN114880251A (zh) 存储单元的访问方法、访问装置和终端设备
CN113553887A (zh) 一种基于单目摄像头的活体检测方法、设备和可读存储介质
CN111249728B (zh) 一种图像处理方法、装置及存储介质
WO2023216957A1 (zh) 一种目标定位方法、***和电子设备
CN114842069A (zh) 一种位姿确定方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination