CN115393676A - 手势控制优化方法、装置、终端和存储介质 - Google Patents

手势控制优化方法、装置、终端和存储介质 Download PDF

Info

Publication number
CN115393676A
CN115393676A CN202110525205.1A CN202110525205A CN115393676A CN 115393676 A CN115393676 A CN 115393676A CN 202110525205 A CN202110525205 A CN 202110525205A CN 115393676 A CN115393676 A CN 115393676A
Authority
CN
China
Prior art keywords
gesture
data
target
scene
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110525205.1A
Other languages
English (en)
Inventor
朱海平
郭宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202110525205.1A priority Critical patent/CN115393676A/zh
Publication of CN115393676A publication Critical patent/CN115393676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例提供的一种手势控制优化方法、装置、终端和存储介质,所述方法包括:采集用户的原始手势数据和目标场景数据;根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于在终端侧优化手势控制模型。本申请实施例提供的技术方案具有以下优点:1)手势控制模型直接在终端侧进行训练优化,用户数据不需要上传到云端,可以更好地保护用户的隐私;2)目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型;3)目标手势场景融合数据通常来自同一个用户,可以针对该用户精准地优化手势控制模型。

Description

手势控制优化方法、装置、终端和存储介质
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,具体地涉及一种手势控制优化方法、装置、终端和存储介质。
背景技术
通过手势控制设备是人机交互技术中的一种,与传统的鼠标、键盘输入相比,手势控制不需要用户持握特定的输入设备,只需通过特定的手部动作就能控制设备或者向设备输入特定的信息。由于非接触的手势的方便性和趣味性,正被业界广泛应用于控制计算机终端、移动终端、电视终端等。
用户在通过手势控制设备的过程中,需要对手势控制模型进行优化,以提高手势控制的准确性,进而提高用户体验。现有技术中,通常在终端侧采集用户数据,然后将用户数据上传到云端,云端根据用户上传的数据对手势控制模型进行优化,然后将优化后的手势控制模型重新部署到终端,实现终端侧手势控制模型的优化。
但是,用户数据通常包含用户隐私信息,上述方法需要将用户数据上传到云端,存在泄漏用户隐私的风险。
发明内容
有鉴于此,本申请提供一种手势控制优化方法、装置、终端和存储介质,以利于解决现有技术中手势控制优化需要将用户数据上传到云端,存在泄漏用户隐私的风险的问题。
第一方面,本申请实施例提供了一种手势控制优化方法,应用于终端,所述方法包括:采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息;根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于优化手势控制模型;其中,所述目标手势场景融合数据包括手势类别标签和背景类别标签,所述手势类别标签与所述目标手势关键点数据相匹配,所述背景类别标签与所述目标手势场景融合数据相匹配。
优选地,所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,包括:将所述原始手势数据、所述目标场景数据和所述目标手势关键点数据输入第一手势数据生成模型中,生成目标手势场景融合数据。
优选地,所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,包括:将所述原始手势数据和所述目标手势关键点数据输入第二手势数据生成模型中,生成目标手势数据;将所述目标手势数据和所述目标场景数据输入第三手势数据生成模型中,生成目标手势场景融合数据。
优选地,在所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据之前,还包括:调用目标手势关键点生成模型,生成目标手势关键点数据。
优选地,在所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据之后,还包括:通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
优选地,所述采集用户的原始手势数据,以及目标场景数据,包括:在用户执行手势控制操作时,采集用户的原始手势数据,以及目标场景数据。
第二方面,本申请实施例提供了一种手势控制优化装置,包括:采集模块,用于采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息;手势数据生成模块,用于根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于优化手势控制模型;其中,所述目标手势场景融合数据包括手势类别标签和背景类别标签,所述手势类别标签与所述目标手势关键点数据相匹配,所述背景类别标签与所述目标手势场景融合数据相匹配。
优选地,所述手势数据生成模块,具体用于:将所述原始手势数据、所述目标场景数据和所述目标手势关键点数据输入第一手势数据生成模型中,生成目标手势场景融合数据。
优选地,所述手势数据生成模块,具体用于:将所述原始手势数据和所述目标手势关键点数据输入第二手势数据生成模型中,生成目标手势数据;将所述目标手势数据和所述目标场景数据输入第三手势数据生成模型中,生成目标手势场景融合数据。
优选地,还包括:目标手势关键点数据生成模块,用于调用目标手势关键点生成模型,生成目标手势关键点数据。
优选地,还包括:训练模块,用于通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
优选地,所述采集模块,具体用于:在用户执行手势控制操作时,采集用户的原始手势数据,以及目标场景数据。
第三方面,本申请实施例提供了一种终端,包括:一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述终端执行时,使得所述终端执行第一方面中任意一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行第一方面中任意一项所述的方法。
采用本申请实施例提供的手势控制优化方案具有以下优点:
1)手势控制模型直接在终端侧进行训练优化,用户数据不需要上传到云端,可以更好地保护用户的隐私;
2)通过目标手势关键点数据指导手势的大小和形状,通过目标场景数据替换手势的背景,生成背景丰富、类别不同的目标手势场景融合数据,该目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型;
3)目标手势场景融合数据通常来自同一个用户,可以针对该用户精准地优化手势控制模型。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种终端的结构示意图;
图3为本申请实施例提供的一种手势控制场景示意图;
图4为本申请实施例提供的另一种手势控制场景示意图;
图5为相关技术中一种手势控制优化方案示意图;
图6为相关技术中一种手势控制优化方案示意图;
图7为本申请实施例提供的一种数据融合场景示意图;
图8为本申请实施例提供的一种手势控制优化方法流程示意图;
图9为本申请实施例提供的一种基于集成模型的特征融合场景示意图;
图10为本申请实施例提供的一种基于级联模型的特征融合场景示意图;
图11为本申请实施例提供的一种手势控制优化装置的结构示意图。
具体实施方式
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,甲和/或乙,可以表示:单独存在甲,同时存在甲和乙,单独存在乙这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
参见图1,为本申请实施例提供的一种应用场景示意图。在图1中,以手机100为例对终端进行示例性说明。可理解,本申请实施例涉及的终端除了手机100以外,还可以为平板电脑、个人计算机(personal computer,PC)、个人数字助理(personal digitalassistant,PDA)、智能手表、上网本、可穿戴电子设备、增强现实技术(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、车载设备、智能汽车、智能音响、机器人、智能眼镜、智能电视等等。
参见图2,为本申请实施例提供的一种终端的结构示意图。该终端200即可以为图1中的服务器设备101,也可以为图1中的终端设备102。
终端200可以包括处理器210,外部存储器接口220,内部存储器221,通用串行总线(universal serial bus,USB)接口230,充电管理模块240,电源管理模块241,电池242,天线1,天线2,移动通信模块250,无线通信模块260,音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,传感器模块280,按键290,马达291,指示器292,摄像头293,显示屏294,以及用户标识模块(subscriber identification module,SIM)卡接口295等。其中传感器模块280可以包括压力传感器280A,陀螺仪传感器280B,气压传感器280C,磁传感器280D,加速度传感器280E,距离传感器280F,接近光传感器280G,指纹传感器280H,温度传感器280J,触摸传感器280K,环境光传感器280L,骨传导传感器280M等。
可以理解的是,本发明实施例示意的结构并不构成对终端200的具体限定。在本申请另一些实施例中,终端200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器210中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器210中的存储器为高速缓冲存储器。该存储器可以保存处理器210刚用过或循环使用的指令或数据。如果处理器210需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器210的等待时间,因而提高了***的效率。
在一些实施例中,处理器210可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器210可以包含多组I2C总线。处理器210可以通过不同的I2C总线接口分别耦合触摸传感器280K,充电器,闪光灯,摄像头293等。例如:处理器210可以通过I2C接口耦合触摸传感器280K,使处理器210与触摸传感器280K通过I2C总线接口通信,实现终端200的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器210可以包含多组I2S总线。处理器210可以通过I2S总线与音频模块270耦合,实现处理器210与音频模块270之间的通信。在一些实施例中,音频模块270可以通过I2S接口向无线通信模块260传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块270与无线通信模块260可以通过PCM总线接口耦合。在一些实施例中,音频模块270也可以通过PCM接口向无线通信模块260传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器210与无线通信模块260。例如:处理器210通过UART接口与无线通信模块260中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块270可以通过UART接口向无线通信模块260传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器210与显示屏294,摄像头293等***器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器210和摄像头293通过CSI接口通信,实现终端200的拍摄功能。处理器210和显示屏294通过DSI接口通信,实现终端200的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器210与摄像头293,显示屏294,无线通信模块260,音频模块270,传感器模块280等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口230是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口230可以用于连接充电器为终端200充电,也可以用于终端200与***设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他终端,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对终端200的结构限定。在本申请另一些实施例中,终端200也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块240用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块240可以通过USB接口230接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块240可以通过终端200的无线充电线圈接收无线充电输入。充电管理模块240为电池242充电的同时,还可以通过电源管理模块241为终端供电。
电源管理模块241用于连接电池242,充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入,为处理器210,内部存储器221,显示屏294,摄像头293,和无线通信模块260等供电。电源管理模块241还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块241也可以设置于处理器210中。在另一些实施例中,电源管理模块241和充电管理模块240也可以设置于同一个器件中。
终端200的无线通信功能可以通过天线1,天线2,移动通信模块250,无线通信模块260,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。终端200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块250可以提供应用在终端200上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块250可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块250可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块250还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块250的至少部分功能模块可以被设置于处理器210中。在一些实施例中,移动通信模块250的至少部分功能模块可以与处理器210的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器270A,受话器270B等)输出声音信号,或通过显示屏294显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器210,与移动通信模块250或其他功能模块设置在同一个器件中。
无线通信模块260可以提供应用在终端200上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星***(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,终端200的天线1和移动通信模块250耦合,天线2和无线通信模块260耦合,使得终端200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system,GPS),全球导航卫星***(globalnavigation satellite system,GLONASS),北斗卫星导航***(beidou navigationsatellite system,BDS),准天顶卫星***(quasi-zenith satellite system,QZSS)和/或星基增强***(satellite based augmentation systems,SBAS)。
终端200通过GPU,显示屏294,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏294和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏294用于显示图像,视频等。显示屏294包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,终端200可以包括1个或N个显示屏294,N为大于1的正整数。
终端200可以通过ISP,摄像头293,视频编解码器,GPU,显示屏294以及应用处理器等实现拍摄功能。
ISP用于处理摄像头293反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头293中。
摄像头293用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,终端200可以包括1个或N个摄像头293,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当终端200在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。终端200可以支持一种或多种视频编解码器。这样,终端200可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现终端200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口220可以用于连接外部存储卡,例如Micro SD卡,实现扩展终端200的存储能力。外部存储卡通过外部存储器接口220与处理器210通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器221可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器222可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储终端200使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器221可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器210通过运行存储在内部存储器221的指令,和/或存储在设置于处理器中的存储器的指令,执行终端200的各种功能应用以及数据处理。
终端200可以通过音频模块270,扬声器270A,受话器270B,麦克风270C,耳机接口270D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块270用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。在一些实施例中,音频模块270可以设置于处理器210中,或将音频模块270的部分功能模块设置于处理器210中。
扬声器270A,也称“喇叭”,用于将音频电信号转换为声音信号。终端200可以通过扬声器270A收听音乐,或收听免提通话。
受话器270B,也称“听筒”,用于将音频电信号转换成声音信号。当终端200接听电话或语音信息时,可以通过将受话器270B靠近人耳接听语音。
麦克风270C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风270C发声,将声音信号输入到麦克风270C。终端200可以设置至少一个麦克风270C。在另一些实施例中,终端200可以设置两个麦克风270C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,终端200还可以设置三个,四个或更多麦克风270C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口270D用于连接有线耳机。耳机接口270D可以是USB接口230,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器280A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器280A可以设置于显示屏294。压力传感器280A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器280A,电极之间的电容改变。终端200根据电容的变化确定压力的强度。当有触摸操作作用于显示屏294,终端200根据压力传感器280A检测所述触摸操作强度。终端200也可以根据压力传感器280A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器280B可以用于确定终端200的运动姿态。在一些实施例中,可以通过陀螺仪传感器280B确定终端200围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器280B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器280B检测终端200抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消终端200的抖动,实现防抖。陀螺仪传感器280B还可以用于导航,体感游戏场景。
气压传感器280C用于测量气压。在一些实施例中,终端200通过气压传感器280C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器280D包括霍尔传感器。终端200可以利用磁传感器280D检测翻盖皮套的开合。在一些实施例中,当终端200是翻盖机时,终端200可以根据磁传感器280D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器280E可检测终端200在各个方向上(一般为三轴)加速度的大小。当终端200静止时可检测出重力的大小及方向。还可以用于识别终端姿态,应用于横竖屏切换,计步器等应用。
距离传感器280F,用于测量距离。终端200可以通过红外或激光测量距离。在一些实施例中,拍摄场景,终端200可以利用距离传感器280F测距以实现快速对焦。
接近光传感器280G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。终端200通过发光二极管向外发射红外光。终端200使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定终端200附近有物体。当检测到不充分的反射光时,终端200可以确定终端200附近没有物体。终端200可以利用接近光传感器280G检测用户手持终端200贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器280G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器280L用于感知环境光亮度。终端200可以根据感知的环境光亮度自适应调节显示屏294亮度。环境光传感器280L也可用于拍照时自动调节白平衡。环境光传感器280L还可以与接近光传感器280G配合,检测终端200是否在口袋里,以防误触。
指纹传感器280H用于采集指纹。终端200可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器280J用于检测温度。在一些实施例中,终端200利用温度传感器280J检测的温度,执行温度处理策略。例如,当温度传感器280J上报的温度超过阈值,终端200执行降低位于温度传感器280J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,终端200对电池242加热,以避免低温导致终端200异常关机。在其他一些实施例中,当温度低于又一阈值时,终端200对电池242的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器280K,也称“触控器件”。触摸传感器280K可以设置于显示屏294,由触摸传感器280K与显示屏294组成触摸屏,也称“触控屏”。触摸传感器280K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏294提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器280K也可以设置于终端200的表面,与显示屏294所处的位置不同。
骨传导传感器280M可以获取振动信号。在一些实施例中,骨传导传感器280M可以获取人体声部振动骨块的振动信号。骨传导传感器280M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器280M也可以设置于耳机中,结合成骨传导耳机。音频模块270可以基于所述骨传导传感器280M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器280M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键290包括开机键,音量键等。按键290可以是机械按键。也可以是触摸式按键。终端200可以接收按键输入,产生与终端200的用户设置以及功能控制有关的键信号输入。
马达291可以产生振动提示。马达291可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏294不同区域的触摸操作,马达291也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器292可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口295用于连接SIM卡。SIM卡可以通过***SIM卡接口295,或从SIM卡接口295拔出,实现和终端200的接触和分离。终端200可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口295可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口295可以同时***多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口295也可以兼容不同类型的SIM卡。SIM卡接口295也可以兼容外部存储卡。终端200通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,终端200采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在终端200中,不能和终端200分离。
随着计算机视觉的发展,以及端侧算力的提升,手势控制已经逐渐成为一种用户与终端交互的方式。
参见图3,为本申请实施例提供的一种手势控制场景示意图。在图3中示出了电视301和用户302,用户302可以通过“伸展双臂”的操作,向电视301输入相应的控制指令,使得电视301执行相应的动作。例如,开机、放大显示界面等。
参见图4,为本申请实施例提供的另一种手势控制场景示意图。在图4中示出了手机401和用户的手掌402。在当前状态下,手机401中的相册处于开启状态,手机401的显示界面中示出了多张图像,用户可以通过“下摆手掌”的操作,向手机401输入相应的控制指令,使得手机401执行相应的动作。例如,显示界面中的图像向下滑动,实现显示界面中图像的切换。
由上述手势控制场景可知,手势控制不需要用户持握特定的输入设备,只需通过特定的手部动作就能控制终端或者向终端输入特定的信息。具体地,被控终端通常包括图像采集模块和手势控制模型。通过图像采集模块可以采集用户的手势数据,手势控制模型根据该手势数据对用户的手部动作进行识别,进而生成相应的控制指令。其中,该图像采集模块可以为摄像头,该手势控制模型可以为神经网络模型,本申请实施例对此不作具体限制。
在实际应用场景中,为了提高用户体现,在用户通过手势控制终端的过程中,需要对手势控制模型进行优化,以提高手势控制的准确性。换句话讲,使得用户对手势控制功能的使用“越用越好”。
参见图5,为相关技术中一种手势控制优化方案示意图。在图5中示出了云端501和终端502,可理解,云端501和终端502通信连接,以便进行信息传输。在一些可能的实施例中,云端501也可以称为服务器。
在本申请实施例中,云端501在初始状态时,基于共用数据集训练获得手势控制模型。当某一终端502需要使用手势控制功能时,云端501为该终端502部署手势控制模型。使用过程中,终端502采集用户的手势数据,以便手势控制模型根据用户的手势数据进行模型预测,进而实现相应的手势控制。同时,终端502对该手势数据进行存储(存储在用户数据中)。
当需要对手势控制模型进行优化时,终端502将存储的手势数据上传至云端501,云端501基于用户上传的手势数据进行手势控制模型训练、手势控制模型评估和手势控制模型优化。当云端501完成手势控制模型的优化后,将优化的手势控制模型重新部署至终端502,实现终端502侧手势控制模型的优化。也就是说,在云端501侧进行手势控制模型的优化,然后再将优化的手势控制模型部署到终端502侧。
但是,上述手势控制优化方法主要存在以下问题:
1)手势数据通常包含用户隐私,上述方法需要将用户数据上传到云端,存在泄漏用户隐私的风险;
2)终端采集的手势数据不含标签,手势数据上传到云端后,需要人工对手势数据的类别进行标注,成本较高;
3)云端对手势控制模型进行优化的数据通常来自多个用户,不能针对特定的用户进行手势控制模型优化。
针对上述问题,本申请实施例提供了一种手势控制优化方法,在终端侧生成带有标签和背景的目标手势场景融合数据,通过目标手势场景融合数据,在终端侧完成手势控制模型的训练升级。
参见图6,为相关技术中一种手势控制优化方案示意图。在本申请实施例中,为了便于对终端602采集的手势数据,以及手势数据生成模型生成的手势数据进行区分,将终端602采集的手势数据成为“原始手势数据”;将手势数据生成模型生成的手势数据称为“目标手势数据;将融合目标场景数据后的目标手势数据称为“目标手势场景融合数据”。以下进行详细说明。
在终端602初次使用手势控制功能时,由云端601为终端602部署手势控制模型。使用过程中,终端602可以通过摄像头不定时地采集原始手势数据和目标场景数据,该目标场景数据用于表征与原始手势数据相关联的背景信息。完成原始手势数据和目标场景数据的采集后,将原始手势数据和目标场景数据存储在用户数据中,以备后续使用。另外,终端602调用目标手势关键点生成模型生成大量的目标手势关键点数据。将原始手势数据、目标场景数据、目标手势关键点数据输入手势数据生成模型,获得目标手势场景融合数据。
可理解,在融合目标场景数据和目标手势关键点数据后,会获得大量的目标手势场景融合数据,基于目标手势场景融合数据直接在终端602侧进行手势控制模型训练,完成手势控制模型的优化。
参见图7,为本申请实施例提供的一种数据融合场景示意图。在图7中示出了原始手势数据、目标场景数据、目标手势关键点数据,以及进行特征融合后的目标手势场景融合数据。
其中,原始手势数据为终端采集的“握紧拳头”的图像;目标手势关键点数据为目标手势关键点生成模型生成的一个“张开的手掌”的关键点;目标场景数据为“用户的面部”的图像。将上述原始手势数据、目标场景数据和目标手势关键点数据进行特征融合后,获得“背景为用户的面部,手势为张开的手掌”的目标手势场景融合数据。
可理解,目标手势关键点数据用于指导目标手势场景融合数据中手势的大小和形状,因此,目标手势关键点数据可以表征目标手势场景融合数据的手势类别;目标场景数据用于指导目标手势场景融合数据中手势的背景,因此,目标场景数据可以表征目标手势场景融合数据的背景类别。换句话讲,经过特征融合生成的目标手势场景融合数据中包含手势类别标签和背景类别标签,其中,目标手势关键点数据用于标记手势类别标签,目标场景数据用于标记背景类别标签。另外,原始手势数据用于在特征融合时提供给其它方面的信息,例如用户的肤色等。
采用本申请实施例提供的手势控制优化方案具有以下优点:
1)手势控制模型直接在终端侧进行训练优化,用户数据不需要上传到云端,可以更好地保护用户的隐私;
2)通过目标手势关键点数据指导手势的大小和形状,通过目标场景数据替换手势的背景,生成背景丰富、类别不同的目标手势场景融合数据,该目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型;
3)目标手势场景融合数据通常来自同一个用户,可以针对该用户精准地优化手势控制模型。
参见图8,为本申请实施例提供的一种手势控制优化方法流程示意图。如图8所示,其主要包括以下步骤。
步骤S801:采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息。
在本申请实施例中,为了便于对终端采集的手势数据,以及手势数据生成模型生成的手势数据进行区分,将终端采集的手势数据成为“原始手势数据”;将手势数据生成模型生成的手势数据称为“目标手势数据;将融合目标场景数据后的目标手势数据称为“目标手势场景融合数据”。
需要指出的是,终端可以在用户执行手势控制操作时采集原始手势数据和目标场景数据,也可以在其它时间段按照预设的数据采集规则,不定时地采集原始手势数据和目标场景数据。另外,原始手势数据和目标场景数据既可以分别采集,也可以同时采集,本申请实施例对此不作具体限制。
可理解,同一个终端的使用场景中通常会存在较多的相似信息,将目标场景数据作为手势的背景,可以提高手势识别的准确性。例如,同一终端通常对应一个用户,则可以采集用户的面部图像作为目标场景数据;或者,用户通常坐在客厅的沙发上使用终端,则可以采集沙发后面的墙壁作为目标场景数据。
步骤S802:根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据。
在一种可选实施例中,终端可以调用目标手势关键点生成模型,生成目标手势关键点数据。将原始手势数据、目标场景数据和目标手势关键点数据输入手势数据生成模型中进行特征融合后,生成目标手势场景融合数据。也就是说,该目标手势场景融合数据同时融合了原始手势数据中的信息、目标场景数据中的信息和目标手势关键点数据的信息。其中,目标手势关键点数据用于指导目标手势场景融合数据中手势的大小和形状;目标场景数据用于指导目标手势场景融合数据中手势的背景;原始手势数据用于在特征融合时提供给其它方面的信息,例如用户的肤色等。
在本申请实施例中,结合目标手势关键点数据和目标场景数据对原始手势数据进行扩充,可以生成大量的目标手势场景融合数据,使得终端具有充足的数据进行手势控制模型训练。另外,通过目标手势关键点数据指导手势的大小和形状,通过目标场景数据替换手势的背景,生成背景丰富、类别不同的目标手势场景融合数据,该目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型。
在一种可选实施例中,手势数据生成模型可以为生成式对抗网络(GAN,Generative Adversarial Networks)模型。具体实现中,手势数据生成模型又可以分为集成模型和级联模型,以下分别进行说明。
参见图9,为本申请实施例提供的一种基于集成模型的特征融合场景示意图。该集成模型包括一个手势数据生成模型,即第一手势数据生成模型。该第一手势数据生成模型包括第一生成器和第一判别器。
将原始手势数据、目标场景数据和目标手势关键点数据输入第一生成器,经过卷积和反卷积操作,生成新的手势图像,即目标手势场景融合数据。从图中可以看出,新的手势图像中的手势对应于目标手势关键点数据中的手势;新的手势图像中的背景对应于目标场景数据。也就是说,通过特征融合,生成器将原始手势的类别和背景进行了替换。
进一步地,第一判别器对目标手势场景融合数据的真假、手势类别和场景类别进行判断。通过第一生成器和第一判别器之间的博弈,获得带有手势类别标签和场景类别标签的目标手势场景融合数据。
具体实现中,该第一手势数据生成模型可以为GAN模型。本申请实施例对此不作具体限制。
参见图10,为本申请实施例提供的一种基于级联模型的特征融合场景示意图。该级联模型包括两个手势数据生成模型,分别为第二手势数据生成模块和第三手势数据生成模型。其中,第二手势数据生成模型包括第二生成器和第二判别器;第三手势数据生成模型包括第三生成器和第三判别器。
首先,将原始手势数据和目标手势关键点数据输入第二生成器,经过卷积和反卷积操作,生成目标手势数据,该目标手势数据为新的手势图像(此时,不包含背景信息)。从图中可以看出,新的手势图像中的手势对应于目标手势关键点数据中的手势。也就是说,通过本次特征融合,生成器将原始手势的类别进行了替换。进一步地,第二判别器对目标手势数据的真假和手势类别进行判断。通过第二生成器和第二判别器之间的博弈,获得带有手势类别标签的目标手势数据。
其次,将上述步骤中获得的目标手势数据与目标场景数据再次进行特征融合,输入第三生成器,经过卷积和反卷积操作,生成目标手势场景融合数据。从图中可以看出,该目标手势场景融合数据中添加了目标场景数据中对应的背景信息。也就是说,通过本次特征融合,第三生成器将原始手势的背景进行了替换。进一步地,第三判别器对目标手势场景融合数据的真假和场景类别进行判断。通过第三生成器和第三判别器之间的博弈,获得带有手势类别标签和场景类别标签的目标手势场景融合数据。
需要指出的是,通过级联模型生成目标手势场景融合数据的方案训练简单,容易实现。但是该方案由于采用两级手势数据生成模型,因此容易导致累积误差。本领域技术人员可以根据实际需要选择集成模型或级联模型生成目标手势场景融合数据。
具体实现中,该第二手势数据生成模型和/或第三手势数据生成模型可以为GAN模型。本申请实施例对此不作具体限制。
步骤S803:通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
具体地,在获得目标手势场景融合数据后,可以在终端侧基于目标手势场景融合数据对手势控制模型进行训练,进而优化手势控制模型,通过终端的自我学习,使得用户对终端的使用体验越来越好。
采用本申请实施例提供的手势控制优化方案具有以下优点:
1)手势控制模型直接在终端侧进行训练优化,用户数据不需要上传到云端,可以更好地保护用户的隐私;
2)通过目标手势关键点数据指导手势的大小和形状,通过目标场景数据替换手势的背景,生成背景丰富、类别不同的目标手势场景融合数据,该目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型;
3)目标手势场景融合数据通常来自同一个用户,可以针对该用户精准地优化手势控制模型。
与上述方法实施例相对应,本申请实施例还提供了一种手势控制优化装置。
参见图11,为本申请实施例提供的一种手势控制优化装置的结构示意图。如图11所示,该手势控制优化装置包括采集模块1101和手势数据生成模块1102。
具体地,采集模块1101,用于采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息;手势数据生成模块1102,用于根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于优化手势控制模型;其中,所述目标手势关键点数据用于表征所述目标手势场景融合数据的手势类别,所述目标场景数据用于表征所述目标手势场景融合数据的背景类别。
具体实现中,采集模块1101可以为终端上的摄像头或其它类型的传感器,本申请实施例对此不作具体限制。
在一种可选实施例中,所述手势数据生成模块1102,具体用于:将所述原始手势数据、所述目标场景数据和所述目标手势关键点数据输入第一手势数据生成模型中,生成目标手势场景融合数据。
在一种可选实施例中,所述手势数据生成模块1102,具体用于:将所述原始手势数据和所述目标手势关键点数据输入第二手势数据生成模型中,生成目标手势数据;将所述目标手势数据和所述目标场景数据输入第三手势数据生成模型中,生成目标手势场景融合数据。
在一种可选实施例中,所述手势控制优化装置还包括:目标手势关键点数据生成模块,用于调用目标手势关键点生成模型,生成目标手势关键点数据。
在一种可选实施例中,所述手势控制优化装置还包括:训练模块,用于通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
在一种可选实施例中,所述采集模块1101,具体用于:在用户执行手势控制操作时,采集用户的原始手势数据,以及目标场景数据。
采用本申请实施例提供的手势控制优化方案具有以下优点:
1)手势控制模型直接在终端侧进行训练优化,用户数据不需要上传到云端,可以更好地保护用户的隐私;
2)通过目标手势关键点数据指导手势的大小和形状,通过目标场景数据替换手势的背景,生成背景丰富、类别不同的目标手势场景融合数据,该目标手势场景融合数据自带标签,且形成多种潜在的手势使用场景,可以更精准地优化手势控制模型;
3)目标手势场景融合数据通常来自同一个用户,可以针对该用户精准地优化手势控制模型。
上述装置实施中的具体内容可以参见方法实施例中描述,为了表述简洁,在此不再赘述。
具体实现中,本申请实施例还提供了一种终端,所述终端包括一个或多个处理器;存储器;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述终端执行时,使得所述终端执行上述实施例中的部分或全部步骤。
具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
具体实现中,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包含可执行指令,当所述可执行指令在计算机上执行时,使得计算机执行上述方法实施例中的部分或全部步骤。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,简称ROM)、随机存取存储器(random access memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种手势控制优化方法,其特征在于,应用于终端,所述方法包括:
采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息;
根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于优化手势控制模型;
其中,所述目标手势场景融合数据包括手势类别标签和背景类别标签,所述手势类别标签与所述目标手势关键点数据相匹配,所述背景类别标签与所述目标手势场景融合数据相匹配。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,包括:
将所述原始手势数据、所述目标场景数据和所述目标手势关键点数据输入第一手势数据生成模型中,生成目标手势场景融合数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,包括:
将所述原始手势数据和所述目标手势关键点数据输入第二手势数据生成模型中,生成目标手势数据;
将所述目标手势数据和所述目标场景数据输入第三手势数据生成模型中,生成目标手势场景融合数据。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据之前,还包括:
调用目标手势关键点生成模型,生成目标手势关键点数据。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据之后,还包括:
通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
6.根据权利要求1所述的方法,其特征在于,所述采集用户的原始手势数据,以及目标场景数据,包括:
在用户执行手势控制操作时,采集用户的原始手势数据,以及目标场景数据。
7.一种手势控制优化装置,其特征在于,包括:
采集模块,用于采集用户的原始手势数据和目标场景数据,所述目标场景数据用于表征与所述原始手势数据相关联的背景信息;
手势数据生成模块,用于根据所述原始手势数据、所述目标场景数据和目标手势关键点数据,生成目标手势场景融合数据,所述目标手势场景融合数据用于优化手势控制模型;
其中,所述目标手势场景融合数据包括手势类别标签和背景类别标签,所述手势类别标签与所述目标手势关键点数据相匹配,所述背景类别标签与所述目标手势场景融合数据相匹配。
8.根据权利要求7所述的装置,其特征在于,所述手势数据生成模块,具体用于:
将所述原始手势数据、所述目标场景数据和所述目标手势关键点数据输入第一手势数据生成模型中,生成目标手势场景融合数据。
9.根据权利要求7所述的装置,其特征在于,所述手势数据生成模块,具体用于:
将所述原始手势数据和所述目标手势关键点数据输入第二手势数据生成模型中,生成目标手势数据;
将所述目标手势数据和所述目标场景数据输入第三手势数据生成模型中,生成目标手势场景融合数据。
10.根据权利要求7所述的装置,其特征在于,还包括:
目标手势关键点数据生成模块,用于调用目标手势关键点生成模型,生成目标手势关键点数据。
11.根据权利要求7所述的装置,其特征在于,还包括:
训练模块,用于通过所述目标手势场景融合数据对手势控制模型进行训练,优化所述手势控制模型,其中,所述手势控制模型用于识别用户的手势控制操作。
12.根据权利要求7所述的装置,其特征在于,所述采集模块,具体用于:
在用户执行手势控制操作时,采集用户的原始手势数据,以及目标场景数据。
13.一种终端,其特征在于,包括:
一个或多个处理器;
存储器;
以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述终端执行时,使得所述终端执行权利要求1-6中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1-6中任意一项所述的方法。
CN202110525205.1A 2021-05-07 2021-05-07 手势控制优化方法、装置、终端和存储介质 Pending CN115393676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525205.1A CN115393676A (zh) 2021-05-07 2021-05-07 手势控制优化方法、装置、终端和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525205.1A CN115393676A (zh) 2021-05-07 2021-05-07 手势控制优化方法、装置、终端和存储介质

Publications (1)

Publication Number Publication Date
CN115393676A true CN115393676A (zh) 2022-11-25

Family

ID=84114006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525205.1A Pending CN115393676A (zh) 2021-05-07 2021-05-07 手势控制优化方法、装置、终端和存储介质

Country Status (1)

Country Link
CN (1) CN115393676A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360603A (zh) * 2023-05-29 2023-06-30 中数元宇数字科技(上海)有限公司 基于时序信号匹配的交互方法、设备、介质及程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360603A (zh) * 2023-05-29 2023-06-30 中数元宇数字科技(上海)有限公司 基于时序信号匹配的交互方法、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN111443884A (zh) 投屏方法、装置和电子设备
CN111742539B (zh) 一种语音控制命令生成方法及终端
CN110248037B (zh) 一种身份证件扫描方法及装置
CN110742580A (zh) 一种睡眠状态识别方法及装置
CN115589051B (zh) 充电方法和终端设备
CN114422340A (zh) 日志上报方法、电子设备及存储介质
CN112651510A (zh) 模型更新方法、工作节点及模型更新***
CN111147667A (zh) 一种熄屏控制方法及电子设备
CN114257920B (zh) 一种音频播放方法、***和电子设备
CN114339429A (zh) 音视频播放控制方法、电子设备和存储介质
CN113965693B (zh) 一种视频拍摄方法、设备和存储介质
CN113490291B (zh) 数据下载方法、装置和终端设备
WO2022022319A1 (zh) 一种图像处理方法、电子设备、图像处理***及芯片***
CN112272191B (zh) 数据转移方法及相关装置
CN112584037B (zh) 保存图像的方法及电子设备
CN113467735A (zh) 图像调整方法、电子设备及存储介质
CN113225661A (zh) 扬声器识别方法、装置和电子设备
CN109285563B (zh) 在线翻译过程中的语音数据处理方法及装置
CN115393676A (zh) 手势控制优化方法、装置、终端和存储介质
CN113923351B (zh) 多路视频拍摄的退出方法、设备和存储介质
CN113596320B (zh) 视频拍摄变速录制方法、设备、存储介质
CN114445522A (zh) 笔刷效果图生成方法、图像编辑方法、设备和存储介质
CN114661258A (zh) 自适应显示方法、电子设备及存储介质
CN114812381A (zh) 电子设备的定位方法及电子设备
CN111460942A (zh) 接近检测方法及装置、计算机可读介质及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination