CN114222183A

CN114222183A - 用于视频播放设备的模式切换方法、装置、设备及介质

Info

Publication number: CN114222183A
Application number: CN202111484622.2A
Authority: CN
Inventors: 丁路生; 胥立丰; 金天
Original assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd; Haining Eswin IC Design Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-22

Abstract

本申请提供一种用于视频播放设备的模式切换方法、装置、设备及介质，涉及智能终端技术领域。通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息；根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，并根据所述身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

Description

用于视频播放设备的模式切换方法、装置、设备及介质

技术领域

本申请涉及智能终端技术领域，本申请涉及一种用于视频播放设备的模式切换方法、装置、设备及介质。

背景技术

随着智能终端技术的发展，智能终端的功能越来越丰富。例如，许多电视机可以切换为儿童模式，电视机在儿童模式下可以限制和引导儿童健康的观看电视。本领域中，电视机可以在识别到儿童时，自动切换为儿童模式。

相关技术中，模式切换过程可以包括：电视机可以通过人脸识别技术，对用户对象的人脸进行识别，以判断用户是否是儿童，如果是儿童则切换为儿童模式。然而，人脸识别技术受限于训练样本、算法模型以及用户对象的脸部被遮挡等因素，识别是否为儿童的准确率不够高，从而在许多情况下未能准确、及时切换，导致上述模式切换过程的准确率较低。

发明内容

本申请提供了一种用于视频播放设备的模式切换方法、装置、设备及介质，可以解决相关技术中模式切换过程的准确率较低的问题。所述技术方案如下：

一方面，提供了一种用于视频播放设备的模式切换方法，该方法包括：

采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；

对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息；

根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，并根据所述身份属性确定是否切换为儿童模式。

另一方面，提供了一种用于视频播放设备的模式切换装置，所述装置包括：

采集模块，用于采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；

评估模块，用于对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息；

切换模块，用于根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，并根据所述身份属性确定是否切换为儿童模式。

在一个可能实现方式中，所述评估模块，包括：

人体框确定单元，用于确定所述至少一个图像帧中用户对象所在的人体框；

关键点确定单元，用于基于所述至少一个图像帧的人体框，确定所述用户对象的人体关键点在相机坐标系的三维坐标；

预测单元，用于根据所述人体关键点的三维坐标，评估所述用户对象的多个骨骼的骨骼长度；以及，识别所述至少一个图像帧中用户对象的人脸的人脸框，预测所述用户对象的年龄信息。

在一个可能实现方式中，所述关键点确定单元，用于对于每个图像帧，基于所述人体框对所述图像帧进行裁剪，得到人体框图像，并预测所述人体框图像中人体关键点在所述图像帧的图像坐标系中的二维图像坐标；根据所述至少一个图像帧的人体关键点的二维图像坐标，通过三维人体姿态模型和人体轨迹模型，确定所述人体关键点的三维相对坐标和人体轨迹的三维绝对坐标；

其中，所述人体轨迹的三维绝对坐标是指人体轨迹中心点在相机坐标系的坐标；所述人体关键点的三维相对坐标是指在所述相机坐标系中所述人体关键点相对于所述人体轨迹中心点的坐标；所述相机坐标系是以采集所述图像帧的摄像头为坐标原点、以所述摄像头的光轴为Z轴的三维空间坐标系。

在一个可能实现方式中，所述关键点确定单元，还用于检测所述图像帧中的至少一个用户对象的预定人体部位的人体框；基于在先采集图像帧中所述至少一个用户对象的人体关键点的二维图像坐标，对所述图像帧中对应用户对象的人体框包括的对应人体部位进行调整；基于调整后的人体框，对所述图像帧进行裁剪，得到至少一个用户对象的人体框图像。

在一个可能实现方式中，所述关键点确定单元，还用于基于所述人体关键点的三维相对坐标和人体轨迹的三维绝对坐标，确定所述人体关键点在相机坐标系中的三维绝对坐标；根据每个骨骼的骨骼两端的人体关键点的三维绝对坐标，计算所述每个骨骼的骨骼长度。

在一个可能实现方式中，所述预测单元，还用于以下任一项：

对于每个图像帧，基于所述图像帧中所述用户对象的头部的各个关键点，确定所述用户对象的头部对应的人脸框，并基于所述人脸框和人脸年龄识别模型，确定所述用户对象的年龄信息；

对所述图像帧进行人脸检测，得到所述图像帧中人脸框，并基于所述人脸框和人脸年龄识别模型，确定所述用户对象的年龄信息。

在一个可能实现方式中，所述切换模块，还用于以下任一项：

基于所述多个骨骼长度，预测所述用户对象的身高信息，基于所述用户对象的身高信息和年龄信息，判断所述用户对象的身份属性；

基于所述用户对象的年龄信息和所述多个骨骼长度，判断所述用户对象的身份属性。

当所述用户对象的身高信息不超过第一阈值时，或者，当所述用户对象的身高信息超过第一阈值且所述用户对象的年龄信息不超过第二阈值时，确定所述用户对象的身份属性为儿童；

当所述用户对象的年龄信息不超过第二阈值时，或者，当所述用户对象的年龄信息超过第二阈值且所述用户对象的身高信息不超过第一阈值时，确定所述用户对象的身份属性为儿童。

在一个可能实现方式中，所述至少一个图像帧中包括至少两个用户对象；所述切换模块，还用于当所述至少两个用户对象中任一用户对象的身份属性为儿童时，将所述视频播放设备切换为儿童模式；在所述视频播放设备为儿童模式的情况下，若所述至少两个用户对象中任一用户对象的身份属性为成年人，退出所述儿童模式。

在一个可能实现方式中，所述装置还包括：

距离确定模块，用于基于所述用户对象的人体关键点在相机坐标系的三维坐标，确定所述用户对象与所述视频播放设备之间的距离；

第一提醒模块，用于当所述距离不超过目标距离阈值时，停止播放视频画面，并显示第一提醒消息，所述第一提醒消息用于提醒与所述视频播放设备之间至少保持目标距离阈值。

在一个可能实现方式中，所述装置还包括：

坐姿确定模块，用于基于所述用户对象的人体关键点在相机坐标系的三维坐标，确定所述用户对象的当前坐姿；

第二提醒模块，用于当所述当前坐姿不符合标准坐姿阈值时，停止播放视频画面，并显示第二提醒消息，所述第二提醒消息用于提醒纠正所述当前坐姿至符合标准坐姿阈值。

另一方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述的用于视频播放设备的模式切换方法。

另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的用于视频播放设备的模式切换方法。

本申请提供的技术方案带来的有益效果是：

本申请实施例提供的用于视频播放设备的模式切换方法，通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息；根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，并根据所述身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种用于视频播放设备的模式切换方法的实施环境示意图；

图2a为本申请实施例提供的一种用于视频播放设备的模式切换方法的流程示意图；

图2b为本申请实施例提供的又一种用于视频播放设备的模式切换方法的流程示意图；

图3为本申请实施例提供的一种用于视频播放设备的模式切换装置的结构示意图；

图4为本申请实施例提供的另一种用于视频播放设备的模式切换装置的结构示意图；

图5为本申请实施例提供的又一种用于视频播放设备的模式切换装置的结构示意图；

图6为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

目前很多儿童养成了看电视的习惯，甚至成了电视迷，长时间的观看电视对儿童的成长有很大的危害，不仅对视力、脊椎造成伤害，同时不良的电视内容对儿童的心理也造成不利影响。为了限制和引导儿童健康的观看电视，很多厂家在产品中都设置了儿童模式，在儿童模式下限定了儿童观看电视的时间和内容。

现有技术可以自动切换设备的儿童模式，简化了儿童模式设置的繁琐操作。具体来说，现有技术中，是通过人脸识别技术对用户对象的人脸图像帧进行识别，以识别用户对象年龄，但受限于训练样本、算法模型以及用户对象脸部遮挡的情况，人脸年龄识别往往准确率不够高。

本申请是针对现有技术中识别准确率不高的技术弊端，提供一种用于视频播放设备的模式切换方法。该方法可以通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对该至少一个图像帧进行图像识别和解析，评估得到该用户对象的骨骼信息和年龄信息；根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性，并根据该身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

图1为本申请实施例提供的一种用于视频播放设备的模式切换方法的实施环境示意图。如图1所示，该实施环境包括：视频播放设备101和服务器102。该视频播放设备101和服务器102之间通过网络建立有通信连接。该视频播放设备101可以通过该通信连接接收服务器102发送的视频流向用户对象播放该视频流。示例性的，视频播放设备101中配置有儿童模式，儿童模式是指专门针对儿童群体设置的有利于儿童观看视频的视频播放模式，例如，在儿童模式下可以配置有针对儿童专属的视频流、儿童使用时段受限等。本申请中，视频播放设备101可以利用采集的用户对象的图像帧，对用户对象进行识别，当识别到用户对象为儿童时，切换为在儿童模式下进行视频流的播放。

示例性的，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、Wi-Fi及其他实现无线通信的网络。视频播放设备可以是智能电视机、智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile Internet Devices，移动互联网设备)、PDA(个人数字助理)、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等。视频播放设备101以及服务器102之间可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。具体也可基于实际应用场景需求确定，在此不作限定。

图2a为本申请实施例提供的一种用于视频播放设备的模式切换方法的流程示意图。该方法的执行主体可以为视频播放设备，该视频播放设备可以为智能电视机、个人计算机等任意可以播放视频流的计算机设备。如图2a所示，该方法包括以下步骤。

步骤S1、视频播放设备采集对应于当前观看视频播放设备的用户对象的至少一个图像帧。

该视频播放设备可以通过摄像头采集图像帧，该摄像头可以位于该视频播放设备上，也可以为该视频播放设备的外接摄像头。本申请实施例对此不做限定。在一个可能实现方式中，当该摄像头为该视频播放设备的摄像头时，步骤S1可以通过以下步骤201实现。

步骤S2、视频播放设备对该至少一个图像帧进行图像识别和解析，评估得到该用户对象的骨骼信息和年龄信息。

该视频播放设备可以检测图像帧的用户对象所在的人体框，基于该人体框，评估用户对象的骨骼长度，并识别图像帧中用户对象的人脸框，预测用户对象的年龄信息。在一个可能实现方式中，步骤S2可以通过以下步骤202至步骤204实现。

步骤S3、视频播放设备根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性，并根据该身份属性确定是否切换为儿童模式。

该视频播放设备可以根据骨骼信息，进一步确定身高信息，以基于身高信息和年龄信息确定身份属性。或者，该视频播放设备也可以直接基于骨骼长度和年龄信息，确定身份属性。在一个可能实现方式中，步骤S3可以通过以下步骤205至步骤206实现。

本申请实施例提供的用于视频播放设备的模式切换方法，通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对该至少一个图像帧进行图像识别和解析，评估得到该用户对象的骨骼信息和年龄信息；根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性，并根据该身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

图2b为本申请实施例提供的又一种用于视频播放设备的模式切换方法的流程示意图。该方法的执行主体可以为视频播放设备，该视频播放设备可以为智能电视机、个人计算机等任意可以播放视频流的计算机设备。如图2b所示，该方法包括以下步骤。

步骤201、视频播放设备通过视频播放设备的摄像头，采集至少一个图像帧。

优选地，可以采用视频播放设备的摄像头来直接采集图像帧。采集到的每个图像帧帧包括当前观看该视频播放设备的用户对象的影像。示例性的，该图像帧可以包括用户对象的人体，也即是图像帧中可以包括用户对象的各个人体部分。示例性的，图像帧可以包括用户对象的头、颈、躯干和四肢。在一个可能实现方式中，该多个图像帧为该摄像头按照目标周期采集的多帧图像帧。则进一步在本步骤中，视频播放设备可以按照目标周期，周期性对用户对象进行人体图像帧的采集，得到该多个图像帧。

在一个可能示例中，该摄像头可以位于例如视频播放设备的屏幕上方中心点位置处，待该视频播放设备上电启动后，可以控制摄像头对正在观看视频信息的用户对象进行全身图像帧的采集。

步骤202、视频播放设备确定该多个图像帧中用户对象所在的人体框，并基于该至少一个图像帧的人体框，确定该用户对象的人体关键点在相机坐标系的三维坐标。

需要说明的是，该人体框可以为图像帧中覆盖用户对象的人体的方框标识，示例性的，该人体框可以将用户对象的头、颈、躯干和四肢覆盖在内。该视频播放设备可以识别出每个图像帧中的人体框，并根据该多个图像帧的人体框，确定该用户对象的人体关键点在相机坐标系的三维坐标。在一个可能实现方式中，本步骤可以通过以下步骤2021-2023实现。

步骤2021、对于每个图像帧，视频播放设备基于该人体框对该图像帧进行裁剪，得到人体框图像。

在一种可能实现方式中，对于每个图像帧，如果没有采集时间在该图像帧的采集时间之前的图像帧(后简称“在先采集图像帧”)，此时，该图像帧为视频播放设备采集的第一个图像帧，则本步骤可以包括：视频播放设备可以检测该图像帧中的至少一个用户对象的预定人体部位的人体框，并沿该至少一个用户对象的人体框对该图像帧进行裁剪，得到至少一个用户对象的人体框图像。

在另一种可能实现方式中，如果该图像帧之前有在先采集图像帧，则本步骤可以包括：对于每个图像帧，视频播放设备检测该图像帧中的至少一个用户对象的预定人体部位的人体框，该人体框内包括预先设定的人体部位，例如用户对象的头、颈、躯干和四肢；视频播放设备基于在先采集图像帧中该至少一个用户对象的人体关键点的二维图像坐标，对该图像帧中对应用户的人体框包括的对应人体部位进行调整；视频播放设备基于调整后的人体框，对该图像帧进行裁剪，得到至少一个用户对象的人体框图像。其中，在先采集图像帧中该用户对象的人体关键点可以包括颈关节点和盆骨关节点，可以通过颈关节点和盆骨关节点这两个关键点对图像帧中人体框中的人体部位进行调整。在一个可能示例中，该基于在先采集图像帧对该图像帧中人体框进行调整的过程包括：对于每个用户对象，该视频播放设备根据在先采集图像帧中该用户对象的颈关节点和盆骨关节点，识别出该图像帧中人体框内颈关节点和盆骨关节点，并计算颈关节点和盆骨关节点之间的连线与垂直线的夹角，并根据该夹角将图像帧中人体进行旋转，使得旋转后的用户对象的躯干对齐为向上的状态。

在一个可能示例中，对于每个图像帧，视频播放设备可以对该图像帧进行人体检测，当检测到该图像帧包括用户对象的人体时，可以根据人体在该图像帧中的位置对该人体进行标记。当图像帧中包括多个用户对象的人体时，视频播放设备可以为每一个人体标记对应的位置标识。每个人体的位置标识用于标识该人体在图像帧的位置。例如，图像帧中包括A、B、C三个用户对象，A的人***于图像帧中左侧位置，B的人***于图像帧的中间位置，C的人***于图像帧中右侧位置，位置标识可以为位置ID(Identity，编号)的形式，则可通过位置ID“左、中、右”分别对A、B、C三个用户对象进行对应标识区分，即上一帧图像帧中左侧位置的用户对象对应为下一帧图像帧中位于左侧位置的用户对象。

示例性的，可以基于在先采集图像帧中人体框的位置标识对图像帧的人体框进行调整。该过程可以包括：该视频播放设备根据图像帧中各个人体的位置标识，获取在先采集图像帧中与该位置标识相同的用户对象的颈关节点和盆骨关节点的二维图像坐标，并根据颈关节点和盆骨关节点的二维图像坐标，识别出该图像帧中该用户对象的颈关节点和盆骨关节点，以基于颈关节点和盆骨关节点对该图像帧中该用户对象的人体进行旋转。其中，该在先采集图像帧中对应用户对象的关键点的二维图像坐标，是指关键点在该在先采集图像帧的图像坐标系中的二维图像坐标。当然，如果该图像帧为视频播放设备采集的第一个图像帧，则直接对该图像帧进行位置标识，并以识别出的人体框进行裁剪，得到人体框图像。

在另一个可能实现方式中，也可以先对图像帧进行人脸检测，基于检测出的人脸框来预估人体框。该过程可以包括：对于每个图像帧，该视频播放设备可以对该图像帧进行人脸检测，得到该图像帧中至少一个用户对象的人脸框；并根据该人脸框，对图像帧进行人体框检测；基于该至少一个用户对象的人体框对该图像帧进行裁剪，得到至少一个用户对象的人体框图像。示例性的，视频播放设备可以根据人脸框，按照目标放大系数对人脸框进行缩放处理，直至缩放的人脸框能够包括用户对象的各个人体部位，得到人体框，再基于人体框裁剪图像帧，得到人体框图像。

步骤2022、视频播放设备预测该人体框图像中人体关键点在该图像帧的图像坐标系中的二维图像坐标。

对于每个图像帧，该视频播放设备可以通过人体关键点预测模型，对图像帧进行人体关键点检测。其中，该人体关键点预测模型可以为基于CNN(Convolutional NeuralNetworks，卷积神经网络)构建的二维人体关键点预测模型，以裁剪后的至少一个用户对象的人体框图像作为输入，输出对应用户对象的人体关键点在图像坐标系中的二维图像坐标。其中，该人体关键点预测模型可以为预先利用样本集合进行训练得到；例如，该样本集合可以包括多个样本图像帧，每个样本图像帧标注有用户对象的人体关键点在样本图像帧的图像坐标系中的真值图像坐标。通过该样本集合对初始模型进行训练，得到该人体关键点预测模型。

步骤2023、视频播放设备根据该至少一个图像帧的人体关键点的二维图像坐标，通过三维人体姿态模型和人体轨迹模型，确定该人体关键点的三维相对坐标和人体轨迹的三维绝对坐标。

该多个图像帧可以包括当前采集的图像帧以及在先采集图像帧。也即是，对于每个图像帧，该视频播放设备可以采用该图像帧以及该在先采集图像帧，通过三维人体姿态模型和人体轨迹模型，进行三维关键点坐标识别，以得到人体关键点在相机坐标系的三维坐标。

该人体轨迹的三维绝对坐标是指人体轨迹中心点在相机坐标系的坐标。该人体关键点的三维相对坐标是指在该相机坐标系中该人体关键点相对于该人体轨迹中心点的坐标。该相机坐标系是以采集该图像帧的摄像头为坐标原点、以该摄像头的光轴为Z轴的三维空间坐标系。示例性的，该人体轨迹中心点可以是盆骨关节点，人体轨迹的三维绝对坐标可以是盆骨关节点在相机坐标系的绝对坐标。人体关键点的三维相对坐标可以是其它人体关键点在相机坐标系中相对于盆骨关节点的相对坐标，其它人体关键点可以是人体关键点中除盆骨关节点之外的关键点。例如，盆骨关节点的三维绝对坐标可以是(3,4,5)，颈关节点相对于该盆骨关节点的三维相对坐标可以是(0,1,0)；表示颈关节点在相机坐标系的Y轴方向上与盆骨关节点之间的相对位置坐标为1，在相机坐标系的X轴和Z轴方向与盆骨关节点之间的相对位置坐标为0，也即是，颈关节点X轴和Z轴方向与盆骨关节点的坐标位置相同。

该三维人体姿态模型用于根据人体关键点的二维图像坐标确定人体关键点在相机坐标系的三维相对坐标；该人体轨迹模型用于根据人体关键点的二维图像坐标确定人体轨迹中心点的三维绝对坐标。其中，可以基于空洞因果卷积(delated casualconvolution)构建3D(3-dimension，三维)人体姿态模型和人体轨迹模型。本步骤中，对于每个图像帧，可以采用包括该图像帧的连续多帧图像帧中人体关键点的二维图像坐标，作为三维人体姿态模型和人体轨迹模型的输入，输出该人体关键点的三维相对坐标和人体轨迹的三维绝对坐标。当然，该三维人体姿态模型和人体轨迹模型也可以是基于大量样本集合进行训练得到。

步骤203、视频播放设备根据该人体关键点的三维坐标，评估该用户对象的多个骨骼的骨骼长度。

该视频播放设备先确定人体关键点的三维绝对坐标，并基于人体关键点的三维绝对坐标来计算各个骨骼长度。在一种可能实现方式中，本步骤可以通过以下步骤2031-2032实现。

步骤2031、视频播放设备基于该人体关键点的三维相对坐标和人体轨迹的三维绝对坐标，确定该人体关键点在相机坐标系中的三维绝对坐标。

对于每个用户对象，该视频播放设备可以将该用户对象的每个人体关键点的三维相对坐标与该人体轨迹的三维绝对坐标进行求和，得到该人体关键点的三维绝对坐标，例如，盆骨关节点的三维绝对坐标可以是(3,4,5)，颈关节点相对于该盆骨关节点的三维相对坐标可以是(0,1,0)，则颈关节点的三维绝对坐标可以是(3,5,5)。

需要说明的是，用户对象的人体关键点可以基于需要进行配置，例如，可以获取包括头部、颈部、四肢、躯干等主要关节部位的21个主要关键点，该21个主要关键点可以包括人体的主要骨骼的骨骼两端的人体关键点，例如，小腿的骨骼两端的关键点，分别是膝关节和踝关节的关节点。

步骤2032、视频播放设备根据每个骨骼的骨骼两端的人体关键点的三维绝对坐标，计算该每个骨骼的骨骼长度。

视频播放设备可以将每个骨骼两端的人体关键点的三维绝对坐标之间的距离，作为该骨骼的骨骼长度。例如，计算出膝关节点和踝关节点这两个关键点的三维绝对坐标之间距离，作为小腿的长度。当然，也可以基于大腿两端的关键点的三维绝对坐标计算得到大腿的长度，基于盆骨关节点以及颈关节点的三维绝对坐标计算得到躯干长度，以及基于颈关节点以及头顶的关键点的三维绝对坐标计算得到头部的长度。

需要说明的是，通过对人体的各个关键点进行三维坐标，准确表示出得到各个关键点的三维空间位置，然后基于各个关键点进一步得到人体各个部位的各个骨骼的长度，还可以进一步计算出人体整体的身高。即使用户对象处于坐、站立、半躺、仰躺等任意姿势，均可准确计算得到人体中各个骨骼的骨骼长度，还可以准确得到人体的实际身高，提高了确定用户对象的骨骼长度、身高的准确性，进一步提高了儿童模式切换的准确性。并且不限制用户对象的当前姿势，能够适用于用户对象坐着、站立、躺卧等多种场景，进一步提高了儿童模式切换的实用性。

步骤204、视频播放设备识别该多个图像帧中用户对象的人脸的人脸框，预测该用户对象的年龄信息。

该视频播放设备可以根据用户对象的人脸部位进行年龄识别。

视频播放设备可以基于上述步骤202中所获取的人体关键点的二维图像坐标进行人脸区域识别，得到人脸框。或者，也可以直接对图像帧进行人脸识别，识别出图像帧中的人脸框。在第一种可能实现方式中，利用上述步骤202中人体关键点的二维图像坐标识别人脸框时，本步骤可以包括：对于每个图像帧，视频播放设备基于该图像帧中该用户对象的头部的各个关键点，确定该用户对象的头部对应的人脸框，并基于该人脸框和人脸年龄识别模型，确定该用户对象的年龄信息。该人脸年龄识别模型用于根据用户对象的人脸图像识别用户对象的年龄信息。其中，视频播放设备可以根据步骤2022中所获取的人体关键点的二维图像坐标，将包括人体的头部的关键点的区域作为人脸框；头部的关键点可以包括头顶的关键点、下巴的关键点、耳朵的关键点等，当然，还可以包括人脸五官关键点等。例如，本步骤中，可以将图像帧中能够覆盖头顶的关键点、耳朵的关键点以及下巴的关键点的图像帧区域，作为人脸框。另外，还可以基于人脸框对图像帧进行裁剪，得到人脸框图像。该人脸年龄识别模型可以为基于CNN网络构建的人脸年龄识别模型，以裁剪后的至少一个用户对象的人脸框图像作为输入，输出对应用户对象的年龄。当然，该人脸年龄识别模型可以为预先利用样本集合进行训练得到；例如，该样本集合可以包括多个样本人脸图像，每个样本人脸图像标注有用户对象的年龄真值标签。通过该样本集合对初始模型进行训练，得到该人脸年龄识别模型。

在第二种可能实现方式中，直接对图像帧进行人脸识别得到人脸框时，本步骤可以包括：对于每个图像帧，视频播放设备对该图像帧进行人脸检测，得到该图像帧中人脸框，并基于该人脸框和人脸年龄识别模型，确定该用户对象的年龄信息。其中，基于人脸框和人脸年龄识别模型进行年龄识别的方式，与上述第一种可能实现方式中利用人脸年龄识别模型识别的过程同理，此处不再赘述。

步骤205、视频播放设备根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性。

在一种可能实现方式中，该视频播放设备可以基于该多个骨骼长度，预测该用户对象的身高信息，基于该用户对象的身高信息和年龄信息，判断该用户对象的身份属性。示例性的，视频播放设备将该多个骨骼长度之间累加的和值确定为该人体的身高信息。视频播放设备可以对小腿的长度、大腿的长度、以及盆骨至颈的躯干的长度、颈至头顶的关键点的头部的长度进行累加，将累加的和值，作为人体的身高信息。

在一种可能示例中，可以先基于身高信息进行判断，再结合年龄信息进一步修正。则本步骤可以包括：当该用户对象的身高信息不超过第一阈值时，或者，当该用户对象的身高信息超过第一阈值且该用户对象的年龄信息不超过第二阈值时，该视频播放设备确定该用户对象的身份属性为儿童。其中，该视频播放设备可以判断用户对象的身高信息是否超过第一阈值，如果身高信息不超过第一阈值，则直接确定用户对象的身份属性为儿童；如果身高信息超过第一阈值，则进一步判断年龄信息是否超过第二阈值；如果身高信息超过第一阈值但年龄信息不超过第二阈值，则确定用户对象的身份属性为儿童；如果身高信息超过第一阈值且年龄信息超过第二阈值，则确定用户对象的身份属性不是儿童，例如，用户对象的身份属性为成年人。

在另一种可能示例中，可以先基于年龄信息进行判断，再结合身高信息进一步修正。则本步骤可以包括：当该用户对象的年龄信息不超过第二阈值时，或者，当该用户对象的年龄信息超过第二阈值且该用户对象的身高信息不超过第一阈值时，该视频播放设备确定该用户对象的身份属性为儿童。其中，该视频播放设备可以判断用户对象的年龄信息是否超过第二阈值，如果年龄信息不超过第二阈值，则直接确定用户对象的身份属性为儿童；如果年龄信息超过第二阈值，则进一步判断身高信息是否超过第一阈值；如果年龄信息超过第二阈值但身高信息不超过第一阈值，则确定用户对象的身份属性为儿童；如果年龄信息超过第二阈值且身高信息超过第一阈值，则确定用户对象的身份属性不是儿童，例如，用户对象的身份属性为成年人。

在又一个可能示例中，还可以基于身高信息和年龄信息的权重计算加权得分，进一步识别用户对象的身份属性。示例性的，还可以配置有身高信息对应的第一权重以及年龄信息对应的第二权重，以及配置有各个身高信息范围对应的身高信息得分，以及各个年龄信息范围对应的年龄信息得分；基于第一权重和身高信息得分、以及第二权重和年龄信息得分，确定用户对象的身份属性得分，当身份属性得分位于儿童阈值范围内时，确定用户对象的身份属性为儿童。例如，计算身高信息得分与第一权重的第一乘积值，以及年龄信息得分与第二权重的第二乘积值，并将第一乘积值和第二乘积值之间的和值，作为该身份属性得分。当然，还可以采用其他身高信息和年龄信息结合的方式，判断用户对象的身份属性，本申请实施例仅以上述三种方式为例示出，但对身高信息和年龄信息如何结合判断身份属性的具体结合方式不作具体限定。

在又一种可能实现方式中，该视频播放设备可以基于该用户对象的年龄信息和该多个骨骼长度，判断该用户对象的身份属性。在一个可能示例中，该视频播放设备可以先基于骨骼长度进行判断，再结合年龄信息进一步修正；该过程可以包括：当该多个骨骼长度符合目标条件时，或者，当该多个骨骼长度不符合目标条件且该用户对象的年龄信息不超过第二阈值时，该视频播放设备确定该用户对象的身份属性为儿童。其中，该该多个骨骼长度符合目标条件可以包括但不限于：每个骨骼长度均不超过第三阈值、该多个骨骼长度中目标骨骼长度不超过第四阈值、该多个骨骼长度中最大骨骼长度不超过第五阈值等。该目标骨骼长度可以基于需要进行设置，本申请实施例对此不做具体限定，例如，该目标骨骼长度可以为小腿骨骼长度、前臂骨骼长度等。在另一个可能示例中，该视频播放设备可以先基于年龄信息进行判断，再结合骨骼长度进一步修正；该过程可以包括：当该用户对象的年龄信息不超过第二阈值时，或者，当该用户对象的年龄信息超过第二阈值且该多个骨骼长度符合目标条件时，该视频播放设备确定该用户对象的身份属性为儿童。

当然，该视频播放设备也可以结合年龄信息和骨骼长度以及各自对应的权重，进一步识别用户对象的身份属性，该结合权重进行身份属性判断的方式，与上述基于身高信息和年龄信息判断身份属性时对应示例出的方式同理，此处不再一一赘述。

步骤206、视频播放设备根据该身份属性确定是否切换为儿童模式。

当该用户对象的身份属性是儿童时，视频播放设备将该视频播放设备切换为儿童模式。

视频播放设备切换为儿童模式，并在儿童模式下为用户对象播放视频流。儿童模式下视频流的内容、播放时长、播放时间段等各项均为儿童对应的范围，例如，视频流内容为与儿童相关的内容，当然，儿童的监护人，例如儿童的家长可以自行设置播放时长，例如设置播放时长不超过2小时，播放时间段在中午12:00至晚间20:00。当然，该视频播放设备还可以与家长的手机之间建立通信连接，在儿童模式下可以向家长的手机发送儿童观看数据，以实时通过手机实时向家长通知儿童观看情况，例如，观看时长、观看内容等，以使儿童观看过程可以得到其监护人的监护。

在一种可能实现方式中，视频播放设备不仅可以在需要时切换为儿童模式，还可以在合适情况下适时退出儿童模式。在一个可能示例中，视频播放设备切换儿童模式的步骤可以包括：当该至少两个用户对象中任一用户对象的身份属性为儿童时，视频播放设备将该视频播放设备切换为儿童模式；在该视频播放设备为儿童模式的情况下，若该至少两个用户对象中任一用户对象的身份属性为成年人，视频播放设备退出该儿童模式。其中，当至少两个用户对象仅包括儿童时，也即是没有成年人陪同观看时，可以直接切换为儿童模式。当至少两个用户对象中包括成年人时，也即是当有成年人陪同儿童观看时，可以不采用儿童模式来限制儿童的观看，此时可以退出儿童模式。在一个可能示例中，还可以结合成年人陪同观看的持续时间，来判断是否退出儿童模式，则当检测到该多个用户对象中任一用户对象的身份属性为成年人时，视频播放设备退出该儿童模式的步骤可以包括：当该至少两个用户对象中任一用户对象的身份属性为成年人时，视频播放设备基于多个图像帧，检测该成年人的持续观看时间，当该持续观看时间超过目标时间阈值时，视频播放设备退出儿童模式。例如，该目标时间阈值可以为3分钟、20分钟等。当该持续观看时间不超过目标时间阈值时，视频播放设备继续保持儿童模式。其中，视频播放设备可以基于成年人在多个图像帧的首次出现时间，以及多个包括成年人的图像帧的时间戳，计算持续观看时间。例如，每3秒采集一帧图像帧，成年人在当前已采集115帧图像帧中第15帧首次出现，且从第15帧图像帧一直持续到第115帧图像帧，均包括成年人，则持续观看时间为300秒，超过目标时间阈值3分钟，则视频播放设备可以退出儿童模式。

在又一种可能实现方式中，该视频播放设备还可以对儿童的观看时的一些行为习惯进行监控并提醒，则在将视频播放设备切换为儿童模式之后，该视频播放设备对儿童进行监控的过程可以包括：视频播放设备基于该用户对象的人体关键点在相机坐标系的三维坐标，确定该用户对象与视频播放设备之间的距离；当该距离不超过目标距离阈值时，视频播放设备停止播放视频画面，并显示第一提醒消息，该第一提醒消息用于提醒与该视频播放设备之间至少保持目标距离阈值。其中，当儿童与视频播放设备之间的距离较近时，视频播放设备可以通过显示第一提醒消息，帮助儿童位于较远距离下观看视频流，以进一步减少观看电视对儿童眼睛视力的影响。其中，相机坐标系中Z轴方向可以为摄像头光轴方向，则可以用Z轴的坐标表示用户对象与视频播放设备之间的距离，例如，用户对象与视频播放设备之间的距离可以为盆骨关节点在相机坐标系中Z轴方向上的坐标。例如，盆骨关节点的三维绝对坐标可以是(3,4,5)，用户对象与视频播放设备之间的距离为5米。该目标距离阈值可以基于需要进行配置，本申请实施例对此不做具体限定，例如，目标距离阈值可以为3米、5米等。

在又一种可能实现方式中，该视频播放设备还可以对儿童的观看时姿势进行监控并提醒，则在将视频播放设备切换为儿童模式之后，该视频播放设备对儿童进行监控的过程可以包括：视频播放设备基于该用户对象的人体关键点在相机坐标系的三维坐标，确定该用户对象的当前坐姿；当该当前坐姿不符合标准坐姿阈值时，视频播放设备停止播放视频画面，并显示第二提醒消息，该第二提醒消息用于提醒纠正该当前坐姿至符合标准坐姿阈值。示例性的，标准坐姿阈值可以基于需要进行配置，本申请实施例对此不做具体限定，例如，标准坐姿阈值可以为上半身直立的坐姿。例如，当检测到用户对象向左侧或右侧倾斜躺卧时，可以提醒用户对象上半身直立。

其中，第一提醒消息、第二提醒消息可以为文字、图片、动画、视频等任意消息形式，本申请实施例对此不做具体限定；例如，当该当前坐姿不符合标准坐姿阈值时，可以播放标注坐姿阈值的动画，以形象、具体的纠正用户对象的坐姿。在一个可能示例中，当视频播放设备可以先暂停当前画面，并显示该第一提醒消息或第二提醒消息。或者，也可以不暂停当前画面，直接在当前画面中显示第一提醒消息或第二提醒消息。

本申请实施例提供的用于视频播放设备的模式切换方法，通过基于至少两个图像帧中用户对象的人体框确定人体关键点在相机坐标系的三维坐标；基于人体关键点在相机坐标系的三维坐标，确定该用户对象的多个骨骼的骨骼长度，此外还可以进一步基于该多个骨骼长度准确预测身高；由于通过人体关键点在相机坐标系的三维坐标，能够以点为单位衡量用户对象在三维空间的准确位置，通过基于人体关键点在相机坐标系的三维坐标精确定位出各个骨骼的长度，此外还可以进一步精确出身高信息，提高了骨骼长度的准确性；因此，利用骨骼长度以及基于人脸框所预测的年龄信息，来判断用户对象的身份属性，若是儿童则切换为儿童模式；提高了对用户对象身份属性判断的准确性，进一步提高了对是否切换儿童模式的准确判断，提高了儿童模式切换的准确性。

图3为本申请实施例提供的一种用于视频播放设备的模式切换装置的结构示意图。如图3所示，该装置包括：

采集模块301，用于采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；

评估模块302，用于对该至少一个图像帧进行图像识别和解析，评估得到该用户对象的骨骼信息和年龄信息；

切换模块303，用于根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性，并根据该身份属性确定是否切换为儿童模式。

在一个可能实现方式中，该评估模块302，包括：

人体框确定单元，用于确定该至少一个图像帧中用户对象所在的人体框；

关键点确定单元，用于基于该至少一个图像帧的人体框，确定该用户对象的人体关键点在相机坐标系的三维坐标；

预测单元，用于根据该人体关键点的三维坐标，评估该用户对象的多个骨骼的骨骼长度；以及，识别该至少一个图像帧中用户对象的人脸的人脸框，预测该用户对象的年龄信息。

在一个可能实现方式中，该关键点确定单元，用于对于每个图像帧，基于该人体框对该图像帧进行裁剪，得到人体框图像，并预测该人体框图像中人体关键点在该图像帧的图像坐标系中的二维图像坐标；根据该至少一个图像帧的人体关键点的二维图像坐标，通过三维人体姿态模型和人体轨迹模型，确定该人体关键点的三维相对坐标和人体轨迹的三维绝对坐标；

其中，该人体轨迹的三维绝对坐标是指人体轨迹中心点在相机坐标系的坐标；该人体关键点的三维相对坐标是指在该相机坐标系中该人体关键点相对于该人体轨迹中心点的坐标；该相机坐标系是以采集该图像帧的摄像头为坐标原点、以该摄像头的光轴为Z轴的三维空间坐标系。

在一个可能实现方式中，该关键点确定单元，还用于检测该图像帧中的至少一个用户对象的预定人体部位的人体框；基于在先采集图像帧中该至少一个用户对象的人体关键点的二维图像坐标，对该图像帧中对应用户对象的人体框包括的对应人体部位进行调整；基于调整后的人体框，对该图像帧进行裁剪，得到至少一个用户对象的人体框图像。

在一个可能实现方式中，该关键点确定单元，还用于基于该人体关键点的三维相对坐标和人体轨迹的三维绝对坐标，确定该人体关键点在相机坐标系中的三维绝对坐标；根据每个骨骼的骨骼两端的人体关键点的三维绝对坐标，计算该每个骨骼的骨骼长度。

在一个可能实现方式中，该预测单元，还用于以下任一项：

对于每个图像帧，基于该图像帧中该用户对象的头部的各个关键点，确定该用户对象的头部对应的人脸框，并基于该人脸框和人脸年龄识别模型，确定该用户对象的年龄信息；

对该图像帧进行人脸检测，得到该图像帧中人脸框，并基于该人脸框和人脸年龄识别模型，确定该用户对象的年龄信息。

在一个可能实现方式中，该切换模块303，还用于以下任一项：

基于该多个骨骼长度，预测该用户对象的身高信息，基于该用户对象的身高信息和年龄信息，判断该用户对象的身份属性；

基于该用户对象的年龄信息和该多个骨骼长度，判断该用户对象的身份属性。

当该用户对象的身高信息不超过第一阈值时，或者，当该用户对象的身高信息超过第一阈值且该用户对象的年龄信息不超过第二阈值时，确定该用户对象的身份属性为儿童；

当该用户对象的年龄信息不超过第二阈值时，或者，当该用户对象的年龄信息超过第二阈值且该用户对象的身高信息不超过第一阈值时，确定该用户对象的身份属性为儿童。

在一个可能实现方式中，该至少一个图像帧中包括至少两个用户对象；该切换模块303，还用于当该至少两个用户对象中任一用户对象的身份属性为儿童时，将该视频播放设备切换为儿童模式；在该视频播放设备为儿童模式的情况下，若该至少两个用户对象中任一用户对象的身份属性为成年人，退出该儿童模式。

在一个可能实现方式中，图4为本申请实施例提供的另一种用于视频播放设备的模式切换装置的结构示意图。如图4所示，该装置还包括：

距离确定模块304，用于基于该用户对象的人体关键点在相机坐标系的三维坐标，确定该用户对象与该视频播放设备之间的距离；

第一提醒模块305，用于当该距离不超过目标距离阈值时，停止播放视频画面，并显示第一提醒消息，该第一提醒消息用于提醒与该视频播放设备之间至少保持目标距离阈值。

在一个可能实现方式中，图5为本申请实施例提供的又一种用于视频播放设备的模式切换装置的结构示意图。如图5所示，该装置还包括：

坐姿确定模块306，用于基于该用户对象的人体关键点在相机坐标系的三维坐标，确定该用户对象的当前坐姿；

第二提醒模块307，用于当该当前坐姿不符合标准坐姿阈值时，停止播放视频画面，并显示第二提醒消息，该第二提醒消息用于提醒纠正该当前坐姿至符合标准坐姿阈值。

本申请提供的技术方案带来的有益效果是：

本申请实施例提供的用于视频播放设备的模式切换装置，通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对该至少一个图像帧进行图像识别和解析，评估得到该用户对象的骨骼信息和年龄信息；根据该用户对象的骨骼信息和年龄信息，判断该用户对象的身份属性，并根据该身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

本实施例的用于视频播放设备的模式切换装置可执行本申请上述实施例所示的用于视频播放设备的模式切换方法，其实现原理相类似，此处不再赘述。

图6是本申请实施例中提供了一种计算机设备的结构示意图。如图6所示，该计算机设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：

通过采集对应于当前观看视频播放设备的用户对象的至少一个图像帧；对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息；根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，并根据所述身份属性确定是否切换为儿童模式。利用年龄信息和骨骼信息来判断身份属性，来判断身份属性，以进一步确定是否切换为儿童模式，提高了对用户身份属性判断的准确性，进一步提高了视频播放设备的模式切换的准确性。

在一个可选实施例中提供了一种计算机设备，如图6所示，图6所示的计算机设备600包括：处理器601和存储器603。其中，处理器601和存储器603相连，如通过总线602相连。可选地，计算机设备600还可以包括收发器604，收发器604可以用于该计算机设备与其他计算机设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器604不限于一个，该计算机设备600的结构并不构成对本申请实施例的限定。

处理器601可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线602可包括一通路，在上述组件之间传送信息。总线602可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器603可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器603用于存储执行本申请方案应用程序代码(计算机程序)，并由处理器601来控制执行。处理器601用于执行存储器603中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，计算机设备包括但不限于：视频播放设备、智能电视机、个人计算机等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中用于视频播放设备的模式切换方法的相应内容。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的用于视频播放设备的模式切换方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于视频播放设备的模式切换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个图像帧进行图像识别和解析，评估得到所述用户对象的骨骼信息和年龄信息，包括：

确定所述至少一个图像帧中用户对象所在的人体框；

基于所述至少一个图像帧的人体框，确定所述用户对象的人体关键点在相机坐标系的三维坐标；

根据所述人体关键点的三维坐标，评估所述用户对象的多个骨骼的骨骼长度；以及

识别所述至少一个图像帧中用户对象的人脸的人脸框，预测所述用户对象的年龄信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个图像帧的人体框，确定所述用户对象的人体关键点在相机坐标系的三维坐标，包括：

对于每个图像帧，基于人体框对所述图像帧进行裁剪，得到人体框图像，并预测所述人体框图像中人体关键点在所述图像帧的图像坐标系中的二维图像坐标；

根据所述至少一个图像帧的人体关键点的二维图像坐标，通过三维人体姿态模型和人体轨迹模型，确定所述人体关键点的三维相对坐标和人体轨迹的三维绝对坐标；

4.根据权利要求3所述的方法，其特征在于，所述对于每个图像帧，基于人体框对所述图像帧进行裁剪，得到人体框图像，包括：

检测所述图像帧中的至少一个用户对象的预定人体部位的人体框；

基于在先采集图像帧中所述至少一个用户对象的人体关键点的二维图像坐标，对所述图像帧中对应用户对象的人体框包括的对应人体部位进行调整；

基于调整后的人体框，对所述图像帧进行裁剪，得到至少一个用户对象的人体框图像。

5.根据权利要求3所述的方法，其特征在于，所述根据所述人体关键点的三维坐标，评估所述用户对象的多个骨骼的骨骼长度，包括：

基于所述人体关键点的三维相对坐标和人体轨迹的三维绝对坐标，确定所述人体关键点在相机坐标系中的三维绝对坐标；

根据每个骨骼的骨骼两端的人体关键点的三维绝对坐标，计算所述每个骨骼的骨骼长度。

6.根据权利要求3所述的方法，其特征在于，所述识别所述至少一个图像帧中用户对象的人脸的人脸框，预测所述用户对象的年龄信息，包括以下任一项：

7.根据权利要求2所述的方法，其特征在于，所述根据所述用户对象的骨骼信息和年龄信息，判断所述用户对象的身份属性，包括以下任一项：

8.根据权利要求7所述的方法，其特征在于，所述基于所述用户对象的身高信息和年龄信息，判断所述用户对象的身份属性，包括以下任一项：

9.根据权利要求1所述的方法，其特征在于，所述至少一个图像帧中包括至少两个用户对象；所述根据所述身份属性确定是否切换为儿童模式，包括：

当所述至少两个用户对象中任一用户对象的身份属性为儿童时，将所述视频播放设备切换为儿童模式；

在所述视频播放设备为儿童模式的情况下，若所述至少两个用户对象中任一用户对象的身份属性为成年人，退出所述儿童模式。

10.根据权利要求1所述的方法，其特征在于，所述根据所述身份属性确定是否切换为儿童模式之后，所述方法还包括：

基于所述用户对象的人体关键点在相机坐标系的三维坐标，确定所述用户对象与所述视频播放设备之间的距离；

当所述距离不超过目标距离阈值时，停止播放视频画面，并显示第一提醒消息，所述第一提醒消息用于提醒与所述视频播放设备之间至少保持目标距离阈值。

11.根据权利要求1所述的方法，其特征在于，所述根据所述身份属性确定是否切换为儿童模式之后，所述方法还包括：

基于所述用户对象的人体关键点在相机坐标系的三维坐标，确定所述用户对象的当前坐姿；

当所述当前坐姿不符合标准坐姿阈值时，停止播放视频画面，并显示第二提醒消息，所述第二提醒消息用于提醒纠正所述当前坐姿至符合标准坐姿阈值。

12.一种用于视频播放设备的模式切换装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至11任一项所述的用于视频播放设备的模式切换方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11任一项所述的用于视频播放设备的模式切换方法。