CN116546182B - 视频处理方法、装置、设备以及存储介质 - Google Patents

视频处理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN116546182B
CN116546182B CN202310819620.7A CN202310819620A CN116546182B CN 116546182 B CN116546182 B CN 116546182B CN 202310819620 A CN202310819620 A CN 202310819620A CN 116546182 B CN116546182 B CN 116546182B
Authority
CN
China
Prior art keywords
video frame
video
video frames
image area
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310819620.7A
Other languages
English (en)
Other versions
CN116546182A (zh
Inventor
胡琦
宛静川
刘浩楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Original Assignee
Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshu Yuanyu Digital Technology Shanghai Co ltd filed Critical Zhongshu Yuanyu Digital Technology Shanghai Co ltd
Priority to CN202310819620.7A priority Critical patent/CN116546182B/zh
Publication of CN116546182A publication Critical patent/CN116546182A/zh
Application granted granted Critical
Publication of CN116546182B publication Critical patent/CN116546182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • H04N23/675Focus control based on electronic image sensor signals comprising setting of focusing regions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/951Computational photography systems, e.g. light-field imaging systems by using two or more images to influence resolution, frame rate or aspect ratio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)

Abstract

本发明实施例提供一种视频处理方法、装置、设备以及存储介质,该方法包括:获取第一组合图像,其中,第一组合图像为拍摄时间满足第一预设条件的至少两个视频帧,至少两个视频帧各自由智能眼镜设备的不同摄像头拍摄而得;确定第一组合图像中的目标图像区域,其中,目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在第一组合图像中对应的图像区域;对目标图像区域进行超分辨率处理;基于超分辨率处理后的第一组合图像,控制智能眼镜设备的显示部件进行显示。通过超分辨率处理,可以加深目标图像区域的纹理细节,进而使得目标图像区域变得更为清晰。通过调节用户所关注的图像区域的清晰度,能够降低用户的眩晕感。

Description

视频处理方法、装置、设备以及存储介质
技术领域
本发明涉及智能终端技术领域,尤其涉及一种视频处理方法、装置、设备以及存储介质。
背景技术
随着科技的发展,能够为人们的生活带来便利的终端已经发展到多种多样,如个人电脑、平板电脑、手机、智能电视、各种类型的可穿戴设备。其中,可穿戴设备例如是智能手表、虚拟现实(Virtual Reality,简写为VR)眼镜、增强现实(Augmented Reality,简写为AR)眼镜、眼镜等。其中,在近期发布的一些VR眼镜中还增加了混合现实(Mixed Reality,简写为MR)功能,该功能可以基于视频透视(Video See-Through,简写为VST)技术实现。
相关技术中,虽然使用VR眼镜能够为用户带来许多便利以及不同的体验,但是由于某些因素的影响,使用VR眼镜也为用户带来了问题。比如说,佩戴VR眼镜的用户时常会感觉到眩晕感,这是由于展示给用户的视频帧的分辨率过低、视频流的帧率不稳定且变化幅度较大、视频流的亮度变化幅度较大、左右眼所看到的视频帧不同步等等原因造成的。基于此,亟需一种用于降低用户在使用VR眼镜的过程中的眩晕感的解决方案。
发明内容
本发明实施例提供一种视频处理方法、装置、设备以及存储介质,用以实现尽可能地消除眩晕的体验,提升用户对智能眼镜设备的使用体验。
第一方面,本发明实施例提供一种视频处理方法,应用于智能眼镜设备,所述方法包括:
获取第一组合图像,其中,所述第一组合图像为拍摄时间满足第一预设条件的至少两个视频帧,所述至少两个视频帧各自由所述智能眼镜设备的不同摄像头拍摄而得;
确定所述第一组合图像中的目标图像区域,其中,所述目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
对所述目标图像区域进行超分辨率处理;
基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
第二方面,本发明实施例提供一种视频处理装置,应用于智能眼镜设备,所述装置包括:
获取模块,用于获取第一组合图像,其中,所述第一组合图像为拍摄时间满足第一预设条件的至少两个视频帧,所述至少两个视频帧各自由所述智能眼镜设备的不同摄像头拍摄而得;
确定模块,用于确定所述第一组合图像中的目标图像区域,其中,所述目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
超分辨率模块,用于对所述目标图像区域进行超分辨率处理;
显示模块,用于基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
第三方面,本发明实施例提供一种智能眼镜设备,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行第一方面的视频处理方法。
第四方面,本发明实施例提供一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被智能眼镜设备的处理器执行时,使所述处理器执行第一方面的视频处理方法。
采用本发明,可以自动在第一组合图像中识别出目标图像区域,目标图像区域为用户在使用智能眼镜设备观看的过程中所关注的图像区域。通过超分辨率处理,可以加深目标图像区域的纹理细节,进而使得目标图像区域变得更为清晰。通过调节用户所关注的图像区域的清晰度,能够降低用户在佩戴智能眼镜设备过程中的眩晕感。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频处理方法的流程示意图;
图2为本发明实施例提供的一种智能眼镜设备内部信号传输示意图;
图3为本发明实施例提供的一种生成第一组合图像的流程示意图;
图4为本发明实施例提供的一种拼接操作的应用场景示意图;
图5为本发明实施例提供的一种智能眼镜设备的结构示意图;
图6为本发明实施例提供的一种读取视频帧的流程示意图;
图7为本发明实施例提供的一种视频帧转存示意图;
图8为本发明实施例提供的一种直播场景中读取视频流数据的示意图;
图9为本发明实施例提供的一种视频处理装置的结构示意图;
图10为本发明实施例提供的一种智能眼镜设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图1为本发明实施例提供的一种视频处理方法的流程图,该方法可以应用于智能眼镜设备。其中,智能眼镜设备例如可以是VR眼镜等。如图1所示,该方法包括如下步骤:
101、获取第一组合图像,其中,第一组合图像为拍摄时间满足第一预设条件的至少两个视频帧,至少两个视频帧各自由智能眼镜设备的不同摄像头拍摄而得。
102、确定第一组合图像中的目标图像区域,其中,目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在第一组合图像中对应的图像区域。
103、对目标图像区域进行超分辨率处理。
104、基于超分辨率处理后的第一组合图像,控制智能眼镜设备的显示部件进行显示。
其中,上述第一组合图像为由智能眼镜设备的不同摄像头拍摄的拍摄时间满足第一预设条件的至少两个视频帧拼接而得。将上述至少两个视频帧拼接成第一组合图像的原因是,由于视频帧通过硬件电路在传输的过程中存在延迟等问题,导致拍摄时间满足第一预设条件的至少两个视频帧在某些情况中不能同时到达用于处理该至少两个视频帧的部件,存在视频帧不同步的问题,因此在本发明实施例中将拍摄时间满足第一预设条件的至少两个视频帧拼接成第一组合图像,这样保证上述至少两个视频帧能够被作为同一组视频帧进行相关处理,进而使得视频帧能够同步。具体获取第一组合图像的过程将在后面的实施例中详细介绍,在此不再展开叙述。
在得到第一组合图像之后,可以确定第一组合图像中的目标图像区域。其中,目标图像区域可以理解为是聚焦区域和/或景深满足第二预设条件的物体在第一组合图像中对应的图像区域。
需要说明的是,基于前文所介绍的,第一组合图像由至少两个视频帧拼接而得,因此第一组合图像中实际是包括至少两个视频帧的。在实际确定第一组合图像中的目标图像区域的过程中,第一组合图像中包括多少个视频帧,就需要在第一组合图像中确定出同样数量的目标图像区域。也就是说,针对第一组合图像中包括的每个视频帧,需要采用同样的处理方式确定该每个视频帧中各自包括的目标图像区域。
可选地,目标图像区域包括聚焦区域。相应地,确定第一组合图像中的目标图像区域的过程可以实现为:对于第一组合图像中的任一视频帧i,将中心点与任一视频帧i的中心点位置相同,且尺寸为预设尺寸大小的图像区域,确定为任一视频帧i的初始的聚焦区域。
在初始化的过程中,可以默认将中心点与任一视频帧i的中心点位置相同且尺寸为预设尺寸大小的图像区域,确定为该任一视频帧i的初始的聚焦区域。也即,将任一视频帧i的中央位置上预设尺寸大小的图像区域,确定为该任一视频帧i的初始的聚焦区域。其中,可选地,聚焦区域的边框可以是正方形、长方形、圆形等等,对此本发明实施例不做限定。
可以理解的是,在对聚焦区域初始化之后,还可以对聚焦区域的位置进行优化,以更准确地识别出任一视频帧i中的聚焦区域。
可选地,如果智能眼镜设备中配置了眼动追踪摄像头,还可以通过眼动追踪摄像头输出的数据辅助优化更新任一视频帧i中的聚焦区域。其中,眼动追踪摄像头可以用于捕捉用户在所处物理环境中的视线覆盖区域。可以理解的是,用户在所处物理环境中的视线覆盖区域即为用户所关注的区域,可以基于这样的区域来优化更新任一视频帧i中的聚焦区域。实际应用中,可以确定视线覆盖区域在任一视频帧i中对应的图像区域,以该确定出的图像区域更新替换前述初始的聚焦区域。
或者,无论智能眼镜设备中是否配置有上述眼动追踪摄像头,可选地,还可以通过手势识别的方式优化更新任一视频帧i中的聚焦区域,在这种方式中,不再要求智能眼镜设备配置有眼动追踪摄像头,可以降低对智能眼镜设备的硬件配置要求,从而在一定程度上降低智能眼镜设备的成本。具体来说,该方法可以实现为:检测任一视频帧i中是否存在预设用户手势对应的图像区域;若任一视频帧i中存在预设用户手势对应的图像区域,则以预设用户手势对应的图像区域更新初始的聚焦区域。
实际应用中,如果用户想要看清楚智能眼镜设备的显示部件中的某个位置区域上投放的图像内容,则该用户可以通过预设用户手势触发对上述位置区域的聚焦。其中,预设用户手势例如可以是握拳、握拳并将食指伸出等等,本发明实施例不对具体的用户手势做限定。
当用户在合适的时机将手放到智能眼镜设备的摄像头能够拍摄到的视野范围内时,相应地可以在上述任一视频帧i中检测到用户的手部。如果在任一视频帧i中识别到了用户的手部,可以同时识别用户具体做出了哪种手势。当用户做出了上述预设用户手势时,相应地可以触发智能眼镜设备以预设用户手势对应的图像区域作为更新后的聚焦区域。
举例来说,用户将手放到了面前以使得智能眼镜设备能够检测到用户的手部。同时,用户将手移动到了对应显示部件中投放的图像内容中想要看得更清楚的位置区域,并且做出了预设用户手势:握拳。响应于用户通过握拳触发的对聚焦区域进行设置的指令,将在视频帧i中识别到的握拳对应的图像区域确定为更新后的聚焦区域。
除了聚焦区域以外,目标图像区域还可以包括景深满足第二预设条件的物体在第一组合图像中对应的图像区域。可以理解的是,不同物体在第一组合图像中包括的任一视频帧i中具有不同的景深,可以根据不同物体对应的景深,将物体分为近景物体和远景物体,而本发明实施例中所说的景深满足第二预设条件的物体即为近景物体,近景物体在任一视频帧i中所对应的图像区域为目标图像区域。基于此,确定第一组合图像中的目标图像区域的过程可以实现为:对于第一组合图像中的任一视频帧i,确定任一视频帧i中包含的各物体各自对应的景深;确定景深小于第一预设阈值的物体在任一视频帧i中对应的图像区域。
具体来说,可以采用通用物体分割算法识别出任一视频帧i中的不同物体的轮廓,接着采用双目深度估计算法判断不同物体的轮廓内的区域的景深是否小于第一预设阈值。如果任一物体p的轮廓内的区域的景深小于第一预设阈值,则表示该物体p为近景物体,进而可以将该物体p在任一视频帧i中对应的图像区域确定为目标图像区域。其中,值得注意的是,同一物体的轮廓内的区域可能具有不同的景深,但是这些景深的差值较小。在某些可选实施例中,在计算的过程中,可以取同一物体的轮廓内的区域的景深的平均值作为该物体对应的景深。
在某些可选实施例中,在同一摄像头连续拍摄的不同视频帧中,对不同物体进行记录和跟踪,以识别各物体在各视频帧中的位置的变化以及景深的变化。
当目标图像区域仅包含聚焦区域或者近景物体对应的图像区域时,在后续的步骤中,可以对聚焦区域或者近景物体对应的图像区域进行超分辨率处理。在另外的应用场景中,当目标图像区域既包括聚焦区域也包括近景物体对应的图像区域时,可选地,可以取聚焦区域和近景物体对应的图像区域的并集,对它们的并集进行超分辨率处理。通过这样的方式,可以避免当近景物体也在聚焦区域中时,对这样的近景物体对应的图像区域进行重复的超分辨率处理。
另外,需要说明的是,通过超分辨率处理,可以使得原本分辨率低的图像区域中的纹理信息变得更加细腻,即提高低分辨率的图像区域的纹理信息的信息量,进而增加经过超分辨率处理后的图像区域的纹理细节,最终提高经过超分辨率处理后的图像区域的清晰度。
基于上述介绍可见,超分辨率处理的过程可以简单理解为将包含信息量低的纹理信息的图像区域输入到超分辨率处理的算法中,可以得到包含信息量高的纹理信息的图像区域。基于此,在某些可选实施例中,还可以实现超分辨率处理结果的共享,该过程可以实现为:对任一视频帧i中包含的各物体进行类别识别;基于类别识别结果,确定各物体中的类别为预设的具有固定结构的物体类别的目标物体;获取与目标物体对应的通过超分辨率处理获得的第一纹理信息;将第一纹理信息共享给第二组合图像以在超分辨率过程中使用,其中,第二组合图像为在第一组合图像之后拍得的组合图像。
其中,具有固定结构的物体类别例如是用户的手背。一般来说,用户的手背的结构不会随着时间发生改变,手背只能位移和旋转。对于具有固定结构的目标物体,可以保存在任一视频帧i中通过超分辨率处理获得的第一纹理信息,然后将该第一纹理信息共享给后续拍摄的视频帧j,以在对视频帧j中的目标物体对应的图像区域进行超分辨率处理的过程中使用。其中,视频帧j可以是第二组合图像中包括的视频帧,视频帧j为拍摄视频帧i的同一摄像头拍摄得到的,且视频帧j为在视频帧i之后的一个视频帧或者为与视频帧i具有预设间隔的视频帧。
如前文所介绍的,对于具有固定结构的目标物体来说,它的结构一般不会随着时间发生改变,它只能发生位移和旋转。基于此,在任一视频帧i之后拍摄的视频帧j中,目标物体可能进行了旋转,可以识别目标物体在视频帧j中相对于任一视频帧i中的旋转角度c。然后,将目标物体对应的在任一视频帧i中通过超分辨率处理获得的第一纹理信息旋转同样的旋转角度c,接着,在将旋转后的第一纹理信息贴图到视频帧j中的目标物体中,即完成了目标物体在视频帧j中的超分辨率处理的过程。
对于视频帧j来说,相较于通过超分辨率处理完全重新计算目标物体的纹理信息,采用共享第一纹理信息的方式,大大降低了超分辨率处理过程中的计算量。由此可见,采用在同一摄像头拍摄的连续的视频帧之间共享第一纹理信息的方式,可以降低超分辨率处理过程中的计算量。
在某些可选实施例中,除了上述共享超分辨率处理得到的纹理信息的情形之外,还可以在其他情形中实现纹理信息的共享。可选地,该共享过程可以实现为:针对各物体中的任一物体p,获取与任一物体p在任一视频帧i中对应的通过超分辨率处理获得的第二纹理信息;将第二纹理信息共享给其他视频帧以在超分辨率过程中使用,其中,其他视频帧为第一组合图像中除任一视频帧i以外的包含任一物体p的视频帧。
可以理解的是,在第一组合图像中,由不同摄像头拍摄的视频帧包含的物体可以相同。对于同一物体来说,通过不同摄像头从不同视角拍摄而得的纹理信息的差别较小,基于此可以将某个摄像头拍摄的同一物体对应的超分辨率处理后的第二纹理信息,共享给第一组合图像中其他摄像头拍摄的不同视频帧中的同一物体使用。
同样地,采用在同一组合图像中不同摄像头拍摄的同一物体之间共享第二纹理信息的方式,可以降低超分辨率处理过程中的计算量。
需要说明的是,上述对目标图像区域进行超分辨率处理的过程可以由人工智能(Artificial Intelligence,简写为AI)芯片实现。本发明实施例不对采用的超分辨率的算法做限定,其中,一种可选的超分辨率的算法可以是SRCNN(SRCNN是一种用于图像超分辨的CNN网络)算法。
采用本发明,可以自动在第一组合图像中识别出目标图像区域,目标图像区域为用户在使用智能眼镜设备观看的过程中所关注的图像区域。通过超分辨率处理,可以加深目标图像区域的纹理细节,进而使得目标图像区域变得更为清晰。通过调节用户所关注的图像区域的清晰度,能够降低用户在佩戴智能眼镜设备过程中的眩晕感。
在另外的一种可选实施例中,还可以进一步对超分辨率处理后的第一组合图像进行处理,以进一步消除用户佩戴智能眼镜过程中的眩晕感。可选地,还可以对超分辨率处理后的第一组合图像进行高动态范围成像处理;基于经过高动态范围成像处理的第一组合图像,控制智能眼镜设备的显示部件进行显示。
在某些可选实施例中,可以在FPGA中进行对超分辨率处理后的第一组合图像进行高动态范围成像处理的过程,也即通过硬件层实现对超分辨率处理后的第一组合图像的高动态范围成像处理的过程,这样可以提高对超分辨率处理后的第一组合图像的高动态范围成像处理的速度。
值得注意的是,通过高动态范围成像处理,可以实现对第一组合图像的亮度的调整,使得经过高动态范围成像处理的第一组合图像的亮度稳定,进而用户在观看亮度稳定的视频帧时,能消除一定的眩晕感。
下面将介绍生成第一组合图像的实现方案。
如图2所示,智能眼镜设备可以包括控制器、标记添加部件、至少两个摄像头以及拼接部件。相应地,图3为本发明实施例提供的一种生成第一组合图像的流程图,如图3所示,该方法包括如下步骤:
301、控制器分别向至少两个摄像头发送同步曝光信号。
302、当接收到同步曝光信号时,至少两个摄像头进行同步拍摄,得到至少两个视频帧。
303、标记添加部件分别在至少两个视频帧中添加相应的同步标记。
304、拼接部件基于同步标记对至少两个视频帧进行拼接操作,得到第一组合图像。
上述至少两个摄像头可以包括第一摄像头和第二摄像头,下面将以拼接第一摄像头和第二摄像头拍摄的视频帧为例介绍生成第一组合图像的过程。基于同步曝光信号的控制,第一摄像头拍摄的视频帧称为第一视频帧,第二摄像头拍摄的视频帧称为第二视频帧。
实际应用中,可以控制第一摄像头和第二摄像头以相同的帧率拍摄视频,比如说,可以控制第一摄像头和第二摄像头都以每秒60帧的帧率拍摄视频。当第一摄像头和第二摄像头拍摄视频的帧率相同时,可以让第一摄像头和第二摄像头分别在每次拍摄一个视频帧时,进行同步曝光。这样第一摄像头和第二摄像头捕捉到的画面是相同的,只是拍摄角度不同。
当需要第一摄像头和第二摄像头拍摄一帧视频帧时,控制器可以同步向第一摄像头和第二摄像头发送同步曝光信号。第一摄像头和第二摄像头根据接收到的同步曝光信号进行曝光,以分别拍摄一个视频帧。这样,当控制器有节奏地向第一摄像头和第二摄像头发送同步曝光信号时,第一摄像头和第二摄像头可以持续拍摄视频。例如,控制器同步向摄像头A和摄像头B分别发送了同步曝光信号,摄像头A和摄像头B同时接收到了同步曝光信号并进行曝光,通过曝光操作摄像头A拍得了视频帧P1且摄像头B拍得了视频帧P2。
在第一摄像头和第二摄像头依次拍得了第一视频帧和第二视频帧之后,可以将第一视频帧和第二视频帧发送给标记添加部件。该标记添加部件在某些可选实施例中具体可以实现为数字信号处理(Digital Signal Processing,简称DSP)芯片。在标记添加部件中,为第一视频帧和第二视频帧分别添加同步标记。
需要说明的是,由于视频帧在智能眼镜设备内部进行传输的过程中可能会产生延时,因此为了让标记添加部件能够为各个视频帧添加上正确的同步标记,需要尽可能地消除视频帧从两个摄像头传输到标记添加部件的延时。
其中,可选地,同步标记可以包括时间戳和/或计数数值。
其中,时间戳可以是标记添加部件接收到第一视频帧或第二视频帧的时间。
或者,如果采用计数数值的方式,可以在标记添加部件每从第一摄像头接收一个视频帧就将第一计数数值增加1,以及每从第二摄像头接收一个视频帧就将第二计数数值增加1。
值得注意的是,第一视频帧和第二视频帧中添加的同步标记可以相同也可以不同。当该同步标记不同时,能够基于预设规则确定出第一视频帧和第二视频帧是相对应的,或者说是同步曝光的即可。例如,计数数值为3的视频帧与计数数值为4的视频帧是一组同步曝光拍得的视频帧。
另外,可以以特定的数据结构的形式将同步标记添加到视频帧中。例如,可以将视频帧表示为数组,可以在表示视频帧的数组的后面添加同步标记。
在标记添加部件为第一视频帧和第二视频帧添加好相应的同步标记之后,可以将添加有同步标记的第一视频帧和第二视频帧传输给拼接部件。其中,拼接部件例如可以是现场可编程门阵列(Field Programmable Gate Array,简写为FPGA)。
如前文所述,由于第一视频帧和第二视频帧在智能眼镜设备内部进行传输的过程中可能会产生延时,该延时在第一视频帧和第二视频帧从标记添加部件传输到拼接部件的过程中是不可避免的,因此即使标记添加部件同时将第一视频帧和第二视频帧发出,第一视频帧和第二视频帧也可能先后被拼接部件接收。
在拼接部件中,在接收到第一视频帧和第二视频帧之后,由于第一视频帧和第二视频帧中添加了同步标记,因此拼接部件可以基于它们相应的同步标记确定第一视频帧和第二视频帧为一组同步曝光拍得的视频帧。例如,如图4示出的场景所示,拼接部件先接收到计数数值为3的视频帧,经过一定时长又接收到计数数值为4的视频帧,基于它们的计数数值拼接部件可以确定该两个视频帧为一组同步曝光拍得的视频帧。在确定出一组同步曝光的视频帧之后,拼接部件可以对它们进行拼接操作。
其中,在某些可选实施例中,拼接操作可以实现为:将第一视频帧和第二视频帧的两个宽边拼接在一起,或者将第一视频帧和第二视频帧的两个长边拼接在一起。通过拼接操作,可以实现数据的堆叠过程,将属于同一组的视频帧组合到一起,形成第一组合图像。
通过上述操作,即使在传输视频帧的过程中存在延时的现象,在拼接部件中也能将同一组同步曝光的视频帧一一对应起来,而不会误将不同步曝光的视频帧对应起来。通过这样的方式,实现了视频帧的同步过程,这样用户通过左右眼最终看到的视频帧是同步的,进而降低了由于视频帧不同步能带来的眩晕感。
可以理解的是,在视频帧传输到拼接部件的过程中有可能会发生丢帧的现象,若发生了丢帧的现象,那么拼接部件将很难再收到丢帧的视频帧。进而,若属于同一组同步曝光的第一视频帧和第二视频帧中的任一视频帧发生了丢帧现象时,拼接部件如何对其中一个接收到的视频帧进行处理是需要解决的问题。
在本发明实施例中提供了几种解决上述问题的技术方案。
可选地,本发明实施例提供的方法还可以包括:若在拼接部件接收到第一视频帧和第二视频帧中的一个视频帧超过预设时间阈值后未接收到另一视频帧,则采用预设丢帧处理方式对接收到的视频帧进行处理。
可选地,采用预设丢帧处理方式对接收到的视频帧进行处理的过程可以实现为:将接收到的视频帧丢弃;或,获取目标摄像头在未接收到的视频帧前一帧拍摄的第三视频帧,以第三视频帧替代未接收到的视频帧,其中,目标摄像头为第一摄像头和第二摄像头中拍摄未接收到的视频帧的摄像头。
实际应用中,可以设置一个时间阈值,若接收到同一组同步曝光的一个视频帧超过了预设时间阈值之后还未收到另一个,则可以直接对该接收到的视频帧进行丢弃,然后继续对下一组同步曝光的视频帧进行相应处理。
或者,可以获取目标摄像头在未接收到的视频帧前一帧拍摄的第三视频帧,以第三视频帧替代未接收到的视频帧。
实际应用中,假设摄像头A和摄像头B进行同步曝光,依次拍得了视频帧P1和视频帧P2。拼接部件首先接收到了视频帧P2,但是超过了预设时间阈值后还未收到视频帧P1,此时拼接部件可以选择将视频帧P2丢弃并继续处理下一组同步曝光的视频帧。或者,拼接部件也可以获取发生丢帧的摄像头A在视频帧P1之前一帧拍得的视频帧P3。接着,可以对视频帧P3和视频帧P2进行拼接操作。
由于智能眼镜设备硬件电路的不稳定等因素,会导致视频帧发生丢帧的现象,在另外的可选实现方式中,当发生了丢帧现象时,还可以通过以下方式解决:若在预设时长内未接收到第一组合图像中的所有视频帧,则获取智能眼镜设备在第一时刻相对于第二时刻的相对运动幅度,其中,第一时刻为拍摄第一组合图像的时刻,第二时刻为拍摄第一组合图像的前一组视频帧的时刻;判断相对运动幅度是否小于第二预设阈值;若相对运动幅度小于第二预设阈值,则确定拍摄第一组合图像中未接收到的视频帧的目标摄像头,获取通过目标摄像头在未接收到的视频帧之前一帧拍摄的视频帧;对获取到的视频帧以及第一组合图像中已接收到的视频帧进行拼接操作。
其中,上述相对运动幅度可以基于智能眼镜设备中的多轴传感器获得。其中,多轴传感器例如可以是6轴传感器(IMU)。6轴传感器可以持续检测智能眼镜设备的位移和朝向的变化,相应输出的数据为IMU数据。可以基于第一时刻检测到的IMU数据和第二时刻检测到的IMU数据,确定智能眼镜设备在第一时刻相对于第二时刻的相对运动幅度。
当相对运动幅度小于第二预设阈值时,表示智能眼镜设备在第一时刻相对于第二时刻的运动幅度较小,那么理论上,画面的变化程度较小,因此可以使用目标摄像头拍摄的上一个视频帧来替代未接收到的视频帧。
可选地,若相对运动幅度大于或者等于第二预设阈值,则丢弃第一组合图像中所有已接收到的视频帧。
在丢弃第一组合图像中所有已接收到的视频帧之后,等待下一轮视频帧的到来,继续对下一轮视频帧进行有关处理。
另外,需要补充的是,对于丢弃第一组合图像中所有已接收到的视频帧的情况,可以基于前面拍得的视频帧,通过补齐的方式,重新生成第一组合图像。可选地,该过程可以实现为:获取在第一组合图像之前一组拍摄的在先视频帧;对于在先视频帧中的目标图像区域,对目标图像区域进行运动轨迹预测,以及基于运动轨迹预测结果,生成第一组合图像中当前视频帧中的目标图像区域;对于在先视频帧中除目标图像区域以外的非目标图像区域,将非目标图像区域继承到当前视频帧中除目标图像区域以外的图像区域中。
可以理解的是,以生成第一组合图像中摄像头A拍摄的视频帧A1为例来说,可以获取摄像头A在拍摄视频帧A1之前的一个视频帧A2。确定视频帧A2中的目标图像区域,对目标图像区域进行运动轨迹预测,基于运动轨迹预测结果,生成视频帧A1的目标图像区域。其中,可以对目标图像区域进行插值或者外推等处理。对于视频帧A1中的非目标图像区域,可以直接继承视频帧A2中的非目标图像区域。对于第一组合图像中视频帧A1以外的视频帧,都可以采用相同的方式来生成。
最终通过上述方式,可以重新补齐丢弃的第一组合图像。进而,通过这样的方式,可以保证用户观看到的帧率是稳定的,从而消除由于帧率不稳定所可能带来的眩晕感。
可选地,在获得第一组合图像之后,还可以将第一组合图像输入到视频透视(Video See-Through,简写为VST)***进行处理。
在VST***中,可以将经过拼接操作的一组视频帧分别输出到对应于智能眼镜设备的左右两个显示部件对应的显存中,其中,左右两个显示部件分别对应于智能眼镜设备的左右两个镜片。该数据与操作***所绘制的虚拟界面进行叠加,接着还会对叠加结果进行反畸变处理,最终可以形成用于在显示部件中投放的图像内容。
采用本发明实施例提供的方案,可以通过同步曝光信号控制第一摄像头和第二摄像头进行同步曝光,以通过不同拍摄角度拍得同一画面,即第一视频帧和第二视频帧。即使在第一视频帧和第二视频帧传输到拼接部件的过程中产生了延时而导致一先一后被拼接部件接收,也能够通过在第一视频帧和第二视频帧中添加的同步标记,在拼接部件中对属于同一组同步曝光拍得的第一视频帧和第二视频帧进行拼接操作,得到第一组合图像。最后,再将第一组合图像输入到VST***进行下一步处理。通过这样的处理方式,最终可以使得用户通过左右眼分别观看到的视频帧是同步的,进而尽可能地消除眩晕的体验,提升用户对智能眼镜设备的使用体验。
在一种可能的实现方式中,本发明实施例提供的视频处理方法可以在如图5所示的智能眼镜设备中实现。其中,如图5所示,智能眼镜设备可以包括控制器、第一摄像头、第二摄像头、第一FPGA、第二FPGA、AI芯片、中央处理器、屏幕1以及屏幕2。
其中,控制器用于向第一摄像头和第二摄像头发送同步曝光信号,控制两个摄像头进行同步拍摄。第一摄像头和第二摄像头基于接收到的同步曝光信号,进行同步拍摄,得到第一视频帧和第二视频帧。两个视频帧传输到第一FPGA中,在第一FPGA接收到第一视频帧和第二视频帧之后,第一FPGA对它们进行拼接处理,得到第一组合图像。第一组合图像被输入到AI芯片,在AI芯片中进行目标图像区域的识别以及对目标图像区域的超分辨率处理。超分辨率处理后的第一组合图像会被输入到第二FPGA,在第二FPGA中进行高动态范围成像处理。最后,经过高动态范围成像处理的第一组合图像会被输入到中央处理器中,在中央处理器中供中央处理器中安装的应用软件或者计算机视觉算法等使用,经过应用软件或者计算机视觉算法的处理,对处理后的结果进行绘制,并显示在屏幕1以及屏幕2上。
智能眼镜设备可以装载操作***,如安卓操作***。在用户启用了VST模式时,VST模式处于开启状态。在VST模式下,VST模式对应的***进程需要通过***进程访问摄像头资源。该访问摄像头资源是指读取摄像头拍摄的视频帧。此时,可以认为摄像头资源被VST模式对应的***进程占用。
当摄像头资源被***进程占用时,如果用户再开启其他应用,且该应用中的目标功能模块被使用,目标功能模块需要通过访问摄像头资源实现预置功能,则VST模式被强制退出,或者上述目标功能模块无法正常使用。这是由于在安卓操作***中该操作***本身限定***进程和应用中同时只能有一个可以访问摄像头资源。
可选地,在本发明的另一可选实施例中,为了解决***进程和应用中同时只能有一个可以访问摄像头资源的问题,在该发明实施例中可以向第三方应用的开发人员提供一种应用程序编程接口(Application Programming Interface,API)。当第三方应用需要访问摄像头资源时,可以不再调用安卓操作***本身提供的API。通过调用本发明实施例提供的API,即使在VST模式处于开启状态时,第三方应用也可以正常访问摄像头资源。如图6所示,该方法可以包括:
601、当检测到任一应用中的目标功能模块被启用,且视频透视VST模式处于开启状态时,通过VST模式对应的***进程读取智能眼镜设备中的摄像头拍摄的视频帧,其中,目标功能模块为任一应用中通过调取摄像头拍摄的视频帧实现预置功能的功能模块。
602、确定目标内存空间。
603、将读取到的视频帧存储到目标内存空间中,以使任一应用从目标内存空间中调取摄像头拍摄的视频帧。
如图7所示,当任一应用的目标功能模块被开启时,由于此时已处于VST模式,因此VST模式对应的***进程已处于不断地从摄像头中读取拍摄的视频帧的状态,也就是说,VST模式对应的***进程能够获取到视频帧。
在获取到视频帧之后,可以将该视频帧转存到目标内存空间中。当任一应用调用前述API时,可以将该目标内存空间的地址返回给该应用,这样该应用可以通过上述地址访问目标内存空间,以从目标内存空间读取转存的视频帧。
需要说明的是,在VST模式下,当有多个应用同时需要访问摄像头资源时,该多个应用可以各自调用前述API,以分别从目标内存空间中获取视频帧。
值得注意的是,在某些可选实施例中,可以在没有任何应用需要访问摄像头资源时,VST模式对应的***进程也持续将视频帧转存到目标内存空间中,当任一应用的目标功能模块被开启时,可以直接将目标内存空间的地址返回给该应用,以使得该应用通过该地址访问目标内存空间。或者,在另外的可选实施例中,为了节约内存空间以及计算资源,在没有任何应用需要访问摄像头资源时,VST模式对应的***进程可以不将视频帧转存到目标内存空间中,当第一个需要访问摄像头资源的应用的目标功能模块被开启时,再将视频帧转存到目标内存空间中。
基于此,可选地,通过所述VST模式对应的***进程读取摄像头拍摄的视频帧的过程可以实现为:判断目标内存空间中是否已存在视频帧;若目标内存空间中未存在视频帧,则通过所述VST模式对应的***进程读取摄像头拍摄的视频帧。
可以理解的是,当任一应用的目标功能模块被开启时,可以检测目标内存空间中是否已存在视频帧。如果目标内存空间中还未存储有视频帧,则说明该应用是第一个需要访问摄像头资源的应用。此时,VST模式对应的***进程可以读取视频帧,将读取到的视频帧转存到目标内存空间中。
可选地,若目标内存空间中已存在视频帧,则将目标内存空间的地址返回至任一应用,以使任一应用通过地址从目标内存空间中读取视频帧。
如果目标内存空间中已存储有视频帧,则说明在上述应用的目标功能模块被开启之前,已有其他应用触发了将读取到的视频帧转存到目标内存空间的操作。在这样的情景下,只需将目标内存空间的地址返回给上述应用。
可以理解的是,目标内存空间的容量可以是固定的,该容量大小可以由技术人员根据实际应用场景自由配置。当摄像头被开启时,拍摄到的视频帧是源源不断的,因此有限的目标内存空间中无法容纳下持续拍摄的视频帧。基于此,可选地,将读取到的视频帧存储到目标内存空间中的过程可以实现为:当目标内存空间已满时,用新读取到的视频帧替换目标内存空间中最先存储的视频帧。
需要说明的是,由于拍摄到的视频帧是源源不断的,早先拍摄的视频帧也是不断被新拍摄到的视频帧一一替代的,进而VST模式对应的***进程可以按照周期读取新拍摄的视频帧,然后用新读取到的视频帧替换目标内存空间中最先存储的视频帧,这样实现以新拍摄到的视频帧更新早先拍摄的视频帧的效果。
另外,需要说明的是,由于目标内存空间中存储有多个视频帧,多个视频帧可以形成视频。当任一应用需要使用视频功能时,可以采用本发明实施例提供的方法获取目标内存空间中存储的多个视频帧,当任一应用需要使用拍照功能时,可以采用本发明实施例提供的方法获取目标内存空间中最新拍摄的一个视频帧。
本发明实施例提供的方法可以应用于多种应用场景中,例如直播的应用场景。在该场景中,主播用户可以佩戴智能眼镜设备进行直播。如图8所示,在智能眼镜设备的屏幕中可以向主播用户展示直播视频预览窗口,主播用户可以通过该窗口预览本地拍摄的直播视频。在向主播用户展示直播视频预览窗口的过程中,需要启用VST模式,如本发明实施例前文所述,VST模式对应的***进程需要访问摄像头资源。与此同时,由于主播用户本地的直播视频不仅需要展示给主播用户,还需要上传到云端以分享给其他加入直播间的观众用户。因此,直播应用中的上传模块被启用,通过上传模块将直播视频上传到云端。在这样的情况下,直播应用可以在目标内存空间中读取通过VST模式对应的***进程转存的直播视频,并通过上传模块将其上传到云端。
可选地,上述应用例如可以是直播应用、视频通话应用、视频会议应用、手势识别应用、或者物体识别应用等混合现实应用。本发明实施例不限定应用只能是以上列举的应用,还可以包括其他需要读取视频帧的任何应用。采用本发明实施例提供的视频帧的推送方式,可以让多个不在同一环境中的用户体验到仿佛来到了其他用户所在的环境的感觉,使得多个用户之间的交互的代入感更强。
采用本发明,在VST模式下,如果有任一应用的目标功能模块需要访问摄像头资源,可以将由VST模式对应的***进程处理的视频帧转存到目标存储空间中,以使得上述应用可以通过访问目标内存空间来获取视频帧。采用这样的方式,可以保证VST模式能够正常保持启用,且需要访问摄像头资源的应用都能正常读取到视频帧,进而保证VST模式的功能正常以及应用的正常运行。
以下将详细描述本发明的一个或多个实施例的智能眼镜设备。
图9为本发明实施例提供的一种智能眼镜设备的结构示意图,该装置可以设置于智能眼镜设备。如图9所示,该装置可以包括:
获取模块91,用于获取第一组合图像,其中,所述第一组合图像为拍摄时间满足第一预设条件的至少两个视频帧,所述至少两个视频帧各自由所述智能眼镜设备的不同摄像头拍摄而得;
确定模块92,用于确定所述第一组合图像中的目标图像区域,其中,所述目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
超分辨率模块93,用于对所述目标图像区域进行超分辨率处理;
显示模块94,用于基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
可选地,所述目标图像区域包括所述聚焦区域;
所述确定模块92,用于:
对于所述第一组合图像中的任一视频帧,将中心点与所述任一视频帧的中心点位置相同,且尺寸为预设尺寸大小的图像区域,确定为所述任一视频帧的初始的聚焦区域。
可选地,所述智能眼镜设备还包括眼动追踪摄像头,所述眼动追踪摄像头用于捕捉用户在所处物理环境中的视线覆盖区域;
所述确定模块92,还用于:
在所述任一视频帧中,确定所述视线覆盖区域对应的图像区域;
以确定出的图像区域更新所述初始的聚焦区域。
可选地,所述确定模块92,还用于:
检测所述任一视频帧中是否存在预设用户手势对应的图像区域;
若所述任一视频帧中存在所述预设用户手势对应的图像区域,则以所述预设用户手势对应的图像区域更新所述初始的聚焦区域。
可选地,所述目标图像区域包括景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
所述确定模块92,用于:
对于所述第一组合图像中的任一视频帧,确定所述任一视频帧中包含的各物体各自对应的景深;
确定景深小于第一预设阈值的物体在所述任一视频帧中对应的图像区域。
可选地,所述装置还包括共享模块,所述共享模块,用于:
对所述任一视频帧中包含的所述各物体进行类别识别;
基于类别识别结果,确定所述各物体中的类别为预设的具有固定结构的物体类别的目标物体;
获取与所述目标物体对应的通过超分辨率处理获得的第一纹理信息;
将所述第一纹理信息共享给第二组合图像以在超分辨率过程中使用,其中,所述第二组合图像为在所述第一组合图像之后拍得的组合图像。
可选地,所述共享模块,还用于:
针对所述各物体中的任一物体,获取与所述任一物体在所述任一视频帧中对应的通过超分辨率处理获得的第二纹理信息;
将所述第二纹理信息共享给其他视频帧以在超分辨率过程中使用,其中,所述其他视频帧为所述第一组合图像中除所述任一视频帧以外的包含所述任一物体的视频帧。
可选地,所述智能眼镜设备包括控制器、标记添加部件、至少两个摄像头以及拼接部件;
所述获取模块91,用于:
通过控制器分别向所述至少两个摄像头发送同步曝光信号;
当接收到所述同步曝光信号时,通过至少两个摄像头进行同步拍摄,得到至少两个视频帧;
通过所述标记添加部件分别在所述至少两个视频帧中添加相应的同步标记;
通过所述拼接部件基于所述同步标记对所述至少两个视频帧进行拼接操作,得到第一组合图像。
可选地,所述获取模块91,用于:
若在预设时长内未接收到所述至少两个视频帧中的所有视频帧,则获取所述智能眼镜设备在第一时刻相对于第二时刻的相对运动幅度,其中,所述第一时刻为拍摄所述至少两个视频帧的时刻,所述第二时刻为拍摄所述至少两个视频帧的前一组视频帧的时刻;
判断所述相对运动幅度是否小于第二预设阈值;
若所述相对运动幅度小于所述第二预设阈值,则确定拍摄所述至少两个视频帧中未接收到的视频帧的目标摄像头,获取通过所述目标摄像头在所述未接收到的视频帧之前一帧拍摄的视频帧;
对获取到的视频帧以及具有所述同步标记的所述至少两个视频帧中已接收到的视频帧进行拼接操作,得到第一组合图像。
可选地,所述获取模块91,还用于:
若所述相对运动幅度大于或者等于所述第二预设阈值,则丢弃所述至少两个视频帧中所有已接收到的视频帧。
可选地,所述获取模块91,还用于:
获取在所述至少两个视频帧之前一组拍摄的在先视频帧;
对于所述在先视频帧中的所述目标图像区域,对所述目标图像区域进行运动轨迹预测,以及基于运动轨迹预测结果,生成当前视频帧中的所述目标图像区域;
对于所述在先视频帧中除所述目标图像区域以外的非目标图像区域,将所述非目标图像区域继承到所述当前视频帧中除所述目标图像区域以外的图像区域中。
可选地,所述同步标记包括时间戳和/或计数数值。
可选地,所述显示模块94,用于:
对超分辨率处理后的第一组合图像进行高动态范围成像处理;
基于经过高动态范围成像处理的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
可选地,所述装置还包括转存模块,所述转存模块,用于:
当检测到任一应用中的目标功能模块被启用,且视频透视VST模式处于开启状态时,通过所述VST模式对应的***进程读取所述智能眼镜设备中的摄像头拍摄的视频帧,其中,所述目标功能模块为所述任一应用中通过调取所述摄像头拍摄的视频帧实现预置功能的功能模块;
确定目标内存空间;
将读取到的视频帧存储到所述目标内存空间中,以使所述任一应用从所述目标内存空间中调取所述摄像头拍摄的视频帧。
图9所示装置可以执行前述图1至图8所示实施例中提供的视频处理方法,详细的执行过程和技术效果参见前述实施例中的描述,在此不再赘述。
在一个可能的设计中,上述图9所示视频流数据读取装置的结构可实现为一智能眼镜设备,如图10所示,该智能眼镜设备可以包括:处理器101、存储器102。其中,所述存储器102上存储有可执行代码,当所述可执行代码被所述处理器101执行时,使所述处理器101至少可以实现如前述图1至图8所示实施例中提供的视频处理方法。
可选地,该智能眼镜设备中还可以包括通信接口103,用于与其他设备进行通信。
另外,本发明实施例提供了一种非暂时性机器可读存储介质,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被智能眼镜设备的处理器执行时,使所述处理器至少可以实现如前述图1至图8所示实施例中提供的视频处理方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例提供的视频处理方法可以由某种程序/软件来执行,该程序/软件可以由网络侧提供,前述实施例中提及的智能眼镜设备可以将该程序/软件下载到本地的非易失性存储介质中,并在其需要执行前述视频处理方法时,通过CPU将该程序/软件读取到内存中,进而由CPU执行该程序/软件以实现前述实施例中所提供的视频处理方法,执行过程可以参见前述图1至图8中的示意。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (15)

1.一种视频处理方法,其特征在于,应用于智能眼镜设备,所述智能眼镜设备包括控制器、标记添加部件、至少两个摄像头以及拼接部件,所述方法包括:
所述控制器分别向所述至少两个摄像头发送同步曝光信号;
当接收到所述同步曝光信号时,所述至少两个摄像头进行同步拍摄,得到至少两个视频帧;
所述标记添加部件分别在所述至少两个视频帧中添加相应的同步标记;
所述拼接部件若在预设时长内未接收到所述至少两个视频帧中的所有视频帧,则获取所述智能眼镜设备在第一时刻相对于第二时刻的相对运动幅度,其中,所述第一时刻为拍摄所述至少两个视频帧的时刻,所述第二时刻为拍摄所述至少两个视频帧的前一组视频帧的时刻;判断所述相对运动幅度是否小于第二预设阈值;若所述相对运动幅度小于所述第二预设阈值,则确定拍摄所述至少两个视频帧中未接收到的视频帧的目标摄像头,获取通过所述目标摄像头在所述未接收到的视频帧之前一帧拍摄的视频帧;对获取到的视频帧以及具有所述同步标记的所述至少两个视频帧中已接收到的视频帧进行拼接操作,得到第一组合图像;
确定所述第一组合图像中的目标图像区域,其中,所述目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
对所述目标图像区域进行超分辨率处理;
基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
2.根据权利要求1所述的方法,其特征在于,所述目标图像区域包括所述聚焦区域;
所述确定所述第一组合图像中的目标图像区域,包括:
对于所述第一组合图像中的任一视频帧,将中心点与所述任一视频帧的中心点位置相同,且尺寸为预设尺寸大小的图像区域,确定为所述任一视频帧的初始的聚焦区域。
3.根据权利要求2所述的方法,其特征在于,所述智能眼镜设备还包括眼动追踪摄像头,所述眼动追踪摄像头用于捕捉用户在所处物理环境中的视线覆盖区域;
所述方法还包括:
在所述任一视频帧中,确定所述视线覆盖区域对应的图像区域;
以确定出的图像区域更新所述初始的聚焦区域。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
检测所述任一视频帧中是否存在预设用户手势对应的图像区域;
若所述任一视频帧中存在所述预设用户手势对应的图像区域,则以所述预设用户手势对应的图像区域更新所述初始的聚焦区域。
5.根据权利要求1所述的方法,其特征在于,所述目标图像区域包括景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
所述确定所述第一组合图像中的目标图像区域,包括:
对于所述第一组合图像中的任一视频帧,确定所述任一视频帧中包含的各物体各自对应的景深;
确定景深小于第一预设阈值的物体在所述任一视频帧中对应的图像区域。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对所述任一视频帧中包含的所述各物体进行类别识别;
基于类别识别结果,确定所述各物体中的类别为预设的具有固定结构的物体类别的目标物体;
获取与所述目标物体对应的通过超分辨率处理获得的第一纹理信息;
将所述第一纹理信息共享给第二组合图像以在超分辨率过程中使用,其中,所述第二组合图像为在所述第一组合图像之后拍得的组合图像。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
针对所述各物体中的任一物体,获取与所述任一物体在所述任一视频帧中对应的通过超分辨率处理获得的第二纹理信息;
将所述第二纹理信息共享给其他视频帧以在超分辨率过程中使用,其中,所述其他视频帧为所述第一组合图像中除所述任一视频帧以外的包含所述任一物体的视频帧。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述相对运动幅度大于或者等于所述第二预设阈值,则丢弃所述至少两个视频帧中所有已接收到的视频帧。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取在所述至少两个视频帧之前一组拍摄的在先视频帧;
对于所述在先视频帧中的所述目标图像区域,对所述目标图像区域进行运动轨迹预测,以及基于运动轨迹预测结果,生成当前视频帧中的所述目标图像区域;
对于所述在先视频帧中除所述目标图像区域以外的非目标图像区域,将所述非目标图像区域继承到所述当前视频帧中除所述目标图像区域以外的图像区域中。
10.根据权利要求1所述的方法,其特征在于,所述同步标记包括时间戳和/或计数数值。
11.根据权利要求1所述的方法,其特征在于,所述基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示,包括:
对超分辨率处理后的第一组合图像进行高动态范围成像处理;
基于经过高动态范围成像处理的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到任一应用中的目标功能模块被启用,且视频透视VST模式处于开启状态时,通过所述VST模式对应的***进程读取所述智能眼镜设备中的摄像头拍摄的视频帧,其中,所述目标功能模块为所述任一应用中通过调取所述摄像头拍摄的视频帧实现预置功能的功能模块;
确定目标内存空间;
将读取到的视频帧存储到所述目标内存空间中,以使所述任一应用从所述目标内存空间中调取所述摄像头拍摄的视频帧。
13.一种视频处理装置,其特征在于,应用于智能眼镜设备,所述装置包括:
获取模块,用于分别向至少两个摄像头发送同步曝光信号;当接收到所述同步曝光信号时,控制所述至少两个摄像头进行同步拍摄,得到至少两个视频帧;分别在所述至少两个视频帧中添加相应的同步标记;若在预设时长内未接收到所述至少两个视频帧中的所有视频帧,则获取所述智能眼镜设备在第一时刻相对于第二时刻的相对运动幅度,其中,所述第一时刻为拍摄所述至少两个视频帧的时刻,所述第二时刻为拍摄所述至少两个视频帧的前一组视频帧的时刻;判断所述相对运动幅度是否小于第二预设阈值;若所述相对运动幅度小于所述第二预设阈值,则确定拍摄所述至少两个视频帧中未接收到的视频帧的目标摄像头,获取通过所述目标摄像头在所述未接收到的视频帧之前一帧拍摄的视频帧;对获取到的视频帧以及具有所述同步标记的所述至少两个视频帧中已接收到的视频帧进行拼接操作,得到第一组合图像;
确定模块,用于确定所述第一组合图像中的目标图像区域,其中,所述目标图像区域包括聚焦区域和/或景深满足第二预设条件的物体在所述第一组合图像中对应的图像区域;
超分辨率模块,用于对所述目标图像区域进行超分辨率处理;
显示模块,用于基于超分辨率处理后的第一组合图像,控制所述智能眼镜设备的显示部件进行显示。
14.一种智能眼镜设备,其特征在于,包括:存储器、处理器;其中,所述存储器上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-12中任一项所述的视频处理方法。
15.一种非暂时性机器可读存储介质,其特征在于,所述非暂时性机器可读存储介质上存储有可执行代码,当所述可执行代码被智能眼镜设备的处理器执行时,使所述处理器执行如权利要求1-12中任一项所述的视频处理方法。
CN202310819620.7A 2023-07-05 2023-07-05 视频处理方法、装置、设备以及存储介质 Active CN116546182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310819620.7A CN116546182B (zh) 2023-07-05 2023-07-05 视频处理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310819620.7A CN116546182B (zh) 2023-07-05 2023-07-05 视频处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN116546182A CN116546182A (zh) 2023-08-04
CN116546182B true CN116546182B (zh) 2023-09-12

Family

ID=87449173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310819620.7A Active CN116546182B (zh) 2023-07-05 2023-07-05 视频处理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116546182B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04103270A (ja) * 1990-08-20 1992-04-06 C Goodman Ronald レフレックスカメラのためのビデオビューファインダシステム及び上記レフレックスカメラを介して伝送される像を映像として覗くための方法
WO2016065918A1 (zh) * 2014-10-27 2016-05-06 中兴通讯股份有限公司 一种多画面中子画面的调整控制方法、装置及多点控制单元
CN105853160A (zh) * 2016-03-28 2016-08-17 天脉聚源(北京)传媒科技有限公司 一种防视力疲劳的方法及装置
CN108833832A (zh) * 2018-06-20 2018-11-16 *** 一种眼镜摄录仪及摄录方法
CN111416936A (zh) * 2020-03-24 2020-07-14 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
US10871825B1 (en) * 2019-12-04 2020-12-22 Facebook Technologies, Llc Predictive eye tracking systems and methods for variable focus electronic displays
CN113610018A (zh) * 2021-08-11 2021-11-05 暨南大学 结合5g、表情跟踪与美颜的vr实时通讯交互***及方法
CN113709410A (zh) * 2020-05-21 2021-11-26 幻蝎科技(武汉)有限公司 基于mr眼镜的人眼视觉能力增强的方法、***及设备
CN113794872A (zh) * 2021-09-17 2021-12-14 融信信息科技有限公司 一种基于ar智能眼镜的图像识别***
WO2022266907A1 (zh) * 2021-06-23 2022-12-29 深圳传音控股股份有限公司 处理方法、终端设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022072097A1 (en) * 2020-09-30 2022-04-07 Snap Inc. Multi-purpose cameras for augmented reality and computer vision applications
WO2022216784A1 (en) * 2021-04-08 2022-10-13 Snap Inc. Bimanual interactions between mapped hand regions for controlling virtual and graphical elements

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04103270A (ja) * 1990-08-20 1992-04-06 C Goodman Ronald レフレックスカメラのためのビデオビューファインダシステム及び上記レフレックスカメラを介して伝送される像を映像として覗くための方法
WO2016065918A1 (zh) * 2014-10-27 2016-05-06 中兴通讯股份有限公司 一种多画面中子画面的调整控制方法、装置及多点控制单元
CN105853160A (zh) * 2016-03-28 2016-08-17 天脉聚源(北京)传媒科技有限公司 一种防视力疲劳的方法及装置
CN108833832A (zh) * 2018-06-20 2018-11-16 *** 一种眼镜摄录仪及摄录方法
US10871825B1 (en) * 2019-12-04 2020-12-22 Facebook Technologies, Llc Predictive eye tracking systems and methods for variable focus electronic displays
CN111416936A (zh) * 2020-03-24 2020-07-14 Oppo广东移动通信有限公司 图像处理方法、装置、电子设备及存储介质
CN113709410A (zh) * 2020-05-21 2021-11-26 幻蝎科技(武汉)有限公司 基于mr眼镜的人眼视觉能力增强的方法、***及设备
WO2022266907A1 (zh) * 2021-06-23 2022-12-29 深圳传音控股股份有限公司 处理方法、终端设备及存储介质
CN113610018A (zh) * 2021-08-11 2021-11-05 暨南大学 结合5g、表情跟踪与美颜的vr实时通讯交互***及方法
CN113794872A (zh) * 2021-09-17 2021-12-14 融信信息科技有限公司 一种基于ar智能眼镜的图像识别***

Also Published As

Publication number Publication date
CN116546182A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US20210304431A1 (en) Depth-Aware Photo Editing
JP6522708B2 (ja) プレビュー画像表示方法及び装置、並びに端末
EP3533025B1 (en) Virtual reality experience sharing
EP3494693B1 (en) Combining images aligned to reference frame
US10984583B2 (en) Reconstructing views of real world 3D scenes
US11770599B2 (en) Techniques to set focus in camera in a mixed-reality environment with hand gesture interaction
US20150036999A1 (en) Viewer Attention Controlled Video Playback
CN113973190A (zh) 视频虚拟背景图像处理方法、装置及计算机设备
WO2018219091A1 (zh) 用于显示弹幕的方法、装置以及存储介质
CN112311965A (zh) 虚拟拍摄方法、装置、***及存储介质
CN115209057B (zh) 一种拍摄对焦方法及相关电子设备
WO2021031210A1 (zh) 视频处理方法和装置、存储介质和电子设备
CN112470164A (zh) 姿态校正
CN115484403B (zh) 录像方法和相关装置
CN112822412A (zh) 曝光方法和电子设备
CN108134928A (zh) Vr显示方法和装置
CN116546182B (zh) 视频处理方法、装置、设备以及存储介质
KR20160053428A (ko) 유저 인터페이스를 통한 카메라 장치의 동작 방법
CN115134532A (zh) 图像处理方法、装置、存储介质及电子设备
CN117319790A (zh) 基于虚拟现实空间的拍摄方法、装置、设备及介质
EP3429186B1 (en) Image registration method and device for terminal
US20230410444A1 (en) Display system for displaying mixed reality space image andprocessing method for use of display system
KR101567668B1 (ko) 다중 초점 방식으로 영상을 생성하는 스마트폰 카메라 장치 및 방법
JPWO2018150711A1 (ja) 表示制御装置、表示制御装置の制御方法、および制御プログラム
WO2023185096A1 (zh) 图像模糊度的确定方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant