CN110730378A - 一种信息处理方法及*** - Google Patents

一种信息处理方法及*** Download PDF

Info

Publication number
CN110730378A
CN110730378A CN201911059546.3A CN201911059546A CN110730378A CN 110730378 A CN110730378 A CN 110730378A CN 201911059546 A CN201911059546 A CN 201911059546A CN 110730378 A CN110730378 A CN 110730378A
Authority
CN
China
Prior art keywords
information
target
scene
image
target scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911059546.3A
Other languages
English (en)
Inventor
董碧涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201911059546.3A priority Critical patent/CN110730378A/zh
Publication of CN110730378A publication Critical patent/CN110730378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种信息处理方法及***,在该方法中通过响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对目标场景进行信息采集,获得方位信息;利用第二识别方法对与方位信息相匹配的目标空间进行识别,确定产生音频信息的目标对象;输出与目标对象相匹配的多媒体信息,以使处于目标场景的至少一个对象能够获知目标对象的多媒体信息。实现了对目标场景中的对象的定位和精准识别,能够让目标场景的对象对识别到的目标对象的多媒体信息进行获知,提升了目标场景中对象的体验效果。

Description

一种信息处理方法及***
技术领域
本申请涉及信息处理技术领域,更具体的说是涉及一种信息处理方法及***。
背景技术
随着互联网技术的应用与发展,在多个参与者进行沟通或者进行工作讨论的场景中,会利用图像采集设备对参与者的图像进行采集。但是,在现有的场景中,例如,会议场景中,无法能够让参与者实时获得需要关注的对象的特定图像信息,如,无法获得会议发言者的面部表情等,从而使得参与者的体验效果较差。
发明内容
有鉴于此,本申请提供如下技术方案:
一种信息处理方法,包括:
响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
可选地,该方法还包括:
响应于目标场景未产生满足所述目标条件的音频信息,生成与所述目标场景相匹配的多媒体信息;
输出与所述目标场景相匹配的多媒体信息。
可选地,所述第一识别方法表征拾音***识别方法,所述拾音***包括第一拾音装置和第二拾音装置,其中,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
分别利用所述第一拾音装置和所述第二拾音装置对所述目标场景进行音频信息采集,获得第一时间信息和第二时间信息;
根据所述第一时间信息和所述第二时间信息,计算得到方位信息。
可选地,所述第一识别方法表征位置识别方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
根据所述音频信息,确定所述目标场景的第一位置;
采集所述第一位置与预设参考位置之间的距离信息;
利用所述距离信息,计算得到方位信息。
可选地,所述第一识别方法表征图像识别的方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
对所述目标场景的对象进行图像采集,得到采集图像;
响应于所述采集图像中的第一对象的生物特征改变,根据与所述第一对象相匹配的采集图像,获得所述第一对象的方位信息。
可选地,所述利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,包括:
获得与所述方位信息相匹配的目标空间的至少一个对象的采集图像;
对所述采集图像进行特征识别,确定满足目标特征条件的采集子图像;
根据所述采集子图像,确定产生所述音频信息的目标对象。
可选地,该方法还包括:
利用所述方位信息,生成图像采集的控制指令,所述控制指令用于控制图像采集设备对与所述方位信息相匹配的目标空间进行图像采集,使得图像采集设备输出包括目标对象的图像。
可选地,所述输出与所述目标对象相匹配的多媒体信息,包括:
若所述目标对象产生的音频时长大于时长阈值,输出与所述目标对象相匹配的多媒体信息。
可选地,所述输出与所述目标对象相匹配的多媒体信息,包括:
获取与所述目标对象相配的标识信息;
将所述目标对象对应的待输出信息与所述标识信息进行组合,获得与所述目标对象相匹配的多媒体信息;
输出所述多媒体信息。
一种信息处理***,包括:
方位采集设备,用于响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
目标识别设备,用于利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
信息输出设备,用于输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
本申请公开了一种信息处理方法及***,通过响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对目标场景进行信息采集,获得方位信息;利用第二识别方法对与方位信息相匹配的目标空间进行识别,确定产生音频信息的目标对象;输出与目标对象相匹配的多媒体信息,以使处于目标场景的至少一个对象能够获知目标对象的多媒体信息。实现了对目标场景中的对象的定位和精准识别,能够让目标场景的对象对识别到的目标对象的多媒体信息进行获知,提升了目标场景中对象的体验效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的一种信息处理方法的流程示意图;
图2示出了本申请实施例提供的一种拾音***的示意图;
图3示出了本申请实施例提供的另一种拾音***的结构示意图;
图4示出了本申请实施例提供的一种方位信息获取方法的流程示意图;
图5示出了本申请实施例提供的确定目标对象方法的流程示意图;
图6示出了本申请实施例提供的一种多媒体信息的显示示意图;
图7示出了本申请实施例提供的一种信息处理***的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中提供了一种信息处理方法,参见图1,其示出了本申请实施例的一种信息处理方法的流程示意图,该方法可以包括以下步骤:
S101、响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对目标场景进行信息采集,获得方位信息。
目标场景包括至少一个对象,该对象能够获知到目标场景中事务的变化,即其具有视觉感知功能。例如,目标场景表征会议场景,则目标场景中的对象为该会议场景对应的会议参与者。由于目标场景产生的音频信息可能并不唯一,所以需要设定目标条件,来获得该目标场景中的音频信息,实现对目标场景的音频信息的监测,同时也可以实现准确地获得音频信息,避免不相关音频的干扰。该目标条件可以表征音频的音量条件,如,目标条件为设置的音量阈值;目标条件也可以表征音频的音色条件,如,目标条件设置为表示成人音色的条件;目标条件还可以表征根据需要监测的对象设置的相关音频特征的条件。
当监测到目标场景产生了满足目标条件的音频信息后,会利用第一识别方法对目标场景进行信息采集,获得方位信息。由于是产生音频信息时利用第一识别方法进行的方位信息的采集,所以该第一识别方法可以利用拾音***进行目标场景的对应的定位;另一方面在获得了音频信息后可以根据音频信息的可能产生位置与预设参考点之间的距离关系来确定方位信息。需要说明的是,在本申请实施例中对方位信息的采集过程中可以利用能够识别声音的拾音***进行采集,也可以通过能够获得距离信息的传感器进行相关距离信息的采集来得到方位信息。对于该方位信息的具体确定过程,将在本申请的后续实施例进行具体的解释说明。
S102、利用第二识别方法对与方位信息相匹配的目标空间进行识别,确定产生音频信息的目标对象。
第一识别方法是基于对目标场景信息进行采集后的,方位信息的识别。而第二识别方法,是利用第一识别方法确定方位信息后,根据方位信息对应的目标空间进行再次识别的方法,并且主要识别的是一些特定的特征信息。与方位信息对应的目标空间表征根据方位信息确定的区域,该目标空间包括至少一个对象。
在本申请实施例中根据方位信息可以直接确定目标空间,如,方位信息表征中心原点和半径的信息,即可以根据方位信息确定目标圆,与该目标原对应的空间可以作为目标空间,进行下一步识别。仍以上述目标圆为例进行说明,也可以确定比目标圆范围大的或者比目标圆范围小的空间作为目标空间。其中,以比目标圆范围大的空间作为目标空间时,可以扩大识别范围避免识别遗漏的问题。当以比目标圆范围小的空间作为目标空间时,需要过滤到干扰范围,如静止的物体所在范围等,可以进行精准识别的同时,降低识别资源的浪费。
在该实施例中是以方位信息为中心原点和半径的相关信息确定的目标空间,当然也可以根据其他类型的方位信息确定目标空间,如,方位信息可以包括区域的边界坐标,然后根据边界坐标确定目标空间。并且,在本申请实施例中目标空间是指一个空间范围,该空间范围包括至少一个待识别的对象。
利用第二识别方法对目标空间进行识别时,主要是对该目标空间的对象进行识别,即需要判断该目标空间的对象的特征信息,从而精确确定该目标空间的对象是否是产生上述音频信息的目标对象。可以通过判断该目标空间对象的图像特征、或者对象的生物特征来得到判断结果。
以会议场景为例,目的是识别到该会议场景的发言人,则需要通过第一识别方法,确定发言人的方位信息,从而可以获得包括该发言人的目标空间,再进一步利用第二识别方法对处于该目标空间的人进行面部表情识别,来确定符合正在讲话的表情特征的发言人,即得到了目标对象。
S103、输出与目标对象相匹配的多媒体信息。
多媒体信息是指文字、图像、影像、声音或动画等为表现形式的媒体信息,其含义一般认为是指运用存储与再取技术得到的相关信息,尤其是计算机中的数字信息。对应于本申请中,多媒体信息可以指包括目标对象的图像或视频等格式的信息,也可以为文字、图像和音频等信息的组合信息。当输出多媒体信息后,可以使得处于目标场景的至少一个对象能够获知该目标对象的多媒体信息。
例如,当前目标场景表征包括若干个参与人员的讲座场景,当检测到该场景中有声音时,且该声音的分贝值高于预设声音阈值。然后利用第一识别方法对目标场景信息采集,即根据音频信息确定方位信息,得到发出该声音的人员的大致位置,然后利用第二识别方法对该大致位置范围内的对象进行进一步识别,来找到发出该声音的发言者,最后输出与该发言者对应的多媒体信息,比如该发言者在讲话过程中的带有其表情的视频,使得该讲座现场的参与人员能够根据该视频实时获知发言者的表情信息。从而使得参与人员能够根据发言者的表情信息对当前讲话内容进行进一步地理解,获知发言者的意图,也可以达到将讲话内容与发言者进行匹配的体验效果。
本申请实施例公开的一种信息处理方法,通过响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对目标场景进行信息采集,获得方位信息;利用第二识别方法对与方位信息相匹配的目标空间进行识别,确定产生音频信息的目标对象;输出与目标对象相匹配的多媒体信息,以使处于目标场景的至少一个对象能够获知目标对象的多媒体信息。实现了对目标场景中的对象的定位和精准识别,能够让目标场景的对象对识别到的目标对象的多媒体信息进行获知,提升了目标场景中对象的体验效果。
为了便于对本申请实施例的理解,下面具体对本申请实施例中利用的第一识别方法和第二识别方法进行说明。
第一识别方法可以表征拾音***识别方法,其中,拾音就是把声音收集的过程,拾音***通常会包括若干个拾音装置,常用的拾音装置有麦克风(Microphone,MIC),为了能够获取到更加准确的拾音结果,会采用麦克风阵列的方式进行拾音处理,麦克风阵列是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,采集到的信号包含了其空间的位置信息。
当第一识别方法表征拾音***的识别方法时,且拾音***包括第一拾音装置和第二拾音装置,在本申请实施例中利用第一识别方法,获得方位信息,具体包括:
S201、分别利用第一拾音装置和第二拾音装置对目标场景进行音频信息采集,获得第一时间信息和第二时间信息;
S202、根据第一时间信息和第二时间信息,计算得到方位信息。
需要说明的是,在上述实施方式中,虽然拾音***包括第一拾音装置和第二拾音装置,但是并不代表该拾音***中的拾音装置只有两个,其数量可以根据场景的需求进行灵活设置。具体的,第一拾音装置可以表示在同一区域内的拾音装置,如,设置在水平方向上的两个拾音装置;对应的,第二拾音装置可以表示在设置在竖直方向上的若干个拾音装置。
以拾音装置为麦克风阵列为例,利用基于时延估计的定位算法来得到方位信息。该方法首先估计声源信号(即本申请实施例中与音频信息对应的信号)到达不同麦克风的时间差,利用阵列的几何结构和麦克风的位置信息可以得到一个双曲面,通过求解一系列的非线性双曲面方程获得声源位置。
因此,在本申请实施例中利用第一拾音装置和第二拾音装置进行音频信息采集时,获得的第一时间信息和第二时间信息分别表征的是拾音***中不同拾音装置拾取到声音的延迟时间。
参见图2,其示出了本申请实施例提供的一种拾音***的示意图,其中,在该拾音***中包括三个麦克风阵元,其中,a、b、c分别表示不同麦克风阵元对应声源观测角,R1、R2、R3分别表示不同阵元距离声源距离,d1、d2分别表示阵元1到阵元2、阵元2到阵元3的距离。当获取到满足目标条件的音频信息后,拾音***会获得音频信息的初步位置信息,然后利用拾音***的麦克风阵元进行方位信息的进一步确定。可以通过时延估计算得到时间延迟信息,例如,通过对各个麦克风采集的声压信号进行傅里叶变化,得到各个阵元接收信号的功率谱。再分别对阵元1功率谱、阵元2功率谱,阵元2功率谱、阵元3的功率谱进行互谱时延估计,获得阵元1到阵元2的信号时间延迟t12、阵元2到阵元3的时间延迟t23。然后,结合获得的获得阵元1到阵元2的信号时间延迟t12、阵元2到阵元3的时间延迟t23,以及各阵元之间的距离d1、d2,即可确定波束形成的导向矢量,选取中间阵元作为观测坐标原点,使用常规波束形成算法,得到阵元到目标声源的观测角中b。从而根据时间延迟信息和波束形成、自谱功率等方法计算得到定位声源的目标距离信息等,从而实现对该声源的定位。具体的,声源定位算法可以参见时延估计的定位算法,该算法为常用算法,本申请中不做详细赘述。
参见图3,其示出了本申请实施例中的另一种拾音***的结构示意图,在该拾音***中包括5个麦克风阵列,即Mic0、Mic1、Mic2、Mic3和Mic4,其中,Mic1、Mic2与Mic0之间为固定距离a(根据预先实验获得a的优选取值可以为大于等于3cm)。当有人讲话的时候,拾音***根据不同麦克风阵列拾取到声音的延迟时间,计算Mic0、Mic1、Mic2跟发言人的角度,当角度计算出后,能找到距离Mic1和Mic2平面的垂直距离d。同理,可以根据Mic0、Mic3、Mic4跟发言人的角度计算得到距离Mic3和Mic4平面的垂直距离。这样,拾音***能够对可能产生音频信息的声源进行初步定为,得到定为信息。具体计算过程可以参见上述实施例的描述过程。
在图2和图3对应的实施例中示出了通过拾音***获得方位信息的方法。在本申请实施例中第一识别方法还可以表征位置识别方法,对应的,利用第一识别方法对目标场景进行信息采集,获得方位信息,参见图4,其示出了本申请实施例提供的一种方位信息获取方法的流程示意图,该方法可以包括以下步骤:
S301、根据音频信息,确定目标场景的第一位置;
S302、采集第一位置与预设参考位置之间的距离信息;
S303、利用距离信息,计算得到方位信息。
在获得了音频信息后,可以得到一个可能产生该音频信息的初始位置作为第一位置。可以利用TOF(Time of Flight,飞行时间)传感器的位置作为参考位置,计算第一位置和参考位置之间的距离信息。而第一位置可以为目标场景中的一个对象的位置。通过TOF传感发出经调制的近红外光,遇到与第一位置对应的对象后反射,TOF传感器计算光线发射和反射时间差或相位差,来换算被拍摄的对象的距离,进而可以得到TOF传感器和该对象的距离。从而得到方位信息,即此时的方位信息表征该对象与传感器之间的距离信息。可以用来对产生音频信息的对象进行初步定位。
在另一种可能的实现方式中,也可以通过图像采集设备采集第一位置与预设参考位置之间的距离信息,该预设参考位置表示的是该图像采集设备的位置。该图像采集设备可以包括一个或多个多目(如,双目、三目等)摄像头,多目摄像头可以用来确定获取到的光学图像中指定对象在空间中相对图像采集设备的角度方位和距离。
在某些目标场景中,由于音频信息是通过人等活体生物产生的,因此,伴随着音频信息的产生,人的生物特征会发生改变。例如,在课堂或者需要进行互动的演讲场景中,当发言者进行发言时,其会改变其动作特征,如,由坐姿变为站姿。在这些场景中,本申请实施例可以通过图像采集设备实现利用第一识别方法获得方位信息的过程,该过程可以包括以下步骤:
S401、对目标场景的对象进行图像采集,得到采集图像;
S402、响应于采集图像中的第一对象的生物特征改变,根据与第一对象相匹配的采集图像,获得第一对象的方位信息。
在该过程中,图像采集设备可以包括摄像头和处理器,该摄像头可以为能够进行360度旋转的摄像头。当图像采集设备对目标场景的对象进行图像采集时,该采集过程是一个实时的过程,即在每个时刻都会保留对应的采集图像,当处理器识别到采集图像中的某个对象,如,第一对象的生物特征改变时,会记录与该第一对象相匹配的采集图像,然后通过对采集图像中的特征信息进行分析,得到第一对象的方位信息。
具体地,生物特征为目标场景中的对象的特征,可以包括肢体特征、头部特征等信息。生物特征的改变可以表征第一对象由第一状态改变至第二状态,该状态的改变时通过生物特征的改变实现的,如,目标场景中对象的头部摆动的过程,或者,对象姿态改变的过程都会被判定为该对象的生物特征的改变。
由于发生生物特征改变的对象可能会不唯一,因此,在该实施例中还可以设定生物特征改变的目标条件,如该目标条件可以表示生物特征改变的幅度条件,也可以表示生物特征改变过程中的时间间隔条件。例如,在会议场景中,当某个参与者由于座椅位置不舒适站立起来进行座椅调整后立刻坐下的过程,该参与者将不被识别为第一对象,这是由于其由坐到站再到坐的过程时间较短,并不能达到生物特征改变的目标条件。
在确定了进行了生物特征改变的第一对象后,会获取该第一对象的采集图像,然后对采集图像中包括的图像特征进行分析,以得到第一对象的方位信息。可以通过对采集图像中的能够表征对象坐标的特征信息进行分析,如座椅的坐标信息,目标对象与参考位置的位置关系。例如,可以通过第一对象与会议主持人所在位置的对象关系进行方位信息的确定,即可以得到第一对象相对会议主持人的角度和距离信息。
在上述实施例中分别描述了通过不同的方法实现获得方位信息的过程,在本申请实施例中获得方位信息的方法并不局限于上述各个方法,还可以通过根据产生音频信息的对象的触发指令获得该对象的方位信息,例如,该对象对话筒的开启指令,然后通过该开启指令触发采集话筒位置的过程,然后通过采集到的话筒位置信息来确定该对象的方位信息。
在本申请实施例中之所以获得可能产生音频信息的对象的方位信息,是为了后续更精准的识别和定位产生音频信息的对象的具体信息。因此,在本申请的实施例中还包括了利用第二识别方法对方位信息相匹配的目标空间进行识别,确定产生音频信息的目标对象,参见图5,其示出了本申请实施例确定目标对象方法的流程示意图,该方法可以包括以下步骤:
S501、获得与方位信息相匹配的目标空间的至少一个对象的采集图像;
S502、对采集图像进行特征识别,确定满足目标特征条件的采集子图像;
S503、根据采集子图像,确定产生音频信息的目标对象。
为了能够实现精准对象的识别,需要在获得了可能产生音频信息的方位信息后,确定一个目标空间,该目标空间是根据方位信息确定,在图1的实施例中具体解释了该目标空间的确定过程,在本实施例中不进行赘述。由于目标空间中包括至少一个对象,所以需要进行进一步的图像特征识别,可以通过识别图像中对象的面部特征信息,来获得满足目标特征条件的采集子图像,该目标特征条件可以表征满足产生目标音频时用户的面部特征,如,嘴部的变化特征。
例如,在会议场景中,当有人进行发言时,且确定了可能产生音频信息的对象的方位信息后,会触发该会议场景中的高精度摄像头,在此方位信息寻找发言人的面部,判定发言人的面部表情以及讲话的口型,来判断是谁正在发言,从而可以找到当前会议的参与人员中的发言人。当找到该发言人时,摄像头会将此发言人的当前状态和周围环境进行准确拍摄,并且在显示屏幕上进行显示,这样会使得人员能够更好的识别当前发言人员,有更好的浸入式体验。
需要说明的是,为了能够准确识别到目标对象,在本申请实施例中可以利用人工智能(ArtificialIntelligence,AI)技术对采集图像的特征识别过程。例如,通过人工智能中的机器学习的相关算法,对发言人员发言过程中的面部表情进行学习,生成面部表情识别模型,这样可以将采集图像输出到该面部表情识别模型中,自动获得满足目标特征条件的采集子图像,然后对采集子图像中进行人物识别,得到产生音频信息的目标对象。
需要说明的是,在获得了方位信息后,可以利用方位信息,生成图像采集的控制指令。该控制指令用于控制图像采集设备对与方位信息相匹配的目标空间进行图像采集,使得图像采集设备输出包括目标对象的图像。
该实施方式适用于对目标对象在输出音频信息的过程中的对象跟踪采集的过程,即利用定位到的方位信息,对该方位信息包括的对象的采集图像进行实时输出,该方式适用于当前音频信息输出的对象唯一,可以基于方位信息触发图像采集设备的面部聚焦拍摄功能,使得输出的采集图像为当前音频信息输出对象的脸部图像,从而可以使得目标场景的其他参与对象获得该对象的面部表情等信息。
在图1实施例的基础上,本申请的实施例还包括识别到的目标对象若不唯一,在输出图像时可以通过判断产生音频的时长,来确定输出的多媒体信息。即若目标对象产生的音频时长大于时长阈值,输出与目标对象相匹配的多媒体信息。
例如,在具有主持人进行主持的会议中,通常主持人会让发言人在发言区域进行发言,这时候主持人会有相应的引导语,来介绍发言人,由于该时长较短,可以直接忽略,然后将发言人作为最终的输出的多媒体信息中的目标对象,输出该发言人的多媒体对象。该方式还可以避免环境杂音的干扰,使得定位得到的目标对象更加准确。
参见图6,其示出了本申请实施例提供的一种多媒体信息的显示示意图,在图6(a)中输出的多媒体信息包括了目标对象的脸部图像。为了进一步能够使得目标场景中的参与人员获知到当前音频信息产生者的详细信息,可以在输出目标对象的脸部图像的同时输出该目标对象的标识信息,具体的该过程可以包括以下步骤:
S601、获取与目标对象相匹配的标识信息;
S602、将目标对象对应的待输出信息与标识信息进行组合,获得与目标对象相匹配的多媒体信息;
S603、输出多媒体信息。
可以在获得了方位信息后,根据方位信息确定的可能对象来获取标识信息,该标识信息可以表征当前对象的唯一标识,也可以表征与当前对象输出信息相匹配的标识。例如,对象的身份标识信息,输出的音频信息的文字标识信息等。参见图6(b)其示出了输出的多媒体信息中不仅包括当前音频信息产生者的表情图像,还包括该音频信息的产生者的姓名“张三”。因此,参与者在获得发言者的表情信息的同时,还可以实现图与人的匹配过程,使得参与者能够更好地了解当前发言者的相关信息。
当然,多媒体信息还可以包括输出音频对象的文字信息,即在输出目标对象的图像信息的同时,可以在图像的下方显示与其讲话内容相匹配的文字信息,使得参与人员能够及时获知其讲话的具体内容。
另外,上述实施例是在响应于目标场景产生满足目标条件的音频信息后进行方位信息的确定和目标对象的识别。若目标场景未产生满足目标条件的音频信息,则会生成与目标场景相匹配的多媒体信息,然后输出与目标场景相匹配的多媒体信息。其中,与目标场景相匹配的多媒体信息可以是预先存储的场景介绍信息,如当前目标场景的介绍图像、视频等信息,也可以是根据当前目标场景生成的实时的全景图像。例如,在会议场景中若没有满足目标条件的音频信息,则会在当前会议场景中的显示设备上显示介绍该会议的介绍信息,或者,显示当前会议的全景图像。
在本申请的另一实施例中还提供了一种信息处理***,参见图7,该***包括:
方位采集设备10,用于响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
目标识别设备20,用于利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
信息输出设备30,用于输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
需要说明的是,在本申请的信息处理***的实施例中,方位采集设备可以包括拾音设备、TOF传感器、测距摄像头、处理器和光源辅助设备;同理,目标识别设备可以包括图像采集装置、图像识别装置和处理器等相关设备来实现对目标对象的确定;信息输出设备可以包括音频输出模块、视频输出模块、显示模块等相关结构。具体的设备中装置、模块的选择可以参考本申请提供的信息处理方法的实施例的具体描述过程,在此不做赘述。
在上述信息处理***实施例的基础上,该***还包括:
场景信息输出单元,用于响应于目标场景未产生满足所述目标条件的音频信息,生成与所述目标场景相匹配的多媒体信息;输出与所述目标场景相匹配的多媒体信息。
在上述信息处理***实施例的基础上,所述方位采集设备中的第一识别方法表征拾音***识别方法,所述拾音***包括第一拾音装置和第二拾音装置,其中,所述方位采集设备包括:
时间获取单元,用于分别利用所述第一拾音装置和所述第二拾音装置对所述目标场景进行音频信息采集,获得第一时间信息和第二时间信息;
第一计算单元,用于根据所述第一时间信息和所述第二时间信息,计算得到方位信息。
在上述信息处理***实施例的基础上,所述方位采集设备中的第一识别方法表征位置识别方法,所述方位采集设备还包括:
第一确定单元,用于根据所述音频信息,确定所述目标场景的第一位置;
第一采集单元,用于采集所述第一位置与预设参考位置之间的距离信息;
第二计算单元,用于利用所述距离信息,计算得到方位信息。
在上述信息处理***实施例的基础上,所述方位采集设备中的第一识别方法表征图像识别的方法,所述方位采集设备还包括:
第二采集单元,用于对所述目标场景的对象进行图像采集,得到采集图像;
方位获取单元,用于响应于所述采集图像中的第一对象的生物特征改变,根据与所述第一对象相匹配的采集图像,获得所述第一对象的方位信息。
在上述信息处理***实施例的基础上,所述目标识别设备包括:
图像获取单元,用于获得与所述方位信息相匹配的目标空间的至少一个对象的采集图像;
特征识别单元,用于对所述采集图像进行特征识别,确定满足目标特征条件的采集子图像;
第二确定单元,用于根据所述采集子图像,确定产生所述音频信息的目标对象。
在上述信息处理***实施例的基础上,该***还包括:
指令生成单元,用于利用所述方位信息,生成图像采集的控制指令,所述控制指令用于控制图像采集设备对与所述方位信息相匹配的目标空间进行图像采集,使得图像采集设备输出包括目标对象的图像。
在上述信息处理***实施例的基础上,所述信息输出设备具体用于:
若所述目标对象产生的音频时长大于时长阈值,输出与所述目标对象相匹配的多媒体信息。
在上述信息处理***实施例的基础上,所述信息输出设备包括:
标识获取单元,用于获取与所述目标对象相配的标识信息;
信息组合单元,用于将所述目标对象对应的待输出信息与所述标识信息进行组合,获得与所述目标对象相匹配的多媒体信息;
信息输出单元,用于输出所述多媒体信息。
本申请实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述信息处理方法。
本申请实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述信息处理方法。
本申请实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
进一步地,该方法还包括:
响应于目标场景未产生满足所述目标条件的音频信息,生成与所述目标场景相匹配的多媒体信息;
输出与所述目标场景相匹配的多媒体信息。
进一步地,所述第一识别方法表征拾音***识别方法,所述拾音***包括第一拾音装置和第二拾音装置,其中,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
分别利用所述第一拾音装置和所述第二拾音装置对所述目标场景进行音频信息采集,获得第一时间信息和第二时间信息;
根据所述第一时间信息和所述第二时间信息,计算得到方位信息。
进一步地,所述第一识别方法表征位置识别方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
根据所述音频信息,确定所述目标场景的第一位置;
采集所述第一位置与预设参考位置之间的距离信息;
利用所述距离信息,计算得到方位信息。
进一步地,所述第一识别方法表征图像识别的方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
对所述目标场景的对象进行图像采集,得到采集图像;
响应于所述采集图像中的第一对象的生物特征改变,根据与所述第一对象相匹配的采集图像,获得所述第一对象的方位信息。
进一步地,所述利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,包括:
获得与所述方位信息相匹配的目标空间的至少一个对象的采集图像;
对所述采集图像进行特征识别,确定满足目标特征条件的采集子图像;
根据所述采集子图像,确定产生所述音频信息的目标对象。
进一步地,该方法还包括:
利用所述方位信息,生成图像采集的控制指令,所述控制指令用于控制图像采集设备对与所述方位信息相匹配的目标空间进行图像采集,使得图像采集设备输出包括目标对象的图像。
进一步地,所述输出与所述目标对象相匹配的多媒体信息,包括:
若所述目标对象产生的音频时长大于时长阈值,输出与所述目标对象相匹配的多媒体信息。
进一步地,所述输出与所述目标对象相匹配的多媒体信息,包括:
获取与所述目标对象相配的标识信息;
将所述目标对象对应的待输出信息与所述标识信息进行组合,获得与所述目标对象相匹配的多媒体信息;
输出所述多媒体信息。
本文中的电子设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如上所述信息处理方法中任一步骤的程序。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息处理方法,包括:
响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
2.根据权利要求1所述的方法,该方法还包括:
响应于目标场景未产生满足所述目标条件的音频信息,生成与所述目标场景相匹配的多媒体信息;
输出与所述目标场景相匹配的多媒体信息。
3.根据权利要求1所述的方法,所述第一识别方法表征拾音***识别方法,所述拾音***包括第一拾音装置和第二拾音装置,其中,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
分别利用所述第一拾音装置和所述第二拾音装置对所述目标场景进行音频信息采集,获得第一时间信息和第二时间信息;
根据所述第一时间信息和所述第二时间信息,计算得到方位信息。
4.根据权利要求1所述的方法,所述第一识别方法表征位置识别方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
根据所述音频信息,确定所述目标场景的第一位置;
采集所述第一位置与预设参考位置之间的距离信息;
利用所述距离信息,计算得到方位信息。
5.根据权利要求1所述的方法,所述第一识别方法表征图像识别的方法,所述利用第一识别方法对所述目标场景进行信息采集,获得方位信息,包括:
对所述目标场景的对象进行图像采集,得到采集图像;
响应于所述采集图像中的第一对象的生物特征改变,根据与所述第一对象相匹配的采集图像,获得所述第一对象的方位信息。
6.根据权利要求1所述的方法,所述利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,包括:
获得与所述方位信息相匹配的目标空间的至少一个对象的采集图像;
对所述采集图像进行特征识别,确定满足目标特征条件的采集子图像;
根据所述采集子图像,确定产生所述音频信息的目标对象。
7.根据权利要求1所述的方法,该方法还包括:
利用所述方位信息,生成图像采集的控制指令,所述控制指令用于控制图像采集设备对与所述方位信息相匹配的目标空间进行图像采集,使得图像采集设备输出包括目标对象的图像。
8.根据权利要求1所述的方法,其特征在于,所述输出与所述目标对象相匹配的多媒体信息,包括:
若所述目标对象产生的音频时长大于时长阈值,输出与所述目标对象相匹配的多媒体信息。
9.根据权利要求1所述的方法,其特征在于,所述输出与所述目标对象相匹配的多媒体信息,包括:
获取与所述目标对象相配的标识信息;
将所述目标对象对应的待输出信息与所述标识信息进行组合,获得与所述目标对象相匹配的多媒体信息;
输出所述多媒体信息。
10.一种信息处理***,包括:
方位采集设备,用于响应于目标场景产生满足目标条件的音频信息,利用第一识别方法对所述目标场景进行信息采集,获得方位信息;所述目标场景包括至少一个对象,所述方位信息与产生所述音频信息的对象相关联;
目标识别设备,用于利用第二识别方法对与所述方位信息相匹配的目标空间进行识别,确定产生所述音频信息的目标对象,所述目标空间包括至少一个对象;
信息输出设备,用于输出与所述目标对象相匹配的多媒体信息,以使处于所述目标场景的至少一个对象能够获知所述目标对象的多媒体信息。
CN201911059546.3A 2019-11-01 2019-11-01 一种信息处理方法及*** Pending CN110730378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911059546.3A CN110730378A (zh) 2019-11-01 2019-11-01 一种信息处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911059546.3A CN110730378A (zh) 2019-11-01 2019-11-01 一种信息处理方法及***

Publications (1)

Publication Number Publication Date
CN110730378A true CN110730378A (zh) 2020-01-24

Family

ID=69223600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911059546.3A Pending CN110730378A (zh) 2019-11-01 2019-11-01 一种信息处理方法及***

Country Status (1)

Country Link
CN (1) CN110730378A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839165A (zh) * 2020-11-27 2021-05-25 深圳市捷视飞通科技股份有限公司 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105611167A (zh) * 2015-12-30 2016-05-25 联想(北京)有限公司 一种对焦平面调整方法及电子设备
CN105744208A (zh) * 2014-12-11 2016-07-06 北京视联动力国际信息技术有限公司 一种视频会议控制***及其控制方法
CN205490942U (zh) * 2016-03-16 2016-08-17 上海景瑞信息技术有限公司 一种基于语音识别的摄像机自动定位***
CN107820037A (zh) * 2016-09-14 2018-03-20 南京中兴新软件有限责任公司 音频信号、图像处理的方法、装置和***
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和***
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105744208A (zh) * 2014-12-11 2016-07-06 北京视联动力国际信息技术有限公司 一种视频会议控制***及其控制方法
CN105611167A (zh) * 2015-12-30 2016-05-25 联想(北京)有限公司 一种对焦平面调整方法及电子设备
CN205490942U (zh) * 2016-03-16 2016-08-17 上海景瑞信息技术有限公司 一种基于语音识别的摄像机自动定位***
CN107820037A (zh) * 2016-09-14 2018-03-20 南京中兴新软件有限责任公司 音频信号、图像处理的方法、装置和***
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和***
CN110082723A (zh) * 2019-05-16 2019-08-02 浙江大华技术股份有限公司 一种声源定位方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839165A (zh) * 2020-11-27 2021-05-25 深圳市捷视飞通科技股份有限公司 人脸跟踪摄像的实现方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112088315B (zh) 多模式语音定位
US10074012B2 (en) Sound and video object tracking
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
EP3855731B1 (en) Context based target framing in a teleconferencing environment
CN102903362B (zh) 集成的本地和基于云的语音识别
CN112088402A (zh) 用于说话者识别的联合神经网络
CN111432115B (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
CN107820037B (zh) 音频信号、图像处理的方法、装置和***
US10582117B1 (en) Automatic camera control in a video conference system
KR102463806B1 (ko) 이동이 가능한 전자 장치 및 그 동작 방법
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
Kapralos et al. Audiovisual localization of multiple speakers in a video teleconferencing setting
CN111551921A (zh) 一种声像联动的声源定向***及方法
CN111251307A (zh) 应用于机器人的语音采集方法和装置、一种机器人
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
JP2004198656A (ja) ロボット視聴覚システム
KR101976937B1 (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
WO2021230180A1 (ja) 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム
US11460927B2 (en) Auto-framing through speech and video localizations
CN110730378A (zh) 一种信息处理方法及***
CN104780341B (zh) 一种信息处理方法以及信息处理装置
JP6799510B2 (ja) 情景認識装置、方法、及びプログラム
Zhang et al. Boosting-based multimodal speaker detection for distributed meetings
CN114040107A (zh) 智能汽车图像拍摄***、方法、车辆及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200124

RJ01 Rejection of invention patent application after publication