CN110050255A - 图像处理***和方法 - Google Patents

图像处理***和方法 Download PDF

Info

Publication number
CN110050255A
CN110050255A CN201780076285.9A CN201780076285A CN110050255A CN 110050255 A CN110050255 A CN 110050255A CN 201780076285 A CN201780076285 A CN 201780076285A CN 110050255 A CN110050255 A CN 110050255A
Authority
CN
China
Prior art keywords
sound
image
user
image processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780076285.9A
Other languages
English (en)
Inventor
N.J.布朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Publication of CN110050255A publication Critical patent/CN110050255A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/004Annotating, labelling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Optics & Photonics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

一种图像处理***,用于生成用于在头戴式显示设备处向用户显示的图像,所述***包括:声音输入单元,配置为接收与一个或多个声音有关的声音信息;音频处理单元,配置为分析与一个或多个声音有关的声音信息;图像生成单元,配置为生成指示分析的声音信息的属性的一个或多个图像元素;和图像输出单元,配置为输出用于向头戴式显示设备的用户显示的显示图像,图像包括生成的图像元素作为图像覆盖,其中一个或多个生成的图像元素指示一个或多个声音的源的方向。

Description

图像处理***和方法
技术领域
本发明涉及图像处理***和方法。
背景技术
在头戴式显示器(head-mountable display,HMD)中,提供了可以佩戴在头上或作为头盔的部分的图像或视频显示设备。一只眼睛或两只眼睛任一提供有小型电子显示设备。
一些HMD允许显示的图像叠加在真实世界视图上。这种类型的HMD能够称为光学透视HMD,并且一般地要求显示设备放置在除了直接地在用户眼睛的前方的之外的某处。然后要求偏转显示的图像的一些方式,使得用户可以看见它。这可以通过安置在用户的眼睛的前方的部分反射镜的使用,从而允许用户通过镜子观看,但是也能观看显示设备的输出的反射。在EP-A-1 731 943和US-A-2010/0157433中公开的另一布置中,采用全内反射的波导布置用于从安排的显示设备向用户的头部的侧传送显示的图像,使得用户可以看见显示的图像但是仍然通过波导看见现实世界的视图。再次,在这些类型的布置中的任一中,(使用已知技术)创建显示器的虚拟图像,使得用户以适当的尺寸和距离看见虚拟图像以允许放松的观看。例如,即使物理显示设备可能很小(例如,10mm×10mm)并且可能仅距用户的眼睛几毫米,虚拟图像也可以布置使得由用户在距用户(例如)20m的距离处感知,具有感知的尺寸为5m×5m。
然而,其它HMD仅允许用户看见显示的图像,也就是说,它们模糊了围绕用户的真实世界环境。这种类型的HMD能够将实际的显示设备放置在用户的眼睛的前方,与适当的镜头或其它光学组件相关联,镜头或光学组件将虚拟显示的图像安置在合适的距离处用于用户以放松的方式聚焦,例如以与上述光学透视HMD类似的虚拟距离和感知的尺寸。这种类型的设备可以用于观看电影或类似的记录的内容,或者用于观看表示围绕用户的虚拟空间的所谓的虚拟现实内容。然而,当然可能在这种类型的HMD上显示真实世界视图,例如通过使用前向相机以生成用于在显示设备上显示的图像。
虽然HMD的最初发展可能是由这些设备的军事和专业应用驱动的,但是HMD正在变得更流行用于由休闲用户在例如计算机游戏或家用计算应用中的使用。在这样的布置中,除了减轻外部声音对由HMD的用户当观看内容时经历的沉浸的水平的影响之外,可以优选地提供耳机作为声音的源。
然而,通过提供其中外部声音可能对于用户难以注意或者简单地由用户听不到的布置(或者在用户听力困难的情况下),可能遇到问题;例如,如果在室外使用HMD并且车辆不在用户的视野内,则可能听不到门铃或可能检测不到靠近的车辆。
发明内容
本发明的各个方面和特征在所附权利要求中和所附说明书的文本内限定,并且至少包括诸如显示器的头戴式装置和操作头戴式装置的方法以及计算机程序。
附图说明
现在将参考附图描述本公开的实施例,其中:
图1示意性地示出了由用户佩戴的HMD;
图2是HMD的示意性平面图;
图3示意性地示出了由HMD的虚拟图像的形成;
图4示意性地示出了用于在HMD中使用的另一类型的显示器;
图5示意性地示出了立体图像的对;
图6示意性地示出了HMD的用户的视图的改变;
图7示意性地示出了包括多个声音源的环境;
图8示意性地示出了HMD的显示图像;
图9示意性地示出了头戴式显示***;
图10示意性地示出了图像处理方法。
具体实施方式
本公开的实施例能够提供其中可视地表示可能由用户听不到的声音的布置。这种布置可操作以接收声音信息并且分析声音信息以检测声音的源的方向。然后生成并且显示指示至少声源相对于HMD用户的方向的图像元素。本公开的实施例可以因此通过可视地通信传达外部声音减轻用户当使用HMD时不能清楚地识别外部声音的问题。
现在参考图1,用户10在用户的头部30上佩戴HMD 20。HMD包括此示例中由后带和顶带形成的框架40、以及显示部分50。
图1的HMD完全地模糊了用户对周围环境的观看。用户能够看见的所有是HMD内显示的图像的对。
HMD具有适配到用户的左和右耳70中的相关联的耳机听筒60。听筒60重放从外部源提供的音频信号,外部源可以与提供用于向用户的眼睛显示的视频信号的视频信号源相同。HMD也包括麦克风90,在一些实施例中,麦克风90可以是用于检测捕获的声音的源的方向的方向性麦克风或麦克风阵列。
在操作中,提供视频信号用于由HMD显示。这能够由诸如视频游戏机或数据处理装置(诸如个人计算机)的外部视频信号源80提供,在这种情况下,信号能够通过有线或无线连接发送到HMD。合适的无线连接的示例包括蓝牙(R)连接。用于听筒60的音频信号能够由相同的连接承载。类似地,从HMD向视频(音频)信号源递送的任何控制信号可以由相同的连接承载。
因此,图1的布置提供了头戴式显示***的示例,***包括要安装到观察者的头部上的框架,框架定义在使用中放置在观察者的各个眼睛的前方的一个或两个眼睛显示位置、和针对眼睛显示位置中的每一个安装的显示元件,显示元件提供从视频信号源到观察者的眼睛的视频信号的视频显示的虚拟图像。
图1仅显示了HMD的一个示例。其它格式是可能的:例如,HMD能够使用更类似于与传统眼镜相关联的框架,即从显示部分向后延伸到用户的耳朵的顶部后部的实质上水平的腿,可能在耳朵后面卷曲。在其它示例中,用户对外部环境的视图可能事实上不全体地被遮挡;显示的图像能够布置从而在外部环境之上叠加(从用户的视角看)。以下将参考图4描述这种布置的示例。
在图1的示例中,为用户的眼睛中的每一个提供单独的各个显示。如图2提供了如何达到这的示意性平面图,平面图示出了用户的眼睛的位置100和用户的鼻子的相对位置110。显示部分50以示意性形式包括用于从用户的眼睛遮蔽周围光的外部屏蔽120和防止一只眼睛看到旨在另一只眼睛的显示的内部屏蔽130。用户的面部、外部屏蔽120和内部屏蔽130的组合形成两个隔室140,对于每只眼睛一个隔室。在隔室中的每一个中提供显示元件150和一个或多个光学元件160。将参考图3描述其中显示元件和(多个)光学元件协作以向用户提供显示的方式。
参考图3,显示元件150生成显示的图像,显示的图像(在此示例中)由光学元件160(示意性地示出为凸透镜但是能够包括复合透镜或其它元件)折射,从而生成对于用户显现为比由显示元件150生成的真实图像更大并且显著地更远的虚拟图像170。作为示例,虚拟图像可以具有多于1m的表观图像尺寸(图像对角线),并且可以安排在距用户的眼睛(或距HMD的框架)多于1m的距离处。一般而言,取决于HMD的目的,期望使虚拟图像距用户显著距离安放。例如,如果HMD用于观看电影等,则期望在这种观看期间用户的眼睛放松,这要求(到虚拟图像的)至少若干米的距离。在图3中,实线(诸如线180)用于标记真实光线,而虚线(诸如线190)用于标记虚拟光线。
图4中示出了另一替代的布置。可以在期望用户对外部环境的视图不整体地模糊的地方使用此布置。但是,它也可应用于其中用户的外部视图整体被模糊的HMD。在图4的布置中,显示元件150和光学元件200协作以提供投影到镜子210上的图像,镜子210朝向用户的眼睛位置220偏转图像。用户感知虚拟图像定位在在用户的前方并且在距用户合适的距离处的位置230处。
在其中外部周围的用户视图整体地被模糊的HMD的情况中,镜子210能够是实质上100%的反射镜。图4的布置然后具有优点:显示元件和光学元件能够更邻近于用户的头部的重心和用户的眼睛侧定位,这能够产生不太笨重的HMD用于用户佩戴。替代地,如果HMD设计为不整体地模糊外部环境的用户视图,则能够使镜子210部分地反射,使得用户通过镜子210看见外部环境,其中虚拟图像叠加在真实外部环境之上。
在为用户的眼睛中的每一只提供单独的各个显示器的情况下,可能显示立体图像。图5中示出了用于向左和右眼显示的立体图像的对的示例。图像相对于彼此展现横向位移,其中图像特征的位移取决于由其捕获了图像的相机的(真实的或模拟的)横向分离、相机的角度会聚和每个图像特征距相机位置的(真实的或模拟的)距离。
注意,图5中的横向位移能够事实上是反之亦然,也就是说,如绘制的左眼图像能够事实上是右眼图像,并且如绘制的右眼图像能够实际上是左眼图像。这是因为一些立体显示器倾向于将对象在右眼图像中向右并且在左眼图像中向左移位,从而模拟用户正在通过立体窗口看到超出场景上的想法。然而,一些HMD使用图5中所示的布置,因为这给予用户其正在通过一副双筒望远镜观看场景的印象。这两种布置之间的选取由***设计者决定。
在某些情形下,HMD可以简单地用于观看电影等。在这种情况下,在用户转动用户的头部时,例如从一侧到另一侧,对于显示的图像的表观视点不要求改变。然而,在其它使用中,诸如与虚拟现实(virtual reality,VR)或增强现实(augmented reality,AR)***相关联的那些使用中,用户的视点需要跟踪针对其中用户定位的真实的或虚拟的空间的移动。
通过检测HMD的运动并且变化显示的图像的表观视点执行跟踪,使得表观视点跟踪运动。
图6示意性地示出了VR或AR***中用户头部移动的影响。
参考图6,虚拟环境由环绕用户的(虚拟)球形壳体250表示。由于需要在二维纸质图上表示这种布置,所以在距用户等同于显示的虚拟图像距用户的分离的距离处,壳体由圆形的部分表示。用户初始地在第一位置260处并且指向虚拟环境的部分270。正是此部分270表示在用户的HMD的显示元件150上显示的图像中。
考虑其中用户然后将他的头部移动到新位置和/或取向280的情形。为了保持虚拟现实或增强现实显示的正确感测,虚拟环境的显示部分也移动,使得在运动的结束处,由HMD显示新部分290。
所以,在此布置中,虚拟环境内的表观视点随着头部移动移动。如果头部旋转到右侧,例如,如图6中所示,则从用户的视角表观视点也向右移动。如果从显示的对象(诸如显示的对象300)的方面考虑情形,则这将有效地沿与头部移动相反的方向移动。所以,如果头部移动是向右,则表观视点向右移动,但是出于虚拟环境的显示的部分已经向右移动而显示的对象300没有已经在虚拟环境中移动的简单原因,诸如在虚拟环境中静止的显示的对象300的对象将朝向显示的图像的左方移动并且最终地将从显示的图像的左手侧消失。类似的考虑应用于任何运动的上下成分。
图7是其中若干可能的声音源定位在HMD用户的附近的环境的示意性说明。图是HMD的用户和用户的即刻周围的示意性平面图(从头顶观看)。
在本公开的实施例中,预期HMD的用户通过耳机的使用或因为他们听力困难难以听到来自这些源的声音。用户不能听到外部声音的预期可能是HMD***的默认假定,并且因此可以自动地执行用于在识别声音源中协助用户的处理(或者可能仅当耳机正在与显示器使用时)。替代地,可以要求用户(例如,通过***设置或偏好)指示他们听力困难或正在以将导致难以听到外部声音的方式使用HMD***。
佩戴HMD 702的HMD用户700具有相关联的视野710。在允许由用户观看环境的HMD(诸如透视类型HMD或具有允许向用户呈现由相机捕获的环境的图像的相机的HMD)的情况下,这可以是实际的视野,或者如果没有使用HMD,则它可以是用户的期待的视野。然而,在示例中,这是由HMD内的显示元件创建的用户的视野。所以,在用户转动他的头部时,视野跟随头部运动,也就是说,视野总是向用户的头部的前方,但是头部可以处于相对于用户的外部环境的各种取向处。
也示出了与正在使用的HMD相关联的电视720和娱乐设备730。电视720可以用作对于娱乐设备730的辅助显示设备,用作单独的显示设备(例如,以向房间中的其它人提供不相关的内容)或者真正地可以根本不使用。娱乐设备730可以用于向HMD提供内容,并且其配置将在以下描述。在其中用户不能够看见外部环境的全部沉浸HMD的情况下,电视当然由用户看不见。在这样的示例中,在图7中用户的视野显现为涵盖电视的事实因此在此具体示例中是巧合并且不相关的,因为用户看见由HMD的显示元件呈现了什么。
因此,在示例中,用户的视野可以考虑为真实环境的视野(无论是通过光学透视HMD还是具有向HMD观看者提供真实环境的图像的相机的HMD)或者可以是HMD的显示设备的用户的内部HMD视图。
第一示例声音源740定位在用户700的当前视野内,并且第二示例声音源750和第三示例声音源760定位在用户700的当前视野的外部。虽然声音源在图7中示出为同时地存在,但是示例声音源仅指示可能的声音源的示例位置并且在真实情形中,可以存在零个或多个声音源的任何数量。示例实施例涉及处置一个或多个声音源的存在。
这些声音源可以是能够输出声音的任何设备,例如,诸如无线电或移动电话的设备,或者反而可以是诸如正在讲话或以其它方式做出噪声的人的其它类型的项目。充当声音源的任何设备的任一可以使他们的声音输出由与HMD或娱乐设备(或者实际上这些中的两者)相关联的麦克风捕获,或者可以能够独立于此经由与***的通信通知***他们的声音输出。来自其它项目的声音能够由麦克风捕获。
一旦接收了声音信息(经由麦克风或通信,例如,经由无线局域网),由HMD和/或娱乐设备执行处理以相对于用户700的位置识别声音源自其的方向。替代地或另外地,可以相对于头戴式显示设备的当前取向确定方向。
在捕获的声音输入的情况下,可以使用多个布置中的任一确定声音源的方向。HMD可以提供有方向性麦克风或麦克风阵列,以便独立地检测声音源的方向。替代地或另外地,娱乐设备730可以提供有方向性麦克风或麦克风阵列,或者HMD和娱乐设备可以具有麦克风,麦克风一起可以形成阵列或者是阵列的部分,使得HMD和娱乐设备中的每一个具有阵列的麦克风。比较捕获的声音可以允许声音源的方向的检测。向娱乐设备提供的麦克风也可以是方向性麦克风或麦克风阵列,方向性麦克风或麦克风阵列可以与和HMD相关联的麦克风结合使用以便更精确地确定声音的源的方向。
替代地,声音信息能够由设备直接地提供,例如,无线电可以能够经由网络连接将其声音输出和/或定位通信传达到娱乐设备730。此通信能够包括音量信息、无线电的位置信息和关于正在由无线电提供的内容的信息(例如,其是音乐、新闻、天气报告还是紧急通知)。如果没有提供位置信息,则其可以反而例如由娱乐设备或HMD从由娱乐设备存储的联网设备的地图导出。如果没有获得对于此类型的声音源的位置性信息,则然后可以使用设备的声音输出以使用麦克风确定方向,或者可以存在在位置信息不可用的地方使用的默认图像元素显示。
指示的或检测的方向能够例如相对于头戴式显示设备的当前取向。如果方向的检测是由HMD处的麦克风阵列或其它方向性声音检测器,则能够由这样的检测器直接地获得声音源相对于HMD的方向。如果检测至少部分地由娱乐设备和/或麦克风阵列或不形成HMD的部分(或不与HMD移动)的其它检测器,则HMD或娱乐设备能够检测HMD相对于娱乐设备的当前的相对定位和/或取向,例如通过使用与HMD相关联的位置和/或取向检测,相对于初始或校准位置和取向。
图8示意性地示出了可以由HMD显示器800向HMD用户700呈现的视图。因此,显示器800指示当佩戴HMD时用户可以看见什么作为电子地提供的图像。电视720和娱乐设备显现在图像中,因为HMD是透视类型显示器或者因为正在向用户呈现房间的相机视图。在其它实施例中,如以上讨论的,可能不是该情况,而是向用户显示虚拟环境。
声音源740对于用户在显示器800中也是可见的,由围绕声音源740的区域810突出。这是生成的突出声音的源的一个或多个外部边缘中以在向用户显示的图像中识别其的图像元素的示例。
对象的突出指示它是环境中声音的源。在一些实施例中,诸如在虚拟现实(VR)应用中,可以仅向用户呈现突出,因为对象本身当前不显示。替代地或另外地,可以在虚拟现实HMD布置中向用户显示对象,作为当前地正在向用户显示的虚拟内容的覆盖。
替代地,可以显示诸如简单图标的图像元素(例如,可以用于识别对象的感叹号或其它符号/图像)以指示检测到的声音或声源;比起如上所述的突出,这可能更合适用于指示声音或声音源的属性和/或对于用户更美观。诸如此的图像元素,如果定位在显示器上的声音源的位置处,则可以因此用于在显示的图像中识别声音的源;这是对于突出对象的一个或多个外部边缘的识别源的替代(或另外)方法。
除了指示声音的一个或多个其它特型之外或作为其替代,生成的图像元素可以指示由一个或多个声音源生成的一个或多个声音的音量。替代地或另外地,生成的图像元素可以指示声音的类型的分类(例如,通过诸如音乐或新闻提醒的源的类型或声音的类型、和/或通过诸如人声、电子设备或警报器的声音源的类型)。可以变化图像元素的属性以便通信传达声音的不同特性,诸如声源的音量或类型。用于指示如上所述的声音源及其属性的突出的示例属性包括颜色、浓度和尺寸。用于指示声音源及其属性的图像元素的示例属性包括颜色、浓度、尺寸、形状、动画(诸如闪烁效果或运动)、和显示定位。
放置图像元素820从而指示声音源的方向,而不是直接地识别特定声音源。这是其中一个或多个声音的源的方向不在用户的视野内并且作为结果沿对应方向在视野的边缘处显示图像元素的场景的示例。
在这种情况下,图像元素820对应于图7的声音源750。图像元素820定位在显示器800的极右边缘处从而指示声音源750在用户700的视野710的外部,向当前显示的区域的右方。如果用户700转向观看声音源750,则可以替代显示如上所述的图像元素以在新显示图像中将特定对象识别为声音源750。通过提供方向的指示,用户直观地能够转向并且看向声音源,就好像他们已经听到了其一样。
图像元素830在功能上类似于图像元素820的功能,因为它指示声音源存在于当前视野的外部,诸如图7的声音源760。图像元素830与图像元素820区别在于提供另外信息从而指示方向。在此示例中,不是指示声音源在用户的视野以上,而是使用“6”以指示声音源直接地在用户后方(选取数字“6”符合基于数字在时钟上的位置指示方向的共同惯例)。其它指示,例如,可以替代地提供诸如沿适当的方向指的箭头或描述声音或声音源的单词。
当声源直接地在用户后方时,这是特别有用的,因为左/右指示可能不充分。在一些实施例中,以图像元素830的格式的图像元素是优选的,因为它们可以足以向用户识别声音源而不用用户不得不沿该方向转动并且查看;例如,如果用户在具有在“2”和“4”点位置处的声音源的环境中,则图像元素830对于区别它们比图像元素820更有用,不用用户转动以看向声音源。
能够替代地使用图像元素830而不用方向的任何指示。图像元素830能够是对应于相对于用户具有未确定的方向的源的声音的默认指示的示例。替代地,图像元素830能够仅指示捕获的声音的类型;例如,听到的门铃可能导致无方向性显示,因为如果声音的源与门本身的定位不一致,则识别声音的源可能不一定有用。
因此,在示例中,一个或多个生成的图像元素指示一个或多个对应声音的源的方向。方向能够相对于头戴式显示设备的当前取向。
图9示意性地示出了包括图像处理***1100和HMD 1200的头戴式显示***1000。图像处理***1100可以形成为HMD 1200的部分,或者HMD 1200可以包括图像处理***1100的元件;也就是说,图像处理***的功能可以在HMD 1200处或在与HMD 1200相关联的设备处执行。
图像处理***1100包括声音输入单元1110(诸如麦克风或麦克风阵列、或用于接收定义声音的一个或多个方面的电子信息的输入)、音频处理单元1120、图像生成单元1130、和图像输出单元1140。
声音输入单元1110配置为接收与一个或多个声音有关的声音信息。这可以是由(未示出的)麦克风捕获的声音的形式、作为来自声音源的数据、或两者的组合。
音频处理单元1120配置为分析与一个或多个声音有关的声音信息;换句话说,音频处理单元1120配置为分析由声音输入单元1110接收的声音信息。可以执行这样的分析以确定声音源相对于头戴式显示设备的当前取向的方向、声音的音量、或声音的任何其它属性。注意,不要求单独的专用音频处理单元;音频处理能够由通用CPU(Central ProcessingUnit,中央处理单元)或图形处理单元进行。
执行的分析也可以能够识别源、或源属于其的声音源的至少类别;例如,分析能够识别声音源自无线电还是汽车、或者更一般的类别,诸如“电子设备”或“车辆”。此信息可以从对捕获的声音的分析、或者直接地从直接地从声音源接收的声音信息中识别信息导出。
图像生成单元1130配置为生成指示分析的声音信息的属性的一个或多个图像元素。图像生成单元1130使用由音频处理单元1120执行的分析的结果以便确定和/或生成适当的图像元素(以及它们旨在的显示位置,如果适当的话)用于表示声音和声音的源的方向。
图像输出单元1140配置为输出用于向头戴式显示设备的用户显示的显示图像,图像包括生成的图像元素作为图像覆盖。图像输出单元1140因此配置为将图像覆盖应用于现有视频流用于向HMD输出,图像覆盖包括由图像生成单元1130生成的图像元素。
HMD 1200是可操作以显示除了由图像处理***1100(例如图1中所示的HMD 20)生成的覆盖图像之外的主要图像的显示设备。由图像处理***1100生成的用于显示的图像可以经由任何适当的有线或无线连接(诸如连接1210)向HMD发送。
图10示意性地示出了生成指示环境中声音的属性的图像元素的方法。
步骤1300包括接收声音信息。声音信息可以涉及一个或多个声音。在示例应用中,此步骤能够是使用麦克风的在环境中说话的某人的声音的捕获。
步骤1310包括分析与接收的声音信息有关的声音信息。在示例应用的上下文中,这可以包括确定捕获的声音是语音、音量、是否说了HMD用户的名字(以推断语音是否指向用户;替代地,与***相关联的相机能够捕获扬声器的图像以确定他们是否正在查看HMD用户,因为这可能是说话者正在将他们的讲话指向谁的指示符)、或者除了说话者相对于HMD的取向(即声音源)的方向的检测之外的语音的任何其它特性。
步骤1320包括生成一个或多个图像元素。这些图像元素可以指示分析的声音信息的属性。在示例应用中,可以生成标记检测的声音是语音的图像元素(诸如描绘嘴巴的图标)。图标的颜色能够指示说话者的性别(基于音调检测、或者如果说话者在由处理设备获得的图像中可视则图像辨识),并且尺寸能够指示音量。如参考图8所讨论的,可以基于声音源相对于HMD用户的方向自由地确定图标的位置。
步骤1330包括输出显示图像。这些可以是用于向头戴式显示设备的用户显示的图像,其中图像包括生成的图像元素作为图像覆盖。在示例应用中,步骤1330包括在用户正在观看的主要流之上显示图像元素作为图像覆盖。
上述技术可以用硬件、软件或两者的组合实施。在采用软件控制的数据处理装置以实施实施例的一个或多个特征的情况下,将理解这样的软件、以及通过其提供这样的软件的诸如非暂时性机器可读存储介质的存储或发送介质,也考虑为本公开的实施例。

Claims (15)

1.一种用于生成用于在头戴式显示设备处向用户显示的图像的图像处理***,所述***包括:
声音输入单元,配置为接收与一个或多个声音有关的声音信息;
音频处理单元,配置为分析与所述一个或多个声音有关的声音信息;
图像生成单元,配置为生成指示分析的声音信息的属性的一个或多个图像元素;和
图像输出单元,配置为输出用于向头戴式显示设备的用户显示的显示图像,所述图像包括生成的图像元素作为图像覆盖,
其中,一个或多个生成的图像元素指示所述一个或多个声音的源的方向。
2.根据权利要求1所述的图像处理***,其中,所述方向相对于所述头戴式显示设备的当前取向。
3.根据权利要求1所述的图像处理***,其中,所述一个或多个生成的图像元素指示所述一个或多个声音的音量。
4.根据权利要求1所述的图像处理***,其中,所述一个或多个生成的图像元素指示声音的类型的分类。
5.根据权利要求1所述的图像处理***,其中,利用所述元素的具体颜色、显示定位、浓度、形状、或尺寸中的一个或多个生成所述生成的图像元素,以指示所述一个或多个声音的属性。
6.根据权利要求1的图像处理***,其中,如果所述一个或多个声音的源的方向不在所述用户的视野内,则在对应方向在所述视野的边缘处显示图像元素。
7.根据权利要求1所述的图像处理***,其中,所述生成的图像元素识别所述一个或多个声音的源。
8.根据权利要求7所述的图像处理***,其中,所述生成的图像元素突出声音的源的外部边缘中的一个或多个,以在向所述用户显示的图像中识别声音的源。
9.根据权利要求1所述的图像处理***,其中,所述声音输入单元配置为从设备接收指示所述设备的声音输出的声音信息,其中响应于此数据生成图像元素。
10.根据权利要求9所述的图像处理***,其中,接收的数据还包括所述设备的位置信息。
11.根据权利要求1所述的图像处理***,其中,所述声音信息包括由麦克风捕获的声音。
12.一种头戴式显示***,包括:
根据前述权利要求中的任一项的图像处理***;和
头戴式显示器,可操作以显示除了由所述图像处理***生成的覆盖图像之外的主要图像。
13.一种用于生成用于在头戴式显示设备处向用户显示的图像的图像处理方法,所述方法包括:
接收与一个或多个声音有关的声音信息;
分析与所述一个或多个声音有关的所述声音信息;
生成指示分析的声音信息的属性的一个或多个图像元素;并且
输出用于向头戴式显示设备的用户显示的显示图像,图像包括生成的图像元素作为图像覆盖,
其中,一个或多个生成的图像元素指示所述一个或多个声音的源的方向。
14.一种计算机程序,当由计算机运行时使得计算机执行根据权利要求13所述的方法。
15.一种非暂时性机器可读存储介质,其存储根据权利要求14所述的计算机软件。
CN201780076285.9A 2016-12-09 2017-12-06 图像处理***和方法 Pending CN110050255A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB201620986A GB2557594B (en) 2016-12-09 2016-12-09 Image processing system and method
GB1620986.8 2016-12-09
PCT/GB2017/053675 WO2018104731A1 (en) 2016-12-09 2017-12-06 Image processing system and method

Publications (1)

Publication Number Publication Date
CN110050255A true CN110050255A (zh) 2019-07-23

Family

ID=58222226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780076285.9A Pending CN110050255A (zh) 2016-12-09 2017-12-06 图像处理***和方法

Country Status (5)

Country Link
US (1) US11605396B2 (zh)
JP (1) JP2020501275A (zh)
CN (1) CN110050255A (zh)
GB (1) GB2557594B (zh)
WO (1) WO2018104731A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885369A (zh) * 2021-01-26 2021-06-01 维沃移动通信有限公司 音频处理方法、音频处理装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607367B2 (en) * 2018-06-26 2020-03-31 International Business Machines Corporation Methods and systems for managing virtual reality sessions
US11543242B2 (en) * 2020-05-20 2023-01-03 Microsoft Technology Licensing, Llc Localization and visualization of sound
US11953941B2 (en) * 2021-10-25 2024-04-09 Universal City Studios Llc Interactive device of an attraction system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543099A (zh) * 2010-12-24 2012-07-04 索尼公司 声音信息显示装置、声音信息显示方法和程序
US20160088417A1 (en) * 2013-04-30 2016-03-24 Intellectual Discovery Co., Ltd. Head mounted display and method for providing audio content by using same

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7356473B2 (en) * 2005-01-21 2008-04-08 Lawrence Kates Management and assistance system for the deaf
JP5286667B2 (ja) * 2006-02-22 2013-09-11 コニカミノルタ株式会社 映像表示装置、及び映像表示方法
JP5013398B2 (ja) * 2006-09-08 2012-08-29 学校法人立命館 複合現実感システムとそのイベント入力方法
JP5098996B2 (ja) * 2008-12-22 2012-12-12 ブラザー工業株式会社 ヘッドマウントディスプレイ
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US9107012B2 (en) * 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US10111013B2 (en) 2013-01-25 2018-10-23 Sense Intelligent Devices and methods for the visualization and localization of sound
JP2015087695A (ja) * 2013-11-01 2015-05-07 セイコーエプソン株式会社 情報処理装置および情報処理装置の制御方法
TWI500023B (zh) * 2013-04-11 2015-09-11 Univ Nat Central 透過視覺的聽覺輔助裝置
CN107787472A (zh) * 2015-08-04 2018-03-09 谷歌有限责任公司 用于虚拟现实中的凝视交互的悬停行为
KR20170025231A (ko) * 2015-08-28 2017-03-08 엘지전자 주식회사 이동단말기 및 그 제어방법
US10572005B2 (en) * 2016-07-29 2020-02-25 Microsoft Technology Licensing, Llc Private communication with gazing
US9998847B2 (en) * 2016-11-17 2018-06-12 Glen A. Norris Localizing binaural sound to objects

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543099A (zh) * 2010-12-24 2012-07-04 索尼公司 声音信息显示装置、声音信息显示方法和程序
US20160088417A1 (en) * 2013-04-30 2016-03-24 Intellectual Discovery Co., Ltd. Head mounted display and method for providing audio content by using same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885369A (zh) * 2021-01-26 2021-06-01 维沃移动通信有限公司 音频处理方法、音频处理装置
CN112885369B (zh) * 2021-01-26 2024-05-24 维沃移动通信有限公司 音频处理方法、音频处理装置

Also Published As

Publication number Publication date
GB2557594B (en) 2020-01-01
JP2020501275A (ja) 2020-01-16
US20200082842A1 (en) 2020-03-12
GB2557594A (en) 2018-06-27
US11605396B2 (en) 2023-03-14
GB201620986D0 (en) 2017-01-25
WO2018104731A1 (en) 2018-06-14

Similar Documents

Publication Publication Date Title
US10009542B2 (en) Systems and methods for environment content sharing
US10447966B2 (en) Non-interference field-of-view support apparatus for a panoramic sensor
CN110634189B (zh) 用于在沉浸式混合现实体验期间用户警报的***和方法
CN110050255A (zh) 图像处理***和方法
JP2021508426A (ja) 双方向性拡張または仮想現実装置
CN107943275B (zh) 模拟环境显示***及方法
CN105164727A (zh) 头戴式装置和***
CN106067833A (zh) 移动终端及其控制方法
US9706194B2 (en) Electronic device and method of controlling the same
CN111699460A (zh) 多视图虚拟现实用户界面
CN105893452B (zh) 一种呈现多媒体信息的方法及装置
GB2571286A (en) Virtual reality
EP4124073A1 (en) Augmented reality device performing audio recognition and control method therefor
CN105894581B (zh) 一种呈现多媒体信息的方法及装置
GB2558279A (en) Head mountable display system
US11619814B1 (en) Apparatus, system, and method for improving digital head-mounted displays
JP2022022871A (ja) 処理装置および没入度導出方法
US11967335B2 (en) Foveated beamforming for augmented reality devices and wearables
WO2014060598A2 (en) Sensing systems, associated methods and apparatus
US11734905B1 (en) Systems and methods for lighting subjects for artificial reality scenes
GB2569576A (en) Audio generation system
US20230168522A1 (en) Eyewear with direction of sound arrival detection
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム
US20220148253A1 (en) Image rendering system and method
CN213600992U (zh) 显示设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination