CN114708866A - 头戴显示设备的控制方法、装置、头戴显示设备及介质 - Google Patents
头戴显示设备的控制方法、装置、头戴显示设备及介质 Download PDFInfo
- Publication number
- CN114708866A CN114708866A CN202210173720.2A CN202210173720A CN114708866A CN 114708866 A CN114708866 A CN 114708866A CN 202210173720 A CN202210173720 A CN 202210173720A CN 114708866 A CN114708866 A CN 114708866A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- mounted display
- head
- information
- display device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000005236 sound signal Effects 0.000 claims abstract description 137
- 238000004519 manufacturing process Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000001902 propagating effect Effects 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004984 smart glass Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B21/00—Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
- G08B21/18—Status alarms
- G08B21/24—Reminder alarms, e.g. anti-loss alarms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/332—Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Emergency Management (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开提供了一种头戴显示设备的控制方法、装置、头戴显示设备及介质。所述头戴显示设备包括麦克风阵列,所述方法包括:通过所述麦克风阵列拾取音频信号;识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字;在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
Description
技术领域
本公开实施例涉及头戴显示设备技术领域,更具体地,涉及一种头戴显示设备的控制方法、一种头戴显示设备的控制装置、一种头戴显示设备、及一种计算机可读存储介质。
背景技术
目前,虚拟现实(Virtual Reality,VR)头戴显示设备是利用头戴式显示设备将人对外界的视觉封闭,引导用户产生一种身在虚拟环境中的感觉。通常,当用户佩戴VR头戴显示设备玩游戏时,如果外界环境存在声音,例如其他用户有重要事情呼喊该用户时,该用户由于沉浸在游戏中,一般无法及时回应,用户体验性不佳。
发明内容
本公开实施例的一个目的是提供一种头戴显示设备的控制的新的技术方案。
根据本公开实施例的第一方面,提供了一种头戴显示设备的控制方法,所述头戴显示设备包括麦克风阵列,所述方法包括:
通过所述麦克风阵列拾取音频信号;
识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字;
在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
可选地,所述提示信息包括以下至少一项:图形提示信息、文本提示信息、语音提示信息。
可选地,所述在预设的关键字库中匹配到所述关键字的情况下,播放所述音频信号,并输出用于提示所述方位信息的提示信息,包括:
在预设的关键字库中匹配到所述关键字的情况下,获取所述头戴显示设备的当前帧图像相对上一帧图像的更新信息;其中,所述当前帧图像为所述麦克风阵列拾取到所述音频信号时所述头戴显示设备所显示的帧图像;
在所述更新信息表示未发生更新的情况下,播放所述音频信号,并输出用于提示所述方位信息的提示信息。
可选地,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号保存为第一音频文件;
显示所述第一音频文件的第一图标。
可选地,所述提示信息包括图形提示信息和/或文本提示信息,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,在所述当前帧图像中的设定区域添加所述提示信息;
将添加有所述提示信息的当前帧图像保存为目标图像;以及,
显示所述目标图像的第二图标。
可选地,所述提示信息包括语音提示信息,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号和所述语音提示信息保存为第二音频文件;
显示所述第二音频文件的第三图标。
可选地,所述通过所述麦克风阵列拾取音频信号,包括:
在所述头戴显示设备运行目标应用程序的情况下,通过所述麦克风阵列拾取音频信号;
其中,所述目标应用程序包括以下其中一项:视频应用程序、游戏应用程序。
根据本公开实施例的第二方面,提供了一种头戴显示设备的控制装置,所述头戴显示设备包括麦克风阵列,所述装置包括:
拾取模块,用于通过所述麦克风阵列拾取音频信号;
识别模块,用于识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字;
控制模块,用于在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
根据本公开实施例的第三方面,提供了一种头戴显示设备,所述头戴显示设备包括麦克风阵列,所述头戴显示设备还包括:
存储器,用于存储可执行的计算机指令;
处理器,用于根据所述可执行的计算机指令的控制,执行根据以上第一方面所述的控制方法;
其中,所述处理器与所述麦克风阵列通信连接,以获取所述麦克风阵列拾取的音频信号。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行以上第一方面所述的方法。
本公开实施例的一个有益效果在于,头戴显示设备可以通过麦克风阵列拾取音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中匹配到该关键字的情况下,播放音频信号,并输出用于提示方位信息的提示信息,能够使得用户及时对该发声对象作出回应,给用户带来更多的人机交互。
通过以下参照附图对本说明书的示例性实施例的详细描述,本说明书的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本说明书的实施例,并且连同其说明一起用于解释本说明书的原理。
图1是根据本公开实施例的头戴显示设备的硬件配置示意图;
图2是根据本公开实施例的头戴显示设备的结构示意图;
图3是根据本公开实施例的头戴显示设备的控制方法的流程示意图;
图4是根据本公开实施例的声源定位原理图;
图5是根据本公开实施例的头戴显示设备的控制装置的原理框图;
图6是根据本公开实施例的头戴显示设备的原理框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开实施例的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是根据本公开实施例的头戴显示设备1000的硬件配置的框图。
如图1所示,该头戴显示设备1000可以是VR设备、MR(混合现实, Mixed Reality)设备等,例如该头戴显示设备1000可以是VR头戴显示器,也可以是智能眼镜等,本公开实施例对此不作限定。
在一个实施例中,如图1所示,头戴显示设备1000可以包括处理器 1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、麦克风阵列1700和扬声器1800等。处理器1100可以包括但不限于中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM (只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括各种总线接口,例如串行总线接口(包括USB 接口)、并行总线接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏、LED显示屏、触摸显示屏等。输入装置 1600例如包括触摸屏、键盘、手柄等。麦克风阵列1700可以用于输入语音信息。扬声器1800可以用于输出语音信息。
本实施例中,头戴显示设备1000的存储器1200用于存储指令,该指令用于控制处理器1100进行操作以实施或者支持实施根据任意实施例的头戴显示设备的控制方法。技术人员可以根据本说明书所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
本领域技术人员应当理解,尽管在图1中示出了头戴显示设备1000的多个装置,但是,本说明书实施例的头戴显示设备1000可以仅涉及其中的部分装置,也可以还包含其他装置,在此不做限定。
图1所示的头戴显示设备1000仅是解释性的,并且决不是为了要限制本说明书、其应用或用途。
下面,参照附图描述根据本公开的各个实施例和例子。
<方法实施例>
图3示出了本公开的一个实施例的头戴显示设备的控制方法,该头戴显示设备的控制方法例如可以由如图1所示的头戴显示设备1000实施,该头戴显示设备1000可以是VR头戴显示器、智能眼镜等,并且这类头戴显示设备中设置有麦克风阵列。
如图3所示,该实施例提供的头戴显示设备的控制方法可以包括以下步骤S3100~S3300。
步骤S3100,通过所述麦克风阵列拾取音频信号。
在本实施例中,头戴显示设备包括麦克风阵列,该麦克风阵列可以拾取周边环境声音对应的音频信号,具体的,麦克风阵列包括拾取音频信号的多个麦克风,该多个麦克风可以以拾取来自多个方向的声音的音频信号的方式进行排列。
如图2所示,麦克风阵列包括麦克风1、麦克风2和麦克风3这三个麦克风,麦克风1、麦克风2和麦克风3可以均为定向麦克风,也可以均为全向麦克风,本实施例在此不做限定。其中,麦克风1、麦克风2和麦克风3不位于同一直线上,并且,麦克风1、麦克风2和麦克风3位于同一平面,且沿圆周均匀分布,麦克风1、麦克风2和麦克风3中相邻两个麦克风之间的圆夹角为120°。
在本实施例中,音频信号可以是外界环境声音对应的信号,例如该声音可以包括周边环境的单一声音事件,该单一声音事件例如但不限于人说话的声音、音符等,该声音也可以包括周边环境的多个声音,该多个声音例如但不限于包括多个人说话的声音、多个音符等。
在本实施例中,本步骤S3100中通过所述麦克风阵列拾取音频信号可以进一步包括:在所述头戴显示设备运行目标应用程序的情况下,通过所述麦克风阵列拾取音频信号。
所述目标应用程序包括以下其中一项:视频应用程序、游戏应用程序。在头戴显示设备为VR设备的情况下,该VR设备运行的游戏应用程序即为VR游戏,该VR设备运行的视频应用程序即为VR视频。
在具体实施时,当运行游戏应用程序时,麦克风阵列拾取到音频信号之后,便可将音频信号发送至头戴显示设备的处理器,以由处理器对该音频信号进行识别,进而得到音频信号的发声对象相对于头戴显示设备的方位信息和音频信号中的关键字。示例性地,如图4所示,发声对象4为人,人说话的声音对应的信号为音频信号,在此,当佩戴者佩戴头戴显示设备玩游戏的情况下,头戴显示设备可以通过麦克风1、麦克风2和麦克风3 分别拾取该音频信号,并将拾取到的音频信号发送至处理器进行识别。
在通过所述麦克风阵列拾取音频信号之后,进入:
步骤S3200,识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字。
在本实施例中,处理器接收到麦克风阵列拾取的音频信号之后,会对该音频信号进行识别,以便获得音频信号的发声对象相对于头戴显示设备的方位信息。
继续上述示例,如图2和图4所示,麦克风阵列中的每个麦克风可以在不同的时间拾取发声对象4的音频信号。例如,在发声对象4的音频信号被麦克风1拾取之前,发声对象4的音频信号很可能被麦克风2或者麦克风3拾取到。基于在不同麦克风处拾取的音频信号之间的时间差,便可确定音频信号的发声对象4相对于头戴显示设备的方位信息。
接下来示出一个例子的基于不同麦克风处拾取的音频信号之间的时间差,确定音频信号的发声对象4相对于头戴显示设备的方位信息。以麦克风1、麦克风2、发声对象4组成的三角形为例,麦克风1和麦克风2的距离为a,其为已知数值。麦克风1和发声对象4的距离为b,麦克风2和发声对象4的距离为c。麦克风1和麦克风2接收到发声对象4的音频信号的时间差,乘以声波在空气中的传播速度就是b和c的差值。x是a和b之间的夹角,根据余弦定理c^2=a^2+b^2-2abcosx。
同理,以麦克风1、麦克风3、发声对象4组成的三角形为例,麦克风 1和麦克风3的距离为d,其为已知数值。麦克风1和发声对象4的距离为 b,麦克风3和发声对象4的距离为e。麦克风1和麦克风3接收到发声对象4的音频信号的时间差,乘以声波在空气中的传播速度就是e和d的差值。y是b和d之间的夹角,根据余弦定理e^2=b^2+d^2-2bdcosy。
同理,以麦克风2、麦克风3、发声对象4组成的三角形为例,麦克风 2和麦克风2的距离为f,其为已知数值。麦克风2和麦克风3接收到发声对象4的音频信号的时间差,乘以声波在空气中的传播速度就是c和e的差值,z是f和e之间的夹角,根据余弦定理c^2=f^2+e^2-2fecosz。
在此,根据以上公式便可计算出各个三角形的边长。在计算出各个三角形的边长之后,如图4所示,便可以以麦克风1、麦克风2和麦克风3 为圆心,以声波在空气中传播的距离为半径,三个圆的交点就是发声对象 4的位置。
在本实施例中,处理器接收到麦克风阵列拾取的音频信号之后,会对该音频信号进行语义识别,以便提取出音频信号中的关键字。该关键字能够最大程度概括发声对象所发出声音的音频信号的信息内容,该关键字可以是时间、地址、姓名等。
在识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字之后,进入:
步骤S3300,在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
在一个例子中,头戴显示设备中预先存储有不同的关键字以形成关键字库,当对拾取的音频信号进行识别得到关键字后,如果该关键字位于关键字库中,则可以直接播放音频信号,并输出用于提示方位信息的提示信息。
该提示信息包括以下至少一项:图形提示信息、文本提示信息、语音提示信息,其中,该图形提示信息可以是指示箭头。
示例性地,在关键字位于关键字库中的情况下,可以通过头戴显示设备的喇叭播放音频信号,以及播放方位信息的语音提示信息,例如可以是先播放音频信号,再接续播放方位信息的语音提示信息。又例如也可以是先播放方位信息的语音提示信息,再接续播放音频信号。
示例性地,在关键字位于关键字库中的情况下,可以通过头戴显示设备的喇叭播放音频信号,以及在头戴显示设备的显示屏上显示方位信息的文字提示信息,例如可以是在播放音频信号的情况下,同时在显示屏上显示方位信息的文本提示信息。
示例性地,在关键字位于关键字库中的情况下,可以通过头戴显示设备的喇叭播放音频信号,以及在头戴显示设备的显示屏上显示方位信息的图形提示信息,例如可以是在播放音频信号的情况下,同时在显示屏上显示方位信息的图形提示信息。
在一个例子中,头戴显示设备中预先存储有不同的关键字以形成关键字库,当对拾取的音频信号进行识别得到关键字后,如果该关键字位于关键字库中,还需要进一步获取头戴显示设备的当前帧图像相对上一帧图像的更新信息,并在更新信息表示未发生更新的情况下,才播放音频信号,并输出用于提示方位信息的提示信息。
其中,所述当前帧图像为所述麦克风阵列拾取到所述音频信号时所述头戴显示设备所显示的帧图像。
可以理解的是,当更新信息表示未发生更新的情况下,通常表明画面是静止的,即用户可能并没有在玩游戏,此时才播放音频信号,并输出用于提示方位信息的提示信息。而在更新信息表示发生更新的情况下,通常表示画面是非静止的,即用户可能在玩游戏,此时并不会执行播放音频信号,并输出用于提示方位信息的提示信息的步骤,而是执行以下步骤S4100~步骤S4400的步骤。
根据本公开实施例,头戴显示设备可以通过麦克风阵列拾取音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中匹配到该关键字的情况下,播放音频信号,并输出用于提示方位信息的提示信息,能够使得用户及时对该发声对象作出回应,给用户带来更多的人机交互。
在一个实施例中,本公开实施例的头戴显示设备的控制方法还可以包括如下步骤S4100~步骤S4400:
步骤S4100,在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号保存为第一音频文件,并显示第一音频文件的第一图标。
本实施例中,如果关键字不位于预设的关键字库中,或者,当前帧图像相对前一帧图像发生更新,则头戴显示设备会将该音频信号保存为第一音频文件,并基于第一预设路径将该第一音频文件保存至头戴显示设备中,同时将该第一音频文件对应的图标显示在显示屏上,以便用户通过该图标查看对应的第一音频文件。
步骤S4200,在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,在所述当前帧图像中的设定区域添加用于提示所述方位信息的文本提示信息和/或图形提示信息。
该设定区域可以是当前帧图像的空白区域。
步骤S4300,将添加有所述文本提示信息和/或所述图形提示信息的当前帧图像保存为目标图像,并显示所述目标图像的第二图标。
在本实施例中,将添加有文本提示信息和/或图形提示信息的当前帧图像保存为目标图像,并基于第一预设路径将该第一音频文件保存至头戴显示设备中,同时将该目标图像对应的图标显示在显示屏上,以便用户通过该图标查看对应的目标图像。
可以理解的是,在得到第一音频文件和目标图像之后,头戴显示设备便可建立所述第一音频文件和所述目标图像之间的映射关系。例如可以在第一音频文件的属性信息中写入目标图像的名称,以建立第一音频文件和目标图像之间的映射关系,方便用户查找该第一音频文件和对应的目标图像。
根据本实施例,头戴显示设备可以通过麦克风阵列拾取音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中未匹配到该关键字,或者更新信息表示发生更新的情况下,分别保存该音频文件和用于提示方位信息的文本提示信息和/或图形提示信息,并提供图标供用户根据自身的需要进行查找,带来更多的人机交互。
在一个实施例中,本公开实施例的头戴显示设备的控制方法还进一步包括:在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号和用于提示所述方位信息的语音提示信息保存为第二音频文件,并显示所述第二音频文件的第三图标。
在本实施例中,如果关键字不位于预设的关键字库中,或者更新信息表示发生更新的情况下,则头戴显示设备会将该音频信号和该方位信息的语音提示信息保存为第二音频文件,并基于第二预设路径将该第二音频文件保存至头戴显示设备中,同时将该第二音频文件对应的图标显示在显示屏上,以便用户通过该图标查看对应的第二音频文件。
根据本实施例,头戴显示设备可以通过麦克风阵列拾取外界的音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中未匹配到该关键字的情况下,将该音频文件和用于提示方位信息的语音提示信息保存为一个音频文件,并提供图标以便用户根据自身的需要进行查找,带来更多的人机交互。
在一个实施例中,本公开实施例的头戴显示设备的控制方法还进一步包括如下步骤S5100~步骤S5200:
步骤S5100,接收用户针对目标对象的图标的第一输入;其中,所述目标对象包括以下任意一项:所述第一音频文件、所述目标图像和所述第二音频文件。
该第一输入可以为:用户对目标对象的图标的点击输入,或者为用户输入的语音指令,或者为用户输入的特定手势,具体的可以根据实际使用需求确定,本申请实施例对此不作限定。
本申请实施例中的特定手势可以为单击手势、长按手势、双按手势、双击手势中的任意一种;本申请实施例中的点击输入可以为单击输入、双击输入或任意次数的点击输入等,还可以为长按输入或短按输入。
示例性地,用户可以点击第一音频文件的图标,则通过头戴显示设备的喇叭播放第一音频文件,或者点击该目标图像的图标以在头戴显示设备的显示屏显示该目标图像。
示例性地,用户可以点击第二音频文件的图标,则通过头戴显示设备的喇叭播放第二音频文件。
步骤S5200,响应于所述第一输入,输出所述目标对象。
根据本实施例,其可以保存第一音频文件、目标图像或者第二音频文件之后,以便用户根据自身的需要进行查找,给使用带来更多的人机交互。
<装置实施例>
图5是根据一个实施例的头戴显示设备的控制装置的结构示意图。如图5所示,该头戴显示设备的控制装置500包括拾取模块510、识别模块 520和控制模块530。
拾取模块510,用于通过所述麦克风阵列拾取音频信号。
识别模块520,用于识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字。
控制模块530,用于在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
在一个实施例中,所述提示信息包括以下至少一项:图形提示信息、文本提示信息、语音提示信息。
在一个实施例中,所述控制模块530,具体用于在预设的关键字库中匹配到所述关键字的情况下,获取所述头戴显示设备的当前帧图像相对上一帧图像的更新信息;其中,所述当前帧图像为所述麦克风阵列拾取到所述音频信号时所述头戴显示设备所显示的帧图像;在所述更新信息表示未发生更新的情况下,播放所述音频信号,并输出用于提示所述方位信息的提示信息。
在一个实施例中,所述装置500还包括存储模块和显示模块(图中均未示出)。
存储模块,用于在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号保存为第一音频文件。
显示模块,用于显示所述第一音频文件的第一图标。
在一个实施例中,所述提示信息包括图形提示信息和/或文本提示信息。存储模块,还用于在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,在所述当前帧图像中的设定区域添加所述提示信息;将添加有所述提示信息的当前帧图像保存为目标图像。
显示模块,用于显示所述目标图像的第二图标。
在一个实施例中,所述提示信息包括语音提示信息。
存储模块,还用于在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号和所述语音提示信息保存为第二音频文件。
显示模块,还用于显示所述第二音频文件的第三图标。
在一个实施例中,拾取模块510,具体用于:在所述头戴显示设备运行目标应用程序的情况下,通过所述麦克风阵列拾取音频信号。
其中,所述目标应用程序包括以下其中一项:视频应用程序、游戏应用程序。
根据本公开实施例,头戴显示设备可以通过麦克风阵列拾取音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中匹配到该关键字的情况下,播放音频信号,并输出用于提示方位信息的提示信息,能够使得用户及时对该发声对象作出回应,给用户带来更多的人机交互。
<设备实施例>
图6是根据一个实施例的头戴显示设备的硬件结构示意图。如图6所示,该头戴显示设备600包括麦克风阵列610,该头戴显示设备600还包括处理器620和存储器630。
该存储器630可以用于存储可执行的计算机指令。
该处理器620可以用于根据所述可执行的计算机指令的控制,执行根据本公开方法实施例所述的头戴显示设备的控制方法。
该头戴显示设备600可以是如图1所示的头戴显示设备1000,也可以是具备其他硬件结构的设备,在此不做限定。该头戴显示设备600例如可以是VR设备、MR设备等,本公开实施例对此不作限定。
在另外的实施例中,该头戴显示设备600可以包括以上头戴显示设备的控制装置500。
在一个实施例中,以上头戴显示设备的控制装置500的各模块可以通过处理器620运行存储器630中存储的计算机指令实现。
根据本公开实施例,头戴显示设备可以通过麦克风阵列拾取音频信号,并识别该音频信号,获得该音频信号的发声对象相对于该头戴显示设备的方位信息和该音频信号中的关键字,并在预设的关键字库中匹配到该关键字的情况下,播放音频信号,并输出用于提示方位信息的提示信息,能够使得用户及时对该发声对象作出回应,给用户带来更多的人机交互。
<计算机可读存储介质>
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行本公开实施例提供的头戴显示设备的检测方法。
本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。
Claims (10)
1.一种头戴显示设备的控制方法,所述头戴显示设备包括麦克风阵列,所述方法包括:
通过所述麦克风阵列拾取音频信号;
识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字;
在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
2.根据权利要求1所述的方法,其中,所述提示信息包括以下至少一项:图形提示信息、文本提示信息、语音提示信息。
3.根据权利要求1所述的方法,其中,所述在预设的关键字库中匹配到所述关键字的情况下,播放所述音频信号,并输出用于提示所述方位信息的提示信息,包括:
在预设的关键字库中匹配到所述关键字的情况下,获取所述头戴显示设备的当前帧图像相对上一帧图像的更新信息;其中,所述当前帧图像为所述麦克风阵列拾取到所述音频信号时所述头戴显示设备所显示的帧图像;
在所述更新信息表示未发生更新的情况下,播放所述音频信号,并输出用于提示所述方位信息的提示信息。
4.根据权利要求3所述的方法,其中,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号保存为第一音频文件;
显示所述第一音频文件的第一图标。
5.根据权利要求4所述的方法,其中,所述提示信息包括图形提示信息和/或文本提示信息,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,在所述当前帧图像中的设定区域添加所述提示信息;
将添加有所述提示信息的当前帧图像保存为目标图像;以及,
显示所述目标图像的第二图标。
6.根据权利要求3所述的方法,其中,所述提示信息包括语音提示信息,所述方法还包括:
在预设的关键字库中未匹配到所述关键字的情况下,或者,所述更新信息表示发生更新的情况下,将所述音频信号和所述语音提示信息保存为第二音频文件;
显示所述第二音频文件的第三图标。
7.根据权利要求1所述的方法,其中,所述通过所述麦克风阵列拾取音频信号,包括:
在所述头戴显示设备运行目标应用程序的情况下,通过所述麦克风阵列拾取音频信号;
其中,所述目标应用程序包括以下其中一项:视频应用程序、游戏应用程序。
8.一种头戴显示设备的控制装置,所述头戴显示设备包括麦克风阵列,所述装置包括:
拾取模块,用于通过所述麦克风阵列拾取音频信号;
识别模块,用于识别所述音频信号,获得所述音频信号的发声对象相对于所述头戴显示设备的方位信息和所述音频信号中的关键字;
控制模块,用于在预设的关键字库中匹配到所述关键字的情况下,通过所述头戴显示设备播放所述音频信号,并输出用于提示所述方位信息的提示信息。
9.一种头戴显示设备,所述头戴显示设备包括麦克风阵列,所述头戴显示设备还包括:
存储器,用于存储可执行的计算机指令;
处理器,用于根据所述可执行的计算机指令的控制,执行根据权利要求1-7中任意一项所述的控制方法;
其中,所述处理器与所述麦克风阵列通信连接,以获取所述麦克风阵列拾取的音频信号。
10.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时执行权利要求1-7中任意一项所述的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173720.2A CN114708866A (zh) | 2022-02-24 | 2022-02-24 | 头戴显示设备的控制方法、装置、头戴显示设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210173720.2A CN114708866A (zh) | 2022-02-24 | 2022-02-24 | 头戴显示设备的控制方法、装置、头戴显示设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708866A true CN114708866A (zh) | 2022-07-05 |
Family
ID=82166421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210173720.2A Pending CN114708866A (zh) | 2022-02-24 | 2022-02-24 | 头戴显示设备的控制方法、装置、头戴显示设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708866A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115988131A (zh) * | 2022-12-28 | 2023-04-18 | 维沃移动通信有限公司 | 提示方法、装置和电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080187163A1 (en) * | 2007-02-01 | 2008-08-07 | Personics Holdings Inc. | Method and device for audio recording |
CN105377383A (zh) * | 2013-06-07 | 2016-03-02 | 索尼电脑娱乐公司 | 在头戴式显示器上转变游戏过程 |
CN106412225A (zh) * | 2016-05-20 | 2017-02-15 | 惠州Tcl移动通信有限公司 | 移动终端以及安全提示方法 |
CN206061087U (zh) * | 2016-10-10 | 2017-03-29 | 西南大学 | 一种头戴耳机提醒装置 |
CN107333199A (zh) * | 2017-07-21 | 2017-11-07 | 京东方科技集团股份有限公司 | 耳机控制装置、耳机及耳机控制方法 |
CN107357549A (zh) * | 2017-07-13 | 2017-11-17 | 联想(北京)有限公司 | 一种处理方法及可穿戴电子设备 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
CN108391206A (zh) * | 2018-03-30 | 2018-08-10 | 广东欧珀移动通信有限公司 | 信号处理方法、装置、终端、耳机及可读存储介质 |
CN110691300A (zh) * | 2019-09-12 | 2020-01-14 | 连尚(新昌)网络科技有限公司 | 音频播放设备及用于提供信息的方法 |
CN111988472A (zh) * | 2020-08-28 | 2020-11-24 | 上海博泰悦臻网络技术服务有限公司 | 提升戴耳机用户注意力的方法、***、介质及智能终端 |
-
2022
- 2022-02-24 CN CN202210173720.2A patent/CN114708866A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080187163A1 (en) * | 2007-02-01 | 2008-08-07 | Personics Holdings Inc. | Method and device for audio recording |
CN105377383A (zh) * | 2013-06-07 | 2016-03-02 | 索尼电脑娱乐公司 | 在头戴式显示器上转变游戏过程 |
CN106412225A (zh) * | 2016-05-20 | 2017-02-15 | 惠州Tcl移动通信有限公司 | 移动终端以及安全提示方法 |
CN206061087U (zh) * | 2016-10-10 | 2017-03-29 | 西南大学 | 一种头戴耳机提醒装置 |
CN107357549A (zh) * | 2017-07-13 | 2017-11-17 | 联想(北京)有限公司 | 一种处理方法及可穿戴电子设备 |
CN107333199A (zh) * | 2017-07-21 | 2017-11-07 | 京东方科技集团股份有限公司 | 耳机控制装置、耳机及耳机控制方法 |
CN107799117A (zh) * | 2017-10-18 | 2018-03-13 | 倬韵科技(深圳)有限公司 | 识别关键信息以控制音频输出的方法、装置及音频设备 |
CN108391206A (zh) * | 2018-03-30 | 2018-08-10 | 广东欧珀移动通信有限公司 | 信号处理方法、装置、终端、耳机及可读存储介质 |
CN110691300A (zh) * | 2019-09-12 | 2020-01-14 | 连尚(新昌)网络科技有限公司 | 音频播放设备及用于提供信息的方法 |
CN111988472A (zh) * | 2020-08-28 | 2020-11-24 | 上海博泰悦臻网络技术服务有限公司 | 提升戴耳机用户注意力的方法、***、介质及智能终端 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115988131A (zh) * | 2022-12-28 | 2023-04-18 | 维沃移动通信有限公司 | 提示方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7305011B2 (ja) | メッセージを表示するためのプログラム | |
CN106104677B (zh) | 所识别的语音发起的动作的视觉指示 | |
US9348554B2 (en) | Managing playback of supplemental information | |
US11032532B2 (en) | Electronic device and method for providing virtual device via at least portion of content | |
CN112533041A (zh) | 视频播放方法、装置、电子设备和可读存储介质 | |
US11232640B2 (en) | Augmented reality interaction, modeling, and annotation system | |
US9886236B2 (en) | Multi-dimensional audio interface system | |
KR102204141B1 (ko) | 태스크를 리마인드하는 전자 장치 및 그 제어 방법 | |
US20160366084A1 (en) | Contextually driven messaging system | |
US11709593B2 (en) | Electronic apparatus for providing a virtual keyboard and controlling method thereof | |
CN113302672A (zh) | 变速语音发音机器 | |
US10409478B2 (en) | Method, apparatus, and recording medium for scrapping content | |
CN108449255B (zh) | 评论交互方法、设备、客户端装置及电子设备 | |
JP2019220168A (ja) | スピーチコマンドを使用して触覚をデザインするシステムと方法 | |
CN114708866A (zh) | 头戴显示设备的控制方法、装置、头戴显示设备及介质 | |
US9913023B2 (en) | Multi-sound audio interface system | |
US11163378B2 (en) | Electronic device and operating method therefor | |
US20170131873A1 (en) | Natural user interface for selecting a target element | |
CN112037821A (zh) | 语音情感的视觉化表示方法、装置及计算机存储介质 | |
CN111638918A (zh) | 用于呈现信息的方法和装置 | |
CN113301436A (zh) | 播放控制方法、装置及计算机可读存储介质 | |
KR20200094589A (ko) | 컨텐츠를 생성하기 위한 전자 장치 | |
KR102278213B1 (ko) | 휴대 장치 및 휴대 장치의 화면 제어방법 | |
TWI526924B (zh) | 聲音播放方式之管理方法及系統,及其電腦程式產品 | |
CN114783440A (zh) | 用户交互辅助方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |