CN114120960A - 一种基于听觉的辅助空间感知***及方法 - Google Patents

一种基于听觉的辅助空间感知***及方法 Download PDF

Info

Publication number
CN114120960A
CN114120960A CN202111373446.5A CN202111373446A CN114120960A CN 114120960 A CN114120960 A CN 114120960A CN 202111373446 A CN202111373446 A CN 202111373446A CN 114120960 A CN114120960 A CN 114120960A
Authority
CN
China
Prior art keywords
audio
module
information
image
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111373446.5A
Other languages
English (en)
Other versions
CN114120960B (zh
Inventor
费腾
李阳春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202111373446.5A priority Critical patent/CN114120960B/zh
Publication of CN114120960A publication Critical patent/CN114120960A/zh
Application granted granted Critical
Publication of CN114120960B publication Critical patent/CN114120960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • G08B21/24Reminder alarms, e.g. anti-loss alarms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及一种基于听觉的辅助空间感知***,包括数据采集模块、人机交互模块、控制模块、行走模式模块和凝视模式模块五个部分,提供行走模式和凝视模式两种工作模式,对应两种基于听觉的辅助空间感知方法。行走模式辅助空间感知方法提供了更大的空间信息量,有效解决了现有感官替代装置提供空间信息不足无法满足视障者需求的问题;凝视模式辅助空间感知方法提供了更精炼集中的空间描述性信息,有效解决了现有感官替代装置提供冗余的信息导致实用性不强的问题;两种方法相结合可以满足视障用户在不同场景下的不同使用需求。

Description

一种基于听觉的辅助空间感知***及方法
技术领域
本发明属于感官替代技术领域,特别是涉及一种基于听觉的辅助空间感知***及方法。
背景技术
世界卫生组织所公布的数据显示,世界上大约有2.53亿人患有视力障碍。由于视觉的缺失,视障人士在日常生活出行中面临着诸多困难。而随着社会的发展,视障人士的生活质量、出行水平受到了越来越多的关注。帮助视障人士感知空间,进而提高该群体的行走能力,便利其生活,是亟需解决的问题。
目前,辅助盲人行走的传统方式主要为盲杖和导盲犬。但是,它们都存在着一些不足之处,比如盲杖的探测范围有限,而导盲犬的培养成本高、适用场合有限制。同时,这些传统导盲方式只能够帮助视障人士避开路上的障碍物,却不能使他们了解周围环境的空间结构和场景信息。
随着计算机科学和传感器技术的发展,感官替代装置被研究用于视障人士的空间感知辅助研究。由于听觉有着直观性强、可利用参数多的特点,大部分的感官替代装置尝试使用听觉信号来代替视觉信号,向使用者提供场景信息。但是,这些研究往往存在着两个方面的问题:提供空间信息不足而无法满足视障者的需求,或者提供过于冗余的信息而使得实用性不强。
发明内容
本发明针对现有技术的不足,提供一种基于听觉的辅助空间感知***及方法,利用听觉代替视觉,将空间场景信息转化为非语音空间音频信号或语音描述信号,不仅辅助视障者在行走过程中有效躲避障碍物,提高使用者的空间认知感,而且能有效传递环境信息,提升使用者的场景理解能力。
一种基于听觉的辅助空间感知***,包括数据采集模块、人机交互模块、控制模块、行走模式模块和凝视模式模块,其中人机交互模块与控制模块相连接,控制模块、数据采集模块与行走模式模块、凝视模式模块相连接。
数据采集模块用以采集空间场景信息,包括深度图像数据流和RGB图像数据流。
人机交互模块用以传达用户指令,向控制模块发送行走模式指令和凝视模式指令。
控制模块根据人机交互模块的行走模式指令处理数据采集模块获取的深度图像数据,并将深度图像信息映射到空间音频上,通过耳机输出空间音频;控制模块根据人机交互模块的凝视模式指令从数据采集模块获取的RGB图像数据中构建语义信息,合成并通过耳机输出相应语音。
行走模式模块用于对空间场景中的物体方位和距离信息进行探测与输出,包括:深度图像预处理子模块,用于处理深度图像数据流;空间音频生成子模块,用于将深度图像信息映射到音频参数上,并对音频进行空间化处理;空间音频输出子模块,用于输出空间音频。
凝视模式模块用于对空间场景中物体的属性和状态信息进行识别与输出,包括:RGB图像语义构建子模块,用于将RGB图像数据流转换为句子;语音合成子模块,用于将句子转换为语音;语音输出子模块,用于输出语音信号。
一种利用上述基于听觉的辅助空间感知***实现的行走模式辅助空间感知方法,包括以下几个步骤:
步骤101,接收数据采集模块实时传送的深度图像数据流,对每一帧深度图像进行空值的填充,即将空值像元的八邻域非空像元值的平均值赋给该空值像元,遍历图像执行该操作直至图像中没有空值;
步骤102,对步骤101处理后的深度图像进行高斯低通滤波处理,以滤除图像中的噪音和模糊细节;
步骤103,对步骤102所得到的深度图像进行下采样处理,将原始尺寸为225×315的图像下采样至5×7;
步骤104,将步骤103经过下采样处理的深度图像像元值映射到音频参数上;
步骤105,利用头相关函数技术,对步骤104生成的音频信息进行空间化处理,即将像元在图像中的坐标(x,y)映射到声源位置
Figure BDA0003363170620000021
上;
步骤106,实时输出空间音频至用户所佩戴的耳机,该音频传递空间结构信息的非语音声音。
而且,所述步骤103中下采样规则为:将待求解像元的八邻域中最小像元值赋予该待求解像素。
而且,所述步骤104中图像信息转化为音频的规则为:提取图像中每一列的最小像元,并设定阈值D,比较最小像元与阈值D的大小;当最小像元值小于等于D时,表示该位置的物体离使用者距离较近,将最小像元值映射到嘟声的响度和音高上,像元值越小,表示物体离得越近,映射的嘟声的响度越大、音高越高,反之,则响度越小、音高越低,以此提示使用者躲避障碍物;当最小像元值大于D时,表示该位置的物体离使用者距离较远,暂时不会构成碰撞威胁,此时使用响度和音高固定的水滴声表示该像元信息,该水滴声可被视为一种提示物体距离较远的“安全音”。
而且,所述步骤105中空间化处理后,嘟嘟声或水滴声是有空间感的,使用者会感受到它们传来的方向,具体映射规则如下式所示:
θ=-120°+30°×y (1)
Figure BDA0003363170620000031
式中,x为像元在图像中的行号,y为像元在图像中的列号,以头颅中心为原点O构建三维坐标系,x轴经过人耳,y轴经过鼻子,z轴垂直于xOy平面,θ为声源位置与原点O的连线和yOz平面所形成的水平角,
Figure BDA0003363170620000032
为声源位置与原点O的连线和xOy平面所形成的高度角。
而且,所述步骤106中对于每一帧深度图像,将产生7个不同水平角的音频片段,这些音频片段被按照从左到右的顺序依次播放;当音频为水滴声时,表示该位置的物体离使用者距离较远;当音频为嘟声时,表示该位置的物体离使用者距离小于D米,嘟声的音调越高、响度越大,距离越近;使用者可以根据音频的音色、音调、响度和声源位置信息,判断障碍物的距离、方位,从而在行走过程中躲避障碍物。
一种利用上述基于听觉的辅助空间感知***实现的凝视模式辅助空间感知方法,包括以下几个步骤:
步骤201,接受数据采集模块实时传送的RGB图像,通过调取微软提供的ComputerVision API服务,生成图像的英文描述性文本;
步骤202,通过百度翻译API服务,将步骤1生成的英文文本转化为中文文本;
步骤203,基于python软件中的pyttsx模块,将步骤2生成的中文文本转化为语音;
步骤204,实时输出语音至用户所佩戴的耳机,该语音为一个对当前视野场景信息的描述性句子。
与现有技术相比,本发明具有以下优点:
1)本发明提供的***包括行走模式和凝视模式两种工作模式,对应两种基于听觉的辅助空间感知方法,两种方法相结合可以满足视障用户在不同场景下的不同使用需求。
2)行走模式辅助空间感知方法使用可听化技术将空间场景信息实时转化为空间音频信号,使视障者能够快速获取空间结构信息,有效地帮助视障者在行走过程中躲避障碍物,提高空间认知感。行走模式辅助空间感知方法提供了更大的空间信息量,有效解决了现有感官替代装置提供空间信息不足无法满足视障者需求的问题。
3)凝视模式辅助空间感知方法将空间场景信息实时转化为语音朗读出来,使视障者快速获取空间场景的描述性信息,有效帮助视障者获取环境信息,提升场景理解能力。凝视模式辅助空间感知方法提供了更精炼集中的空间描述性信息,有效解决了现有感官替代装置提供冗余的信息导致实用性不强的问题。
附图说明
图1为本发明实施例基于听觉的辅助空间感知***的结构原理图。
图2为本发明行走模式辅助空间感知方法的流程图。
图3为本发明行走模式辅助空间感知方法中所使用的声源位置水平角θ、高度角
Figure BDA0003363170620000041
的示意图。
图4为本发明凝视模式辅助空间感知方法的流程图。
具体实施方式
本发明提供一种基于听觉的辅助空间感知***及方法,利用听觉替代视觉,将空间场景信息转化为非语音空间音频信号或语音描述信号,辅助使用者感知空间和理解场景。
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,本发明提供一种基于听觉的辅助空间感知***,包括:数据采集模块、人机交互模块、控制模块、行走模式模块和凝视模式模块,其中人机交互模块与控制模块相连接,控制模块、数据采集模块与行走模式模块、凝视模式模块相连接。
数据采集模块用以采集空间场景信息,包括深度图像数据流和RGB图像数据流。
人机交互模块用以传达用户指令,向控制模块发送行走模式指令和凝视模式指令。
控制模块根据人机交互模块的行走模式指令处理数据采集模块获取的深度图像数据,并将深度图像信息映射到音频参数上,通过耳机输出空间音频;控制模块根据人机交互模块的凝视模式指令从数据采集模块获取的RGB图像数据中构建语义信息,合成并通过耳机输出相应语音。
行走模式模块用于对空间场景中的物体方位和距离信息进行探测与输出,包括:深度图像预处理子模块,用于处理深度图像数据流;空间音频生成子模块,用于将深度图像信息映射到音频参数上,并对音频进行空间化处理;空间音频输出子模块,用于输出空间音频。
凝视模式模块用于对空间场景中物体的属性和状态信息进行识别与输出,包括:RGB图像语义构建子模块,用于将RGB图像数据流转换为句子;语音合成子模块,用于将句子转换为语音;语音输出子模块,用于输出语音信号。
通过设置人机交互模块,可以使用户自由选择模式,通过不同类型的声音输出获取周围空间场景的不同类型的信息;通过设置行走模式模块,可以使用户快速感知周围环境的空间结构,帮助用户掌握障碍物的方位和距离信息,从而有效避开障碍物,确保用户在行走过程中的安全;通过设置凝视模式模块,可以使用户快速获取周围环境的描述性信息,有助于用户理解空间场景。
该***包括行走模式和凝视模式两种工作模式,对应两种基于听觉的辅助空间感知方法:行走模式辅助空间感知方法和凝视模式辅助空间感知方法。行走模式辅助空间感知方法使用可听化技术将空间场景信息实时转化为空间音频信号,使视障者能够快速获取空间结构信息,有效地帮助视障者在行走过程中躲避障碍物,提高空间认知感。凝视模式辅助空间感知方法将空间场景信息实时转化为语音朗读出来,使视障者快速获取空间场景的描述性信息,有效帮助视障者获取环境信息,提升场景理解能力。
如图2所示,行走模式辅助空间感知方法包括以下步骤:
步骤101,接收数据采集模块实时传送的深度图像数据流,对每一帧深度图像进行空值的填充,即将空值像元的八邻域非空像元值的平均值赋给该空值像元,遍历图像执行该操作直至图像中没有空值。
步骤102,对步骤101处理后的深度图像进行高斯低通滤波处理,以滤除图像中的噪音和模糊细节。
步骤103,对步骤102所得到的深度图像进行下采样处理,将原始尺寸为225×315的图像下采样至5×7,下采样规则为:将待求解像元的八邻域中最小像元值赋予该待求解像素。
步骤104,将步骤103经过下采样处理的深度图像像元值映射到音频参数上。
图像信息转化为音频的规则为:提取图像中每一列的最小像元,并设定阈值D(本实施例中D取3米),比较最小像元与阈值D的大小。当最小像元值小于等于D时,表示该位置的物体离使用者距离较近,将最小像元值映射到嘟声的响度和音高上,像元值越小,表示物体离得越近,映射的嘟声的响度越大、音高越高,反之,则响度越小、音高越低,以此提示使用者躲避障碍物。当最小像元值大于D时,表示该位置的物体离使用者距离较远,暂时不会构成碰撞威胁,此时使用响度和音高固定的水滴声表示该像元信息,该水滴声可被视为一种提示物体距离较远的“安全音”。
步骤105,利用头相关函数技术,对步骤104生成的音频信息进行空间化处理,即将像元在图像中的坐标(x,y)映射到声源位置
Figure BDA0003363170620000061
上。空间化处理后,嘟嘟声或水滴声是有空间感的,使用者会感受到它们传来的方向。
具体映射规则如下式所示:
θ=-120°+30°×y (1)
Figure BDA0003363170620000062
式中,x为像元在图像中的行号,y为像元在图像中的列号,如图3所示,以头颅中心为原点O构建三维坐标系,x轴经过人耳,y轴经过鼻子,z轴垂直于xOy平面。θ为声源位置与原点O的连线和yOz平面所形成的水平角,
Figure BDA0003363170620000063
为声源位置与原点O的连线和xOy平面所形成的高度角。
步骤106,实时输出空间音频至用户所佩戴的耳机,该音频传递空间结构信息的非语音声音。
对于每一帧深度图像,将产生7个不同水平角的音频片段,这些音频片段被按照从左到右的顺序依次播放。当音频为水滴声时,表示该位置的物体离使用者距离较远;当音频为嘟声时,表示该位置的物体离使用者距离小于D米,嘟声的音调越高、响度越大,距离越近。使用者可以根据音频的音色、音调、响度和声源位置信息,判断障碍物的距离、方位,从而在行走过程中躲避障碍物。
如图3所示,凝视模式辅助空间感知方法包括以下步骤:
步骤201,接受数据采集模块实时传送的RGB图像,通过调取微软提供的ComputerVision API服务,生成图像的英文描述性文本。
步骤202,通过百度翻译API服务,将步骤201生成的英文文本转化为中文文本。
步骤203,基于python软件中的pyttsx模块,将步骤202生成的中文文本转化为语音。
步骤204,实时输出语音至用户所佩戴的耳机,该语音为一个对当前视野场景信息的描述性句子。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于听觉的辅助空间感知***,其特征在于,包括数据采集模块、人机交互模块、控制模块、行走模式模块和凝视模式模块,其中人机交互模块与控制模块相连接,控制模块、数据采集模块与行走模式模块、凝视模式模块相连接;
数据采集模块用以采集空间场景信息,包括深度图像数据流和RGB图像数据流;
人机交互模块用以传达用户指令,向控制模块发送行走模式指令和凝视模式指令;
控制模块根据人机交互模块的行走模式指令处理数据采集模块获取的深度图像数据,并将深度图像信息映射到音频参数上,通过耳机输出空间音频;控制模块根据人机交互模块的凝视模式指令从数据采集模块获取的RGB图像数据中构建语义信息,合成并通过耳机输出相应语音;
行走模式模块用于对空间场景中的物体方位和距离信息进行探测与输出,包括:深度图像预处理子模块,用于处理深度图像数据流;空间音频生成子模块,用于将深度图像信息映射到空间音频上,并对音频进行空间化处理;空间音频输出子模块,用于输出空间音频;
凝视模式模块用于对空间场景中物体的属性和状态信息进行识别与输出,包括:RGB图像语义构建子模块,用于将RGB图像数据转换为句子;语音合成子模块,用于将句子转换为语音;语音输出子模块,用于输出语音信号。
2.一种利用权利要求1所述基于听觉的辅助空间感知***实现的行走模式辅助空间感知方法,其特征在于,包括以下几个步骤:
步骤101,接收数据采集模块实时传送的深度图像数据流,对每一帧深度图像进行空值的填充,即将空值像元的八邻域非空像元值的平均值赋给该空值像元,遍历图像执行该操作直至图像中没有空值;
步骤102,对步骤101处理后的深度图像进行高斯低通滤波处理,以滤除图像中的噪音和模糊细节;
步骤103,对步骤102所得到的深度图像进行下采样处理,将原始尺寸为225×315的图像下采样至5×7;
步骤104,将步骤103经过下采样处理的深度图像像元值映射到音频参数上;
步骤105,利用头相关函数技术,对步骤104生成的音频信息进行空间化处理,即将像元在图像中的坐标(x,y)映射到声源位置
Figure FDA0003363170610000021
上;
步骤106,实时输出空间音频至用户所佩戴的耳机,该音频传递空间结构信息的非语音声音。
3.如权利要求2所述的行走模式辅助空间感知方法,其特征在于:步骤103中下采样规则为:将待求解像元的八邻域中最小像元值赋予该待求解像素。
4.如权利要求2所述的行走模式辅助空间感知方法,其特征在于:步骤104中图像信息转化为音频的规则为:提取图像中每一列的最小像元,并设定阈值D,比较最小像元与阈值D的大小;当最小像元值小于等于D时,表示该位置的物体离使用者距离较近,将最小像元值映射到嘟声的响度和音高上,像元值越小,表示物体离得越近,映射的嘟声的响度越大、音高越高,反之,则响度越小、音高越低,以此提示使用者躲避障碍物;当最小像元值大于D时,表示该位置的物体离使用者距离较远,暂时不会构成碰撞威胁,此时使用响度和音高固定的水滴声表示该像元信息,该水滴声可被视为一种提示物体距离较远的“安全音”。
5.如权利要求2所述的行走模式辅助空间感知方法,其特征在于:步骤105中空间化处理后的嘟嘟声或水滴声是有空间感的,使用者会感受到它们传来的方向,具体映射规则如下式所示:
θ=-120°+30°×y (1)
Figure FDA0003363170610000022
式中,x为像元在图像中的行号,y为像元在图像中的列号,以头颅中心为原点O构建三维坐标系,x轴经过人耳,y轴经过鼻子,z轴垂直于xOy平面,θ为声源位置与原点的连线和yOz平面所形成的水平角,
Figure FDA0003363170610000023
为声源位置与原点的连线和xOy平面所形成的高度角。
6.如权利要求2所述的行走模式辅助空间感知方法,其特征在于:步骤106中对于每一帧深度图像,将产生7个不同水平角的音频片段,这些音频片段被按照从左到右的顺序依次播放;当音频为水滴声时,表示该位置的物体离使用者距离较远;当音频为嘟声时,表示该位置的物体离使用者距离小于D米,嘟声的音调越高、响度越大,距离越近;使用者可以根据音频的音色、音调、响度和声源位置信息,判断障碍物的距离、方位,从而在行走过程中躲避障碍物。
7.一种利用权利要求1所述基于听觉的辅助空间感知***实现的凝视模式辅助空间感知方法,其特征在于,包括以下几个步骤:
步骤201,接受数据采集模块实时传送的RGB图像,通过调取微软提供的ComputerVision API服务,生成图像的英文描述性文本;
步骤202,通过百度翻译API服务,将步骤201生成的英文文本转化为中文文本;
步骤203,基于python软件中的pyttsx模块,将步骤202生成的中文文本转化为语音;
步骤204,实时输出语音至用户所佩戴的耳机,该语音为一个对当前视野场景信息的描述性句子。
CN202111373446.5A 2021-11-19 2021-11-19 一种基于听觉的辅助空间感知***及方法 Active CN114120960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111373446.5A CN114120960B (zh) 2021-11-19 2021-11-19 一种基于听觉的辅助空间感知***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111373446.5A CN114120960B (zh) 2021-11-19 2021-11-19 一种基于听觉的辅助空间感知***及方法

Publications (2)

Publication Number Publication Date
CN114120960A true CN114120960A (zh) 2022-03-01
CN114120960B CN114120960B (zh) 2024-05-03

Family

ID=80396465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373446.5A Active CN114120960B (zh) 2021-11-19 2021-11-19 一种基于听觉的辅助空间感知***及方法

Country Status (1)

Country Link
CN (1) CN114120960B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060133140A (ko) * 2005-06-20 2006-12-26 경북대학교 산학협력단 청각을 이용한 시각 재현 장치 및 제어방법
US20180078444A1 (en) * 2016-09-17 2018-03-22 Noah Eitan Gamerman Non-visual precision spatial awareness device.
CN109085926A (zh) * 2018-08-21 2018-12-25 华东师范大学 一种多模态成像与多感知交融的增强现实***及其应用
CN113038322A (zh) * 2021-03-04 2021-06-25 聆感智能科技(深圳)有限公司 一种以听觉增强环境感知的方法与装置
CN113196390A (zh) * 2021-03-09 2021-07-30 曹庆恒 一种基于听觉的感知***及其使用方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060133140A (ko) * 2005-06-20 2006-12-26 경북대학교 산학협력단 청각을 이용한 시각 재현 장치 및 제어방법
US20180078444A1 (en) * 2016-09-17 2018-03-22 Noah Eitan Gamerman Non-visual precision spatial awareness device.
CN109085926A (zh) * 2018-08-21 2018-12-25 华东师范大学 一种多模态成像与多感知交融的增强现实***及其应用
CN113038322A (zh) * 2021-03-04 2021-06-25 聆感智能科技(深圳)有限公司 一种以听觉增强环境感知的方法与装置
CN113196390A (zh) * 2021-03-09 2021-07-30 曹庆恒 一种基于听觉的感知***及其使用方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐洁;方志刚;鲍福良;张丽红;: "AudioMan:电子行走辅助***的设计与实现", 中国图象图形学报, no. 07, 15 July 2007 (2007-07-15) *

Also Published As

Publication number Publication date
CN114120960B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN111597828B (zh) 翻译显示方法、装置、头戴显示设备及存储介质
KR102441171B1 (ko) 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법
CN106327584B (zh) 一种用于虚拟现实设备的图像处理方法及装置
CN107157717A (zh) 用于向盲人提供视觉信息的物体检测、分析及提示***
JP6771548B2 (ja) 盲人又は視覚障害者が音声や触覚によって周囲環境を解釈することを可能にするポータブルシステム
CN108245385A (zh) 一种帮助视障人士出行的装置
CN108245384A (zh) 基于增强学习的双目视觉导盲仪
CN107223277A (zh) 一种聋哑人辅助方法、装置以及电子设备
Sharma et al. International journal of engineering sciences & research technology a review on obstacle detection and vision
Liu et al. Electronic travel aids for the blind based on sensory substitution
CN1969781A (zh) 导盲器
WO2019100915A1 (zh) 一种脑电控制的视频输入听觉显示导盲装置及方法
CN114973412A (zh) 一种唇语识别方法和***
JP2016194612A (ja) 視覚認識支援装置および視覚認識支援プログラム
Blessenohl et al. Improving indoor mobility of the visually impaired with depth-based spatial sound
CN116572260A (zh) 基于人工智能生成内容的情感交流陪护养老机器人***
CN110717344A (zh) 基于智能可穿戴设备的辅助交流***
CN113723327A (zh) 一种基于深度学习的实时中文手语识别交互***
Kaur et al. A scene perception system for visually impaired based on object detection and classification using multi-modal DCNN
EP3058926A1 (en) Method of transforming visual data into acoustic signals and aid device for visually impaired or blind persons
KR20120091625A (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
WO2022048455A1 (zh) 一种基于增强现实技术的信息无障碍***及方法
CN114120960A (zh) 一种基于听觉的辅助空间感知***及方法
US11069259B2 (en) Transmodal translation of feature vectors to audio for assistive devices
Nazim et al. Smart glasses: A visual assistant for the blind

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant