CN109300478A - 一种听力障碍者的辅助对话装置 - Google Patents

一种听力障碍者的辅助对话装置 Download PDF

Info

Publication number
CN109300478A
CN109300478A CN201811027365.8A CN201811027365A CN109300478A CN 109300478 A CN109300478 A CN 109300478A CN 201811027365 A CN201811027365 A CN 201811027365A CN 109300478 A CN109300478 A CN 109300478A
Authority
CN
China
Prior art keywords
hearing
interface
text
person hard
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811027365.8A
Other languages
English (en)
Inventor
申志远
熊宝霖
陈子龙
何殷勤
苟逸凡
吉翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201811027365.8A priority Critical patent/CN109300478A/zh
Publication of CN109300478A publication Critical patent/CN109300478A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及一种听力障碍者的辅助对话装置,该装置包括:语音采集单元:包括麦克风和滤波器,用以接收听力障碍者的对话者语音,并将其保存为音频文件,并进行背景降噪预处理;语音‑文本转换单元:通过单元间接口与语音采集单元连接,用以读取预处理后的音频文件,并通过语音识别将音频文件的语音信号转换为文本结果;交互单元:通过单元间接口与语音‑文本转换单元连接,用以显示将转换的文本结果给听力障碍者。与现有技术相比,本发明具有手动控制、显示文本、背景降噪等优点。

Description

一种听力障碍者的辅助对话装置
技术领域
本发明涉及一种辅助对话装置,尤其是涉及一种听力障碍者的辅助对话装置。
背景技术
听力障碍已成为是我国常见的致残性感觉障碍疾病之一,听力障碍者与正常人对话交流时存在较大障碍。听力障碍辅助通过各种手段满足听障者的信息交流需求。目前辅助手段主要有两个方向:一个是对受损的听力***进行修复,例如,针对声音传导通路受损的助听器,针对声音-电信号转换缺失的人工耳蜗等;另一个方向是将声音信号转换成如图像或文字信息,实现听障者的交流需要。
经对现有技术的文献检索发现,专利文献CN201410153639.3公开了一种具有语音识别和字幕显示功能的智能助听器,包括:采集识别模块、语音放大模块、信息处理模块和投影模块;采集识别模块用于采集语音信息并将识别后的语音信息同步发送到语音放大模块和信息处理模块;语音放大模块用于将接收的语音信息放大并定向传输出去;信息处理模块用于将接收的语音信息转换为文字信息,并将转换后的文字信息发送到投影模块;投影模块用于将接收到的文字信息投影到使用者的视网膜上。该智能助听器存在以下不足之处:一、采集识别模块不中断地接收听障者附近的所有语音,并非有对话需求时接收语音,需要听障者时刻注意周围情况;二、采集识别模块未对语音信息进行降噪处理,而是直接将识别后的语音信息发送到语音放大模块,容易将背景噪声一并放大,进而影响放大后语音的质量和语音-文字转换结果的正确率;三、放大模块将语音信息放大后传输出去,相同的语音信息可能被采集识别模块重复接收,导致死循环,因此忽略了对听障者有用的语音信息。
专利文献CN201611178785.7提供了一种聋哑人与正常人的辅助对话***、方法及智能手机,包括:场景感知模块,用于感知并确定聋哑人与正常人的对话场景;数据采集及预处理模块,用于采集正常人话音,生成声音数据,对该声音数据进行预处理,生成语音数据;语音识别模块,用于接收识别该语音数据,并加载对应该对话场景的语音识别模型,根据该语音识别模型将该语音数据识别并转换成文字信息;语音合成模块,用于将聋哑人输入对话的文本内容转换成语音信息,并发给正常人。该***存在以下不足之处:一、仅针对聋哑人的辅助对话,并未考虑语后聋类型听障者的需求;二、数据采集及预处理模块根据对话场景进行对声音数据的起始点和结束点检测、去除噪音,虽然采用自动检测技术,与手动控制开始/停止对话录音相比,更易产生错误的语音数据和不确定的延迟时间;三、语音合成模块存在冗余,聋哑人输入对话的文本内容后可迅速转为文字,对正常人而言,视觉比听觉反应更快。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种听力障碍者的辅助对话装置。
本发明的目的可以通过以下技术方案来实现:
一种听力障碍者的辅助对话装置,该装置包括:
语音采集单元:包括麦克风和滤波器,用以接收听力障碍者的对话者语音,并将其保存为音频文件,并进行背景降噪预处理;
语音-文本转换单元:通过单元间接口与语音采集单元连接,用以读取预处理后的音频文件,并通过语音识别将音频文件的语音信号转换为文本结果;
交互单元:通过单元间接口与语音-文本转换单元连接,用以显示将转换的文本结果给听力障碍者。
优选地,所述的语音-文本转换单元包含微处理器以及通过通讯接口与微处理器连接的***电路,所述的微处理器与麦克风连接,所述的***电路与滤波器连接。
优选地,所述通讯接口包含语音-文本转换单元与云端的外部通讯接口和语音-文本转换单元的内部通讯接口。
优选地,该装置还包括云端服务器,所述的云端服务器与微处理器通过外部通讯接口通信,所述的语音识别设置在云端服务器或本地的微处理器。
优选地,所述的交互显示界面包括与微处理器连接的交互显示界面以及与***电路连接的开始/停止语音采集的控制按钮,听力障碍者的对话者根据对话状态控制开始/停止语音采集的控制按钮实现开始/停止语音采集。
优选地,所述的单元间接口为通讯接口或电气接口。
优选地,所述的滤波器通过硬件或软件实现。
优选地,所述显示界面为显示屏。
优选地,所述开始/停止语音采集的控制按钮为物理实体按钮或者虚拟按钮。
优选地,当开始/停止语音采集的控制按钮为虚拟按钮时,交互显示界面上设有作为虚拟按钮的开始/停止语音采集的控制按钮和文本显示框,当听力障碍者与对话者未开始对话时,虚拟按钮为圆形,当准备开始对话时,单击虚拟按钮后开始录音采集后,虚拟按钮32变为正方形,在准备结束对话时,用单击虚拟按钮后停止录音采集,并在文本框显示所转换文本结果。
优选地,所述的听力障碍者为语后聋类型听力障碍者。
与现有技术相比,本发明具有以下优点:
1、本发明为语后聋类型听力障碍者提供辅助对话功能,而大部分现有技术中所涉及为聋哑人,因此,本发明无须语音合成或文本输入技术。
2、本发明通过和听力障碍者/正常人的交互接口,不仅能手动控制开始/停止辅助对话,还能将正常人对话语音的文本结果显示至交互界面上。这克服了现有技术中采用自动检测对话开始/停止或者全程录音的不足,此外,开始/停止辅助对话可由听力障碍者的对话者控制,便于听力障碍者与正常者对话。
3、本发明并未限制降噪处理方法的实现方式,这克服了现有技术中不采用背景去噪技术的不足,此外,也未限制语音识别技术的模型和部署方式,所采用模型可随语音识别技术的发展而改变,易于将现有最优的相应技术集成进装置,这克服了现有技术中采用固定语音识别技术模型的不足。
附图说明
图1为本发明提供的听力障碍者的辅助对话装置结构示意图。
图2为本发明一个实施例的结构示意图。
图3为本发明一个实施例中未开始对话时交互显示界面中的示意图。
图4为本发明一个实施例中开始对话后交互显示界面中的示意图。
图5为本发明一个实施例中结束对话后交互显示界面中的示意图。
图中标记说明:
1、语音采集单元,2、语音-文本转换单元,3、交互单元,4、单元间接口,11、麦克风,12、滤波器,21、微处理器,22、***电路,23、通讯接口,31、交互显示界面,32、开始/停止语音采集的控制按钮。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例
如图1所示,本发明提供一种听力障碍者的辅助对话装置,尤其是一种语后聋类型听力障碍者与正常人对话的辅助装置,该装置包含语音采集单元1、语音-文本转换单元2、交互单元3以及各单元间接口4,语音采集单元1、语音-文本转换单元2、交互单元3依次通过单元间接口4相连,具体为:
语音采集单元1:接收听力障碍者的对话者语音,将其保存为wav或其它格式的音频文件,并对所保存音频文件进行背景降噪预处理;
语音-文本转换单元2:读取预处理后的音频文件,采用语音识别技术将语音信号转换为文本结果;
交互单元3:将所转换文本结果显示给听力障碍者,听力障碍者的对话者根据对话状态控制开始/停止语音采集。
语音采集单元1包含麦克风11和滤波器12。滤波器12可通过硬件或者软件实现。语音-文本转换单元2包含微处理器21、微处理器的***电路22和通讯接口23。语音-文本转换单元2中采用现有的语音识别技术可部署在本地或者云端服务器,通讯接口23包含语音-文本转换单元2与云端的外部通讯接口和语音-文本转换单元2的内部通讯接口,交互单元3包含交互显示界面31和开始/停止语音采集的控制按钮32,交互显示界面为显示屏或者其他显示媒介,开始/停止语音采集的控制按钮32为物理实体按钮或者显示屏上的虚拟按钮,单元间接口4为通讯接口或者电气接口。
优选的实施方式如下:
如图2所示,听力障碍者的辅助对话装置的语音采集单元1采用品怡(Bejoy)的USB插孔麦克风11和通过软件实现的滤波器12,其中,麦克风11接入Raspberry基金会的Raspberry PI 3MODEL B+的USB接口,通过软件实现的滤波器12的程序部署在RaspberryPI 3MODEL B+的Raspian操作***上,采用Python编写Wiener滤波;该装置的语音-文本转换单元2采用Broadcom的BCM2837B0微处理器21、Raspberry基金会的Raspberry PI 3MODELB+的***电路22和通讯接口23,其中,语音-文本转换单元2的语音识别技术部署在云端,采用百度的语音识别在线REST API(见http://ai.***.com/tech/speech/asr),在Raspbian操作***上采用Python编写调用在线REST API,通讯接口23为与云端通讯的Raspberry PI 3MODEL B+的WiFi和通用输入输出端口(GPIO);该装置的交互单元3采用3.5英寸Raspberry PI 3MODEL B+的LCD触摸屏呈现交互显示界面31和虚拟按钮32,其中,触摸屏通过SPI连接至Raspberry PI 3MODEL B+的GPIO,虚拟按钮32部署在RaspberryPI3MODEL B+的Raspbian操作***上,采用Python和PyQT编写图形用户交互界面(GUI)并实现虚拟按钮32,如图3所示,当听力障碍者与正常人未开始对话时GUI的虚拟按钮32为圆形,若此时准备开始对话时用手指单击GUI的虚拟按钮32后开始录音采集,如图4所示,虚拟按钮32变为正方形,若此时准备结束对话时用手指单击GUI的虚拟按钮32后停止录音采集,随后在文本框显示所转换文本结果;该装置的单元间接口4采用Raspberry PI 3MODEL B+的通讯接口和GPIO连接各单元。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种听力障碍者的辅助对话装置,其特征在于,该装置包括:
语音采集单元(1):包括麦克风(11)和滤波器(12),用以接收听力障碍者的对话者语音,并将其保存为音频文件,并进行背景降噪预处理;
语音-文本转换单元(2):通过单元间接口(4)与语音采集单元(1)连接,用以读取预处理后的音频文件,并通过语音识别将音频文件的语音信号转换为文本结果;
交互单元(3):通过单元间接口(4)与语音-文本转换单元(2)连接,用以显示将转换的文本结果给听力障碍者。
2.根据权利要求1所述的一种听力障碍者的辅助对话装置,其特征在于,所述的语音-文本转换单元(2)包含微处理器(21)以及通过通讯接口(23)与微处理器(21)连接的***电路(22),所述的微处理器(21)与麦克风(11)连接,所述的***电路(22)与滤波器(12)连接。
3.根据权利要求2所述的一种听力障碍者的辅助对话装置,其特征在于,所述通讯接口(23)包含语音-文本转换单元(2)与云端的外部通讯接口和语音-文本转换单元(2)的内部通讯接口。
4.根据权利要求3所述的一种听力障碍者的辅助对话装置,其特征在于,该装置还包括云端服务器,所述的云端服务器与微处理器(21)通过外部通讯接口通信,所述的语音识别设置在云端服务器或本地的微处理器(21)。
5.根据权利要求2所述的一种听力障碍者的辅助对话装置,其特征在于,所述的交互显示界面(31)包括与微处理器(21)连接的交互显示界面(31)以及与***电路(22)连接的开始/停止语音采集的控制按钮(32),听力障碍者的对话者根据对话状态控制开始/停止语音采集的控制按钮(32)实现开始/停止语音采集。
6.根据权利要求1所述的一种听力障碍者的辅助对话装置,其特征在于,所述的单元间接口(4)为通讯接口或电气接口。
7.根据权利要求5所述的一种听力障碍者的辅助对话装置,其特征在于,所述显示界面(31)为显示屏。
8.根据权利要求5所述的一种听力障碍者的辅助对话装置,其特征在于,所述开始/停止语音采集的控制按钮(32)为物理实体按钮或者虚拟按钮。
9.根据权利要求8所述的一种听力障碍者的辅助对话装置,其特征在于,当开始/停止语音采集的控制按钮(32)为虚拟按钮时,交互显示界面(31)上设有作为虚拟按钮的开始/停止语音采集的控制按钮(32)和文本显示框,当听力障碍者与对话者未开始对话时,虚拟按钮为圆形,当准备开始对话时,单击虚拟按钮后开始录音采集后,虚拟按钮32变为正方形,在准备结束对话时,用单击虚拟按钮后停止录音采集,并在文本框显示所转换文本结果。
10.根据权利要求1所述的一种听力障碍者的辅助对话装置,其特征在于,所述的听力障碍者为语后聋类型听力障碍者。
CN201811027365.8A 2018-09-04 2018-09-04 一种听力障碍者的辅助对话装置 Pending CN109300478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811027365.8A CN109300478A (zh) 2018-09-04 2018-09-04 一种听力障碍者的辅助对话装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811027365.8A CN109300478A (zh) 2018-09-04 2018-09-04 一种听力障碍者的辅助对话装置

Publications (1)

Publication Number Publication Date
CN109300478A true CN109300478A (zh) 2019-02-01

Family

ID=65166298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811027365.8A Pending CN109300478A (zh) 2018-09-04 2018-09-04 一种听力障碍者的辅助对话装置

Country Status (1)

Country Link
CN (1) CN109300478A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125055A (zh) * 2019-11-22 2020-05-08 北京理工大学 一种可回溯的听力障碍者辅助对话***
CN111128180A (zh) * 2019-11-22 2020-05-08 北京理工大学 一种听力障碍者的辅助对话***
CN111127827A (zh) * 2019-12-27 2020-05-08 钟楷文 一种耳聋和听力下降患者生活辅助***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070112911A (ko) * 2006-05-23 2007-11-28 (주) 한 슬 음성인식을 통한 청각장애인 대화 시스템
CN201365285Y (zh) * 2009-03-10 2009-12-16 胡礼斌 一种适用于全聋哑人的助听手机
CN201860365U (zh) * 2010-05-26 2011-06-08 康佳集团股份有限公司 一种适合聋哑人使用的手机装置
WO2015131028A1 (en) * 2014-02-28 2015-09-03 Ultratec,Inc. Semiautomated relay method and apparatus
CN106066633A (zh) * 2015-04-24 2016-11-02 Jpw工业有限公司 与机床一起使用的可穿戴显示装置
CN107454947A (zh) * 2016-09-26 2017-12-08 深圳市大疆创新科技有限公司 无人机控制方法、头戴式显示眼镜及***
CN107980110A (zh) * 2016-12-08 2018-05-01 深圳市柔宇科技有限公司 头戴式显示设备及其内容输入方法
CN207612422U (zh) * 2017-12-07 2018-07-13 杭州蓝斯特科技有限公司 一种可视化助听装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070112911A (ko) * 2006-05-23 2007-11-28 (주) 한 슬 음성인식을 통한 청각장애인 대화 시스템
CN201365285Y (zh) * 2009-03-10 2009-12-16 胡礼斌 一种适用于全聋哑人的助听手机
CN201860365U (zh) * 2010-05-26 2011-06-08 康佳集团股份有限公司 一种适合聋哑人使用的手机装置
WO2015131028A1 (en) * 2014-02-28 2015-09-03 Ultratec,Inc. Semiautomated relay method and apparatus
CN106066633A (zh) * 2015-04-24 2016-11-02 Jpw工业有限公司 与机床一起使用的可穿戴显示装置
CN107454947A (zh) * 2016-09-26 2017-12-08 深圳市大疆创新科技有限公司 无人机控制方法、头戴式显示眼镜及***
CN107980110A (zh) * 2016-12-08 2018-05-01 深圳市柔宇科技有限公司 头戴式显示设备及其内容输入方法
CN207612422U (zh) * 2017-12-07 2018-07-13 杭州蓝斯特科技有限公司 一种可视化助听装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125055A (zh) * 2019-11-22 2020-05-08 北京理工大学 一种可回溯的听力障碍者辅助对话***
CN111128180A (zh) * 2019-11-22 2020-05-08 北京理工大学 一种听力障碍者的辅助对话***
CN111127827A (zh) * 2019-12-27 2020-05-08 钟楷文 一种耳聋和听力下降患者生活辅助***

Similar Documents

Publication Publication Date Title
US9430467B2 (en) Mobile speech-to-speech interpretation system
CN103116576A (zh) 一种语音手势交互翻译装置及其控制方法
CN109300478A (zh) 一种听力障碍者的辅助对话装置
CN102298694A (zh) 一种应用于远程信息服务的人机交互识别***
CN107644643A (zh) 一种语音交互***及方法
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
CN104811559A (zh) 降噪方法、通信方法及移动终端
CN109346057A (zh) 一种智能儿童玩具的语音处理***
WO2014173325A1 (zh) 喉音识别方法及装置
CN112542156A (zh) 基于声纹识别和语音指令控制的民航维修工卡***
CN111261139A (zh) 文字拟人化播报方法及***
CN105701686A (zh) 一种声纹广告实现方法和装置
CN105869636A (zh) 一种语音识别装置及其方法、一种智能电视及其控制方法
JP7400364B2 (ja) 音声認識システム及び情報処理方法
KR20210124050A (ko) 자동 통역 서버 및 그 방법
CN112908336A (zh) 一种用于语音处理装置的角色分离方法及其语音处理装置
CN111985252A (zh) 对话翻译方法及装置、存储介质和电子设备
CN108735234A (zh) 一种采用语音信息监测健康状况的装置
CN105727572A (zh) 一种玩具的基于语音识别的自学习方法和自学习装置
JP2017191531A (ja) コミュニケーションシステム、サーバ及びコミュニケーション方法
CN110232919A (zh) 实时语音流提取与语音识别***及方法
CN109922397A (zh) 音频智能处理方法、存储介质、智能终端及智能蓝牙耳机
CN206892866U (zh) 具有情景分析功能的智能对话装置
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及***
CN107825433A (zh) 一种儿童语音指令识别的卡片机器人

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200030 Dongchuan Road, Minhang District, Minhang District, Shanghai

Applicant after: SHANGHAI JIAO TONG University

Address before: 200030 Huashan Road, Shanghai, No. 1954, No.

Applicant before: SHANGHAI JIAO TONG University

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201

RJ01 Rejection of invention patent application after publication