CN109300478A

CN109300478A - 一种听力障碍者的辅助对话装置

Info

Publication number: CN109300478A
Application number: CN201811027365.8A
Authority: CN
Inventors: 申志远; 熊宝霖; 陈子龙; 何殷勤; 苟逸凡; 吉翔
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-02-01

Abstract

本发明涉及一种听力障碍者的辅助对话装置，该装置包括：语音采集单元：包括麦克风和滤波器，用以接收听力障碍者的对话者语音，并将其保存为音频文件，并进行背景降噪预处理；语音‑文本转换单元：通过单元间接口与语音采集单元连接，用以读取预处理后的音频文件，并通过语音识别将音频文件的语音信号转换为文本结果；交互单元：通过单元间接口与语音‑文本转换单元连接，用以显示将转换的文本结果给听力障碍者。与现有技术相比，本发明具有手动控制、显示文本、背景降噪等优点。

Description

一种听力障碍者的辅助对话装置

技术领域

本发明涉及一种辅助对话装置，尤其是涉及一种听力障碍者的辅助对话装置。

背景技术

听力障碍已成为是我国常见的致残性感觉障碍疾病之一，听力障碍者与正常人对话交流时存在较大障碍。听力障碍辅助通过各种手段满足听障者的信息交流需求。目前辅助手段主要有两个方向：一个是对受损的听力***进行修复，例如，针对声音传导通路受损的助听器，针对声音-电信号转换缺失的人工耳蜗等；另一个方向是将声音信号转换成如图像或文字信息，实现听障者的交流需要。

经对现有技术的文献检索发现，专利文献CN201410153639.3公开了一种具有语音识别和字幕显示功能的智能助听器，包括：采集识别模块、语音放大模块、信息处理模块和投影模块；采集识别模块用于采集语音信息并将识别后的语音信息同步发送到语音放大模块和信息处理模块；语音放大模块用于将接收的语音信息放大并定向传输出去；信息处理模块用于将接收的语音信息转换为文字信息，并将转换后的文字信息发送到投影模块；投影模块用于将接收到的文字信息投影到使用者的视网膜上。该智能助听器存在以下不足之处：一、采集识别模块不中断地接收听障者附近的所有语音，并非有对话需求时接收语音，需要听障者时刻注意周围情况；二、采集识别模块未对语音信息进行降噪处理，而是直接将识别后的语音信息发送到语音放大模块，容易将背景噪声一并放大，进而影响放大后语音的质量和语音-文字转换结果的正确率；三、放大模块将语音信息放大后传输出去，相同的语音信息可能被采集识别模块重复接收，导致死循环，因此忽略了对听障者有用的语音信息。

专利文献CN201611178785.7提供了一种聋哑人与正常人的辅助对话***、方法及智能手机，包括：场景感知模块，用于感知并确定聋哑人与正常人的对话场景；数据采集及预处理模块，用于采集正常人话音，生成声音数据，对该声音数据进行预处理，生成语音数据；语音识别模块，用于接收识别该语音数据，并加载对应该对话场景的语音识别模型，根据该语音识别模型将该语音数据识别并转换成文字信息；语音合成模块，用于将聋哑人输入对话的文本内容转换成语音信息，并发给正常人。该***存在以下不足之处：一、仅针对聋哑人的辅助对话，并未考虑语后聋类型听障者的需求；二、数据采集及预处理模块根据对话场景进行对声音数据的起始点和结束点检测、去除噪音，虽然采用自动检测技术，与手动控制开始/停止对话录音相比，更易产生错误的语音数据和不确定的延迟时间；三、语音合成模块存在冗余，聋哑人输入对话的文本内容后可迅速转为文字，对正常人而言，视觉比听觉反应更快。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种听力障碍者的辅助对话装置。

本发明的目的可以通过以下技术方案来实现：

一种听力障碍者的辅助对话装置，该装置包括：

语音采集单元：包括麦克风和滤波器，用以接收听力障碍者的对话者语音，并将其保存为音频文件，并进行背景降噪预处理；

语音-文本转换单元：通过单元间接口与语音采集单元连接，用以读取预处理后的音频文件，并通过语音识别将音频文件的语音信号转换为文本结果；

交互单元：通过单元间接口与语音-文本转换单元连接，用以显示将转换的文本结果给听力障碍者。

优选地，所述的语音-文本转换单元包含微处理器以及通过通讯接口与微处理器连接的***电路，所述的微处理器与麦克风连接，所述的***电路与滤波器连接。

优选地，所述通讯接口包含语音-文本转换单元与云端的外部通讯接口和语音-文本转换单元的内部通讯接口。

优选地，该装置还包括云端服务器，所述的云端服务器与微处理器通过外部通讯接口通信，所述的语音识别设置在云端服务器或本地的微处理器。

优选地，所述的交互显示界面包括与微处理器连接的交互显示界面以及与***电路连接的开始/停止语音采集的控制按钮，听力障碍者的对话者根据对话状态控制开始/停止语音采集的控制按钮实现开始/停止语音采集。

优选地，所述的单元间接口为通讯接口或电气接口。

优选地，所述的滤波器通过硬件或软件实现。

优选地，所述显示界面为显示屏。

优选地，所述开始/停止语音采集的控制按钮为物理实体按钮或者虚拟按钮。

优选地，当开始/停止语音采集的控制按钮为虚拟按钮时，交互显示界面上设有作为虚拟按钮的开始/停止语音采集的控制按钮和文本显示框，当听力障碍者与对话者未开始对话时，虚拟按钮为圆形，当准备开始对话时，单击虚拟按钮后开始录音采集后，虚拟按钮32变为正方形，在准备结束对话时，用单击虚拟按钮后停止录音采集，并在文本框显示所转换文本结果。

优选地，所述的听力障碍者为语后聋类型听力障碍者。

与现有技术相比，本发明具有以下优点：

1、本发明为语后聋类型听力障碍者提供辅助对话功能，而大部分现有技术中所涉及为聋哑人，因此，本发明无须语音合成或文本输入技术。

2、本发明通过和听力障碍者/正常人的交互接口，不仅能手动控制开始/停止辅助对话，还能将正常人对话语音的文本结果显示至交互界面上。这克服了现有技术中采用自动检测对话开始/停止或者全程录音的不足，此外，开始/停止辅助对话可由听力障碍者的对话者控制，便于听力障碍者与正常者对话。

3、本发明并未限制降噪处理方法的实现方式，这克服了现有技术中不采用背景去噪技术的不足，此外，也未限制语音识别技术的模型和部署方式，所采用模型可随语音识别技术的发展而改变，易于将现有最优的相应技术集成进装置，这克服了现有技术中采用固定语音识别技术模型的不足。

附图说明

图1为本发明提供的听力障碍者的辅助对话装置结构示意图。

图2为本发明一个实施例的结构示意图。

图3为本发明一个实施例中未开始对话时交互显示界面中的示意图。

图4为本发明一个实施例中开始对话后交互显示界面中的示意图。

图5为本发明一个实施例中结束对话后交互显示界面中的示意图。

图中标记说明：

1、语音采集单元，2、语音-文本转换单元，3、交互单元，4、单元间接口，11、麦克风，12、滤波器，21、微处理器，22、***电路，23、通讯接口，31、交互显示界面，32、开始/停止语音采集的控制按钮。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例

如图1所示，本发明提供一种听力障碍者的辅助对话装置，尤其是一种语后聋类型听力障碍者与正常人对话的辅助装置，该装置包含语音采集单元1、语音-文本转换单元2、交互单元3以及各单元间接口4，语音采集单元1、语音-文本转换单元2、交互单元3依次通过单元间接口4相连，具体为：

语音采集单元1：接收听力障碍者的对话者语音，将其保存为wav或其它格式的音频文件，并对所保存音频文件进行背景降噪预处理；

语音-文本转换单元2：读取预处理后的音频文件，采用语音识别技术将语音信号转换为文本结果；

交互单元3：将所转换文本结果显示给听力障碍者，听力障碍者的对话者根据对话状态控制开始/停止语音采集。

语音采集单元1包含麦克风11和滤波器12。滤波器12可通过硬件或者软件实现。语音-文本转换单元2包含微处理器21、微处理器的***电路22和通讯接口23。语音-文本转换单元2中采用现有的语音识别技术可部署在本地或者云端服务器，通讯接口23包含语音-文本转换单元2与云端的外部通讯接口和语音-文本转换单元2的内部通讯接口，交互单元3包含交互显示界面31和开始/停止语音采集的控制按钮32，交互显示界面为显示屏或者其他显示媒介，开始/停止语音采集的控制按钮32为物理实体按钮或者显示屏上的虚拟按钮，单元间接口4为通讯接口或者电气接口。

优选的实施方式如下：

如图2所示，听力障碍者的辅助对话装置的语音采集单元1采用品怡(Bejoy)的USB插孔麦克风11和通过软件实现的滤波器12，其中，麦克风11接入Raspberry基金会的Raspberry PI 3MODEL B+的USB接口，通过软件实现的滤波器12的程序部署在RaspberryPI 3MODEL B+的Raspian操作***上，采用Python编写Wiener滤波；该装置的语音-文本转换单元2采用Broadcom的BCM2837B0微处理器21、Raspberry基金会的Raspberry PI 3MODELB+的***电路22和通讯接口23，其中，语音-文本转换单元2的语音识别技术部署在云端，采用百度的语音识别在线REST API(见http://ai.***.com/tech/speech/asr)，在Raspbian操作***上采用Python编写调用在线REST API，通讯接口23为与云端通讯的Raspberry PI 3MODEL B+的WiFi和通用输入输出端口(GPIO)；该装置的交互单元3采用3.5英寸Raspberry PI 3MODEL B+的LCD触摸屏呈现交互显示界面31和虚拟按钮32，其中，触摸屏通过SPI连接至Raspberry PI 3MODEL B+的GPIO，虚拟按钮32部署在RaspberryPI3MODEL B+的Raspbian操作***上，采用Python和PyQT编写图形用户交互界面(GUI)并实现虚拟按钮32，如图3所示，当听力障碍者与正常人未开始对话时GUI的虚拟按钮32为圆形，若此时准备开始对话时用手指单击GUI的虚拟按钮32后开始录音采集，如图4所示，虚拟按钮32变为正方形，若此时准备结束对话时用手指单击GUI的虚拟按钮32后停止录音采集，随后在文本框显示所转换文本结果；该装置的单元间接口4采用Raspberry PI 3MODEL B+的通讯接口和GPIO连接各单元。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种听力障碍者的辅助对话装置，其特征在于，该装置包括：

语音采集单元(1)：包括麦克风(11)和滤波器(12)，用以接收听力障碍者的对话者语音，并将其保存为音频文件，并进行背景降噪预处理；

语音-文本转换单元(2)：通过单元间接口(4)与语音采集单元(1)连接，用以读取预处理后的音频文件，并通过语音识别将音频文件的语音信号转换为文本结果；

交互单元(3)：通过单元间接口(4)与语音-文本转换单元(2)连接，用以显示将转换的文本结果给听力障碍者。

2.根据权利要求1所述的一种听力障碍者的辅助对话装置，其特征在于，所述的语音-文本转换单元(2)包含微处理器(21)以及通过通讯接口(23)与微处理器(21)连接的***电路(22)，所述的微处理器(21)与麦克风(11)连接，所述的***电路(22)与滤波器(12)连接。

3.根据权利要求2所述的一种听力障碍者的辅助对话装置，其特征在于，所述通讯接口(23)包含语音-文本转换单元(2)与云端的外部通讯接口和语音-文本转换单元(2)的内部通讯接口。

4.根据权利要求3所述的一种听力障碍者的辅助对话装置，其特征在于，该装置还包括云端服务器，所述的云端服务器与微处理器(21)通过外部通讯接口通信，所述的语音识别设置在云端服务器或本地的微处理器(21)。

5.根据权利要求2所述的一种听力障碍者的辅助对话装置，其特征在于，所述的交互显示界面(31)包括与微处理器(21)连接的交互显示界面(31)以及与***电路(22)连接的开始/停止语音采集的控制按钮(32)，听力障碍者的对话者根据对话状态控制开始/停止语音采集的控制按钮(32)实现开始/停止语音采集。

6.根据权利要求1所述的一种听力障碍者的辅助对话装置，其特征在于，所述的单元间接口(4)为通讯接口或电气接口。

7.根据权利要求5所述的一种听力障碍者的辅助对话装置，其特征在于，所述显示界面(31)为显示屏。

8.根据权利要求5所述的一种听力障碍者的辅助对话装置，其特征在于，所述开始/停止语音采集的控制按钮(32)为物理实体按钮或者虚拟按钮。

9.根据权利要求8所述的一种听力障碍者的辅助对话装置，其特征在于，当开始/停止语音采集的控制按钮(32)为虚拟按钮时，交互显示界面(31)上设有作为虚拟按钮的开始/停止语音采集的控制按钮(32)和文本显示框，当听力障碍者与对话者未开始对话时，虚拟按钮为圆形，当准备开始对话时，单击虚拟按钮后开始录音采集后，虚拟按钮32变为正方形，在准备结束对话时，用单击虚拟按钮后停止录音采集，并在文本框显示所转换文本结果。

10.根据权利要求1所述的一种听力障碍者的辅助对话装置，其特征在于，所述的听力障碍者为语后聋类型听力障碍者。