CN109036451A - 一种基于人工智能的同声翻译终端及其同声翻译*** - Google Patents

一种基于人工智能的同声翻译终端及其同声翻译*** Download PDF

Info

Publication number
CN109036451A
CN109036451A CN201810772339.1A CN201810772339A CN109036451A CN 109036451 A CN109036451 A CN 109036451A CN 201810772339 A CN201810772339 A CN 201810772339A CN 109036451 A CN109036451 A CN 109036451A
Authority
CN
China
Prior art keywords
simultaneous interpretation
microphone
array
artificial intelligence
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810772339.1A
Other languages
English (en)
Inventor
吴叶富
陈军宇
谢海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Small Rui Polytron Technologies Inc
Original Assignee
Shenzhen Small Rui Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Small Rui Polytron Technologies Inc filed Critical Shenzhen Small Rui Polytron Technologies Inc
Priority to CN201810772339.1A priority Critical patent/CN109036451A/zh
Publication of CN109036451A publication Critical patent/CN109036451A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种基于人工智能的同声翻译终端,包括:置于设备壳体内的硬件终端,所述硬件终端包括:输入模块,用于采集音频信号并输出给降噪及音频放大模块;操作模块,与微控制器相连接,用于将用户的操作指令输出给微控制器;降噪及音频放大模块,将接收到的音频信号进行降噪声处理以得到音质好的目标音频信号;微控制器,将目标音频信号输出到语音信号翻译平台,并接收语音信号翻译平台翻译好的语音信息输出给输出模块;输出模块,与微控制器相连接,用于接收并输出所述语音信息。本发明还提供一种基于人工智能的同声翻译***。该同声翻译终端及翻译***可以很好的消除环境噪音,以得到清晰的目标音频信号,并且翻译速度快、准确率高。

Description

一种基于人工智能的同声翻译终端及其同声翻译***
技术领域
本发明属于电子设备技术领域,尤其涉及一种基于人工智能的同声翻译终端及其同声翻译***。
背景技术
随着科学与技术的快速发展,同声翻译器目前已被成功开发出来。但是目前市面上的同声翻译器在安静环境下,具有较高的语音识别率和翻译正确率,一旦环境噪声大,其语音识别率和翻译正确率急剧下降。此外,目前同声翻译器携带起来还不是很方便。上述原因造成同声翻译器近年来面市后,由于用户体验效果不好,并未获得预期市场认可。
由于目前市场上的同声翻译设备在嘈杂的环境下语音识别率和翻译正确率较低,严重影响了翻译质量。而翻译结果直接决定着交流双方目的的成功可能性。现在随着同声翻译设备的应用次数越来越多,以及应用场合越来越多,嘈杂的环境也变得避免不了。因此对于同声翻译设备进行低成本设计研究以及高质量翻译结果的研究具有非常重要的意义。
发明内容
本发明所要解决的技术问题在于提供一种成本合理、翻译精准的基于人工智能的同声翻译终端及其同声翻译***。
本发明是这样实现的,一种基于人工智能的同声翻译终端,包括:置于设备壳体内的硬件终端,所述硬件终端包括:输入模块、操作模块、降噪及音频放大模块、微控制器和输出模块;
所述输入模块用于采集音频信号并输出给降噪及音频放大模块;
所述操作模块与所述微控制器相连接,用于接收用户的操作指令,并将所述操作指令输出给所述微控制器;
降噪及音频放大模块,与所述输入模块、所述微控制器相连接,将接收到的音频信号进行降噪声处理,并将降噪声处理后的音频信号进行放大以得到音质好的目标音频信号;
微控制器,将所述目标音频信号输出到语音信号翻译平台,并接收所述语音信号翻译平台翻译好的语音信息输出给所述输出模块,以及根据所述操作指令控制所述输入模块对音频信号的采集;
所述输出模块与所述微控制器相连接,用于接收并输出所述语音信息。
进一步地,所述输入模块为双麦克风阵列。
进一步地,所述双麦克风阵列为宽边阵列麦克风阵列,所述宽边阵列麦克风阵列的麦克风的排列方向与要拾取的声波方向垂直。
进一步地,所述双麦克风阵列为双麦克风端射差分阵列,所述双麦克风端射差分阵列的麦克风的排列方向与声音传播的目标方向一致。
进一步地,所述双麦克风阵列采用心型、高心型或者超心型的拾音模式。
进一步地,所述降噪及音频放大模块采用波束形成降噪技术对音频信号进行去噪音处理。
进一步地,所述降噪及音频放大模块包括自适应滤波器,所述自适应滤波器用于滤除环境噪音。
进一步地,所述同声翻译终端还包括分别与所述降噪及音频放大模块和所述微控制器连接的噪声抑制模块,所述噪声抑制模块用于抑制单通道语音信号中的静态和瞬态噪声。
本发明还提供一种基于人工智能的同声翻译***,包括:
同声翻译终端,所述同声翻译终端为上述任一所述的同声翻译终端;
移动终端,分别与所述同声翻译终端、语音信号翻译平台相连接,用于接收所述目标音频信号并输出给所述语音信号翻译平台;
语音信号翻译平台,接收所述目标音频信号,根据所述目标音频信号翻译成语音信息并将所述语音信息通过所述移动终端返回给所述同声翻译终端。
进一步地,所述同声翻译终端通过蓝牙低能耗的方式或者蓝牙增强速率的方式与所述移动终端相连接。
本发明与现有技术相比,有益效果在于:所述的基于人工智能的同声翻译终端通过降噪及音频放大模块对环境噪音的消除,可以使得采集到的音频信号中没有环境杂音,使后续的语音信号翻译平台对音频信号的翻译准确率提高;同时,输入模块采用双麦克风阵列也可以较好的消除噪音,并得到清晰的需要翻译的音频信号。
附图说明
图1是本发明实施例提供的基于人工智能的同声翻译终端的模块示意图;
图2是本发明实施例提供的硬件终端的架构示意图;
图3是本发明一实施例提供的基于人工智能的同声翻译***的模块示意图;
图4是本发明另一实施例提供的基于人工智能的同声翻译***的模块示意图;
图5是同声翻译终端中双麦克风宽边阵列的示意图;
图6是同声翻译终端的间距为75mm的双麦克风宽边阵列的响应图;
图7是同声翻译终端不同入射角时宽边波束成形器的归一化频率响应示意图;
图8是同声翻译终端中双麦克风端射阵列的示意图;
图9是同声翻译终端的双麦克风端射心型波束成形器的响应示意图;
图10是同声翻译终端中双麦克风端射波束成形器的频率混叠的示意图;
图11是改变端射波束成形器麦克风距离的影响的示意图;
图12是不同入射角时端射波束成形器的频率响应示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明一种基于人工智能的同声翻译终端及其同声翻译***采用了小阵列麦克风波束形成降噪技术、提高语音识别翻译校正技术以及声学自适应回声抵消等技术,该同声翻译终端抗干扰能力强、语音识别率稳定、翻译率准确率不易受环境噪声与环境干扰。产品在实现时,先开发基于智能手机的语音识别与自动翻译APP软件,将说话者声音通过同声翻译终端完成采集与阵列语音信号处理后,将处理结果通过蓝牙传输给智能手机,智能手机再通过通信网络将说话者声音传输给云端的语音识别和自动翻译索引擎,完成同声翻译。然后再通过网络将翻译结果反馈给智能手机,智能手机再通过蓝牙,将翻译结果传输给同声翻译终端进行播放。
请参阅图1,一种基于人工智能的同声翻译终端,包括:置于设备壳体内的硬件终端,所述硬件终端包括:输入模块101、操作模块103、降噪及音频放大模块102、微控制器104和输出模块105。各模块的详细功能以及相互之间的连接关系如下:
输入模块101用于采集音频信号并输出给降噪及音频放大模块102。输入模块101可以采用麦克风,比如,两个麦克风的阵列、四麦克风阵列、六麦克几阵列等,根据设计产品的形状、功能和成本等多种因素考虑麦克风的具体设计阵列。
操作模块103与微控制器104相连接,用于接收用户的操作指令,并将操作指令输出给微控制器104。例如,操作模块可以是按键、声控、触控键等。
降噪及音频放大模块102与所述输入模块101、所述微控制器104相连接,将接收到的音频信号进行降噪声处理,并将降噪声处理后的音频信号进行放大以得到音质好的目标音频信号。
微控制器104将所述目标音频信号输出到语音信号翻译平台,并接收所述语音信号翻译平台翻译好的语音信息输出给所述输出模块105,以及根据所述操作指令控制所述输入模块10对音频信号的采集。
输出模块105与所述微控制器104相连接,用于接收并输出所述语音信息。
本领域技术人员可以理解的是,上述的各模块都需要电源模块为其供电。同声翻译终端的电源模块可以是充电电源,也可以是储电池,在此并不做硬性要求,只要能够为各功能模块提供电能即可。
做为上述实施例的一种简化,同声翻译终端可以不使用操作模块103,即用户不需要手动操作该同声翻译终端。该同声翻译终端可以默认为接通电源的时候为工作状态,或者,也可以在微控制器中内置软件模块,通过软件使用声控的方式进行用户命令的输入。
请参阅图2,基于人工智能的同声翻译终端包括电源管理模块、降噪及音频放大模块、微控制器、按键、指示灯。面板有2个按键,硬件终端通过按键触发事件,微控制器将MIC采集到的音频信号经过DSP(数字信号处理器)降噪处理并通过BLE将数据传输给移动终端。
BLE(Bluetooh Low Energy,蓝牙低能耗技术)是低成本、短距离、可互操作的鲁棒性无线技术,工作在免许可的2.4GHz ISM射频频段。有BLE4.0、BLE4.1、BLE4.2、BLE 5.0等多个协议版本。蓝牙低能耗技术从一开始就设计为超低功耗(ULP)无线技术,它利用许多智能手段最大限度地降低功耗。蓝牙低能耗技术采用可变连接时间间隔,这个间隔根据具体应用可以设置为几毫秒到几秒不等。另外,因为BLE技术采用非常快速的连接方式,因此平时可以处于“非连接”状态(节省能源),此时链路两端相互间只是知晓对方,只有在必要时才开启链路,然后在尽可能短的时间内关闭链路。同声翻译终端采用BLE进行连接传输数据,可以降低能耗,延长使用时间,并能达到省电的目的。
蓝牙EDR(Enhanced Data Rate)指蓝牙增强速率,能够提高蓝牙技术的数据传输速率,达到了2.1Mbps,是目前蓝牙技术的三倍。EDR除了可获得更稳定的音频流传送和更低的耗电量之外,还可充分利用带宽优势同时连接多个蓝牙设备。因此为同声翻译带来了反应时间短、翻译速度快的效果。
在上述实施例的基础上,基于人工智能的同声翻译终端的输入模块为双麦克风阵列。麦克风阵列可以自动检测声源位置,跟踪说话人,同时具有获取多声源和跟踪移动声源的优势,无论移动到任何位置,同声翻译终端都会对用户的位置方向进行语音增强。同时,阵列麦克风还增加了空域处理,对多信号空间时频三维的处理弥补了单信号在噪声抑制、回声抑制、混响抑制、声源定位,语音分离等方面的不足,使同声翻译终端在复杂的环境中同样可以获取高质量的语音信号(也就是上述提到的音频信号),提供更好的智能语音体验。
可以理解的是,输入模块也可以为多麦克风阵列,比如采用四个麦克风、六个麦克风、八个麦克风等。在实际应用中,可以根据产品的功能、定位、市场、客户群体等设计麦克风的数量。多个麦克风可以配置成阵列,形成定向响应或波束场型。经过设计的波束形成麦克风阵列可以对来自一个或多个特定方向的声音更敏感。也就是说,在设计时,使波束形成麦克风阵列对需要采集的音频信号敏感,对噪音信号不敏感。波束形成可分为常规的波束形成CBF(Conventional Beam Forming)和自适应波束形成ABF(Adaptive Beam Forming)。CBF是最简单的非自适应波束形成,对各个麦克风的输出进行加权求和得到波束。在CBF中,各个通道的权值是固定的,作用是抑制阵列方向图的旁瓣电平,以滤除旁瓣区域的干扰和噪声。ABF在CBF的基础之上,对干扰和噪声进行空域自适应滤波。ABF中,采用不同的滤波器得到不同的算法,即不同通道的幅度加权值是根据某种最优准则进行调整和优化。
做为同声翻译终端的又一实施例,在上述实施例的基础上,双麦克风阵列为宽边阵列麦克风阵列,所述宽边阵列麦克风阵列的麦克风的排列方向与要拾取的声波方向垂直。如图5所示,d是阵列中两个麦克风元件的间距。来自阵列宽边的声音通常就是要拾取的声音。
宽边阵列可以通过基本处理来实现,即阵列中的麦克风简单地相加。后方响应始终与前方响应一致,因为阵列具有轴对称性,无法区分从前方与从后方到达麦克风的声压波。宽边阵列适用于阵列背面或上下方没有很多声音的应用场景。
在双麦克风宽边阵列中,响应的最小值出现在90°和270°。这些点的信号衰减在很大程度上取决于频率。当入射频率的半波长接近麦克风的间距时,响应接近完全抵消。对于两个间距75 mm的麦克风组成的阵列,理论上,当频率约为2.3 kHz (343 m/s ÷ (0.075 m× 2)≈2.3 kHz)时,响应完全抵消。
高于理想衰减的频率时,频率将混叠,极坐标响应开始在其它角度显示零点。此时,侧边衰减再次开始降低。例如,图6所示的3 kHz信号发生混叠。
宽边波束成形器具有平坦的轴上频率响应,因为它只是将接收同一信号的两个麦克风的信号相加。图7显示了间距75 mm的双麦克风宽边波束成形器的归一化响应。在轴外,图7清楚地显示了响应的零点。
又一实施例,双麦克风阵列为双麦克风端射差分阵列,双麦克风端射差分阵列的麦克风的排列方向与声音传播的目标方向一致。如果阵列中前方麦克风(声音在轴上传播最先达到的麦克风)的信号与后方麦克风的反转延迟信号相加,则这种配置称为“差分阵列”。图8显示了一个双麦克风端射差分阵列,麦克风间距为d,后方麦克风的信号在到达减法(或反转求和)模块之前延迟n个采样周期。这可以用来创建心型、高心型或超心型拾音模式,其中来自阵列后方的声音被大大衰减。
当麦克风间距和时间延迟均选择得当时,针对混叠频率以下的频率,延迟求和波束成形器的响应是心型图案,如图9所示。心型图案不会衰减阵列前方的信号;理论上,它会完全消除以180°入射到阵列的声音。一阶(双麦克风)延迟求和波束成形器的侧边信号衰减6 dB。
假设声音是可近似为平面波的远场传播,那么在端射阵列中,不同麦克风拾取的声音仅有到达时间上的差别。为了创建心型拾取模式,应当延迟来自后方麦克风的信号,延迟时间等于声波在两个麦克风元件之间传输所需的时间。这为设计端射波束成形器提供了两个自由度:麦克风的间距和应用于处理器的延迟时间。在许多音频应用中,延迟时间的选择取决于采样速率(fS)。如果DSP的延迟时间由单一样本的周期决定,则当fS= 48 kHz时,最短延迟为21μs。 20°C时,声音在空气中的传播速度为343 m/s;因此声波在21μs内大约行进7 mm。利用不同滤波器,如延迟同步滤波器、全通滤波器和FFT滤波器组等,可以实现小数采样延迟。
与宽边阵列一样,麦克风的间距决定目标方向响应的第一个零点。麦克风之间距离越近,零点频率越高(因而带宽更宽)。距离越远,则阵列的物理长度越长,可能会与产品物理尺寸受限相抵触。再次假设fs= 48 kHz,取3样本延迟时间,则声音时间延迟约为63μs。这是声音行进约21 mm所需的时间,该距离即为实现心型图案所需的麦克风元件间距。8.2kHz声波的半波长为21 mm,即为零点频率。图10显示了图9所示相同端射配置的响应,此外还显示了10kHz时的响应。除了后方的零点以外,大约±52°处还有两个零点。
为实现良好性能的波束成形阵列,具有电气延迟的麦克风之间的距离匹配至关重要。图11显示了在保持延迟时间不变的同时改变麦克风之间物理距离的影响。同样使用3样本延迟时间,对应于大约21 mm的距离,以便实现心型响应图案(fs = 48 kHz)。当麦克风之间的距离小于21 mm时,后方零点并不突出,响应为准心型图案。当物理距离大于21 mm时,响应为高心型图案,两个后方零点相对于180°点等距分开。在需要抑制的不是正后方,而是稍微散开方向的应用中,这可能正合适,而且侧边抑制也强于心型响应的侧边抑制。
差分阵列波束成形器的频率响应不是平坦的,在零点频率范围内,它具有高通滤波器响应特征。一阶波束成形器(两个麦克风元件)的响应以6 dB/倍频程的速率随频率而提高,在混叠频率以上归于平坦。在零点频率,阵列理论上没有输出,因为延迟信号恰好与前方麦克风的信号抵消。图12显示了不同入射角时双麦克风差分阵列波束成形器的频率幅度响应。图中,0 dB点是单个全向麦克风输出电平。该波束成形器使用21 mm间距和3样本延迟时间,因此轴上零点出现在大约8.2 kHz时。在轴上,响应以6 dB/倍频程的速率提高,直到入射信号的四分之一波长与麦克风间距相同时。过了这一点后,响应降低到零点,然后再次在3/4波长点时提高到最大值。除了阵列元件间距与入射信号半波长相同时的轴上零点以外,在半波长的各倍数处也存在零点。
当入射角为90°的信号响应比入射角为0°的信号响应低6 dB,在轴上零点频率时具有最大输出电平。差分波束成形算法的输出通常会应用一个均衡(EQ)滤波器,以使响应平坦。零点频率应适当选择,不应干扰目标频率,但又不能太高,以至于造成低频信号被过分衰减。在使用单样本延迟时间(fs= 48 kHz)和7 mm麦克风间距的端射差分阵列中,零点频率约为24.5 kHz。如果麦克风间距为84 mm,并且使用6样本延迟时间,则混叠频率为4.2kHz。设计时通常要求零点频率位于以上两者之间,这样既不至于太低,导致零点频率干扰语音的带宽,又不至于太高,导致低频响应被高度衰减。基于这样要求,麦克风间距的选择一般要与两个到四个样本的延迟时间匹配。同样,以上均假设fs= 48 kHz。所有这些计算均与采样速率成线性比例关系。
为实现良好性能的麦克风波束成形器,阵列中不同元件的灵敏度和频率响应必须精密匹配。如果不同元件的这两个参数有差异,就无法实现阵列的期望响应,零点可能不那么突出,阵列的方向性可能不是很恰当。
对信噪比(SNR)的影响取决于阵列配置和处理,阵列拓扑结构不同,可能会导致***SNR提高或降低。必须选择SNR规格最高的麦克风,从而使总体***性能最高。在轴上,宽边波束成形器的输出类似于将两个相同信号简单相加以改善SNR。在宽边求和阵列中,多个麦克风本身的噪声以指数形式相加。因此,麦克风数量每增加一倍,噪声就会提高3 dB。这种情况下,信号电平加倍,提高6 dB,而噪声则以非相干形式相加,总电平仅提高3 dB,因此SNR性能提高3 dB。在轴外,此波束成形器的信号输出不是平坦的。在轴外入射角,由于信号电平降低,SNR低于轴上峰值。对于波长为麦克风间距2倍的频率(在图12所示例子中,此频率约为4.1 kHz),双麦克风差分阵列波束成形器的轴上频率响应为6 dB。在此频率附近,阵列信号的输出与其噪声的差别高于各麦克风的输出与其噪声的差别,但整个频率范围内的信噪比关系更加难以计算。
在上述技术的基础上,在同声翻译终端上还可以设置噪声抑制模块以降低单通道语音信号中的静态和瞬态噪声,从而提高信噪比,提高语音清晰度并减少听力疲劳。
噪声抑制模块在单通道信号上运行。输入信号被分成多个频率子带。特殊模块估算每个频率子带中的环境噪声和信号电平,然后根据即时信噪比来传递或衰减子带信号。输出信号然后从处理后的子带信号重新组合。音乐噪音和其他噪声通过专有的后期处理程序消除。噪声抑制技术的突出特点是能够快速精确地跟踪环境噪声水平,同时保持非常高的输出语音质量。这样可以抑制静态和瞬态噪音,如过往车辆。
请参阅图3,一种基于人工智能的同声翻译***,包括:同声翻译终端100、移动终端201和语音信号翻译平台202。各模块的详细说明如下:
同声翻译终端100为上述任一实施例的同声翻译终端。
移动终端201分别与所述同声翻译终端100、语音信号翻译平台202相连接,用于接收所述目标音频信号并输出给所述语音信号翻译平台。
语音信号翻译平台202接收所述目标音频信号,根据所述目标音频信号翻译成语音信息并将所述语音信息通过所述移动终端201返回给所述同声翻译终端100。
具体地,移动终端可以为智能手机,也就是说,同声翻译终端通过日常使用的智能手机作为中介与语音信号翻译平台202进行连接,从而进行信号的传输。智能手机作为中间端连接时,需要配置相应的应用软件。例如,在智能手机中配置同声翻译的APP软件,APP通过WIFI或者GPRS定位消费者所在区域的云服务器,然后连接后台云。后台云将手机APP发送过来的数据进行翻译,然后再通过GPRS或者WIFI将翻译好的数据传递到手机APP,最后APP通过蓝牙将数据传递给硬件终端,硬件终端通过扬声器将翻译结果播报出来。
做为一种优选的方式,同声翻译终端100可以通过蓝牙低能耗的方式或者蓝牙增强速率的方式与移动终端201相连接。这样可以节约能耗,使同声翻译终端的续航时间更长,用户的使用体验好。
另一种实施例,APP通过WIFI或者GPRS定位消费者所在区域的云服务器,然后连接后台云。后台云将手机APP发送过来的数据进行翻译,然后再通过GPRS或者WIFI将翻译好的数据传递到手机APP,然后翻译的结果直接通过手机的扬声器进行播放。
还有一种实施例,在上述实施例中所说的需要通过智能手机实现的功能,直接将该功能的硬件和软件设置在同声翻译终端,也就是说,同声翻译终端会配置有WIFI或者GPRS的硬件,同样地,也会在同声翻译终端中配置同声翻译的APP软件,APP软件通过WIFI或者GPRS定位消费者所在区域的云服务器,然后连接后台云,再由语音翻译平台将目标音频信号进行翻译。云服务器和后台云都是语音翻译平台的一部分。最后语音翻译平台将翻译好的结果返回给同声翻译终端,并通过同声翻译终端的扬声器进行播放。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的同声翻译终端,其特征在于,包括:置于设备壳体内的硬件终端,所述硬件终端包括:输入模块、操作模块、降噪及音频放大模块、微控制器和输出模块;
所述输入模块用于采集音频信号并输出给降噪及音频放大模块;
所述操作模块与所述微控制器相连接,用于接收用户的操作指令,并将所述操作指令输出给所述微控制器;
降噪及音频放大模块,与所述输入模块、所述微控制器相连接,将接收到的音频信号进行降噪声处理,并将降噪声处理后的音频信号进行放大以得到音质好的目标音频信号;
微控制器,将所述目标音频信号输出到语音信号翻译平台,并接收所述语音信号翻译平台翻译好的语音信息输出给所述输出模块,以及根据所述操作指令控制所述输入模块对音频信号的采集;
所述输出模块与所述微控制器相连接,用于接收并输出所述语音信息。
2.根据权利要求1所述的基于人工智能的同声翻译终端,其特征在于,所述输入模块为双麦克风阵列。
3.根据权利要求2所述的基于人工智能的同声翻译终端,其特征在于,所述双麦克风阵列为宽边阵列麦克风阵列,所述宽边阵列麦克风阵列的麦克风的排列方向与要拾取的声波方向垂直。
4.根据权利要求2所述的基于人工智能的同声翻译终端,其特征在于,所述双麦克风阵列为双麦克风端射差分阵列,所述双麦克风端射差分阵列的麦克风的排列方向与声音传播的目标方向一致。
5.根据权利要求4所述的基于人工智能的同声翻译终端,其特征在于,所述双麦克风阵列采用心型、高心型或者超心型的拾音模式。
6.根据权利要求1所述的基于人工智能的同声翻译终端,其特征在于,所述降噪及音频放大模块采用波束形成降噪技术对音频信号进行去噪音处理。
7.根据权利要求1所述的基于人工智能的同声翻译终端,其特征在于,所述降噪及音频放大模块包括自适应滤波器,所述自适应滤波器用于滤除环境噪音。
8.根据权利要求1所述的基于人工智能的同声翻译终端,其特征在于,所述同声翻译终端还包括分别与所述降噪及音频放大模块和所述微控制器连接的噪声抑制模块,所述噪声抑制模块用于抑制单通道语音信号中的静态和瞬态噪声。
9.一种基于人工智能的同声翻译***,其特征在于,包括:
同声翻译终端,所述同声翻译终端为权利要求1至8任一所述的同声翻译终端;
移动终端,分别与所述同声翻译终端、语音信号翻译平台相连接,用于接收所述目标音频信号并输出给所述语音信号翻译平台;
语音信号翻译平台,接收所述目标音频信号,根据所述目标音频信号翻译成语音信息并将所述语音信息通过所述移动终端返回给所述同声翻译终端。
10.根据权利要求9所述的基于人工智能的同声翻译***,其特征在于,所述同声翻译终端通过蓝牙低能耗的方式或者蓝牙增强速率的方式与所述移动终端相连接。
CN201810772339.1A 2018-07-13 2018-07-13 一种基于人工智能的同声翻译终端及其同声翻译*** Pending CN109036451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810772339.1A CN109036451A (zh) 2018-07-13 2018-07-13 一种基于人工智能的同声翻译终端及其同声翻译***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810772339.1A CN109036451A (zh) 2018-07-13 2018-07-13 一种基于人工智能的同声翻译终端及其同声翻译***

Publications (1)

Publication Number Publication Date
CN109036451A true CN109036451A (zh) 2018-12-18

Family

ID=64642872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810772339.1A Pending CN109036451A (zh) 2018-07-13 2018-07-13 一种基于人工智能的同声翻译终端及其同声翻译***

Country Status (1)

Country Link
CN (1) CN109036451A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1224203A (zh) * 1998-01-20 1999-07-28 白涛 智能型汉英即时同步共显式机器互译方法
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102903361A (zh) * 2012-10-15 2013-01-30 Itp创新科技有限公司 一种通话即时翻译***和方法
CN103179481A (zh) * 2013-01-12 2013-06-26 德州学院 可提高英语听力的耳机
CN103854647A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 汉语与外语双向实时语音翻译无线移动通讯设备
CN105808527A (zh) * 2016-02-24 2016-07-27 北京百度网讯科技有限公司 基于人工智能的定向翻译方法及装置
CN106375828A (zh) * 2016-08-30 2017-02-01 胡峰 一种基于人工智能的人机互动方法
CN206136212U (zh) * 2016-09-22 2017-04-26 天津沅洋聚义电子商务有限公司 一种基于互联网技术的会议翻译***
CN106935240A (zh) * 2017-03-24 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的语音翻译方法、装置、终端设备和云端服务器
CN107886953A (zh) * 2017-11-27 2018-04-06 四川长虹电器股份有限公司 一种基于表情和语音识别的婴儿哭声翻译***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1224203A (zh) * 1998-01-20 1999-07-28 白涛 智能型汉英即时同步共显式机器互译方法
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102903361A (zh) * 2012-10-15 2013-01-30 Itp创新科技有限公司 一种通话即时翻译***和方法
CN103854647A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 汉语与外语双向实时语音翻译无线移动通讯设备
CN103179481A (zh) * 2013-01-12 2013-06-26 德州学院 可提高英语听力的耳机
CN105808527A (zh) * 2016-02-24 2016-07-27 北京百度网讯科技有限公司 基于人工智能的定向翻译方法及装置
CN106375828A (zh) * 2016-08-30 2017-02-01 胡峰 一种基于人工智能的人机互动方法
CN206136212U (zh) * 2016-09-22 2017-04-26 天津沅洋聚义电子商务有限公司 一种基于互联网技术的会议翻译***
CN106935240A (zh) * 2017-03-24 2017-07-07 百度在线网络技术(北京)有限公司 基于人工智能的语音翻译方法、装置、终端设备和云端服务器
CN107886953A (zh) * 2017-11-27 2018-04-06 四川长虹电器股份有限公司 一种基于表情和语音识别的婴儿哭声翻译***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏玉勤等: "《感知潞安 信息传输承载技术》", 30 November 2014, 中国矿业大学出版社 *

Similar Documents

Publication Publication Date Title
US20210152946A1 (en) Audio Analysis and Processing System
Freiberger Development and evaluation of source localization algorithms for coincident microphone arrays
US8724829B2 (en) Systems, methods, apparatus, and computer-readable media for coherence detection
AU2004302264B2 (en) Method for processing audio-signals
KR101470262B1 (ko) 다중-마이크로폰 위치 선택적 프로세싱을 위한 시스템들, 방법들, 장치, 및 컴퓨터 판독가능 매체
US7099821B2 (en) Separation of target acoustic signals in a multi-transducer arrangement
EP3248393B1 (en) Hearing assistance system
EP2882203A1 (en) Hearing aid device for hands free communication
US20120051548A1 (en) Microphone array subset selection for robust noise reduction
RU2759715C2 (ru) Звукозапись с использованием формирования диаграммы направленности
WO1993013590A1 (en) Reducing background noise in communication systems and enhancing binaural hearing systems for the hearing impaired
TW201132138A (en) Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
CN110830870B (zh) 一种基于传声器技术的耳机佩戴者语音活动检测***
CN111078185A (zh) 录制声音的方法及设备
CN108337605A (zh) 基于差分波束形成的隐声方法
CN112767908A (zh) 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN114333886A (zh) 音频处理方法、装置、电子设备及存储介质
EP4057644A1 (en) A hearing aid determining talkers of interest
CN113223544B (zh) 音频的方向定位侦测装置及方法以及音频处理***
US20230308817A1 (en) Hearing system comprising a hearing aid and an external processing device
EP1065909A2 (en) Noise canceling microphone array
Farmani et al. Sound source localization for hearing aid applications using wireless microphones
Geng et al. A speech enhancement method based on the combination of microphone array and parabolic reflector
CN109036451A (zh) 一种基于人工智能的同声翻译终端及其同声翻译***
CN115474121A (zh) 主动降噪方法、装置、芯片、耳机及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218