CN115243180B - 类脑助听方法、装置、助听设备和计算机设备 - Google Patents

类脑助听方法、装置、助听设备和计算机设备 Download PDF

Info

Publication number
CN115243180B
CN115243180B CN202210859184.1A CN202210859184A CN115243180B CN 115243180 B CN115243180 B CN 115243180B CN 202210859184 A CN202210859184 A CN 202210859184A CN 115243180 B CN115243180 B CN 115243180B
Authority
CN
China
Prior art keywords
signal
voice
envelope
azimuth
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210859184.1A
Other languages
English (en)
Other versions
CN115243180A (zh
Inventor
蔡思祺
李海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
Chinese University of Hong Kong Shenzhen
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen, Shenzhen Research Institute of Big Data SRIBD filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202210859184.1A priority Critical patent/CN115243180B/zh
Publication of CN115243180A publication Critical patent/CN115243180A/zh
Priority to PCT/CN2022/143942 priority patent/WO2024016608A1/zh
Application granted granted Critical
Publication of CN115243180B publication Critical patent/CN115243180B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Otolaryngology (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本申请涉及一种类脑助听方法、装置、助听设备和计算机设备。该方法包括:获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号;根据脑电信号解码得到听觉注意对象的语音信号的包络线;听觉注意对象,是助听设备佩戴者在语音环境中所注意的发声者;根据眼动信号解码得到听觉注意方位;听觉注意方位,是助听设备佩戴者在语音环境中所注意的方位;根据包络线从环境语音信号中提取听觉注意对象的语音信号,根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号;将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。采用本方法能够提高助听设备输出的语音信号的质量。

Description

类脑助听方法、装置、助听设备和计算机设备
技术领域
本申请涉及计算机技术和智能辅听技术领域,特别是涉及一种类脑助听方法、装置、助听设备和计算机设备。
背景技术
目前全球有超过15亿人(五分之一)存在听力受损的情况,其中至少4.3亿人(5.5%)有中度或以上程度的听力损失。在听力无法逆转的情况下,人工助听技术可以避免与听力受损相关的不良后果,助听设备是改善听力受损的听障人士交流困难的有效方法。
传统的助听设备虽然具有一定的降噪能力,但是不能在复杂声学场景下像健听耳那样选择想要听的说话人的声音,而是会无差别地放大和传递环境中所有说话人的混合语音信号,从而导致助听设备输出的语音信号质量较差,佩戴助听设备的听障人士不能有效地获得想要的信息。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高助听设备输出的语音信号的质量的类脑助听方法、装置、助听设备、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种类脑助听方法。所述方法包括:
获取助听设备佩戴者所处语音环境中的环境语音信号、以及所述助听设备佩戴者的脑电信号和眼动信号;
根据所述脑电信号解码得到听觉注意对象的语音信号的包络线;所述听觉注意对象,是所述助听设备佩戴者在所述语音环境中所注意的发声者;
根据所述眼动信号解码得到听觉注意方位;所述听觉注意方位,是所述助听设备佩戴者在所述语音环境中所注意的方位;
根据所述包络线,从所述环境语音信号中提取听觉注意对象的语音信号,以及根据所述听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号;
将所述听觉注意对象的语音信号和所述听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。
第二方面,本申请还提供了一种类脑助听装置。所述装置包括:
数据获取模块,用于获取助听设备佩戴者所处语音环境中的环境语音信号、以及所述助听设备佩戴者的脑电信号和眼动信号;
听觉注意对象解码模块,用于根据所述脑电信号解码得到听觉注意对象的语音信号的包络线;所述听觉注意对象,是所述助听设备佩戴者在所述语音环境中所注意的发声者;
听觉注意方位解码模块,用于根据所述眼动信号解码得到听觉注意方位;所述听觉注意方位,是所述助听设备佩戴者在所述语音环境中所注意的方位;
语音提取模块,用于根据所述包络线,从所述环境语音信号中提取听觉注意对象的语音信号;
声源提取模块,用于根据所述听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号;
特征融合模块,用于将所述听觉注意对象的语音信号和所述听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。
在其中一个实施例中,所述听觉注意对象解码模块还用于将所述脑电信号输入至语音包络解码模型中,通过所述语音包络解码模型解码得到听觉注意对象的语音信号的包络线;其中,所述语音包络解码模型,是预先根据样本脑电信号和包含包络线标签的样本环境语音信号训练得到的。
在其中一个实施例中,所述听觉注意对象解码模块还用于将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中;通过所述待训练的语音包络解码模型根据所述样本脑电信号,得到预测的包络线;通过所述待训练的语音包络解码模型,根据预测的包络线和所述样本环境语音信号包含的包络线标签的差异,迭代地调整所述待训练的语音包络解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音包络解码模型。
在其中一个实施例中,所述听觉注意方位解码模块还用于将所述眼动信号输入至语音方位解码模型中,通过所述语音方位解码模型解码得到听觉注意方位;其中,所述语音方位解码模型,是预先根据样本眼动信号和包含方位标签的样本环境语音信号训练得到的。
在其中一个实施例中,所述听觉注意方位解码模块还用于将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中;通过所述待训练的语音方位解码模型根据所述样本眼动信号,得到预测的方位;通过所述待训练的语音方位解码模型,根据预测的方位和所述样本环境语音信号包含的方位标签的差异,迭代地调整所述待训练的语音方位解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音方位解码模型。
在其中一个实施例中,所述语音提取模块还用于将所述包络线和所述环境语音信号输入至语音提取模型中,通过所述语音提取模型根据所述包络线,从所述环境语音信号中提取所述听觉注意对象的语音信号;
所述声源提取模块还用于将所述听觉注意方位和所述环境语音信号输入至声源提取模型中,通过所述声源提取模型根据所述听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号。
在其中一个实施例中,所述类脑助听装置还包括:
决策融合模块,用于将所述包络线和所述听觉注意方位输入至决策融合网络层;通过所述决策融合网络层,根据所述听觉注意方位优化所述包络线得到目标包络线,以及根据所述包络线优化所述听觉注意方位得到目标听觉注意方位;
所述语音提取模型还用于根据所述目标包络线,从所述环境语音信号中提取听觉注意对象的语音信号;
所述声源提取模块还用于根据所述目标听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号。
第三方面,本申请还提供了一种助听设备。所述助听设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的类脑助听方法中的步骤。
第四方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请各实施例所述的类脑助听方法中的步骤。
第五方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的类脑助听方法中的步骤。
第六方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使得所述处理器执行本申请各实施例所述的类脑助听方法中的步骤。
上述类脑助听方法、装置、助听设备、计算机设备、存储介质和计算机程序产品,获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,根据脑电信号解码得到听觉注意对象的语音信号的包络线,根据眼动信号解码得到听觉注意方位,然后根据包络线从环境语音信号中提取听觉注意对象的语音信号,并根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号,最后将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。采用了多模态交互的方式,根据环境语音信号、脑电信号和眼动信号各种模态的信号相结合,从而能够与助听设备佩戴者的人脑听觉活动以及眼动情况相耦合,基于听觉注意力选择机制(即,类脑听觉)来分别提取出听觉注意对象的语音信号和听觉注意方位的语音信号,然后融合得到听觉注意语音信号,使得听觉注意语音信号能够更加符合健听耳的聆听效果,从而提高了助听设备输出的听觉注意语音信号的质量,使得佩戴助听设备的听障人士能够在复杂的语音环境中进行正常的聆听与交流。
附图说明
图1为一个实施例中类脑助听方法的应用环境图;
图2为另一个实施例中类脑助听方法的应用环境图;
图3为一个实施例中类脑助听方法的流程示意图;
图4为一个实施例中类脑助听方法的整体流程示意图;
图5为一个实施例中类脑助听装置的结构框图;
图6为另一个实施例中类脑助听装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,本申请实施例提供的类脑助听方法,可以应用于如图1所示的应用环境中。助听设备佩戴者102可以佩戴助听设备104,听觉注意对象106和非听觉注意对象108都是助听设备佩戴者102所处的语音环境中的发声者,听觉注意对象106是助听设备佩戴者102所注意的发声者,非听觉注意对象108是语音环境中的发声者中除听觉注意对象106之外的发声者。助听设备104可以采集环境语音信号、以及助听设备佩戴者102的脑电信号和眼动信号,然后根据脑电信号解码得到听觉注意对象106的语音信号的包络线,根据眼动信号解码得到听觉注意方位,再根据包络线从环境语音信号中提取听觉注意对象106的语音信号,以及根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号,最后将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号,并将听觉注意语音信号输出给助听设备佩戴者102。助听设备佩戴者102可以通过佩戴的助听设备104获得环境语音信号中的听觉注意语音信号,实现在复杂的语音环境中进行聆听。其中,助听设备佩戴者102可以是存在听力受损或听力损失等问题的听力不健全的听障人士。助听设备104可以是各种形式的用于辅助听障人士进行聆听的设备。
在另一个实施例中,本申请实施例提供的类脑助听方法,可以应用于如图2所示的应用环境中。助听设备佩戴者202可以佩戴助听设备204,听觉注意对象206和非听觉注意对象208都是助听设备佩戴者202所处的语音环境中的发声者,听觉注意对象206是助听设备佩戴者202所注意的发声者,非听觉注意对象108是语音环境中的发声者中除听觉注意对象206之外的发声者,助听设备204可以与计算机设备210进行通信。助听设备204可以采集环境语音信号、以及助听设备佩戴者202的脑电信号和眼动信号并发送至计算机设备210。计算机设备210可以获取到助听设备发送的环境语音信号、以及脑电信号和眼动信号,根据脑电信号解码得到听觉注意对象206的语音信号的包络线,根据眼动信号解码得到听觉注意方位,再根据包络线从环境语音信号中提取听觉注意对象206的语音信号,以及根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号,最后将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号并发送至助听设备204。助听设备204可以将听觉注意语音信号输出给助听设备佩戴者202。助听设备佩戴者202可以通过佩戴的助听设备204获得环境语音信号中的听觉注意语音信号,实现在复杂的语音环境中进行聆听。其中,助听设备佩戴者202可以是存在听力受损或听力损失等问题的听力不健全的听障人士。助听设备204可以是各种形式的用于辅助听障人士进行聆听的设备。计算机设备210可以是终端或服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。助听设备204可以但不限于通过蓝牙或网络通信等方式与计算机设备210进行通信。
在一个实施例中,如图3所示,提供了一种类脑助听方法,以该方法应用于图1中的助听设备104为例进行说明,包括以下步骤:
步骤302,获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号。
其中,助听设备佩戴者,可以是存在听力受损或听力损失等问题的听力不健全的听障人士。语音环境,是指助听设备佩戴者所处于的包含多种语音信号的环境。环境语音信号,是指语音环境中包含多种语音信号的多通道的混合语音信号。脑电信号,是指脑神经组织在大脑皮层的电生理活动所产生的信号。眼动信号,是指眼球运动引起的眼部周围电势变化的生物电信号。
在一个实施例中,脑电信号可以是助听设备佩戴者的耳周的脑电信号。其中,耳周,是指耳朵附近。
可以理解,脑电信号和眼动信号是助听设备佩戴者处于语音环境中时产生的脑电信号和眼动信号。
在一个实施例中,助听设备可以实时采集语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,实时执行本申请各实施例中的类脑助听方法得到待输出的听觉注意语音信号,并实时输出听觉注意语音信号。
在一个实施例中,助听设备可以采集语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,然后执行步骤304及后续步骤,以得到听觉注意语音信号。
在另一个实施例中,助听设备可以采集语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,然后将采集的环境语音信号、脑电信号和眼动信号发送至计算机设备,计算机设备可以获取到助听设备发送的环境语音信号、脑电信号和眼动信号,然后执行步骤304及后续步骤,以得到听觉注意语音信号。
在一个实施例中,助听设备可以先对采集到的环境语音信号进行降噪处理、音频转换、时频域分析和特征提取等中的至少一种语音信号预处理,然后根据语音信号预处理后的环境语音信号执行本申请各实施例中的类脑助听方法。在一个实施例中,助听设备可以先对采集到的环境语音信号进行降噪处理和音频转换处理等中的至少一种处理,然后对处理结果进行时频域分析,提取时频域特征,再根据提取的时频域特征执行本申请各实施例中的类脑助听方法。
在一个实施例中,助听设备可以通过如图4所示的语音信号采集与处理单元采集语音环境中的环境语音信号。在一个实施例中,助听设备可以通过语音信号采集与处理单元对采集到的环境语音信号进行语音信号预处理。
在一个实施例中,语音信号采集与处理单元可以包括语音信号采集部分、语音信号预处理部分和语音信号分析部分。语音信号采集部分可以从语音环境中采集环境语音信号。语音信号预处理部分可以对采集的环境语音信号进行降噪处理和音频转换等中的至少一种处理。语音信号分析部分可以对语音信号预处理部分的处理结果进行时频域分析,然后提取时频域特征。
在一个实施例中,助听设备可以先对采集到的脑电信号进行信号放大处理、模数转换(即,A/D转换)和特征提取等中的至少一种脑电信号预处理,然后根据脑电信号预处理后的脑电信号执行本申请本实施例中的类脑助听方法。
在一个实施例中,助听设备可以通过如图4所示的脑电信号采集与处理单元采集助听设备佩戴者的脑电信号。在一个实施例中,助听设备可以通过脑电信号采集与处理单元对采集到的脑电信号进行脑电信号预处理。
在一个实施例中,脑电信号采集与处理单元可以包括脑电信号采集部分、多通道模拟前端放大电路部分、支持多通道采集的数字电路部分和脑电信号处理部分。脑电信号采集部分可以采集助听设备佩戴者的脑电信号,多通道模拟前端放大电路部分可以对采集的脑电信号进行信号放大处理,然后通过模数转换器对信号放大处理后的脑电信号进行模数转换,以提高信号在传输中的抗干扰性,支持多通道采集的数字电路部分可以对模数转换后的脑电信号进行缓存和还原,脑电信号处理部分可以对缓存和还原后的脑电信号进行特征提取。
在一个实施例中,助听设备可以先对采集到的眼动信号进行信号放大处理、降噪处理和特征提取等中的至少一种眼动信号预处理,然后根据眼动信号预处理后的眼动信号执行本申请各实施例中的类脑助听方法。
在一个实施例中,助听设备可以通过如图4所示的眼动信号采集与处理单元采集助听设备佩戴者的眼动信号。在一个实施例中,助听设备可以通过眼动信号采集与处理单元对采集到的眼动信号进行眼动信号预处理。
在一个实施例中,眼动信号采集与处理单元可以包括眼动信号采集部分、眼动信号预处理部分、滤波器部分和眼动信号分析部分。眼动信号采集部分可以采集助听设备佩戴者的眼动信号,眼动信号预处理部分可以对采集的眼动信号进行信号放大处理和去除伪迹处理等至少一种处理,滤波器部分可以对眼动信号预处理部分处理后的结果进行噪声过滤,眼动信号分析部分可以对噪声过滤后的结果进行特征提取。在一个实施例中,噪声过滤可以是过滤掉低频噪声和高频噪声等中的至少一种。
在一个实施例中,如图4所示,助听设备中可以包含信号采集与处理层,信号采集与处理层中可以包含脑电信号采集与处理单元、语音信号采集与处理单元和眼动信号采集与处理单元。
步骤304,根据脑电信号解码得到听觉注意对象的语音信号的包络线;听觉注意对象,是助听设备佩戴者在语音环境中所注意的发声者。
其中,发声者,是指发出语音信号的人或物。包络线,是指语音信号随着时间变化的波形。不同的听觉注意对象的语音信号具有不同的包络线。
在一个实施例中,助听设备可以预先根据样本脑电信号和包含包络线标签的样本环境语音信号进行学习训练,获得根据脑电信号解码得到听觉注意对象的语音信号的包络线的解码能力。在使用阶段,助听设备可以根据助听设备佩戴者的脑电信号解码得到听觉注意对象的语音信号的包络线。
在一个实施例中,助听设备可以通过如图4所示的听觉注意对象解码单元,根据脑电信号解码得到听觉注意对象的语音信号的包络线。
步骤306,根据眼动信号解码得到听觉注意方位;听觉注意方位,是助听设备佩戴者在语音环境中所注意的方位。
在一个实施例中,助听设备可以预先根据样本眼动信号和包含方位标签的样本环境语音信号进行学习训练,获得根据眼动信号解码得到听觉注意方位的解码能力。在使用阶段,助听设备可以根据助听设备佩戴者的眼动信号解码得到听觉注意方位。
在一个实施例中,助听设备可以通过如图4所示的听觉注意方位解码单元,根据眼动信号解码得到听觉注意方位。
在一个实施例中,助听设备可以对解码得到的包络线和听觉注意方位进行决策融合,得到目标包络线和目标听觉注意方位,然后根据目标包络线从环境语音信号中提取听觉注意对象的语音信号,根据目标听觉注意方位从环境语音信号中提取听觉注意方位的语音信号。其中,决策融合,是指将两个解码结果互相根据对方解码结果进行优化。
在一个实施例中,如图4所示,助听设备可以通过听觉注意对象解码单元和听觉注意方位解码单元进行决策融合。
在一个实施例中,如图4所示,助听设备中可以包含多模态交互解码层。多模态交互解码层中可以包含听觉注意对象解码单元和听觉注意方位解码单元。
在一个实施例中,步骤304和步骤306可以并行执行。
步骤308,根据包络线,从环境语音信号中提取听觉注意对象的语音信号,以及根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
其中,听觉注意对象的语音信号,是指听觉注意对象所发出的语音信号。听觉注意方位的语音信号,是指从听觉注意方位向助听设备所传来的语音信号。
在一个实施例中,助听设备可以根据包络线从环境语音信号中分离出听觉注意对象的语音信号和非听觉注意对象的语音信号,然后将听觉注意对象的语音信号增强,并将非听觉注意对象的语音信号减弱,以实现从环境语音信号中提取听觉注意对象的语音信号。
在一个实施例中,助听设备可以根据听觉注意方位从环境语音信号中分离出听觉注意方位的语音信号和非听觉注意方位的语音信号,然后将听觉注意方位的语音信号增强,并将非听觉注意方位的语音信号减弱,以实现从环境语音信号中提取听觉注意方位的语音信号。
在一个实施例中,助听设备可以预先根据包含听觉注意对象语音信号标签的样本环境语音信号和样本包络线进行学习训练,以获得根据包络线从环境语音信号中提取听觉注意对象的语音信号的能力。在使用阶段,助听设备可以根据包络线,从环境语音信号中提取听觉注意对象的语音信号。
在一个实施例中,助听设备可以预先根据包含听觉注意方位语音信号标签的样本环境语音信号和样本听觉注意方位进行学习训练,以获得根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号的能力。在使用阶段,助听设备可以根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
在一个实施例中,助听设备可以通过如图4所示的面向包络线的语音提取单元,根据包络线从环境语音信号中提取听觉注意对象的语音信号。
在一个实施例中,助听设备可以通过如图4所示的面向声源方位的语音提取单元,根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号。
在一个实施例中,如图4所示,助听设备中可以包含类脑听觉层。类脑听觉层中可以包含面向包络线的语音提取单元和面向声源方位的语音提取单元。
步骤310,将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。
具体地,如图4所示,助听设备可以对听觉注意对象的语音信号和听觉注意方位的语音信号进行特征融合,得到待输出的听觉注意语音信号。其中,特征融合,是指将听觉注意对象的语音信号和听觉注意方位的语音信号进行信息整合,提取出有用的信息。
在一个实施例中,助听设备可以将听觉注意对象的语音信号和听觉注意方位的语音信号输入至特征融合网络层,通过特征融合网络层将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。其中,特征融合网络层,是指用于进行特征融合的神经网络层。在一个实施例中,特征融合网络层可以是至少一层的神经网络。
在一个实施例中,助听设备可以通过面向包络线的语音提取单元和面向声源方位的语音提取单元,对听觉注意对象的语音信号和听觉注意方位的语音信号进行特征融合。在一个实施例中,特征融合网络层可以设置与面向包络线的语音提取单元和面向声源方位的语音提取单元中。
在一个实施例中,步骤308和步骤310可以并行执行。
上述类脑助听方法中,获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,根据脑电信号解码得到听觉注意对象的语音信号的包络线,根据眼动信号解码得到听觉注意方位,然后根据包络线从环境语音信号中提取听觉注意对象的语音信号,并根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号,最后将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。采用了多模态交互的方式,根据环境语音信号、脑电信号和眼动信号各种模态的信号相结合,从而能够与助听设备佩戴者的人脑听觉活动以及眼动情况相耦合,基于听觉注意力选择机制(即,类脑听觉)来分别提取出听觉注意对象的语音信号和听觉注意方位的语音信号,然后融合得到听觉注意语音信号,使得听觉注意语音信号能够更加符合健听耳的聆听效果,从而提高了助听设备输出的听觉注意语音信号的质量,使得佩戴助听设备的听障人士能够在复杂的语音环境中进行正常的聆听与交流,实现了助听设备的智能化、科学化和个性化。
在一个实施例中,根据脑电信号解码得到听觉注意对象的语音信号的包络线包括:将脑电信号输入至语音包络解码模型中,通过语音包络解码模型解码得到听觉注意对象的语音信号的包络线;其中,语音包络解码模型,是预先根据样本脑电信号和包含包络线标签的样本环境语音信号训练得到的。
其中,语音包络解码模型,是用于根据脑电信号解码得到听觉注意对象的语音信号的包络线的模型。样本脑电信号,是在语音包络解码模型的模型训练阶段所使用的脑电信号。样本环境语音信号,是在语音包络解码模型的模型训练阶段所使用的环境语音信号。包络线标签,是在语音包络解码模型的模型训练阶段对样本环境语音信号中的听觉注意对象的语音信号所标注的包络线。
具体地,在训练阶段,助听设备可以将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中,迭代地进行模型训练,得到训练完成的语音包络解码模型。在使用阶段,助听设备可以将脑电信号输入至预先训练的语音包络解码模型中,通过语音包络解码模型根据脑电信号解码得到听觉注意对象的语音信号的包络线。
在其他实施例中,可以先通过计算机设备对语音包络解码模型进行模型训练,然后将训练完成的语音包络解码模型植入助听设备中。
在一个实施例中,语音包络解码模型可以是机器学习模型。
在一个实施例中,语音包络解码模型可以是深度神经网络模型(即,深度学习模型)。
在一个实施例中,语音包络解码模型可以是卷积神经网络模型。
上述实施例中,助听设备将脑电信号输入至语音包络解码模型中,通过语音包络解码模型解码得到听觉注意对象的语音信号的包络线,能够对脑电信号中深层次的特征进行学习分析,从而准确地根据脑电信号中解码得到听觉注意对象的语音信号的包络线,进而能够根据准确的包络线提取出准确的听觉注意对象的语音信号,提高了提取的听觉注意对象的语音信号的准确性。此外,将脑电信号和语音信号这些多模态的信息相结合来提取听觉注意语音信号,更加符合人的听觉注意选择机制,使得最终提取到的听觉注意语音信号更加符合健听耳的聆听效果,提高了助听设备输出的听觉注意语音信号的质量。
在一个实施例中,语音包络解码模型是通过语音包络解码模型训练步骤得到的;语音包络解码模型训练步骤包括:将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中;通过待训练的语音包络解码模型根据样本脑电信号,得到预测的包络线;通过待训练的语音包络解码模型,根据预测的包络线和样本环境语音信号包含的包络线标签的差异,迭代地调整待训练的语音包络解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音包络解码模型。
具体地,在每轮迭代中,助听设备可以将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中,通过待训练的语音包络解码模型根据样本脑电信号解码得到预测的包络线,然后根据预测的包络线和样本环境语音信号包含的包络线标签的差异,调整待训练的语音包络解码模型的模型参数,如此循环迭代,直至满足迭代停止条件,得到训练完成的语音包络解码模型。
上述实施例中,在模型训练阶段,助听设备可以将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中迭代地对语音包络解码模型进行训练,使得语音包络解码模型能够对脑电信号中深层次的特征进行学习分析,从而准确地根据脑电信号中解码得到听觉注意对象的语音信号的包络线,进而能够根据准确的包络线提取出准确的听觉注意对象的语音信号,提高了提取的听觉注意对象的语音信号的准确性。此外,将脑电信号和语音信号这些多模态的信息相结合来提取听觉注意语音信号,更加符合人的听觉注意选择机制,使得最终提取到的听觉注意语音信号更加符合健听耳的聆听效果,提高了助听设备输出的听觉注意语音信号的质量。
在一个实施例中,根据眼动信号解码得到听觉注意方位包括:将眼动信号输入至语音方位解码模型中,通过语音方位解码模型解码得到听觉注意方位;其中,语音方位解码模型,是预先根据样本眼动信号和包含方位标签的样本环境语音信号训练得到的。
其中,语音方位解码模型,是用于根据眼动信号解码得到听觉注意方位的模型。样本眼动信号,是在语音方位解码模型的模型训练阶段所使用的眼动信号。样本环境语音信号,是在语音方位解码模型的模型训练阶段所使用的环境语音信号。方位标签,是在语音方位解码模型的模型训练阶段在样本环境语音信号中标注的方位。
具体地,在训练阶段,助听设备可以将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中,迭代地进行模型训练,得到训练完成的语音方位解码模型。在使用阶段,助听设备可以将眼动信号输入至语音方位解码模型中,通过语音方位解码模型根据眼动信号解码得到听觉注意方位。
在其他实施例中,可以先通过计算机设备对语音方位解码模型进行模型训练,然后将训练完成的语音方位解码模型植入助听设备中。
在一个实施例中,语音方位解码模型可以是机器学习模型。
在一个实施例中,语音方位解码模型可以是深度神经网络模型。
在一个实施例中,语音方位解码模型可以是卷积神经网络模型。
上述实施例中,助听设备将眼动信号输入至语音方位解码模型中,通过语音方位解码模型解码得到听觉注意方位,能够对眼动信号中深层次的特征进行学习分析,从而准确地根据眼动信号中解码得到听觉注意方位,进而能够根据准确的听觉注意方位提取出准确的听觉注意方位的语音信号,提高了提取的听觉注意方位的语音信号的准确性。此外,将眼动信号和语音信号这些多模态的信息相结合来提取听觉注意语音信号,更加符合人的听觉注意选择机制,使得最终提取到的听觉注意语音信号更加符合健听耳的聆听效果,提高了助听设备输出的听觉注意语音信号的质量。
在一个实施例中,语音方位解码模型是通过语音方位解码模型训练步骤得到的;语音方位解码模型训练步骤包括:将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中;通过待训练的语音方位解码模型根据样本眼动信号,得到预测的方位;通过待训练的语音方位解码模型,根据预测的方位和样本环境语音信号包含的方位标签的差异,迭代地调整待训练的语音方位解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音方位解码模型。
具体地,在每轮迭代中,助听设备可以将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中,通过待训练的语音方位解码模型根据样本眼动信号解码得到预测的方位,然后根据预测的方位和样本环境语音信号包含的方位标签的差异,调整待训练的语音方位解码模型的模型参数,如此循环迭代,直至迭代停止条件,得到训练完成的语音方位解码模型。
上述实施例中,在模型训练阶段,助听设备可以将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中迭代地对语音方位解码模型进行训练,使得语音方位解码模型能够对眼动信号中深层次的特征进行学习分析,从而准确地根据眼动信号中解码得到听觉注意方位,进而能够根据准确的听觉注意方位提取出准确的听觉注意方位的语音信号,提高了提取的听觉注意方位的语音信号的准确性。此外,将眼动信号和语音信号这些多模态的信息相结合来提取听觉注意语音信号,更加符合人的听觉注意选择机制,使得最终提取到的听觉注意语音信号更加符合健听耳的聆听效果,提高了助听设备输出的听觉注意语音信号的质量。
在一个实施例中,根据包络线,从环境语音信号中提取听觉注意对象的语音信号,以及根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号包括:将包络线和环境语音信号输入至语音提取模型中,通过语音提取模型根据包络线,从环境语音信号中提取听觉注意对象的语音信号;将听觉注意方位和环境语音信号输入至声源提取模型中,通过声源提取模型根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
其中,语音提取模型,是用于根据包络线从环境语音信号中提取听觉注意对象的语音信号的模型。声源提取模型,是用于根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号的模型。
在一个实施例中,语音提取模型可以是机器学习模型。在一个实施例中,语音提取模型可以是深度神经网络模型。在一个实施例中,语音提取模型可以是卷积神经网络模型。
在一个实施例中,声源提取模型可以是机器学习模型。在一个实施例中,声源提取模型可以是深度神经网络模型。在一个实施例中,声源提取模型可以是卷积神经网络模型。
在一个实施例中,在训练阶段,助听设备可以将包含听觉注意对象语音信号标签的样本环境语音信号和样本包络线输入至待训练的语音提取模型中,通过待训练的语音提取模型根据样本包络线从样本环境语音信号中提取预测的语音信号,然后根据预测的语音信号和听觉注意对象语音信号标签之间的差异,迭代地调整语音提取模型的模型参数,直至满足迭代停止条件,得到训练完成的语音提取模型。在使用阶段,助听设备可以将包络线和环境语音信号输入至预先训练的语音提取模型中,通过语音提取模型根据包络线从环境语音信号中提取听觉注意对象的语音信号。
在一个实施例中,在训练阶段,助听设备可以将包含听觉注意方位语音信号标签的样本环境语音信号和样本听觉注意方位输入至待训练的声源提取模型中,通过待训练的声源提取模型根据样本听觉注意方位从样本环境语音信号中提取预测的语音信号,然后根据预测的语音信号和听觉注意方位语音信号标签之间的差异,迭代地调整声源提取模型的模型参数,直至满足迭代停止条件,得到训练完成的声源提取模型。在使用阶段,助听设备可以将听觉注意方位和环境语音信号输入至预先训练的声源提取模型中,通过声源提取模型根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号。
在其他实施例中,可以先通过计算机设备对语音提取模型和声源提取模型进行模型训练,然后将训练完成的语音提取模型和声源提取模型植入助听设备中。
上述实施例中,通过语音提取模型对包络线和环境语音信号进行深层次的学习分析,能够准确地从环境语音信号中提取出听觉注意对象的语音信号,通过声源提取模型对听觉注意方位和环境语音信号进行深层次的学习分析,能够准确地从环境语音信号中提取出听觉注意方位的语音信号,进而能够根据准确的听觉注意对象的语音信号和准确的听觉注意方位的语音信号融合得到准确的听觉注意语音信号,提高了助听设备输出的语音信号的质量。此外,根据听觉注意对象和听觉注意方位两个角度来提取语音信号并融合得到听觉注意语音信号,使得分析角度更加全面,从而能够更加准确地得到听觉注意语音信号。
在一个实施例中,该方法还包括:将包络线和听觉注意方位输入至决策融合网络层;通过决策融合网络层,根据听觉注意方位优化包络线得到目标包络线,以及根据包络线优化听觉注意方位得到目标听觉注意方位;根据包络线,从环境语音信号中提取听觉注意对象的语音信号,以及根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号包括:根据目标包络线,从环境语音信号中提取听觉注意对象的语音信号;根据目标听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
在一个实施例中,将包络线和听觉注意方位输入至决策融合网络层;通过决策融合网络层,根据听觉注意方位优化包络线得到目标包络线,以及根据包络线优化听觉注意方位得到目标听觉注意方位;根据包络线,从环境语音信号中提取听觉注意对象的语音信号,以及根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号包括:根据目标包络线,从环境语音信号中提取听觉注意对象的语音信号;根据目标听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
其中,决策融合网络层,是用于进行决策融合的神经网络层。
在一个实施例中,决策融合网络层可以是至少一层的神经网络。在一个实施例中,可以在如图4所示的听觉注意对象解码单元和听觉注意方位解码单元中设置决策融合层,以通过听觉注意对象解码单元和听觉注意方位解码单元进行决策融合。
具体地,助听设备可以将包络线和听觉注意方位输入至决策融合网络层,通过决策融合网络层根据听觉注意方位对包络线进行优化得到目标包络线,并根据包络线对听觉注意方位进行优化得到目标听觉注意方位,然后,助听设备可以根据目标包络线从环境语音信号中提取听觉注意对象的语音信号,根据目标听觉注意方位从环境语音信号中提取听觉注意方位的语音信号。
上述实施例中,通过决策融合网络层将包络线和听觉注意方位互相进行优化,提高了包络线和听觉注意方位的准确性,从而能够根据决策融合得到的准确的目标包络线和目标听觉注意方位,提取出准确的听觉注意对象的语音信号和听觉注意方位的语音信号,进而能够根据准确的听觉注意对象的语音信号和准确的听觉注意方位的语音信号融合得到准确的听觉注意语音信号,提高了助听设备输出的语音信号的质量。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的类脑助听方法的类脑助听装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个类脑助听装置实施例中的具体限定可以参见上文中对于类脑助听方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种类脑助听装置500,包括:数据获取模块502、听觉注意对象解码模块504、听觉注意方位解码模块506、语音提取模块508、声源提取模块510和特征融合模块512,其中:
数据获取模块502,用于获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号。
听觉注意对象解码模块504,用于根据脑电信号解码得到听觉注意对象的语音信号的包络线;听觉注意对象,是助听设备佩戴者在语音环境中所注意的发声者。
听觉注意方位解码模块506,用于根据眼动信号解码得到听觉注意方位;听觉注意方位,是助听设备佩戴者在语音环境中所注意的方位。
语音提取模块508,用于根据包络线,从环境语音信号中提取听觉注意对象的语音信号。
声源提取模块510,用于根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
特征融合模块512,用于将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。
在一个实施例中,听觉注意对象解码模块504还用于将脑电信号输入至语音包络解码模型中,通过语音包络解码模型解码得到听觉注意对象的语音信号的包络线;其中,语音包络解码模型,是预先根据样本脑电信号和包含包络线标签的样本环境语音信号训练得到的。
在一个实施例中,听觉注意对象解码模块504还用于将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中;通过待训练的语音包络解码模型根据样本脑电信号,得到预测的包络线;通过待训练的语音包络解码模型,根据预测的包络线和样本环境语音信号包含的包络线标签的差异,迭代地调整待训练的语音包络解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音包络解码模型。
在一个实施例中,听觉注意方位解码模块506还用于将眼动信号输入至语音方位解码模型中,通过语音方位解码模型解码得到听觉注意方位;其中,语音方位解码模型,是预先根据样本眼动信号和包含方位标签的样本环境语音信号训练得到的。
在一个实施例中,听觉注意方位解码模块506还用于将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中;通过待训练的语音方位解码模型根据样本眼动信号,得到预测的方位;通过待训练的语音方位解码模型,根据预测的方位和样本环境语音信号包含的方位标签的差异,迭代地调整待训练的语音方位解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音方位解码模型。
在一个实施例中,语音提取模块508还用于将包络线和环境语音信号输入至语音提取模型中,通过语音提取模型根据包络线,从环境语音信号中提取听觉注意对象的语音信号。声源提取模块510还用于将听觉注意方位和环境语音信号输入至声源提取模型中,通过声源提取模型根据听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
在一个实施例中,如图6所示,类脑助听装置500还包括:
决策融合模块514,用于将包络线和听觉注意方位输入至决策融合网络层;通过决策融合网络层,根据听觉注意方位优化包络线得到目标包络线,以及根据包络线优化听觉注意方位得到目标听觉注意方位;语音提取模型还用于根据目标包络线,从环境语音信号中提取听觉注意对象的语音信号;声源提取模块还用于根据目标听觉注意方位,从环境语音信号中提取听觉注意方位的语音信号。
上述类脑助听装置,获取助听设备佩戴者所处语音环境中的环境语音信号、以及助听设备佩戴者的脑电信号和眼动信号,根据脑电信号解码得到听觉注意对象的语音信号的包络线,根据眼动信号解码得到听觉注意方位,然后根据包络线从环境语音信号中提取听觉注意对象的语音信号,并根据听觉注意方位从环境语音信号中提取听觉注意方位的语音信号,最后将听觉注意对象的语音信号和听觉注意方位的语音信号融合得到待输出的听觉注意语音信号。采用了多模态交互的方式,根据环境语音信号、脑电信号和眼动信号各种模态的信号相结合,从而能够与助听设备佩戴者的人脑听觉活动以及眼动情况相耦合,基于听觉注意力选择机制(即,类脑听觉)来分别提取出听觉注意对象的语音信号和听觉注意方位的语音信号,然后融合得到听觉注意语音信号,使得听觉注意语音信号能够更加符合健听耳的聆听效果,从而提高了助听设备输出的听觉注意语音信号的质量,使得佩戴助听设备的听障人士能够在复杂的语音环境中进行正常的聆听与交流,实现了助听设备的智能化、科学化和个性化。
上述类脑助听装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备或助听设备中的处理器中,也可以以软件形式存储于计算机设备或助听设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种类脑助听方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种助听设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种类脑助听方法,其特征在于,所述方法包括:
获取助听设备佩戴者所处语音环境中的环境语音信号、以及所述助听设备佩戴者的脑电信号和眼动信号;
根据所述脑电信号解码得到听觉注意对象的语音信号的包络线;所述听觉注意对象,是所述助听设备佩戴者在所述语音环境中所注意的发声者;
根据所述眼动信号解码得到听觉注意方位;所述听觉注意方位,是所述助听设备佩戴者在所述语音环境中所注意的方位;
将所述包络线和所述听觉注意方位输入至决策融合网络层;通过所述决策融合网络层,根据所述听觉注意方位优化所述包络线得到目标包络线,以及根据所述包络线优化所述听觉注意方位得到目标听觉注意方位;
根据所述目标包络线,从所述环境语音信号中提取听觉注意对象的语音信号;根据所述目标听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号;
将所述听觉注意对象的语音信号和所述听觉注意方位的语音信号融合得到待输出的听觉注意语音信号,从而使所述助听设备佩戴者的人脑听觉活动以及眼动情况相耦合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述脑电信号解码得到听觉注意对象的语音信号的包络线包括:
将所述脑电信号输入至语音包络解码模型中,通过所述语音包络解码模型解码得到听觉注意对象的语音信号的包络线;
其中,所述语音包络解码模型,是预先根据样本脑电信号和包含包络线标签的样本环境语音信号训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述语音包络解码模型是通过语音包络解码模型训练步骤得到的;所述语音包络解码模型训练步骤包括:
将样本脑电信号和包含包络线标签的样本环境语音信号输入至待训练的语音包络解码模型中;
通过所述待训练的语音包络解码模型根据所述样本脑电信号,得到预测的包络线;
通过所述待训练的语音包络解码模型,根据预测的包络线和所述样本环境语音信号包含的包络线标签的差异,迭代地调整所述待训练的语音包络解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音包络解码模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述眼动信号解码得到听觉注意方位包括:
将所述眼动信号输入至语音方位解码模型中,通过所述语音方位解码模型解码得到听觉注意方位;
其中,所述语音方位解码模型,是预先根据样本眼动信号和包含方位标签的样本环境语音信号训练得到的。
5.根据权利要求4所述的方法,其特征在于,所述语音方位解码模型是通过语音方位解码模型训练步骤得到的;所述语音方位解码模型训练步骤包括:
将样本眼动信号和包含方位标签的样本环境语音信号输入至待训练的语音方位解码模型中;
通过所述待训练的语音方位解码模型根据所述样本眼动信号,得到预测的方位;
通过所述待训练的语音方位解码模型,根据预测的方位和所述样本环境语音信号包含的方位标签的差异,迭代地调整所述待训练的语音方位解码模型的模型参数,直至满足迭代停止条件,得到训练完成的语音方位解码模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述包络线,从所述环境语音信号中提取听觉注意对象的语音信号,以及根据所述听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号包括:
将所述包络线和所述环境语音信号输入至语音提取模型中,通过所述语音提取模型根据所述包络线,从所述环境语音信号中提取所述听觉注意对象的语音信号;
将所述听觉注意方位和所述环境语音信号输入至声源提取模型中,通过所述声源提取模型根据所述听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号。
7.一种类脑助听装置,其特征在于,所述装置包括:
数据获取模块,用于获取助听设备佩戴者所处语音环境中的环境语音信号、以及所述助听设备佩戴者的脑电信号和眼动信号;
听觉注意对象解码模块,用于根据所述脑电信号解码得到听觉注意对象的语音信号的包络线;所述听觉注意对象,是所述助听设备佩戴者在所述语音环境中所注意的发声者;
听觉注意方位解码模块,用于根据所述眼动信号解码得到听觉注意方位;所述听觉注意方位,是所述助听设备佩戴者在所述语音环境中所注意的方位;
决策融合模块,用于将所述包络线和所述听觉注意方位输入至决策融合网络层;通过所述决策融合网络层,根据所述听觉注意方位优化所述包络线得到目标包络线,以及根据所述包络线优化所述听觉注意方位得到目标听觉注意方位;
语音提取模块,用于根据所述目标包络线,从所述环境语音信号中提取听觉注意对象的语音信号;
声源提取模块,用于根据所述目标听觉注意方位,从所述环境语音信号中提取所述听觉注意方位的语音信号;
特征融合模块,用于将所述听觉注意对象的语音信号和所述听觉注意方位的语音信号融合得到待输出的听觉注意语音信号,从而使所述助听设备佩戴者的人脑听觉活动以及眼动情况相耦合。
8.根据权利要求7所述的装置,其特征在于,所述听觉注意对象解码模块,还用于将所述脑电信号输入至语音包络解码模型中,通过所述语音包络解码模型解码得到听觉注意对象的语音信号的包络线;其中,所述语音包络解码模型,是预先根据样本脑电信号和包含包络线标签的样本环境语音信号训练得到的。
9.一种助听设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
CN202210859184.1A 2022-07-21 2022-07-21 类脑助听方法、装置、助听设备和计算机设备 Active CN115243180B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210859184.1A CN115243180B (zh) 2022-07-21 2022-07-21 类脑助听方法、装置、助听设备和计算机设备
PCT/CN2022/143942 WO2024016608A1 (zh) 2022-07-21 2022-12-30 类脑助听方法、装置、助听设备、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210859184.1A CN115243180B (zh) 2022-07-21 2022-07-21 类脑助听方法、装置、助听设备和计算机设备

Publications (2)

Publication Number Publication Date
CN115243180A CN115243180A (zh) 2022-10-25
CN115243180B true CN115243180B (zh) 2024-05-10

Family

ID=83673831

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210859184.1A Active CN115243180B (zh) 2022-07-21 2022-07-21 类脑助听方法、装置、助听设备和计算机设备

Country Status (2)

Country Link
CN (1) CN115243180B (zh)
WO (1) WO2024016608A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243180B (zh) * 2022-07-21 2024-05-10 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN116172580B (zh) * 2023-04-20 2023-08-22 华南理工大学 一种适用于多声源场景的听觉注意对象解码方法
CN117014761B (zh) * 2023-09-28 2024-01-26 小舟科技有限公司 交互式脑控耳机控制方法及装置、脑控耳机、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109121056A (zh) * 2017-06-22 2019-01-01 奥迪康有限公司 用于捕获眼动电图信号的***
CN110166916A (zh) * 2018-02-13 2019-08-23 奥迪康有限公司 耳内式助听器装置、助听器及电声变换器
WO2020029998A1 (zh) * 2018-08-08 2020-02-13 斯达克实验室公司 脑电图辅助的波束形成器和波束形成方法以及耳戴式听力***
CN111667834A (zh) * 2020-05-21 2020-09-15 北京声智科技有限公司 一种助听设备及助听方法
EP3836570A1 (en) * 2019-12-12 2021-06-16 Oticon A/s Signal processing in a hearing device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2736273A1 (en) * 2012-11-23 2014-05-28 Oticon A/s Listening device comprising an interface to signal communication quality and/or wearer load to surroundings
US11630513B2 (en) * 2018-12-20 2023-04-18 Massachusetts Institute Of Technology End-to-end deep neural network for auditory attention decoding
EP3675525B1 (en) * 2018-12-29 2023-05-24 GN Hearing A/S Hearing aids with self-adjustment capability based on electro-encephalogram (eeg) signals
CA3137818A1 (en) * 2020-05-29 2021-11-29 Tandemlaunch Inc. Multimodal hearing assistance devices and systems
CN113143293B (zh) * 2021-04-12 2023-04-07 天津大学 一种基于脑电源成像的连续语音包络神经夹带提取方法
CN115243180B (zh) * 2022-07-21 2024-05-10 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109121056A (zh) * 2017-06-22 2019-01-01 奥迪康有限公司 用于捕获眼动电图信号的***
CN110166916A (zh) * 2018-02-13 2019-08-23 奥迪康有限公司 耳内式助听器装置、助听器及电声变换器
WO2020029998A1 (zh) * 2018-08-08 2020-02-13 斯达克实验室公司 脑电图辅助的波束形成器和波束形成方法以及耳戴式听力***
EP3836570A1 (en) * 2019-12-12 2021-06-16 Oticon A/s Signal processing in a hearing device
CN111667834A (zh) * 2020-05-21 2020-09-15 北京声智科技有限公司 一种助听设备及助听方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Auditory Attention Detection with EEG Channel Attention;Enze Su;《Annual International Conference of the IEEE Engineering in Medicine and Biology Society》;20211231;全文 *
EEG-Based Auditory Attention Detection via Frequency and Channel Neural Attention;Siqi Cai;《IEEE Transactions on Human-Machine Systems》;20211202;全文 *
基于扫频听觉诱发电位的听力损失检测方法研究;姜言冰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220115;全文 *
基于样本熵的听觉神经锁相机理的实验分析;朱莉;邓娟;吴建华;周南润;;物理学报;20150923(18);全文 *
老年听障者常用听觉辅助装置;徐陆莉;傅鑫萍;黄画;朱立新;;中国听力语言康复科学杂志;20200715(04);全文 *

Also Published As

Publication number Publication date
CN115243180A (zh) 2022-10-25
WO2024016608A1 (zh) 2024-01-25

Similar Documents

Publication Publication Date Title
CN115243180B (zh) 类脑助听方法、装置、助听设备和计算机设备
US10944708B2 (en) Conversation agent
Edwards The future of hearing aid technology
Martin et al. Word pair classification during imagined speech using direct brain recordings
Muhammad Automatic speech recognition using interlaced derivative pattern for cloud based healthcare system
US11395076B2 (en) Health monitoring with ear-wearable devices and accessory devices
WO2015023751A1 (en) Device for language processing enhancement in autism
US20210225365A1 (en) Systems and Methods for Assisting the Hearing-Impaired Using Machine Learning for Ambient Sound Analysis and Alerts
JP2015118185A (ja) 情報処理装置、情報処理方法、およびプログラム
Mehra et al. Potential of augmented reality platforms to improve individual hearing aids and to support more ecologically valid research
Cai et al. Low Latency Auditory Attention Detection with Common Spatial Pattern Analysis of EEG Signals.
Bitzer et al. Privacy-aware acoustic assessments of everyday life
Lakshmi et al. A systematic review and meta-analysis of digital noise reduction hearing aids in adults
Fabry et al. Improving speech understanding and monitoring health with hearing aids using artificial intelligence and embedded sensors
Fu et al. Congruent audiovisual speech enhances auditory attention decoding with EEG
Tremblay et al. How neuroscience relates to hearing aid amplification
Mielke et al. An assistive technology for hearing-impaired persons: Analysis, requirements and architecture
CN108170452A (zh) 机器人的成长方法
Li et al. A biologically inspired attention network for EEG-based auditory attention detection
Jiang et al. Detecting the locus of auditory attention based on the spectro-spatial-temporal analysis of EEG
Bhowmik et al. Hear, now, and in the future: Transforming hearing aids into multipurpose devices
Hazarika et al. Smartphone-Based Natural Environment Electroencephalogram Experimentation-Opportunities and Challenges
DE112021003164T5 (de) Systeme und Verfahren zum Erkennen von Sprachbefehlen, um eine Peer-to-Peer-Kommunikationsverbindung zu erzeugen
Tanveer et al. Deep learning-based auditory attention decoding in listeners with hearing impairment
Han et al. Hearing aids app design based on deep learning technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221109

Address after: No. 2001, Longxiang Avenue, Longcheng street, Longgang District, Shenzhen, Guangdong 518172

Applicant after: THE CHINESE University OF HONGKONG SHENZHEN

Applicant after: SHENZHEN Research Institute OF BIG DATA

Address before: No. 2001, Longxiang Avenue, Longcheng street, Longgang District, Shenzhen, Guangdong 518172

Applicant before: THE CHINESE University OF HONGKONG SHENZHEN

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant