CN111402883A - 一种复杂环境下分布式语音交互***中就近响应***和方法 - Google Patents

一种复杂环境下分布式语音交互***中就近响应***和方法 Download PDF

Info

Publication number
CN111402883A
CN111402883A CN202010245803.9A CN202010245803A CN111402883A CN 111402883 A CN111402883 A CN 111402883A CN 202010245803 A CN202010245803 A CN 202010245803A CN 111402883 A CN111402883 A CN 111402883A
Authority
CN
China
Prior art keywords
data
awakening word
energy
awakening
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010245803.9A
Other languages
English (en)
Other versions
CN111402883B (zh
Inventor
丁少为
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010245803.9A priority Critical patent/CN111402883B/zh
Publication of CN111402883A publication Critical patent/CN111402883A/zh
Application granted granted Critical
Publication of CN111402883B publication Critical patent/CN111402883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Electric Clocks (AREA)

Abstract

本发明提出了一种复杂环境下分布式语音交互***中就近响应方法和***,所述就近响应***包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;所述方法包括步骤1、采集多个可能被唤醒的智能设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;步骤3、计算唤醒词前一段时间内唤醒词数据中噪声干扰能量和唤醒词能量,并确定唤醒词数据;步骤4、利用唤醒词分量计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。

Description

一种复杂环境下分布式语音交互***中就近响应***和方法
技术领域
本发明提出了一种复杂环境下分布式语音交互***中就近响应***和方法,属于语音降噪处理技术领域。
背景技术
随着语音智能设备的普及,家居环境中可能出现多个同一唤醒词的不同设备(如:电视、冰箱、空调、洗衣机等均由同一个唤醒词唤醒),这种场景下很有可能出现“一呼百应”的情况,最简单的方法是根据唤醒词时间段的信号能量选择最近设备,即声音传播距离越远,能量衰减越严重,则距离用户最近的设备所接收的唤醒词能量最大,由此根据能量选择最近设备,过分依赖于唤醒词时间段内的信号能量,在噪声环境下就近响应正确率将急剧下降,若某一设备离噪声源较近且离用户较远,则其唤醒词时间段内同时会接收的噪声能量也较多,导致其能量高于最近设备而被误判为最近设备。
发明内容
本发明提供了一种复杂环境下分布式语音交互***中就近响应***和方法,用以解决现有的***和方法对语音唤醒最近设备判断错误率较高的问题,所采取的技术方案如下:
一种复杂环境下分布式语音交互***中就近响应***,所述就近响应***包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。
进一步地,所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
进一步地,所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块。
进一步地,所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
进一步地,所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure BDA0002433948400000021
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
进一步地,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure BDA0002433948400000022
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
进一步地,所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure BDA0002433948400000031
其中,KF为最终响应的设备编号。
一种如上述任一所述***对应的就近响应方法,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
进一步地,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;由于此时只能得到两个分量供筛选唤醒词分量模块使用,在此处还不能确定哪个是噪声干扰分量,哪个是唤醒词分量,因此分别将这两个不能确定性质的分量进行标记,记做X_1k(t)和X_2k(t);
步骤3、利用公式(1)并结合噪声干扰分量和唤醒词分量计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure BDA0002433948400000032
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E1k(t)<E2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure BDA0002433948400000041
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure BDA0002433948400000042
其中,KF为最终响应的设备编号。
本发明有益效果:
本发明提出的一种复杂环境下分布式语音交互***中就近响应***和方法,能够将唤醒词段数据中的噪声与唤醒词分离出来,再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该***和方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
附图说明
图1为发明所述就近响应***的结构示意图;
图2为发明所述就近响应***的原理示意图;
图3为发明所述就近响应方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种复杂环境下分布式语音交互***中就近响应***,如图1所示,所述就近响应***包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。
上述技术方案的工作原理为:针对多个可能被唤醒的智能设备,通过所述信号采集模块采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;然后,通过信号输入模块将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;并通过所述分布式引擎利用盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;最后,利用所述响应信号传输模块向分布式引擎筛选出的进行响应的智能设备发送响应指令。
上述技术方案的技术效果为:该***能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
上述技术方案的工作原理为:通过盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中噪声干扰能量和唤醒词能量;然后,通过设备筛选模块计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
上述技术方案的技术效果为:所述就近响应***能够将唤醒词段数据中的噪声与唤醒词分离出来,再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该***能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
盲源分离后的数据中有噪声分量和唤醒词分量,但是并不能知道哪个分量中包含唤醒词,哪个分量中只有噪声;这里通过前端只包含噪声的数据能量来进行判断,包含唤醒词分量中的前段噪声数据能量会低于相应的噪声数据能量,以此筛选出包含唤醒词分量的数据,能够准确的提炼出包含唤醒词的噪声干扰分量。
其中,所述筛选唤醒词分量模块依据如下公式计算计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure BDA0002433948400000061
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块。
上述技术方案的工作原理:通过所述数据接收模块接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;然后利用所述分离模块,通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得噪声干扰分量和唤醒词分量;并利用数据传输模块一将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;所述筛选唤醒词分量模块在接收到噪声干扰和唤醒词之后根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;最后通过数据传输模块二将唤醒词数据输入至设备筛选模块。
上述技术方案的技术效果为:将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度,并提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性。
本发明的一个实施例,所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
其中,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure BDA0002433948400000071
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure BDA0002433948400000072
其中,KF为最终响应的设备编号。
上述技术方案的工作原理:通过能量判断模块接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;然后通过能量数据传输模块将能量数据发送至设备选取模块;最后,利用所述设备选取模块在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
上述技术方案的技术效果:将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量,能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性,提高响应设备被唤醒的正确率。
一种如上述任一所述***对应的就近响应方法,如图3所示,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
上述技术方案的原理和效果为:通过对每个智能设备的唤醒词段数据进行盲源分离的方式,获得噪声干扰分量和唤醒词分量;再利用分离后唤醒词的能量作为就进设备的选择依据对智能设备进行筛选,从众多待应答的智能设备中选择出响应设备。该方法能够有效降低噪声源对选择就近智能设备进行响应时的干扰,有效提升提升了噪声场景下分布式引擎的鲁棒性和设备响应筛选的准确性。
本发明的一个实施例,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;由于此时只能得到两个分量供筛选唤醒词分量模块使用,这两个分量中,必有一个为噪声干扰分量,一个为唤醒词分量,但是在此处还不能确定哪个是噪声干扰分量,哪个是唤醒词分量,因此分别将这两个不能确定性质的分量进行标记,记做X_1k(t)和X_2k(t);
步骤3、利用公式(1)并结合分量X_1k(t)和X_2k(t)计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure BDA0002433948400000081
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E1k(t)<E2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure BDA0002433948400000091
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure BDA0002433948400000092
其中,KF为最终响应的设备编号。
上述技术方案的原理和效果为:通过盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离并利用筛选唤醒词分量模块计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据。将唤醒词段和唤醒词前段时间数据有效结合起来能够更大程度上提高唤醒词能量的计算精度,并提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性。同时,将唤醒词前段时间和唤醒时间段相结合的方式计算唤醒此能量,能够进一步极大程度上提高除噪音干扰能量的筛选率和剔除率,进而提高后续响应设备筛选的准确性,提高响应设备被唤醒的正确率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种复杂环境下分布式语音交互***中就近响应***,其特征在于,所述就近响应***包括信号采集模块、信号输入模块、分布式引擎和响应信号传输模块;
所述信号采集模块,用于针对多个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据;其中,所述可能被唤醒的智能设备是指包含同一唤醒词的不同智能设备;
所述信号输入模块,用于将所述信号采集模块采集到的唤醒词段数据和噪声数据输入至分布式引擎中;
所述分布式引擎,用于通过盲源分离方法在多个可能被唤醒的智能设备筛选出唤醒词能量最大的智能设备,并选择唤醒词能量最大的智能设备作为最近设备进行响应;
所述响应信号传输模块,用于向分布式引擎筛选出的进行响应的智能设备发送响应指令。
2.根据权利要求1所述***,其特征在于,所述分布式引擎包括盲源分离模块和设备筛选模块;
所述盲源分离模块,用于对每个智能设备的唤醒词段数据进行盲源分离,获得噪声干扰分量和唤醒词分量;并根据噪声干扰和唤醒词计算唤醒词前t1段时间数据能量;
所述设备筛选模块,用于计算各个智能设备唤醒词数据中,各个智能设备的唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量。
3.根据权利要求2所述***,其特征在于,所述盲源分离模块包括数据接收模块、分离模块、数据传输模块一、筛选唤醒词分量模块和数据传输模块二;
所述数据接收模块,用于接收信号采集模块采集到的唤醒词段数据和噪声数据,并将所述唤醒词段数据和噪声数据发送至分离模块中;
所述分离模块,用于利用盲源分离方法对各个智能设备的唤醒词段数据进行噪声和唤醒词分量分离,并获得两个分量,所述两个分量分别为噪声干扰分量和唤醒词分量;
所述数据传输模块一,用于将分离模块获得的噪声干扰分量和唤醒词分量发送至筛选唤醒词分量模块中;
所述筛选唤醒词分量模块,用于计算唤醒词前t1段时间数据中的噪声干扰分量的能量,并对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
所述数据传输模块二,用于将唤醒词数据输入至设备筛选模块。
4.根据权利要求2所述***,其特征在于,所述设备筛选模块包括能量判断模块、能量数据传输模块和设备选取模块;
所述能量判断模块,用于接收唤醒词分并根据唤醒词分量来计算各个智能设备唤醒词数据中在唤醒时间段中的能量,获得能量数据;
所述能量数据传输模块,用于将能量数据发送至设备选取模块;
所述设备选取模块,用于在所述能量数据中筛选出能量数值对大的智能设备,并将该智能设备作为最近设备进行响应。
5.根据权利要求3所述***,其特征在于,所述筛选唤醒词分量模块依据如下公式计算唤醒词前t1段时间数据中的噪声干扰分量的能量:
Figure FDA0002433948390000021
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t)。
6.根据权利要求4所述***,其特征在于,所述能量判断模块依据如下公式计算各个智能设备唤醒词数据中在唤醒时间段中的能量:
Figure FDA0002433948390000022
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点。
7.根据权利要求4所述***,其特征在于,所述设备选取模块利用如下公式筛选出能量数值对大的智能设备:
Figure FDA0002433948390000023
其中,KF为最终响应的设备编号。
8.一种如权利要求1-7任一所述***对应的就近响应方法,其特征在于,所述就近响应方法过程包括:
步骤1、针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;
步骤2、对每个智能设备的唤醒词数据进行盲源分离,分离出噪声干扰分量和唤醒词分量;
步骤3、根据噪声干扰和唤醒词计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据;
步骤4、利用唤醒词数据计算各个智能设备唤醒词数据中,唤醒词分量在唤醒时间段内的能量,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
步骤5、在各个智能设备的唤醒词能量中,选择能量最大的设备作为最近设备进行响应。
9.根据权利要求8所述就近响应方法,其特征在于,所述就近响应方法的具体过程包括:
步骤1、假设K个智能设备可能被唤醒,针对K个可能被唤醒的智能设备,采集每个设备的唤醒词段数据以及每个设备前t1段时间内的噪声数据,其中,K为大于1的整数;并将所述唤醒词段数据和噪声数据输入至分布式引擎中的盲源分离模块中,记第k各设备的数据为Sk(t);
步骤2、利用盲源分离模块对每个智能设备的唤醒词段数据进行盲源分离获得噪声干扰分量和唤醒词分量,并将所得分量分别记为X_1k(t)和X_2k(t),以备筛选唤醒词分量模块使用;
步骤3、利用公式(1)并结合噪声干扰分量和唤醒词分量计算唤醒词前t1段时间数据中的噪声干扰分量的能量,对各噪声干扰分量的能量进行比较,确定噪声干扰数据中能量最小的对应数据为包含唤醒词分量的数据,即为唤醒词数据
Figure FDA0002433948390000031
其中,E1k(t)和E2k(t)为盲源分离所得两分量中前t1段时间数据中的噪声干扰分量的能量;t0为输出数据的开始时间,记唤醒词数据为Yk(t);若E1k(t)<E2k(t),则Yk(t)=X_1k(t),否则,Yk(t)=X_2k(t);
步骤4、将唤醒词分量输入设备筛选模块,并根据公式(2)各个智能设备的唤醒词数据中,唤醒词分量在唤醒时间段内的能量,其中,所述唤醒词分量在唤醒时间段内的能量即为唤醒词能量;
Figure FDA0002433948390000032
其中,EFinalk为第k个智能设备的唤醒词能量,t2为唤醒词结束的时间点;
步骤5、在各个智能设备的唤醒词能量中,利用公式(3)选择能量最大的设备作为最近设备进行响应;
Figure FDA0002433948390000033
其中,KF为最终响应的设备编号。
CN202010245803.9A 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互***中就近响应***和方法 Active CN111402883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245803.9A CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互***中就近响应***和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245803.9A CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互***中就近响应***和方法

Publications (2)

Publication Number Publication Date
CN111402883A true CN111402883A (zh) 2020-07-10
CN111402883B CN111402883B (zh) 2023-05-26

Family

ID=71429397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245803.9A Active CN111402883B (zh) 2020-03-31 2020-03-31 一种复杂环境下分布式语音交互***中就近响应***和方法

Country Status (1)

Country Link
CN (1) CN111402883B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201239A (zh) * 2020-09-25 2021-01-08 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112634890A (zh) * 2020-12-17 2021-04-09 北京百度网讯科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
US20180366117A1 (en) * 2017-06-20 2018-12-20 Bose Corporation Audio Device with Wakeup Word Detection
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004053839A1 (en) * 2002-12-11 2004-06-24 Softmax, Inc. System and method for speech processing using independent component analysis under stability constraints
US20180366117A1 (en) * 2017-06-20 2018-12-20 Bose Corporation Audio Device with Wakeup Word Detection
CN108899044A (zh) * 2018-07-27 2018-11-27 苏州思必驰信息科技有限公司 语音信号处理方法及装置
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN110265020A (zh) * 2019-07-12 2019-09-20 大象声科(深圳)科技有限公司 语音唤醒方法、装置及电子设备、存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112201239A (zh) * 2020-09-25 2021-01-08 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112201239B (zh) * 2020-09-25 2024-05-24 海尔优家智能科技(北京)有限公司 目标设备的确定方法及装置、存储介质、电子装置
CN112599126A (zh) * 2020-12-03 2021-04-02 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112599126B (zh) * 2020-12-03 2022-05-27 海信视像科技股份有限公司 一种智能设备的唤醒方法、智能设备及计算设备
CN112634890A (zh) * 2020-12-17 2021-04-09 北京百度网讯科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN112634890B (zh) * 2020-12-17 2023-11-24 阿波罗智联(北京)科技有限公司 用于唤醒播放设备的方法、装置、设备以及存储介质
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置

Also Published As

Publication number Publication date
CN111402883B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111402883A (zh) 一种复杂环境下分布式语音交互***中就近响应***和方法
CN110287552B (zh) 基于改进随机森林算法的电机轴承故障诊断方法及***
CN105448303B (zh) 语音信号的处理方法和装置
KR101734829B1 (ko) 지역성 말투를 구분하는 음성 데이터 인식 방법, 장치 및 서버
CN111192589A (zh) 语音唤醒方法及装置
CN111832462B (zh) 一种基于深度神经网络的跳频信号检测与参数估计方法
CN110596506A (zh) 基于时间卷积网络的变换器故障诊断方法
CN110545396A (zh) 一种基于定位去噪的语音识别方法及装置
CN112782684B (zh) 一种人体目标检测方法、装置、计算机设备和存储介质
CN104616002A (zh) 用于年龄段判断的面部识别设备
CN110619264B (zh) 基于UNet++的微地震有效信号识别方法及装置
CN109671430B (zh) 一种语音处理方法及装置
CN109741760A (zh) 噪声估计方法及***
CN114186617B (zh) 一种基于分布式深度学习的机械故障诊断方法
CN117392484A (zh) 一种模型训练方法、装置、设备及存储介质
CN117540220B (zh) 一种近零碳园区源网荷匹配方法及***
CN110631064B (zh) 一种声音识别方法及应用有该声音识别方法的吸油烟机的自动控制方法
CN109784145A (zh) 基于深度图的目标检测方法及存储介质
CN109343481A (zh) 一种控制设备的方法与设备
CN110459206A (zh) 一种基于双机器识别的语音识别***及方法
CN115547352A (zh) 电子设备及其噪音的处理方法、装置及介质
CN111128169A (zh) 语音唤醒方法及装置
CN106326882A (zh) 一种基于图像质量评估技术的指纹识别***及方法
CN117492398B (zh) 一种高速数据采集***及其采集方法
Cui et al. Mobile Big Data Analytics for Human Behavior Recognition in Wireless Sensor Network Based on Transfer Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant