CN116564316B - 一种语音人机交互方法、装置 - Google Patents

一种语音人机交互方法、装置 Download PDF

Info

Publication number
CN116564316B
CN116564316B CN202310843070.2A CN202310843070A CN116564316B CN 116564316 B CN116564316 B CN 116564316B CN 202310843070 A CN202310843070 A CN 202310843070A CN 116564316 B CN116564316 B CN 116564316B
Authority
CN
China
Prior art keywords
information
current
instruction
historical
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310843070.2A
Other languages
English (en)
Other versions
CN116564316A (zh
Inventor
钟雨崎
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bianfeng Information Technology Co ltd
Original Assignee
Beijing Bianfeng Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bianfeng Information Technology Co ltd filed Critical Beijing Bianfeng Information Technology Co ltd
Priority to CN202310843070.2A priority Critical patent/CN116564316B/zh
Publication of CN116564316A publication Critical patent/CN116564316A/zh
Application granted granted Critical
Publication of CN116564316B publication Critical patent/CN116564316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种语音人机交互方法、装置,该方法包括:获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,根据校验结果,确定是否执行当前指令,并将当前指令信息作为本次交互信息予以记录。本申请实现了免唤醒词的情形下可靠地进行交互。

Description

一种语音人机交互方法、装置
技术领域
本发明涉及智能家居领域,特别地,涉及一种语音人机交互方法、装置。
背景技术
随着语音识别、关键词识别技术的发展,现在电子智能设备已经基本具备语音人机交互的能力,但是当前语音人机交互都需要先进行唤醒确认,才能执行语音下达的指令。
参见图1所示,图1为现有的需要唤醒词唤醒之后方执行指令的一种流程示意图。智能设备检测是否接收到语音,在检测到语音的情形下,识别所检测语音中的唤醒词,如果唤醒词正确,则获取语音中所包含的指令内容,在指令内容被正确识别的情形下,执行指令,当上述任一步骤失败时,都不会有指令被执行。
由此可见,现有的语音人机交互过程中,唤醒词、指令内容都必须被识别方能进行交互。例如市面上已有的智能音箱,都需要先喊出唤醒词,如:“XX精灵”、“XX同学”等,每次交互都需要按此格式进行,一旦唤醒词不正确,则不会生成进一步的响应,这样的人机交互方式比较繁琐,用户体验不佳。
发明内容
本发明提供了一种语音人机交互方法,即使无唤醒词也能正确地实现期望的人机交互。
本申请第一方面提供一种语音人机交互方法,该方法包括:
获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,其中,当前语音信号中不包括任一唤醒词,
在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,
利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,
根据校验结果,确定是否执行当前指令。
较佳地,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,
利用所搜索到的历史指令信息的历史执行时长,对当前指令信息进行校验,得到第一校验结果;
所述根据校验结果,确定是否执行当前指令,包括:
根据第一校验结果,确定是否执行当前指令,将当前指令信息作为本次交互信息予以记录;
所述将当前指令信息作为本次交互信息予以记录,包括:
将当前指令信息、以及当前指令的执行结果作为本次交互信息予以记录,
其中,
当前指令的执行结果至少包括:当前指令被执行的情况下的执行时长;
所述执行时长根据本次交互所执行指令与上一次交互所执行指令之间的时间间隔确定。
较佳地,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息的当前状态信息进行校验,得到第二校验结果;
所述根据校验结果,确定是否执行当前指令,包括:
根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,
并将当前运行状态作为本次交互信息予以记录。
较佳地,所述在检测到语音的情形下,进一步包括:
对所述当前语音信号进行声源定位,得到当前声源定位信息;和/或
获取当前语音信号的当前声纹信息;
所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息进行校验,得到第三校验结果;和/或
利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,得到第四校验结果;
所述根据校验结果,确定是否执行当前指令,包括:
根据各校验结果的投票结果,确定是否执行当前指令,
将当前声源定位信息和/或当前声纹信息作为本次交互信息予以记录。
较佳地,所述利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息进行校验,包括:
计算所搜索到的历史指令信息中与当前状态信息相同的历史运行状态信息在所有历史运行状态中的比例,该比例值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息的执行时长,对当前指令信息进行校验,包括:
统计所搜索到的历史指令信息的执行时长的平均值,该平均值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息的进行校验,包括:
将当前声源定位信息与各历史声源定位信息进行相似度计算,并求取各相似度的平均值,该平均值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,包括:
将当前声纹信息与各历史声纹信息进行欧式距离计算,并求取各欧式距离的平均值,该平均值越小,当前指令信息的置信度越大。
较佳地,所述根据各校验结果的投票结果,确定是否执行当前指令,包括:
若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,
若相似度平均值大于设定的第二阈值,则赋予第三校验结果的第三投票结果有效,和/或,若欧式距离平均值大于设定的第三阈值,则赋予第四校验结果的第四投票结果有效,
统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
较佳地,所述根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,包括:
若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,
若当前状态在所有历史运行状态中的比例值大于设定的第二阈值,则赋予第二校验结果的第二投票结果有效,
统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
较佳地,该方法进一步包括:
检查本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息是否大于设定的间隔阈值,
如果是,则将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为正样本,否则,将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为负样本,或删除上一次交互信息;利用所记录的正样本和负样本,对用于进行信息校验的神经网络模型进行训练,得到训练后的神经网络模型,或者,对用于声源定位信息校验的第一神经网络模型、用于声纹信息校验的第二神经网络模型、用于运行状态信息校验的第三神经网络模型、用于当前指令信息本身校验的第四神经网络模型中的至少之一神经网络模型分别进行训练,得到各个训练后的神经网络模型;
所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
通过训练后的神经网络模型,对当前指令信息的当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息本身至少之一进行校验。
本申请第二方面提供一种语音人机交互装置,该交互装置包括:
检测模块,用于获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前语音信号当前语音信号中不包括任一唤醒词,当前允许的指令词集根据被控设备的当前运行状态确定,
校验模块,用于利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,
确定模块,用于根据校验结果,确定是否执行当前指令。
本申请第三方面提供一种电子设备,该电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器被配置执行任一所述语音人机交互方法的步骤。
本申请提供的一种语音人机交互方法,通过检测所识别的语音内容中包括的根据被控设备的当前运行状态确定当前允许的指令词集中的指令词,使得交互无需唤醒词也可实现指令的执行,通过利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,实现了对误交互的抑制,这样,即使无唤醒词也能正确地实现期望的人机交互,大幅提升了用户交互体验,并有利于提高交互的可靠性。
附图说明
图1为现有的需要唤醒词唤醒之后方执行指令的一种流程示意图。
图2为本申请的语音人机交互方法的一种流程示意图。
图3为本申请实施例一的语音人机交互方法的一种流程示意图。
图4 为本申请实施例二的语音人机交互方法的一种流程示意图。
图5为本申请实施例的语音人机交互装置的一种示意图。
图6为本申请实施例的语音人机交互装置的又一种示意图。
图7为本申请实施例的语音人机交互装置的再一种示意图。
图8为本申请实施例的语音人机交互装置的另一种示意图。
具体实施方式
为了使本申请的目的、技术手段和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。
参见图2所示,图2为本申请语音人机交互方法的一种流程示意图,该方法包括:在被控设备侧或中控侧,
步骤201,获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,其中,当前语音信号中不包括任一唤醒词,
步骤202,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,
其中,
当前允许的指令词集根据被控设备的当前运行状态确定,当前允许的指令词集为预先建立的指令词集的子集,预先建立的指令词集可根据历史交互信息而进行更新。
历史交互信息包括:历次语音人机交互过程中所生成的指令信息,该指令信息相对于本次交互而言为历史指令信息。
步骤203,利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,
步骤204,根据校验结果,确定是否执行当前指令,并将当前指令信息作为本次交互信息予以记录,以便形成历史交互信息。
在本申请实施例通过根据被控设备的当前运行状态而确定的当前允许的指令词集,可以过滤掉与被控设备无关的语音信号,这样无须任何唤醒词便可进行设备的唤醒,通过历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,有效地抑制了误交互指令,提高了语音人机交互的可靠性,从而实现了免唤醒词的语音人机交互。
为便于理解本申请,以下以智能家居***为例来说明,所应理解的是,本申请实施例不限于智能家居***,对于单体的智能设备、或具有中控的***例如车辆中控也同样适用。
实施例一
参见图3所示,图3为本申请实施例一的语音人机交互方法的一种流程示意图。在中心控制器侧,该方法包括:
步骤301,根据当前运行状态,确定当前允许的指令词集。
作为一种示例,在智能家居***中,中心控制器获取各智能设备的当前运行状态,
例如:当前智能家居***连接了智能设备A、B、C,并且均处于未运行状态,当前***也没有在执行任何任务,则可允许的指令词集包括:打开A、打开B、打开C、***其它相关初始指令词,不包括关闭A、关闭B、关闭C等所允许指令集中对应指令词的反义词或对立词。
又例如:当前智能家居***连接了智能设备A、B、C,并且智能设备A在运行,智能设备B、C均处于未运行状态,当前***也没有在执行任何任务,则可允许的指令词集包括:关闭A、打开B、打开C、***其它相关初始指令词,不包括打开A、关闭B、关闭C等所允许指令集中对应指令词的反义词或对立词。
作为另一种示例,对于单体的智能设备,该智能设备的控制器获取该智能设备当前运行状态,
例如,智能设备当前处于关闭状态,则可支持命令词集包括:打开,又例如,智能设备当前处于运行状态且处某一功能的运行状态,则可支持命令词集包括:与该功能运行状态关联的指令词。
以智能音箱为例,若智能音箱当前处于输出音频的状态,则可支持命令词集包括:用于控制音量大小的指令词,例如,增大声音,减小声音,用于控制音效模式的指令词,例如,立体声环绕,重低音等。
所应理解的是,允许的指令词集中可包括相近意思表达的模糊指令词,例如,对应于增大声音的相近指令词还可以包括且不限于:大点声,大声些,声音大点(些),声音太小,听不见等的等效指令词。
允许的指令词集为***指令词集的子集,***指令词集可以预先生成,并可根据历史交互时所记录的已执行的历史指令进行维护和更新。
步骤302,获取当前语音信号,并对当前语音信号进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别。
作为一种示例,可采用Conformer神经网络结构来实现语音内容识别。
所应理解的是,步骤301与步骤302可以没有严格的先后次序,例如,步骤301可以在步骤302之后。
步骤303,根据当前允许的指令词集,判断所识别的语音内容中是否包含了当前允许的指令词集中的指令词,
如果是,则基于指令词生成当前指令信息,并为当前交互(本次交互)创建标识信息,记录当前指令信息及其标识信息,作为本次交互信息;
如果所识别的语音内容中未包含当前允许的指令词集中的指令词,说明所识别的语音内容可能存在错误,则结束本流程。
步骤304,以当前指令信息为搜索依据,搜索历史交互信息中是否存在与当前指令信息相同的历史指令信息,
如果存在,则执行步骤305,以对当前指令进行校验,
否则,执行当前指令,并执行步骤307,
步骤305,利用历史指令信息,对当前指令进行校验,
作为一种示例,根据当前指令信息,统计与当前指令信息相同的各历史指令信息的执行时长,并求各历史指令信息的执行时长的平均值,得到第一校验值,平均值越大,当前指令信息本身的置信度越高。
其中,执行时长可根据本次交互所执行指令与上一次交互所执行指令之间的时间间隔确定。
步骤306,根据第一校验结果,确定是否执行当前指令。
作为一种示例,如果第一校验值大于设定的第一阈值,则触发当前指令的执行,并记录本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息;
否则,不触发当前指令的执行,结束当前交互。
步骤307,根据所记录的本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息,判断时间间隔是否大于设定的间隔阈值,
如果是,说明上一次执行的指令信息是用户所期望的,将本次交互所执行指令与上一次交互所执行指之间的时间间隔信息作为上一次指令的执行时长,进一步地,标记所记录的上一次交互信息为正样本,并作为历史交互信息予以存储,
否则,说明上一次交互所生成的指令信息不是用户所期望的,将本次交互与上一次交互之间的时间间隔信息作为上一次指令的执行时长,标记上一次交互所记录的交互信息作为负样本,或者,删除上一次交互所记录的交互信息。
通过样本标记,可对历史交互信息数据、***指令词集进行维护。作为一种示例,可根据样本标记,对历史交互信息数据、***指令词集进行管理,例如,上报负样本数据,以便进行人工维护。
本实施例通过当前运行状态所允许的指令词集,可实现无唤醒词情形下的语音人机交互,通过统计与当前指令信息相同的各历史指令信息的执行时长,并求各历史指令信息的执行时长的平均值,来对当前指令信息进行校验,可抑制误交互的概率,有利于提高交互的可靠性。
所应理解的是,上述步骤305的另一实现方式为:
步骤305',通过训练后的神经网络模型,对当前指令信息进行校验。
作为一种示例,利用所记录的正样本、负样本数据,对用于进行信息校验的一神经网络模型进行训练,得到训练后的神经网络模型,根据神经网络模型输出的第一校验结果,来触发当前指令的执行。
实施例二
为了降低免唤醒词交互的误交互,提高可靠性,本实施例还通过声源定位信息、声纹定位信息、运行状态信息、指令执行时长来确定是否执行指令。
参见图4,图4为本申请实施例二的语音人机交互方法的一种流程示意图。该方法包括:
步骤401,根据当前运行状态,确定当前允许的指令词集。
步骤402,获取当前语音信号,并对当前语音信号进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,
进一步地,为了降低免唤醒词交互的误交互,提高可靠性,还进行声源定位,得到当前声源定位信息,以获取所检测语音的来源相对于被指令设备的位置信息。
在该步骤中,由于智能设备的位置不同,例如,电视机通常位于客厅中,热水器通常位于卫生间中,用户在向这些设备发送语音指令时通常会在被指令设备附近,这样,进行声源定位有利于提高指令的可靠性,抑制误交互。作为一种示例,可采用TDNN-LSTM神经网络结构来实现声源定位。
较佳地,还可获取声纹信息,以便区分不同的用户。鉴于向这些设备发送语音指令的用户可能是不同的用户,例如,家庭中各成员的语音指令是有效的,而非家庭用户的语音指令是无效的,例如,外来的人员的语音指令,通过声纹信息便可过滤掉无效用户的语音指令,提高来自目标用户的语音指令的置信度,从而抑制误交互。作为一种示例,可采用Resnet50神经网络结构来获取声纹信息。
步骤403,根据当前允许的指令词集,判断所识别的语音内容中是否包含了当前允许的指令词集中的指令词,
如果是,则基于指令词生成当前指令信息,并为当前交互创建标识信息,并记录当前声纹信息、当前声源定位信息、当前指令信息、当前交互与上一次交互之间的时间间隔信息、当前运行状态信息以及其创建的标识;
如果所识别的语音内容中未包含当前允许的指令词集中的指令词,说明所识别的语音内容可能存在错误,则结束本流程。
步骤404,以当前指令信息为搜索依据,搜索历史交互信息中是否存在与当前指令信息相同的历史指令信息,
如果存在,则执行步骤405,
否则,则执行当前指令,并执行步骤407,
步骤405,基于搜索到的历史交互信息,将当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息分别与搜索到的历史交互信息中的历史声源定位信息、历史声纹信息、历史运行状态信息、历史指令信息进行校验,
作为一种示例,将当前声源定位信息与历史声源定位信息进行比对,例如,将当前声纹信息和各历史声纹信息进行余弦相似度计算,并求各余弦相似度的平均值,得到第三校验值,余弦相似度平均值越高则当前声源定位信息越可信,当前指令的置信度也越高。
将当前声纹信息与历史声纹信息进行比对,例如,将当前声纹信息与各历史声纹信息进行欧式距离计算,并求各欧式距离的平均值,得到第四校验值,欧式距离的平均值越小,当前声纹信息越可信,当前指令的置信度也越高。
将当前运行状态与历史运行状态信息进行比对,例如,与当前状态信息相同的历史运行状态信息在所有历史运行状态中的比例,得到第二校验值,该比例值值越大,当前运行状态越可信,当前指令的置信度也越高。例如,以空调设备为例,当前状态为制冷状态,历史运行状态中包括制冷、制热、抽湿,则计算制冷状态在所有历史运行状态中的比例。
根据当前指令信息,统计与当前指令信息相同的各历史指令信息的执行时长,并求各历史指令信息的执行时长的平均值,得到第一校验值,平均值越大,当前指令信息的置信度越高。
步骤406,根据各校验结果的投票结果,来确定是否触发当前指令的执行。
作为一种示例,若第一校验值大于设定的第一阈值,则赋予第一投票结果为有效,若第二校验值大于设定的第二阈值,则赋予第二投票结果为有效,若第三校验值大于设定的第三阈值,则赋予第三投票结果为有效,若第四校验值结果大于设定的第四阈值,则赋予第四投票结果为有效;
统计所有有效的投票结果,在所统计的有效的投票结果大于设定的阈值的情形下,触发当前指令的执行,记录本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息,否则,不触发当前指令的执行,结束当前交互。
步骤407,根据所记录的当前交互与上一次交互之间的时间间隔信息,判断时间间隔是否大于设定的间隔阈值,
如果是,说明当前指令是用户所期望的,进一步地,标记上一次交互所记录的交互信息为正样本,并记录上一次执行指令的执行结果,例如,将当前交互与上一次交互之间的时间间隔信息作为记录上一次执行指令的执行时长,
否则,说明上一次交互所生成的指令信息不是用户所期望的,标记上一次交互所记录的交互信息作为负样本,将当前交互与上一次交互之间的时间间隔信息作为记录上一次执行指令的执行时长,或者,删除上一次交互所记录的交互信息。
例如:执行了指令“打开电视”,用户发现是错误的指令,会立即指令“关闭电视”,以纠正错误指令。那么这次交互中,指令“打开电视”到指令“关闭电视”之间的时间间隔比较短,说明指令“打开电视”是一个误操作,后续遇到相同情形时需要进行抑制。
所应理解的是,利用历史声源定位信息和/或历史声纹信息对当前指令进行校验,可在交互的初期使用,当语音人机交互达到设定的次数或时长,或者语音人机交互的正确性达到预期,则可不再采用历史声源定位信息和/或历史声纹信息对当前指令进行校验。
本实施例通过历史交互信息中的多种数据来对当前指令进行校验,有利于抑制误交互,提高交互的可靠性和准确性。
所应理解的是,上述步骤405~406的另一实现方式为:
步骤405',通过训练后的神经网络模型,对当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息进行校验。
步骤406',根据校验结果,来确定是否触发当前指令的执行。
作为一种示例,利用所记录的正样本、负样本数据,对用于进行信息校验的一神经网络模型进行训练,得到训练后的神经网络模型,该模型可对当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息本身同时进行校验,根据神经网络模型输出的校验结果,来触发当前指令的执行。
作为另一种示例,利用所记录的正样本、负样本数据,分别对用于声源定位信息校验的第一神经网络模型、用于声纹信息校验的第二神经网络模型、用于运行状态信息校验的第三神经网络模型、用于当前指令信息本身校验的第四神经网络模型进行训练,得到各个训练后的神经网络模型;根据各个训练后的神经网络模型所输出的校验结果,或者各个训练后的神经网络模型输出的校验结果的加权结果,来确定是否触发当前指令的执行。
作为一种示例,神经网络模型可以是分类器。参见图5所示,图5为本申请实施例的语音人机交互装置的一种示意图。该装置包括:
检测模块,用于获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,
校验模块,用于利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,
确定模块,用于根据校验结果,确定是否执行当前指令。
作为一种示例,该装置还包括:
记录模块,用于记录每次交互的交互信息。
作为一种示例,所述检测模块包括:
语音识别子模块,用于对所检测到的语音进行语音内容识别,
运行状态子模块,用于获取被控设备的当前运行状态,
指令检测子模块,用于检测在所识别的语音内容中是否包括当前允许的指令词集中的指令词,
所述检测模块还包括:
声源定位子模块,用于对当前语音信号进行声源定位,得到声源定位信息,和/或
声纹模块子模块,用于获取当前语音信号的声纹信息,
所述指令检测子模块,用于在检测到所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,将声源定位子模块的声源定位信息、声纹模块子模块的声纹信息、运行状态子模块的运行状态信息输入至校验模块,
所述记录模块包括:
声源定位信息记录子模块,用于记录每次交互过程中的声源定位信息及其标识信息,
声纹信息记录子模块,用于记录每次交互过程中的声纹信息及其标识信息,
执行时长记录记录子模块,用于记录指令执行时长及其标识信息,
运行状态记录子模块,用于记录每次交互过程中被控设备的运行状态及其标识信息,
执行指令记录子模块,用于记录每次交互过程中所执行的指令信息及其标识信息,
所述校验模块包括:
搜索子模块,用于以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,
执行时长信息校验子模块,用于利用所搜索到的历史指令信息的历史执行时长,对当前指令信息本身进行校验,得到第一校验结果,
运行状态信息校验子模块,用于利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息的当前状态信息进行校验,得到第二校验结果,
声纹信息校验子模块,用于利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息的声纹信息进行校验,得到第三校验结果,
声源定位信息校验子模块,用于利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息的声源定位信息进行校验,得到第四校验结果,
所述校验模块还包括:
投票子模块,用于确定各校验结果的投票结果。
参见图6所示,图6为本申请实施例语音人机交互装置的另一种示意图,图中虚线表示模型训练时使用。在该实施例中,校验模块用于利用训练后的用于进行信息校验的神经网络模型,对当前指令信息本身、运行状态、声源定位信息、声纹信息进行校验。
其中,神经网络模型利用记录模块所记录的正负样本数据进行训练。该训练可以周期性进行,例如,定时地进行训练,也可以非周期性地进行,例如,设定事件触发。
参见图7所示,图7为本申请实施例语音人机交互装置的另一种示意图,图中虚线表示模型训练时使用。在该实施例中,校验模块包括:
第一神经网络模型子模块,用于对当前指令信息的声源定位信息进行校验,
第二神经网络模型子模块,用于对当前指令信息的声纹信息进行校验,
第三神经网络模型子模块,用于对当前指令信息的当前状态进行校验,
第四神经网络模型子模块,用于对当前指令信息本身进行校验;
所述确定模块用于根据各神经网络模型输出的校验结果或其加权结果,确定是否执行当前指令。
其中,各神经网络模型分别可利用各记录模块所记录的正负样本数据分别进行训练,例如,利用声源定位信息记录子模块所记录的声源定位正负样本数据对第一神经网络模型子模块进行训练,利用声纹信息记录子模块所记录的声纹正负样本数据对第二神经网络模型子模块进行训练,利用运行状态记录子模块所记录的状态正负样本数据对第三神经网络模型子模块进行训练,利用执行时长记录子模块所记录的执行时长正负样本数据对第四神经网络模型子模块进行训练。
各训练可以选择分别设定的周期进行训练,也可以选择非周期性地进行训练。
参见图8所示,图8为本申请实施例的语音人机交互装置的另一种示意图。该装置包括存储器和处理器,所述存储器存储有计算机程序,所述处理器被配置执行所述计算机程序以实现本申请实施例所述语音人机交互方法的步骤。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例所述语音人机交互方法的步骤。
对于装置/网络侧设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种语音人机交互方法,其特征在于,该方法包括:
获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,其中,当前语音信号中不包括任一唤醒词,
在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前允许的指令词集根据被控设备的当前运行状态确定,
利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,
根据第一校验结果,确定是否执行当前指令;
其中,
所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,
利用所搜索到的历史指令信息的历史执行时长,对当前指令信息进行校验,得到第一校验结果。
2.如权利要求1所述的语音人机交互方法,其特征在于,
所述根据第一校验结果,确定是否执行当前指令,包括:
根据第一校验结果,确定是否执行当前指令,将当前指令信息作为本次交互信息予以记录;
所述将当前指令信息作为本次交互信息予以记录,包括:
将当前指令信息、以及当前指令的执行结果作为本次交互信息予以记录,
其中,
当前指令的执行结果至少包括:当前指令被执行的情况下的执行时长;
所述执行时长根据本次交互所执行指令与上一次交互所执行指令之间的时间间隔确定。
3.如权利要求2所述的语音人机交互方法,其特征在于,所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息的当前状态信息进行校验,得到第二校验结果;
所述根据第一校验结果,确定是否执行当前指令,进一步包括:
根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,
并将当前运行状态作为本次交互信息予以记录。
4.如权利要求2或3任一所述的语音人机交互方法,其特征在于,所述在检测到语音的情形下,进一步包括:
对所述当前语音信号进行声源定位,得到当前声源定位信息;和/或
获取当前语音信号的当前声纹信息;
所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息进行校验,得到第三校验结果;和/或
利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,得到第四校验结果;
所述根据第一校验结果,确定是否执行当前指令,进一步包括:
根据各校验结果的投票结果,确定是否执行当前指令,
将当前声源定位信息和/或当前声纹信息作为本次交互信息予以记录。
5.如权利要求4所述的语音人机交互方法,其特征在于,所述利用所搜索到的历史指令信息对应的历史运行状态信息,对当前指令信息进行校验,包括:
计算所搜索到的历史指令信息中与当前状态信息相同的历史运行状态信息在所有历史运行状态中的比例,该比例值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息的执行时长,对当前指令信息进行校验,包括:
统计所搜索到的历史指令信息的执行时长的平均值,该平均值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息对应的历史声源定位信息,对当前指令信息的进行校验,包括:
将当前声源定位信息与各历史声源定位信息进行相似度计算,并求取各相似度的平均值,该平均值越大,当前指令信息的置信度越大;
所述利用所搜索到的历史指令信息对应的历史声纹信息,对当前指令信息进行校验,包括:
将当前声纹信息与各历史声纹信息进行欧式距离计算,并求取各欧式距离的平均值,该平均值越小,当前指令信息的置信度越大。
6.如权利要求4所述的语音人机交互方法,其特征在于,所述根据各校验结果的投票结果,确定是否执行当前指令,包括:
若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,
若相似度平均值大于设定的第二阈值,则赋予第三校验结果的第三投票结果有效,和/或,若欧式距离平均值大于设定的第三阈值,则赋予第四校验结果的第四投票结果有效,
统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
7.如权利要求2所述的语音人机交互方法,其特征在于,所述根据第一校验结果和第二校验结果的投票结果,确定是否执行当前指令,包括:
若执行时长平均值大于设定的第一阈值,则赋予第一校验结果的第一投票结果有效,
若当前状态在所有历史运行状态中的比例值大于设定的第二阈值,则赋予第二校验结果的第二投票结果有效,
统计各有效投票结果,在有效投票结果的数量大于设定的数量阈值的情况下,触发执行当前指令。
8.如权利要求1所述的语音人机交互方法,其特征在于,该方法进一步包括:
检查本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息是否大于设定的间隔阈值,
如果是,则将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为正样本,
否则,将本次交互所执行指令与上一次交互所执行指令之间的时间间隔信息作为上一次指令的执行时长,标记所记录的上一次交互信息为负样本,或删除上一次交互信息;
利用所记录的正样本和负样本,对用于进行信息校验的神经网络模型进行训练,得到训练后的神经网络模型,或者,对用于声源定位信息校验的第一神经网络模型、用于声纹信息校验的第二神经网络模型、用于运行状态信息校验的第三神经网络模型、用于当前指令信息本身校验的第四神经网络模型中的至少之一神经网络模型分别进行训练,得到各个训练后的神经网络模型;
所述利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,包括:
通过训练后的神经网络模型,对当前指令信息的当前声源定位信息、当前声纹信息、当前运行状态信息、当前指令信息本身至少之一进行校验。
9.一种语音人机交互装置,其特征在于,该交互装置包括:
检测模块,用于获取当前语音信号并进行语音检测,在检测到语音的情形下,对所检测到的语音进行语音内容识别,在所识别的语音内容中包括当前允许的指令词集中的指令词的情形下,基于所包括的指令词生成当前指令,其中,当前语音信号当前语音信号中不包括任一唤醒词,当前允许的指令词集根据被控设备的当前运行状态确定,
校验模块,用于利用历史交互信息中与当前指令信息相同的历史指令信息,对当前指令进行校验,其中,历史交互信息包括:历次语音人机交互过程中所生成的指令信息,
确定模块,用于根据校验结果,确定是否执行当前指令;
所述校验模块被配置为:以当前指令信息为搜索依据,搜索历史交互信息中与当前指令信息相同的历史指令信息,
利用所搜索到的历史指令信息的历史执行时长,对当前指令信息进行校验,得到第一校验结果。
10.一种电子设备,其特征在于,该电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器被配置执行如权利要求1至8任一所述语音人机交互方法的步骤。
CN202310843070.2A 2023-07-11 2023-07-11 一种语音人机交互方法、装置 Active CN116564316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310843070.2A CN116564316B (zh) 2023-07-11 2023-07-11 一种语音人机交互方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310843070.2A CN116564316B (zh) 2023-07-11 2023-07-11 一种语音人机交互方法、装置

Publications (2)

Publication Number Publication Date
CN116564316A CN116564316A (zh) 2023-08-08
CN116564316B true CN116564316B (zh) 2023-11-03

Family

ID=87490190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310843070.2A Active CN116564316B (zh) 2023-07-11 2023-07-11 一种语音人机交互方法、装置

Country Status (1)

Country Link
CN (1) CN116564316B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312230A (zh) * 2019-11-27 2020-06-19 南京创维信息技术研究院有限公司 用于语音对话平台的语音交互监测方法及装置
CN111949240A (zh) * 2019-05-16 2020-11-17 阿里巴巴集团控股有限公司 交互方法、存储介质、服务程序和设备
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112164401A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN113656679A (zh) * 2021-08-27 2021-11-16 支付宝(杭州)信息技术有限公司 用户搜索方法及装置
CN114155854A (zh) * 2021-12-13 2022-03-08 海信视像科技股份有限公司 语音数据的处理方法及装置
CN114172997A (zh) * 2021-11-11 2022-03-11 Oppo广东移动通信有限公司 语音交互方法、装置、电子设备和计算机可读存储介质
CN115731923A (zh) * 2021-08-26 2023-03-03 华为技术有限公司 命令词响应方法、控制设备及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949240A (zh) * 2019-05-16 2020-11-17 阿里巴巴集团控股有限公司 交互方法、存储介质、服务程序和设备
CN111312230A (zh) * 2019-11-27 2020-06-19 南京创维信息技术研究院有限公司 用于语音对话平台的语音交互监测方法及装置
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112164401A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
WO2022057152A1 (zh) * 2020-09-18 2022-03-24 广州橙行智动汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN115731923A (zh) * 2021-08-26 2023-03-03 华为技术有限公司 命令词响应方法、控制设备及装置
CN113656679A (zh) * 2021-08-27 2021-11-16 支付宝(杭州)信息技术有限公司 用户搜索方法及装置
CN114172997A (zh) * 2021-11-11 2022-03-11 Oppo广东移动通信有限公司 语音交互方法、装置、电子设备和计算机可读存储介质
CN114155854A (zh) * 2021-12-13 2022-03-08 海信视像科技股份有限公司 语音数据的处理方法及装置

Also Published As

Publication number Publication date
CN116564316A (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
US10013985B2 (en) Systems and methods for audio command recognition with speaker authentication
US20170256270A1 (en) Voice Recognition Accuracy in High Noise Conditions
KR101699720B1 (ko) 음성명령 인식 장치 및 음성명령 인식 방법
CN108538293B (zh) 语音唤醒方法、装置及智能设备
US20160180838A1 (en) User specified keyword spotting using long short term memory neural network feature extractor
US11430449B2 (en) Voice-controlled management of user profiles
EP3682443B1 (en) Voice-controlled management of user profiles
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN111161728B (zh) 一种智能设备的唤醒方法、装置、设备及介质
US11355124B2 (en) Voice recognition method and voice recognition apparatus
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
US20240013784A1 (en) Speaker recognition adaptation
CN109903751B (zh) 关键词确认方法和装置
CN110718217B (zh) 一种控制方法、终端及计算机可读存储介质
CN116648743A (zh) 基于个性化否定来适应热词辨识
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
CN118020100A (zh) 语音数据的处理方法及装置
CN116564316B (zh) 一种语音人机交互方法、装置
CN110164431A (zh) 一种音频数据处理方法及装置、存储介质
CN115910049A (zh) 基于声纹的语音控制方法、***、电子设备及存储介质
CN110334244B (zh) 一种数据处理的方法、装置及电子设备
CN111078890B (zh) 一种生字词的收集方法及电子设备
CN112331210B (zh) 一种语音识别装置
CN111950431A (zh) 一种对象查找方法及装置
CN112037772B (zh) 基于多模态的响应义务检测方法、***及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant