CN114077840A - 语音对话***的优化方法、装置、设备及存储介质 - Google Patents

语音对话***的优化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114077840A
CN114077840A CN202010825282.4A CN202010825282A CN114077840A CN 114077840 A CN114077840 A CN 114077840A CN 202010825282 A CN202010825282 A CN 202010825282A CN 114077840 A CN114077840 A CN 114077840A
Authority
CN
China
Prior art keywords
audio data
voice
false
triggering
voice conversation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010825282.4A
Other languages
English (en)
Inventor
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN202010825282.4A priority Critical patent/CN114077840A/zh
Publication of CN114077840A publication Critical patent/CN114077840A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Biology (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种语音对话***的优化方法、装置、设备及存储介质。其中,语音对话***的优化方法包括:控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据;在各触发音频数据中,识别误触发音频数据;采用各误触发音频数据,对语音对话***中的语音对话模型进行优化。本发明实施例的方案,提高了语音对话***在长监听工作模式下的可用性,减少误识别的情况。

Description

语音对话***的优化方法、装置、设备及存储介质
技术领域
本发明实施例涉及语音数据处理技术,尤其涉及一种语音对话***的优化方法、装置、设备及存储介质。
背景技术
随着计算机技术的不断发展,语音对话***得到了广泛地应用。例如,智能音箱、智能管家、智能手机以及车载终端中都应用到了语音对话***。
现阶段,为了减少语音对话***出现误识别(例如,将两个人之间的对话识别为用户输入至语音对话***的指令)的情况,通常将语音对话***的监听时长设置的较小(例如,1秒);这就导致常常需要用户多次唤醒语音对话***;例如,当对话还未结束时,语音对话***已进入了休眠模式,若要继续后续对话,需要用户再次唤醒语音会话***。
因此,如何提高语音对话***在长监听工作模式下的可用性,减少误识别的情况,是亟需解决的。
发明内容
本发明实施例提供一种语音对话***的优化方法、装置、设备及存储介质,以提高语音对话***在长监听工作模式下的可用性,减少误识别的情况。
第一方面,本发明实施例提供了一种语音对话***的优化方法,包括:
控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据;
在各所述触发音频数据中,识别误触发音频数据;
采用各所述误触发音频数据,对所述语音对话***中的语音对话模型进行优化。
第二方面,本发明实施例还提供了一种语音对话***的优化装置,包括:
触发音频数据模块,用于控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据;
误触发音频数据识别模块,用于在各所述触发音频数据中,识别误触发音频数据;
模型优化模块,用于采用各所述误触发音频数据,对所述语音对话***中的语音对话模型进行优化。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例中任一实施例所述的语音对话***的优化方法。
本发明实施例通过控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据;在各触发音频数据中,识别误触发音频数据;采用各误触发音频数据,对语音对话***中的语音对话模型进行优化,提高了语音对话***在长监听工作模式下的可用性,减少误识别的情况。
附图说明
图1是本发明实施例一中的一种语音对话***的优化方法的流程图;
图2是本发明实施例二中的一种语音对话***的优化方法的流程图;
图3是本发明实施例三中的一种语音对话***的优化方法的流程图;
图4是本发明实施例三中的一种语音对话***的优化方法的流程图;
图5是本发明实施例四中的一种语音对话***的优化装置的结构示意图;
图6是本发明实施例五中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明实施例,而非对本发明实施例的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种语音对话***的优化方法的流程图,本实施例可适用于对语音对话***进行优化的情况,该方法可以由语音对话***的优化装置来执行,该装置可以通过软件和/或硬件的方式实现,并集成在电子设备中,该电子设备可以为车载终端、计算机或者智能手机等,具体的,参考图1,该方法具体包括如下步骤:
步骤110、控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据。
其中,语音对话模型可以配置在本发明实施例中涉及到的语音对话***中,当语音对话***接收到用户发出的音频数据时,可以通过语音对话模型对接收到的音频数据进行识别,从而确定用户的问题,并解决用户的问题。需要说明的是,本发明实施例中涉及到的触发语音对话模型开始工作的触发音频数据,可以为任一音频数据;例如,“您好”、“请打开”或者“播放音乐”等等,本发明实施例中对其不加以限定。
在本发明实施例的一个可选实现方式中,控制语音对话***的工作模式处于长监听模式,可以包括:唤醒语音对话***,并设置语音对话***的唤醒时长为预设的长监督时长。示例性的,可以通过设定唤醒词、设定唤醒动作或者语音对话***中设置的按钮唤醒语音对话***。
在本发明实施例的一个可选实现方式中,在唤醒语音对话***之后,可以通过控制语音对话***的工作时长,以使语音对话***的工作模式处于长监听模式;例如,可以设置语音对话***的工作时长为10分钟、1小时或者2小时等,本发明实施例中对其不加以限定。
步骤120、在各触发音频数据中,识别误触发音频数据。
其中,误触发音频数据可以为外部聊天音频数据或者环境噪声等,无需语音对话***响应的音频数据。
在本发明实施例的一个可选实现方式中,在收集到触发语音对话模型开始工作的触发音频数据之后,可以在各个触发音频数据中,识别出误触发音频数据。
示例性的,可以分别对收集到的各触发音频数据进行识别,并分析各识别结果;根据各识别结果确定各触发音频数据是否为误触发音频数据。例如,任一触发音频数据的识别结果为“狗吠声”,则可以将该触发音频数据确定为误触发音频数据。
步骤130、采用各误触发音频数据,对语音对话***中的语音对话模型进行优化。
在本发明实施例的一个可选实现方式中,在识别到误触发音频数据之后,可以进一步的采用收集到的各误触发音频数据对语音对话***中的语音对话模型进行优化。示例性的,若收集到了大量的(例如,200条)误触发音频数据,则可以确定语音对话***需要被优化,具体的,可以采用收集到的200条误触发音频数据对该语音对话***中的语音对话模型进行优化。
本实施例的方案,通过控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据;在各触发音频数据中,识别误触发音频数据;采用各误触发音频数据,对语音对话***中的语音对话模型进行优化,提高了语音对话***在长监听工作模式下的可用性,减少误识别的情况。
实施例二
图2是本发明实施例二中的一种语音对话***的优化方法的流程图,本实施例是对上述各技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图2所示,语音对话***的优化方法可以包括如下步骤:
步骤210、控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据。
步骤220、获取与各触发音频数据分别对应的文本信息;计算各文本信息的语义完整程度;当目标文本信息的语义完整程度小于第一设定阈值时,确定与目标文本信息对应的触发音频数据为误触发音频数据。
在本发明实施例的一个可选实现方式中,在收集到触发语音对话模型开始工作的触发音频数据之后,可以进一步的获取与各触发音频数据分别对应的文本信息;示例性的,收集到三条触发语音对话模型开始工作的触发音频数据,则可以分别识别这三条触发音频数据的文本信息;例如,识别到的文本信息可以分别为“天气”、“今天天气怎么样?”或者“小红”等等,本发明实施例中对其不加以限定。
进一步的,可以分别计算各文本信息的语义完整程度;例如,在上述例子中,可以分别计算“天气”、“今天天气怎么样?”以及“小红”这三个文本信息的语义完整程度;示例性的,这三个文本信息的语义完整程度可以分别为0.2、0.9以及0.15,本发明实施例中对其不加以限定。
进一步的,可以进一步的确定各文本信息的语义完整程度是否小于第一设定阈值;其中,第一设定阈值可以为0.4、0.5或者0.6等数值,本实施例中对其不加以限定。
在本实施例的一个可选实现方式中,当目标文本信息的语义完整程度小于第一设定阈值时,可以确定与目标文本信息对应的触发音频数据为误触发音频数据。其中,目标文本信息可以为与目标触发音频数据对应的文本信息;目标音频数据可以为获取到的各触发音频数据中的一个音频数据,或者多个音频数据,本发明实施例中对其不加以限定。
示例性的,若目标文本信息的语义完整程度为0.2,第一设定阈值为0.4,则此时可以确定与目标文本信息对应的触发音频数据为误触发音频数据。
在上述例子中,当第一设定阈值为0.4时,可以确定与文本信息“天气”以及“小红”对应的触发音频数据为误触发音频数据。
步骤230、将各误触发音频数据作为负样本,输入至语音对话***中的语音对话模型进行训练,得到优化后的语音对话模型。
在本实施例的一个可选实现方式中,在确定与目标文本信息对应的触发音频数据为误触发音频数据之后,可以进一步将各误触发音频数据作为负样本,输入至语音对话***中的语音对话模型中进行训练,从而得到优化后的语音对话模型。
示例性的,在上述例子中,若确定与文本信息“天气”以及“小红”对应的触发音频数据为误触发音频数据,则可以将“天气”以及“小红”对应的触发音频数据作为负样本输入至语音对话模型中,对语音对话模型进行再次训练,从而得到优化后的语音对话模型。
本实施例的方案,通过获取与各触发音频数据分别对应的文本信息;计算各文本信息的语义完整程度;当目标文本信息的语义完整程度小于第一设定阈值时,确定与目标文本信息对应的触发音频数据为误触发音频数据;将各误触发音频数据作为负样本,输入至语音对话***中的语音对话模型进行训练,得到优化后的语音对话模型,实现了对语音对话***中的语音对话模型进行训练,为提高语音对话***在长监听工作模式下的可用性提供依据。
实施例三
图3是本发明实施例三中的一种语音对话***的优化方法的流程图,本实施例是对上述各技术方案的进一步细化,本实施例中的技术方案可以与上述一个或者多个实施例中的各个可选方案结合。如图3所示,语音对话***的优化方法可以包括如下步骤:
步骤310、控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据。
步骤320、在语音对话***所在环境中,持续播放噪声音频数据。
其中,噪声音频数据中不包括能够触发语音对话***的音频数据。示例性的,噪声音频数据可以为预先录制好的、各个场景下并且可以重复播放的音频数据;例如:用户对话过程中产生的音频数据、马路上汽车鸣笛声音或者各种动物的叫声等等,本发明实施例中对其不加以限定。
在本发明实施例的一个可选实现方式中,在控制语音对话息肉的工作模式处于长监听模式时,可以在语音对话***所在环境中,持续播放预先录制的噪声音频数据;这样设置的好处在于,可以使语音对话模型更多地确定误触发音频数据,为优化语音对话模型提供依据。
步骤330、在各触发音频数据中,识别误触发音频数据。
步骤340、采用各误触发音频数据,对语音对话***中的语音对话模型进行优化。
步骤350、在语音对话***所在环境中,持续播放噪声音频数据。
在本发明实施例的一个可选实现方式中,在对待优化的语音对话模型进行优化之后,可以继续在语音对话***所在环境中,持续播放预先录制的各噪声音频数据;这样设置的好处在于,可以实现对优化后的语音对话模型的性能进行测试,从而确定是否还需要对语音对话模型进行优化。
步骤360、根据语音对话***被播放噪声音频数据的触发情况,计算与语音对话***对应的误触发频率。
进一步的,可以根据语音对话***被所播放的噪声音频数据的触发情况,并计算语音对话***被误触发的频率。需要说明的是,由于噪声音频数据中不包括能够触发语音对话***的音频数据,因此,在此过程中(在语音对话***的所处环境中,持续播放噪声音频数据的过程中),语音对话***被触发的频率,即为语音对话***被误触发的频率。
步骤370、当语音对话***的误触发频率大于或者等于第二设定阈值时,返回执行控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据的操作,直至语音对话***的误触发频率小于第二设定阈值。
其中,第二设定阈值可以为20、50或者100等数值,本发明实施例中对其不加以限定。
在本实施例的一个可选实现方式中,在计算的得到与音乐对话***对应的误触发频率之后,可以进一步的将误触发频率域第二设定阈值进行比较,当语音对话***的误触发频率大于或者等于第二设定阈值(例如,100)时,可以返回执行控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据的操作,直至语音对话***的误触发频率小于第二设定阈值。
需要说明的是,当语音对话***的误触发频率大于或者等于第二设定阈值时,可以认为语音对话***中的语音对话的模型的触发准确率,未达到设定标准,还需要对其进行继续优化。
这样设置的好处在于,可以进一步的提高语音对话***在长监听工作模式下的可用性,减少误识别的情况。
在本发明实施例的一个可选实现方式中,在计算与目标语音对话***对应的误触发频率之后,还可以包括:当语音对话***的误触发频率小于第二设定阈值时,将工作于长监听模式的语音对话***进行上线处理。
示例性的,若语音对话***的误触发频率为1次,小于第二设定阈值100次,则此时可以确定语音对话***中的语音对话模型已满足设定要求,此时可以对语音对话***进行上线处理,可以确保语音对话***在长监听工作模式下,不会被误触发。
本实施例的方案,通过在所述语音对话***所在环境中,持续播放噪声音频数据;根据所述语音对话***被所述播放噪声音频数据的触发情况,计算与所述语音对话***对应的误触发频率;当所述语音对话***的误触发频率大于或者等于第二设定阈值时,返回执行控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据的操作,直至所述语音对话***的误触发频率小于所述第二设定阈值,可以进一步的提高语音对话***在长监听工作模式下的可用性,减少误识别的情况。
为了使本领域技术人员更好地理解本实施例语音对话***的优化方法,下面采用一个具体示例进行说明,具体过程包括有:
步骤1、选择背景噪声,可以直接使用噪声现场(包含办公室小声说话,汽车行驶车内噪声,鸟语蝉鸣水流等场景)直接进行误触发音频的收集工作,也可以是使用高保真音响,播放之前录制好的各场景的现场高保真音频,模拟各个场景的噪声情况,使用录音方便验证回归测试语音算法的优化效果。
步骤2、唤醒语音对话***,使其进入一段时间内长监听状态,长监听时长可以设置,可使用唤醒词等方式使语音对话***进入长监听状态,这个时间在语音算法优化初期可以短一些,随着误触发能力提升,增加这个长监听时间的长度(例如,10秒、30分钟或者90分钟等),本实施例中对其不加以限定。
步骤3、在长监听的这段时间内,记录语音对话***对周围噪声的响应情况,包含语音对话***对噪声的语音识别以及做出的一些响应的其他反馈,记录包含存储语音对话***有反馈的噪声片段,包含语音对话***对该噪声片段的语音识别结果以及语音对话***的反应状况等信息,整理成表格或其他记录形式,如果在该长监听时长内语音对话***无其他反应,则重新开始步骤1。
步骤4、整理语音对话***在长监听状态下对噪声的误触发的结果,包含音频,识别结果,响应反馈等信息,给到语音算法团队进行语音对话***模型的训练。
步骤5、在语音算法团队优化语音对话模型算法后生成新的语音对话***,重新进行新一轮语音对话***误触发音频的收集,最好使用之前测试结果的录音或者相似的场景噪声,重新进行误触发音频的获取,优化整理长监听状况下的误触发结果,与之前结果进行比对后,与语音算法确认优化效果,并确认是否提交新的误触发结果给算法组优化模型进行优化。
从上述例子中可以看出,本实施例的方案,可以快速有针对性性的提供大量的误触发音频给语音算法团队,进行语音对话***进行优化,可迅速实现自动化,整个过程无需专人参与,节约人力成本。
为了更好地理解本发明实施例,本发明实施例的一个具体应用场景可以为:
正常唤醒语音对话***后,噪声被识别为人声,造成语音对话***的误识别的情况,语音算法的优化需要大量的误触发音频来优训练模型,本发明实施例也可进行常规语音流程误识别、误触发音频的收集,一共分为以下几步:
1、自动化播放噪声。
2、自动化语音唤醒车机。
3、误触发音频的收集。
4、整理误触发音频。
5、提交研发算法优化。
6、算法优化后,回归验证。
图4是本发明实施例三中的一种语音对话***的优化方法的流程图,参考图4,该方法具体包括如下步骤:
步骤410、通过唤醒词语或者其他方式,唤醒语音对话***。
步骤420、设置语音对话***进入长监听模式。
步骤430、判断是否有误触发情况。
若是,则执行步骤440;
若否,则返回执行步骤410。
步骤440、记录误触发结果保存误触发音频数据。
步骤450、通过误触发音频数据对语音对话***中的语音对话模型进行优化。
步骤460、验证优化后的语音对话***是否可用。
若是,则执行步骤470;
若否,则返回执行步骤410。
步骤470、上线语音对话***,并设置语音对话***的工作模式为长监听工作模式。
现有的语音对话***,如果放开语音识别时间,无需唤醒,随时进行对话,在这种语音***长监听工作模式下,外部噪声和外部聊天的内容,就会引起语音对话***的误识别,做出一些不需要的错误反馈,这样语音对话***会显得异常凌乱,处于一种几乎不可正常使用的状态。本发明实施例可以协助弥补这个缺憾,减少长监听下的误识别,误触发的情况。通过对语音对话***长监听状态下的误触发音频进行的收集,协助语音算法对误触发的音频进行语音对话模型训练后,减少使用过程中的误触发的概率,大大提高语音对话***在长监听状态下的可用性。
实施例四
图5是本发明实施例四中的一种语音对话***的优化装置的结构示意图,该装置可以执行上述各实施例中涉及到的语音对话***的优化方法。参照图5,该装置包括:触发音频数据模块510、误触发音频数据识别模块520和模型优化模块530。
触发音频数据模块510,用于控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据;
误触发音频数据识别模块520,用于在各触发音频数据中,识别误触发音频数据;
模型优化模块530,用于采用各误触发音频数据,对语音对话***中的语音对话模型进行优化。
本实施例的方案,通过触发音频数据模块控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据;通过误触发音频数据识别模块在各触发音频数据中,识别误触发音频数据;通过模型优化模块采用各误触发音频数据,对语音对话***中的语音对话模型进行优化,提高了语音对话***在长监听工作模式下的可用性,减少误识别的情况。
可选的,误触发音频数据识别模块520,具体用于获取与各触发音频数据分别对应的文本信息;计算各文本信息的语义完整程度;当目标文本信息的语义完整程度小于第一设定阈值时,确定与目标文本信息对应的触发音频数据为误触发音频数据。
可选的,模型优化模块530,具体用于将各误触发音频数据作为负样本,输入至语音对话***中的语音对话模型进行训练,得到优化后的语音对话模型。
可选的,语音对话***的优化装置还包括:噪声音频数据播放模块,用于在语音对话***所在环境中,持续播放噪声音频数据;其中,噪声音频数据中不包括能够触发语音对话***的音频数据。
可选的,语音对话***的优化装置还包括:误触发频率计算模块,用于在语音对话***所在环境中,持续播放噪声音频数据;根据语音对话***被播放噪声音频数据的触发情况,计算与语音对话***对应的误触发频率;当语音对话***的误触发频率大于或者等于第二设定阈值时,返回执行控制语音对话***的工作模式处于长监听模式,并收集触发语音对话模型开始工作的触发音频数据的操作,直至语音对话***的误触发频率小于第二设定阈值。
可选的,语音对话***的优化装置还包括:上线处理模块,用于当语音对话***的误触发频率小于第二设定阈值时,将工作于长监听模式的语音对话***进行上线处理。
可选的,触发音频数据模块510,具体用于唤醒语音对话***,并设置语音对话***的唤醒时长为预设的长监督时长。
本发明实施例所提供的语音对话***的优化装置可执行本发明任意实施例所提供的语音对话***的优化方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6为本发明实施例五提供的一种电子设备的结构示意图,如图6所示,该电子设备包括处理器60、存储器61、输入装置62和输出装置63;电子设备中处理器60的数量可以是一个或多个,图6中以一个处理器60为例;电子设备中的处理器60、存储器61、输入装置62和输出装置63可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音对话***的优化方法对应的程序指令/模块(例如,语音对话***的优化装置中的触发音频数据模块510、误触发音频数据识别模块520和模型优化模块530)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的语音对话***的优化方法。
存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置62可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置63可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语音对话***的优化方法,该方法包括:
控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据;
在各所述触发音频数据中,识别误触发音频数据;
采用各所述误触发音频数据,对所述语音对话***中的语音对话模型进行优化。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语音对话***的优化方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语音对话***的优化装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种语音对话***的优化方法,其特征在于,包括:
控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据;
在各所述触发音频数据中,识别误触发音频数据;
采用各所述误触发音频数据,对所述语音对话***中的语音对话模型进行优化。
2.根据权利要求1所述的方法,其特征在于,所述在各所述触发音频数据中,识别误触发音频数据,包括:
获取与各所述触发音频数据分别对应的文本信息;
计算各所述文本信息的语义完整程度;
当目标文本信息的语义完整程度小于第一设定阈值时,确定与所述目标文本信息对应的触发音频数据为误触发音频数据。
3.根据权利要求1所述的方法,其特征在于,所述采用各所述误触发音频数据,对所述语音对话模型中的语音对话模型进行优化,包括:
将各所述误触发音频数据作为负样本,输入至语音对话***中的语音对话模型进行训练,得到优化后的语音对话模型。
4.根据权利要求1所述的方法,其特征在于,在控制语音对话***的工作模式处于长监听模式之后,还包括:
在所述语音对话***所在环境中,持续播放噪声音频数据;
其中,所述噪声音频数据中不包括能够触发所述语音对话***的音频数据。
5.根据权利要求4所述的方法,其特征在于,在对所述语音对话***中的语音对话模型进行优化之后,所述方法还包括:
在所述语音对话***所在环境中,持续播放噪声音频数据;
根据所述语音对话***被所述播放噪声音频数据的触发情况,计算与所述语音对话***对应的误触发频率;
当所述语音对话***的误触发频率大于或者等于第二设定阈值时,返回执行控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据的操作,直至所述语音对话***的误触发频率小于所述第二设定阈值。
6.根据权利要求5所述的方法,其特征在于,在所述计算与所述语音对话***对应的误触发频率之后,还包括:
当所述语音对话***的误触发频率小于所述第二设定阈值时,将工作于所述长监听模式的所述语音对话***进行上线处理。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述控制语音对话***的工作模式处于长监听模式,包括:
唤醒所述语音对话***,并设置所述语音对话***的唤醒时长为预设的长监督时长。
8.一种语音对话***的优化装置,其特征在于,包括:
触发音频数据模块,用于控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据;
误触发音频数据识别模块,用于在各所述触发音频数据中,识别误触发音频数据;
模型优化模块,用于采用各所述误触发音频数据,对所述语音对话***中的语音对话模型进行优化。
9.根据权利要求8所述的装置,其特征在于,所述误触发音频数据识别模块,具体用于
获取与各所述触发音频数据分别对应的文本信息;
计算各所述文本信息的语义完整程度;
当目标文本信息的语义完整程度小于第一设定阈值时,确定与所述目标文本信息对应的触发音频数据为误触发音频数据。
10.根据权利要求8所述的装置,其特征在于,所述模型优化模块,具体用于
将各所述误触发音频数据作为负样本,输入至语音对话***中的语音对话模型进行训练,得到优化后的语音对话模型。
11.根据权利要求8所述的装置,其特征在于,所述装置还包括:
噪声音频数据播放模块,用于在所述语音对话***所在环境中,持续播放噪声音频数据;
其中,所述噪声音频数据中不包括能够触发所述语音对话***的音频数据。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
误触发频率计算模块,用于在所述语音对话***所在环境中,持续播放噪声音频数据;
根据所述语音对话***被所述播放噪声音频数据的触发情况,计算与所述语音对话***对应的误触发频率;
当所述语音对话***的误触发频率大于或者等于第二设定阈值时,返回执行控制语音对话***的工作模式处于长监听模式,并收集触发所述语音对话模型开始工作的触发音频数据的操作,直至所述语音对话***的误触发频率小于所述第二设定阈值。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的语音对话***的优化方法。
CN202010825282.4A 2020-08-17 2020-08-17 语音对话***的优化方法、装置、设备及存储介质 Pending CN114077840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010825282.4A CN114077840A (zh) 2020-08-17 2020-08-17 语音对话***的优化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010825282.4A CN114077840A (zh) 2020-08-17 2020-08-17 语音对话***的优化方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114077840A true CN114077840A (zh) 2022-02-22

Family

ID=80281007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010825282.4A Pending CN114077840A (zh) 2020-08-17 2020-08-17 语音对话***的优化方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114077840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332072A (zh) * 2023-12-01 2024-01-02 阿里云计算有限公司 对话处理、语音摘要提取以及目标对话模型训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及***
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、***及存储介质
CN110661927A (zh) * 2019-09-18 2020-01-07 平安科技(深圳)有限公司 语音交互方法、装置、计算机设备及存储介质
CN111179907A (zh) * 2019-12-31 2020-05-19 深圳Tcl新技术有限公司 语音识别测试方法、装置、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105070290A (zh) * 2015-07-08 2015-11-18 苏州思必驰信息科技有限公司 人机语音交互方法及***
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN109461446A (zh) * 2018-12-24 2019-03-12 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、***及存储介质
CN110661927A (zh) * 2019-09-18 2020-01-07 平安科技(深圳)有限公司 语音交互方法、装置、计算机设备及存储介质
CN111179907A (zh) * 2019-12-31 2020-05-19 深圳Tcl新技术有限公司 语音识别测试方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332072A (zh) * 2023-12-01 2024-01-02 阿里云计算有限公司 对话处理、语音摘要提取以及目标对话模型训练方法
CN117332072B (zh) * 2023-12-01 2024-02-13 阿里云计算有限公司 对话处理、语音摘要提取以及目标对话模型训练方法

Similar Documents

Publication Publication Date Title
CN109326289B (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN102999161B (zh) 一种语音唤醒模块的实现方法及应用
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
JP6826205B2 (ja) ハイブリッド音声認識複合性能自動評価システム
CN108962262B (zh) 语音数据处理方法和装置
CN110047481B (zh) 用于语音识别的方法和装置
CN111161714B (zh) 一种语音信息处理方法、电子设备及存储介质
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及***
CN111724781A (zh) 音频数据的存储方法、装置、终端及存储介质
CN112712799B (zh) 一种误触发语音信息的获取方法、装置、设备及存储介质
CN111833870A (zh) 车载语音***的唤醒方法、装置、车辆和介质
CN110322587B (zh) 驾驶过程中的评价记录方法、装置、设备及存储介质
CN117198285A (zh) 设备唤醒方法、装置、设备、介质及车辆
CN114077840A (zh) 语音对话***的优化方法、装置、设备及存储介质
CN113643704A (zh) 车机语音***的测试方法、上位机、***和存储介质
CN113205809A (zh) 语音唤醒方法和装置
CN110808050A (zh) 语音识别方法及智能设备
CN111710339A (zh) 一种基于数据可视化展示技术的语音识别交互***及方法
CN114420121A (zh) 语音交互方法、电子设备和存储介质
CN111464644B (zh) 一种数据传输方法及电子设备
CN113990312A (zh) 一种设备控制方法及装置、电子设备及存储介质
CN114420103A (zh) 语音处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination