CN111261151A - 一种语音处理方法、装置、电子设备及存储介质 - Google Patents

一种语音处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111261151A
CN111261151A CN201811465282.7A CN201811465282A CN111261151A CN 111261151 A CN111261151 A CN 111261151A CN 201811465282 A CN201811465282 A CN 201811465282A CN 111261151 A CN111261151 A CN 111261151A
Authority
CN
China
Prior art keywords
voice
control
server
target
party
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811465282.7A
Other languages
English (en)
Other versions
CN111261151B (zh
Inventor
杨一帆
徐运
曹轲
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811465282.7A priority Critical patent/CN111261151B/zh
Publication of CN111261151A publication Critical patent/CN111261151A/zh
Application granted granted Critical
Publication of CN111261151B publication Critical patent/CN111261151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音处理方法、装置、电子设备及存储介质,所述方法包括:电子设备接收唤醒语音输入;如果从唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将控制语音发送给第一服务器,使第一服务器识别控制语音对应电子设备的第一控制指令并返回;电子设备执行第一控制指令;如果从唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将控制语音发送给第二服务器,使第二服务器基于第三方设备的控制特征词集,确定控制语音对应的目标第三方设备,识别控制语音对应目标第三方设备的第二控制指令并返回;电子设备将第二控制指令发送给目标第三方设备,使目标第三方设备执行第二控制指令。用以提高语音控制的准确性,提高用户体验。

Description

一种语音处理方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的不断发展,智能硬件应运而生。智能硬件是通过软件和硬件结合的方式,对传统设备进行改造,进而让传统设备拥有智能化的功能。智能化后的设备,即智能硬件也可以称为智能设备,具备连接互联网的能力,形成“云+端”的典型架构,具有更加的附加价值。
为了便于用户的使用,越来越多的智能设备都在向语音交互的方向发展,在智能设备对输入的语音进行处理时,通常需要先对语音进行语音识别(Automatic SpeechRecognition,ASR)处理,将输入的语音转换为文本,再对文本信息进行语义分析和反馈(Natural Language Processing,NLP)处理,以理解用户语音对应的语义,并根据用户的语义给出对应的反馈。
然而,现有技术中在用户通过智能设备进行语音控制时,智能设备并不能准确的识别出用户需要控制的设备,影响了用户的体验。
发明内容
本发明提供一种语音处理方法、装置、电子设备及存储介质,用以解决现有技术中存在通过智能设备进行语音控制不准确的问题。
第一方面,本发明公开了一种语音处理方法,应用于电子设备,所述方法包括:
接收唤醒语音输入;
如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;
如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
在一个可选的设计中,所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
在一个可选的设计中,如果未从所述唤醒语音中识别到唤醒词,所述方法还包括:
接收后续输入的对话语音,将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;
接收所述第三服务器发送的所述应答语音并播放。
在一个可选的设计中,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
在一个可选的设计中,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
在一个可选的设计中,所述将所述对话语音发送给第三服务器之后,所述方法还包括:
接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
第二方面,本发明公开了一种语音处理装置,应用于电子设备,所述装置包括:
接收模块,用于接收唤醒语音输入;
处理模块,用于如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;
所述处理模块,还用于如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
第三方面,本发明公开了一种电子设备,包括:存储器、处理器和收发机;
所述处理器,用于读取存储器中的程序,执行下列过程:接收唤醒语音输入;如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,通过收发机将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,通过收发机将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
在一个可选的设计中,所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
在一个可选的设计中,所述处理器,还用于接收后续输入的对话语音,通过收发机将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;接收所述第三服务器发送的所述应答语音并播放。
在一个可选的设计中,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
在一个可选的设计中,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
在一个可选的设计中,所述处理器,还用于通过收发机接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
第四方面,本发明公开了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述第一方面或第一方面的任一种可选的设计中所述的方法。
第五方面,本发明公开了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述第一方面或第一方面的任一种可选的设计中所述的方法。
本发明有益效果如下:
由于在本发明实施例中,电子设备可以根据唤醒语音中包含的不同唤醒词选择不同的服务器对控制语音进行处理,进而选择不同的语音处理的业务逻辑进行处理,在唤醒语音中包含第一唤醒词时,识别控制语音对应电子设备的第一控制指令;在唤醒语音中包含第二唤醒词时,识别控制语音对应的目标第三方设备及对应目标第三方设备的第二控制指令,保证了语音控制的准确性,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音处理过程示意图之一;
图2为本发明实施例提供的语音处理过程示意图之二;
图3为本发明实施例提供的语音处理过程示意图之三;
图4为本发明实施例提供的语音处理装置结构示意图;
图5为本发明实施例提供的电子设备结构示意图之一;
图6为本发明实施例提供的电子设备结构示意图之一。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要理解的是,在本申请的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
实施例1:
图1为本发明实施例提供的一种语音处理过程示意图,该过程包括:
S101:接收唤醒语音输入,如果从所述唤醒语音中识别到第一唤醒词,进行S102,如果从所述唤醒语音中识别到第二唤醒词,进行S103。
本发明实施例提供的语音处理方法应用于电子设备,该电子设备可以为具有语音输入功能的智能硬件,如智能音箱、智能盒子、智能手机等设备。
为了准确的识别出用户发出的语音是否在与电子设备进行交互,在与电子设备进行语音交互之前,电子设备通常需要用户通过唤醒语音进行唤醒,如通过“小智”唤醒智能音箱。在本发明实施例中,为了准确的对用户是与电子设备进行对话,还是通过电子设备对电子设备或其它第三方设备进行控制操作的不同业务逻辑进行识别,在电子设备中预先设置有用于对电子设备进行控制操作的第一唤醒词,及用于对非电子设备的第三方设备进行控制的第二唤醒词。示例性的,电子设备为智能音箱,第一唤醒词为“咪咕咪咕”、第二唤醒词为“灵犀灵犀”,智能音箱如果接收到了“小智咪咕咪咕”的唤醒语音操作,则确定用户后续输入的是需要智能音箱来执行的控制语音,将接收到后续输入的控制语音发送给第一服务器;智能音箱如果接收到“小智灵犀灵犀”则确定用户后续输入的是需要第三方设备(如空调、电视)来执行的控制语音,将接收到后续输入的控制语音发送给第二服务器。
具体的,电子设备接收用户的唤醒语音输入后,对唤醒语音进行ASR处理,将唤醒语音转换为唤醒文本,并识别转换后的唤醒文本中是否包含第一唤醒词或第二唤醒词。
S102:接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令。
如果电子设备被包含第一唤醒词的唤醒语音唤醒后,电子设备进入拾音模式,继续接收用户后续输入的控制语音,并将接收的控制语音发送给第一服务器;第一服务器接收到控制语音后,对控制语音进行ASR处理,将控制语音转换为控制文本,并对控制文本进行与电子设备对应的NLP处理,确定电子设备对应的所有第一控制指令中,与控制文本对应的第一控制指令,并将与控制文本对应的第一控制指令发送给电子设备,电子设备接收到第一服务器发送的第一控制指令后,执行该第一控制指令。
可选的,在第一服务器中可以预先设置有包含电子设备每个第一控制指令与第一控制指令对应的指令文本的第一数据库,在对控制语音转换成的控制文本进行NLP处理时,第一服务器可以查询第一数据库与控制语音转换成的控制文本匹配度最高的指令文本,并将匹配度最高的指令文本对应的第一控制指令作为与控制语音对应的第一控制指令。
S103:接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
如果电子设备被包含第二唤醒词的唤醒语音唤醒后,电子设备进入拾音模式,继续接收用户后续输入的控制语音,并将接收的控制语音发送给第二服务器;第二服务器接收到控制语音后,对控制语音进行ASR处理,将控制语音转换为控制文本,并对控制文本进行与第三方设备对应的NLP处理,确定与控制文本对应的目标第三方设备和对目标第三方设备进行控制的第二控制指令。
具体的,在第二服务器中可以预先设置有包含每个第三方设备的每个第二控制指令与第二控制指令对应的指令文本的第二数据库。第二服务器对控制语音转换成的控制文本,进行与第三方设备对应的NLP处理可以为:第二服务器基于第三方设备的控制特征词集识控制文本中包含的目标控制特征词,并根据每个第三方设备与第三方设备的控制特征词集中控制特征词的映射关系,确定出与目标控制特征词存在映射关系的目标第三方设备。第二服务器可以查询第二数据库中保存的目标第三方设备的每个第二控制指令与第二控制指令对应的指令文本中,与控制文本匹配度最高的指令文本,并将匹配度最高的指令文本对应的该目标第三方设备的第二控制指令,作为与控制语音对应的第二控制指令。
第二服务器确定目标第三方设备和第二控制指令后,将目标第三方设备和第二控制指令发送给电子设备,电子设备将第二控制指令发送给目标第三方设备,使目标第三方设备执行第二控制指令。
例如:控制语音转换成的控制文本为“切换到中央一台”,第二服务器确定存在目标控制特征词“中央一台”,其中“中央一台”与电视存在映射关系,将电视作为目标第三方设备,并通过与电视对应的每个第二控制指令与指令文本的对应关系,识别与“切换到中央一台”匹配度最高的指令文本“切换中央一台”,确定与“切换中央一台”对应的第二控制指令。
在本发明实施例中,第一服务器和第二服务器可以是同一服务器,可选的,如果第一服务器和第二服务器为同一服务器,电子设备在向服务器发送控制语音的同时,向服务器发送与该控制语音对应的唤醒词标识,如应用识别标识(application identification,APPID)。例如:电子设备是在识别到第一唤醒词后的接收到的控制语音输入,向服务器发送控制语音的同时,发送与第一唤醒词对应的APPID“Oneself”;电子设备是在识别到第二唤醒词后的接收到的控制语音输入,向服务器发送控制语音的同时,发送与第二唤醒词对应的APPID“Other”。以便服务器对不同唤醒词对应的业务逻辑进行识别,如NLP处理逻辑。
较佳的,为了便于电子设备对执行控制指令的设备的识别,第一服务器和第二服务器可以通过包含执行控制指令的,设备的标识+控制指令的结构数据(json)向电子设备发送第一控制指令和第二控制指令。以便电子设备识别执行控制指令的设备。
如图2所示,服务器根据唤醒词对应的APPID选择不同处理逻辑的NLP,NLP对控制语音转换成的控制文本进行分析和反馈,电子设备根据反馈的处理结果将控制指令进行分发,如果是电子设备自身执行,则电子设备执行该控制指令,否则,电子设备将控制指令发送给对应的目标第三方设备来执行。
由于在本发明实施例中,电子设备可以根据唤醒语音中包含的不同唤醒词选择不同的服务器对控制语音进行处理,进而选择不同的语音处理的业务逻辑进行处理,在唤醒语音中包含第一唤醒词时,识别控制语音对应电子设备的第一控制指令;在唤醒语音中包含第二唤醒词时,识别控制语音对应的目标第三方设备及对应目标第三方设备的第二控制指令,保证了语音控制的准确性,提高了用户体验。
实施例2:
为了提高用户体验,在上述实施例的基础上,在本发明实施例中,如果未从所述唤醒语音中识别到唤醒词,所述方法还包括:
接收后续输入的对话语音,将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;
接收所述第三服务器发送的所述应答语音并播放。
具体的,电子设备如果未从唤醒语音中识别到唤醒词,则说明用户是需要与电子设备进行对话。例如:电子设备为智能音箱,第一唤醒词为“咪咕咪咕”、第二唤醒词为“灵犀灵犀”,智能音箱如果接收到了“小智”的唤醒语音,唤醒语音中不包括唤醒词“咪咕咪咕”或“灵犀灵犀”,则说明用户是需要与智能音箱进行对话。
电子设备在被不包含唤醒词的唤醒语音唤醒后,电子设备进入拾音模式,继续接收用户后续输入的对话语音,将接收到的对话语音发送给第三服务器。第三服务器接收到对话语音后,通过ASR处理,将对话语音转换为对话文本,并对对话文本进行与对话相关的NLP处理,生成应答结果,并将应答结果转换为应答语音发送给电子设备进行播放。例如:第三服务器将对话语音转换成的对话文本为“今天天气”,第三服务器搜索今天的天气情况“晴,20℃~8℃,微风”并将搜索结果转换为语音信息发送给电子设备进行播放。
较佳的,在本发明实施例中,如果第三服务器中保存有用户预先设置的与电子设备关联的应答对,其中应答对为问题与对应应答的问答组。第三服务器在进行与对话相关的NLP处理时,优先匹配对话文本与该电子设备关联的应答对中的问题,如果存在对话文本与问题的匹配度大于匹配度阈值,则直接将该问题对应的应答作为应答结果。
另外,为了更准确的将对话语音转换为对话文本,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
具体的,用户还可以通过终端与第三服务器建立连接,并具体通过终端对某一电子设备进行绑定操作,用户可以通过终端自定义热词并上传至第三服务器,其中,所述热词可以是设备别称、家居场景的名称、通讯录中名称等信息。其中终端与第三服务器建立连接并对某一电子设备进行绑定操作,可以通过终端上的APP实现,不再进行赘述。
第三服务器在将对话语音转换为对话文本时,优先将对话语音中与对该电子设备设置热词进行匹配,进行语音转文本的识别,将对话语音转化成对话文本,以提高确定的应答结果的准确性。
实施例3:
为了提高用户体验,在上述各实施例的基础上,在本发明实施例中,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音(Text To Speech,TTS)引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
具体的,用户通过终端与某一电子设备绑定后,还可以通过终端设置该电子设备对应的用户信息,如年龄、地区和性别等,第三服务器在将应答结果转换成应答语音时,根据用户信息选择与用户信息对应的TTS引擎,将应答结果转换成应答语音,使得应答语音更符合电子设备的用户的语音习惯。示例性的:以用户信息为地区“四川”为例,第三服务器选择与“四川”对应的TTS引擎,此时与“四川”对应的TTS引擎是采用与“四川”对应的声色、声调等声音特征将应答结果转换成应答语音。
为了便于对非法语音进行过滤,所述将所述对话语音发送给第三服务器之后,所述方法还包括:
接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
在第三服务器中设置有敏感词数据库,在敏感词数据库中包含多个设置的敏感词,第三服务器在将对话语音转换为的对话文本后,首先检测对话文本中是否包含敏感词,如果包括,则向电子设备发送对话语音中包含敏感词的提示语音,如“该信息涉及敏感词汇”,并不再进行对对话文本进行解析生成应答结果的过程。
如图3所示,用户通过终端定电子设备,设置各类热词并上传至第三服务器,第三服务器根据用户设置热词进行优先匹配,得到对话语音转换的对话文本,识别对话文本是否包含敏感词,如果是进行拦截,向电子设备返回包含敏感词的提示语音,如果否,则判断是否存在匹配的应答对,如果是根据匹配的应答对,向电子设备返回应答语音,如果否进行解析和语义处理,向电子设备返回应答语音。
实施例4:
图4为本发明实施例提供的一种语音处理装置结构示意图,应用于电子设备,该装置包括:
接收模块41,用于接收唤醒语音输入;
处理模块42,用于如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;
所述处理模块42,还用于如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
可选的,所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
所述处理模块42,还用于如果未从所述唤醒语音中识别到唤醒词,接收后续输入的对话语音,将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;接收所述第三服务器发送的所述应答语音并播放。
可选的,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
可选的,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
所述处理模块42,还用于接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
实施例5:
如图5所示,基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与语音处理方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,其为本发明实施例提供的电子设备的结构示意图,其中在图5中,总线架构可以包括任意数量的互联的总线和桥,具体有处理器51代表的一个或多个处理器51和存储器53代表的存储器53的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机52可以是多个元件,即包括发送机和收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器51负责管理总线架构和通常的处理,存储器53可以存储处理器51在执行操作时所使用的数据。
在本发明实施例提供的电子设备中:
所述处理器51,用于读取存储器53中的程序,执行下列过程:接收唤醒语音输入;如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,通过收发机52将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,通过收发机52将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
可选的所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
所述处理器51,还用于接收后续输入的对话语音,通过收发机52将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;接收所述第三服务器发送的所述应答语音并播放。
可选的,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
可选的,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
所述处理器51,还用于通过收发机52接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
实施例6:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图6所示,包括:处理器61、通信接口62、存储器63和通信总线64,其中,处理器61、通信接口62、存储器63通过通信总线64完成相互间的通信;
所述存储器63中存储有计算机程序,当所述程序被所述处理器61执行时,使得所述处理器61执行上述实施例描述的语音处理方法。
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述实施例描述的语音处理方法。
对于***/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (15)

1.一种语音处理方法,其特征在于,应用于电子设备,所述方法包括:
接收唤醒语音输入;
如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;
如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
2.如权利要求1所述的方法,其特征在于,所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
3.如权利要求1所述的方法,其特征在于,如果未从所述唤醒语音中识别到唤醒词,所述方法还包括:
接收后续输入的对话语音,将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;
接收所述第三服务器发送的所述应答语音并播放。
4.如权利要求3所述的方法,其特征在于,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
5.如权利要求3所述的方法,其特征在于,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
6.如权利要求3所述的方法,其特征在于,所述将所述对话语音发送给第三服务器之后,所述方法还包括:
接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
7.一种语音处理装置,其特征在于,应用于电子设备,所述装置包括:
接收模块,用于接收唤醒语音输入;
处理模块,用于如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;
所述处理模块,还用于如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
8.一种电子设备,其特征在于,包括:存储器、处理器和收发机;
所述处理器,用于读取存储器中的程序,执行下列过程:接收唤醒语音输入;如果从所述唤醒语音中识别到第一唤醒词,接收后续输入的控制语音,通过收发机将所述控制语音发送给第一服务器,使所述第一服务器识别所述控制语音对应所述电子设备的第一控制指令并返回;执行所述第一控制指令;如果从所述唤醒语音中识别到第二唤醒词,接收后续输入的控制语音,通过收发机将所述控制语音发送给第二服务器,使所述第二服务器基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备,识别所述控制语音对应所述目标第三方设备的第二控制指令并返回;将所述第二控制指令发送给所述目标第三方设备,使所述目标第三方设备执行所述第二控制指令。
9.如权利要求8所述的电子设备,其特征在于,所述基于第三方设备的控制特征词集,确定所述控制语音对应的目标第三方设备包括:
基于所述第三方设备的控制特征词集,识别所述控制语音中包含的目标控制特征词;
根据每个第三方设备与所述第三方设备的控制特征词集中控制特征词的映射关系,确定与所述目标控制特征词存在映射关系的目标第三方设备。
10.如权利要求8所述的电子设备,其特征在于,所述处理器,还用于接收后续输入的对话语音,通过收发机将所述对话语音发送给第三服务器,使所述第三服务器将所述对话语音转换为对话文本,对所述对话文本进行解析生成应答结果,并将所述应答结果转换为应答语音发送给所述电子设备;接收所述第三服务器发送的所述应答语音并播放。
11.如权利要求10所述的电子设备,其特征在于,如果所述第三服务器中预先设置有与所述电子设备对应的优先识别的热词,所述第三服务器将所述对话语音转换为对话文本包括:
所述第三服务器基于所述优先识别的热词,将所述对话语音转换为对话文本。
12.如权利要求10所述的电子设备,其特征在于,如果所述第三服务器中预先设置有与所述电子设备对应的用户信息,所述将所述应答结果转换为应答语音包括:
根据所述用户信息,选择与所述用户信息对应的从文本到语音TTS引擎,将所述应答结果转换为应答语音,其中所述用户信息包括:年龄、地区和性别中的至少一种。
13.如权利要求10所述的电子设备,其特征在于,所述处理器,还用于通过收发机接收所述第三服务器发送的所述对话语音中包含敏感词的提示语音并播放;其中,所述提示语音为所述第三服务器在检测到所述对话语音中包含预设的敏感词后发送的。
14.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1-6任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1-6任一项所述方法的步骤。
CN201811465282.7A 2018-12-03 2018-12-03 一种语音处理方法、装置、电子设备及存储介质 Active CN111261151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811465282.7A CN111261151B (zh) 2018-12-03 2018-12-03 一种语音处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811465282.7A CN111261151B (zh) 2018-12-03 2018-12-03 一种语音处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111261151A true CN111261151A (zh) 2020-06-09
CN111261151B CN111261151B (zh) 2022-12-27

Family

ID=70946808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811465282.7A Active CN111261151B (zh) 2018-12-03 2018-12-03 一种语音处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111261151B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787461A (zh) * 2020-06-30 2020-10-16 歌尔科技有限公司 一种智能音响及其控制方法、装置及计算机可读存储介质
CN111933135A (zh) * 2020-07-31 2020-11-13 深圳Tcl新技术有限公司 终端控制方法、装置、智能终端及计算机可读存储介质
CN112634897A (zh) * 2020-12-31 2021-04-09 青岛海尔科技有限公司 设备唤醒方法、装置和存储介质及电子装置
CN113066493A (zh) * 2021-03-30 2021-07-02 联想(北京)有限公司 一种设备控制方法、***及第一电子设备
CN113555016A (zh) * 2021-06-24 2021-10-26 北京房江湖科技有限公司 语音交互方法、电子设备及可读存储介质
CN114244879A (zh) * 2021-12-15 2022-03-25 北京声智科技有限公司 一种工业控制***、工业控制方法和电子设备
CN115294983A (zh) * 2022-09-28 2022-11-04 科大讯飞股份有限公司 一种自主移动设备唤醒方法、***及基站

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108831448A (zh) * 2018-03-22 2018-11-16 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108831448A (zh) * 2018-03-22 2018-11-16 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787461A (zh) * 2020-06-30 2020-10-16 歌尔科技有限公司 一种智能音响及其控制方法、装置及计算机可读存储介质
CN111787461B (zh) * 2020-06-30 2021-12-24 歌尔科技有限公司 一种智能音响及其控制方法、装置及计算机可读存储介质
CN111933135A (zh) * 2020-07-31 2020-11-13 深圳Tcl新技术有限公司 终端控制方法、装置、智能终端及计算机可读存储介质
CN112634897A (zh) * 2020-12-31 2021-04-09 青岛海尔科技有限公司 设备唤醒方法、装置和存储介质及电子装置
CN113066493A (zh) * 2021-03-30 2021-07-02 联想(北京)有限公司 一种设备控制方法、***及第一电子设备
CN113066493B (zh) * 2021-03-30 2023-01-06 联想(北京)有限公司 一种设备控制方法、***及第一电子设备
CN113555016A (zh) * 2021-06-24 2021-10-26 北京房江湖科技有限公司 语音交互方法、电子设备及可读存储介质
CN114244879A (zh) * 2021-12-15 2022-03-25 北京声智科技有限公司 一种工业控制***、工业控制方法和电子设备
CN115294983A (zh) * 2022-09-28 2022-11-04 科大讯飞股份有限公司 一种自主移动设备唤醒方法、***及基站

Also Published As

Publication number Publication date
CN111261151B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
WO2019101083A1 (zh) 一种语音数据处理方法、语音交互设备及存储介质
US9336773B2 (en) System and method for standardized speech recognition infrastructure
JP2019057273A (ja) 情報をプッシュする方法及び装置
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
US11574637B1 (en) Spoken language understanding models
CN109671435B (zh) 用于唤醒智能设备的方法和装置
US11605376B1 (en) Processing orchestration for systems including machine-learned components
CN109712610A (zh) 用于识别语音的方法和装置
CN112740323B (zh) 一种语音理解方法及装置
CN110570855A (zh) 通过对话机制控制智能家居设备的***、方法及装置
US11990122B2 (en) User-system dialog expansion
CN111178081A (zh) 语义识别的方法、服务器、电子设备及计算机存储介质
CN111243604B (zh) 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及***
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN110659361B (zh) 一种对话方法、装置、设备及介质
CN112579031A (zh) 一种语音交互的方法、***和电子设备
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
CN112837683B (zh) 语音服务方法及装置
CN111508481A (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN113132214A (zh) 一种对话方法、装置、服务器及存储介质
CN116486815A (zh) 车载语音信号处理方法及装置
KR20200119035A (ko) 대화 시스템, 전자장치 및 대화 시스템의 제어 방법
US11907676B1 (en) Processing orchestration for systems including distributed components
CN112306560B (zh) 用于唤醒电子设备的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant