CN110956964B - 提供语音服务的方法、装置、存储介质和终端 - Google Patents
提供语音服务的方法、装置、存储介质和终端 Download PDFInfo
- Publication number
- CN110956964B CN110956964B CN201911185527.5A CN201911185527A CN110956964B CN 110956964 B CN110956964 B CN 110956964B CN 201911185527 A CN201911185527 A CN 201911185527A CN 110956964 B CN110956964 B CN 110956964B
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- feedback speed
- state
- voice feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 95
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 230000004044 response Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 235000013559 Schnittsellerie Nutrition 0.000 description 1
- 244000169997 Schnittsellerie Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种提供语音服务的方法、装置、存储介质和终端;该方法包括:接收语音输入信号;获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;对所述语音输入信号进行处理,得到信号处理结果;基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。该方案通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,提升设备的工作效率。
Description
技术领域
本申请涉及计算机技术领域,具体涉及语音技术领域,尤其涉及一种提供语音服务的方法、装置、存储介质和终端。
背景技术
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。
语音是最为方便、快捷、自然的人际交流手段,采用自然语音作为人与计算机交互的手段,使计算机能像人一样,具有听、说和理解的能力,是智能语音技术应用发展的基础。在其中所需的各种技术中,以语音识别技术最具挑战性,因而被国外众多媒体和专家评为21世纪前十年将对人类生活方式产生重大影响的十大科技进展之一。
人工智能领域中的语音识别技术主要用在智能语音服务技术中,对用户发出的语音信号进行识别,而后基于识别结果生成响应信息,并通过语音合成技术将响应信息转化为语音信号输出。现有的语音服务技术在对用户发出的语音服务请求进行响应时,大都采用将语音信号转换为对应的文字,而后对文字进行分析、检索进而确定响应策略的方式。然而,这个过程中计算机是按照正常的语速进行信息反馈的,这样就会存在提供的语音服务无法满足用户即时需求的问题。
发明内容
本申请实施例提供一种提供语音服务的方法、装置、存储介质和终端,提升设备的工作效率。
本申请实施例提供一种提供语音服务的方法,包括:
接收语音输入信号;
获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;
根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;
对所述语音输入信号进行处理,得到信号处理结果;
基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
相应的,本申请实施例提供了一种提供语音服务的装置,包括:
接收单元,用于接收语音输入信号;
获取单元,用于获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;
确定单元,用于根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;
处理单元,用于对所述语音输入信号进行处理,得到信号处理结果;
输出单元,用于基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
可选的,在一些实施例中,所述输出单元包括响应子单元和输出子单元;
所述响应子单元,用于响应于所述文本意图,生成应答信息;
所述输出子单元,用于基于所述应答信息及所述语音反馈速度输出相应的音频信号。
相应的,本申请实施例还提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序适于中央处理器进行调用,用于执行本申请实施例任一提供的提供语音服务的方法中的步骤。
相应的,本申请实施例还提供了一种终端,包括:中央处理器和存储器;所述存储器中存储有计算机程序,所述中央处理器通过调用所述存储器中存储的所述计算机程序,用于执行本申请实施例任一提供的提供语音服务的方法中的步骤。
本申请实施例提供的提供语音服务的方法,包括:首先,接收语音输入信号;然后,获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;随后,根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;再然后,对所述语音输入信号进行处理,得到信号处理结果;最后,基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。该方案通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,能够缩短语音提示内容中的等待时间,从而在短时间内得到设备的有效语音反馈信息,大大提升了设备的工作效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的提供语音服务的方法的第一种流程示意图。
图2是本申请实施例提供的提供语音服务的方法的第二种流程示意图。
图3是本申请实施例提供的提供语音服务的装置的第一种结构示意图。
图4是本申请实施例提供的提供语音服务的装置的第二种结构示意图。
图5是本申请实施例提供的提供语音服务的终端的具体结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种提供语音服务的方法、装置、存储介质和终端。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从提供语音服务的装置的角度进行描述,该提供语音服务的装置具体可以集成在电子设备中,该电子设备包括但不限于智能手机、平板电脑、智能手表、智能音箱等。
一种提供语音服务的方法,包括:接收语音输入信号;获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;对所述语音输入信号进行处理,得到信号处理结果;基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
请参阅图1,图1为本申请实施例提供的提供语音服务的方法的第一种流程示意图。所述方法具体流程如下:
步骤101、接收语音输入信号。
在一些实施例中,上述电子设备可以接收到根据用户发出的语音信息所生成的语音输入信号。该语音输入信号的接收过程可以有多种形式。
第一种:上述电子设备通过网络与具有语音输入接口的终端设备建立连接,该终端设备可以通过语音输入接口接收用户发出的语音信息,并进行编码处理生成语音输入信号,然后将语音输入信号通过网络传输至该电子设备上。
第二种:对上述电子设备进行功能设定,该功能设定目的在于为用户提供唤醒功能,以使上述电子设备处于正常的工作状态,该电子设备与上述终端设备可以通过无线通信网络进行连接。在用户发出语音信息之前,首先可以对上述电子设备进行名称唤醒、特定手势唤醒或特定按键唤醒等唤醒方式,当上述电子设备处于唤醒状态时,便可以接收到基于用户发出的语音信息经过处理生成的语音输入信号。
第三种:基于语音输入信号可以进行嵌入式语音识别,也称为嵌入式LVCRS(LargeVocabulary Continuous Speech Recognition,大数据连续语音识别),指全程运行在终端设备的语音识别***,而不依赖于服务器的计算能力。通过自动语音识别模块将用户发出的语音信息进行分析处理,得到对应的文字或者拼音信息;然后,将上述信息通过结构化处理,得到电子设备能够理解的语言类型;最后,通过语音合成模块将上述信息转换成语音输出信号,并由电子设备反馈此信号。
步骤102、获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态。
在一些实施例中,上述电子设备在接收语音输入信号的过程中可以存在两种网络状态,一种是网络接入状态,另一种是网络断开状态,当用户发出语音信息之后,首先要获取当前网络状态,根据当前网络状态以及用户发出的语音信息生成上述语音输入信号。
在一些实施例中,若当前网络状态为网络接入状态时,上述电子设备可以根据步骤101中第一种或第二种接收方式完成语音输入信号的接收,其中,第一种方式可以是通过数据传输线来进行上述电子设备与终端设备的连接;第二种方式唤醒功能可以通过wifi或蓝牙来实现。此接收过程中上述电子设备处于常规反馈工作状态。
在一些实施例中,若当前网络状态为网络断开状态时,上述电子设备可以根据步骤101中第三种接收方式完成语音输入信号的接收,因其无需在有网环境下进行数据传输。此接收过程中上述电子设备处于特殊反馈工作状态。
步骤103、根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度。
在一些实施例中,上述电子设备在网络接入状态或网络断开状态下都可对接收到的语音输入信号进行相应的分析处理,并反馈相应的语音信息,基于该语音信息会存在相应的语音反馈速度,其中,网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度。
在一些实施例中,根据步骤102,若当前网络状态为网络连接状态时,则接收语音输入信号时上述电子设备处于常规工作状态,此状态下该电子设备对于该语音输入信号经过处理而发出的语音反馈速度属于正常语速。
例如,当电子设备处于正常网络接入状态下,而该电子设备的语音反馈速度设为S,当接收到语音输入信号时,该电子设备当前处于常规反馈状态,可以提供正常的语音服务,因此其反馈相应语音信息时的语音反馈速度仍为S。
在一些实施例中,当处于网络断开状态时,接收语音反馈速度切换指令,所述切换指令包括目标语音反馈速度;基于所述切换指令将所述语音反馈速度切换为所述目标语音反馈速度。
例如,当电子设备处于网络断开状态下,设该电子设备的语音反馈速度为S,此时电子设备的后台根据***判定的无网络条件,触发后台运算并发出调节语音反馈指令,使速度提升为1.1倍S、1.2倍S等其他语音反馈速度,此调节过程为***自动判定调节,也就是在无网络状态下,***会自动将语音反馈速度由S调节至1.1倍S、1.2倍S等其他语音反馈速度,该1.1倍S、1.2倍S等其他语音反馈速度为设置调节的默认语音反馈速度,即目标语音反馈速度。
例如,相对于上述自动调节功能,还可以设置用户手动调节功能,用户可以在不满足于上述默认语音反馈速度时,根据个人需求进行手动调节至适于个人听力的语音反馈速度,也就是上述目标语音反馈速度。
在一些实施例中,对于上述电子设备的语音反馈速度的设置不仅仅基于当前的网络状态,还可以根据用户发出的语音信息的语言种类、声音参数等因素进行相应的设置或调节。
在一些实施例中,根据所述网络状态确定语音反馈速度,可以包括:识别所述语音输入信号的语言种类;获取所述语言种类在预设语种列表中的排序;根据网络状态和所述排序确定所述语音反馈速度。
具体的,对于上述电子设备可识别的语言种类进行设置,并在设备后台***保存设置的语种列表,若用户发出的语音信息所属的语言种类存在于该语种列表中,再进行该语言种类的顺序识别。
例如,若用户为中国人,默认其母语为中文,假设当前网络状态为网络接入状态,设置电子设备的语音反馈速度为S。当其发出的语音信息为中文时,该电子设备识别的语音输入信号显示该语音信息处于上述语种列表的第一位,因此,该电子设备的语音反馈速度可以仍为S。其中,中文中可以包括方言和普通话,在此不作限定,默认上述中文为普通话。
例如,当用户发出的语音信息为英文时,其中,此处仅设定英文相对于中文不属于用户的常用语言,不限定用户英文水平已经达到或者超过中文的熟练程度的情况,则该电子设备识别的语音输入信号显示该语音信息在上述语种列表中的排序在中文之后,因此,在电子设备进行后台运算而输出语音反馈时,所反馈的英文信息可以根据用户需求进行相应的调节,假设用户英文不熟练,则可将语音反馈速度相应降低至0.8倍S、0.9倍S等其他语音反馈速度。
例如,若当前网络状态为网络断开状态时,此时上述电子设备的后台在判定为无网络状态下会自动或者手动调节语音反馈速度,因此,基于上述语种为英文的情况,可以对语音反馈速度进行相应的调节,在此不对调节作细致描述。
在一些实施例中,根据所述网络状态确定语音反馈速度,可以包括:识别所述语音输入信号中的声音参数;根据所述声音参数识别所述语音输入信号对应的年龄等级;基于所述年龄等级从预设语音反馈速度集合中提取语音反馈速度,所述预设语音反馈速度集合包括:样本年龄等级与样本语音反馈速度之间的映射关系。
例如,上述声音参数可以包括声音的频率、音调、音强和音色等特征,假设当前网络状态为网络接入状态,设置电子设备的语音反馈速度为S,当接收到语音输入信号后,基于上述特征对其声音参数进行识别,可以将各年龄等级的用户进行区间划分,每一年龄等级区间内对应相应的语音反馈速度。若用户的年龄等级处于正常语言能力范围,也就是听力能力正常,并且对于电子设备的反馈信息能够作出及时理解的正常用户,则该电子设备的语音反馈速度可以仍为S;若用户的年龄等级处于非正常语言能力范围,可以是年龄过小无法对反馈信息进行理解,也可以是年龄过大听力能力下降导致对反馈信息的理解速度降低,此时,可以根据用户的年龄等级需求将语音反馈速度降低至0.8倍S、0.9倍S等其他语音反馈速度。
例如,若当前网络状态为网络断开状态时,此时上述电子设备的后台在判定为无网络状态下会自动或者手动调节语音反馈速度,因此,基于上述年龄等级处于非正常语言能力范围的情况,可以对语音反馈速度进行相应的调节,在此不对调节作细致描述。
步骤104、对所述语音输入信号进行处理,得到信号处理结果。
在一些实施例中,对所述语音输入信号进行处理,得到信号处理结果,可以包括:识别所述语音输入信号,得到文本信息;对所述文本信息进行意图识别,得到文本意图;将所述文本意图作为所述信号处理结果。
例如,当用户发出的语音信息是“深圳今天的气温是多少度?”,首先,通过ASR(Automatic Speech Recognition,自动语音识别)***将上述语音信息通过处理分析得到对应的文字或拼音信息,然后,通过NLP(Natural Language Processing,自然语言处理)***将容易高度模糊的长难句进行结构化处理,生成计算机可读的语言,此过程就是对用户信息的意图识别,并得到相应的文本意图,基于用户发出的语音信息,该文本意图可以是“30度”,而“30度”就作为得到的信号处理结果。
步骤105、基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
在一些实施例中,所述信号处理结果可以包括文本意图;所述基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号,可以包括:响应于所述文本意图,生成应答信息;基于所述应答信息及所述语音反馈速度输出相应的音频信号。
例如,步骤104中已经得到了信号处理结果,并且该信号处理结果中包括“30度”这一文本意图,可以通过TTS(Text To Speech,从文本到语音)***将“30度”这一文本转化成语音,基于步骤103中对上述电子设备语音反馈速度的调节,输出“30度”的音频信号,以完成给用户提供语音服务的过程。
本实施例提供的提供语音服务的方法,包括:首先,接收语音输入信号;然后,获取当前网络状态,其中,该网络状态包括网络接入状态或网络断开状态;随后,根据该网络状态确定语音反馈速度,其中,网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;再然后,对该语音输入信号进行处理,得到信号处理结果;最后,基于该信号处理结果及语音反馈速度,输出相应的音频信号。本实施例通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,提升设备的工作效率。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
本实施例将从提供语音服务的装置的角度进行描述,该提供语音服务的装置具体集成在智能手机中。请参阅图2,图2为本申请实施例提供的提供语音服务的方法的第二种流程示意图。一种提供语音服务的方法,具体步骤可以如下:
步骤201、手机接收接收语音输入信号。
在一些实施例中,上述智能手机可以接收到根据用户发出的语音信息所生成的语音输入信号。
步骤202、获取手机当前所处网络状态。
在一些实施例中,上述智能手机在接收语音输入信号的过程中可以存在两种网络状态,一种是网络接入状态,另一种是网络断开状态,当用户发出语音信息之后,首先要获取当前网络状态,根据当前网络状态以及用户发出的语音信息生成上述语音输入信号。
步骤203、网络接入状态下确定第一语音反馈速度。
在一些实施例中,若当前网络状态为网络连接状态时,则接收语音输入信号时上述智能手机处于常规工作状态,此状态下该智能手机对于该语音输入信号经过处理而发出的语音反馈速度属于正常语速。
例如,当智能手机处于正常网络接入状态下,而该智能手机的语音反馈速度设为S,当接收到语音输入信号时,该智能手机当前处于常规反馈状态,可以提供正常的语音服务,因此其反馈相应语音信息时的语音反馈速度仍为S。
步骤204、网络断开状态下确定第二语音反馈速度。
在一些实施例中,当智能手机处于网络断开状态下,设该智能手机的语音反馈速度为S,此时智能手机的后台根据***判定的无网络条件,触发后台运算并发出调节语音反馈指令,使速度提升为1.1倍S、1.2倍S等其他语音反馈速度,此调节过程为***自动判定调节,也就是在无网络状态下,***会自动将语音反馈速度由S调节至1.1倍S、1.2倍S等其他语音反馈速度,该1.1倍S、1.2倍S等其他语音反馈速度为设置调节的默认语音反馈速度。其中,第二语音反馈速度大于第一语音反馈速度,也就是网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度。
例如,相对于上述自动调节功能,还可以设置用户手动调节功能,用户可以在不满足于上述默认语音反馈速度时,根据个人需求进行手动调节至适于个人听力的语音反馈速度。
步骤205、对语音输入信号进行处理,得到信号处理结果。
在一些实施例中,当用户发出的语音信息是“北京今天的气温是多少度?”,首先,通过ASR***将用户发出的语音信息通过处理分析得到对应的文字或拼音信息,然后,通过NLP***将容易高度模糊的长难句进行结构化处理,生成计算机可读的语言,此过程就是对用户信息的意图识别,并得到相应的文本意图,基于用户发出的语音信息,该文本意图可以是“20度”,而“20度”就作为得到的信号处理结果。
步骤206、基于信号处理结果及语音反馈速度,输出相应的音频信号。
在一些实施例中,步骤205中已经得到了信号处理结果,并且该信号处理结果中包括“20度”这一文本意图,可以通过TTS***将“20度”这一文本转化成语音,基于步骤204中对上述智能手机语音反馈速度的调节,输出“20度”的音频信号,以完成给用户提供语音服务的过程。
由上可知,本实施例提供的提供语音服务的方法可以首先接收语音输入信号;然后,获取当前网络状态,其中,该网络状态包括网络接入状态或网络断开状态;随后,根据该网络状态确定语音反馈速度,其中,网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;再然后,对该语音输入信号进行处理,得到信号处理结果;最后,基于该信号处理结果及所述语音反馈速度,输出相应的音频信号。本实施例通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,提升设备的工作效率。
为了更好地实施以上方法,本申请实施例还提供了一种提供语音服务的装置,如图3所示,图3是本申请实施例提供的提供语音服务的装置的第一种结构示意图,可以包括接收单元301、获取单元302、确定单元303、处理单元304和输出单元305,具体可以如下:
(1)接收单元301;
接收单元301,用于接收语音输入信号。
在一些实施例中,该接收单元301,具体可以用于电子设备接收根据用户发出的语音信息所生成的语音输入信号。
其中,该语音输入信号的接收方式可参见前面的方法实施例,在此不作赘述。
(2)获取单元302;
获取单元302,用于获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态。
在一些实施例中,该获取单元302,具体可以用于在电子设备接收语音输入信号的过程中获取当前网络状态,而该网络状态可以是网络接入状态,也可以是网络断开状态,并根据当前网络状态以及用户发出的语音信息生成上述语音输入信号。
其中,该网络状态的获取过程可参见前面的方法实施例,在此不作赘述。
(3)确定单元303;
确定单元303,用于根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度。
在一些实施例中,该确定单元303,具体可以用于当处于网络断开状态时,接收语音反馈速度切换指令,所述切换指令包括目标语音反馈速度;基于所述切换指令将所述语音反馈速度切换为所述目标语音反馈速度。
在一些实施例中,该确定单元303,具体可以用于识别所述语音输入信号的语言种类;获取所述语言种类在预设语种列表中的排序;根据网络状态和所述排序确定所述语音反馈速度。
在一些实施例中,该确定单元303,具体可以用于识别所述语音输入信号中的声音参数;根据所述声音参数识别所述语音输入信号对应的年龄等级;基于所述年龄等级从预设语音反馈速度集合中提取语音反馈速度,所述预设语音反馈速度集合包括:样本年龄等级与样本语音反馈速度之间的映射关系。
其中,该语音反馈速度的确定过程可参见前面的方法实施例,在此不作赘述。
(4)处理单元304;
处理单元304,用于对所述语音输入信号进行处理,得到信号处理结果。
可选的,在一些实施例中,如图4所示,该处理单元304可以包括第一识别子单元3041、第二识别子单元3042和处理子单元3043,如下:
所述第一识别子单元3041,用于识别所述语音输入信号,得到文本信息;
所述第二识别子单元3042,用于对所述文本信息进行意图识别,得到文本意图;
所述处理子单元3043,用于将所述文本意图作为所述信号处理结果。
其中,该语音输入信号的处理过程可参见前面的方法实施例,在此不作赘述。
(5)输出单元305;
输出单元,用于基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
可选的,在一些实施例中,如图4所示,该输出单元305可以包括响应子单元3051和输出子单元3052,如下:
所述响应子单元3051,用于响应于所述文本意图,生成应答信息;
所述输出子单元3052,用于基于所述应答信息及所述语音反馈速度输出相应的音频信号。
其中,具体输出过程可参见前面的方法实施例,在此不再赘述。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例可以首先由接收单元301接收语音输入信号;然后,由获取单元302获取当前网络状态,其中,网络状态包括网络接入状态或网络断开状态;随后,由确定单元303根据网络状态确定语音反馈速度,其中,网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;再然后,由处理单元304对该语音输入信号进行处理,得到信号处理结果;最后,由输出单元305基于该信号处理结果及语音反馈速度,输出相应的音频信号。本实施例通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,提升设备的工作效率。
相应的,本申请实施例还提供了一种终端401,该终端401可以为智能手机或者平板电脑,如图5所示,图5是本申请实施例提供的提供语音服务的终端的具体结构框图。
由图可知,该终端401可以包括有一个或者一个以上处理核心的中央处理器402、与所述中央处理器402连接的包括有一个或者一个以上计算机可读存储介质的存储器403、接收单元404和电源405等部件。图5仅显示出了该终端401的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中:
所述中央处理器402(Central Processing Unit,CPU)是终端的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器403内的软件程序和/或模块,以及调用存储在存储器403内的数据,执行终端的各种功能和处理数据,从而对智能手机进行整体监控。可选的,中央处理器402可包括一个或多个处理核心;优选的,中央处理器402可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到中央处理器402中。
所述存储器403可用于存储安装于所述终端401的应用软件及各类数据,从而执行各种功能应用以及数据处理。存储器403可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据终端401的使用所创建的数据等。
具体的,所述存储器403在一些实施例中可以是所述终端401的内部存储单元,例如终端401的硬盘或内存。所述存储器403在另一些实施例中也可以是所述终端401的外部存储设备,例如所述终端401上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器403还可以既包括所终端401的内部存储单元也包括外部存储设备。
终端还包括给各个部件供电的电源405,优选的,电源405可以通过电源管理***与中央处理器402逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源405还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端401还可包括接收单元404,该接收单元404可用于终端接收语音输入信号。
具体在本实施例中,终端401中的中央处理器402会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器403中,并由中央处理器402来运行存储在存储器403中的应用程序,从而实现各种功能,具体步骤如下:
接收语音输入信号;
获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;
根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;
对所述语音输入信号进行处理,得到信号处理结果;
基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
以上各个操作具体可参见前面的实施例,在此不再赘述。
由上可知,相对于现有技术而言,本实施例旨在本通过对网络断开状态下人工智能语音反馈速度的控制,可以有效提高设备在无网络状态下得到有效语音反馈信息的速度,提升设备的工作效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被中央处理器进行加载,以执行本申请实施例所提供的任一种应用于提供语音服务的方法中的步骤。例如,该指令可以执行如下步骤:
接收语音输入信号;获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;根据所述网络状态确定语音反馈速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;对所述语音输入信号进行处理,得到信号处理结果;基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种提供语音服务的方法中的步骤,因此,可以实现本申请实施例所提供的任一种提供语音服务的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种提供语音服务的方法、装置、存储介质和终端进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。
Claims (10)
1.一种提供语音服务的方法,其特征在于,包括:
接收语音输入信号;
获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;
根据所述网络状态确定语音反馈速度,所述语音反馈速度为语音速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;
对所述语音输入信号进行处理,得到信号处理结果;
基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述对所述语音输入信号进行处理,得到信号处理结果,包括:
识别所述语音输入信号,得到文本信息;
对所述文本信息进行意图识别,得到文本意图;
将所述文本意图作为所述信号处理结果。
3.根据权利要求2所述的方法,其特征在于,所述信号处理结果包括文本意图;所述基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号,包括:
响应于所述文本意图,生成应答信息;
基于所述应答信息及所述语音反馈速度输出相应的音频信号。
4.根据权利要求1所述的方法,其特征在于,所述根据所述网络状态确定语音反馈速度,包括:
当处于网络断开状态时,接收语音反馈速度切换指令,所述切换指令包括目标语音反馈速度;
基于所述切换指令将所述语音反馈速度切换为所述目标语音反馈速度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述网络状态确定语音反馈速度,包括:
识别所述语音输入信号的语言种类;
获取所述语言种类在预设语种列表中的排序;
根据网络状态和所述排序确定所述语音反馈速度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述网络状态确定语音反馈速度,包括:
当所述网络状态为所述网络接入状态时,识别所述语音输入信号中的声音参数;
根据所述声音参数识别所述语音输入信号对应的年龄等级;
基于所述年龄等级从预设语音反馈速度集合中提取语音反馈速度,所述预设语音反馈速度集合包括:样本年龄等级与样本语音反馈速度之间的映射关系。
7.一种提供语音服务的装置,其特征在于,包括:
接收单元,用于接收语音输入信号;
获取单元,用于获取当前网络状态,其中,所述网络状态包括网络接入状态或网络断开状态;
确定单元,用于根据所述网络状态确定语音反馈速度,所述语音反馈速度为语音速度,其中,所述网络断开状态时的语音反馈速度大于网络接入状态时的语音反馈速度;
处理单元,用于对所述语音输入信号进行处理,得到信号处理结果;
输出单元,用于基于所述信号处理结果及所述语音反馈速度,输出相应的音频信号。
8.根据权利要求7所述的装置,其特征在于,所述处理结果包括文本意图,所述输出单元包括:
响应子单元,用于响应于所述文本意图,生成应答信息;
输出子单元,用于基于所述应答信息及所述语音反馈速度输出相应的音频信号。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序适于中央处理器进行调用,用于执行权利要求1至6任一项所述的提供语音服务的方法中的步骤。
10.一种终端,其特征在于,包括:中央处理器和存储器;所述存储器中存储有计算机程序,所述中央处理器通过调用所述存储器中存储的所述计算机程序,用于执行权利要求1至6任一项所述的提供语音服务的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185527.5A CN110956964B (zh) | 2019-11-27 | 2019-11-27 | 提供语音服务的方法、装置、存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911185527.5A CN110956964B (zh) | 2019-11-27 | 2019-11-27 | 提供语音服务的方法、装置、存储介质和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956964A CN110956964A (zh) | 2020-04-03 |
CN110956964B true CN110956964B (zh) | 2022-03-25 |
Family
ID=69978695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911185527.5A Active CN110956964B (zh) | 2019-11-27 | 2019-11-27 | 提供语音服务的方法、装置、存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956964B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945673A (zh) * | 2012-11-24 | 2013-02-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音指令范围动态变化的连续语音识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
CN102708858A (zh) * | 2012-06-27 | 2012-10-03 | 厦门思德电子科技有限公司 | 基于编组方式的语音库实现语音识别***及其方法 |
CN103093755B (zh) * | 2012-09-07 | 2016-05-11 | 深圳市信利康电子有限公司 | 基于终端及互联网语音交互的网络家电控制方法及*** |
CN103634321B (zh) * | 2013-12-04 | 2017-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别结果的展现方法和装置 |
CN105632490A (zh) * | 2015-12-18 | 2016-06-01 | 合肥寰景信息技术有限公司 | 一种网络社区的语音交流的语境模拟方法 |
CN107767869B (zh) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
CN108320747A (zh) * | 2018-02-08 | 2018-07-24 | 广东美的厨房电器制造有限公司 | 家电设备控制方法、设备、终端及计算机可读存储介质 |
CN109348068A (zh) * | 2018-12-03 | 2019-02-15 | 咪咕数字传媒有限公司 | 一种信息处理方法、装置及存储介质 |
-
2019
- 2019-11-27 CN CN201911185527.5A patent/CN110956964B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945673A (zh) * | 2012-11-24 | 2013-02-27 | 安徽科大讯飞信息科技股份有限公司 | 一种语音指令范围动态变化的连续语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110956964A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106502649A (zh) | 一种机器人服务唤醒方法及装置 | |
CN110675873B (zh) | 智能设备的数据处理方法、装置、设备及存储介质 | |
KR20200074260A (ko) | 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로 | |
JP2021196599A (ja) | 情報を出力するための方法および装置 | |
CN111916082A (zh) | 语音交互方法、装置、计算机设备和存储介质 | |
CN110992955A (zh) | 一种智能设备的语音操作方法、装置、设备及存储介质 | |
CN111161714A (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
WO2020233363A1 (zh) | 语音识别的方法、装置、电子设备和存储介质 | |
CN106991106A (zh) | 减少由切换输入模态所引起的延迟 | |
CN109712623A (zh) | 语音控制方法、装置及计算机可读存储介质 | |
CN109545203A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN108597499B (zh) | 语音处理方法以及语音处理装置 | |
CN110364155A (zh) | 语音控制报错方法、电器及计算机可读存储介质 | |
CN113823282A (zh) | 语音处理方法、***和装置 | |
CN111312243B (zh) | 设备交互方法和装置 | |
CN110956964B (zh) | 提供语音服务的方法、装置、存储介质和终端 | |
CN112634698A (zh) | 基于话音识别的调度员培训模拟***、方法及装置 | |
CN114391165A (zh) | 语音信息处理方法、装置、设备及存储介质 | |
CN106486111B (zh) | 基于智能机器人的多tts引擎输出语速调节方法及*** | |
CN109725798B (zh) | 智能角色的切换方法及相关装置 | |
WO2022213943A1 (zh) | 消息发送方法、消息发送装置、电子设备和存储介质 | |
CN112002325B (zh) | 多语种语音交互方法和装置 | |
CN109582114A (zh) | 一种移动终端及其开机控制方法 | |
CN114708849A (zh) | 语音处理方法、装置、计算机设备及计算机可读存储介质 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |