CN110277092A - 一种语音播报方法、装置、电子设备及可读存储介质 - Google Patents

一种语音播报方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN110277092A
CN110277092A CN201910542615.XA CN201910542615A CN110277092A CN 110277092 A CN110277092 A CN 110277092A CN 201910542615 A CN201910542615 A CN 201910542615A CN 110277092 A CN110277092 A CN 110277092A
Authority
CN
China
Prior art keywords
word speed
text
target text
robot
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910542615.XA
Other languages
English (en)
Inventor
李思达
刘浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910542615.XA priority Critical patent/CN110277092A/zh
Publication of CN110277092A publication Critical patent/CN110277092A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Toys (AREA)

Abstract

本发明公开了一种语音播报方法、装置、电子设备及可读存储介质,该方法包括:获取机器人待语音播报的目标文本;根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;控制机器人采用所述第一目标语速播报所述目标文本。本发明中电子设备可以根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性。

Description

一种语音播报方法、装置、电子设备及可读存储介质
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音播报方法、装置、电子设备及可读存储介质。
背景技术
机器人在与用户进行语音交互时,语音播报采用的语速是固定不变的,导致在一些场景下需要播报的内容过长,播报完所需的时间较长,用户没有时间或耐心听完,或者是在一些场景下需要播报的内容短,用户来不及听清就已经播报完,因此固定语速进行语音播报灵活性差。
发明内容
本发明提供了一种语音播报方法、装置、电子设备及可读存储介质,用以解决现有技术中固定语速进行语音播报灵活性差的问题。
本发明实施例提供了一种语音播报方法,该方法包括:
获取机器人待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制机器人采用所述第一目标语速播报所述目标文本。
在一种可能的实施方式中,所述获取机器人待语音播报的目标文本包括:
对机器人采集到的语音数据进行语音处理,确定所述语音数据的语义识别结果;以及根据所述语义识别结果,确定所述语音数据对应的待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速,包括:根据所述语义识别结果和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
在一种可能的实施方式中,获取机器人待语音播报的目标文本之后,还包括:确定所述目标文本中包括的核心内容文本和非核心内容文本;
所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速包括:将预先配置的语速,确定为所述核心内容文本对应的第一语速;以及根据所述非核心内容文本的长度,确定所述非核心内容文本对应的第二语速;
所述控制机器人采用所述第一目标语速播报所述目标文本包括:控制所述机器人采用所述第一语速播报所述核心内容文本,以及采用所述第二语速播报所述非核心内容文本。
在一种可能的实施方式中,控制机器人采用所述第一语速播报所述核心内容文本后,采用所述第二语速播报所述非核心内容文本之前,所述方法还包括:
确定接收到用于指示播报非核心内容文本的播报指令。
在一种可能的实施方式中,所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速包括:
若所述机器人当前执行引领任务,确定所述机器人当前所在地点与待引领到的目标地点之间的引领距离;
根据所述引领距离和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
在一种可能的实施方式中,所述控制机器人采用所述第一目标语速播报所述目标文本,还包括:
获取用户的人脸图像;
若识别所述人脸图像对应的表情为预设表情,将所述第一目标语速提高至第二目标语速,控制机器人采用所述第二目标语速播报所述目标文本,其中所述第二目标语速比所述第一目标语速快。
在一种可能的实施方式中,控制机器人采用第一目标语速播报所述目标文本包括:
根据语速与语调调值的对应关系,确定所述第一目标语速对应的目标语调调值;
控制所述机器人采用所述第一目标语速及所述目标语调调值,播报所述目标文本。
本发明实施例提供了一种语音播报装置,该装置包括:
获取模块,用于获取机器人待语音播报的目标文本;
第一确定模块,用于根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制模块,用于控制机器人采用所述第一目标语速播报所述目标文本。
在一种可能的实施方式中,所述获取模块,具体用于对机器人采集到的语音数据进行语音处理,确定所述语音数据的语义识别结果;以及根据所述语义识别结果,确定所述语音数据对应的待语音播报的目标文本;
所述第一确定模块,具体用于根据所述语义识别结果和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
在一种可能的实施方式中,所述装置还包括:
第二确定模块,用于获取机器人待语音播报的目标文本之后,确定所述目标文本中包括的核心内容文本和非核心内容文本;
所述第一确定模块,具体用于将预先配置的语速,确定为所述核心内容文本对应的第一语速;以及根据所述非核心内容文本的长度,确定所述非核心内容文本对应的第二语速;
所述控制模块,具体用于控制所述机器人采用所述第一语速播报所述核心内容文本,以及采用所述第二语速播报所述非核心内容文本。
在一种可能的实施方式中,所述控制模块,还用于控制机器人采用所述第一语速播报所述核心内容文本后,确定接收到用于指示播报非核心内容文本的播报指令,采用所述第二语速播报所述非核心内容文本。
在一种可能的实施方式中,所述第一确定模块,具体用于若所述机器人当前执行引领任务,确定所述机器人当前所在地点与待引领到的目标地点之间的引领距离;根据所述引领距离和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
在一种可能的实施方式中,所述控制模块,还用于获取用户的人脸图像;若识别所述人脸图像对应的表情为预设表情,将所述第一目标语速提高至第二目标语速,控制机器人采用所述第二目标语速播报所述目标文本,其中所述第二目标语速比所述第一目标语速快。
在一种可能的实施方式中,所述控制模块,具体用于根据语速与语调调值的对应关系,确定所述第一目标语速对应的目标语调调值;控制所述机器人采用所述第一目标语速及所述目标语调调值,播报所述目标文本。
本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一项所述方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述任一项所述方法的步骤。
本发明提供的实施例中,可以根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种语音播报过程的示意图;
图2为本发明实施例4提供的一种语音播报的流程示意图;
图3为本发明实施例8提供的一种电子设备的结构示意图;
图4为本发明实施例10提供的一种语音播报装置示意图。
具体实施方式
为了提高语音播报的灵活性,本发明实施例提供了一种语音播报方法、装置、电子设备及可读存储介质。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的一种语音播报过程的示意图,该过程包括以下步骤:
S101:获取机器人待语音播报的目标文本。
本发明实施例提供的语音播报方法的执行主体为电子设备,该电子设备可以是机器人的控制器或与机器人连接的外部设备等,如果该电子设备为外部设备,则该外部设备能够与机器人进行通信,从而实现与机器人之间的数据传输、下发控制命令等,该外部设备可以为服务器等,本发明实施例中不对外部设备的具体形式进行限定。
本发明实施例中,待语音播报的目标文本可以是主动与用户的交互,如主动问候、语音引导等,也可以是对用户的问询信息(query)的回复。例如,待语音播报的目标文本可以与用户使用机器人时选择的业务功能有关,例如机器人为用户提供的业务功能包括百科介绍、引领、天气预报等。本发明实施例中不对待语音播报的目标文本的具体内容进行限定。用户使用机器人时选择的业务功能可以是通过语音指令进行选择,可以是通过点击机器人显示屏上显示的功能图标进行选择等。
本发明实施例中,电子设备可以在预先配置不同业务功能与回复文本的对应关系中获取目标文本,也可以从第三方设备中调用目标文本,示例的,电子设备可以根据获取到的用户的问询信息(query),基于用户query的语义识别结果,在预先配置的业务功能与回复文本的对应关系中确定目标文本,或从第三方设备中调用对应的目标文本。如预先配置的业务功能与回复文本的对应关系中包括百科介绍对应的文本、引领对应的文本,例如语义识别结果中领域(domain)为百科(baike)时,针对百科(baike)介绍,预先配置问答库,预先配置的问答库中针对不同的百科的词条(即用户询问的问题)保存有对应的答案文本,电子设备可以在该问答库中查找用户询问的问题对应的答案文本,并将该答案文本作为待播报的目标文本,又如,天气预报对应的文本可以从第三方设备中调用,示例的,如果确定用户query的语义识别结果中领域(domain)为天气预报时,电子设备调用第三方设备提供的天气数据调用接口,从第三方设备中获取天气预报对应的文本,将该获取到的天气预报对应的文本作为待播报的目标文本。
如果电子设备为外部设备,该电子设备中还可以包括机器人的标识信息、业务功能与回复文本的对应关系,即对于不同的机器人,预先配置有该机器人对应的不同业务功能与回复文本的对应关系。
S102:根据所述目标文本的长度,确定所述目标文本对应的第一目标语速。
其中,目标文本的长度只是目标文本中包含的字符的数量。字符可以包括汉字、字母、数字、以及其他符号(如标点符号,特殊符号等)。
当然,在确定目标文本的长度时,也可以只统计目标文本中包含的汉字、字母和数字的数量,而不统计该目标文本中包含的标点符号的数量。
该电子设备中可以预先保存有文本长度(以下简称为“长度”)与语速的对应关系,该长度与语速的对应关系中可以包括至少两个不同的语速,以使得不同长度的文本可以对应不同的语速,该长度指待语音播报的文本的长度,该语速指播报文本时采用的语速。
电子设备确定机器人待语音播报的目标文本后,可以确定该目标文本的长度,在预先保存的长度与语速的对应关系中查找该目标文本的长度对应的第一目标语速,确定该目标文本对应的第一目标语速。
具体地,在配置文本长度与语速的对应关系时,可以根据实际需要进行配置,例如,为了保证用户能够听清内容较长的文本可以是长度越长,对应的语速越慢。又如,为了进一步缩短用户倾听内容的时间可以是,长度越短,对应语速越快。再如,为了用户在倾听内容较长的文本时,使用的时间过长,导致用户没有足够的时间或没有耐心听完,也可以是长度越长,对应的语速越快,长度越短,对应的语速越慢等。
当然,考虑到过长或过慢的语速影响用户的体验,可以一定范围内的长度对应的语速是一定的,例如可以设置有长度范围,电子设备中保存的长度与语速的对应关系为不同的长度范围与不同语速的对应关系。
电子设备根据待语音播报的文本位于的长度范围,确定播报该文本时对应语速。即电子设备根据目标文本的长度确定目标文本位于的目标长度范围,根据目标长度范围,及预先保存的长度范围与语速的对应关系,确定该目标长度范围对应的目标语速,即确定该目标文本对应的目标语速。
例如考虑到正常人说话语速通常为160~180字/分钟,而一句话一般在5秒或者15个字以内,保存的长度范围与语速的对应关系可以为:文本的长度范围不超过30字时,对应的语速为180字/分钟;文本的长度范围超过30字,且不超过50字时,对应的语速为240字/分钟;文本的长度范围超过50字且不超过100字时,对应的语速为290字/分钟;文本的长度范围超过100字时,对应的语速为350字/分钟。
还以上述为例,待语音播报的目标文本为“北京今日天气:23~35℃,多云转晴,南风微风,降水概率为0,紫外线指数中等,PM2.5指数为164,属于中度污染,不适宜户外运动,出门时请注意防晒和佩戴防护口罩”,共72个字(不包含标点符号),则确定该目标文本对应的目标语速为290字/分钟。
S103:控制机器人采用所述第一目标语速播报所述目标文本。
电子设备确定待语音播报的目标文本对应的第一目标语速后,控制机器人采用该第一目标语速播报该目标文本。
如果电子设备为控制设备,则该电子设备可以将目标文本和第一目标语速发送给机器人,也可以将目标文本对应的标识信息及第一目标语速对应的标识信息发送给机器人,机器人中保存有文本与文本的标识信息的对应关系,根据该目标文本对应的标识信息确定目标文本,机器人中保存有语速与语速的标识信息的对应关系,根据该目标语速对应的标识信息确定目标语速。机器人确定目标文本和第一目标语速后,采用该第一目标语速播报目标文本。
本发明实施例中,可以根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性,提高了用户体验。
实施例2:
在上述实施例的基础上,本发明实施例中,所述获取机器人待语音播报的目标文本包括:
对机器人采集到的语音数据进行语音处理,确定所述语音数据的语义识别结果;以及根据所述语义识别结果,确定所述语音数据对应的待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速,包括:根据所述语义识别结果和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
本实施例中,如果用户通过语音指令与机器人进行交互,机器人可以采集到的用户的语音数据。
电子设备获取到机器人采集到的语音数据之后,对该语音数据进行语音处理,该语音处理至少包括语音识别处理和语义识别处理,以确定该语音数据的语义识别结果,即将用户输入的语音数据(即自然语言语句)映射为机器可读的结构化语义表述,从而根据语义识别结果,确定所述语音数据对应的回复文本。
电子设备中可以预先保存有语义识别结果与文本的对应关系,因此电子设备确定语义识别结果后,在语音识别结果与文本的对应关系中,查找该确定的语音识别结果(即采集到的语音数据的语音识别结果)对应的目标文本,确定该目标文本为采集到的语音数据对应的待语音播报的目标文本。
目标文本对应的语速除与目标文本的长度有关外,还可以与语义识别结果有关。具体的,电子设备中还可以预先配置有语义识别结果、文本的长度与语速的对应关系,因此电子设备可以根据该确定的语义识别结果、目标文本的长度,确定该目标文本对应的第一目标语速。如针对语义识别结果中不同的领域(domain),预先配置有该domain的不同文本的长度对应的语速,示例的,针对不同的domain,电子设备中预先配置的不同文本的长度对应的语速也不同。例如,电子设备中针对domain为百科(baike),文本的长度范围不超过30字时,对应的语速为180字/分钟,针对domain为天气预报,文本的长度范围不超过30字时,对应的语速为160字/分钟。
由于本发明实施例中,电子设备可以识别用户的语音数据确定相应的待语音播报的目标文本,和对应的第一目标语速,因此进一步提高了语音播报的灵活性。
实施例3:
在上述各实施例的基础上,本发明实施例中,电子设备中针对不同的业务功能保存的回复文本可以比较单一,也可以针对不同的业务功能,保存的回复的文本的长度和内容不同,例如预设的某些重要意图(即某些重要的业务功能)的回复文本包括有至少两段文本,即核心内容文本和非核心内容文本。相应的,电子设备获取机器人待语音播报的目标文本之后,还包括:确定所述目标文本中包括的核心内容文本和非核心内容文本。
其中,若预先配置的任一文本中包括核心内容文本和非核心内容文本,则可以采用不同的标识信息对核心内容文本和非核心内容文本进行标识,例如核心内容文本可以标识为0,非核心内容文本可以标识为1。在获取到目标文本后,可以根据标识信息确定该目标文本中的哪些内容是核心内容,哪些内容是非核心内容。
可选地,非核心内容文本可以包括详细内容文本,即对核心内容文本的进一步解释和说明。
下面举例进行说明,预设的重要意图包括引领,该引领对应的目标文本中包括的核心内容文本为:“现在将从当前地点引领您去会议室”,共15字,对应的目标第一语速为180字/分钟,该引领对应的目标文本中包括的非核心内容文本为:“从当前地点引领您去会议室的途中,我将为您简单介绍一下我司情况,我司是一家拥有服务机器人行业全链条AI技术、以互联网基因做机器人的新物种公司,公司自研机器人全链条AI技术集合了芯片+算法(脑)、全感知视觉识别(眼)、语音全链条技术(口)、麦克风阵列(耳)、七轴消费级机械臂(手)和室内自主导航平台(腿)”,共131字,对应的目标第二语速为350字/分钟。电子设备控制机器人采用180字/分钟的语速播报核心内容文本,采用350字/分钟的语速播报详细内容文本。
在具体实施中,电子设备可以采用目标文本的长度对应的第一目标语速,分别播报目标文本中包括的核心内容文本和非核心内容文本,即采用相同的语速播报目标文本中包括的核心内容文本和非核心内容文本。电子设备也可以采用目标文本中包括的核心内容文本对应的第一语速播报该核心内容文本,采用目标文本中包括的非核心内容文本对应的第二语速播报该非核心内容文本,即采用不同的语速分别对核心内容文本和非核心内容文本进行播报。
如果采用核心内容文本对应的第一语速,非核心内容文本对应的第二语速,分别对核心内容文本和非核心内容文本进行播报,在一种可能的实现中,核心内容文本对应的第一语速,可以为根据该核心内容文本的长度确定的第一语速。在另一种可能的实现中,核心内容文本对应的第一语速可以为预设配置的语速。
如果核心内容文本对应的第一语速为预先配置的语速,示例的,所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速包括:
将预先配置的语速,确定为所述核心内容文本对应的第一语速;以及根据所述非核心内容文本的长度,确定所述非核心内容文本对应的第二语速。
相应的,所述控制机器人采用所述第一目标语速播报所述目标文本包括:控制所述机器人采用所述第一语速播报所述核心内容文本,以及采用所述第二语速播报所述非核心内容文本。
在具体实施中,电子设备预先配置的语速可以预先针对不同的domain对应的核心内容文本分别进行配置,即为不同domain对应的核心内容文本配置不同的语速。也可以针对每个domain的核心内容文本预先配置统一的语速,即所有domain对应的核心内容文本的语速相同。
由于本发明实施例中电子设备可以采用核心内容文本对应的第一语速,播报核心内容文本,采用非核心内容文本对应的第二语速,播报非核心内容文本,进一步提高了语音播报的灵活性。
实施例4:
在上述各实施例的基础上,本发明实施例中,控制机器人采用所述第一语速播报所述核心内容文本后,采用所述第二语速播报所述非核心内容文本之前,所述方法还包括:确定接收到用于指示播报非核心内容文本的播报指令。
为了增加交互次数,缩短用户每次听语音播报的时间,避免用户听语音播报时间过长而直接离开,电子设备控制机器人采用第一语速播报核心内容文本后,判断是否接收到用于指示播报非核心内容文本的播报指令,如果是,控制机器人继续采用第二语速播报非核心内容文本。
机器人上可以有用于指示播报非核心内容文本的播报按钮,该播报按钮可以为实体按键,可以为机器人的显示屏显示的虚拟按钮,机器人能够检测到自身设置的播报按钮是否被触发,如用户可以通过点击操作、双击操作、按压操作等方式触发详细文本内容播报按钮。
机器人也可以采集用户的用于指示播报非核心内容文本的语音指令,如该语音指令可以为“继续播报”,“播报非核心内容文本”等。
可选地,机器人还可以在播报完核心内容文本后,询问用户是否继续播报非核心内容文本,如果电子设备识别到用户的继续播报确认指令(即接收到用于指示播报非核心内容文本的播报指令),则电子设备继续控制机器人采用第二语速播报该非核心内容文本。
其中,机器人询问用户是否继续播报非核心内容文本的方式可以包括语音播报询问和/或文本显示询问。例如在机器人语音播报“是否继续播报非核心内容文本”,电子设备如果识别到用户的“是”、“继续播报”等语音回复,确认接收到用户的继续播报确认指令。在机器人文本显示询问时,在机器人的显示屏上显示“是否继续播报非核心内容文本”的提示框,或者是显示用于指示播报非核心内容文本的播报按钮等,电子设备如果识别到用户对提示框中“确认按钮”的触发操作,或者是识别到用户播报按钮的触发操作,确认接收到用户的继续播报确认指令。
本实施例中,若电子设备如果确定未接收到用于指示播报非核心内容文本的播报指令,则控制机器人不继续播报非核心内容文本,进一步节省了机器人的处理资源。
具体的,电子设备可以控制机器人采用第一语速播报核心内容文本完成后,启动定时器,判断定时器的计时时长在预设的时长范围内是否接收到播报指令,如果是,确定接收到用于指示播报非核心内容文本的播报指令,如果否,确定未接收到用于指示播报非核心内容文本的播报指令。
下面结合一个具体的实施例,对本发明实施例提供的语音播报流程进行详细说明,图2所示的实施例提供的语音播报流程,包括以下步骤:
S201:获取用户的问询信息(query),继续执行S202。
用户可以通过机器人显示屏上显示的业务功能,选择所需的业务功能,如用户可以通过选择操作或者是语音指令来输入其选择的业务功能,电子设备可以识别用户的选择操作或语音指令,确定用户的问询信息(query)。
S202:基于用户query的语义识别结果,确定用户query对应的回复文本,将该回复文本确定为待播报的目标文本,继续执行S203。
S203:判断domain是否为重要意图;如果是,进行S204;如果否,进行S210。
在该步骤中,电子设备可以通过判断用户选择的业务功能是否为预设的重要功能,来确定domain是否为重要意图,例如,如果用户选择的业务功能为预设的重要功能,确定domain为重要意图,否则,确定domain非重要意图。
S204:确定目标文本中包括的核心内容文本和非核心内容文本,继续执行S205。
S205:将预先配置的语速确定为核心内容文本对应的第一语速,根据非核心内容文本的长度,确定该非核心内容文本对应的第二语速,继续执行S206。
S206:控制机器人采用第一语速播报核心内容文本。
S207:判断机器人上设置的用于指示播报非核心内容文本的播报按钮是否被触发;如果是,进行S208;如果否,进行S209;
S208:控制机器人采用第二语速播报非核心内容文本。
S209:控制机器人停止播报文本。
在该步骤完成之后,电子设备还可以继续返回S201继续获取用户的问询信息(query)。
S210:根据目标文本的长度,确定该目标文本对应的语速;控制机器人采用该目标文本对应的语速播报该目标文本。
由于本发明实施例中机器人采用第一语速播报核心内容文本后,如果确定接收到用于指示播报非核心内容文本的播报指令,控制机器人继续采用第二语速播报非核心内容文本,缩短了用户听语音播报的时间,增加了交互次数,避免了用户听语音播报时间过长而直接离开。
实施例5:
在上述各实施例的基础上,本发明实施例中,所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速包括:
若所述机器人当前执行引领任务,确定所述机器人当前所在地点与待引领到的目标地点之间的引领距离;以及
根据所述引领距离和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
在机器人当前执行引领任务时,为了保证机器人引领用户的过程中,播报目标文本的语速适当,并且能够将目标文本完整播报完成,电子设备根据目标文本的长度、引领距离确定对应的目标语速。
电子设备确定机器人引领用户的目标引领距离时,电子设备确定机器人当前所在地点与待引领到的目标地点之间的引领距离。在一种可能的实现中,电子设备中可以预先配置有不同地点之间的距离,从而根据当前所在地点和目标地点确定引领距离.在另一种可能的实现中,电子设备中可以预先配置有机器人所处环境(如公司、厂房、园区等)的地图,电子设备确定基于机器人当前所在地点在地图上的第一地点,及目标地点在地图上的第二地点,确定该第一地点和第二地点在地图上的距离,从而确定该机器人当前所在地点和目标电子之间的引领距离。
电子设备中预先配置有引领距离、文本长度与语速的对应关系,电子设备在确定目标文本的长度和引领距离后,确定该目标文本的长度和引领距离对应的第一目标语速,从而确定播报该目标文本时采用的第一目标语速。
本发明实施例中不仅仅局限在单纯的引领场景,在机器人带领用户参观的场景下也同样适用。
由于本发明实施例中机器人在引领用户的过程中,考虑到了引领距离,目标文本的长度对语速的影响,保证了播报目标文本的语速适当,并且能够将目标文本完整播报完成,进一步提高了用户体验。
实施例6:
在上述各实施例的基础上,本发明实施例中,所述控制机器人采用所述第一目标语速播报所述目标文本,还包括:
获取用户的人脸图像;
若识别所述人脸图像对应的表情为预设表情,将所述第一目标语速提高至第二目标语速,控制机器人采用所述第二目标语速播报所述目标文本,其中所述第二目标语速比所述第一目标语速快。
为了进一步提高语音播报的灵活性和用户体验,电子设备在控制机器人采用目标语速播报的过程中,边播报边采集用户的人脸图像,当确定人脸图像对应的表情为预设表情时,提高语速进行播报,以进一步缩短用户听语音播报的时间。
该预设表情可以为不耐烦、烦躁等表情。
电子设备能够获取到用户的人脸图像,具体地,可以是机器人采集用户的人脸图像,可以是其他图像采集设备采集到用户的人脸图像,也可以是电子设备自身采集用户的人脸图像。
电子设备获取到用户的人脸图像后,识别该人脸图像对应的表情,识别该人脸图像对应的表情的过程可以采用现有的人脸表情识别方法实现,在本发明实施例中不做赘述。
电子设备识别到人脸图像对应的表情为预设表情后,将确定的该目标语速提高至第二目标语速,控制机器人采用第二目标语速播报目标文本,第二目标语速比第一目标语速快。
电子设备将目标语速提高至第二目标语速可以是将第一目标语速提高至预设的第二目标语速,可以是将第一目标语速增加设定的语速步长值,得到第二目标语速等等。
电子设备识别到人脸图像对应的表情非预设表情,可以保持机器人采用确定的该第一目标语速播报目标文本。
由于本发明实施例中边播报边获取用户的人脸图像,当人脸图像对应的表情为预设表情时,提高语速进行播报,以进一步缩短用户听语音播报的时间,并进一步提高了用户体验。
实施例7:
在上述各实施例的基础上,本发明实施例中,所述控制机器人采用第一目标语速播报所述目标文本包括:
根据语速与语调调值的对应关系,确定所述第一目标语速对应的目标语调调值;以及
控制所述机器人采用所述第一目标语速及所述目标语调调值,播报所述目标文本。
电子设备可以控制机器人采用第一目标语速和对应的目标语调调值播报目标文本,不同的语调调值可以给用户带来不同的状态,如调值越高,用户听语音播报时情绪越亢奋高昂。该第一目标语速包括上述实施例中确定的第一目标语速以及第二目标语速。
在实施过程中,语调调值可以通过频率和振幅进行调整。
电子设备中还可以包括有语速与语调调值的对应关系,电子设备确定第一目标语速后,根据该语速与语调调值的对应关系,确定该第一目标语速对应的目标语调调值。
进一步的,电子设备控制机器人采用第一目标语速和目标语调调值播报该目标文本。
由于本发明实施例中通过语速和语调调值播报目标文本,进一步提高了语音播报的灵活性。
实施例8:
在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图3所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
获取机器人待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制机器人采用所述第一目标语速播报所述目标文本。
由于上述电子设备解决问题的原理与语音播报方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中,处理器执行存储器上所存放的程序时,实现根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性。
实施例9:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取机器人待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制机器人采用所述第一目标语速播报所述目标文本。
由于上述计算机存储可读存储介质存储的计算机程序在由电子设备执行解决问题时的原理与语音播报方法相似,因此上述实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性。
实施例10:
图4为本发明实施例提供的一种语音播报装置示意图,应用于电子设备,该装置包括:
获取模块401,用于获取机器人待语音播报的目标文本;
第一确定模块402,用于根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制模块403,用于控制机器人采用所述第一目标语速播报所述目标文本。
进一步地,所述获取模块401,具体用于对机器人采集到的语音数据进行语音处理,确定所述语音数据的语义识别结果;以及根据所述语义识别结果,确定所述语音数据对应的待语音播报的目标文本;
第一确定模块402具体用于:根据所述语义识别结果和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
进一步地,所述装置还包括:
第二确定模块404,用于获取机器人待语音播报的目标文本之后,确定所述目标文本中包括的核心内容文本和非核心内容文本;
所述第一确定模块402,具体用于将预先配置的语速,确定为所述核心内容文本对应的第一语速;以及根据所述非核心内容文本的长度,确定所述非核心内容文本对应的第二语速;
所述控制模块403,具体用于控制所述机器人采用所述第一语速播报所述核心内容文本,以及采用所述第二语速播报所述非核心内容文本。
进一步地,所述控制模块403,还用于控制机器人采用所述第一语速播报所述核心内容文本后,确定接收到用于指示播报非核心内容文本的播报指令,采用所述第二语速播报所述非核心内容文本。
进一步地,所述第一确定模块402,具体用于若所述机器人当前执行引领任务,确定所述机器人当前所在地点与待引领到的目标地点之间的引领距离;根据所述引领距离和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
进一步地,所述控制模块403,还用于获取用户的人脸图像;若识别所述人脸图像对应的表情为预设表情,将所述第一目标语速提高至第二目标语速,控制机器人采用所述第二目标语速播报所述目标文本,其中所述第二目标语速比所述第一目标语速快。
进一步地,所述控制模块403,具体用于根据语速与语调调值的对应关系,确定所述第一目标语速对应的目标语调调值;控制所述机器人采用所述第一目标语速及所述目标语调调值,播报所述目标文本。
本发明实施例中电子设备可以根据获取到的机器人待语音播报的目标文本的长度,确定对应的第一目标语速,并采用该第一目标语速进行语音播报,进行语音播报的语速与文本的长度对应,并非固定不变,提高了语音播报的灵活性。
对于***/装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音播报方法,其特征在于,该方法包括:
获取机器人待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制机器人采用所述第一目标语速播报所述目标文本。
2.如权利要求1所述的方法,其特征在于,所述获取机器人待语音播报的目标文本包括:
对机器人采集到的语音数据进行语音处理,确定所述语音数据的语义识别结果;以及根据所述语义识别结果,确定所述语音数据对应的待语音播报的目标文本;
根据所述目标文本的长度,确定所述目标文本对应的第一目标语速,包括:根据所述语义识别结果和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
3.如权利要求1或2所述的方法,其特征在于,获取机器人待语音播报的目标文本之后,还包括:确定所述目标文本中包括的核心内容文本和非核心内容文本;
所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速,包括:将预先配置的语速,确定为所述核心内容文本对应的第一语速;以及根据所述非核心内容文本的长度,确定所述非核心内容文本对应的第二语速;
所述控制机器人采用所述第一目标语速播报所述目标文本,包括:控制所述机器人采用所述第一语速播报所述核心内容文本,以及采用所述第二语速播报所述非核心内容文本。
4.如权利要求3所述的方法,其特征在于,控制机器人采用所述第一语速播报所述核心内容文本后,采用所述第二语速播报所述非核心内容文本之前,所述方法还包括:
确定接收到用于指示播报非核心内容文本的播报指令。
5.如权利要求1或2所述的方法,其特征在于,所述根据所述目标文本的长度,确定所述目标文本对应的第一目标语速,包括:
若所述机器人当前执行引领任务,确定所述机器人当前所在地点与待引领到的目标地点之间的引领距离;
根据所述引领距离和所述目标文本的长度,确定所述目标文本对应的第一目标语速。
6.如权利要求1所述的方法,其特征在于,所述控制机器人采用所述第一目标语速播报所述目标文本,还包括:
获取用户的人脸图像;
若识别所述人脸图像对应的表情为预设表情,将所述第一目标语速提高至第二目标语速,控制机器人采用所述第二目标语速播报所述目标文本,其中所述第二目标语速比所述第一目标语速快。
7.如权利要求1或6所述的方法,其特征在于,控制机器人采用第一目标语速播报所述目标文本,包括:
根据语速与语调调值的对应关系,确定所述第一目标语速对应的目标语调调值;
控制所述机器人采用所述第一目标语速及所述目标语调调值,播报所述目标文本。
8.一种语音播报装置,其特征在于,该装置包括:
获取模块,用于获取机器人待语音播报的目标文本;
第一确定模块,用于根据所述目标文本的长度,确定所述目标文本对应的第一目标语速;
控制模块,用于控制机器人采用所述第一目标语速播报所述目标文本。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行权利要求1~7任一项所述方法的步骤。
CN201910542615.XA 2019-06-21 2019-06-21 一种语音播报方法、装置、电子设备及可读存储介质 Pending CN110277092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910542615.XA CN110277092A (zh) 2019-06-21 2019-06-21 一种语音播报方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910542615.XA CN110277092A (zh) 2019-06-21 2019-06-21 一种语音播报方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN110277092A true CN110277092A (zh) 2019-09-24

Family

ID=67962313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910542615.XA Pending CN110277092A (zh) 2019-06-21 2019-06-21 一种语音播报方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110277092A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991455A (zh) * 2020-02-11 2020-04-10 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
CN111161721A (zh) * 2019-11-28 2020-05-15 广州赛特智能科技有限公司 一种室内根据移动距离调节语音播报速度的方法
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备
CN113194380A (zh) * 2021-04-26 2021-07-30 读书郎教育科技有限公司 一种英语单词英语生词听写进度的控制***及方法
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及***
CN114973740A (zh) * 2022-06-06 2022-08-30 北京百度网讯科技有限公司 语音播报时机的确定方法、装置及电子设备
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101416225A (zh) * 2006-04-05 2009-04-22 株式会社建伍 车载设备、语音信息提供***以及话音速率调节方法
EP2009621B1 (en) * 2007-06-28 2010-03-24 Fujitsu Limited Adjustment of the pause length for text-to-speech synthesis
CN109582271A (zh) * 2018-10-26 2019-04-05 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备
CN109634501A (zh) * 2018-12-20 2019-04-16 掌阅科技股份有限公司 电子书批注添加方法、电子设备及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101416225A (zh) * 2006-04-05 2009-04-22 株式会社建伍 车载设备、语音信息提供***以及话音速率调节方法
EP2009621B1 (en) * 2007-06-28 2010-03-24 Fujitsu Limited Adjustment of the pause length for text-to-speech synthesis
CN109582271A (zh) * 2018-10-26 2019-04-05 北京蓦然认知科技有限公司 一种动态设置tts播放参数的方法、装置及设备
CN109634501A (zh) * 2018-12-20 2019-04-16 掌阅科技股份有限公司 电子书批注添加方法、电子设备及计算机存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161721A (zh) * 2019-11-28 2020-05-15 广州赛特智能科技有限公司 一种室内根据移动距离调节语音播报速度的方法
CN111161721B (zh) * 2019-11-28 2022-12-20 广州赛特智能科技有限公司 一种室内根据移动距离调节语音播报速度的方法
CN110991455A (zh) * 2020-02-11 2020-04-10 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
CN110991455B (zh) * 2020-02-11 2023-05-05 上海肇观电子科技有限公司 图像文本播报方法及其设备、电子电路和存储介质
US11776286B2 (en) 2020-02-11 2023-10-03 NextVPU (Shanghai) Co., Ltd. Image text broadcasting
CN112349299A (zh) * 2020-10-28 2021-02-09 维沃移动通信有限公司 语音播放方法、装置及电子设备
CN113194380A (zh) * 2021-04-26 2021-07-30 读书郎教育科技有限公司 一种英语单词英语生词听写进度的控制***及方法
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及***
CN114973740A (zh) * 2022-06-06 2022-08-30 北京百度网讯科技有限公司 语音播报时机的确定方法、装置及电子设备
CN114973740B (zh) * 2022-06-06 2023-09-12 北京百度网讯科技有限公司 语音播报时机的确定方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110277092A (zh) 一种语音播报方法、装置、电子设备及可读存储介质
CN108492827B (zh) 应用程序的唤醒处理方法、装置及存储介质
CN107256707B (zh) 一种语音识别方法、***及终端设备
KR101777392B1 (ko) 중앙 서버 및 이에 의한 사용자 음성 처리 방법
JP2019128939A (ja) ジェスチャーによる音声ウェイクアップ方法、装置、設備及びコンピュータ可読媒体
CN104050966A (zh) 终端设备的语音交互方法和使用该方法的终端设备
US11587560B2 (en) Voice interaction method, device, apparatus and server
CN107733722B (zh) 用于配置语音服务的方法和装置
CN110290280B (zh) 一种终端状态的识别方法、装置及存储介质
US20200265843A1 (en) Speech broadcast method, device and terminal
CN112735407B (zh) 一种对话处理方法及装置
CN111091813A (zh) 语音唤醒模型更新方法、装置、设备及介质
CN111312233A (zh) 一种语音数据的识别方法、装置及***
CN112529585A (zh) 风险交易的交互唤醒方法、装置、设备及***
CN112052316A (zh) 模型评估方法、装置、存储介质及电子设备
CN111368504A (zh) 语音数据标注方法、装置、电子设备及介质
CN112257884B (zh) 一种订单管理方法和***
CN109413261A (zh) 一种应用交互中的提示方法及终端设备
US20120243670A1 (en) Automatically Updating Meeting Information
CN111312243B (zh) 设备交互方法和装置
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN111081251B (zh) 语音唤醒方法及装置
CN105812535A (zh) 一种记录语音通信信息的方法及终端
CN112328308A (zh) 用于识别文本的方法和装置
CN110335237B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924