CN110211564A - 语音合成方法及装置、电子设备和计算机可读介质 - Google Patents
语音合成方法及装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN110211564A CN110211564A CN201910458202.3A CN201910458202A CN110211564A CN 110211564 A CN110211564 A CN 110211564A CN 201910458202 A CN201910458202 A CN 201910458202A CN 110211564 A CN110211564 A CN 110211564A
- Authority
- CN
- China
- Prior art keywords
- speech synthesis
- converted
- channel
- request
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 44
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 159
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 158
- 238000001514 detection method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 9
- 230000006854 communication Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000005266 casting Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本公开提供一种语音合成方法、装置以及电子设备和计算机可读介质,涉及语音处理技术领域,该方法包括:获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;根据所述目标场景标识确定语音合成参数;根据所述语音合成参数将所述待转换文本信息转换为语音数据。本公开实施例提供的语音合成方法可以支撑多应用场景,可以有效提高语音合成资源的利用率。
Description
技术领域
本公开涉及语音处理技术领域,尤其涉及一种语音合成方法及装置、电子设备和计算机可读介质。
背景技术
近年来,随着语音技术的不断发展成熟,语音交互成为了目前最流行的交互方式之一,语音合成技术已经被广泛应用于有声阅读、语音导航、翻译对话等场景。但是目前的语音合成***仅适用于某单一场景,如文学有声阅读、任务或派单信息语音播报等。目前,在语音合成***方面,还没有比较通用的***能够对所有的应用场景提供统一的服务,导致语音合成***利用率低、资源浪费等。因此,找到一种支撑多应用场景的语音合成方法,对于提高语音合成***利用率、节约资源具有至关重要的作用。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种语音合成方法及装置、电子设备和计算机可读介质,能够在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一个方面,提出一种语音合成方法,该方法包括:获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;根据所述目标场景标识确定语音合成参数;根据所述语音合成参数将所述待转换文本信息转换为语音数据。
在本公开实施例中,所述语音合成请求中还包括目标渠道标识,所述方法还包括:根据所述目标渠道标识,确定所述语音合成请求的渠道来源;根据所述渠道来源确定所述语音数据的采样频率;其中,根据所述语音合成参数将所述待转换文本信息转换为语音数据,包括:根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
在本公开实施例中,所述语音合成请求中还包括鉴权码,所述方法还包括:对所述语音合成请求中的鉴权码进行鉴权;如果鉴权成功,则生成鉴权成功标识。
在本公开实施例中,所述方法还包括:判断所述鉴权成功标识的合法性;如果所述鉴权成功标识合法,则生成渠道检测请求。
在本公开实施例中,所述语音合成参数包括:语种、音色、音调、音量和语速中的任意一种或者多种。
在本公开实施例中,所述渠道来源包括:电信渠道和多媒体渠道。
在本公开实施例中,根据所述渠道来源确定所述语音数据的采样频率,包括:若所述渠道来源为所述电信渠道,则确定所述语音数据的采样频率为8k16bit;若所述渠道来源为所述多媒体渠道,则确定所述语音数据的采样频率为16k16bit。
根据本公开实施例的第二个方面,提出一种语音合成装置,该装置包括:请求获取模块,配置为获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;合成参数获取模块,配置为根据所述目标场景标识确定语音合成参数;第一语音合成模块,配置为根据所述语音合成参数将所述待转换文本信息转换为语音数据。
根据本公开实施例的第三个方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项所述的语音合成方法。
根据本公开实施例的第四个方面,提出一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如上述任一项所述的语音合成方法。
根据本公开某些实施例提供的语音合成方法、装置及电子设备和计算机可读介质,通过解析语音合成请求中的目标场景标识,从而可以获得目标语音合成参数,并进一步根据所述语音合成参数将待转换文本信息转换成语音数据。本公开实施例提供的语音合成方法可以在多个应用场景下生成合成语音,该合成语音与对应场景下的真实语音更为相近。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用于本公开实施例的语音合成方法或语音合成装置的示例性***架构的示意图;
图2是根据本公开实施例示出的一种语音合成方法的流程图;
图3是根据本公开实施例示出的另一种语音合成方法的流程图;
图4是根据本公开实施例示出的再一种语音合成方法的流程图;
图5是根据本公开实施例示出的又一种语音合成方法的流程图;
图6是根据一示例性实施例示出的一种语音合成装置的框图;
图7是根据一示例性实施例示出的一种语音合成装置的框图;
图8是根据另一示例性实施例示出的一种语音合成装置的框图;
图9是根据再一示例性实施例示出的一种语音合成装置的框图;
图10是根据一示例性实施例示出的一种应用于语音合成装置的计算机***的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图仅为本公开的示意性图解,图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和步骤,也不是必须按所描述的顺序执行。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本说明书中,用语“一个”、“一”、“该”、“所述”和“至少一个”用以表示存在一个或多个要素/组成部分/等;用语“包含”、“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”和“第三”等仅作为标记使用,不是对其对象的数量限制。
下面结合附图对本公开示例实施方式进行详细说明。
图1示出了可以应用于本公开实施例的语音合成方法或语音合成装置的示例性***架构的示意图。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。其中,终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所进行操作的装置提供支持的后台管理服务器。后台管理服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
服务器105可例如获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;服务器105可例如根据所述目标场景标识确定语音合成参数;服务器105可例如根据所述语音合成参数将所述待转换文本信息转换为语音数据。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,服务器105可以是一个实体的服务器,还可以为多个服务器组成,根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是根据一示例性实施例示出的一种语音合成方法的流程图。
本公开实施例提供的语音合成方法可以由任意具备计算处理能力的电子设备执行,例如服务端和/或客户端,在下面的举例说明中,以服务端执行所述语音合成方法为例进行说明,但本公开并不限定于此。参照图2,本公开实施例提供的语音合成方法可以包括以下步骤。
步骤S201,获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息。
本公开实施例中,服务端内部可以预先设定许多预设场景,例如,商场内机器人与人对话场景、服务热线对话场景、健康咨询APP(application,应用程序)交互对话场景等,本公开对此不做限制。
本公开实施例中,服务端还可以给不同的预设场景设置能够将其唯一区分开的场景标识。例如,假设商场内机器人与人对话场景对应的场景标识为“1”、服务热线对话场景对应的场景标识为“2”、健康咨询APP交互对话场景对应的场景标识为“3”,等等。
在本公开实施例中,语音合成请求可以指的是由用户发起的包括目标场景标识和待转换文本信息在内的信息。例如,在一个商场中,一名客户询问机器人“卫生间怎么走”,机器人需要回答客户“直行50米之后右转,再直行100米到达”,在这种情况下机器人端就会向服务端发送语音合成请求,该语音合成请求包括可以唯一区分该场景的目标场景标识,和待转换文本信息——“直行50米后右转,再直行100米到达”。服务端接收到上述语音合成请求后会解析语音合成请求中的目标场景标识,例如该目标场景标识为“1”,对应的目标场景为商场机器人与人对话。服务端通过对目标场景标识的解析可以确定语音合成的目标场景。
步骤S202,根据所述目标场景标识确定语音合成参数。
在本公开实施例中,在服务端设定预设场景及其场景标识时,还可以设定在不同场景下进行语音交互时合成语音的语种、音色、音调、音量和语速等语音合成参数中的任意一种或者多种。
其中,语种可以包括普通话、英语、粤语、日语等语言;音色可以包括男声、女生或者童声等;音调可以包括高音、低音或中音;音量可以包括高、中、低等;语速可以包括快、中、慢等。
在本公开实施例中,当服务端接收到语音合成请求时,会对语音合成请求中携带的目标场景标识进行解析,并根据解析结果确定目标场景。当目标场景确定后就可以进一步的确定在目标场景下进行语音交互时合成语音的语种、音色、音调、音量和语速等语音合成参数中的任意一种或者多种。
例如,假设服务端根据所述目标场景标识确定目标场景为服务热线语音交互,根据服务端中目标场景中合成语音的参数设定,可以确定服务热线中合成语音的语音合成参数为:语种为中文、音色为女声、音调为中音、语速为慢速等。
步骤S203,根据所述语音合成参数将所述待转换文本信息转换为语音数据。
在本公开实施例中,当目标场景的语音合成参数确定后,可以根据语音合成参数将所述待转换文本信息转换为语音数据。
本实施例提供的语音合成方法,首先是根据目标场景标识确定目标场景,然后根据目标场景确定语音合成参数,最后是在语音合成参数的基础上讲待转换文本转换为语音数据。本实施例提供的语音合成技术根据不同场景选用了不同的语音合成参数以将待转换文本信息转换为语音数据,使得最后生成的合成语音适用于不同场景,可以与该场景下的真实声音更为接近。
图3是根据另一示例性实施例示出的一种语音合成方法的流程图。在本实施例中,所述语音合成请求还可以包括目标渠道标识。
在本公开实施例中,在上述图2实施例提供的方法根据不同场景确定语音合成参数的基础上,增加了根据渠道来源确定待合成的语音数据的采样频率的过程。
如图3所示,与上述实施例相比,其区别在于本公开实施例提供的语音合成方法还可以包括以下步骤。
步骤S301,根据所述目标渠道标识,确定所述语音合成请求的渠道来源。
本公开实施例中,服务端可以根据该目标渠道标识确定所述语音合成请求的渠道来源。
本公开实施例中,所述渠道来源可以包括:电信渠道和多媒体渠道。其***渠道可以指的是电话端,多媒体渠道可以指的是APP客户端、聊天页面等。
本公开实施例中,目标渠道标识可以是channel(渠道)字段,服务端通过解析channel字段中的值来判别渠道来源。例如当渠道标识为ivr时,服务端可以判定渠道来源为电信渠道;再例如当渠道标识为APP、H5、PC、WEB等时,服务端可以判定渠道来源为多媒体渠道。
步骤S302,根据所述渠道来源确定所述语音数据的采样频率。
在本实施例中,当服务端确定所述语音合成请求的渠道来源为电信渠道时,所述语音数据的采样频率可以确定为8k16bit;当服务端确定所述渠道来源为多媒体渠道时,所述语音数据的采样频率可以确定为16k16bit。
例如,当渠道标识为ivr时,服务端可以判定渠道来源为电信渠道,所需的语音数据的采样频率可以是8k16bit;再例如,当渠道标识为APP、H5、PC、WEB等时,服务端可以判定渠道来源为多媒体渠道,所需语音数据的采样频率可以是16k16bit。
需要说明的是,本公开并不限定于上述例举的两种渠道来源,渠道来源的种类和数量,以及各种渠道来源对应的语音数据的采样频率均是可以根据具体需求进行设计和调整的。
步骤S303,根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
在本公开实施例中,服务端可以根据上述步骤确定的采样频率和语音合成参数可以将待转换文本信息转换为语音数据。
本公开实施例提供的语音合成方法,不仅根据目标场景确定了语音合成参数,还可以根据渠道标识解析出语音合成请求的渠道来源,并进一步的根据渠道来源确定合成语音数据的采样频率。上述实施例在结合采样频率、采样参数的技术上讲待转换文本信息转换为语音数据,使得最后生成的合成语音与该渠道中的对应场景下真实语音更为相近。
在一些实施例中,为了保障语音合成的安全性,在语音合成方法中还可以增加授权校验过程。
在一些实施例中,所述语音合成方法可以包括至少一次鉴权过程。
在一些实施例中,所述语音合成方法中可以包括:获取语音合成请求,所述语音合成请求中包括目标场景标识、鉴权码以及待转换文本信息,对所述语音合成请求中的鉴权码进行鉴权;如果鉴权成功则根据所述目标场景标识确定语音合成参数,并根据所述语音合成参数将所述待转换文本信息转换为语音数据。
在另一些实施例中,所述语音合成方法可以包括:获取语音合成请求,所述语音合成请求中包括目标场景标识、渠道标识、鉴权码以及待转换文本信息;对所述语音合成请求中的鉴权码进行鉴权;如果鉴权成功则根据所述目标场景标识确定语音合成参数,并根据所述渠道来源确定所述语音数据的采样频率;最后根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
图4是根据再一示例性实施例示出的一种语音合成方法的流程图。
在图4所示实施例中,语音合成方法中可以包括两次鉴权,如图4所示,包括两次鉴权过程的语音合成方法可以还包括以下步骤。
步骤S401,对所述语音合成请求中的鉴权码进行鉴权。
在本实施例中,语音合成请求中可以包括目标场景标识、渠道标识和鉴权码。在实施例中,服务端可以对语音合成请求中的鉴权码进行鉴权。
步骤S402,如果鉴权成功,则生成鉴权成功标识。
在实施例中,当服务端对语音合成请求中的鉴权码的鉴权通过,会生成鉴权成功标识,当服务端对语音合成请求中的鉴权不通过,会生成错误标识,进而拒绝提供语音合成服务。
步骤S403,判断所述鉴权成功标识的合法性。
在一些实施例中,鉴权成功标识生成后,一方面会被传回给SDK(SoftwareDevelopment Kit,软件开发工具包),另一方面也会被缓存在缓存区中。SDK会携带服务鉴权成功标识定向到服务端,服务端读取缓存区中缓存的鉴权成功标识,与SDK携带的鉴权成功标识做对比,当对比通过时则判定该标识合法。
在本公开实施例中,SDK是为某个程序设计语言提供应用程序接口的一些文件。
在一些实施例中,生成鉴权成功标识后,服务端还要对鉴权成功标识进行合法性的判断。如果判断该鉴权成功标识不合法则会生成错误标识,进而拒绝提供语音合成服务,如果该鉴权成功标识合法则执行步骤S404。
步骤S404,如果鉴权成功标识合法,则生成渠道检测请求。
当服务端判断鉴权成功标识合法,则会生成渠道检测请求。生成渠道检测请求后,语音合成过程如图3所示,此处不再赘述。
在另一些实施例中,当服务端鉴判断鉴权成功标识合法,还有可能生成场景检测请求。其中,生成场景检测请求后,语音合成过程如图2所示,此处也不再赘述。
图5是根据再一示例性实施例示出的一种语音合成方法的流程图。
在本实施例中,由语音合成***来具体完成语音合成方法,其中语音合成***包括客户端和服务端,用户通过客户端发起语音合成请求并接收和展示语音合成结果例如服务端返回的语音数据,服务端用于合成语音。其中服务端还可以包括鉴权模块、合法判别模块、渠道检测模块、场景检测模块和语音合成模块。
如图5所示,本实施例提供的语音合成方法包括以下步骤。
步骤S501,用户端通过SDK(Software Development Kit,软件开发工具包)向服务端发送语音合成请求。
在本公开实施例中,SDK是为某个程序设计语言提供应用程序接口的一些文件。
在本公开实施例中,语音合成请求中可以包括目标场景标识、渠道标识和鉴权码。
步骤S502,服务端接收所述语音合成请求。
在本公开实施例中,服务端接收客户端通过SDK发送的语音合成请求。
步骤S503,服务端对所述语音合成请求中的鉴权码进行鉴权。
在本公开实施例中服,服务端中的鉴权模块会对语音合成请求中的鉴权码进行鉴权处理。
步骤S504,判断鉴权是否通过。
当鉴权模块对鉴权码鉴权成功后,服务端会继续执行步骤S506,当鉴权模对鉴权码鉴权失败后会执行步骤S505。
步骤S505,停止语音合成服务。
服务端可以通过SDK向客户端返回错误标识,并拒绝提供语音合成服务。
步骤S506,服务端生成鉴权成功标识。
当鉴权成功后,服务端的鉴权模块会生成鉴权成功标识。
步骤S507,判断鉴权成功标识是否合法。
在本公开实施例中,当生成鉴权成功标识后,服务端的合法判别模块会进一步对鉴权成功标识的合法性进行判断,以防一些携带非法“鉴权成功标识”的非法语音合成请求通过。当合法判别模块判断该鉴权成功标识不合法,则会生成错误标识,并拒绝提供语音合成服务,当合法判别模块判断该鉴权成功标识合法,则会继续执行步骤S508。
步骤S508,服务端对所述语音合成请求中的渠道标识进行解析,以得到所述语音合成请求的渠道来源。
在本公开实施例中,服务端的渠道检测模块会对语音合成模块中的渠道标识进行解析,以得到携带该渠道标识的语音合成请求的渠道来源。
在本公开实施例中,所述渠道来源可以包括:电信渠道和多媒体渠道。
步骤S509,服务端根据所述渠道来源确定语音数据的采样频率。
在本公开实施例中,服务端会根据渠道检测模块检测得到的渠道来源来确定语音数据的采样频率。
在本公开实施例中,若所述渠道来源为所述电信渠道,则确定所述语音数据的采样频率为8k16bit;若所述渠道来源为所述多媒体渠道,则确定所述语音数据的采样频率为16k16bit。
步骤S510,服务端对所述语音合成请求中的场景标识进行解析,以得到语音合成参数。
应理解,正如上文所描述的,本公开实施例中的步骤仅是示例性的,其中的步骤顺序可以调换。例如,服务端对所述语音合成请求中的场景标识进行解析可以在对所述语音合成请求中的渠道标识进行解析之前完成。
在本公开实施例中,在服务端设定预设场景时会同时设定在该场景下进行语音交互时合成语音的语种、音色、音调、音量和语速等中的任意一种或者多种。
在本公开实施例中,服务端中的场景检测模块会对语音合成请求中的场景标识进行解析,并根据解析结果确定目标场景。当目标场景确定后就可以进一步的确定在目标场景下进行语音交互时合成语音的语种、音色、音调、音量和语速等中的任意一种或者多种。
例如,服务端根据所述目标场景标识确定目标场景为服务热线语音交互,根据服务端中目标场景中合成语音的参数设定,可以确定服务热线中合成语音的语音合成参数为:语种为中文、音色为女声、音调为中音、语速为慢速等。
步骤S511,服务端根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
在本公开实施例中,服务端内的语音合成模块会根据上述采样频率和上述语音合成参数将所述待转换文本信息转换为所述语音数据。
在另一些实施例中,语音合成模块可能会包括多个语音合成引擎。例如语合成模块可能会包括普通话语音合成引擎、英语语音合成引擎、粤语语音合成引擎等。当上述采样频率、语音合成参数以及待转换文本信息传输至语音合成模块时,语音合成模块会根据语音合成参数确定合适的语音合成引擎进行语音合成,被调度的语音合成引擎会根据上述采样频率和上述语音合成参数将所述待转换文本信息转换为所述语音数据。
例如,假设语音合成参数中的语种为英语,语音合成模块会调度英语语音合成引擎进行语音合成。
在本公开实施例中,语音合成完成后,服务端会将语音合成音频经SDK返给客户端。
上述实施例提供的语音合成方法,根据语音合成请求中的场景标识和渠道标识确定了语音合成参数和语音数据的采样频率,并根据上述语音合成参数和语音数据的采样频率将待转换文本信息转换为语音数据。在基础上,为了保障语音合成***的安全性,本实施例提供的语音合成算法提供了包括鉴权和标识合法性检测在内的两次安全验证方法。该语音合成方法,实现了在多场景、多渠道下进行安全的语音合成。
例如,服务热线电话导航***中,采用本公开提供的语音合成方法代替了传统的人工录音,可以避免情绪、身体状况等人为因素对录音结果造成的影响,同时也节约了频繁录制所需的人力成本。再例如,当生活广场机器人采用本公开提供的语音合成方法,可以实现查询结果的自动播报,节约了人工报读的成本,给用户带来了自然的人机交互体验。还例如,在通讯小程序中采用本公开提供的语音合成方法,可以实现图文资讯的朗读,辅助提升***产品形象,提高客户体验。
图6是根据一示例性实施例示出的一种语音合成装置的框图。参照图6,该装置600包括:
其中,请求获取模块601,可以配置为获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;
合成参数获取模块602,可以配置为根据所述目标场景标识确定语音合成参数;
语音合成模块603,可以配置为根据所述语音合成参数将所述待转换文本信息转换为语音数据。
在一些实施例中,所述语音合成请求中还包括目标渠道标识,如图7所示,装置600还可以包括:
渠道确定模块604,可以配置为根据所述目标渠道标识,确定所述语音合成请求的渠道来源;
采样频率确定模块605,可以配置为根据所述渠道来源确定所述语音数据的采样频率;
语音合成模块603还包括第二语音合成单元,第二语音合成的单元可以配置为根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
在一些实施例中,所述语音合成请求中还包括鉴权码,如图8所示,装置600还可以包括:
鉴权模块606,可以配置为对所述语音合成请求中的鉴权码进行鉴权;
鉴权成功标识生成模块607,可以配置为如果鉴权成功,则生成鉴权成功标识。
在一些实施例中,如图9所示,装置600还可以包括:
合法判断模块608,可以配置为判断所述鉴权成功标识的合法性。
渠道检测请求生成模块609,可以配置为如果所述鉴权成功标识合法,则生成渠道检测请求。
在一些实施例中,所述语音合成参数包括:语种、音色、音调、音量和语速中的任意一种或者多种。
在一些实施例中,所述渠道来源包括:电信渠道和多媒体渠道。
在一些实施例中,根据所述渠道来源确定所述语音数据的采样频率,包括:若所述渠道来源为所述电信渠道,则确定所述语音数据的采样频率为8k16bit;若所述渠道来源为所述多媒体渠道,则确定所述语音数据的采样频率为16k16bit。
由于本公开的示例实施例的测试数据生成装置600的各个功能模块与上述测试数据生成方法的示例实施例的步骤对应,因此在此不再赘述。
下面参考图10,其示出了适于用来实现本申请实施例的终端设备的计算机***1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机***1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM1003中,还存储有***1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,本申请的***中限定的上述功能会被执行。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备可实现功能包括:获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;根据所述目标场景标识确定语音合成参数;根据所述语音合成参数将所述待转换文本信息转换为语音数据。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者智能设备等)执行根据本公开实施例的方法,例如图2的一个或多个所示的步骤。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不限于这里已经示出的详细结构、附图方式或实现方法,相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;
根据所述目标场景标识确定语音合成参数;
根据所述语音合成参数将所述待转换文本信息转换为语音数据。
2.根据权利要求1所述方法,其特征在于,所述语音合成请求中还包括目标渠道标识,所述方法还包括:
根据所述目标渠道标识,确定所述语音合成请求的渠道来源;
根据所述渠道来源确定所述语音数据的采样频率;
其中,根据所述语音合成参数将所述待转换文本信息转换为语音数据,包括:
根据所述采样频率和所述语音合成参数将所述待转换文本信息转换为所述语音数据。
3.根据权利要求1或2所述方法,其特征在于,所述语音合成请求中还包括鉴权码,所述方法还包括:
对所述语音合成请求中的鉴权码进行鉴权;
如果鉴权成功,则生成鉴权成功标识。
4.根据权利要求3所述方法,其特征在于,所述方法还包括:
判断所述鉴权成功标识的合法性;
如果所述鉴权成功标识合法,则生成渠道检测请求。
5.根据权利要求1或2所述方法,其特征在于,所述语音合成参数包括:语种、音色、音调、音量和语速中的任意一种或者多种。
6.根据权利要求2所述方法,其特征在于,所述渠道来源包括:电信渠道和多媒体渠道。
7.根据权利要求6所述方法,其特征在于,根据所述渠道来源确定所述语音数据的采样频率,包括:
若所述渠道来源为所述电信渠道,则确定所述语音数据的采样频率为8k16bit;
若所述渠道来源为所述多媒体渠道,则确定所述语音数据的采样频率为16k16bit。
8.一种语音合成装置,其特征在于,包括:
请求获取模块,配置为获取语音合成请求,所述语音合成请求中包括目标场景标识以及待转换文本信息;
合成参数获取模块,配置为根据所述目标场景标识确定语音合成参数;
第一语音合成模块,配置为根据所述语音合成参数将所述待转换文本信息转换为语音数据。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458202.3A CN110211564A (zh) | 2019-05-29 | 2019-05-29 | 语音合成方法及装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910458202.3A CN110211564A (zh) | 2019-05-29 | 2019-05-29 | 语音合成方法及装置、电子设备和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110211564A true CN110211564A (zh) | 2019-09-06 |
Family
ID=67789375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910458202.3A Pending CN110211564A (zh) | 2019-05-29 | 2019-05-29 | 语音合成方法及装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110211564A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667814A (zh) * | 2020-05-26 | 2020-09-15 | 北京声智科技有限公司 | 一种多语种的语音合成方法及装置 |
CN111842922A (zh) * | 2020-06-04 | 2020-10-30 | 深圳市人工智能与机器人研究院 | 材料合成参数调整方法、装置、计算机设备和存储介质 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN112927677A (zh) * | 2021-03-29 | 2021-06-08 | 北京大米科技有限公司 | 语音合成方法和装置 |
CN113314096A (zh) * | 2020-02-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03141000A (ja) * | 1989-10-27 | 1991-06-14 | Hitachi Ltd | 音声多重合成装置 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
CN105096932A (zh) * | 2015-07-14 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 有声读物的语音合成方法和装置 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN109087639A (zh) * | 2018-08-02 | 2018-12-25 | 泰康保险集团股份有限公司 | 用于语音识别的方法、装置、电子设备及计算机可读介质 |
CN109147760A (zh) * | 2017-06-28 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 合成语音的方法、装置、***及设备 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
-
2019
- 2019-05-29 CN CN201910458202.3A patent/CN110211564A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03141000A (ja) * | 1989-10-27 | 1991-06-14 | Hitachi Ltd | 音声多重合成装置 |
CN201336138Y (zh) * | 2008-12-19 | 2009-10-28 | 众智瑞德科技(北京)有限公司 | 一种文本朗读设备 |
CN105096932A (zh) * | 2015-07-14 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 有声读物的语音合成方法和装置 |
CN109147760A (zh) * | 2017-06-28 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 合成语音的方法、装置、***及设备 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
CN109087639A (zh) * | 2018-08-02 | 2018-12-25 | 泰康保险集团股份有限公司 | 用于语音识别的方法、装置、电子设备及计算机可读介质 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
方建淳编著: "《语音合成技术与单片微机综合***》", 28 February 1993, 北京航空航天大学出版社 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314096A (zh) * | 2020-02-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 语音合成方法、装置、设备和存储介质 |
CN111667814A (zh) * | 2020-05-26 | 2020-09-15 | 北京声智科技有限公司 | 一种多语种的语音合成方法及装置 |
CN111667814B (zh) * | 2020-05-26 | 2023-09-12 | 北京声智科技有限公司 | 一种多语种的语音合成方法及装置 |
CN111842922A (zh) * | 2020-06-04 | 2020-10-30 | 深圳市人工智能与机器人研究院 | 材料合成参数调整方法、装置、计算机设备和存储介质 |
CN111968632A (zh) * | 2020-07-14 | 2020-11-20 | 招联消费金融有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN111968632B (zh) * | 2020-07-14 | 2024-05-10 | 招联消费金融股份有限公司 | 通话语音获取方法、装置、计算机设备和存储介质 |
CN112927677A (zh) * | 2021-03-29 | 2021-06-08 | 北京大米科技有限公司 | 语音合成方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108022586B (zh) | 用于控制页面的方法和装置 | |
CN110211564A (zh) | 语音合成方法及装置、电子设备和计算机可读介质 | |
US10733384B2 (en) | Emotion detection and expression integration in dialog systems | |
US11151765B2 (en) | Method and apparatus for generating information | |
CN108986805B (zh) | 用于发送信息的方法和装置 | |
KR100561228B1 (ko) | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 | |
CN107733722B (zh) | 用于配置语音服务的方法和装置 | |
CN112334976B (zh) | 利用本地文本响应映射呈现对用户的口头话语的响应 | |
CN109272984A (zh) | 用于语音交互的方法和装置 | |
CN107004407A (zh) | 增强型语音端点确定 | |
CN108257590A (zh) | 语音交互方法、装置、电子设备、存储介质 | |
CN109002510A (zh) | 一种对话处理方法、装置、设备和介质 | |
US8332225B2 (en) | Techniques to create a custom voice font | |
WO2021227707A1 (zh) | 音频合成方法、装置、计算机可读介质及电子设备 | |
WO2008066836A1 (en) | Method and apparatus for translating speech during a call | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
CN111221739A (zh) | 业务测试方法、装置和*** | |
CN108924218A (zh) | 用于推送信息的方法和装置 | |
CN110288682A (zh) | 用于控制三维虚拟人像口型变化的方法和装置 | |
CN107481715B (zh) | 用于生成信息的方法和装置 | |
CN108877782A (zh) | 语音识别方法和装置 | |
CN109087639A (zh) | 用于语音识别的方法、装置、电子设备及计算机可读介质 | |
CN107808007A (zh) | 信息处理方法和装置 | |
CN109241286A (zh) | 用于生成文本的方法和装置 | |
CN108933730A (zh) | 信息推送方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |
|
RJ01 | Rejection of invention patent application after publication |