CN116319955A - 语音播报方法、装置、存储介质和计算机设备 - Google Patents
语音播报方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN116319955A CN116319955A CN202310099732.XA CN202310099732A CN116319955A CN 116319955 A CN116319955 A CN 116319955A CN 202310099732 A CN202310099732 A CN 202310099732A CN 116319955 A CN116319955 A CN 116319955A
- Authority
- CN
- China
- Prior art keywords
- voice
- corpus
- target
- type
- target corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004891 communication Methods 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 description 19
- 239000000463 material Substances 0.000 description 12
- 238000012937 correction Methods 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000013077 target material Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音播报方法、装置、存储介质和计算机设备。语音播报方法包括:生成至少一种语音类型的语音包;将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序;将目标语料的播报指令发送至商家端关联的智能设备。本申请的方法,降低语音播报时的通信带宽占用,实现了音频文件的动态组合,更加适用于不同内容、多种不同语音类型的语音播报,优化了整体播报的流畅度。
Description
技术领域
本申请涉及信息管理技术领域,尤其是涉及到一种语音播报方法、装置、存储介质和计算机设备。
背景技术
在日常的生活工作中,常常会面临许多需要对数字内容进行语音播报的情况。例如,在交易活动中,商家通常会使用手机支付软件内置的插件程序来自动语音播报商家的账户上所收到的钱款的金额数目。
相关技术中,音箱通常采用了文字转语音(TextToSpeech,TTS)的方式进行语音合成播报,但这种形式播报需要通过硬件将语料库刻制到音箱介质中,并基于音箱本地的语料库对文字进行TTS处理,容易导致语料库更新不及时的情况,而且播报声音音色比较机械、生硬,不符合人类的语音习惯,甚至影响收听者对所播报的数字内容的理解,那以适用于一些方言地区或者特殊业务场景。
发明内容
有鉴于此,本申请提供了一种语音播报方法、装置、存储介质和计算机设备,通过批量推送多种语音类型的语音包,使智能设备能够通过本地存储的多种语音类型的语音包进行播报,达到高效、流畅地进行语音播报的目的。
根据本申请的第一个方面,提供了一种语音播报方法,应用于服务端,该方法包括:
生成至少一种语音类型的语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;
若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序;
将目标语料的播报指令发送至商家端关联的智能设备,其中,播报指令携带有目标语料标识和排列顺序,以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件,并播放音频文件。
可选地,生成至少一个语音类型的语音包,包括:
获取至少一个预设语料;
确定至少一个预设语料中的第一语料;
显示语音包界面,其中,语音包界面包括第一控件;
响应于对第一控件的第一输入,显示语音包创建窗口;
响应于对语音包创建窗口的第二输入,获取第一语音类型;
根据第一语音类型,确定第一语料的发音信息和第一语料的预设语料标识;
组装第一语料的发音信息和第一语料的预设语料标识,得到第一语音类型的语音包。
可选地,获取至少一个预设语料,包括:
显示语料界面,其中,语音包界面包括第二控件;
响应于对第二控件的第三输入,显示语料创建窗口;
响应于对语料创建窗的第四输入,确定预设语料和预设语料的语料类型,其中,语料类型包括通用类型和定制类型。
可选地,确定至少一个预设语料中的第一语料,包括:
在语音包创建窗口上显示属于定制类型的预设语料;
响应于对语音包创建窗口的第五输入,确定第二语料,其中,第二语料为第五输入对应的属于定制类型的预设语料;
将属于通用类型的预设语料和/或第二语料确定为第一语料。
可选地,根据第一语音类型,确定第一语料的发音信息,包括:
将第一语料输入第一语音类型对应的发音模型,得到第一语料的发音信息,其中,发音模型根据音频样本和语料标签训练得到。
可选地,根据第一语音类型,确定第一语料的预设语料标识,包括:
确定与第一语音类型匹配的第一字节数组;
根据第一语料的拼音信息确定第二字节数组;
按照预设生成规则对第一字节数组和第二字节数组进行处理,生成预设语料标识。
可选地,语音播报方法还包括:
若预设语料发生变化,确定预设语料对应的语音包的第二语音类型;
将变化后的预设语料输入第二语音类型对应的发音模型,得到变化后的预设语料的发音信息;
根据变化后的预设语料的发音信息更新预设语料对应的语音包。
可选地,确定目标语料标识的排列顺序,包括:
对目标语料进行识别处理,确定目标语料中相邻语料之间的连接顺序;
根据连接顺序配置目标语料标识的排列顺序。
可选地,将至少一种语音类型的语音包发送至智能设备,包括:
显示至少一种语音类型的语音包的属性信息;
响应于第六输入,将第六输入对应的属性信息所属的语音包发送至智能设备;
其中,语音类型包括以下至少一种:语种、语速、音色和音量。
可选地,将至少一种语音类型的语音包发送至智能设备,包括:
接收商家端发送的第三语音类型,并将第三语音类型的语音包发送至智能设备;
其中,语音类型包括以下至少一种:语种、语速、音色和音量。
可选地,语音播报方法还包括:
若目标语音类型和第三语音类型不同,将目标语音类型的语音包发送至智能设备。
根据本申请的第二个方面,提供了一种语音播报方法,应用于智能设备,该方法包括:
若接收到服务端发送的语音包,存储语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
接收服务端发送的目标语料的播报指令;
对播报指令进行解析处理,确定目标语料对应的目标语料标识和目标语料标识的排列顺序;
根据预设语料标识和目标语料标识的对比结果,确定目标语料的发音信息;
根据排列顺序对目标语料的发音信息进行拼接处理,确定目标语料的音频文件;
播放音频文件。
可选地,确定目标语料的发音信息之后,语音播报方法还包括:
若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包,将目标语料中相邻目标语料标识对应的语料确定为衔接语料;
根据多个语音类型确定衔接语料的发音修正信息;
按照发音修正信息调整衔接语料的发音信息。
根据本申请的第三个方面,提供了一种语音播报方法,应用于商家端,该方法包括:
接收服务端发送的至少一种语音类型的语音包的属性信息;
响应于第七输入,显示语音配置界面,其中,语音配置界面包括属性信息;
响应于对语音配置界面的第八输入,将第八输入对应的属性信息中语音类型确定为目标语音类型;
获取目标语料;
若目标语料符合商家端所属用户的语料权限,将目标语料和目标语音类型发送至服务端,以供服务端根据目标语料和目标语音类型确定目标语料的目标语料标识,并将携带有目标语料标识的播报指令发送至商家端关联的智能设备。
根据本申请的第四个方面,提供了一种语音播报装置,应用于服务端,该装置包括:
管理模块,用于生成至少一种语音类型的语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
通信模块,用于将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;
确定模块,用于若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序;
通信模块,还用于将目标语料的播报指令发送至商家端关联的智能设备,其中,播报指令携带有目标语料标识和排列顺序,以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件,并播放音频文件。
可选地,管理模块,具体用于获取至少一个预设语料;以及,
确定至少一个预设语料中的第一语料;
语音播报装置还包括:
第一显示模块,用于显示语音包界面,其中,语音包界面包括第一控件;以及,响应于对第一控件的第一输入,显示语音包创建窗口;
管理模块,具体用于响应于对语音包创建窗口的第二输入,获取第一语音类型;以及,根据第一语音类型,确定第一语料的发音信息和第一语料的预设语料标识;以及,组装第一语料的发音信息和第一语料的预设语料标识,得到第一语音类型的语音包。
可选地,第一显示模块,还用于显示语料界面,其中,语音包界面包括第二控件;以及,响应于对第二控件的第三输入,显示语料创建窗口;
管理模块,具体用于响应于对语料创建窗的第四输入,确定预设语料和预设语料的语料类型,其中,语料类型包括通用类型和定制类型。
可选地,第一显示模块,还用于在语音包创建窗口上显示属于定制类型的预设语料;
管理模块,具体用于响应于对语音包创建窗口的第五输入,确定第二语料,其中,第二语料为第五输入对应的属于定制类型的预设语料;以及,将属于通用类型的预设语料和/或第二语料确定为第一语料。
可选地,管理模块,具体用于将第一语料输入第一语音类型对应的发音模型,得到第一语料的发音信息,其中,发音模型根据音频样本和语料标签训练得到。
可选地,管理模块,具体用于确定与第一语音类型匹配的第一字节数组;根据第一语料的拼音信息确定第二字节数组;按照预设生成规则对第一字节数组和第二字节数组进行处理,生成预设语料标识。
可选地,语音播报装置还包括:
更新模块,用于若预设语料发生变化,确定预设语料对应的语音包的第二语音类型;将变化后的预设语料输入第二语音类型对应的发音模型,得到变化后的预设语料的发音信息;根据变化后的预设语料的发音信息更新预设语料对应的语音包。
可选地,确定模块,具体用于对目标语料进行识别处理,确定目标语料中相邻语料之间的连接顺序;根据连接顺序配置目标语料标识的排列顺序。
可选地,语音播报装置还包括:
第二显示模块,用于显示至少一种语音类型的语音包的属性信息;
通信模块,具体用于响应于第六输入,将第六输入对应的属性信息所属的语音包发送至智能设备;其中,语音类型包括以下至少一种:语种、语速、音色和音量。
可选地,通信模块,具体用于接收商家端发送的第三语音类型,并将第三语音类型的语音包发送至智能设备;其中,语音类型包括以下至少一种:语种、语速、音色和音量。
可选地,通信模块,还用于若目标语音类型和第三语音类型不同,将目标语音类型的语音包发送至智能设备。
根据本申请的第五个方面,提供了一种语音播报装置,应用于智能设备,该装置包括:
存储模块,用于若接收到服务端发送的语音包,存储语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
通信模块,用于接收服务端发送的目标语料的播报指令;
解析模块,用于对播报指令进行解析处理,确定目标语料对应的目标语料标识和目标语料标识的排列顺序;
处理模块,用于根据预设语料标识和目标语料标识的对比结果,确定目标语料的发音信息;以及,根据排列顺序对目标语料的发音信息进行拼接处理,确定目标语料的音频文件;
播放模块,用于播放音频文件。
可选地,语音播报装置还包括:
确定模块,用于若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包,将目标语料中相邻目标语料标识对应的语料确定为衔接语料;以及,根据多个语音类型确定衔接语料的发音修正信息;
处理模块,还用于按照发音修正信息调整衔接语料的发音信息。
根据本申请的第六个方面,提供了一种语音播报装置,应用于商家端,该装置包括:
通信模块,用于接收服务端发送的至少一种语音类型的语音包的属性信息;
显示模块,用于响应于第七输入,显示语音配置界面,其中,语音配置界面包括属性信息;
配置模块,用于响应于对语音配置界面的第八输入,将第八输入对应的属性信息中语音类型确定为目标语音类型;
获取模块,用于获取目标语料;
通信模块,还用于若目标语料符合商家端所属用户的语料权限,将目标语料和目标语音类型发送至服务端,以供服务端根据目标语料和目标语音类型确定目标语料的目标语料标识,并将携带有目标语料标识的播报指令发送至商家端关联的智能设备。
根据本申请第七个方面,提供了可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现上述语音播报方法的步骤。
根据本申请第八个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行程序时实现上述语音播报方法的步骤。
借由上述技术方案,运营人员可通过服务端配置多种不同语音类型的语音包,以便于按需将不同语音类型的语音包推送至具备语音播报功能的智能设备,智能设备接收到语音包后对其进行存储,以便于智能设备从本地直接获取语音素材,不仅无需智能设备实时下载大量语音包,降低语音播报时的通信带宽占用,保证语音播报的流畅性,而且多种不同语音类型的语音包能够实现了多场景、多类型的语音播报,提升收听者的使用体验。此外,当商家需要对目标语料进行播报时,可通过商家端从服务端提供的多种语音类型语音包中选择用于播报的目标语音类型。服务端接收到目标语料和目标语音类型后,利用目标语音类型对应的语音包匹配目标语料的目标语料标识,同时按照目标语料中各个语料的连接顺序确定目标语料标识的排列顺序。服务端只需将目标语料标识和排列顺序发送至智能设备,智能设备就可以利用简化后的目标语料标识和已存储的语音包匹配出目标语料的发音信息。由此,智能设备按照排列顺序拼接不同目标语料标识对应的发音信息得到待播放的目标语料的音频文件。从而通过具备排列顺序的目标语料标识代替目标语料的文本进行传输,不仅进一步降低通信传输的数据量,而且实现了音频文件的动态组合,更加适用于不同内容的播报,优化了整体播报的流畅度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的语音播报方法的流程示意图之一;
图2示出了本申请实施例提供的语音播报方法的流程示意图之二;
图3示出了本申请实施例提供的语音播报方法的流程示意图之三;
图4示出了本申请实施例提供的语音播报方法的场景示意图之一;
图5示出了本申请实施例提供的语音播报方法的场景示意图之二;
图6示出了本申请实施例提供的语音播报方法的场景示意图之三;
图7示出了本申请实施例提供的语音播报方法的场景示意图之四;
图8示出了本申请实施例提供的语音播报方法的场景示意图之五;
图9示出了本申请实施例提供的语音播报装置的结构框图之一;
图10示出了本申请实施例提供的语音播报装置的结构框图之二;
图11示出了本申请实施例提供的语音播报装置的结构框图之三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“相接”到另一元件时,它可以直接连接或相接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“相接”可以包括无线连接或无线稠接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。应当理解的是,提供这些实施例是为了使得本申请的公开彻底且完整,并且将这些示例性实施例的构思充分传达给本领域普通技术人员。
在本实施例中提供了一种语音播报方法,适用于服务端,如图1所示,该方法包括:
步骤101,生成至少一种语音类型的语音包。
其中,语音包包括第一语料的发音信息和第一语料的预设语料标识。第一语料是指语音包中所包含的语料,语音包中所包含的第一语料可按需设置,预设语料标识具备唯一性,不同语音类型的语音包中相同的第一语料对应的预设语料标识也不相同。
在该实施例中,运营人员可通过服务端配置多种不同语音类型的语音包并按需推送至具备语音播报功能的智能设备,智能设备接收到语音包后对其进行存储,以便于智能设备从本地直接获取语音素材,无需智能设备实时下载大量语音包,降低语音播报时的通信带宽占用,保证语音播报的流畅性,而且多种不同语音类型的语音包能够实现了多场景、多方言的语音播报,提升收听者的使用体验。
需要说明的是,语音类型包括以下至少一种:语种、语速、音色和音量。例如,女性音色的方言、语速100的普通话等,本申请实施例不做具体限定。
在实际应用场景中,步骤101,也即生成至少一种语音类型的语音包,具体包括如下步骤:
步骤101-1,获取至少一个预设语料。
在该实施例中,运营人员可根据场景需求定制至少一个预设语料,以便于选取适合的语料作为不同语音类型的语音包基础,实现了语音包的个性化配置,进而提高语音播报的适用范围,能满足对不同类型语音的播报需求。
具体地,步骤101-1具体包括如下步骤:
步骤101-1-a,显示语料界面。
其中,语音包界面包括第二控件,第二控件用于创建新的预设语料。
步骤101-1-b,响应于对第二控件的第三输入,显示语料创建窗口。
步骤101-1-c,响应于对语料创建窗的第四输入,确定预设语料和预设语料的语料类型。
其中,语料类型包括通用类型和定制类型,通用类型的语料是指所有语音包均需包含的语料,定制类型的语料是指指定语音包可包含的语料,不同语音包中所包含的通用类型的语料可以不同。
在该实施例中,当运营人员需要创建新的预设语料时,服务端显示语料界面,该语音包界面显示有已经存储的预设语料以及创建新的预设语料的第二控件。运营人员可通过第二控件触发语料创建窗口,并在语料创建窗中输入需求的预设语料及其语料类型,从而达到个性化配置预设语料的目的。
例如,如图4所示,语料界面中显示有语料管理列表,在语料管理列表中展示有多个不同语料的相关信息(用于区分不同语料内容的语料标识、是否定制、创建、更新时间等)和“新增”按钮。当运营人员点击“新增”按钮,服务端跳转至语料创建窗口,如图5所示,运营人员可在语料创建窗口中输入语料内容、表示语料内容的语料标识、语料类型等信息,最后点击语料创建窗口的“保存”按钮完成预设语料的创建。
进一步地,获取至少一个预设语料之后,语音播报方法还包括:在语料界面显示至少一个预设语料;响应于对语料界面的第九输入,编辑第九输入对应的预设语料。其中,编辑方式包括删除、修改等,例如,修改语料内容、修改语料标识,删除预设语料等。从而优化了语料管理的增、删、改、查策略。
步骤101-2,确定至少一个预设语料中的第一语料。
在该实施例中,考虑到不同智能设备对预设语料的不同需求,可根据预设语料的语料类型从以配置的至少一个预设语料中确定第一语料,从而实现了个性化配置语音包中所包含语料的效果,使得语音包能够更加贴合实际的业务场景和商家需求,有利于增强商家的语音播报体验。
具体地,步骤101-2具体包括如下实现方式:
方式一,将属于通用类型的预设语料确定为第一语料。
在该实施例中,在无需指定特殊语料的情况下,服务端遍历所有预设语料,将属于通用类型的预设语料作为语音包的语料素材。从而减少运营人员逐个筛选语料的复杂步骤,实现了语音包的快速创建。
方式二,在语音包创建窗口上显示属于定制类型的预设语料;响应于对语音包创建窗口的第五输入,确定第二语料,其中,第二语料为第五输入对应的属于定制类型的预设语料;将属于通用类型的预设语料和第二语料确定为第一语料。
在该实施例中,在需要定制包含特定语料的语音包的情况下,在语音包创建窗口上显示可用于选择的属于定制类型的预设语料。运营人员可通过第五输入选择创建语音包所需求的第二语料。服务端确认第二语料后,将属于通用类型的预设语料和第二语料一并作为第一语料。从而实现了语音包的个性化定制,以满足不同业务场景下的语音包需求。
步骤101-3,显示语音包界面。
其中,语音包界面包括第一控件,第一控件用于创建新的语音包。
步骤101-4,响应于对第一控件的第一输入,显示语音包创建窗口。
步骤101-5,响应于对语音包创建窗口的第二输入,获取第一语音类型。
其中,第一语音类型为第二输入指示的语音类型。
步骤101-6,根据第一语音类型,确定第一语料的发音信息和第一语料的预设语料标识。
具体地,根据第一语音类型,确定第一语料的发音信息,具体包括:将第一语料输入第一语音类型对应的发音模型,得到第一语料的发音信息。
其中,发音模型根据音频样本和语料标签训练得到,音频样本包括发信样本和对应的语音类型,语料标签用于表示音频样本对应的语料内容,该语料标签可以是人为标注的,也可以为按照分类算法生成的。
在该实施例中,传统语音包生成方式是由真人进行音频录制,然后手动上传至服务端供设备下载,费时费力,录制成本较高且录制效率较低。为此,本实施例以语料内容为基础,利用训练后的发音模型快速、准确确定出每个第一语料在第一语音类型下的发音信息,实现从文字到声音的转换,从而在保证发音信息与第一语料相匹配的同时,减少人力消耗,大大缩短获得发音信息的时间,提升语音包创建效率,特别是在进行批量转换的场景下。
可以理解的是,发音模型可以是各种神经网络模型,例如,深度神经网络(DeepNeural Networks,DNN)模型、卷积网络(Convolutional Neural Networks,CNN)模型、循环神经网络(Recurrent Neural Networks,RNN)模型、残差网络(Residual Network,ResNet)模型。
具体地,根据第一语音类型,确定第一语料的预设语料标识,具体包括:确定与第一语音类型匹配的第一字节数组;根据第一语料的拼音信息确定第二字节数组;按照预设生成规则对第一字节数组和第二字节数组进行处理,得到预设语料标识。
在该实施例中,以第一语音类型和第一语料的拼音信息作为标记依据,采用字节数组的形式对预设语料进行标记,优化了预设语料的标记方式。一方面,保证的不同预设语料标识的唯一性,使预设语料标识能够精准定位至唯一的预设语料,还能对不同预设语料所属的语音类型进行区分,便于后续通过预设语料标识查找相应的发音信息,有利于降低语音播报时的通信带宽占用,保证语音播报的流畅性,提升收听者的使用体验,另一方面,避免人工进行语料标注,有利于批量标记处理。
例如,针对不同语音包下的第一语料,通过预设算法自动将第一语料对应的拼音提取出来,并且和语音包的语音类型、语料长度等信息相结合,自动生成唯一的预设语料标识,并与对应的发音信息关联存储。
需要说明的是,可根据预设语料的播报形式确定预设生成规则。例如,针对单独的数字播报(如,电话号码),可下发数字标识符进行播报,针对表示量级的数字播报(如,数量、金额),不会逐个下发数字标识符进行播报,而是通过下发由花括号括起来的带有特殊标识符,通过不同的特殊标识符来区分不同播报形式的数字。
步骤101-7,组装第一语料的发音信息和第一语料的预设语料标识,得到第一语音类型的语音包。
在该实施例中,获取运营人员设定的至少一个预设语料后,服务端显示语音包界面,该语音包界面显示有已经配置的语音包的属性信息以及创建新的语音包的第一控件。运营人员可通过对第一控件的第一输入触发语音包创建窗口。由此,运营人员可在创建窗口中设定语音包可包含的第一语料和/或该语音包所属的第一语音类型。再利用第一语音类型获取第一语料的发音信息,并生成第一语料预设语料标识。最后,服务端将第一语料、第一语料的发音信息和第一语料的预设语料标识打包形成第一语音类型的语音包,从而完成第一语音类型的语音包的创建。通过上述方案,运营人员通过服务端创建通用或者定制的多种语音类型的语音包,可以满足不同商家在不同业务场景下的定制需求,改善商家侧智能设备的试听舒适度和便捷度。
例如,如图6所示,语音包界面中显示有语音包料管理列表,在语音包管理列表中展示有多个不同语音包的相关信息(用于区分不同语音包的语音包标识、语音包名称、创建、更新时间等)和“新增”按钮。当运营人员点击“新增”按钮,服务端跳转至语音包创建窗口,如图7所示,运营人员可在语音包创建窗口中输入播放音量、播放速度、音色等语音类型,以及通过点击语料标识的拓展按钮选择该语音包可包含的定制语料。最后点击语音包创建窗口的“保存”按钮完成语音包的创建。
值得一提的是,生成至少一个语音类型的语音包之后,语音播报方法还包括:在语音包界面显示至少一个语音类型的语音包的属性信息;响应于对语音包界面的第十输入,编辑第十输入对应的语音包。其中,编辑方式包括删除、修改等,例如,修改语音包所包含的第一语料、修改第一语料对应的预设语料标识,修改语音包的语音类型、删除语音包等。从而优化了语音包管理的增、删、改、查策略。
其中,语音包的属性信息可以包括语音包的名称、创建时间、语音类型、试听片段等用于区分语音包的信息。
例如,如图6所示,语音包界面中显示有语料管理列表,在语音包管理列表中展示有多个不同语音包的相关信息(用于区分不同语音包的语音包标识、语音包名称、创建、更新时间等)和“编辑”按钮。当运营人员点击“编辑”按钮,服务端跳转至编辑窗口,当需要修改语音包所包含的第一语料时,如图8所示,展开已绑定语料的列表,其中,列表中包含语音包所包含的第一语料、预设语料标识、启用状态等信息。通过点选第一语料变更第一语料的启用状态或从该语音包中删除该第一语料的相关信息。
可以理解的是,对于多个语音包的语音类型变更,可通过语音包界面进行批量选择与修改。
步骤102,将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端。
其中,语音包的属性信息可以包括语音包的名称、创建时间、语音类型、试听片段等用于区分语音包的信息。
在该实施例中,服务端配置至少一种语音类型的语音包后,可将语音包发送至智能设备,以便于智能设备存储,以便于智能设备从本地直接获取语音素材,实现了多场景、多类型的语音播报,提升收听者的使用体验。同时将至少一种语音类型的语音包的属性信息发送至商家端,以使商家端获知可使用的语音包,便于商家通过商家端选取需求的语音包控制智能设备进行播报。
在实际应用场景中,步骤102,也即将至少一种语音类型的语音包发送至智能设备,具体包括如下方式:
方式一,显示至少一种语音类型的语音包的属性信息;响应于第六输入,将第六输入对应的属性信息所属的语音包发送至智能设备。
在该实施例中,运营人员可通过语音包管理界面从至少一个已配置的语音包中选择需要推送的语音包,并将选择的语音包下发至指定的智能设备。从而实现了语音包的定向批量推送,简化语音包更新步骤,提升语音包更新效率。
方式二,接收商家端发送的第三语音类型,并将第三语音类型的语音包发送至商家端关联的智能设备。
在该实施例中,商家端在接收到至少一个语音包的属性信息后,可对齐进行显示,商家用户可在通过属性信息选择智能设备可配置的语音包,从而实现了商家侧对智能设备的语音包管理功能,以便于商家用户选取适合自身需求的语音包,提升用户的试听体验。
进一步地,若商家用户设定的目标语音类型和商家端关联智能设备已存储的语音包的第三语音类型不同,说明智能设备未能及时存储商家用户所需求的语音包,则将目标语音类型的语音包发送至智能设备,以便于智能设备及时更新语音包,以满足用户对目标语料的播报需求。
方式三,若生成一个语音包,则将该语音包发送至智能设备。
在该实施例中,服务端每配置一个新的语音包就会及时将该语音包下发至智能设备进行本地存储,从而保证了语音包的实时性,为商家进行语音播报提供更多语音选择。
方式四,若已生成的语音包的数量大于预设数量,将语音包发送至智能设备。
在该实施例中,累计生成预设数量的语音包后,一并将语音包发送至智能设备,从而减少语音包的传输次数,有利于智能设备进行离线播报。
步骤103,若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序。
其中,至少一种语音类型包括目标语音类型,目标语音类型可以是一种或多种语音类型组合,例如,商家可以选择采用儿童音播报商品结算相关的语料,选择采用方言播报营销类语料。
可以理解的是,目标语料可以是一段或多段文本,一段文本可包含一个或多个字符。例如,目标语料由“音响已解绑”和“欢迎使用音响”这两段预设语料组成。
在实际应用场景中,步骤103,也即确定目标语料标识的排列顺序,包括:
步骤103-1,对目标语料进行识别处理,确定目标语料中相邻语料之间的连接顺序。
步骤103-2,根据连接顺序配置目标语料标识的排列顺序。
在该实施例中,由于语音播报需要适应较多的应用场景,预设语料所包含的字符通常较少,考虑到目标语料通常会包含多种信息,也即目标语料将包含以预设语料为单位的多个语料。为了保证目标语料的播报连贯性。服务端在得到目标语料后,可以识别并确定顺序排列中各个语料和目标语料中相邻语料之间的连接顺序,也即目标语料中相邻语料的播报前后顺序。按照连接顺序配置目标语料中相邻语料对应的目标语料标识的排列顺序。以便于利用排列顺序对目标语料中不同部分的发音信息进行排序得到完整的音频文件,保证了目标物料与实际播报语音的一致性,实现了高效、流畅地语音播报。
以目标语料由“音响已解绑”和“欢迎使用音响”这两段预设语料组成为例,可以理解为相邻的两段预设语料之间的连接顺序可以表述为:语料“音响已解绑”连语料“欢迎使用音响”。当然,需要说明的是上述所列举的连接关系只是一种示意性说明。具体实施时还可以通过其他标识方式表示相邻目标语料之间的连接顺序。对此,本申请实施例不作限定。
步骤104,将目标语料的播报指令发送至商家端关联的智能设备。
其中,播报指令携带有目标语料标识和目标语料标识的排列顺序。
在该实施例中,当商家需要对目标语料进行播报时,可通过商家端从服务端提供的多种语音类型中选择播报目标语料的目标语音类型。服务端接收到目标语料和目标语音类型后,通过目标语音类型确定播报目标语料所需的语音包,并以目标语料为基础从目标语音类型对应的语音包中匹配出目标语料对应的目标语料标识,同时按照目标语料中各个语料的连接顺序确定目标语料标识的排列顺序。服务端只需将携带有目标语料标识和排列顺序的播报指令发送至智能设备,智能设备就可以利用简化后的目标语料标识和已存储的语音包匹配出目标语料的发音信息。智能设备按照排列顺序拼接不同目标语料标识对应的发音信息得到待播放的目标语料的音频文件。从而通过具备排列顺序的目标语料标识代替目标语料的文本进行传输,不仅进一步降低通信传输的数据量,而且实现了音频文件的动态组合,更加适用于不同内容的播报,优化了整体播报的流畅度。
进一步地,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,语音播报方法还包括:若预设语料发生变化,确定预设语料对应的语音包的第二语音类型;将变化后的预设语料输入第二语音类型对应的发音模型,得到变化后的预设语料的发音信息;根据变化后的预设语料的发音信息更新预设语料对应的语音包。
在该实施例中,当运营人员对预设语料进行修改,使其内容发生变化,则自动遍历所有语音包,确定包含该预设语料的语音包及其所属的第二语音类型。将修改后的预设语料重新输入第二语音类型对应的发音模型,以获得新的发音信息。再将包含该预设语料的语音包中预设语料的原发音信息替换为修改后预设语料新的发音信息,同时根据新的预设语料修改预设语料标识。从而利用预设语料的变更达到一键更新语音包批量更新迭代的目的,无需手动逐个更改语音包,提高语音包的管理效率,进而保障了语音包的时效性。
在本实施例中提供了一种语音播报方法,适用于智能设备,如图2所示,该方法包括:
步骤201,若接收到服务端发送的语音包,存储语音包。
其中,语音包包括第一语料的发音信息和预设语料标识。
在该实施例中,服务端生成语音包后,将至少一个语音类型的语音包下发至智能设备,智能设备接收到语音包后对其进行本地存储。后续在进行语音播报时可直接从本地直接获取语音素材,无需智能设备实时下载大量语音包,降低语音播报时的通信带宽占用,保证语音播报的流畅性。
步骤202,接收服务端发送的目标语料的播报指令。
步骤203,对播报指令进行解析处理,确定目标语料对应的目标语料标识和目标语料标识的排列顺序。
步骤204,根据预设语料标识和目标语料标识的对比结果,确定目标语料的发音信息。
步骤205,根据排列顺序对目标语料的发音信息进行拼接处理,确定目标语料的音频文件。
步骤206,播放音频文件。
在该实施例中,当智能设备接收到服务端发送的播报指令,解析其中的目标语料标识和目标语料标识的排列顺序。智能设备确定代表目标语料的目标语料标识后,在本地存储的语音包中进行遍历。若语音包中预设语料标识与目标语料标识相同,则将语音包中该预设语料标识关联的发音信息作为目标语料的发音信息,最后按照排列顺序依次拼接通过目标语料标识匹配的发音信息并播放,以实现目标物料的语音播放需求。从而通过具备排列顺序的目标语料标识代替目标语料的文本进行传输,不仅进一步降低通信传输的数据量,而且实现了音频文件的动态组合,更加适用于不同内容的播报,优化了整体播报的流畅度。
进一步地,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,语音播报方法还包括:若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包,将目标语料中相邻目标语料标识对应的语料确定为衔接语料;根据多个语音类型确定衔接语料的发音修正信息;按照发音修正信息调整衔接语料的发音信息。
在该实施例中,考虑到商家需求的播报目标物料的语音包可能数据多个不同语音类型的语音包,那么进行拼接所得到的音频文件在播放时,往往会出现字符音节之间的过渡不够流畅、自然,收听者在收听所播放的语音时会觉得相对比较突兀。为此,当排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包时,确定目标语料中的衔接语料,也即目标语料中采用两种语音类型进行播报的过渡部分。根据多个语音类型确定进行过渡播报的衔接语料的发音修正信息。利用发音修正信息调整衔接语料的发音信息,从而可得到过渡更为自然的音频进行语音播报,解决了现有方法中针对不同音频组合播报可能导致试听流畅度不一的问题,优化整体试听的流畅度。
具体举例来说,以目标语料由“音响已解绑”和“欢迎使用音响”这两段预设语料组成为例,“音响已解绑”这段语料属于语速100的语音类型,而“欢迎使用音响”属于语速50的语音类型,则根据两种语音包的语速50和100,确定平均语速75。再将“音响已解绑”和“欢迎使用音响”这两段预设语料的发音信息中语速调整为75,从而实现了不同类型语料的一致性。或者可以仅将连接字符“绑”和“欢”的语速调整为75,以实现较为平滑的语音过渡。
在本实施例中提供了一种语音播报方法,适用于商家端,如图3所示,该方法包括:
步骤301,接收服务端发送的至少一种语音类型的语音包的属性信息。
其中,属性信息可以包括语音包的名称、创建时间、语音类型等用于区分语音包的信息。
步骤302,响应于第七输入,显示语音配置界面。
其中,语音配置界面包括至少一种语音类型的语音包的属性信息。
步骤303,响应于对语音配置界面的第八输入,将第八输入对应的属性信息中语音类型确定为目标语音类型。
在该实施例中,服务端生成语音包后,将至少一种语音类型的语音包的属性信息同步至商家端。商家端接收到语音包的属性信息后,通过语音配置界面展示所有可使用的语音包的属性信息,商家可通过语音配置界面在多个语音包中选取需求的语音包的目标语音类型,实现了不同语音包的试听以及切换,以便于控制智能设备采用目标语音类型语音包进行后续播报。
步骤304,获取目标语料。
可以理解的是,目标语料可以是业务平台发送的语料,例如,收款语料、广告语料等,也可以是商家手动输入的语料,例如,店铺的宣传语料等。
步骤305,若目标语料符合商家端所属用户的语料权限,将目标语料和目标语音类型发送至服务端。
具体地,语料权限可根据商家端所属用户的用户信息进行匹配,例如,职务、姓名、工龄、性别、工号等。需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
在该实施例中,当商家需要对目标语料进行播报时,判断目标语料是否符合商家端所属用户的语料权限。若符合,说明商家端所属用户具备播报该目标语料的条件,此时,将目标语料和目标语音类型发送至服务端。服务端根据目标语料和目标语音类型确定目标语料的目标语料标识及其排列顺序,并将携带有目标语料标识和排列顺序的播报指令发送至商家端关联的智能设备,以便于智能设备通过目标语料标识从本次存储的语音包中匹配拼接出目标语料对应的音频文件并进行播报。若不符合,说明商家端所属用户不具备播报该目标语料的条件,则拒绝播报该目标语料并输出提示信息,以提示商家端用户。从而通过语料权限配置不同目标语料的播报资格,有利于避免个人隐私或商业信息的泄露,提高语音播报的安全性。
例如,若商家端所属用户为后厨人员,其关联的智能设备仅可播报与菜品制作相关的信息(如,3号桌下单一份xx菜品、4号桌菜品已逾期等)。若商家端所属用户为店铺老板,其关联的智能设备不仅可播报与菜品制作相关的信息,还可播报交易相关的信息(如,3号桌支付xxx元等)。可以理解的是,本申请实施例对语料权限的具体内容不作限定,可为任一实现方式。
值得一提的是,在语音播报之前,商家端需要绑定智能设备,以便于控制指定的智能设备进行播报。绑定方式可采用扫码绑定、获取绑定请求等方式,本申请实施例不作具体限定。例如,商家端小程序采用了weex架构,在用户首次进入小程序后可配置对应的角色以及权限信息,然后通过扫描音响上的二维码获得音响的身份ID,并通过验证码进行双方的配对绑定。绑定音响后可在语音配置界面配置切换相应的语音包。当音箱接收到语音包推送的指令,会根据URL去下载对应的语音包,音箱通过MQTT协议接收来自服务端的播报指令或消息,通过多个目标语料标识对应的发音信息的组合,实现目标物料的播报。
需要说明的是,第一输入、第二输入、第三输入、第四输入、第五输入、第六输入、第七输入、第八输入、第九输入或第十输入包括但不限于点击输入、按键输入、指纹输入、滑动输入、按压输入。按键输入包括但不限于对终端的电源键、音量键、主菜单键的单击输入、双击输入、长按输入或组合按键输入等,本申请实施例对用户输入的方式不作具体限定,可为任一可实现的方式。
进一步地,如图9所示,作为上述语音播报方法的具体实现,本申请实施例提供了一种语音播报装置400,应用于服务端,该语音播报装置400包括:管理模块401、通信模块402、确定模块403。
其中,管理模块401,用于生成至少一种语音类型的语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
通信模块402,用于将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;
确定模块403,用于若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序;
通信模块402,还用于将目标语料的播报指令发送至商家端关联的智能设备,其中,播报指令携带有目标语料标识和排列顺序,以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件,并播放音频文件。
进一步地,管理模块401,具体用于获取至少一个预设语料;以及,确定至少一个预设语料中的第一语料;语音播报装置400还包括:第一显示模块(图中未示出),第一显示模块用于显示语音包界面,其中,语音包界面包括第一控件;以及,响应于对第一控件的第一输入,显示语音包创建窗口;管理模块401,具体用于响应于对语音包创建窗口的第二输入,获取第一语音类型;以及,根据第一语音类型,确定第一语料的发音信息和第一语料的预设语料标识;以及,组装第一语料的发音信息和第一语料的预设语料标识,得到第一语音类型的语音包。
进一步地,第一显示模块,还用于显示语料界面,其中,语音包界面包括第二控件;以及,响应于对第二控件的第三输入,显示语料创建窗口;管理模块401,具体用于响应于对语料创建窗的第四输入,确定预设语料和预设语料的语料类型,其中,语料类型包括通用类型和定制类型。
可选地,第一显示模块,还用于在语音包创建窗口上显示属于定制类型的预设语料;管理模块401,具体用于响应于对语音包创建窗口的第五输入,确定第二语料,其中,第二语料为第五输入对应的属于定制类型的预设语料;以及,将属于通用类型的预设语料和/或第二语料确定为第一语料。
进一步地,管理模块401,具体用于将第一语料输入第一语音类型对应的发音模型,得到第一语料的发音信息,其中,发音模型根据音频样本和语料标签训练得到。
进一步地,管理模块401,具体用于确定与第一语音类型匹配的第一字节数组;根据第一语料的拼音信息确定第二字节数组;按照预设生成规则对第一字节数组和第二字节数组进行处理,得到预设语料标识。
进一步地,语音播报装置400还包括:更新模块(图中未示出),更新模块用于若预设语料发生变化,确定预设语料对应的语音包的第四语音类型;将变化后的预设语料输入第四语音类型对应的发音模型,得到变化后的预设语料的发音信息;根据变化后的预设语料的发音信息更新预设语料对应的语音包。
进一步地,确定模块403,具体用于对目标语料进行识别处理,确定目标语料中相邻语料之间的连接顺序;根据连接顺序配置目标语料标识的排列顺序。
进一步地,语音播报装置400还包括:第二显示模块(图中未示出),第二显示模块用于显示至少一种语音类型的语音包的属性信息;通信模块402,具体用于响应于第六输入,将第六输入对应的属性信息所属的语音包发送至智能设备;其中,语音类型包括以下至少一种:语种、语速、音色和音量。
进一步地,通信模块402,还用于若目标语音类型和第三语音类型不同,将目标语音类型的语音包发送至智能设备;其中,语音类型包括以下至少一种:语种、语速、音色和音量。
进一步地,如图10所示,作为上述语音播报方法的具体实现,本申请实施例提供了一种语音播报装置500,应用于智能设备,该语音播报装置500包括:存储模块501、通信模块502、解析模块503、处理模块504、播放模块505。
其中,存储模块501,用于若接收到服务端发送的语音包,存储语音包,其中,语音包包括第一语料的发音信息和预设语料标识;
通信模块502,用于接收服务端发送的目标语料的播报指令;
解析模块503,用于对播报指令进行解析处理,确定目标语料对应的目标语料标识和目标语料标识的排列顺序;
处理模块504,用于根据预设语料标识和目标语料标识的对比结果,确定目标语料的发音信息;以及,根据排列顺序对目标语料的发音信息进行拼接处理,确定目标语料的音频文件;
播放模块505,用于播放音频文件。
进一步地,语音播报装置500还包括:确定模块(图中未示出),确定模块用于若排列顺序中相邻目标语料标识对应的发音信息属于多个语音类型的语音包,将目标语料中相邻目标语料标识对应的语料确定为衔接语料;以及,根据多个语音类型确定衔接语料的发音修正信息;处理模块504,还用于按照发音修正信息调整衔接语料的发音信息。
进一步地,如图11所示,作为上述语音播报方法的具体实现,本申请实施例提供了一种语音播报装置600,应用于商家端,该语音播报装置600包括:通信模块601、显示模块602、配置模块603、获取模块604。
其中,通信模块601,用于接收服务端发送的至少一种语音类型的语音包的属性信息;
显示模块602,用于响应于第七输入,显示语音配置界面,其中,语音配置界面包括属性信息;
配置模块603,用于响应于对语音配置界面的第八输入,将第八输入对应的属性信息中语音类型确定为目标语音类型;
获取模块604,用于获取目标语料;
通信模块601,还用于若目标语料符合商家端所属用户的语料权限,将目标语料和目标语音类型发送至服务端,以供服务端根据目标语料和目标语音类型确定目标语料的目标语料标识,并将携带有目标语料标识的播报指令发送至商家端关联的智能设备。
关于语音播报装置的具体限定可以参见上文中对于语音播报方法的限定,在此不再赘述。上述语音播报装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于上述如图1至图3所示方法,相应的,本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图3所示的语音播报方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图3所示的方法,以及图9至图11所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图3所示的语音播报方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作***、网络通信模块。操作***是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现生成至少一种语音类型的语音包,其中,语音包包括第一语料的发音信息和预设语料标识;将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;若接收到商家端发送的目标语料和目标语料的目标语音类型,根据目标语音类型确定目标语料的目标语料标识,以及确定目标语料标识的排列顺序;将目标语料的播报指令发送至商家端关联的智能设备,其中,播报指令携带有目标语料标识和排列顺序,以供智能设备根据目标语音类型的语音包、目标语料标识和排列顺序确定目标语料的音频文件,并播放音频文件。本申请实施例一方面,无需智能设备实时下载大量语音包,降低语音播报时的通信带宽占用,保证语音播报的流畅性,而且多种不同语音类型的语音包实现了多场景、多方言的语音播报,提升收听者的使用体验,另一方面,通过具备排列顺序的目标语料标识代替目标语料的文本进行传输,不仅进一步降低通信传输的数据量,而且实现了音频文件的动态组合,更加适用于不同内容的播报,优化了整体播报的流畅度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种语音播报方法,其特征在于,所述方法包括:
生成至少一种语音类型的语音包,其中,所述语音包包括第一语料的发音信息和预设语料标识;
将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;
若接收到所述商家端发送的目标语料和所述目标语料的目标语音类型,根据所述目标语音类型确定所述目标语料的目标语料标识,以及确定所述目标语料标识的排列顺序;
将所述目标语料的播报指令发送至所述商家端关联的智能设备,其中,所述播报指令携带有所述目标语料标识和所述排列顺序,以供所述智能设备根据所述目标语音类型的语音包、所述目标语料标识和所述排列顺序确定所述目标语料的音频文件,并播放所述音频文件。
2.根据权利要求1所述的语音播报方法,其特征在于,所述生成至少一个语音类型的语音包,包括:
获取至少一个预设语料;
确定至少一个所述预设语料中的所述第一语料;
显示语音包界面,其中,所述语音包界面包括第一控件;
响应于对所述第一控件的第一输入,显示语音包创建窗口;
响应于对所述语音包创建窗口的第二输入,获取第一语音类型;
根据所述第一语音类型,确定所述第一语料的发音信息和所述第一语料的预设语料标识;
组装所述第一语料的发音信息和所述第一语料的预设语料标识,得到所述第一语音类型的语音包。
3.根据权利要求2所述的语音播报方法,其特征在于,所述方法还包括:
若所述预设语料发生变化,确定所述预设语料对应的所述语音包的第二语音类型;
将变化后的所述预设语料输入所述第二语音类型对应的发音模型,得到变化后的所述预设语料的发音信息;
根据变化后的所述预设语料的发音信息更新所述预设语料对应的所述语音包。
4.一种语音播报方法,其特征在于,所述方法包括:
若接收到服务端发送的语音包,存储所述语音包,其中,所述语音包包括第一语料的发音信息和预设语料标识;
接收服务端发送的目标语料的播报指令;
对所述播报指令进行解析处理,确定所述目标语料对应的目标语料标识和所述目标语料标识的排列顺序;
根据所述预设语料标识和所述目标语料标识的对比结果,确定所述目标语料的发音信息;
根据所述排列顺序对所述目标语料的发音信息进行拼接处理,确定所述目标语料的音频文件;
播放所述音频文件。
5.一种语音播报方法,其特征在于,所述方法包括:
接收服务端发送的至少一种语音类型的语音包的属性信息;
响应于第七输入,显示语音配置界面,其中,所述语音配置界面包括所述属性信息;
响应于对所述语音配置界面的第八输入,将所述第八输入对应的属性信息中语音类型确定为目标语音类型;
获取目标语料;
若所述目标语料符合商家端所属用户的语料权限,将所述目标语料和所述目标语音类型发送至服务端,以供所述服务端根据所述目标语料和所述目标语音类型确定所述目标语料的目标语料标识,并将携带有所述目标语料标识的播报指令发送至所述商家端关联的智能设备。
6.一种语音播报装置,其特征在于,所述装置包括:
管理模块,用于生成至少一种语音类型的语音包,其中,所述语音包包括第一语料的发音信息和预设语料标识;
通信模块,用于将至少一种语音类型的语音包发送至智能设备,以及将至少一种语音类型的语音包的属性信息发送至商家端;
确定模块,用于若接收到所述商家端发送的目标语料和所述目标语料的目标语音类型,根据所述目标语音类型确定所述目标语料的目标语料标识,以及确定所述目标语料标识的排列顺序;
所述通信模块,还用于将所述目标语料的播报指令发送至所述商家端关联的智能设备,其中,所述播报指令携带有所述目标语料标识和所述排列顺序,以供所述智能设备根据所述目标语音类型的语音包、所述目标语料标识和所述排列顺序确定所述目标语料的音频文件,并播放所述音频文件。
7.一种语音播报装置,其特征在于,所述装置包括:
存储模块,用于若接收到服务端发送的语音包,存储所述语音包,其中,所述语音包包括第一语料的发音信息和预设语料标识;
通信模块,用于接收服务端发送的目标语料的播报指令;
解析模块,用于对所述播报指令进行解析处理,确定所述目标语料对应的目标语料标识和所述目标语料标识的排列顺序;
处理模块,用于根据所述预设语料标识和所述目标语料标识的对比结果,确定所述目标语料的发音信息;以及,
根据所述排列顺序对所述目标语料的发音信息进行拼接处理,确定所述目标语料的音频文件;
播放模块,用于播放所述音频文件。
8.一种语音播报装置,其特征在于,所述装置包括:
通信模块,用于接收服务端发送的至少一种语音类型的语音包的属性信息;
显示模块,用于响应于第七输入,显示语音配置界面,其中,所述语音配置界面包括所述属性信息;
配置模块,用于响应于对所述语音配置界面的第八输入,将所述第八输入对应的属性信息中语音类型确定为目标语音类型;
获取模块,用于获取目标语料;
所述通信模块,还用于若所述目标语料符合商家端所属用户的语料权限,将所述目标语料和所述目标语音类型发送至服务端,以供所述服务端根据所述目标语料和所述目标语音类型确定所述目标语料的目标语料标识,并将携带有所述目标语料标识的播报指令发送至所述商家端关联的智能设备。
9.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的语音播报方法的步骤。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的语音播报方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310099732.XA CN116319955B (zh) | 2023-02-10 | 2023-02-10 | 语音播报方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310099732.XA CN116319955B (zh) | 2023-02-10 | 2023-02-10 | 语音播报方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116319955A true CN116319955A (zh) | 2023-06-23 |
CN116319955B CN116319955B (zh) | 2024-05-24 |
Family
ID=86831530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310099732.XA Active CN116319955B (zh) | 2023-02-10 | 2023-02-10 | 语音播报方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116319955B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162292A (zh) * | 2019-04-15 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音播报方法及装置 |
CN110674241A (zh) * | 2019-09-30 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 地图播报的管理方法、装置、电子设备和存储介质 |
WO2020098188A1 (en) * | 2018-11-13 | 2020-05-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for prompting user |
CN112133281A (zh) * | 2020-09-15 | 2020-12-25 | 北京百度网讯科技有限公司 | 一种语音播报方法、装置、电子设备和存储介质 |
CN114664032A (zh) * | 2022-03-18 | 2022-06-24 | 上海商汤智能科技有限公司 | 语音播报方法、***、设备和可读存储介质 |
-
2023
- 2023-02-10 CN CN202310099732.XA patent/CN116319955B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098188A1 (en) * | 2018-11-13 | 2020-05-22 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for prompting user |
CN110162292A (zh) * | 2019-04-15 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音播报方法及装置 |
CN113110819A (zh) * | 2019-04-15 | 2021-07-13 | 创新先进技术有限公司 | 语音播报方法及装置 |
CN110674241A (zh) * | 2019-09-30 | 2020-01-10 | 百度在线网络技术(北京)有限公司 | 地图播报的管理方法、装置、电子设备和存储介质 |
CN112133281A (zh) * | 2020-09-15 | 2020-12-25 | 北京百度网讯科技有限公司 | 一种语音播报方法、装置、电子设备和存储介质 |
CN114664032A (zh) * | 2022-03-18 | 2022-06-24 | 上海商汤智能科技有限公司 | 语音播报方法、***、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116319955B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113099399B (zh) | 5g金融消息数据处理方法、金融机构及运营商服务装置 | |
US10311877B2 (en) | Performing tasks and returning audio and visual answers based on voice command | |
CN101120348B (zh) | 用于无线通信网络的利用三维人物提供新闻信息的方法和*** | |
CN106101789A (zh) | 终端的语音交互方法及装置 | |
CN109086026A (zh) | 播报语音的确定方法、装置和设备 | |
CN101896803A (zh) | 用于从源数据到音频/视频数据的语义媒体转换的方法、设备和计算机程序产品 | |
CN105491126A (zh) | 基于人工智能的服务提供方法及装置 | |
CN107342088A (zh) | 一种声音信息的转换方法、装置及设备 | |
CN101208929A (zh) | 用于自动依据内容的媒体转换及产生的装置、***、方法及制品 | |
CN113051269A (zh) | 表单配置方法及装置 | |
CN107908743A (zh) | 人工智能应用构建方法和装置 | |
CN104038774B (zh) | 生成铃声文件的方法及装置 | |
KR102357620B1 (ko) | 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법 | |
JP5877405B2 (ja) | リングデータを用いたars連動データ提供システム及びその方法 | |
CN107451185A (zh) | 录音方法、朗读***、计算机可读存储介质和计算机装置 | |
US20120179551A1 (en) | Personalised Items in Mobile Devices based on User Behaviour | |
CN106372203A (zh) | 一种智能终端的信息响应方法、装置和智能终端 | |
CN116319955B (zh) | 语音播报方法、装置、存储介质和计算机设备 | |
CN104853252B (zh) | 一种互动的多主页控制方法、装置和*** | |
US20230072483A1 (en) | Moving image editing device, moving image editing method, and program | |
CN109166585A (zh) | 语音控制的方法及装置、存储介质 | |
CN104468926A (zh) | 移动终端中联系人的控制方法及装置 | |
CN102783192A (zh) | 用于在呼叫等待时传输数字数据的方法及其***和相应的移动终端 | |
CN109872722A (zh) | 一种语音交互方法、装置、存储介质及空调 | |
CN110187930A (zh) | 一种应用定制方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |