CN108417200A - 语音合成播报方法和装置 - Google Patents

语音合成播报方法和装置 Download PDF

Info

Publication number
CN108417200A
CN108417200A CN201810161931.8A CN201810161931A CN108417200A CN 108417200 A CN108417200 A CN 108417200A CN 201810161931 A CN201810161931 A CN 201810161931A CN 108417200 A CN108417200 A CN 108417200A
Authority
CN
China
Prior art keywords
voice
text
reported
vocabulary
dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810161931.8A
Other languages
English (en)
Inventor
陈锡俊
陈耀
胡建文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Shijie Information Technology Co Ltd
Original Assignee
Hunan Shijie Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Shijie Information Technology Co Ltd filed Critical Hunan Shijie Information Technology Co Ltd
Priority to CN201810161931.8A priority Critical patent/CN108417200A/zh
Publication of CN108417200A publication Critical patent/CN108417200A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请涉及一种语音合成播报方法,包括:获取用户输入的预设播报时间、播报次数和待播报的文本;文本包括至少一个词汇;从动态语音库中获取文本包含的词汇对应的语音;将获取的文本包含的词汇对应的语音,合成待播报的语音并存储;将已合成并存储的待播报的语音,按照预设播报时间、播报次数进行语音播报。当使用本申请提供的方法进行语音的合成播报时,可以通过预设播报时间和播报次数来控制对于待播报的文本的语音合成播报,满足了在预设时间播报文本的需求。

Description

语音合成播报方法和装置
技术领域
本发明涉及语音合成领域,尤其涉及一种语音合成播报方法和装置。
背景技术
相关技术,存在大量的语音合成播报的装置,但现在的语音合成播报的装置中,都只是简单的对语音进行合成播报,功能单一。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种语音合成播报方法和装置。
根据本申请实施例的第一方面,提供一种语音合成播报方法,包括:
获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
从动态语音库中获取所述文本包含的所述词汇对应的语音;
将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
可选的,还包括获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
可选的,还包括将所述待播报的语音添加到所述动态语音库。
可选的,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
可选的,所述动态语音库中的语音以MFCC或MR的方式编码。
根据本申请实施例的第二方面,提供了一种语音合成播报装置,包括:
第一获取模块,用于获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
第二获取模块,用于从动态语音库中获取所述文本包含的所述词汇对应的语音;
合成模块,用于将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
语音播报模块,用于将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
可选的,所述第一获取模块,还用于获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
所述第二获取模块,用于根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
可选的,还包括添加模块;所述添加模块,用于将所述待播报的语音添加到所述动态语音库。
可选的,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
可选的,所述动态语音库中的语音以MFCC或MR的方式编码。
根据本申请实施例的第三方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由语音合成播报装置的处理器执行时,使得语音合成播报装置能够执行一种语音合成播报方法,所述方法包括:处理器;所述处理器,用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
从动态语音库中获取所述文本包含的所述词汇对应的语音;
将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
可选的,还包括获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
可选的,还包括:将所述待播报的语音添加到所述动态语音库。
可选的,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
可选的,所述动态语音库中的语音以MFCC或MR的方式编码。
根据本申请实施例的第四方面,提供一种语音合成播报装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
从动态语音库中获取所述文本包含的所述词汇对应的语音;
将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
可选的,还包括获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
可选的,还包括:将所述待播报的语音添加到所述动态语音库。
可选的,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
可选的,所述动态语音库中的语音以MFCC或MR的方式编码。
本申请的实施例提供的技术方案可以包括以下有益效果:
由于获取用户输入的预设播报时间、播报次数和待播报的文本,可以按照所述预设播报时间、播报次数进行语音播报。当使用本申请提供的方法进行语音的合成播报时,可以通过预设播报时间和播报次数来控制对于待播报的文本的语音合成播报,满足了在预设时间播报文本的需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一个实施例提供的一种语音合成播报方法的流程示意图。
图2是本申请一个实施例提供的一种语音合成播报装置的结构示意图。
图3是本申请另一个实施例提供的一种语音合成播报装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法相一致的例子。
图1是本申请一个实施例提供的语音合成播报的流程图。参见图1,本实施例的方法可以包括:
步骤110、获取用户输入的预设播报时间、播报次数和待播报的文本;文本包括至少一个词汇。
本步骤中,文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。词汇可以是单个的汉字,组成词语的多个汉字,英语单词、通用符号等。通用符号可以使“@”“π”等符号。
步骤120、从动态语音库中获取文本包含的词汇对应的语音。
本步骤中,动态语音库内部存储有常用的词汇对应的语音。当发现动态语音库内部存储没有储存待播报的文本中的词汇对应的语音时,可以通过外部设备将使将待播报的语音添加到动态语音库,以避免出现因动态语音库内部没有存储词汇对应的语音而无法获取的问题。
其中,动态语音库中的语音以MFCC或MR的方式编码。
步骤130、将获取的文本包含的词汇对应的语音,合成待播报的语音并存储。
步骤140、将已合成并存储的待播报的语音,按照预设播报时间、播报次数进行语音播报。
由于获取用户输入的预设播报时间、播报次数和待播报的文本,可以按照预设播报时间、播报次数进行语音播报。当使用本申请提供的方法进行语音的合成播报时,可以通过预设播报时间和播报次数来控制对于待播报的文本的语音合成播报,满足了在预设时间播报文本的需求。
步骤110,获取用户输入的预设播报时间、播报次数和待播报的文本;文本包括至少一个词汇。
本步骤中,还可以获取用户输入的预设播报音质;步骤120中、可以根据预设播报音质,从动态语音库中获取文本包含的词汇对应的语音。这样就可以根据预设播报音质,播放不同音质的语音。
图2是本申请另一个实施例提供的语音合成播报装置的结构示意图。参见图2,本实施例的装置包括第一获取201、第二获取模块202、合成模块203和语音播报模块204。其中:
第一获取模块201,用于获取用户输入的预设播报时间、播报次数和待播报的文本;文本包括至少一个词汇;
第二获取模块202,用于从动态语音库中获取文本包含的词汇对应的语音;
合成模块203,用于将获取的文本包含的词汇对应的语音,合成待播报的语音并存储;
语音播报模块204,用于将已合成并存储的待播报的语音,按照预设播报时间、播报次数进行语音播报。
较佳的,第一获取模块201,还用于获取用户输入的预设播报音质;第二获取模块202,还用于根据预设播报音质,从动态语音库中获取文本包含的词汇对应的语音。
基于上述相关实施例,语音合成播报装置还包括:添加模块;添加模块,用于将待播报的语音添加到动态语音库。
其中,文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
其中动态语音库中的语音以MFCC或MR的方式编码。
图3是本申请另一个实施例提供的一种语音合成播报装置的结构示意图。参见图3,本实施例的装置包括:处理器301;用于存储处理器可执行指令的存储器302;其中,处理器301被配置为获取用户输入的预设播报时间、播报次数和待播报的文本;文本包括至少一个词汇;
从动态语音库中获取文本包含的词汇对应的语音;
将获取的文本包含的词汇对应的语音,合成待播报的语音并存储;
将已合成并存储的待播报的语音,按照预设播报时间、播报次数进行语音播报。
较佳的,处理器301,还被配置为,将待播报的语音添加到动态语音库。
基于上述相关实施例,当预设信息中包括预设播报音质时,处理器301,具体被配置为:获取用户输入的预设播报音质;
从动态语音库中获取文本包含的词汇对应的语音,包括:
根据预设播报音质,从动态语音库中获取文本包含的词汇对应的语音。
其中,文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
其中,动态语音库中的语音以MFCC或MR的方式编码。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音合成播报方法,其特征在于,包括:
获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
从动态语音库中获取所述文本包含的所述词汇对应的语音;
将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
3.根据权利要求1所述方法,其特征在于,该方法还包括:将所述待播报的语音添加到所述动态语音库。
4.根据权利要求1所述的方法,其特征在于,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
5.根据权利要求1所述的方法,其特征在于,所述动态语音库中的语音以MFCC或MR的方式编码。
6.一种语音合成播报装置,其特征在于,包括:
第一获取模块,用于获取用户输入的预设播报时间、播报次数和待播报的文本;所述文本包括至少一个词汇;
第二获取模块,用于从动态语音库中获取所述文本包含的所述词汇对应的语音;
合成模块,用于将获取的所述文本包含的所述词汇对应的语音,合成待播报的语音并存储;
语音播报模块,用于将已合成并存储的所述待播报的语音,按照所述预设播报时间、播报次数进行语音播报。
7.根据权利要求1所述的装置,其特征在于,所述第一获取模块,还用于获取用户输入的预设播报音质;
所述从动态语音库中获取所述文本包含的所述词汇对应的语音,包括:
所述第二获取模块,用于根据预设播报音质,从动态语音库中获取所述文本包含的所述词汇对应的语音。
8.根据权利要求1所述的装置,其特征在于,该装置还包括:添加模块;所述添加模块,用于将所述待播报的语音添加到所述动态语音库。
9.根据权利要求1所述的装置,其特征在于,所述文本包括汉字、英文单词、希腊字母、数字和通用符号中的至少一项。
10.根据权利要求1所述的装置,其特征在于,所述动态语音库中的语音以MFCC或MR的方式编码。
CN201810161931.8A 2018-02-27 2018-02-27 语音合成播报方法和装置 Pending CN108417200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810161931.8A CN108417200A (zh) 2018-02-27 2018-02-27 语音合成播报方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810161931.8A CN108417200A (zh) 2018-02-27 2018-02-27 语音合成播报方法和装置

Publications (1)

Publication Number Publication Date
CN108417200A true CN108417200A (zh) 2018-08-17

Family

ID=63129144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810161931.8A Pending CN108417200A (zh) 2018-02-27 2018-02-27 语音合成播报方法和装置

Country Status (1)

Country Link
CN (1) CN108417200A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863475A (zh) * 2019-11-12 2021-05-28 北京中关村科金技术有限公司 一种语音合成方法、装置和介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201153308Y (zh) * 2007-10-17 2008-11-19 中兴通讯股份有限公司 移动终端情景备忘装置
US20110171941A1 (en) * 2005-03-31 2011-07-14 United Video Properties Inc. Systems and methods for generating audible reminders on mobile user equipment
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN202998361U (zh) * 2013-01-14 2013-06-12 广东九联科技股份有限公司 一种具有语音留言功能的机顶盒
CN203084453U (zh) * 2012-12-27 2013-07-24 马丁 一种备忘手表
CN203252877U (zh) * 2013-05-20 2013-10-30 金陵科技学院 一种多功能语音提示导盲器
CN204832795U (zh) * 2015-07-31 2015-12-02 武汉运迈达科技有限公司 一种新型智能手表
CN106470146A (zh) * 2015-08-17 2017-03-01 腾讯科技(深圳)有限公司 即时通信应用中文本转换为语音的方法和装置
CN107644647A (zh) * 2016-07-21 2018-01-30 平安科技(深圳)有限公司 语音回访的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110171941A1 (en) * 2005-03-31 2011-07-14 United Video Properties Inc. Systems and methods for generating audible reminders on mobile user equipment
CN201153308Y (zh) * 2007-10-17 2008-11-19 中兴通讯股份有限公司 移动终端情景备忘装置
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成***及其方法
CN203084453U (zh) * 2012-12-27 2013-07-24 马丁 一种备忘手表
CN202998361U (zh) * 2013-01-14 2013-06-12 广东九联科技股份有限公司 一种具有语音留言功能的机顶盒
CN203252877U (zh) * 2013-05-20 2013-10-30 金陵科技学院 一种多功能语音提示导盲器
CN204832795U (zh) * 2015-07-31 2015-12-02 武汉运迈达科技有限公司 一种新型智能手表
CN106470146A (zh) * 2015-08-17 2017-03-01 腾讯科技(深圳)有限公司 即时通信应用中文本转换为语音的方法和装置
CN107644647A (zh) * 2016-07-21 2018-01-30 平安科技(深圳)有限公司 语音回访的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112863475A (zh) * 2019-11-12 2021-05-28 北京中关村科金技术有限公司 一种语音合成方法、装置和介质
CN112863475B (zh) * 2019-11-12 2022-08-16 北京中关村科金技术有限公司 一种语音合成方法、装置和介质

Similar Documents

Publication Publication Date Title
US10922488B1 (en) Computing numeric representations of words in a high-dimensional space
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN105845125B (zh) 语音合成方法和语音合成装置
US20160019816A1 (en) Language Learning Tool
US20110320206A1 (en) Electronic book reader and text to speech converting method
CN105551480B (zh) 方言转换方法及装置
Proisl SoMeWeTa: A part-of-speech tagger for German social media and web texts
US8452603B1 (en) Methods and systems for enhancement of device accessibility by language-translated voice output of user-interface items
CN102193913A (zh) 翻译装置及翻译方法
Nasution et al. Mobile device interfaces illiterate
US10896624B2 (en) System and methods for transforming language into interactive elements
CN105549760A (zh) 信息输入方法和装置
Kureta et al. Orthographic influences on the word‐onset phoneme preparation effect in native J apanese speakers: Evidence from the word‐form preparation paradigm
Abou-Zahra et al. Standards, guidelines, and trends
CN114390220A (zh) 一种动画视频生成方法及相关装置
CN113724683A (zh) 音频生成方法、计算机设备及计算机可读存储介质
Sulpizio et al. Priming lexical stress in reading Italian aloud
CN108417200A (zh) 语音合成播报方法和装置
Blanken et al. Parallel or serial activation of word forms in speech production? Neurolinguistic evidence from an aphasic patient
CN109710945B (zh) 基于数据生成文本方法、装置、计算机设备和存储介质
CN107341840A (zh) 一种动画处理方法和装置
Tomlinson Jr et al. The perceptual nature of stress shifts
JP2017003812A (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
Lu et al. Using Bayesian networks to find relevant context features for HMM-based speech synthesis
US20110010179A1 (en) Voice synthesis and processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180817