CN102693729A - 个性化语音阅读方法、***及具有该***的终端 - Google Patents

个性化语音阅读方法、***及具有该***的终端 Download PDF

Info

Publication number
CN102693729A
CN102693729A CN2012101514056A CN201210151405A CN102693729A CN 102693729 A CN102693729 A CN 102693729A CN 2012101514056 A CN2012101514056 A CN 2012101514056A CN 201210151405 A CN201210151405 A CN 201210151405A CN 102693729 A CN102693729 A CN 102693729A
Authority
CN
China
Prior art keywords
personalized
speech
target speaker
personalized speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101514056A
Other languages
English (en)
Other versions
CN102693729B (zh
Inventor
吉朋松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Zhongde Health Management Co ltd
Original Assignee
Aoxintong Science & Tech Development Co Ltd Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aoxintong Science & Tech Development Co Ltd Beijing filed Critical Aoxintong Science & Tech Development Co Ltd Beijing
Priority to CN201210151405.6A priority Critical patent/CN102693729B/zh
Publication of CN102693729A publication Critical patent/CN102693729A/zh
Application granted granted Critical
Publication of CN102693729B publication Critical patent/CN102693729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种个性化语音阅读方法,包括:获取目标说话人的个性化语音信息,并提取其语音特征信息;根据语音特征信息将个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库;向语音识别器中输入源文件,根据语音库将源文件转换为具有目标说话人的声音的个性化目标语音信息以便通过目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。本发明的实施例能够实现以个性化声音阅读电子报纸、E-mail、短信、电子贺卡,及个性化配音、角色扮演等。可利用明星语音或指定的其他个性化目标语音进行阅读,既具娱乐性又可以解决阅读困难场合或人群的阅读需要。本发明还提出一种个性化语音阅读***和终端。

Description

个性化语音阅读方法、***及具有该***的终端
技术领域
本发明涉及语音识别技术领域,特别涉及一种个性化语音阅读方法、***及具有该***的终端。
背景技术
语音转换(VT,voice transform或VC,voice conversion)技术是指改变一个说话人(即源说话人source speaker)语音中的个性特征,使之具有另外一个人(目标说话人targetspeaker)的个性信息,也就是转换后的语音听起来就像目标说话人的声音一样,与此同时,保持语音中的语义信息不变。语音转换***在日常生活中有着广泛的应用价值,能够极大的方便人们的生活,具有重要的实际意义。
语音阅读(英文为TTS,Text to Speech),已经越来越被用户接纳并且成为了一个必不可少的功能。目前的语音阅读,已经实现了既可以用眼睛来阅读又可以用耳朵去听,不管是在等车、坐车、走路,还是在做饭、开车,使用者可随心所欲的听自己喜欢的书籍、杂志、报纸,收听E-mail、短信和有声贺卡等。
但目前已有的阅读方式都只能实现用***中已有语音库中的语音来进行阅读,只实现文字识别和播放功能,相对单调,不具娱乐性。例如,在电影配音中,尤其是用另外一种语言进行配音时,往往配音演员不是演员本人,这样常常使配音与原演员的个性特征相差很大,使配音效果不好。再如:电脑游戏已经越来越深入到日常生活,特别是网络游戏出现后,然而现在的游戏都是有声游戏,玩家在游戏中扮演某个角色,但是该角色的声音都是游戏中预先设置好的,不具有个性化或者特点,不易吸引游戏玩家。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种应用范围广、娱乐性强、个性化突出且能够极大提升用户体验的个性化语音阅读方法。
本发明的另一目的在于提出一种个性化语音阅读***。
本发明的再一目的在于提出一种终端。
为了实现上述目的,本发明第一方面的实施例提出了一种个性化语音阅读方法,包括以下步骤:获取目标说话人的个性化语音信息;提取所述个性化语音信息的语音特征信息;根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库;以及向所述语音识别器中输入源文件,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息以便通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
根据本发明实施例的个性化语音阅读方法,利用语音转换技术,达到娱乐目的,更具个性化。实现个性化的明星语音或其他指定目标语音朗读电子报纸、E-mail、短信、电子贺卡等,还可应用于配音、角色扮演、翻译等多个领域,并可进行自动评分。本发明的技术方案实现简单,现有的终端和服务器硬件不需要做变化。
另外,根据本发明上述实施例的个性化语音阅读方法还可以具有如下附加的技术特征:
在一些示例中,获取所述目标说话人的个性化语音信息的方式包括:录入、导入或下载所述目标说话人的个性化语音信息。
在一些示例中,获取所述目标说话人的个性化语音信息,还包括:通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
在一些示例中,所述源文件为图片文件、文本文件或语音文件。
进一步地,所述的个性化语音阅读方法还包括:对所述图片文件进行文本识别。
进一步地,所述源文件为图片文件或文本文件,则对所述源文件进行文语转换,或者所述源文件为语音文件,则对所述源文件进行语音转换。
在一些示例中,所述个性化语音阅读方法,还包括:对所述个性化目标语音信息的转换结果进行评价。
在一些示例中,所述个性化语音阅读方法,还包括:将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和所述用户期望的语音转换效果,判断向所述语音识别器中输入目标说话人的个性化语音的内容和时长。
在一些示例中,所述个性化语音阅读方法还包括:将所述个性化目标语音信息上载、存储至终端设备或服务器上。
在一些示例中,所述个性化目标语音信息还用于对电影或电视剧进行角色的配音,或者,用于对游戏角色进行角色扮演。
本发明第二方面的实施例提出了一种个性化语音阅读***,包括:存储装置,所述存储装置用于获取目标说话人的个性化语音信息和源文件;语音识别器,所述语音识别器用于提取所述个性化语音信息的语音特征信息,以根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息;以及输出模块,所述输出模块用于根据所述个性化目标语音信息通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
另外,根据本发明上述实施例的个性化语音阅读***还可以具有如下附加的技术特征:
在一些示例中,所述存储装置用于录入、导入或下载所述目标说话人的个性化语音信息。
在一些示例中,所述存储装置还用于通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
在一些示例中,所述源文件为图片文件、文本文件或语音文件。
进一步地,所述语音识别器包括:文本识别模块,用于对所述图片文件进行文本识别。
进一步地,所述语音识别器还包括文语转换单元和语音转换单元,其中,所述文语转换单元用于在所述源文件为图片文件或文本文件时对所述源文件进行文语转换,所述语音转换单元用于在所述源文件为语音文件时对所述源文件进行语音转换。
在一些示例中,所述个性化语音阅读***,还包括:评价装置,所述评价装置用于对所述个性化目标语音信息的转换结果进行评价。
在一些示例中,所述评价装置用于将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和用户期望的语音转换效果,判断向所述语音识别器中输入的目标说话人的个性化语音的内容和时长。
在一些示例中,所述输出模块还用于将所述个性化目标语音信息上载或存储到终端设备或服务器上。
在一些示例中,所述个性化目标语音信息用于对电影或电视剧进行角色的配音、或者对游戏角色进行角色扮演。
根据本发明实施例的个性化语音阅读***,能够提升娱乐性,更具个性化,且提升用户体验。且该***结构简单,易于实现。
本发明第三方面实施例提出了一种终端,包括:上述第二方面实施例所述的个性化语音阅读***。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的个性化语音阅读方法的流程图;
图2为本发明另一个实施例的个性化语音阅读方法的流程图;以及
图3为本发明实施例的个性化语音阅读***的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图1和2首先描述根据本发明实施例的个性化语音阅读方法。
参见图1,根据本发明实施例的个性化语音阅读方法,包括如下步骤:
步骤S101,获取目标说话人的个性化语音信息。在一些示例中,获取目标说话人的个性化语音信息的方式包括录入、导入或下载目标说话人的个性化语音信息。例如,通过音频设备录入目标说话人的个性化语音信息,音频设备如麦克风等;或通过导入接口导入目标说话人的个性化语音信息,导入接口如网络接口、USB接口、存储卡接口等;或者在互联网上下载目标说话人的个性化语音信息。
在另一些示例中,还可通过目标说话人读取预设的文本内容并将读取结果作为目标说话人的个性化语音信息。具体地,由于从目标说话人的个性化语音信息提取的语音特征信息对最终生成的目标语音信息的语音效果好坏的关键,因此,目标说话人的个性化语音信息的内容是语音库生成的基础,是源文本转换成特定的目标说话人的语音的效果好坏的关键,对于不同的语音转换算法的语音库提取的语音元素,即语音特征信息也存在较大差异,因此根据语音转换算法提供预设的文本内容,由目标说话人按照范本,即预设的文本内容进行朗读,再进行语音特征信息的提取,由此在后续的处理中,得到相对较好的转换效果,提升向目标语音信息的转换效果。
步骤S102,提取个性化语音信息的语音特征信息。
步骤S103,根据语音特征信息将个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库。
步骤S104,向语音识别器中输入源文件,并根据语音库将源文件转换为具有目标说话人的声音的个性化目标语音信息以便通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。在一些示例中,源文件可以为图片文件、文本文件或语音文件。进一步地,如果源文件为图片文件,则在进行源文件转换为具有目标说话人的声音的目标语音信息之前,对图片文件进行文本识别,以便将图片文件转换为文本文件。进一步地,源文件为图片文件或文本文件,则对源文件进行文语转换,即文字至语音的转换;源文件为语音文件,则对源文件进行语音转换,即源语音文件至具有目标说话人的声音的目标语音信息的转换。换言之,语音转换器根据语音库将源文本,例如图片文件、文本文件或语音文件转换成的具有目标说话人的声音的目标语音信息时可根据源文件是文本文件、图片文件还是语音文件选择文语转换还是语音转换。
在一些示例中,源文本的可以通过音频设备录入,如麦克风等;或通过导入接口导入,如通过网络接口下载,或通过USB接口或存储卡接口等传输;或通过摄像头的拍照功能或者摄影功能拍摄图片文件;或通过网络将源文本,如语音下载;或语音识别器中预先存入的源文本等。
在本发明的一些实施例中,将个性化目标语音信息上载、存储至终端设备或服务器上,终端设备包括但不限于手机、电脑等。例如上载、存储或播放目标语音信息。作为一个具体的例子,如通过扬声器输出目标语音信息,或以文件形式进行存储以供应用程序调用,或通过导出接口或网络上载到服务器中,以供用户下载。由此,既可以实现个性化语音或明星语音,即以目标语音信息朗读电子报纸、E-mail、短消息、电子贺卡等。在另一些示例中,个性化目标语音信息还用于对电影或电视剧进行角色的配音,或者个性化目标语音信息还用于对游戏角色进行角色扮演。即个性化目标语音信息可以实现个性化翻译功能、个性化配音、个性化角色扮演等功能。从而,改变已有阅读方式只能实现利用现有的语音库中的语音来进行阅读,且只实现文字识别和播放功能,带来的相对单调,不具娱乐性的缺点,通过文本文件、图片文件或语音文件到个性化的语音转换,即转换为任意目标说话人的声音的目标语音信息,不仅提升了娱乐性和用户体验效果,且可对多种形式的源文件进行转换,应用范围广、方便。
在本发明的一些示例中,个性化语音阅读方法还包括对所述目标语音信息的转换结果进行评价。具体而言,将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和所述用户期望的语音转换效果,判断向所述语音识别器中输入目标说话人的个性化语音的内容和时长。参见图2,包括如下步骤:
步骤S105,判断是否对语音转换效果进行评价。
步骤S106,如果用户选择评价,则可对个性化语音转换效果进行评价,即根据目标语音信息的语音效果对个性化语音阅读方法的转换质量进行评价。在该示例中,语音转换质量的评价方法可采用主观评价方法,即根据播放的目标语音信息的效果、客观评价方法,即根据语音转换方法的好坏进行评价,或主客观评价方法的结合。从而使用户得以直观的得知该语音识别器的转换效果的好坏。例如评价结果以10分为最高分,则该评价结果例如包括如输入目标说话人个性化语音朗读预设文本内容的时长为10分钟,其评价结果为9分,如输入目标说话人个性化语音朗读预设文本内容的时长为5分钟,其评价结果为5分,而在输入目标说话人个性化语音朗读预设文本内容的时长为7分钟时,其评价结果为7分。则用户可以根据期待的语音转换效果范围决定输入目标说话人个性化语音的时长。再例如,评价结果以10分为最高分,则该评价结果例如包括如输入目标说话人个性化语音朗读预设文本内容1,其评价结果为9分,如输入目标说话人个性化语音朗读预设文本内容2,其评价结果为5分,而在输入目标说话人个性化语音朗读预设文本内容3,其评价结果为7分。则用户可以根据期待的语音转换效果范围决定输入目标说话人个性化语音的内容。由此,提升个本发明实施例的个性化语音阅读方法在实际应用中的竞争力。
参考图3,本发明的进一步实施例提出了一种个性化语音阅读***300,包括存储装置310、语音识别器320和输出模块330。其中:
存储装置310用于获取目标说话人的个性化语音信息和源文件。语音识别器320用于提取所述个性化语音信息的语音特征信息,以根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息。输出模块330用于用于根据所述个性化目标语音信息通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。在一些示例中,输出模块330用于将个性化目标语音信息上载或存储到终端设备(图中未示出)或服务器(图中未示出)上。作为一个具体的例子,如通过扬声器输出目标语音信息,或以文件形式进行存储以供应用程序调用,或通过导出接口或网络上载到服务器中,以供用户下载。由此,既可以实现个性化语音或明星语音,即以目标语音信息朗读电子报纸、E-mail、短消息、电子贺卡等。在本发明的另一些示例中,个性化目标语音信息用于对电影或电视剧进行角色的配音、或者对游戏角色进行角色扮演即可以实现个性化翻译功能、个性化配音、个性化角色扮演等功能。从而,改变已有阅读方式只能实现利用现有的语音库中的语音来进行阅读,且只实现文字识别和播放功能,带来的相对单调,不具娱乐性的缺点,通过文本文件、图片文件或语音文件到个性化的语音转换,即转换为任意目标说话人的声音的目标语音信息,不仅提升了娱乐性和用户体验效果,且可对多种形式的源文件进行转换,应用范围广、方便。
在一些示例中,存储装置310用于录入、导入或下载目标说话人的个性化语音信息。或者,通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。例如,通过音频设备录入目标说话人的个性化语音信息到存储设备310;或通过接口导入存储设备310,接口如网络接口、USB接口、存储卡接口等;或通过网络上传到存储设备310;或利用存储设备310上已录制好的个性化语音信息,如明星的语音文件。上述存储设备310例如为内存、硬盘、存储卡等,存储卡包括但不限于:Mini-SD、SD、TF卡等。
在其它示例中,存储装置310还可以存储通过目标说话人读取预设的文本内容并将读取结果作为目标说话人的个性化语音信息。具体地,由于从目标说话人的个性化语音信息提取的语音特征信息对最终生成的目标语音信息的语音效果好坏的关键,因此,目标说话人的个性化语音信息的内容是语音库生成的基础,是源文本转换成特定的目标说话人的语音的效果好坏的关键,对于不同的语音转换算法的语音库提取的语音元素,即语音特征信息也存在较大差异,因此根据语音转换算法提供预设的文本内容,由目标说话人按照范本,即预设的文本内容进行朗读,再进行语音特征信息的提取,由此在后续的处理中,得到相对较好的转换效果,提升向目标语音信息的转换效果。
同样地,对于源文件而言,也可通过上述方式进行存储,例如录入、导入或上载等方式。源文件为图片文件、文本文件或语音文件。进一步地,结合图3,语音识别器320包括文本识别模块321,用于对图片文件进行文本识别。进一步地,语音识别器320还包括文语转换单元322和语音转换单元323,其中,文语转换单元322用于在源文件为图片文件或文本文件时对源文件进行文语转换,语音转换单元323用于在源文件为语音文件时对源文件进行语音转换。具体地说,如果源文件为图片文件,则在进行源文件转换为具有目标说话人的声音的目标语音信息之前,对图片文件进行文本识别,以便将图片文件转换为文本文件。进一步地,源文件为图片文件或文本文件,则对源文件进行文语转换,即文字至语音的转换;源文件为语音文件,则对源文件进行语音转换,即源语音文件至具有目标说话人的声音的目标语音信息的转换。换言之,语音转换器根据语音库将源文本,例如图片文件、文本文件或语音文件转换成的具有目标说话人的声音的目标语音信息时可根据源文件是文本文件、图片文件还是语音文件选择文语转换还是语音转换。
再次结合图3,在本发明的进一步示例中,个性化语音阅读***300还包括评价装置340,用于对目标语音信息的转换结果进行评价。具体而言,评价装置340用于将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和用户期望的语音转换效果,判断向所述语音识别器中输入的目标说话人的个性化语音的内容和时长。其评价方式与上述一个实施例的评价方式相同,为了减少冗余,不做赘述。
根据本发明实施例的个性化语音阅读方法和***,提升娱乐性,个性化、和用户体验。且应用领域广。具体而言,例如可将源文件转换为具有指定的个性特征,如明星的个性特征,或熟悉的家人、朋友或本人的个性特征等,由此增加娱乐范围。也可在电影配音中,尤其是用另外一种语言进行配音时,解决了传统的配音与原演员的个性特征相差很大,配音效果不好的缺点。本发明的实施例将配音再进行语音转换,使之重新具有演员本人的个性特征,由此,使配音效果相对更加理想。载入,在电脑游戏领域,特别是网络游戏,可是玩家在现有游戏中扮演某个角色时,通过玩家喜欢的人或声音或对角色进行角色扮演或者配音,由此提升游戏的娱乐性,提升游戏的市场竞争力。
在本发明的进一步实施例中,提出了一种终端,包括上述实施例所述的个性化语音阅读***300。在一些示例中,终端既可以为客户端也可以为服务器。而客户端包括但不限于PC机或手机等。
【实施例】
以下结合具体的例子,通过电子报纸进行个性化语音阅读来具体说明如何通过本发明所述的个性化语音阅读方法、***进行个性化读报。
首先按照个性化语音阅读***中提供的范本文件,即预设的文本内容,通过手机的麦克风进行朗读,录入希望转换成的目标说话者的语音,即目标说话人的个性化语音信息。从存储设备的个性化语音信息中进行语音特征提取,生成语音转换器中的语音库。将手机中已从网络下载的希望进行朗读的电子报纸通过个性化语音阅读***进行语音转换。将转换后的目标语音,即目标语音信息通过手机的扬声器输出,实现个性化语音朗读电子报纸。采用目标语音朗读电子报纸结束后,在个性化阅读***中选择是否对语音转换效果进行评价,评价装置340根据评判标准给出语音转换效果的分数,显示在手机屏幕上,评判标准的方式包括但不限于:根据语音转换方法的好坏进行评价或者根据播放的目标语音信息的效果,或者两者结合的方式进行评价。由此,提升个本发明实施例的个性化语音阅读方法在实际应用中的竞争力。
根据本发明的实施例的个性化语音阅读方法、***和终端,提升阅读的效果,提升娱乐性,且更具个性化、提升用户体验。具体地,可实现个性化的明星语音或其他指定目标语音朗读电子报纸、E-mail、短信、电子贺卡等,还可应用于配音、角色扮演、翻译等多个领域,并可进行自动评价以提升个本发明实施例的个性化语音阅读方法、***和终端在实际应用中的竞争力。另外,该***结构简单、易于实现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (22)

1.一种个性化语音阅读方法,其特征在于,包括以下步骤:
获取目标说话人的个性化语音信息;
提取所述个性化语音信息的语音特征信息;
根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库;以及
向所述语音识别器中输入源文件,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息以便通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
2.根据权利要求1所述的个性化语音阅读方法,其特征在于,获取所述目标说话人的个性化语音信息的方式包括:录入、导入或下载所述目标说话人的个性化语音信息。
3.根据权利要求1所述的个性化语音阅读方法,其特征在于,获取所述目标说话人的个性化语音信息,还包括:通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
4.根据权利要求1所述的个性化语音阅读方法,其特征在于,所述源文件为图片文件、文本文件或语音文件。
5.根据权利要求4所述的个性化语音阅读方法,其特征在于,还包括:对所述图片文件进行文本识别。
6.根据权利要求5所述的个性化语音阅读方法,其特征在于,
所述源文件为图片文件或文本文件,则对所述源文件进行文语转换,或者所述源文件为语音文件,则对所述源文件进行语音转换。
7.根据权利要求1所述的个性化语音阅读方法,其特征在于,还包括:
对所述个性化目标语音信息的转换结果进行评价。
8.根据权利要求7所述的个性化语音阅读方法,其特征在于,还包括
将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和所述用户期望的语音转换效果,判断向所述语音识别器中输入目标说话人的个性化语音的内容和时长。
9.根据权利要求1所述的个性化语音阅读方法,其特征在于,还包括:
将所述个性化目标语音信息上载、存储至终端设备或服务器上。
10.根据权利要求1所述的个性化语音阅读方法,其特征在于,所述个性化目标语音信息还用于对电影或电视剧进行角色的配音。
11.根据权利要求1所述的个性化语音阅读方法,其特征在于,所述个性化目标语音信息还用于对游戏角色进行角色扮演。
12.一种个性化语音阅读***,其特征在于,包括:
存储装置,所述存储装置用于获取目标说话人的个性化语音信息和源文件;
语音识别器,所述语音识别器用于提取所述个性化语音信息的语音特征信息,以根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息;以及
输出模块,所述输出模块用于根据所述个性化目标语音信息通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
13.根据权利要求12所述的个性化语音阅读***,其特征在于,所述存储装置用于录入、导入或下载所述目标说话人的个性化语音信息。
14.根据权利要求12所述的个性化语音阅读***,其特征在于,所述存储装置还用于通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
15.根据权利要求12所述的个性化语音阅读***,其特征在于,所述源文件为图片文件、文本文件或语音文件。
16.根据权利要求12所述的个性化语音阅读***,其特征在于,所述语音识别器包括:文本识别模块,用于对所述图片文件进行文本识别。
17.根据权利要求16所述的个性化语音阅读***,其特征在于,所述语音识别器还包括文语转换单元和语音转换单元,其中,
所述文语转换单元用于在所述源文件为图片文件或文本文件时对所述源文件进行文语转换,
所述语音转换单元用于在所述源文件为语音文件时对所述源文件进行语音转换。
18.根据权利要求12所述的个性化语音阅读***,其特征在于,还包括:
评价装置,所述评价装置用于对所述个性化目标语音信息的转换结果进行评价。
19.根据权利要求18所述的个性化语音阅读***,其特征在于,所述评价装置用于将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和用户期望的语音转换效果,判断向所述语音识别器中输入的目标说话人的个性化语音的内容和时长。
20.根据权利要求12所述的个性化语音阅读***,其特征在于,所述输出模块还用于将所述个性化目标语音信息上载或存储到终端设备或服务器上。
21.根据权利要求12所述的个性化语音阅读***,其特征在于,所述个性化目标语音信息用于对电影或电视剧进行角色的配音、或者对游戏角色进行角色扮演。
22.一种终端,其特征在于,包括:
如权利要求12-21任一项所述的个性化语音阅读***。
CN201210151405.6A 2012-05-15 2012-05-15 个性化语音阅读方法、***及具有该***的终端 Active CN102693729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210151405.6A CN102693729B (zh) 2012-05-15 2012-05-15 个性化语音阅读方法、***及具有该***的终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210151405.6A CN102693729B (zh) 2012-05-15 2012-05-15 个性化语音阅读方法、***及具有该***的终端

Publications (2)

Publication Number Publication Date
CN102693729A true CN102693729A (zh) 2012-09-26
CN102693729B CN102693729B (zh) 2014-09-03

Family

ID=46859113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210151405.6A Active CN102693729B (zh) 2012-05-15 2012-05-15 个性化语音阅读方法、***及具有该***的终端

Country Status (1)

Country Link
CN (1) CN102693729B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103108233A (zh) * 2013-01-22 2013-05-15 广东星海数字家庭产业技术研究院有限公司 一种高清互动电影播放***及实现方法
CN104809923A (zh) * 2015-05-13 2015-07-29 苏州清睿信息技术有限公司 可自编自导的智能语音对话生成方法和***
CN105763923A (zh) * 2014-12-15 2016-07-13 乐视致新电子科技(天津)有限公司 一种影音、影音模板编辑方法及其装置
CN106512401A (zh) * 2016-10-21 2017-03-22 苏州天平先进数字科技有限公司 一种用户互动***
CN106540450A (zh) * 2016-10-21 2017-03-29 苏州天平先进数字科技有限公司 一种基于虚拟人物的用户互动方法
WO2017059694A1 (zh) * 2015-10-08 2017-04-13 重庆邮电大学 一种语音模仿方法和装置
CN108174030A (zh) * 2017-12-26 2018-06-15 努比亚技术有限公司 定制化语音控制的实现方法、移动终端及可读存储介质
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108337357A (zh) * 2017-04-19 2018-07-27 腾讯科技(深圳)有限公司 音频播放方法及装置
CN108366302A (zh) * 2018-02-06 2018-08-03 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、***及存储装置
CN108668024A (zh) * 2018-05-07 2018-10-16 维沃移动通信有限公司 一种语音处理方法及终端
CN110856023A (zh) * 2019-11-15 2020-02-28 四川长虹电器股份有限公司 基于tts实现智能电视自定义播报音的***及方法
WO2020077868A1 (zh) * 2018-10-17 2020-04-23 深圳壹账通智能科技有限公司 同声传译方法、装置、计算机设备和存储介质
US11094311B2 (en) 2019-05-14 2021-08-17 Sony Corporation Speech synthesizing devices and methods for mimicking voices of public figures
CN113409805A (zh) * 2020-11-02 2021-09-17 腾讯科技(深圳)有限公司 人机交互方法、装置、存储介质及终端设备
US11141669B2 (en) 2019-06-05 2021-10-12 Sony Corporation Speech synthesizing dolls for mimicking voices of parents and guardians of children
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN118072712A (zh) * 2024-04-22 2024-05-24 深圳市海域达赫科技有限公司 基于人工智能的语音数据处理方法、***、设备及介质
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
US12026197B2 (en) 2017-05-16 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
CN101309314A (zh) * 2008-05-29 2008-11-19 飞图科技(北京)有限公司 一种基于手机的可以进行语音训练的自动朗读的方法
CN101593516A (zh) * 2008-05-28 2009-12-02 国际商业机器公司 语音合成的方法和***
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
CN1379391A (zh) * 2001-04-06 2002-11-13 国际商业机器公司 由文本生成个性化语音的方法
CN101593516A (zh) * 2008-05-28 2009-12-02 国际商业机器公司 语音合成的方法和***
CN101309314A (zh) * 2008-05-29 2008-11-19 飞图科技(北京)有限公司 一种基于手机的可以进行语音训练的自动朗读的方法
CN102117614A (zh) * 2010-01-05 2011-07-06 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
CN102324231A (zh) * 2011-08-29 2012-01-18 北京捷通华声语音技术有限公司 一种游戏对话声音合成方法和***

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN103108233A (zh) * 2013-01-22 2013-05-15 广东星海数字家庭产业技术研究院有限公司 一种高清互动电影播放***及实现方法
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
CN105763923A (zh) * 2014-12-15 2016-07-13 乐视致新电子科技(天津)有限公司 一种影音、影音模板编辑方法及其装置
CN104809923A (zh) * 2015-05-13 2015-07-29 苏州清睿信息技术有限公司 可自编自导的智能语音对话生成方法和***
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US10818307B2 (en) 2015-10-08 2020-10-27 Tencent Technology (Shenzhen) Company Limited Voice imitation method and apparatus, and storage medium utilizing cloud to store, use, discard, and send imitation voices
WO2017059694A1 (zh) * 2015-10-08 2017-04-13 重庆邮电大学 一种语音模仿方法和装置
CN106571145A (zh) * 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
CN106540450A (zh) * 2016-10-21 2017-03-29 苏州天平先进数字科技有限公司 一种基于虚拟人物的用户互动方法
CN106512401A (zh) * 2016-10-21 2017-03-22 苏州天平先进数字科技有限公司 一种用户互动***
CN108337357A (zh) * 2017-04-19 2018-07-27 腾讯科技(深圳)有限公司 音频播放方法及装置
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US12026197B2 (en) 2017-05-16 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration
CN108231059A (zh) * 2017-11-27 2018-06-29 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108174030B (zh) * 2017-12-26 2020-11-17 努比亚技术有限公司 定制化语音控制的实现方法、移动终端及可读存储介质
CN108174030A (zh) * 2017-12-26 2018-06-15 努比亚技术有限公司 定制化语音控制的实现方法、移动终端及可读存储介质
CN108366302A (zh) * 2018-02-06 2018-08-03 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、***及存储装置
CN108366302B (zh) * 2018-02-06 2020-06-30 南京创维信息技术研究院有限公司 Tts播报指令优化方法、智能电视、***及存储装置
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
CN108668024A (zh) * 2018-05-07 2018-10-16 维沃移动通信有限公司 一种语音处理方法及终端
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
WO2020077868A1 (zh) * 2018-10-17 2020-04-23 深圳壹账通智能科技有限公司 同声传译方法、装置、计算机设备和存储介质
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11094311B2 (en) 2019-05-14 2021-08-17 Sony Corporation Speech synthesizing devices and methods for mimicking voices of public figures
US11141669B2 (en) 2019-06-05 2021-10-12 Sony Corporation Speech synthesizing dolls for mimicking voices of parents and guardians of children
CN110856023A (zh) * 2019-11-15 2020-02-28 四川长虹电器股份有限公司 基于tts实现智能电视自定义播报音的***及方法
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
CN113409805B (zh) * 2020-11-02 2024-06-07 腾讯科技(深圳)有限公司 人机交互方法、装置、存储介质及终端设备
CN113409805A (zh) * 2020-11-02 2021-09-17 腾讯科技(深圳)有限公司 人机交互方法、装置、存储介质及终端设备
CN118072712A (zh) * 2024-04-22 2024-05-24 深圳市海域达赫科技有限公司 基于人工智能的语音数据处理方法、***、设备及介质
CN118072712B (zh) * 2024-04-22 2024-06-25 深圳市海域达赫科技有限公司 基于人工智能的语音数据处理方法、***、设备及介质

Also Published As

Publication number Publication date
CN102693729B (zh) 2014-09-03

Similar Documents

Publication Publication Date Title
CN102693729B (zh) 个性化语音阅读方法、***及具有该***的终端
US9547642B2 (en) Voice to text to voice processing
CN109951743A (zh) 弹幕信息处理方法、***及计算机设备
CN102117614B (zh) 个性化文本语音合成和个性化语音特征提取
EP3611724A1 (en) Voice response method and device, and smart device
CN105335455A (zh) 一种阅读文字的方法及装置
CN101187855A (zh) 进行语音阅读的手机
CN106796496A (zh) 显示设备及其操作方法
US20050261890A1 (en) Method and apparatus for providing language translation
US20150332166A1 (en) Machine learning-based user behavior characterization
JP2015518171A (ja) 再生制御装置、再生制御方法、およびプログラム
CN109147800A (zh) 应答方法和装置
CN108536655A (zh) 一种基于手持智能终端的场景化朗读音频制作方法及***
CN103546503A (zh) 基于语音的云社交***、方法及云分析服务器
CN105045794A (zh) 一种二维码视频***及其使用方法
CN106792013A (zh) 一种用于电视节目声音互动的方法、电视
CN109346057A (zh) 一种智能儿童玩具的语音处理***
CN106886606A (zh) 用于根据用户语音推荐表情的方法和***
CN101695123A (zh) 可对媒体片段分别定制播放策略的媒体播放***和方法
CN112581965A (zh) 转写方法、装置、录音笔和存储介质
US20230185518A1 (en) Video playing method and device
CN1960532A (zh) 带朗读功能的手机及其实现方法
CN107205095A (zh) 语音信息的播放方法、装置及终端
KR20170093703A (ko) 메시지 증강 시스템 및 방법
CN109215688A (zh) 同场景音频处理方法、装置、计算机可读存储介质及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240711

Address after: Room 506-B30, 5th Floor, Datong Innovation and Entrepreneurship Co Creation Space, No.1 Datong Yiheng Road, Longhua District, Haikou City, Hainan Province, China 570100

Patentee after: Hainan Zhongde Health Management Co.,Ltd.

Country or region after: China

Address before: Room 1210, Cuigong Hotel Office Building, No. 76 Zhichun Road, Haidian District, Beijing 100086

Patentee before: Beijing Aoxintong Science and Technology Development Co.,Ltd.

Country or region before: China