个性化语音阅读方法、***及具有该***的终端
技术领域
本发明涉及语音识别技术领域,特别涉及一种个性化语音阅读方法、***及具有该***的终端。
背景技术
语音转换(VT,voice transform或VC,voice conversion)技术是指改变一个说话人(即源说话人source speaker)语音中的个性特征,使之具有另外一个人(目标说话人targetspeaker)的个性信息,也就是转换后的语音听起来就像目标说话人的声音一样,与此同时,保持语音中的语义信息不变。语音转换***在日常生活中有着广泛的应用价值,能够极大的方便人们的生活,具有重要的实际意义。
语音阅读(英文为TTS,Text to Speech),已经越来越被用户接纳并且成为了一个必不可少的功能。目前的语音阅读,已经实现了既可以用眼睛来阅读又可以用耳朵去听,不管是在等车、坐车、走路,还是在做饭、开车,使用者可随心所欲的听自己喜欢的书籍、杂志、报纸,收听E-mail、短信和有声贺卡等。
但目前已有的阅读方式都只能实现用***中已有语音库中的语音来进行阅读,只实现文字识别和播放功能,相对单调,不具娱乐性。例如,在电影配音中,尤其是用另外一种语言进行配音时,往往配音演员不是演员本人,这样常常使配音与原演员的个性特征相差很大,使配音效果不好。再如:电脑游戏已经越来越深入到日常生活,特别是网络游戏出现后,然而现在的游戏都是有声游戏,玩家在游戏中扮演某个角色,但是该角色的声音都是游戏中预先设置好的,不具有个性化或者特点,不易吸引游戏玩家。
发明内容
本发明旨在至少解决上述技术问题之一。
为此,本发明的一个目的在于提出一种应用范围广、娱乐性强、个性化突出且能够极大提升用户体验的个性化语音阅读方法。
本发明的另一目的在于提出一种个性化语音阅读***。
本发明的再一目的在于提出一种终端。
为了实现上述目的,本发明第一方面的实施例提出了一种个性化语音阅读方法,包括以下步骤:获取目标说话人的个性化语音信息;提取所述个性化语音信息的语音特征信息;根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库;以及向所述语音识别器中输入源文件,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息以便通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
根据本发明实施例的个性化语音阅读方法,利用语音转换技术,达到娱乐目的,更具个性化。实现个性化的明星语音或其他指定目标语音朗读电子报纸、E-mail、短信、电子贺卡等,还可应用于配音、角色扮演、翻译等多个领域,并可进行自动评分。本发明的技术方案实现简单,现有的终端和服务器硬件不需要做变化。
另外,根据本发明上述实施例的个性化语音阅读方法还可以具有如下附加的技术特征:
在一些示例中,获取所述目标说话人的个性化语音信息的方式包括:录入、导入或下载所述目标说话人的个性化语音信息。
在一些示例中,获取所述目标说话人的个性化语音信息,还包括:通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
在一些示例中,所述源文件为图片文件、文本文件或语音文件。
进一步地,所述的个性化语音阅读方法还包括:对所述图片文件进行文本识别。
进一步地,所述源文件为图片文件或文本文件,则对所述源文件进行文语转换,或者所述源文件为语音文件,则对所述源文件进行语音转换。
在一些示例中,所述个性化语音阅读方法,还包括:对所述个性化目标语音信息的转换结果进行评价。
在一些示例中,所述个性化语音阅读方法,还包括:将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和所述用户期望的语音转换效果,判断向所述语音识别器中输入目标说话人的个性化语音的内容和时长。
在一些示例中,所述个性化语音阅读方法还包括:将所述个性化目标语音信息上载、存储至终端设备或服务器上。
在一些示例中,所述个性化目标语音信息还用于对电影或电视剧进行角色的配音,或者,用于对游戏角色进行角色扮演。
本发明第二方面的实施例提出了一种个性化语音阅读***,包括:存储装置,所述存储装置用于获取目标说话人的个性化语音信息和源文件;语音识别器,所述语音识别器用于提取所述个性化语音信息的语音特征信息,以根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息;以及输出模块,所述输出模块用于根据所述个性化目标语音信息通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。
另外,根据本发明上述实施例的个性化语音阅读***还可以具有如下附加的技术特征:
在一些示例中,所述存储装置用于录入、导入或下载所述目标说话人的个性化语音信息。
在一些示例中,所述存储装置还用于通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。
在一些示例中,所述源文件为图片文件、文本文件或语音文件。
进一步地,所述语音识别器包括:文本识别模块,用于对所述图片文件进行文本识别。
进一步地,所述语音识别器还包括文语转换单元和语音转换单元,其中,所述文语转换单元用于在所述源文件为图片文件或文本文件时对所述源文件进行文语转换,所述语音转换单元用于在所述源文件为语音文件时对所述源文件进行语音转换。
在一些示例中,所述个性化语音阅读***,还包括:评价装置,所述评价装置用于对所述个性化目标语音信息的转换结果进行评价。
在一些示例中,所述评价装置用于将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和用户期望的语音转换效果,判断向所述语音识别器中输入的目标说话人的个性化语音的内容和时长。
在一些示例中,所述输出模块还用于将所述个性化目标语音信息上载或存储到终端设备或服务器上。
在一些示例中,所述个性化目标语音信息用于对电影或电视剧进行角色的配音、或者对游戏角色进行角色扮演。
根据本发明实施例的个性化语音阅读***,能够提升娱乐性,更具个性化,且提升用户体验。且该***结构简单,易于实现。
本发明第三方面实施例提出了一种终端,包括:上述第二方面实施例所述的个性化语音阅读***。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的个性化语音阅读方法的流程图;
图2为本发明另一个实施例的个性化语音阅读方法的流程图;以及
图3为本发明实施例的个性化语音阅读***的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合附图1和2首先描述根据本发明实施例的个性化语音阅读方法。
参见图1,根据本发明实施例的个性化语音阅读方法,包括如下步骤:
步骤S101,获取目标说话人的个性化语音信息。在一些示例中,获取目标说话人的个性化语音信息的方式包括录入、导入或下载目标说话人的个性化语音信息。例如,通过音频设备录入目标说话人的个性化语音信息,音频设备如麦克风等;或通过导入接口导入目标说话人的个性化语音信息,导入接口如网络接口、USB接口、存储卡接口等;或者在互联网上下载目标说话人的个性化语音信息。
在另一些示例中,还可通过目标说话人读取预设的文本内容并将读取结果作为目标说话人的个性化语音信息。具体地,由于从目标说话人的个性化语音信息提取的语音特征信息对最终生成的目标语音信息的语音效果好坏的关键,因此,目标说话人的个性化语音信息的内容是语音库生成的基础,是源文本转换成特定的目标说话人的语音的效果好坏的关键,对于不同的语音转换算法的语音库提取的语音元素,即语音特征信息也存在较大差异,因此根据语音转换算法提供预设的文本内容,由目标说话人按照范本,即预设的文本内容进行朗读,再进行语音特征信息的提取,由此在后续的处理中,得到相对较好的转换效果,提升向目标语音信息的转换效果。
步骤S102,提取个性化语音信息的语音特征信息。
步骤S103,根据语音特征信息将个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库。
步骤S104,向语音识别器中输入源文件,并根据语音库将源文件转换为具有目标说话人的声音的个性化目标语音信息以便通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。在一些示例中,源文件可以为图片文件、文本文件或语音文件。进一步地,如果源文件为图片文件,则在进行源文件转换为具有目标说话人的声音的目标语音信息之前,对图片文件进行文本识别,以便将图片文件转换为文本文件。进一步地,源文件为图片文件或文本文件,则对源文件进行文语转换,即文字至语音的转换;源文件为语音文件,则对源文件进行语音转换,即源语音文件至具有目标说话人的声音的目标语音信息的转换。换言之,语音转换器根据语音库将源文本,例如图片文件、文本文件或语音文件转换成的具有目标说话人的声音的目标语音信息时可根据源文件是文本文件、图片文件还是语音文件选择文语转换还是语音转换。
在一些示例中,源文本的可以通过音频设备录入,如麦克风等;或通过导入接口导入,如通过网络接口下载,或通过USB接口或存储卡接口等传输;或通过摄像头的拍照功能或者摄影功能拍摄图片文件;或通过网络将源文本,如语音下载;或语音识别器中预先存入的源文本等。
在本发明的一些实施例中,将个性化目标语音信息上载、存储至终端设备或服务器上,终端设备包括但不限于手机、电脑等。例如上载、存储或播放目标语音信息。作为一个具体的例子,如通过扬声器输出目标语音信息,或以文件形式进行存储以供应用程序调用,或通过导出接口或网络上载到服务器中,以供用户下载。由此,既可以实现个性化语音或明星语音,即以目标语音信息朗读电子报纸、E-mail、短消息、电子贺卡等。在另一些示例中,个性化目标语音信息还用于对电影或电视剧进行角色的配音,或者个性化目标语音信息还用于对游戏角色进行角色扮演。即个性化目标语音信息可以实现个性化翻译功能、个性化配音、个性化角色扮演等功能。从而,改变已有阅读方式只能实现利用现有的语音库中的语音来进行阅读,且只实现文字识别和播放功能,带来的相对单调,不具娱乐性的缺点,通过文本文件、图片文件或语音文件到个性化的语音转换,即转换为任意目标说话人的声音的目标语音信息,不仅提升了娱乐性和用户体验效果,且可对多种形式的源文件进行转换,应用范围广、方便。
在本发明的一些示例中,个性化语音阅读方法还包括对所述目标语音信息的转换结果进行评价。具体而言,将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和所述用户期望的语音转换效果,判断向所述语音识别器中输入目标说话人的个性化语音的内容和时长。参见图2,包括如下步骤:
步骤S105,判断是否对语音转换效果进行评价。
步骤S106,如果用户选择评价,则可对个性化语音转换效果进行评价,即根据目标语音信息的语音效果对个性化语音阅读方法的转换质量进行评价。在该示例中,语音转换质量的评价方法可采用主观评价方法,即根据播放的目标语音信息的效果、客观评价方法,即根据语音转换方法的好坏进行评价,或主客观评价方法的结合。从而使用户得以直观的得知该语音识别器的转换效果的好坏。例如评价结果以10分为最高分,则该评价结果例如包括如输入目标说话人个性化语音朗读预设文本内容的时长为10分钟,其评价结果为9分,如输入目标说话人个性化语音朗读预设文本内容的时长为5分钟,其评价结果为5分,而在输入目标说话人个性化语音朗读预设文本内容的时长为7分钟时,其评价结果为7分。则用户可以根据期待的语音转换效果范围决定输入目标说话人个性化语音的时长。再例如,评价结果以10分为最高分,则该评价结果例如包括如输入目标说话人个性化语音朗读预设文本内容1,其评价结果为9分,如输入目标说话人个性化语音朗读预设文本内容2,其评价结果为5分,而在输入目标说话人个性化语音朗读预设文本内容3,其评价结果为7分。则用户可以根据期待的语音转换效果范围决定输入目标说话人个性化语音的内容。由此,提升个本发明实施例的个性化语音阅读方法在实际应用中的竞争力。
参考图3,本发明的进一步实施例提出了一种个性化语音阅读***300,包括存储装置310、语音识别器320和输出模块330。其中:
存储装置310用于获取目标说话人的个性化语音信息和源文件。语音识别器320用于提取所述个性化语音信息的语音特征信息,以根据所述语音特征信息将所述个性化语音信息转换为语音识别器中的具有目标说话人的语音特征的语音库,并根据所述语音库将所述源文件转换为具有所述目标说话人的声音的个性化目标语音信息。输出模块330用于用于根据所述个性化目标语音信息通过所述目标说话人的声音读报、读E-mail、读短消息或读电子贺卡。在一些示例中,输出模块330用于将个性化目标语音信息上载或存储到终端设备(图中未示出)或服务器(图中未示出)上。作为一个具体的例子,如通过扬声器输出目标语音信息,或以文件形式进行存储以供应用程序调用,或通过导出接口或网络上载到服务器中,以供用户下载。由此,既可以实现个性化语音或明星语音,即以目标语音信息朗读电子报纸、E-mail、短消息、电子贺卡等。在本发明的另一些示例中,个性化目标语音信息用于对电影或电视剧进行角色的配音、或者对游戏角色进行角色扮演即可以实现个性化翻译功能、个性化配音、个性化角色扮演等功能。从而,改变已有阅读方式只能实现利用现有的语音库中的语音来进行阅读,且只实现文字识别和播放功能,带来的相对单调,不具娱乐性的缺点,通过文本文件、图片文件或语音文件到个性化的语音转换,即转换为任意目标说话人的声音的目标语音信息,不仅提升了娱乐性和用户体验效果,且可对多种形式的源文件进行转换,应用范围广、方便。
在一些示例中,存储装置310用于录入、导入或下载目标说话人的个性化语音信息。或者,通过目标说话人读取预设的文本内容并将读取结果作为所述目标说话人的个性化语音信息。例如,通过音频设备录入目标说话人的个性化语音信息到存储设备310;或通过接口导入存储设备310,接口如网络接口、USB接口、存储卡接口等;或通过网络上传到存储设备310;或利用存储设备310上已录制好的个性化语音信息,如明星的语音文件。上述存储设备310例如为内存、硬盘、存储卡等,存储卡包括但不限于:Mini-SD、SD、TF卡等。
在其它示例中,存储装置310还可以存储通过目标说话人读取预设的文本内容并将读取结果作为目标说话人的个性化语音信息。具体地,由于从目标说话人的个性化语音信息提取的语音特征信息对最终生成的目标语音信息的语音效果好坏的关键,因此,目标说话人的个性化语音信息的内容是语音库生成的基础,是源文本转换成特定的目标说话人的语音的效果好坏的关键,对于不同的语音转换算法的语音库提取的语音元素,即语音特征信息也存在较大差异,因此根据语音转换算法提供预设的文本内容,由目标说话人按照范本,即预设的文本内容进行朗读,再进行语音特征信息的提取,由此在后续的处理中,得到相对较好的转换效果,提升向目标语音信息的转换效果。
同样地,对于源文件而言,也可通过上述方式进行存储,例如录入、导入或上载等方式。源文件为图片文件、文本文件或语音文件。进一步地,结合图3,语音识别器320包括文本识别模块321,用于对图片文件进行文本识别。进一步地,语音识别器320还包括文语转换单元322和语音转换单元323,其中,文语转换单元322用于在源文件为图片文件或文本文件时对源文件进行文语转换,语音转换单元323用于在源文件为语音文件时对源文件进行语音转换。具体地说,如果源文件为图片文件,则在进行源文件转换为具有目标说话人的声音的目标语音信息之前,对图片文件进行文本识别,以便将图片文件转换为文本文件。进一步地,源文件为图片文件或文本文件,则对源文件进行文语转换,即文字至语音的转换;源文件为语音文件,则对源文件进行语音转换,即源语音文件至具有目标说话人的声音的目标语音信息的转换。换言之,语音转换器根据语音库将源文本,例如图片文件、文本文件或语音文件转换成的具有目标说话人的声音的目标语音信息时可根据源文件是文本文件、图片文件还是语音文件选择文语转换还是语音转换。
再次结合图3,在本发明的进一步示例中,个性化语音阅读***300还包括评价装置340,用于对目标语音信息的转换结果进行评价。具体而言,评价装置340用于将目标说话人用个性化语音朗读不同内容的范本和对应的朗读时长得到的评价结果反馈给用户,以便所述用户根据所述评价结果和用户期望的语音转换效果,判断向所述语音识别器中输入的目标说话人的个性化语音的内容和时长。其评价方式与上述一个实施例的评价方式相同,为了减少冗余,不做赘述。
根据本发明实施例的个性化语音阅读方法和***,提升娱乐性,个性化、和用户体验。且应用领域广。具体而言,例如可将源文件转换为具有指定的个性特征,如明星的个性特征,或熟悉的家人、朋友或本人的个性特征等,由此增加娱乐范围。也可在电影配音中,尤其是用另外一种语言进行配音时,解决了传统的配音与原演员的个性特征相差很大,配音效果不好的缺点。本发明的实施例将配音再进行语音转换,使之重新具有演员本人的个性特征,由此,使配音效果相对更加理想。载入,在电脑游戏领域,特别是网络游戏,可是玩家在现有游戏中扮演某个角色时,通过玩家喜欢的人或声音或对角色进行角色扮演或者配音,由此提升游戏的娱乐性,提升游戏的市场竞争力。
在本发明的进一步实施例中,提出了一种终端,包括上述实施例所述的个性化语音阅读***300。在一些示例中,终端既可以为客户端也可以为服务器。而客户端包括但不限于PC机或手机等。
【实施例】
以下结合具体的例子,通过电子报纸进行个性化语音阅读来具体说明如何通过本发明所述的个性化语音阅读方法、***进行个性化读报。
首先按照个性化语音阅读***中提供的范本文件,即预设的文本内容,通过手机的麦克风进行朗读,录入希望转换成的目标说话者的语音,即目标说话人的个性化语音信息。从存储设备的个性化语音信息中进行语音特征提取,生成语音转换器中的语音库。将手机中已从网络下载的希望进行朗读的电子报纸通过个性化语音阅读***进行语音转换。将转换后的目标语音,即目标语音信息通过手机的扬声器输出,实现个性化语音朗读电子报纸。采用目标语音朗读电子报纸结束后,在个性化阅读***中选择是否对语音转换效果进行评价,评价装置340根据评判标准给出语音转换效果的分数,显示在手机屏幕上,评判标准的方式包括但不限于:根据语音转换方法的好坏进行评价或者根据播放的目标语音信息的效果,或者两者结合的方式进行评价。由此,提升个本发明实施例的个性化语音阅读方法在实际应用中的竞争力。
根据本发明的实施例的个性化语音阅读方法、***和终端,提升阅读的效果,提升娱乐性,且更具个性化、提升用户体验。具体地,可实现个性化的明星语音或其他指定目标语音朗读电子报纸、E-mail、短信、电子贺卡等,还可应用于配音、角色扮演、翻译等多个领域,并可进行自动评价以提升个本发明实施例的个性化语音阅读方法、***和终端在实际应用中的竞争力。另外,该***结构简单、易于实现。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。