CN110767233A

CN110767233A - 一种语音转换***及方法

Info

Publication number: CN110767233A
Application number: CN201911042474.1A
Authority: CN
Inventors: 陈阳; 鲁永春; 王周
Original assignee: Hefei Mingyang Information Technology Co Ltd
Current assignee: Hefei Mingyang Information Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-07

Abstract

本发明公开了一种语音转换***及方法，属于语音转换技术领域，包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块；所述语音转文字模块用于将语音信息转换成文字信息；所述文字转语音模块用于将文字信息转换成语音信息；所述配音模块用于将语音信息处理为语音文件；其方法如下：S1：录制声音并存储为录音音频文件；S2：将步骤S1中录音音频文件转换成文字信息；S3：将步骤S2中文字信息转换成语音信息；S4：将步骤S3中语音信息进行处理并转化成音频文件；S5：将步骤S1中文字信息转换成字幕文件；S6：存储并播放步骤S3中的音频文件和字幕文件。本方案实现普通话与方言转换、停顿控制和同步字幕显示。

Description

一种语音转换***及方法

技术领域

本发明涉及语音转换技术领域，更具体地说，涉及一种语音转换***及方法。

背景技术

语言是人类最重要的交际工具，是人们进行沟通的主要表达方式，人们借助语言保存和传递人类文明的成果，语言是民族的重要特征之一，一般来说，各个民族都有自己的语言，语言是人们交流思想的媒介，它必然会对政治、经济和社会、科技乃至文化本身产生影响。语言这种文化现象是不断发展的，其现今的空间分布也是过去发展的结果。根据其语音、语法和词汇等方面特征的共同之处与起源关系，把世界上的语言分成语系。每个语系包括有数量不等的语种，这些语系与语种在地域上都有一定的分布区，很多文化特征都与此有密切的关系。

现有技术的语音转换***主要针对普通话与外国语的转换，但是在中国地区方言更为普及，在每一个地方都有一个地方的方言，人们进行交际的时候大多采用普通话进行交流，对那些普通话并不流畅的人来说，交流成为了一大难题。或者在一些情况下，需要用方言进行交流更加方便更加合适，但又说不好当地的方言。

发明内容

针对现有技术的不足，本发明的目的在于提供一种语音转换***及方法，实现普通话与方言转换、停顿控制和同步字幕显示。

本发明的目的可以通过以下技术方案实现：

一种语音转换***，包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块；所述录音模块用于录制声音并形成音频信息；所述语音转文字模块用于将语音信息转换成文字信息；所述文字转语音模块用于将文字信息转换成语音信息；所述配音模块用于将语音信息处理为语音文件；所述字幕模块用于将文字信息转化字幕文件；所述存储模块存储音频文件和字幕文件，所述存储模块通过互联网连接有服务器，服务器上存储有音频文件，所述存储模块包括上传和下载功能，上传功能是将存储模块中的音频文件上传至服务器，下载功能是将服务器中的音频文件下载至存储模块。

作为本发明的一种优选方案，所述录音模块还包括录音设备。

作为本发明的一种优选方案，所述语音转文字模块还包括语音识别，识别普通话和方言。

作为本发明的一种优选方案，所述文字转语音模块还包括语音设置，语音设置将文字转换成普通话或方言的语音信息。

作为本发明的一种优选方案，所述配音模块将语音信息处理成语音文件，处理包括设置语音信息的停顿，停顿包括停顿的位置和停顿的时间。

作为本发明的一种优选方案，所述字幕模块包括字幕文件字体的设置，设置字体大小、字体颜色和字体背景颜色。

作为本发明的一种优选方案，存储模块连接服务器的方式为无线通讯连接。

一种语音转换方法，包括步骤如下：

S1：录制声音并存储为录音音频文件；

S2：将步骤S1中录音音频文件转换成文字信息；

S3：将步骤S2中文字信息转换成语音信息；

S4：将步骤S3中语音信息进行处理并转化成音频文件；

S5：将步骤S1中文字信息转换成字幕文件；

S6：存储并播放步骤S3中的音频文件和字幕文件。

作为本发明的一种优选方案，字幕文件与播放的音频文件同步同步播放。

本发明的有益效果：

本技术方案提供的语音转换***，包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块，利用语音转文字模块和文字转语音模块实现普通话与方言的转换，配音模块实现停顿功能，便于听者理解和学习，存储模块用于存储音频文件和字幕文件实现数据在服务器上保存。字幕模块实现在语音转换完成后播放语音文件时，形成与语音同步的字幕，便于听者理解和学习，字幕还可以设置字体大小、字体颜色和字体背景颜色，有利于强调不同内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音转换***模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种语音转换***，包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块；录音模块用于录制声音并形成音频信息；语音转文字模块用于将语音信息转换成文字信息；文字转语音模块用于将文字信息转换成语音信息；配音模块用于将语音信息处理为语音文件；字幕模块用于将文字信息转化字幕文件；存储模块存储音频文件和字幕文件，存储模块通过互联网连接有服务器，服务器上存储有音频文件，存储模块包括上传和下载功能，上传功能是将存储模块中的音频文件上传至服务器，下载功能是将服务器中的音频文件下载至存储模块。录音模块还包括录音设备。语音转文字模块还包括语音识别，识别普通话和方言。文字转语音模块还包括语音设置，语音设置将文字转换成普通话或方言的语音信息。配音模块将语音信息处理成语音文件，处理包括设置语音信息的停顿，停顿包括停顿的位置和停顿的时间。字幕模块包括字幕文件字体的设置，设置字体大小、字体颜色和字体背景颜色。存储模块连接服务器的方式为无线通讯连接。利用语音转文字模块和文字转语音模块实现普通话与方言的转换，配音模块实现停顿功能，便于听者理解和学习，存储模块用于存储音频文件和字幕文件实现数据在服务器上保存。字幕模块实现在语音转换完成后播放语音文件时，形成与语音同步的字幕，便于听者理解和学习，字幕还可以设置字体大小、字体颜色和字体背景颜色，有利于强调不同内容。

一种语音转换方法，包括步骤如下：

S1：录制声音并存储为录音音频文件；

S2：将步骤S1中录音音频文件转换成文字信息；

S3：将步骤S2中文字信息转换成语音信息；

S4：将步骤S3中语音信息进行处理并转化成音频文件；

S5：将步骤S1中文字信息转换成字幕文件；

S6：存储并播放步骤S3中的音频文件和字幕文件。

其中，字幕文件与播放的音频文件同步同步播放。

普通话转方言，录音模块利用录音设备录制方言并形成方言音频信息，语音转文字模块将方言语音信息转换成文字信息，文字转语音模块将文字信息转换成普通话语音信息，配音模块用于将普通话语音信息处理为普通话语音文件，加入适当的停顿，便于听则理解，字幕模块将文字信息转化字幕文件，设置字体大小、字体颜色和字体背景颜色，存储模块将上述普通话语音文件和匹配的字幕文件存储在***内或互联网上的服务器，播放上述普通话语音文件和匹配的字幕文件，声音与字幕同步显示，易于听者理解。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种语音转换***，其特征在于：包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块；所述录音模块用于录制声音并形成音频信息；所述语音转文字模块用于将语音信息转换成文字信息；所述文字转语音模块用于将文字信息转换成语音信息；所述配音模块用于将语音信息处理为语音文件；所述字幕模块用于将文字信息转化字幕文件；所述存储模块存储音频文件和字幕文件，所述存储模块通过互联网连接有服务器，服务器上存储有音频文件，所述存储模块包括上传和下载功能，上传功能是将存储模块中的音频文件上传至服务器，下载功能是将服务器中的音频文件下载至存储模块。

2.根据权利要求1所述的一种语音转换***，其特征在于：所述录音模块还包括录音设备。

3.根据权利要求1所述的一种语音转换***，其特征在于：所述语音转文字模块还包括语音识别，识别普通话和方言。

4.根据权利要求1所述的一种语音转换***，其特征在于：所述文字转语音模块还包括语音设置，语音设置将文字转换成普通话或方言的语音信息。

5.根据权利要求1所述的一种语音转换***，其特征在于：所述配音模块将语音信息处理成语音文件，处理包括设置语音信息的停顿，停顿包括停顿的位置和停顿的时间。

6.根据权利要求1所述的一种语音转换***，其特征在于：所述字幕模块包括字幕文件字体的设置，设置字体大小、字体颜色和字体背景颜色。

7.根据权利要求1所述的一种语音转换***，其特征在于：存储模块连接服务器的方式为无线通讯连接。

8.一种如权利要求1所述的语音转换***的语音转换方法，其特征在于：包括步骤如下：

S1：录制声音并存储为录音音频文件；

S2：将步骤S1中录音音频文件转换成文字信息；

S3：将步骤S2中文字信息转换成语音信息；

S4：将步骤S3中语音信息进行处理并转化成音频文件；

S5：将步骤S1中文字信息转换成字幕文件；

S6：存储并播放步骤S3中的音频文件和字幕文件。

9.根据权利要求8所述的语音转换方法，其特征在于：字幕文件与播放的音频文件同步同步播放。