CN110767233A - 一种语音转换***及方法 - Google Patents

一种语音转换***及方法 Download PDF

Info

Publication number
CN110767233A
CN110767233A CN201911042474.1A CN201911042474A CN110767233A CN 110767233 A CN110767233 A CN 110767233A CN 201911042474 A CN201911042474 A CN 201911042474A CN 110767233 A CN110767233 A CN 110767233A
Authority
CN
China
Prior art keywords
module
voice
information
file
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911042474.1A
Other languages
English (en)
Inventor
陈阳
鲁永春
王周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Mingyang Information Technology Co Ltd
Original Assignee
Hefei Mingyang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Mingyang Information Technology Co Ltd filed Critical Hefei Mingyang Information Technology Co Ltd
Priority to CN201911042474.1A priority Critical patent/CN110767233A/zh
Publication of CN110767233A publication Critical patent/CN110767233A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种语音转换***及方法,属于语音转换技术领域,包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块;所述语音转文字模块用于将语音信息转换成文字信息;所述文字转语音模块用于将文字信息转换成语音信息;所述配音模块用于将语音信息处理为语音文件;其方法如下:S1:录制声音并存储为录音音频文件;S2:将步骤S1中录音音频文件转换成文字信息;S3:将步骤S2中文字信息转换成语音信息;S4:将步骤S3中语音信息进行处理并转化成音频文件;S5:将步骤S1中文字信息转换成字幕文件;S6:存储并播放步骤S3中的音频文件和字幕文件。本方案实现普通话与方言转换、停顿控制和同步字幕显示。

Description

一种语音转换***及方法
技术领域
本发明涉及语音转换技术领域,更具体地说,涉及一种语音转换***及方法。
背景技术
语言是人类最重要的交际工具,是人们进行沟通的主要表达方式,人们借助语言保存和传递人类文明的成果,语言是民族的重要特征之一,一般来说,各个民族都有自己的语言,语言是人们交流思想的媒介,它必然会对政治、经济和社会、科技乃至文化本身产生影响。语言这种文化现象是不断发展的,其现今的空间分布也是过去发展的结果。根据其语音、语法和词汇等方面特征的共同之处与起源关系,把世界上的语言分成语系。每个语系包括有数量不等的语种,这些语系与语种在地域上都有一定的分布区,很多文化特征都与此有密切的关系。
现有技术的语音转换***主要针对普通话与外国语的转换,但是在中国地区方言更为普及,在每一个地方都有一个地方的方言,人们进行交际的时候大多采用普通话进行交流,对那些普通话并不流畅的人来说,交流成为了一大难题。或者在一些情况下,需要用方言进行交流更加方便更加合适,但又说不好当地的方言。
发明内容
针对现有技术的不足,本发明的目的在于提供一种语音转换***及方法,实现普通话与方言转换、停顿控制和同步字幕显示。
本发明的目的可以通过以下技术方案实现:
一种语音转换***,包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块;所述录音模块用于录制声音并形成音频信息;所述语音转文字模块用于将语音信息转换成文字信息;所述文字转语音模块用于将文字信息转换成语音信息;所述配音模块用于将语音信息处理为语音文件;所述字幕模块用于将文字信息转化字幕文件;所述存储模块存储音频文件和字幕文件,所述存储模块通过互联网连接有服务器,服务器上存储有音频文件,所述存储模块包括上传和下载功能,上传功能是将存储模块中的音频文件上传至服务器,下载功能是将服务器中的音频文件下载至存储模块。
作为本发明的一种优选方案,所述录音模块还包括录音设备。
作为本发明的一种优选方案,所述语音转文字模块还包括语音识别,识别普通话和方言。
作为本发明的一种优选方案,所述文字转语音模块还包括语音设置,语音设置将文字转换成普通话或方言的语音信息。
作为本发明的一种优选方案,所述配音模块将语音信息处理成语音文件,处理包括设置语音信息的停顿,停顿包括停顿的位置和停顿的时间。
作为本发明的一种优选方案,所述字幕模块包括字幕文件字体的设置,设置字体大小、字体颜色和字体背景颜色。
作为本发明的一种优选方案,存储模块连接服务器的方式为无线通讯连接。
一种语音转换方法,包括步骤如下:
S1:录制声音并存储为录音音频文件;
S2:将步骤S1中录音音频文件转换成文字信息;
S3:将步骤S2中文字信息转换成语音信息;
S4:将步骤S3中语音信息进行处理并转化成音频文件;
S5:将步骤S1中文字信息转换成字幕文件;
S6:存储并播放步骤S3中的音频文件和字幕文件。
作为本发明的一种优选方案,字幕文件与播放的音频文件同步同步播放。
本发明的有益效果:
本技术方案提供的语音转换***,包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块,利用语音转文字模块和文字转语音模块实现普通话与方言的转换,配音模块实现停顿功能,便于听者理解和学习,存储模块用于存储音频文件和字幕文件实现数据在服务器上保存。字幕模块实现在语音转换完成后播放语音文件时,形成与语音同步的字幕,便于听者理解和学习,字幕还可以设置字体大小、字体颜色和字体背景颜色,有利于强调不同内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语音转换***模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种语音转换***,包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块;录音模块用于录制声音并形成音频信息;语音转文字模块用于将语音信息转换成文字信息;文字转语音模块用于将文字信息转换成语音信息;配音模块用于将语音信息处理为语音文件;字幕模块用于将文字信息转化字幕文件;存储模块存储音频文件和字幕文件,存储模块通过互联网连接有服务器,服务器上存储有音频文件,存储模块包括上传和下载功能,上传功能是将存储模块中的音频文件上传至服务器,下载功能是将服务器中的音频文件下载至存储模块。录音模块还包括录音设备。语音转文字模块还包括语音识别,识别普通话和方言。文字转语音模块还包括语音设置,语音设置将文字转换成普通话或方言的语音信息。配音模块将语音信息处理成语音文件,处理包括设置语音信息的停顿,停顿包括停顿的位置和停顿的时间。字幕模块包括字幕文件字体的设置,设置字体大小、字体颜色和字体背景颜色。存储模块连接服务器的方式为无线通讯连接。利用语音转文字模块和文字转语音模块实现普通话与方言的转换,配音模块实现停顿功能,便于听者理解和学习,存储模块用于存储音频文件和字幕文件实现数据在服务器上保存。字幕模块实现在语音转换完成后播放语音文件时,形成与语音同步的字幕,便于听者理解和学习,字幕还可以设置字体大小、字体颜色和字体背景颜色,有利于强调不同内容。
一种语音转换方法,包括步骤如下:
S1:录制声音并存储为录音音频文件;
S2:将步骤S1中录音音频文件转换成文字信息;
S3:将步骤S2中文字信息转换成语音信息;
S4:将步骤S3中语音信息进行处理并转化成音频文件;
S5:将步骤S1中文字信息转换成字幕文件;
S6:存储并播放步骤S3中的音频文件和字幕文件。
其中,字幕文件与播放的音频文件同步同步播放。
普通话转方言,录音模块利用录音设备录制方言并形成方言音频信息,语音转文字模块将方言语音信息转换成文字信息,文字转语音模块将文字信息转换成普通话语音信息,配音模块用于将普通话语音信息处理为普通话语音文件,加入适当的停顿,便于听则理解,字幕模块将文字信息转化字幕文件,设置字体大小、字体颜色和字体背景颜色,存储模块将上述普通话语音文件和匹配的字幕文件存储在***内或互联网上的服务器,播放上述普通话语音文件和匹配的字幕文件,声音与字幕同步显示,易于听者理解。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (9)

1.一种语音转换***,其特征在于:包括录音模块、语音转文字模块、文字转语音模块、配音模块、字幕模块和存储模块;所述录音模块用于录制声音并形成音频信息;所述语音转文字模块用于将语音信息转换成文字信息;所述文字转语音模块用于将文字信息转换成语音信息;所述配音模块用于将语音信息处理为语音文件;所述字幕模块用于将文字信息转化字幕文件;所述存储模块存储音频文件和字幕文件,所述存储模块通过互联网连接有服务器,服务器上存储有音频文件,所述存储模块包括上传和下载功能,上传功能是将存储模块中的音频文件上传至服务器,下载功能是将服务器中的音频文件下载至存储模块。
2.根据权利要求1所述的一种语音转换***,其特征在于:所述录音模块还包括录音设备。
3.根据权利要求1所述的一种语音转换***,其特征在于:所述语音转文字模块还包括语音识别,识别普通话和方言。
4.根据权利要求1所述的一种语音转换***,其特征在于:所述文字转语音模块还包括语音设置,语音设置将文字转换成普通话或方言的语音信息。
5.根据权利要求1所述的一种语音转换***,其特征在于:所述配音模块将语音信息处理成语音文件,处理包括设置语音信息的停顿,停顿包括停顿的位置和停顿的时间。
6.根据权利要求1所述的一种语音转换***,其特征在于:所述字幕模块包括字幕文件字体的设置,设置字体大小、字体颜色和字体背景颜色。
7.根据权利要求1所述的一种语音转换***,其特征在于:存储模块连接服务器的方式为无线通讯连接。
8.一种如权利要求1所述的语音转换***的语音转换方法,其特征在于:包括步骤如下:
S1:录制声音并存储为录音音频文件;
S2:将步骤S1中录音音频文件转换成文字信息;
S3:将步骤S2中文字信息转换成语音信息;
S4:将步骤S3中语音信息进行处理并转化成音频文件;
S5:将步骤S1中文字信息转换成字幕文件;
S6:存储并播放步骤S3中的音频文件和字幕文件。
9.根据权利要求8所述的语音转换方法,其特征在于:字幕文件与播放的音频文件同步同步播放。
CN201911042474.1A 2019-10-30 2019-10-30 一种语音转换***及方法 Pending CN110767233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911042474.1A CN110767233A (zh) 2019-10-30 2019-10-30 一种语音转换***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911042474.1A CN110767233A (zh) 2019-10-30 2019-10-30 一种语音转换***及方法

Publications (1)

Publication Number Publication Date
CN110767233A true CN110767233A (zh) 2020-02-07

Family

ID=69334617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911042474.1A Pending CN110767233A (zh) 2019-10-30 2019-10-30 一种语音转换***及方法

Country Status (1)

Country Link
CN (1) CN110767233A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111358066A (zh) * 2020-03-10 2020-07-03 中国人民解放军陆军军医大学第一附属医院 基于语音识别的防护服
CN112492342A (zh) * 2020-12-01 2021-03-12 南京翰氜信息科技有限公司 基于云计算数据分析的电子商务视频直播平台
CN114900724A (zh) * 2022-05-25 2022-08-12 龙宇天下(北京)文化传媒有限公司 一种基于互联网的智能收视终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译***及其方法
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN103491429A (zh) * 2013-09-04 2014-01-01 张家港保税区润桐电子技术研发有限公司 一种音频处理方法和音频处理设备
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及***
CN107465887A (zh) * 2017-09-14 2017-12-12 潍坊学院 视频通话***及视频通话方法
CN107750009A (zh) * 2017-10-27 2018-03-02 深圳市联谛信息无障碍有限责任公司 一种使用Android设备同步朗读视频文件外挂字幕的方法
CN109660672A (zh) * 2019-01-09 2019-04-19 浙江强脑科技有限公司 语音类型的转换方法、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667424A (zh) * 2008-09-04 2010-03-10 英业达股份有限公司 普通话与多种方言之间的语音翻译***及其方法
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
CN103491429A (zh) * 2013-09-04 2014-01-01 张家港保税区润桐电子技术研发有限公司 一种音频处理方法和音频处理设备
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及***
CN107465887A (zh) * 2017-09-14 2017-12-12 潍坊学院 视频通话***及视频通话方法
CN107750009A (zh) * 2017-10-27 2018-03-02 深圳市联谛信息无障碍有限责任公司 一种使用Android设备同步朗读视频文件外挂字幕的方法
CN109660672A (zh) * 2019-01-09 2019-04-19 浙江强脑科技有限公司 语音类型的转换方法、设备及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111358066A (zh) * 2020-03-10 2020-07-03 中国人民解放军陆军军医大学第一附属医院 基于语音识别的防护服
CN112492342A (zh) * 2020-12-01 2021-03-12 南京翰氜信息科技有限公司 基于云计算数据分析的电子商务视频直播平台
CN114900724A (zh) * 2022-05-25 2022-08-12 龙宇天下(北京)文化传媒有限公司 一种基于互联网的智能收视终端

Similar Documents

Publication Publication Date Title
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
JP6113302B2 (ja) 音声データの伝送方法及び装置
CN108259965B (zh) 一种视频剪辑方法和剪辑***
US7644000B1 (en) Adding audio effects to spoken utterance
US7124082B2 (en) Phonetic speech-to-text-to-speech system and method
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
CN108831436A (zh) 一种模拟说话者情绪优化翻译后文本语音合成的方法
CN110767233A (zh) 一种语音转换***及方法
JP2005502102A (ja) 音声−音声生成システムおよび方法
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN109346057A (zh) 一种智能儿童玩具的语音处理***
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
KR20200027331A (ko) 음성 합성 장치
JP2011504624A (ja) 自動同時通訳システム
US6308154B1 (en) Method of natural language communication using a mark-up language
CN111739536A (zh) 一种音频处理的方法和装置
CN111105776A (zh) 有声播放装置及其播放方法
JP2000207170A (ja) 情報処理装置および情報処理方法
CN109460548B (zh) 一种面向智能机器人的故事数据处理方法及***
US9087512B2 (en) Speech synthesis method and apparatus for electronic system
CN109065019A (zh) 一种面向智能机器人的故事数据处理方法及***
Mihelič et al. Spoken language resources at LUKS of the University of Ljubljana
CN110851564B (zh) 一种语音数据处理方法和相关装置
CN113851140A (zh) 语音转换相关方法、***及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination