CN101859578B - 语音类产品的制作处理方法 - Google Patents

语音类产品的制作处理方法 Download PDF

Info

Publication number
CN101859578B
CN101859578B CN2009101064955A CN200910106495A CN101859578B CN 101859578 B CN101859578 B CN 101859578B CN 2009101064955 A CN2009101064955 A CN 2009101064955A CN 200910106495 A CN200910106495 A CN 200910106495A CN 101859578 B CN101859578 B CN 101859578B
Authority
CN
China
Prior art keywords
processing unit
central processing
voice
cpu
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009101064955A
Other languages
English (en)
Other versions
CN101859578A (zh
Inventor
陈伟江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN2009101064955A priority Critical patent/CN101859578B/zh
Publication of CN101859578A publication Critical patent/CN101859578A/zh
Application granted granted Critical
Publication of CN101859578B publication Critical patent/CN101859578B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种适用于语音类产品的制作处理方法,利用中央处理单元预先生成一个预测信号数据并由中央处理单元的语音数据输出端输出至数模转换器,预测信号数据经过数模转换器转换后,与经过第一级放大器放大后的音频输入接口输入的语音信号先做差分运算,将运算结果输入第二级放大器进行放大,第二级放大器放大后的信号与R-2R电阻网络产生的自适应量化信号,经过比较器比较后输入中央处理单元,在中央处理单元内进行逐次比较逼近运算,得到预测误差量化值,即为压缩语音数据,对其进行存储。本发明可节约成本,获得可观的经济利益。

Description

语音类产品的制作处理方法
技术领域
本发明公开一种音频数据的制作处理方法,特别是一种适用于语音类产品的制作处理方法。
背景技术
语音类产品,如:语音佛像、语音孔子像、语音字画、盲文语音地图、语音地图、电子书、***播放器等等,在人们日常生活中已经屡见不鲜。在语音类产品的生产过程中,少不了语音数据的采集、处理、存储等过程,以及在语音类产品使用时的语音回放过程。目前,在语音的录制过程中,都是利用放大器对音频输入接口(如:麦克风)输入的语音信号进行放大,再通过高精度的A/D转换器将其转换成数字信号,再做后续处理,采用高精度的A/D转换器代价较高。现有技术中,语音类产品在音频数据的存储及回放过程中,通常采用通讯领域中常用的实时编解码处理方式,其处理运算过程极为复杂,这样就要求终端机上的处理芯片的性能较好,才能够实现回放解码,采用较好的处理芯片势必会增加产品的制造成本。
发明内容
针对上述提到的现有技术中的语音录制过程中,必须先将语音信号经过模数转换后,才进行处理运算,从而必须采用高精度的模数转换器这一问题,本发明提供一种新的不用数模转换器的语音录制方法,其利用中央处理单元预先生成一个预测信号数据并由中央处理单元的语音数据输出端输出至数模转换器,预测信号数据经过数模转换器转换后,与经过第一级放大器放大后的音频输入接口输入的语音信号先做差分运算,将运算结果输入第二级放大器进行放大,第二级放大器放大后的信号与R-2R电阻网络产生的自适应量化信号,经过比较器比较后输入中央处理单元,在中央处理单元内进行逐次比较逼近运算,得到预测误差量化值,即为压缩语音数据,对其进行存储。
另外,针对上述提到的现有技术中的对语音数据进行编码存储及解码回放过程中,运算量很大,要求终端设备处理芯片性能较好的缺点,本发明提供一种语音数据的编码、解码方法,采用非常复杂的存储前的预处理编码过程,和回放时的极其简单的解码处理过程,在编码过程中,直接采用原始的波形数据来表示在浊音帧中所提取的原型波形,直接采用原型波形数据作为码本中的码字,编码时,将浊音帧中提取的原型波形与码字进行匹配,确定码字下标,并进行存储。
本发明解决其技术问题采用的技术方案是:一种语音类产品的制作处理方法,该处理方法包括:
a)设有一个中央处理单元,中央处理单元的数据端上连接有R-2R电阻网络,中央处理单元上设有语音数据输出端;
b)设有一个音频输入接口,语音接口上连接有放大语音信号的第一级放大器;
c)设有一个数模转换器,数模转换器的输入端与中央处理单元的语音数据输出端相连接,数模转换器的输出端与第一级放大器输出端相连接;
d)设有一个第二级放大器,第一级放大器输出端与第二级放大器的输入端连接,第二级放大器的输出端与R-2R电阻网络的输出端同时连接在比较器的输入端上,比较器的输出端与中央处理单元的一个数据端相连接;
e)中央处理单元预先生成一个预测信号数据并由中央处理单元的语音数据输出端输出至数模转换器,预测信号数据经过数模转换器转换后,与经过第一级放大器放大后的音频输入接口输入的语音信号做差分运算,将运算结果输入第二级放大器进行放大,第二级放大器放大后的信号与R-2R电阻网络产生的自适应量化信号,经过比较器比较后输入中央处理单元,在中央处理单元内进行逐次比较逼近运算,得到预测误差量化值,即为压缩语音数据;
f)将压缩语音数据进行存储或回放,在对所述的中央处理单元的语音数据输出端上得到的语音数据进行编码存储时,直接采用原始的波形数据来表示在浊音帧中所提取的原型波形,直接采用原型波形数据作为码本中的码字,编码时,将浊音帧中提取的原型波形与码本中的码字进行匹配,确定码字下标,并进行存储。
本发明解决其技术问题采用的技术方案进一步还包括:
所述的R-2R电阻网络为4组相配合的连接的R-2R电阻网络,分别连接在中央处理单元的4个I/O口上。
所述的数模转换器上连接有模拟语音信号输出装置。
所述的码本生成时,采用针对特定人的语音来制作码本。
本发明的有益效果是:本发明在语音录制时,采取直接用模拟信号与预测信号作差分运算,再将差分结果进行放大和模数转换,这样,只需要采用简单的4bit的R-2R电阻网络即可实现模数转换,取代了高精度的A/D转换器,而达到同样的效果,从而节约了成本,用在集成电路设计中,可减小芯片面积。本发明在语音编码和解码时,采用“胖主机瘦客户机”的做法,用编码时主机的巨大工作量为代价,来换取解码时客户机的小工作量,编码处理可以在PC机上非实时处理,从而大大降低了对客户机的处理芯片的性能要求,降低了制造成本。
下面将结合附图和具体实施方式对本发明做进一步说明。
附图说明
图1为本发明语音录制部分***结构原理图。
图2为本发明编码过程流程示意图。
图3为本发明解码过程流程示意图。
图4为本发明码本生成过程流程示意图。
具体实施方式
本实施例为本发明优选实施方式,其他凡其原理和基本结构与本实施例相同或近似的,均在本发明保护范围之内。
本发明涉及到语音类产品的制作处理方法,包括语音的录制、语音信号的编码存储、语音数据的解码回放的方法。
请参看附图1,本发明语音录制部分***结构原理图,本实施例中,采用麦克风作为音频输入接口,用来输入语音信号,具体实施时,也可以采用其他的音频输入装置做音频输入接口,麦克风连接在第一级放大器的输入端,经过第一级放大器对麦克风输入的语音信号进行放大。本实施例中,采用MCU作为***的中央处理单元,MCU的一个数据端口上连接有数模转换器,该端口为MCU的语音数据输出端,该端口上可以连接其他语音设备,作为语音数据输出,本实施例中,语音数据输出端上连接有数模转换器,MCU产生的预测信号由语音数据输出端输出至数模转换器,经数模转换器转换呈模拟信号后,与第一级放大器输出端连接,和第一级放大器放大的语音信号作差分运算,差分运算的结果输入至第二级放大器进行放大。MCU的4个I/O口上连接有R-2R电阻网络,MCU的I/O口、R-2R电阻网络和比较器形成4bit量化器,第二级放大器放大后的差分运算结果输入比较器进行比较,在MCU中做4bit自适应量化处理,即是将预测信号与比较器反馈的信号做逐次比较逼近运算,可得到4bit的预测误差量化值,即是通过R-2R电阻网络对语音信号进行模数转换,将语音信号转换成数字信号,此4bit的预测误差量化值也就是压缩后的语音数据,可对其进行存储、编码或回放等操作。本实施例中,R-2R电阻网络采用的是4bit量化处理,具体实施时,也可以采用3bit或5bit量化处理。本实施例中,MCU的I/O口上连接有语音存储器,可以直接对压缩后的语音数据进行存储,数模转换器输出端上还连接有模拟语音信号输出装置,可在录制的同时,进行回放。
对于上述方法得到的语音数据(或者在光盘等其他媒体中的海量语音数据)可利用本发明中的方法做编码处理。请参看附图2,本发明中的语音数据编码方法在编码时,先将语音数据变换成32KHz,16bit的WAV格式数据,然后再将转换后的语音数据分割成10~30mS长的时间片,称为帧,即每帧的长度为10~30mS,然后根据帧的特性的不同,将帧分类定义为:无声帧(即相应时间段内没有语音数据,为无声状态)、清音帧(比如:在汉语中对应于汉语拼音中的声母的发声状态)、浊音帧(比如:在汉语中对应于汉语拼音中的韵母的发声状态)和过渡帧(清音帧和浊音帧之间的处于过渡状态的发声状态)。由于在语音数据中,绝大部分的帧为浊音帧,本发明中的编码方法也主要针对浊音帧进行处理,每一个浊音帧又是由多个基音周期波形构成(假设将一个浊音帧按其基音周期分成N个小片段,每一个小片段为一个基音周期),将基音周期波形看作是特征波形或称为原型波形,则每个浊音帧为多个原型波形相连接而成。本实施例中,对无声帧、清音帧和过渡帧采用8KHz或16KHz的采样频率做ADPCM编码(即自适应差分编码),而对浊音帧的处理,则是先对浊音帧做自相关运算,找出其基音长度,从而提取出原型波形(即基音周期波形),再对此原型波形做矢量量化,即是对于每个原型波形都在预先生成的码本中搜索与之相匹配的码字(即与之相匹配的原型波形),并确定该码字的下标(即该码字的标识号),并对其下标进行存储,本实施例中,给出一种参考帧格式,一个帧包括15bit,前面2bit表示帧类型(本实施例中,无声帧为00,清音帧为01,过渡帧为10,浊音帧为11),中间10bit表示码字下标,后3bit表示原型波形的连接个数。经过如此处理过的语音数据,在存储时,只需要存储码本和帧类型、码字下标、原型波形的连接个数和少量的ADPCM数据即可。
本发明中采用的码本是经过预先制成的,本实施例中,采用对特定发音人的原始语音,生成训练语音的矢量集,做成特殊的码本,一些无用信息不出现在特定码本中。从而减小了码本的尺寸,节约了存储空间。请参看附图4,码本在制作时,先将特定发音人的原始语音进行帧分类处理,找出其中的浊音帧(将无声帧、清音帧、过渡帧抛弃),在浊音帧中提取出原型波形(即基音周期波形),将全部的原型波形数据用来生成一个训练语音的矢量集,从而形成初始码本,然后对初始码本进行基于遗传算法的矢量量化操作,即是对全部矢量集进行分类筛选,去掉其中近似的原型波形,再行进行交叉、变异、评价操作,形成下一代码本,经过反复操作,得到最优化的码本。
经过上述处理过的语音数据在进行回放时,请参看附图3,回放终端读取语音数据,根据语音数据编码的帧结构中表达的内容,先进行帧类型判断,对于其中的无声帧、清音帧和过渡帧进行ADPCM解码,对于其中的浊音帧,根据码字下标,在码本中找到相应的码字(即原型波形数据),然后将其连接起来进行回放即可。
本发明中的处理语音数据的方法,在编码时非常复杂,而在解码时极其简单,形成典型的“胖主机瘦客户端”形式,由于,出售的主要为客户端,所以,能够对客户端的处理芯片要求降低,同时存储量也会降低,从而节省了制造成本。

Claims (4)

1.一种语音类产品的制作处理方法,其特征是:所述的处理方法包括:
A、设有一个中央处理单元,中央处理单元的数据端上连接有R-2R电阻网络,中央处理单元上设有语音数据输出端;
B、设有一个音频输入接口,语音接口上连接有放大语音信号的第一级放大器;
C、设有一个数模转换器,数模转换器的输入端与中央处理单元的语音数据输出端相连接,数模转换器的输出端与第一级放大器输出端相连接;
D、设有一个第二级放大器,第一级放大器输出端与第二级放大器的输入端连接,第二级放大器的输出端与R-2R电阻网络的输出端同时连接在比较器的输入端上,比较器的输出端与中央处理单元的一个数据端相连接;
E、中央处理单元预先生成一个预测信号数据并由中央处理单元的语音数据输出端输出至数模转换器,预测信号数据经过数模转换器转换后,与经过第一级放大器放大后的音频输入接口输入的语音信号做差分运算,将运算结果输入第二级放大器进行放大,第二级放大器放大后的信号与R-2R电阻网络产生的自适应量化信号,经过比较器比较后输入中央处理单元,在中央处理单元内进行逐次比较逼近运算,得到预测误差量化值,即为压缩语音数据;
F、将压缩语音数据进行存储或回放,在对所述的中央处理单元的语音数据输出端上得到的语音数据进行编码存储时,直接采用原始的波形数据来表示在浊音帧中所提取的原型波形,直接采用原型波形数据作为码本中的码字,编码时,将浊音帧中提取的原型波形与码本中的码字进行匹配,确定码字下标,并进行存储。
2.根据权利要求1所述的语音类产品的制作处理方法,其特征是:所述的R-2R电阻网络为4组相配合的连接的R-2R电阻网络,分别连接在中央处理单元的4个I/O口上。
3.根据权利要求1所述的语音类产品的制作处理方法,其特征是:所述的数模转换器上连接有模拟语音信号输出装置。
4.根据权利要求1或2或3所述的语音类产品的制作处理方法,其特征是:所述的码本生成时,采用针对特定人的语音来制作码本。
CN2009101064955A 2009-04-08 2009-04-08 语音类产品的制作处理方法 Expired - Fee Related CN101859578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101064955A CN101859578B (zh) 2009-04-08 2009-04-08 语音类产品的制作处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101064955A CN101859578B (zh) 2009-04-08 2009-04-08 语音类产品的制作处理方法

Publications (2)

Publication Number Publication Date
CN101859578A CN101859578A (zh) 2010-10-13
CN101859578B true CN101859578B (zh) 2011-08-31

Family

ID=42945424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101064955A Expired - Fee Related CN101859578B (zh) 2009-04-08 2009-04-08 语音类产品的制作处理方法

Country Status (1)

Country Link
CN (1) CN101859578B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397064A (zh) * 2000-01-28 2003-02-12 艾利森电话股份有限公司 修改语音信号的***和方法
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与***
CN101371297A (zh) * 2006-01-18 2009-02-18 Lg电子株式会社 用于编码和解码信号的设备和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397064A (zh) * 2000-01-28 2003-02-12 艾利森电话股份有限公司 修改语音信号的***和方法
CN1991976A (zh) * 2005-12-31 2007-07-04 潘建强 基于音素的语音识别方法与***
CN101371297A (zh) * 2006-01-18 2009-02-18 Lg电子株式会社 用于编码和解码信号的设备和方法

Also Published As

Publication number Publication date
CN101859578A (zh) 2010-10-13

Similar Documents

Publication Publication Date Title
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN109754790B (zh) 一种基于混合声学模型的语音识别***及方法
US11727922B2 (en) Systems and methods for deriving expression of intent from recorded speech
CN110277088B (zh) 智能语音识别方法、装置及计算机可读存储介质
US11908448B2 (en) Parallel tacotron non-autoregressive and controllable TTS
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN114333852A (zh) 一种多说话人语音人声分离方法、终端设备及存储介质
CN113053357B (zh) 语音合成方法、装置、设备和计算机可读存储介质
CN112185363B (zh) 音频处理方法及装置
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
JP7335569B2 (ja) 音声認識方法、装置及び電子機器
US20240087558A1 (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
CN111246469B (zh) 人工智能保密通信***及通信方法
CN113539232A (zh) 一种基于慕课语音数据集的语音合成方法
CN112786001B (zh) 语音合成模型训练方法、语音合成方法和装置
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
CN117041430B (zh) 一种提高智能协调外呼***的外呼质量及鲁棒方法和装置
CN106228976A (zh) 语音识别方法和装置
CN113362804A (zh) 一种合成语音的方法、装置、终端及存储介质
CN106256001A (zh) 信号分类方法和装置以及使用其的音频编码方法和装置
JP4581549B2 (ja) 音声処理装置および方法、記録媒体、並びにプログラム
Sharma et al. Reducing footprint of unit selection based text-to-speech system using compressed sensing and sparse representation
CN101859578B (zh) 语音类产品的制作处理方法
CN111357049A (zh) 自动语音识别装置及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110831

Termination date: 20170408