CN109147831A - 一种语音连接播放方法、终端设备及计算机可读存储介质 - Google Patents

一种语音连接播放方法、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109147831A
CN109147831A CN201811122158.0A CN201811122158A CN109147831A CN 109147831 A CN109147831 A CN 109147831A CN 201811122158 A CN201811122158 A CN 201811122158A CN 109147831 A CN109147831 A CN 109147831A
Authority
CN
China
Prior art keywords
file
voice
label
splicing
header
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811122158.0A
Other languages
English (en)
Inventor
许剑勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201811122158.0A priority Critical patent/CN109147831A/zh
Publication of CN109147831A publication Critical patent/CN109147831A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • G11B2020/00014Time or data compression or expansion the compressed signal being an audio signal
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数字信号处理技术领域,提供了语音连接播放方法、终端设备及计算机可读存储介质,包括:通过获取待播放的至少两个语音文件及至少两个语音文件的播放顺序,并删除所有语音文件的文件头标签和文件尾标签,按照播放顺序拼接得到拼接文件,在拼接文件的文件头和文件尾处分别加上拼接文件对应的文件头标签和文件尾标签,得到目标语音文件,最后按照预设的播放模式播放目标语音文件。通过删除每个语音文件之间的文件头标签和文件尾标签并进行拼接,将多个语音文件合成为一个目标语音文件,避免了零散语音文件连续播放时的中间停顿,提高了用户使用体验。

Description

一种语音连接播放方法、终端设备及计算机可读存储介质
技术领域
本发明属于数字信号处理技术领域,尤其涉及一种语音连接播放方法、终端设备及计算机可读存储介质。
背景技术
随着数字信号处理技术的发展,我们通过对音频、图像、数字等信号进行处理,实现了各种各样的技术。例如通过图像处理实现人物相片的美化,通过处理语音数据进行语音模仿等。还有一种语音应用技术,是通过将不同内容和语段的语音组合在一起,实现不同内容的语音播放。比如一组数字,如时间,距离,价格等固定格式组合的语音,会通过一个文件播放完再播放下个文件,直到最后一个文件播放完成,形成连起来的语音播放。
但是,现有的这种语音播放方法在连接播放不同语音段落时,很容易出现间隙停顿,造成卡顿不够流畅的问题。
发明内容
有鉴于此,本发明实施例提供了一种语音连接播放方法、终端设备及计算机可读存储介质,以解决现有技术中在连接播放不同语音段落时,很容易出现间隙停顿,造成卡顿不够流畅的问题。
本发明实施例的第一方面提供了一种语音连接播放方法,包括:
获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;
删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;
在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件;
按照预设的播放模式播放所述目标语音文件。
本发明实施例的第二方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
本发明实施例的第一方面提供了一种语音连接播放方法,包括:
获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;
删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;
在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件;
按照预设的播放模式播放所述目标语音文件。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例与现有技术相比存在的有益效果是:
通过获取待播放的至少两个语音文件及至少两个语音文件的播放顺序,并删除所有语音文件的文件头标签和文件尾标签,按照播放顺序拼接得到拼接文件,在拼接文件的文件头和文件尾处分别加上拼接文件对应的文件头标签和文件尾标签,得到目标语音文件,最后按照预设的播放模式播放目标语音文件。通过删除每个语音文件之间的文件头标签和文件尾标签并进行拼接,将多个不同的语音文件合成为一个目标语音文件,避免了零散语音文件连续播放时的中间停顿,提高了用户使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语音连接播放方法的流程图;
图2是本发明实施例二提供的语音连接播放方法的流程图;
图3是本发明实施例三提供的终端设备的示意图;
图4是本发明实施例四提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,图1是本发明实施例一提供的语音连接播放方法的流程图。本实施例中语音连接播放方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的语音连接播放方法可以包括以下步骤:
S101:获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序。
随着移动互联网的兴起和智能手机等移动终端的普日益及,基于语音识别、自然语言理解和语音合成的人机语音交互技术受到广泛关注并发展迅速。语音交互方式被认为是最自然、最具前景的人机交互方式,语音合成技术作为核心之一,也取得了显著的进步。合成的语音在自然度、可懂度和音质上都有明显改善,在日常生活中应用也比较多,如地图导航、新闻朗读和手机语音助手等。
语音合成技术的目标就是赋予计算机可以像人一样说话的能力。目前,绝大多数的语音合成技术围绕文字到语音展开,也就是给定计算机待合成的文本,计算机能够将文字像人一样读出来。语音合成的输入信息是文本,可以从键盘输入,或者通过扫描得,也可以从数据库中直接读取。得到待合成的文本后需要进行文本分析,首先进行简单的断句处理,然后根据语法和语言规则进行进一步的分词操作。最后根据语义分析进行多音字的判别,有些专有词汇可以放入字典进行特殊处理。文本分析后可以得到待合成句的声韵母序列,然后进行韵律处理。根据训练集上统计得到的基频、时长、频谱等先验知识,可以得到待合成文本对应的韵律信息。最后,将分析得到韵律信息通过参数合成器生成语音,或者用于指导单元挑选通过波形拼接的方法得到语音波形。语音合成技术具有很好的应用前景,机器通过语音进行信息反馈能够给人们带来很多便利。
在地图导航中对于汽车驾驶员来在行车过程中腾出手来操作手机,或者转移视线查看地图是很危险的事情,语音交互技术能有效的避免这种情况的发生。目前,基本上所有的地图软件都有语音导航功能,能够全程进行导航播报,大大的提高了驾驶的安全性。有些地图软件还推出了个性化语音导航,使用明星名人的声音进行语音合成,增加了不少趣味性,还能在一定程度上缓解驾驶过程中的枯燥情况。
在现实生活中,传统的小说、新闻阅读方式都是通过眼睛进行,阅读时间过长、眼睛与显示屏幕之间的阅读距离过近会对视力造成很大的伤害。随着智能手机和平板电脑等便携设备的普及,很多人通过电子显示屏来读小说,看新闻。虽然给人们带来了便利,但进一步加重了眼睛的负担。得益于语音合成技术的不断进步,听新闻、听小说的方式逐渐兴起,并慢慢被用户接受,如***咪咕阅读的听小说功能,百度新闻的听新闻功能等。这些功能非常人性化,不仅能够缓解目前普遍存在的视力问题,在坐车,挤地铁等不适合阅读的情形下也具有很好的实用价值。
近年来,智能手机高速发展,手机处理器性能不断变强,赶上甚至超过个人电脑。手机除了拨打电话外增加了很多功能,各种应用越来越多,能够实现各种各样的功能。自各个移动终端公司在手机上发布语音助手以来,语音助手己经成为了手机的标准配置。手机语音助手目前能够完成手机的一些基本操作,如应用查找,快速拨号,信息咨询等。
在本实施例中,本实施例中的语音文件的格式包括但不限于以下格式:动态影像专家压缩标准音频层面3(Moving Picrure Experts Group Audio Layer-3,MP3)、乐器数字(Musical Instrument Digital,MID)、视窗媒体音频(Windows Media Audio,WAV)、脉冲编码调制(Pulse Code Modulation,PCM)或者自适应多速率(Adaptive Multi-Rate,AMR)等格式。其中,MP3是利用移动专家组音频三层的技术,采取了感官编码技术的编码算法。编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是可变波特率(Variant Bitrate,VBR)可以根据编码的内容动态地选择合适的波特率,因此编码的结果是在保证了音质的同时又照顾了文件的大小。MP3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。除此之外,还可以是线性比例尺格式,根据声音的变化率大小,把声音分成若干段,对每段用线性比例进行压缩;MID格式的语音所占的空间比较狭小,有时短短二十几秒的芯片就能装进去十多首MID格式的音乐。
需要说明的是,本实施例中所获取到的语音文件可以有两个或者两个以上,因此,为了保证语音文件能够按照正确的顺序被播放,需要确定每个语音文件的播放顺序。在本实施例中,可以通过对语音文件进行简单的数字编号,便可以确定播放顺序。
进一步的,在获取到待播放的至少两个语音文件之后,可以通过语音识别的方式,识别这些语音文件中的文字含义,根据所检测到的语音文件中的字义进行自动的文件排序,这种方式可以省略编号的步骤,提高语音文件处理的效率。
S102:删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序连接,得到拼接文件。
在Windows环境下,大部分的多媒体文件都依循着一些通用的结构来存放,这种结构称为资源互换文件格式(Resources Interchange File Format,RIFF)Windows的数字化波形声音的WAVE文件便由此结构衍生而来。RIFF可以看作是一种树状结构,其基本构成单位是块,犹如树状结构中的节点。每个块由“辨别码”、“数据大小”及“数据”等组成。RIFF文件的前4字节为其辨别码“RIFF”的美国信息交换标准代码(American Standard Code forInformation Interchange,ASCII),紧跟其后的双字节数据则标示整个文件大小,单位为字节Byte。由于表示文件长度或块长度的“数据大小”信息占用4Byte,所以,事实上一个WAVE文件或文件中块的长度为数据大小加8。
WAVE文件由文件头和数据体两大部分组成。其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的声音文件主要有两种,分别对应于单声道和双声道,其中单声道为11.025KHz采样率或8Bit的采样值,双声道为44.1KHz采样率或16Bit的采样值。采样率是指声音信号在模数转换过程中单位时间内采样的次数。采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为八位的短整数;而对于双声道立体声声音文件,每次采样数据为一个16位的整数,高八位和低八位分别代表左右两个声道。WAVE文件数据块包含以脉冲编码调制格式表示的样本。WAVE文件是由样本组织而成的。在单声道WAVE文件中,声道0代表左声道,声道1代表右声道。在多声道WAVE文件中,样本是交替出现的。WAVE文件格式说明如表1所示:
表1 WAVE文件格式说明表
在实际应用中,所有类型或者格式的语音文件都是按照统一的格式标准存储数据的,以保证音频数据的正确打开或者播放,因此对语音文件的文件头标签和文件尾标签的确定皆可以按照现有的音频文件的格式进行识别并确定,此处不做过多的解释和限定。
在本实施例中,通过一个语音文件文件类型和格式识别并确定该语音文件的文件头和文件尾,进而删除该语音文件的文件头标签和文件尾标签,并将删除头尾标签之后的文件按照播放顺序连接起来,得到拼接文件。
S103:在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件。
在根据所有语音文件的文件内容进行拼接得到拼接文件之后,对该拼接文件进行添加文件头和文件尾的工作,以保证拼接文件的完整性。
进一步的,步骤S103可以包括:
若所述语音文件的所述文件格式相同,则在所述拼接文件的文件头和文件尾处分别加上所述语音文件的原来的文件头标签与文件尾标签,得到目标语音文件;
若所述语音文件的所述文件格式不同,则在将所有所述文件转换成统一格式的语音文件之后,生成新文件头标签与新文件尾标签,并在所述拼接文件的文件头和文件尾处分别加上所述新文件头标签与所述新文件尾标签,得到目标语音文件。
具体的,由于每个语音文件的格式可能都相同,也可能存在一个或者多个语音文件的格式与其他文件的格式不同。在本实施例中默认格式相同的语音文件具有相同的文件头标签,也具有相同的文件尾标签,同时,在拼接得到的拼接文件中也具有与初始语音文件相同的文件头标签和文件尾标签。若所有语音文件的格式相同,则在拼接文件处的文件头添加原语音文件的文件头标签,在拼接文件的文件尾处添加原语音文件的文件尾标签,得到目标语音文件。
进一步的,若存在具有不同语音格式的语音文件,则需要在获取待播放的至少两个语音文件之后,在进行拼接语音文件的拼接之前,将不同格式的语音文件转换成具有相同格式的语音文件,在将这些语音文件进行拼接的同时,生成新的语音文件的新文件头标签和新文件尾标签,在语音文件的拼接完成之后,将新文件头标签和新文件尾标签分别添加到新语音文件的文件头和文件尾,得到目标语音文件,以保证新语音文件的完整性,使其能正常播放。
S104:按照预设的播放模式播放所述目标语音文件。
在得到完整的目标语音文件之后,将该语音文件按照语音的播放模式进行播放。在本实施例中,预设的播放模式可以包括音色的类型,例如男声或者女生,播放音量的大小、播放的循环模式等,此处不做限定。
上述方案,通过获取待播放的至少两个语音文件及至少两个语音文件的播放顺序,并删除所有语音文件的文件头标签和文件尾标签,按照播放顺序拼接得到拼接文件,在拼接文件的文件头和文件尾处分别加上拼接文件对应的文件头标签和文件尾标签,得到目标语音文件,最后按照预设的播放模式播放目标语音文件。通过删除每个语音文件之间的文件头标签和文件尾标签并进行拼接,将多个语音文件合成为一个目标语音文件,避免了零散语音文件连续播放时的中间停顿,提高了用户使用体验。
参见图2,图2是本发明实施例二提供的语音连接播放方法的流程图。本实施例中语音连接播放方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端,还可以是台式电脑等。如图所示的语音连接播放方法可以包括以下步骤:
S201:获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序。
在本实施例中S201与图1对应的实施例中S101的实现方式完全相同,具体可参考图1对应的实施例中的S101的相关描述,在此不再赘述。
S202:删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件。
在本实施例中S202与图1对应的实施例中S102的实现方式完全相同,具体可参考图1对应的实施例中的S102的相关描述,在此不再赘述。
S203:在所述拼接文件的文件头处添加所述拼接文件对应的文件头标签,在所述拼接文件的文件尾处添加所述拼接文件对应的文件尾标签,得到加签文件。
在本实施例中S203与图1对应的实施例中S103的实现方式相同,本实施例中S203只是将实施例一S103中的目标语音文件变换名称为加签文件,具体的添加文件头标签和文件尾标签的方式可参考图1对应的实施例中的S103的相关描述,在此不再赘述。
S204:对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件。
在对拼接文件进行加签得到加签文件之后,考虑到在将不同的语音文件进行拼接时可能存在文件中语音之间的衔接问题,而导致卡顿或者音色变化等情况,在本实施例中,对加签文件中的文件连接处进行平滑滤波处理,得到目标语音文件。
在基于波形拼接的语音合成***中,为了提高输出语音的自然度,需要对原始拼接基元的音高、时长以及能量等特征进行适当修正。广泛使用的时域基音同步叠加(TimeDomain-Pitch Synchronization Stack,TD-PSOLA)算法在进行基频和时长方面的修改取得了较好地效果。但在拼接基元的边界处,仍然会存在音高、频谱和相位的不连续。这些不连续性的存在,使得合成语音的质量受到很大影响,使人听上去感到明显的不适。因此,在拼接基元的边界处进行适当的平滑对提高合成语音的自然度有很大意义。现有的频谱平滑算法一般是基于语音的源滤波器模型的。在该模型中一段语音信号序列s[n]被建模为一个激励信号r[n]通过一个滤波器h[n],即s[n]=h[n]*r[n],此处为卷积运算。滤波器参数可以从语音信号中进行估计,例如使用线形预测。激励信号或残差信号r[n]是通过逆滤波得到的,即r[n]=h-1[n]*s[n]。如果源滤波器模型是对语音产生的准确描述,并且估计得到的滤波器与“真实”的声道滤波器h′[n]接近,r[n]就近似为由人类声带发出的激励信号。因此,r[n]与h[n]是相互独立的。如果要得到具有希望频谱形状的语音就可以将r[n]通过一个新的滤波器h′[n]产生。
在本实施例中,具体的平滑滤波处理方式为:
获取加签文件在所述文件连接处在n时刻的真值为s(n),平滑参数为α,得到平滑估计值为:此处为相乘运算;
得到平滑之后的均方误差为:
识别所述均方误差最小的平滑估计值为所述加签文件在所述文件连接处n时刻平滑估计值;
根据所述平滑估计值和所述加签文件得到所述目标语音文件。
一个线性***如果它的单位样本响应为h(n),当输入一个随机信号x(n),且x(n)=s(n)+v(n);其中s(n)表示信号,v(n)表示噪声,则输出y(n)为:我们希望x(n)通过线性***h(n)尽量接近于s(n)。因此称y(n)为s(n)的估计值,用表示。
S205:按照预设的播放模式播放所述目标语音文件。
在本实施例中S205与图1对应的实施例中S104的实现方式完全相同,具体可参考图1对应的实施例中的S104的相关描述,在此不再赘述。
S206:将所述目标语音文件进行压缩编码,得到压缩文件,并根据所述目标语音文件的文件内容确定关键词;所述关键词用于对所述压缩文件进行标识。
音频信号作为我们最易感知的外界信号之一,通常包括:语音信号、乐音信号以及两者按任意比例的混合,也即混合音频信号。为此,理想的音频信号压缩编码方法必须能够同时面向这些不同类别的音频信号。但实际中,对音频信号的压缩编码长期以来按语音/乐音的分类,分别采用不同的声学模型相互独立进行。其中,语音信号采用的是人的发声模型,通过线性预测的方式实现其压缩与编码。线性预测方法的采用使得语音信号得以参数化表示,从而实现其超低比特率的传输与存储。
信号的压缩与重建通常构建于其稀疏特性之上,将其从一个高维度的稀疏空间通过某种方式映射到一个低维度的稠密空间,从而实现信号的压缩,而这一映射在满足一定条件时是可逆的,也即可从压缩信号中准确重建出原始信号。对于音频信号,尤其是混合音频信号,由于其自身是非稀疏的,为此,其压缩与重建过程通常基于某个稀疏表示域,在该表示域下对其表示系数进行分析与综合,同时进行量化与编码。混合音频信号的分析与综合过程通常有两种实现方式。一种是基于香农采样定理的传统方式。该方式中,分析过程首先对由香农奈奎斯特采样得到的一序列采样点进行稀疏分解,然后利用心理声学模型或人的发声模型消除稀疏表示系数间的冗余,最后对稀疏表示系数进行量化与编码;与之对应,综合过程则完全是分析过程的逆过程,也即首先对输入码流进行解码和反量化,得出分析处理过的稀疏表示系数,然后对所得的稀疏系数进行综合,最后进行逆稀疏变换,重建出原始的混合音频信号。
在本实施例中,将该目标语音文件进行给压缩编码得到压缩文件的同时,根据目标语音文件的文件内容确定关键词,该关键词用于对压缩文件进行标识,起到文件名的作用。具体的,可以自动识别该目标语音文件的内容或者功能,并根据识别出的内容信息或者功能信息生成能表示这些的关键词,以将该关键词作为目标语音文件的名称,起到文件标识的作用。
S207:根据所述关键词将所述压缩文件存储至数据库中。
在将目标语音文件压缩成压缩文件之后,根据确定出来的关键词将该压缩文件存储至数据库中。可选的,还可以将压缩文件存储至硬盘、云端服务器等,此处不做限定。
进一步的,还可以先根据该关键词或者目标语音文件的文件头标签在预设的数据库中查找,是否已经有相同的目标语音文件的压缩文件被存储在数据库中,若是有则不进行存储,若未查找到相同的目标语音文件的压缩文件,则根据关键词将该压缩文件存储至数据库中,以便之后在相同的情况下需要使用到该目标语音文件时,可以直接根据关键词从数据库中查找并调用,避免了再次进行零碎语音处理的步骤,提高了语音文件应用的效率。
上述方案,通过获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;在所述拼接文件的文件头处添加所述拼接文件对应的文件头标签,在所述拼接文件的文件尾处添加所述拼接文件对应的文件尾标签,得到加签文件;对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件。按照预设的播放模式播放所述目标语音文件。将所述目标语音文件进行压缩编码,得到压缩文件,并根据所述目标语音文件的文件内容确定关键词;所述关键词用于对所述压缩文件进行标识;根据所述关键词将所述压缩文件存储至数据库中。通过对零散的至少两个语音文件删除文件头尾标签、进行文件拼接、平滑滤波处理,保证了至少两个零散的语音文件播放的流畅性,提高了用户体验,并能在生成目标语音文件之后,将其进行压缩编码和存储,避免了下次需要该目标语音文件时再进行语音处理的步骤,提高了语音文件的应用效率。
参见图3,图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1~图2对应的实施例中的各步骤。具体请参阅图1~图2各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。本实施例的终端设备300包括:
文件获取单元301,用于获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;
拼接单元302,用于删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;
标签添加单元303,用于在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件;
播放单元304,用于按照预设的播放模式播放所述目标语音文件。
进一步的,所述标签添加单元303可以包括:
加签单元,用于在所述拼接文件的文件头处添加所述拼接文件对应的文件头标签,在所述拼接文件的文件尾处添加所述拼接文件对应的文件尾标签,得到加签文件;
平滑单元,用于对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件。
进一步的,所述平滑单元可以包括:
获取加签文件在所述文件连接处在n时刻的真值为s(n),平滑参数为α,得到平滑估计值为:
得到平滑之后的均方误差为:
识别所述均方误差最小的平滑估计值为所述加签文件在所述文件连接处n时刻平滑估计值;
根据所述平滑估计值和所述加签文件得到所述目标语音文件。
进一步的,所述终端还可以包括:
若所述至少两个语音文件的文件格式不同,则将所述语音文件转换成具有统一格式的语音文件。
进一步的,所述标签添加单元303可以包括:
第一加签单元,用于若所述语音文件的所述文件格式相同,则在所述拼接文件的文件头和文件尾处分别加上所述语音文件的原来的文件头标签与文件尾标签,得到目标语音文件;
第二加签单元,用于若所述语音文件的所述文件格式不同,则在将所有所述文件转换成统一格式的语音文件之后,生成新文件头标签与新文件尾标签,并在所述拼接文件的文件头和文件尾处分别加上所述新文件头标签与所述新文件尾标签,得到目标语音文件。
进一步的,所述终端还可以包括:
编码单元,用于将所述目标语音文件进行压缩编码,得到压缩文件,并根据所述目标语音文件的文件内容确定关键词;所述关键词用于对所述压缩文件进行标识;
存储单元,用于根据所述关键词将所述压缩文件存储至数据库中。
上述方案,通过获取待播放的至少两个语音文件及至少两个语音文件的播放顺序,并删除所有语音文件的文件头标签和文件尾标签,按照播放顺序拼接得到拼接文件,在拼接文件的文件头和文件尾处分别加上拼接文件对应的文件头标签和文件尾标签,得到目标语音文件,最后按照预设的播放模式播放目标语音文件。通过删除每个语音文件之间的文件头标签和文件尾标签并进行拼接,将多个不同的语音文件合成为一个目标语音文件,避免了零散语音文件连续播放时的中间停顿,提高了用户使用体验。
图4是本发明实施例四提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个语音连接播放方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示单元301至304的功能。
示例性的,所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图4仅仅是终端设备4的示例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card,FC)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音连接播放方法,其特征在于,包括:
获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;
删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;
在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件;
按照预设的播放模式播放所述目标语音文件。
2.如权利要求1所述的语音连接播放方法,其特征在于,所述在所述拼接文件的文件头和文件尾处分别加上所述语音文件的所述文件头标签和文件尾标签,得到目标语音文件,包括:
在所述拼接文件的文件头处添加所述拼接文件对应的文件头标签,在所述拼接文件的文件尾处添加所述拼接文件对应的文件尾标签,得到加签文件;
对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件。
3.如权利要求2所述的语音连接播放方法,其特征在于,所述对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件,包括:
获取加签文件在所述文件连接处在n时刻的真值为s(n),平滑参数为α,得到平滑估计值为:
得到平滑之后的均方误差为:
识别所述均方误差最小的平滑估计值为所述加签文件在所述文件连接处n时刻平滑估计值;
根据所述平滑估计值和所述加签文件得到所述目标语音文件。
4.如权利要求1所述的语音连接播放方法,其特征在于,所述获取待播放的至少两个语音文件及其播放顺序之后,还包括:
若所述至少两个语音文件的文件格式不同,则将所述语音文件转换成具有统一格式的语音文件。
5.如权利要求2或4所述的语音连接播放方法,其特征在于,所述在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件,包括:
若所述语音文件的所述文件格式相同,则在所述拼接文件的文件头和文件尾处分别加上所述语音文件的原来的文件头标签与文件尾标签,得到目标语音文件;
若所述语音文件的所述文件格式不同,则在将所有所述文件转换成统一格式的语音文件之后,生成新文件头标签与新文件尾标签,并在所述拼接文件的文件头和文件尾处分别加上所述新文件头标签与所述新文件尾标签,得到目标语音文件。
6.如权利要求1-4任一项所述的语音连接播放方法,其特征在于,所述在所述拼接文件的文件头和文件尾处分别加上所述语音文件的所述文件头标签和文件尾标签,得到目标语音文件之后,还包括:
将所述目标语音文件进行压缩编码,得到压缩文件,并根据所述目标语音文件的文件内容确定关键词;所述关键词用于对所述压缩文件进行标识;
根据所述关键词将所述压缩文件存储至数据库中。
7.一种终端设备,其特征在于,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如下步骤:
获取待播放的至少两个语音文件及至少两个所述语音文件的播放顺序;
删除所有所述语音文件的文件头标签和文件尾标签,并按照所述播放顺序拼接,得到拼接文件;
在所述拼接文件的文件头和文件尾处分别加上所述拼接文件对应的文件头标签和文件尾标签,得到目标语音文件;
按照预设的播放模式播放所述目标语音文件。
8.如权利要求7所述的终端设备,其特征在于,所述在所述拼接文件的文件头和文件尾处分别加上所述语音文件的所述文件头标签和文件尾标签,得到目标语音文件,包括:
在所述拼接文件的文件头处添加所述拼接文件对应的文件头标签,在所述拼接文件的文件尾处添加所述拼接文件对应的文件尾标签,得到加签文件;
对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件。
9.如权利要求8所述的终端设备,其特征在于,所述对所述加签文件中的文件连接处进行平滑滤波处理,得到所述目标语音文件,包括:
获取加签文件在所述文件连接处在n时刻的真值为s(n),平滑参数为α,得到平滑估计值为:
得到平滑之后的均方误差为:
识别所述均方误差最小的平滑估计值为所述加签文件在所述文件连接处n时刻平滑估计值;
根据所述平滑估计值和所述加签文件得到所述目标语音文件。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
CN201811122158.0A 2018-09-26 2018-09-26 一种语音连接播放方法、终端设备及计算机可读存储介质 Pending CN109147831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811122158.0A CN109147831A (zh) 2018-09-26 2018-09-26 一种语音连接播放方法、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811122158.0A CN109147831A (zh) 2018-09-26 2018-09-26 一种语音连接播放方法、终端设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109147831A true CN109147831A (zh) 2019-01-04

Family

ID=64812482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811122158.0A Pending CN109147831A (zh) 2018-09-26 2018-09-26 一种语音连接播放方法、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109147831A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147342A (zh) * 2019-05-31 2019-08-20 深圳市语芯维电子有限公司 一种语音实现计算器功能的方法和装置
WO2020155780A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 一种文件的合并方法、文件的打开方法及相关设备
CN111726458A (zh) * 2020-06-05 2020-09-29 北方工业大学 在干扰消失后手机控制回放视频流完整且按时播放的方法
CN112073294A (zh) * 2020-07-31 2020-12-11 北京三快在线科技有限公司 通知消息的语音播放方法、装置、电子设备及介质
WO2020248524A1 (zh) * 2019-06-13 2020-12-17 苏州思必驰信息科技有限公司 人机对话方法及电子设备
CN112291281A (zh) * 2019-07-09 2021-01-29 钉钉控股(开曼)有限公司 语音播报及语音播报内容的设定方法和装置
CN112307252A (zh) * 2020-10-29 2021-02-02 维沃移动通信有限公司 文件处理方法、装置及电子设备
CN112820307A (zh) * 2020-02-19 2021-05-18 腾讯科技(深圳)有限公司 语音消息处理方法、装置、设备及介质
CN113742511A (zh) * 2021-07-27 2021-12-03 西安广和通无线通信有限公司 一种音频处理方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455386A (zh) * 2002-11-01 2003-11-12 中国科学院声学研究所 一种嵌入式语音合成方法及***
US20110200116A1 (en) * 2010-02-17 2011-08-18 JBF Interlude 2009 LTD System and method for seamless multimedia assembly
CN103531218A (zh) * 2013-04-17 2014-01-22 Tcl集团股份有限公司 一种在线多媒体文件编辑方法及***
CN106155470A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 一种音频文件生成方法及装置
CN106601233A (zh) * 2016-12-22 2017-04-26 北京元心科技有限公司 语音命令识别方法、装置及电子设备
CN108182945A (zh) * 2018-03-12 2018-06-19 广州势必可赢网络科技有限公司 一种基于声纹特征的多人声音分离方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1455386A (zh) * 2002-11-01 2003-11-12 中国科学院声学研究所 一种嵌入式语音合成方法及***
US20110200116A1 (en) * 2010-02-17 2011-08-18 JBF Interlude 2009 LTD System and method for seamless multimedia assembly
CN103531218A (zh) * 2013-04-17 2014-01-22 Tcl集团股份有限公司 一种在线多媒体文件编辑方法及***
CN106155470A (zh) * 2015-04-21 2016-11-23 阿里巴巴集团控股有限公司 一种音频文件生成方法及装置
CN106601233A (zh) * 2016-12-22 2017-04-26 北京元心科技有限公司 语音命令识别方法、装置及电子设备
CN108182945A (zh) * 2018-03-12 2018-06-19 广州势必可赢网络科技有限公司 一种基于声纹特征的多人声音分离方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范永龙,张梅: "《基于C语言的WAV文件的合成实现》", 《基于C语言的WAV文件的合成实现》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155780A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 一种文件的合并方法、文件的打开方法及相关设备
CN110147342A (zh) * 2019-05-31 2019-08-20 深圳市语芯维电子有限公司 一种语音实现计算器功能的方法和装置
WO2020248524A1 (zh) * 2019-06-13 2020-12-17 苏州思必驰信息科技有限公司 人机对话方法及电子设备
US11551693B2 (en) 2019-06-13 2023-01-10 Ai Speech Co., Ltd. Method of man-machine interaction and electronic device
CN112291281A (zh) * 2019-07-09 2021-01-29 钉钉控股(开曼)有限公司 语音播报及语音播报内容的设定方法和装置
CN112291281B (zh) * 2019-07-09 2023-11-03 钉钉控股(开曼)有限公司 语音播报及语音播报内容的设定方法和装置
CN112820307A (zh) * 2020-02-19 2021-05-18 腾讯科技(深圳)有限公司 语音消息处理方法、装置、设备及介质
CN112820307B (zh) * 2020-02-19 2023-12-15 腾讯科技(深圳)有限公司 语音消息处理方法、装置、设备及介质
CN111726458A (zh) * 2020-06-05 2020-09-29 北方工业大学 在干扰消失后手机控制回放视频流完整且按时播放的方法
CN112073294A (zh) * 2020-07-31 2020-12-11 北京三快在线科技有限公司 通知消息的语音播放方法、装置、电子设备及介质
CN112307252A (zh) * 2020-10-29 2021-02-02 维沃移动通信有限公司 文件处理方法、装置及电子设备
CN113742511A (zh) * 2021-07-27 2021-12-03 西安广和通无线通信有限公司 一种音频处理方法及相关装置

Similar Documents

Publication Publication Date Title
CN109147831A (zh) 一种语音连接播放方法、终端设备及计算机可读存储介质
WO2020248393A1 (zh) 语音合成方法、***、终端设备和可读存储介质
ES2712131T3 (es) Método de formalización y estructuración de información multinivel y multiestructural y aparato asociado
WO2022178969A1 (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN107464555A (zh) 向包含语音的音频数据添加背景声音
WO2022142850A1 (zh) 音频处理方法、装置、声码器、电子设备、计算机可读存储介质及计算机程序产品
CN109102796A (zh) 一种语音合成方法及装置
US20230127787A1 (en) Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium
CN112802446A (zh) 音频合成方法及装置、电子设备和计算机可读存储介质
US11322133B2 (en) Expressive text-to-speech utilizing contextual word-level style tokens
CN113035228A (zh) 声学特征提取方法、装置、设备及存储介质
CN116386594A (zh) 语音合成方法、语音合成装置、电子设备及存储介质
CN116665642A (zh) 语音合成方法、语音合成***、电子设备及存储介质
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
CN116645961A (zh) 语音识别方法、语音识别装置、电子设备及存储介质
CN112242134A (zh) 语音合成方法及装置
CN114495896A (zh) 一种语音播放方法及计算机设备
CN113870827A (zh) 一种语音合成模型的训练方法、装置、设备及介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN113450756A (zh) 一种语音合成模型的训练方法及一种语音合成方法
Bous A neural voice transformation framework for modification of pitch and intensity
CN115132204B (zh) 一种语音处理方法、设备、存储介质及计算机程序产品
Nicol Development and exploration of a timbre space representation of audio
Noufi The Holistic Voice: Examining Vocal Expression through Context, Perception, and Production

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication