CN103491429A - 一种音频处理方法和音频处理设备 - Google Patents

一种音频处理方法和音频处理设备 Download PDF

Info

Publication number
CN103491429A
CN103491429A CN201310397999.3A CN201310397999A CN103491429A CN 103491429 A CN103491429 A CN 103491429A CN 201310397999 A CN201310397999 A CN 201310397999A CN 103491429 A CN103491429 A CN 103491429A
Authority
CN
China
Prior art keywords
content
voice data
language form
video
object language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310397999.3A
Other languages
English (en)
Inventor
黄家旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd
Original Assignee
Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd filed Critical Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd
Priority to CN201310397999.3A priority Critical patent/CN103491429A/zh
Publication of CN103491429A publication Critical patent/CN103491429A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了音频处理方法和音频处理装置,其中,所述音频处理装置包括:第一提取单元,用于通过移动终端,从音频流中提取携带待目标内容的音频数据;识别单元,用于识别出所述音频数据对应的文字内容;第二提取单元,用于获取用户的偏好语言,以作为目标语言;转换单元,用于将所述文字内容转成目标语言格式的文字内容,所述目标语言格式的文字内容为采用目标语言描述的文字内容;替代单元,用于将所述目标语言格式的文字内容,转换为目标语言格式的音频数据,以替代所述待目标的音频数据。本发明可根据用户的喜好来转换音频内容,提高了用户的满意度。

Description

一种音频处理方法和音频处理设备
技术领域
本发明涉及音频处理技术领域,特别是一种音频处理方法和音频处理设备。
背景技术
目前,移动终端已成为炙手可热的通讯工具,方便了人们实时进行移动通讯;第三方应用程序的引入,丰富了移动终端的功能,扩大了移动终端的应用领域。
当移动终端安装相应的播放器时,可以下载音乐、视频,然后收听、观看,或在线收听音乐,或在线观看视频;随着网络的普及,促进了各国、各地方的文化传播;若音乐、视频采用的陌生的语音,用户很难听懂或看懂,极大地限制了网络、音乐、视频的适用范围。
发明内容
为此,本发明提出一种音频处理方法和音频处理设备,可充分地消除由于现有技术的限制和缺陷导致的一个或多个问题。
本发明另外的优点、目的和特性,一部分将在下面的说明书中得到阐明,而另一部分对于本领域的普通技术人员通过对下面的说明的考察将是明显的或从本发明的实施中学到。通过在文字的说明书和权利要求书及附图中特别地指出的结构可实现和获得本发明目的和优点。
本发明提供了一种音频处理设备,其特征在于,所述音频处理设备包括:
第一提取单元,用于通过移动终端,从音频流中提取携带待目标内容的音频数据;
识别单元,用于识别出所述音频数据对应的文字内容;
第二提取单元,用于获取用户的偏好语言,以作为目标语言;
转换单元,用于将所述文字内容转成目标语言格式的文字内容,所述目标语言格式的文字内容为采用目标语言描述的文字内容;
替代单元,用于将所述目标语言格式的文字内容,转换为目标语言格式的音频数据,以替代所述待目标的音频数据。
优选的,所述识别单元利用语音识别技术,来识别出所述音频数据对应的文字内容。
优选的,所述音频处理设备还包括:
视频提取单元,用于通过移动终端,从视频流中提取与字幕相关的视频数据;
视频识别单元,用于根据字幕相关的视频数据,识别出字幕内容;
优选的,所述音频处理设备还包括:
视频转换单元,用于将所述字幕内容,转换成目标语言格式的字幕内容,所述目标语言格式的字幕内容为采用目标语言描述的字幕内容;
视频替代单元,用于将所述目标语言格式的字幕内容,转换为目标语言格式的视频数据,以替代所述与字幕相关的视频数据。
优选的,所述音频处理设备还包括:
时间戳单元,用于预先获取所述音频数据与所述视频数据的同步时间戳;
同步单元,用于通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
本发明还提供了一种音频处理方法,其特征在于,所述方法包括:
通过移动终端,从音频流中提取携带待翻译内容的音频数据;
识别出所述音频数据对应的文字内容;
获取用户的偏好语言,以作为目标语言;
将所述文字内容转换成目标语言格式的文字内容,所述目标语言格式的文字内容为采用目标语言描述的文字内容;
将所述目标语言格式的文字内容,转换为目标语言格式的音频数据,以替代所述待转换的音频数据。
优选的,利用语音识别技术,来识别出所述音频数据对应的文字内容。
优选的,所述方法还包括:
通过移动终端,从视频流中提取与字幕相关的视频数据;
根据字幕相关的视频数据,识别出字幕内容;
将所述字幕内容,转换成目标语言格式的字幕内容,所述目标语言格式的字幕内容为采用目标语言描述的字幕内容;
将所述目标语言格式的字幕内容,转换为目标语言格式的视频数据,以替换所述与字幕相关的视频数据。
本发明实现将陌生语言的音频流转换为偏好语言格式的音频流,以偏好语言呈现内容给用户,更具人性化,也更具通用性。
附图说明
图1为根据本发明实施例的、音频处理方法的流程图。
图2为根据本发明实施例的、音频处理设备的结构示意图。
具体实施方式
图1示出了根据本发明实施例的、音频处理方法的流程图,具体步骤详述如下:
步骤S101,通过移动终端,从音频流中提取携带待翻译内容的音频数据。
播放软件播放音频流,所述音频流中包含着音频数据,该音频数据记载着背景音乐以及录制的内容。若需要,可以从音频流中提取携带待翻译内容的音频数据。例如:当用户通过移动终端收听音乐时,为了实现将音乐以用户指定的语言播放,首先,从音乐播放文件中提取出音频流,在滤除背景音乐后,从音频流中提取出与语音相关的音频数据,例如:滤除背景音乐后,提取出歌曲。
作为本发明另一实施例,述通过移动终端,从音频流中提取携带待翻译内容的音频数据的步骤之前,所述方法还包括:
获取用户的偏好语言,以作为翻译语言。
所述偏好语言包括全球各地方言、全球各国母语。
首先,在获取到用户设置翻译语言的指令后,移动终端弹出语言选择对话框,在该对话框的语音栏中,列出了本地和/或服务器包括的所有语言种类;用户可以根据偏好,选取至少一种偏好语言,将所选的偏好语言设置为翻译语言,并根据用户的优选选择设置优选顺序,例如:将中文设置为第一翻译语言,将四川方言设置为第二翻译语言,将英语设置为第三翻译语言;当确认翻译语言设置完成后,将音频数据对应的文字内容翻译成第一翻译语言的文字内容时,若在本地和服务器中均未查找到第一翻译语言对应的文字库,根据翻译语言的优选顺序,查找第二翻译语言对应的文字库,若查找成功,则根据第二翻译语音的文字库,将音频数据对应的文字内容翻译成第二翻译语言的文字内容,所述文字库包括待翻译的文字与翻译文字的映射关系;以此类推,若未查找成功,根据翻译语言的优选顺序依次查找,当针对所有的翻译语言,都未查找到对应的文字库,则保留原音频流以播放。
优选的是,在播放视频和/或音频时,用户可以根据自己的偏好,更改翻译语言。具体地,当获取到更改指令后,调用语言选择对话框以实现翻译语言的更改。
优选的是,可以通过移动终端自带的麦克风,获取用户录入的语音,根据语言库,识别出该录入的语音的语言种类。将识别出的语言作为翻译语言,当然,也可以多次录入不同的语言,然后对获取到的所有翻译语言排列优选顺序。
步骤S102,利用语音识别技术,识别出所述音频数据对应的文字内容。
将二进制的音频数据录入语音识别装置,该语音识别装置采用语音识别技术,识别出该音频数据对应的文字内容。
步骤S103,将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。
采用现有的语言翻译软件,将所述文字内容翻译成翻译语言格式的文字内容。
步骤S104,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。
所述翻译语言格式的音频数据为采用翻译语言录制、形成的音频数据。
根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容,重新录制翻译语言的音频数据;将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地,在保持携带待翻译内容的音频数据的同步时间戳不变的情况下,将翻译语言格式的音频数据替换携带待翻译内容的音频数据,保持了音频流同步播放,实现音频语音的转变。
作为本发明另一实施例,所述方法还包括:
通过移动终端,从视频流中提取与字幕相关的视频数据;
根据字幕相关的视频数据,识别出字幕内容;
将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容;
将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。
移动终端通过视频软件播放视频文件,所述视频文件包括视频流和/或音频流;待获取到视频流后,从所述视频流中提取与字幕相关的视频数据,具体地,与字幕相关的视频数据为携带字幕包括的文字内容的视频数据,同时,提取该字幕的时间戳;待识别出字幕内容后,将所述字幕内容,翻译成翻译语言格式的字幕内容;将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据;然后,根据字幕的时间戳,控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时,字幕将以翻译语言格式显示字幕内容。
作为本发明另一实施例,所述方法还包括:
预先获取所述音频数据与所述视频数据的同步时间戳;
通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
在观看视频时,为了更好地翻译及显示,保持视频流和音频流同步,预先获取音频数据与视频数据的同步时间戳,所述音频数据与视频数据的同步时间戳包括:音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳;通过上述三个时间戳,同时实现以下同步控制:
通过音频数据的时间戳,控制翻译语言格式的音频数据替换携带待翻译内容的音频数据;
通过字幕的时间戳,控制翻译语言格式的视频数据替换原与字幕相关的视频数据;
通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
本实施例提供了一种基于移动终端的音频处理方法,用户使用移动终端收听时,预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳,利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。
实施例二:
图2示出了本发明实施例提供的基于移动终端的音频处理设备的组成结构,为了便于描述,仅示出了与本发明实施例相关的部分;
所述基于移动终端的音频处理设备可以是运行于移动终端设备内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到所述终端设备中或者运行于所述终端设备的应用***中。
一种基于移动终端的音频处理设备,所述基于移动终端的音频处理设备可以包括提取单元21、识别单元22、翻译单元23以及替换单元24,各功能单元的具体功能描述如下:
提取单元21,用于通过移动终端,从音频流中提取携带待翻译内容的音频数据。
播放软件播放音频流,所述音频流中包含着音频数据,该音频数据记载着背景音乐以及录制的内容。若需要,可以通过提取单元21从音频流中提取携带待翻译内容的音频数据。例如:当用户通过移动终端收听音乐时,为了实现将音乐以用户指定的语言播放,首先,从音乐播放文件中提取出音频流,在滤除背景音乐后,提取单元21从音频流中提取出与语音相关的音频数据,例如:滤除背景音乐后,提取出歌曲。
作为本发明另一实施例,所述装置还包括:
获取单元25,用于获取用户的偏好语言,以作为翻译语言。
所述偏好语言包括全球各地方言、全球各国母语。
首先,在获取到用户设置翻译语言的指令后,获取单元25弹出语言选择对话框,在该对话框的语音栏中,列出了本地和/或服务器包括的所有语言种类;用户可以根据偏好,选取至少一种偏好语言,获取单元25将所选的偏好语言设置为翻译语言,并根据用户的优选选择设置优选顺序,例如:获取单元25将中文设置为第一翻译语言,将四川方言设置为第二翻译语言,将英语设置为第三翻译语言;当确认翻译语言设置完成后,将音频数据对应的文字内容翻译成第一翻译语言的文字内容时,若在本地和服务器中均未查找到第一翻译语言对应的文字库,根据翻译语言的优选顺序,查找第二翻译语言对应的文字库,若查找成功,则根据第二翻译语音的文字库,将音频数据对应的文字内容翻译成第二翻译语言的文字内容,所述文字库包括待翻译的文字与翻译文字的映射关系;以此类推,若未查找成功,根据翻译语言的优选顺序依次查找,当针对所有的翻译语言,都未查找到对应的文字库,则保留原音频流以播放。
优选的是,在播放视频和/或音频时,用户可以根据自己的偏好,更改翻译语言。具体地,当获取到更改指令后,获取单元25调用语言选择对话框以实现翻译语言的更改。
优选的是,可以通过移动终端自带的麦克风,获取用户录入的语音,根据语言库,识别出该录入的语音的语言种类。将识别出的语言作为翻译语言,当然,也可以多次录入不同的语言,然后对获取到的所有翻译语言排列优选顺序。
识别单元22,用于利用语音识别技术,识别出所述音频数据对应的文字内容。
识别单元22将二进制的音频数据录入语音识别装置,该语音识别装置采用语音识别技术,识别出该音频数据对应的文字内容。
翻译单元(即,转换单元)23,用于将所述文字内容翻译成翻译语言格式的文字内容,所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。
翻译单元23采用现有的语言翻译软件,将所述文字内容翻译成翻译语言格式的文字内容。
替换单元24,用于将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据。
所述翻译语言格式的音频数据为采用翻译语言录制、形成的音频数据。
替换单元24根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容,重新录制翻译语言的音频数据;替换单元24将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地,在保持携带待翻译内容的音频数据的同步时间戳不变的情况下,替换单元24将翻译语言格式的音频数据替换携带待翻译内容的音频数据,保持了音频流同步播放,实现音频语音的转变。
作为本发明另一实施例,所述装置还包括:
视频提取单元26,用于通过移动终端,从视频流中提取与字幕相关的视频数据;
视频识别单元27,用于根据字幕相关的视频数据,识别出字幕内容;
视频翻译单元28,用于将所述字幕内容,翻译成翻译语言格式的字幕内容,所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容;
视频替换单元29,用于将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据,以替换所述与字幕相关的视频数据。
移动终端通过视频软件播放视频文件,所述视频文件包括视频流和/或音频流;待获取到视频流后,视频提取单元26从所述视频流中提取与字幕相关的视频数据,具体地,与字幕相关的视频数据为携带字幕包括的文字内容的视频数据,同时,提取该字幕的时间戳;待视频识别单元27识别出字幕内容后,视频翻译单元28将所述字幕内容,翻译成翻译语言格式的字幕内容;视频替换单元29将所述翻译语言格式的字幕内容,转换为翻译语言格式的视频数据;然后,根据字幕的时间戳,视频替换单元29控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时,字幕将以翻译语言格式显示字幕内容。
作为本发明另一实施例,所述装置还包括:
时间戳单元30,用于预先获取所述音频数据与所述视频数据的同步时间戳;
同步单元31,用于通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
在观看视频时,为了更好地翻译及显示,保持视频流和音频流同步,时间戳单元30预先获取音频数据与视频数据的同步时间戳,所述音频数据与视频数据的同步时间戳包括:音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳;通过上述三个时间戳,同时实现以下同步控制:
通过音频数据的时间戳,替换单元24控制翻译语言格式的音频数据替换携带待翻译内容的音频数据;
通过字幕的时间戳,视频替换单元29控制翻译语言格式的视频数据替换原与字幕相关的视频数据;
通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳,同步单元31控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。
从而,保持了语音或视频在语言翻译前后的播放时间正确。
本实施例提供了一种基于移动终端的音频处理设备,用户使用移动终端收听时,获取单元预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,提取单元从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳,识别单元利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,翻译单元将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换单元替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,时间戳单元从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,同步单元控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。
作为本发明一实施例,本发明提供了一种移动终端,所述移动终端上述的基于移动终端的音频处理设备。
所述移动终端可以为但不局限于智能手机和IPAD等。
本发明实施例提供一种基于移动终端的音频处理方法及装置,用户使用移动终端收听时,预先获取用户的偏好语言,以作为翻译语言,当需要翻译时,从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳,利用语音识别技术,识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容,将所述翻译语言格式的文字内容,转换为翻译语言格式的音频数据,以替换所述待翻译的音频数据;更优的是,若播放媒体为视频时,在翻译语音内容的同时,从视频流中提取与字幕相关的视频数据和同步时间戳,将翻译语言格式的音频数据替换所述待翻译的音频数据,将翻译语言格式的视频数据替换所述与字幕相关的视频数据,更优的是,通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步;从而,实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户,更具人性化,更具通用性。
本领域技术人员可以理解为上述实施例二包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上内容仅为本发明的较佳实施例,对于本领域的普通技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种音频处理设备,其特征在于,所述音频处理设备包括: 
第一提取单元,用于通过移动终端,从音频流中提取携带待目标内容的音频数据; 
识别单元,用于识别出所述音频数据对应的文字内容; 
第二提取单元,用于获取用户的偏好语言,以作为目标语言; 
转换单元,用于将所述文字内容转成目标语言格式的文字内容,所述目标语言格式的文字内容为采用目标语言描述的文字内容; 
替代单元,用于将所述目标语言格式的文字内容,转换为目标语言格式的音频数据,以替代所述待目标的音频数据。 
2.根据权利要求1所述的音频处理设备,其特征在于,所述识别单元利用语音识别技术,来识别出所述音频数据对应的文字内容。 
3.根据权利要求1所述的音频处理设备,其特征在于,所述音频处理设备还包括: 
视频提取单元,用于通过移动终端,从视频流中提取与字幕相关的视频数据; 
视频识别单元,用于根据字幕相关的视频数据,识别出字幕内容。 
4.根据权利要求3所述的音频处理设备,其特征在于,所述音频处理设备还包括: 
视频转换单元,用于将所述字幕内容,转换成目标语言格式的字幕内容,所述目标语言格式的字幕内容为采用目标语言描述的字幕内容; 
视频替代单元,用于将所述目标语言格式的字幕内容,转换为目标语言格式的视频数据,以替代所述与字幕相关的视频数据。 
5.根据权利要求1-4中任意一项所述的音频处理设备,其特征在于,所述音频处理设备还包括: 
时间戳单元,用于预先获取所述音频数据与所述视频数据的同步时间戳; 
同步单元,用于通过所述同步时间戳,控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。 
6.一种音频处理方法,其特征在于,所述方法包括: 
通过移动终端,从音频流中提取携带待翻译内容的音频数据; 
识别出所述音频数据对应的文字内容; 
获取用户的偏好语言,以作为目标语言; 
将所述文字内容转换成目标语言格式的文字内容,所述目标语言格式的文字内容为采用目标语言描述的文字内容; 
将所述目标语言格式的文字内容,转换为目标语言格式的音频数据,以替代所述待转换的音频数据。 
7.根据权利要求6所述的音频处理方法,其特征在于,利用语音识别技术,来识别出所述音频数据对应的文字内容。 
8.根据权利要求6所述的音频处理方法,其特征在于,所述方法还包括: 
通过移动终端,从视频流中提取与字幕相关的视频数据; 
根据字幕相关的视频数据,识别出字幕内容; 
将所述字幕内容,转换成目标语言格式的字幕内容,所述目标语言格式的字幕内容为采用目标语言描述的字幕内容; 
将所述目标语言格式的字幕内容,转换为目标语言格式的视频数据,以替换所述与字幕相关的视频数据。 
CN201310397999.3A 2013-09-04 2013-09-04 一种音频处理方法和音频处理设备 Pending CN103491429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310397999.3A CN103491429A (zh) 2013-09-04 2013-09-04 一种音频处理方法和音频处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310397999.3A CN103491429A (zh) 2013-09-04 2013-09-04 一种音频处理方法和音频处理设备

Publications (1)

Publication Number Publication Date
CN103491429A true CN103491429A (zh) 2014-01-01

Family

ID=49831341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310397999.3A Pending CN103491429A (zh) 2013-09-04 2013-09-04 一种音频处理方法和音频处理设备

Country Status (1)

Country Link
CN (1) CN103491429A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103997657A (zh) * 2014-06-06 2014-08-20 福建天晴数码有限公司 一种视频中音频的变换方法及装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105609106A (zh) * 2015-12-16 2016-05-25 魅族科技(中国)有限公司 记事文档生成方法和装置
CN105828101A (zh) * 2016-03-29 2016-08-03 北京小米移动软件有限公司 生成字幕文件的方法及装置
CN105917405A (zh) * 2014-01-17 2016-08-31 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及***
CN109274900A (zh) * 2018-09-05 2019-01-25 浙江工业大学 一种视频配音方法
CN109830239A (zh) * 2017-11-21 2019-05-31 群光电子股份有限公司 语音处理装置、语音识别输入***及语音识别输入方法
WO2019205870A1 (zh) * 2018-04-24 2019-10-31 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN110767233A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种语音转换***及方法
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN111787155A (zh) * 2020-06-30 2020-10-16 深圳传音控股股份有限公司 音频数据处理方法、终端设备及介质
CN111800543A (zh) * 2020-06-30 2020-10-20 深圳传音控股股份有限公司 音频文件的处理方法、终端设备及存储介质
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN112786025A (zh) * 2020-12-28 2021-05-11 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法
WO2022000829A1 (zh) * 2020-06-30 2022-01-06 深圳传音控股股份有限公司 音频数据处理方法、终端设备及计算机可读存储介质

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN105917405A (zh) * 2014-01-17 2016-08-31 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
CN105917405B (zh) * 2014-01-17 2019-11-05 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
US10311878B2 (en) 2014-01-17 2019-06-04 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN103997657A (zh) * 2014-06-06 2014-08-20 福建天晴数码有限公司 一种视频中音频的变换方法及装置
CN105244026B (zh) * 2015-08-24 2019-09-20 北京意匠文枢科技有限公司 一种语音处理方法及装置
CN105244026A (zh) * 2015-08-24 2016-01-13 陈娟 一种语音处理方法及装置
CN105609106A (zh) * 2015-12-16 2016-05-25 魅族科技(中国)有限公司 记事文档生成方法和装置
CN105828101A (zh) * 2016-03-29 2016-08-03 北京小米移动软件有限公司 生成字幕文件的方法及装置
CN105828101B (zh) * 2016-03-29 2019-03-08 北京小米移动软件有限公司 生成字幕文件的方法及装置
WO2018121001A1 (zh) * 2016-12-30 2018-07-05 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法、***及智能终端
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及***
CN109830239A (zh) * 2017-11-21 2019-05-31 群光电子股份有限公司 语音处理装置、语音识别输入***及语音识别输入方法
CN109830239B (zh) * 2017-11-21 2021-07-06 群光电子股份有限公司 语音处理装置、语音识别输入***及语音识别输入方法
WO2019205870A1 (zh) * 2018-04-24 2019-10-31 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
US11252444B2 (en) 2018-04-24 2022-02-15 Tencent Technology (Shenzhen) Company Limited Video stream processing method, computer device, and storage medium
CN109274900A (zh) * 2018-09-05 2019-01-25 浙江工业大学 一种视频配音方法
CN110767233A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种语音转换***及方法
CN111787155A (zh) * 2020-06-30 2020-10-16 深圳传音控股股份有限公司 音频数据处理方法、终端设备及介质
CN111800543A (zh) * 2020-06-30 2020-10-20 深圳传音控股股份有限公司 音频文件的处理方法、终端设备及存储介质
WO2022000829A1 (zh) * 2020-06-30 2022-01-06 深圳传音控股股份有限公司 音频数据处理方法、终端设备及计算机可读存储介质
CN112786025A (zh) * 2020-12-28 2021-05-11 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法
CN112786025B (zh) * 2020-12-28 2023-11-14 腾讯音乐娱乐科技(深圳)有限公司 确定歌词时间戳信息的方法和声学模型的训练方法

Similar Documents

Publication Publication Date Title
CN103491429A (zh) 一种音频处理方法和音频处理设备
CN103226947B (zh) 一种基于移动终端的音频处理方法及装置
CN105245917B (zh) 一种多媒体语音字幕生成的***和方法
US9799375B2 (en) Method and device for adjusting playback progress of video file
CN110035326A (zh) 字幕生成、基于字幕的视频检索方法、装置和电子设备
US10529340B2 (en) Voiceprint registration method, server and storage medium
CN104252861A (zh) 视频语音转换方法、装置和服务器
CN105704538A (zh) 一种音视频字幕生成方法及***
US20140372100A1 (en) Translation system comprising display apparatus and server and display apparatus controlling method
CN107644637B (zh) 语音合成方法和装置
CN102568478A (zh) 一种基于语音识别的视频播放控制方法和***
CN103067775A (zh) 一种音视频终端的字幕显示方法、音视频终端及服务器
WO2014141054A1 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
CN104078044A (zh) 移动终端及其录音搜索的方法和装置
CN105635782A (zh) 一种字幕输出方法及装置
CN110781328A (zh) 基于语音识别的视频生成方法、***、装置和存储介质
CN105489072A (zh) 用于确定电子设备中增补内容的方法
CN111050201A (zh) 数据处理方法、装置、电子设备及存储介质
CN105224581A (zh) 在播放音乐时呈现图片的方法和装置
US11714973B2 (en) Methods and systems for control of content in an alternate language or accent
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
Pleva et al. TUKE-BNews-SK: Slovak Broadcast News Corpus Construction and Evaluation.
KR20150088564A (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
CN110324702A (zh) 视频播放过程中的信息推送方法和装置
CN102955809A (zh) 媒体文件编辑和播放的方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140101

WD01 Invention patent application deemed withdrawn after publication