CN103491429A

CN103491429A - 一种音频处理方法和音频处理设备

Info

Publication number: CN103491429A
Application number: CN201310397999.3A
Authority: CN
Inventors: 黄家旺
Original assignee: Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd
Current assignee: Zhangjiagang Free Trade Zone Runtong Electronic Technology R & D Co Ltd
Priority date: 2013-09-04
Filing date: 2013-09-04
Publication date: 2014-01-01

Abstract

本发明提供了音频处理方法和音频处理装置，其中，所述音频处理装置包括：第一提取单元，用于通过移动终端，从音频流中提取携带待目标内容的音频数据；识别单元，用于识别出所述音频数据对应的文字内容；第二提取单元，用于获取用户的偏好语言，以作为目标语言；转换单元，用于将所述文字内容转成目标语言格式的文字内容，所述目标语言格式的文字内容为采用目标语言描述的文字内容；替代单元，用于将所述目标语言格式的文字内容，转换为目标语言格式的音频数据，以替代所述待目标的音频数据。本发明可根据用户的喜好来转换音频内容，提高了用户的满意度。

Description

一种音频处理方法和音频处理设备

技术领域

本发明涉及音频处理技术领域，特别是一种音频处理方法和音频处理设备。

背景技术

目前，移动终端已成为炙手可热的通讯工具，方便了人们实时进行移动通讯；第三方应用程序的引入，丰富了移动终端的功能，扩大了移动终端的应用领域。

当移动终端安装相应的播放器时，可以下载音乐、视频，然后收听、观看，或在线收听音乐，或在线观看视频；随着网络的普及，促进了各国、各地方的文化传播；若音乐、视频采用的陌生的语音，用户很难听懂或看懂，极大地限制了网络、音乐、视频的适用范围。

发明内容

为此，本发明提出一种音频处理方法和音频处理设备，可充分地消除由于现有技术的限制和缺陷导致的一个或多个问题。

本发明另外的优点、目的和特性，一部分将在下面的说明书中得到阐明，而另一部分对于本领域的普通技术人员通过对下面的说明的考察将是明显的或从本发明的实施中学到。通过在文字的说明书和权利要求书及附图中特别地指出的结构可实现和获得本发明目的和优点。

本发明提供了一种音频处理设备，其特征在于，所述音频处理设备包括：

第一提取单元，用于通过移动终端，从音频流中提取携带待目标内容的音频数据；

识别单元，用于识别出所述音频数据对应的文字内容；

第二提取单元，用于获取用户的偏好语言，以作为目标语言；

转换单元，用于将所述文字内容转成目标语言格式的文字内容，所述目标语言格式的文字内容为采用目标语言描述的文字内容；

替代单元，用于将所述目标语言格式的文字内容，转换为目标语言格式的音频数据，以替代所述待目标的音频数据。

优选的，所述识别单元利用语音识别技术，来识别出所述音频数据对应的文字内容。

优选的，所述音频处理设备还包括：

视频提取单元，用于通过移动终端，从视频流中提取与字幕相关的视频数据；

视频识别单元，用于根据字幕相关的视频数据，识别出字幕内容；

优选的，所述音频处理设备还包括：

视频转换单元，用于将所述字幕内容，转换成目标语言格式的字幕内容，所述目标语言格式的字幕内容为采用目标语言描述的字幕内容；

视频替代单元，用于将所述目标语言格式的字幕内容，转换为目标语言格式的视频数据，以替代所述与字幕相关的视频数据。

优选的，所述音频处理设备还包括：

时间戳单元，用于预先获取所述音频数据与所述视频数据的同步时间戳；

同步单元，用于通过所述同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。

本发明还提供了一种音频处理方法，其特征在于，所述方法包括：

通过移动终端，从音频流中提取携带待翻译内容的音频数据；

识别出所述音频数据对应的文字内容；

获取用户的偏好语言，以作为目标语言；

将所述文字内容转换成目标语言格式的文字内容，所述目标语言格式的文字内容为采用目标语言描述的文字内容；

将所述目标语言格式的文字内容，转换为目标语言格式的音频数据，以替代所述待转换的音频数据。

优选的，利用语音识别技术，来识别出所述音频数据对应的文字内容。

优选的，所述方法还包括：

通过移动终端，从视频流中提取与字幕相关的视频数据；

根据字幕相关的视频数据，识别出字幕内容；

将所述字幕内容，转换成目标语言格式的字幕内容，所述目标语言格式的字幕内容为采用目标语言描述的字幕内容；

将所述目标语言格式的字幕内容，转换为目标语言格式的视频数据，以替换所述与字幕相关的视频数据。

本发明实现将陌生语言的音频流转换为偏好语言格式的音频流，以偏好语言呈现内容给用户，更具人性化，也更具通用性。

附图说明

图1为根据本发明实施例的、音频处理方法的流程图。

图2为根据本发明实施例的、音频处理设备的结构示意图。

具体实施方式

图1示出了根据本发明实施例的、音频处理方法的流程图，具体步骤详述如下：

步骤S101，通过移动终端，从音频流中提取携带待翻译内容的音频数据。

播放软件播放音频流，所述音频流中包含着音频数据，该音频数据记载着背景音乐以及录制的内容。若需要，可以从音频流中提取携带待翻译内容的音频数据。例如：当用户通过移动终端收听音乐时，为了实现将音乐以用户指定的语言播放，首先，从音乐播放文件中提取出音频流，在滤除背景音乐后，从音频流中提取出与语音相关的音频数据，例如：滤除背景音乐后，提取出歌曲。

作为本发明另一实施例，述通过移动终端，从音频流中提取携带待翻译内容的音频数据的步骤之前，所述方法还包括：

获取用户的偏好语言，以作为翻译语言。

所述偏好语言包括全球各地方言、全球各国母语。

首先，在获取到用户设置翻译语言的指令后，移动终端弹出语言选择对话框，在该对话框的语音栏中，列出了本地和/或服务器包括的所有语言种类；用户可以根据偏好，选取至少一种偏好语言，将所选的偏好语言设置为翻译语言，并根据用户的优选选择设置优选顺序，例如：将中文设置为第一翻译语言，将四川方言设置为第二翻译语言，将英语设置为第三翻译语言；当确认翻译语言设置完成后，将音频数据对应的文字内容翻译成第一翻译语言的文字内容时，若在本地和服务器中均未查找到第一翻译语言对应的文字库，根据翻译语言的优选顺序，查找第二翻译语言对应的文字库，若查找成功，则根据第二翻译语音的文字库，将音频数据对应的文字内容翻译成第二翻译语言的文字内容，所述文字库包括待翻译的文字与翻译文字的映射关系；以此类推，若未查找成功，根据翻译语言的优选顺序依次查找，当针对所有的翻译语言，都未查找到对应的文字库，则保留原音频流以播放。

优选的是，在播放视频和/或音频时，用户可以根据自己的偏好，更改翻译语言。具体地，当获取到更改指令后，调用语言选择对话框以实现翻译语言的更改。

优选的是，可以通过移动终端自带的麦克风，获取用户录入的语音，根据语言库，识别出该录入的语音的语言种类。将识别出的语言作为翻译语言，当然，也可以多次录入不同的语言，然后对获取到的所有翻译语言排列优选顺序。

步骤S102，利用语音识别技术，识别出所述音频数据对应的文字内容。

将二进制的音频数据录入语音识别装置，该语音识别装置采用语音识别技术，识别出该音频数据对应的文字内容。

步骤S103，将所述文字内容翻译成翻译语言格式的文字内容，所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。

采用现有的语言翻译软件，将所述文字内容翻译成翻译语言格式的文字内容。

步骤S104，将所述翻译语言格式的文字内容，转换为翻译语言格式的音频数据，以替换所述待翻译的音频数据。

所述翻译语言格式的音频数据为采用翻译语言录制、形成的音频数据。

根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容，重新录制翻译语言的音频数据；将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地，在保持携带待翻译内容的音频数据的同步时间戳不变的情况下，将翻译语言格式的音频数据替换携带待翻译内容的音频数据，保持了音频流同步播放，实现音频语音的转变。

作为本发明另一实施例，所述方法还包括：

通过移动终端，从视频流中提取与字幕相关的视频数据；

根据字幕相关的视频数据，识别出字幕内容；

将所述字幕内容，翻译成翻译语言格式的字幕内容，所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容；

将所述翻译语言格式的字幕内容，转换为翻译语言格式的视频数据，以替换所述与字幕相关的视频数据。

移动终端通过视频软件播放视频文件，所述视频文件包括视频流和/或音频流；待获取到视频流后，从所述视频流中提取与字幕相关的视频数据，具体地，与字幕相关的视频数据为携带字幕包括的文字内容的视频数据，同时，提取该字幕的时间戳；待识别出字幕内容后，将所述字幕内容，翻译成翻译语言格式的字幕内容；将所述翻译语言格式的字幕内容，转换为翻译语言格式的视频数据；然后，根据字幕的时间戳，控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时，字幕将以翻译语言格式显示字幕内容。

作为本发明另一实施例，所述方法还包括：

预先获取所述音频数据与所述视频数据的同步时间戳；

通过所述同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。

在观看视频时，为了更好地翻译及显示，保持视频流和音频流同步，预先获取音频数据与视频数据的同步时间戳，所述音频数据与视频数据的同步时间戳包括：音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳；通过上述三个时间戳，同时实现以下同步控制：

通过音频数据的时间戳，控制翻译语言格式的音频数据替换携带待翻译内容的音频数据；

通过字幕的时间戳，控制翻译语言格式的视频数据替换原与字幕相关的视频数据；

通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。

本实施例提供了一种基于移动终端的音频处理方法，用户使用移动终端收听时，预先获取用户的偏好语言，以作为翻译语言，当需要翻译时，从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳，利用语音识别技术，识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容，将所述翻译语言格式的文字内容，转换为翻译语言格式的音频数据，以替换所述待翻译的音频数据；更优的是，若播放媒体为视频时，在翻译语音内容的同时，从视频流中提取与字幕相关的视频数据和同步时间戳，将翻译语言格式的音频数据替换所述待翻译的音频数据，将翻译语言格式的视频数据替换所述与字幕相关的视频数据，更优的是，通过所述同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步；从而，实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户，更具人性化，更具通用性。

实施例二：

图2示出了本发明实施例提供的基于移动终端的音频处理设备的组成结构，为了便于描述，仅示出了与本发明实施例相关的部分；

所述基于移动终端的音频处理设备可以是运行于移动终端设备内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到所述终端设备中或者运行于所述终端设备的应用***中。

一种基于移动终端的音频处理设备，所述基于移动终端的音频处理设备可以包括提取单元21、识别单元22、翻译单元23以及替换单元24，各功能单元的具体功能描述如下：

提取单元21，用于通过移动终端，从音频流中提取携带待翻译内容的音频数据。

播放软件播放音频流，所述音频流中包含着音频数据，该音频数据记载着背景音乐以及录制的内容。若需要，可以通过提取单元21从音频流中提取携带待翻译内容的音频数据。例如：当用户通过移动终端收听音乐时，为了实现将音乐以用户指定的语言播放，首先，从音乐播放文件中提取出音频流，在滤除背景音乐后，提取单元21从音频流中提取出与语音相关的音频数据，例如：滤除背景音乐后，提取出歌曲。

作为本发明另一实施例，所述装置还包括：

获取单元25，用于获取用户的偏好语言，以作为翻译语言。

所述偏好语言包括全球各地方言、全球各国母语。

首先，在获取到用户设置翻译语言的指令后，获取单元25弹出语言选择对话框，在该对话框的语音栏中，列出了本地和/或服务器包括的所有语言种类；用户可以根据偏好，选取至少一种偏好语言，获取单元25将所选的偏好语言设置为翻译语言，并根据用户的优选选择设置优选顺序，例如：获取单元25将中文设置为第一翻译语言，将四川方言设置为第二翻译语言，将英语设置为第三翻译语言；当确认翻译语言设置完成后，将音频数据对应的文字内容翻译成第一翻译语言的文字内容时，若在本地和服务器中均未查找到第一翻译语言对应的文字库，根据翻译语言的优选顺序，查找第二翻译语言对应的文字库，若查找成功，则根据第二翻译语音的文字库，将音频数据对应的文字内容翻译成第二翻译语言的文字内容，所述文字库包括待翻译的文字与翻译文字的映射关系；以此类推，若未查找成功，根据翻译语言的优选顺序依次查找，当针对所有的翻译语言，都未查找到对应的文字库，则保留原音频流以播放。

优选的是，在播放视频和/或音频时，用户可以根据自己的偏好，更改翻译语言。具体地，当获取到更改指令后，获取单元25调用语言选择对话框以实现翻译语言的更改。

识别单元22，用于利用语音识别技术，识别出所述音频数据对应的文字内容。

识别单元22将二进制的音频数据录入语音识别装置，该语音识别装置采用语音识别技术，识别出该音频数据对应的文字内容。

翻译单元（即，转换单元）23，用于将所述文字内容翻译成翻译语言格式的文字内容，所述翻译语言格式的文字内容为采用翻译语言描述的文字内容。

翻译单元23采用现有的语言翻译软件，将所述文字内容翻译成翻译语言格式的文字内容。

替换单元24，用于将所述翻译语言格式的文字内容，转换为翻译语言格式的音频数据，以替换所述待翻译的音频数据。

替换单元24根据音频流中记载的携带待翻译内容的音频数据对应的时间戳、翻译语言格式的文字内容，重新录制翻译语言的音频数据；替换单元24将翻译语言格式的音频数据替换所述携带待翻译内容的音频数据。具体地，在保持携带待翻译内容的音频数据的同步时间戳不变的情况下，替换单元24将翻译语言格式的音频数据替换携带待翻译内容的音频数据，保持了音频流同步播放，实现音频语音的转变。

作为本发明另一实施例，所述装置还包括：

视频提取单元26，用于通过移动终端，从视频流中提取与字幕相关的视频数据；

视频识别单元27，用于根据字幕相关的视频数据，识别出字幕内容；

视频翻译单元28，用于将所述字幕内容，翻译成翻译语言格式的字幕内容，所述翻译语言格式的字幕内容为采用翻译语言描述的字幕内容；

视频替换单元29，用于将所述翻译语言格式的字幕内容，转换为翻译语言格式的视频数据，以替换所述与字幕相关的视频数据。

移动终端通过视频软件播放视频文件，所述视频文件包括视频流和/或音频流；待获取到视频流后，视频提取单元26从所述视频流中提取与字幕相关的视频数据，具体地，与字幕相关的视频数据为携带字幕包括的文字内容的视频数据，同时，提取该字幕的时间戳；待视频识别单元27识别出字幕内容后，视频翻译单元28将所述字幕内容，翻译成翻译语言格式的字幕内容；视频替换单元29将所述翻译语言格式的字幕内容，转换为翻译语言格式的视频数据；然后，根据字幕的时间戳，视频替换单元29控制将翻译语言格式的视频数据替换所述与字幕相关的视频数据。重新播放翻译后的视频文件时，字幕将以翻译语言格式显示字幕内容。

作为本发明另一实施例，所述装置还包括：

时间戳单元30，用于预先获取所述音频数据与所述视频数据的同步时间戳；

同步单元31，用于通过所述同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。

在观看视频时，为了更好地翻译及显示，保持视频流和音频流同步，时间戳单元30预先获取音频数据与视频数据的同步时间戳，所述音频数据与视频数据的同步时间戳包括：音频数据的时间戳、字幕的时间戳、翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳；通过上述三个时间戳，同时实现以下同步控制：

通过音频数据的时间戳，替换单元24控制翻译语言格式的音频数据替换携带待翻译内容的音频数据；

通过字幕的时间戳，视频替换单元29控制翻译语言格式的视频数据替换原与字幕相关的视频数据；

通过翻译语言格式的音频数据与和翻译语言格式的视频数据的同步时间戳，同步单元31控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步。

从而，保持了语音或视频在语言翻译前后的播放时间正确。

本实施例提供了一种基于移动终端的音频处理设备，用户使用移动终端收听时，获取单元预先获取用户的偏好语言，以作为翻译语言，当需要翻译时，提取单元从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳，识别单元利用语音识别技术，识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容，翻译单元将所述翻译语言格式的文字内容，转换为翻译语言格式的音频数据，以替换单元替换所述待翻译的音频数据；更优的是，若播放媒体为视频时，在翻译语音内容的同时，时间戳单元从视频流中提取与字幕相关的视频数据和同步时间戳，将翻译语言格式的音频数据替换所述待翻译的音频数据，将翻译语言格式的视频数据替换所述与字幕相关的视频数据，更优的是，通过所述同步时间戳，同步单元控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步；从而，实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户，更具人性化，更具通用性。

作为本发明一实施例，本发明提供了一种移动终端，所述移动终端上述的基于移动终端的音频处理设备。

所述移动终端可以为但不局限于智能手机和IPAD等。

本发明实施例提供一种基于移动终端的音频处理方法及装置，用户使用移动终端收听时，预先获取用户的偏好语言，以作为翻译语言，当需要翻译时，从音频流中提取携带待翻译内容的音频数据和携带待翻译内容的音频数据的时间戳，利用语音识别技术，识别出所述音频数据对应的文字内容以翻译成翻译语言格式的文字内容，将所述翻译语言格式的文字内容，转换为翻译语言格式的音频数据，以替换所述待翻译的音频数据；更优的是，若播放媒体为视频时，在翻译语音内容的同时，从视频流中提取与字幕相关的视频数据和同步时间戳，将翻译语言格式的音频数据替换所述待翻译的音频数据，将翻译语言格式的视频数据替换所述与字幕相关的视频数据，更优的是，通过所述同步时间戳，控制所述翻译语言格式的音频数据与和所述翻译语言格式的视频数据同步；从而，实现将陌生语言的音频和/或视频转换为偏好语言格式呈现给用户，更具人性化，更具通用性。

本领域技术人员可以理解为上述实施例二包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以在存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理设备，其特征在于，所述音频处理设备包括：

识别单元，用于识别出所述音频数据对应的文字内容；

2.根据权利要求1所述的音频处理设备，其特征在于，所述识别单元利用语音识别技术，来识别出所述音频数据对应的文字内容。

3.根据权利要求1所述的音频处理设备，其特征在于，所述音频处理设备还包括：

视频识别单元，用于根据字幕相关的视频数据，识别出字幕内容。

4.根据权利要求3所述的音频处理设备，其特征在于，所述音频处理设备还包括：

5.根据权利要求1-4中任意一项所述的音频处理设备，其特征在于，所述音频处理设备还包括：

6.一种音频处理方法，其特征在于，所述方法包括：

识别出所述音频数据对应的文字内容；

获取用户的偏好语言，以作为目标语言；

7.根据权利要求6所述的音频处理方法，其特征在于，利用语音识别技术，来识别出所述音频数据对应的文字内容。

8.根据权利要求6所述的音频处理方法，其特征在于，所述方法还包括：

通过移动终端，从视频流中提取与字幕相关的视频数据；

根据字幕相关的视频数据，识别出字幕内容；