CN107424620A - 一种音频解码方法和装置 - Google Patents
一种音频解码方法和装置 Download PDFInfo
- Publication number
- CN107424620A CN107424620A CN201710625359.1A CN201710625359A CN107424620A CN 107424620 A CN107424620 A CN 107424620A CN 201710625359 A CN201710625359 A CN 201710625359A CN 107424620 A CN107424620 A CN 107424620A
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- decoding
- voice
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 206010002953 Aphonia Diseases 0.000 claims abstract description 43
- 230000015654 memory Effects 0.000 claims abstract description 27
- 238000004891 communication Methods 0.000 claims description 5
- 230000005055 memory storage Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 18
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 230000009467 reduction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及多方音视频会议领域,公开了一种音频解码方法和装置,其中音频解码方法包括以下步骤:对音频帧进行解码,得到解码结果;判断解码结果中是否存在语音;当不存在语音时,跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果的步骤,其中,N大于等于1。在音视频会议***中,多路终端接入时,解码端对没有声音的终端进行跳帧解码,有效降低了整个***的解码负载,降低***内存占用率,提高解码后的音频进入混音处理平台时的音质,同时也可以增加接入路数,提高***利用率。与现有技术相比,本发明提供的音频解码方法不需要对每个音频帧进行声学模型检测打分,进一步有效降低了平台资源的占用率。
Description
技术领域
本发明涉及音视频会议技术领域,具体涉及一种音频解码方法和装置。
背景技术
音视频会议,是提供音频和视频服务的远程会议,***是通过网络通信技术来实现的虚拟会议。目前,随着通信以及互联网技术的发展,远程音视频交互多方会议***已经迅速普及。
音视频会议***顾名思义是包含音频、视频另外还存在数据交互的一个完整***,具体在音频会议或者音视频会议召开时,需要将多个终端的音频接入平台然后进行混音处理并发回各个终端从而使得会议正常进行,其中对各个接入终端的音频数据进行解码然后混音是一个必经的过程,但是由于不是所有人都在发声,所以并不是所有的接入终端的音频都需要进入混音,只选择有声音的终端进入混音处理,可以有效降低服务器负载,同时也能提高混音后语音的质量。
为了实现上述目的,现在很多主流音视频会议厂家均采用解码后判断能量信息来决定哪个终端进入混音处理,然而这在多个终端接入的情况下,造成了音频解码的高负载以及对解码资源的严重浪费。也有一部分厂商采用在终端发送码流同时带上音频能量信息用于解决是否进行解码从而决定哪些终端进入混音处理的问题,但是这无法做到新老终端的兼容。
公开号CN106710606A的中国专利申请公开了一种基于人工智能的语音处理方法,包括以下步骤:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧,若为准静音帧,则在解码时跳过当前帧,不对当前帧进行解码;若不为准静音帧,则在解码时对当前帧进行解码。该语音处理方法虽然能够避免冗余解码,对于部分音频帧跳过不解码。但是仍存在以下问题:
1、该技术方案虽然对部分音频不解码,仍然需要对每个音频帧进行声学模型检测打分,仍需要占用平台资源;
2、当待解码的语音包为准静音帧和伪静音帧交替分布时,采用该种语音处理方法势必会导致前后语音的不连贯,影响对语音播放的效果。
发明内容
为此,本发明所要解决的技术问题是:现有技术中需要对每个音频帧进行声学模型检测打分,增加平台资源的占用。
为解决上述技术问题,本发明采用的技术方案如下:
本发明提供了一种音频解码方法,包括以下步骤:
对音频帧进行解码,得到解码结果;
判断所述解码结果中是否存在语音;
当不存在语音时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果的步骤,其中,N大于等于1。
可选地,当不存在语音时,还包括:
判断连续解码时间是否为0;
当所述连续解码时间为0时,则执行所述跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果步骤;
当所述连续解码时间不为0时,则减小所述连续解码时间,并获取下一帧音频帧进行解码。
可选地,当存在语音时,将所述连续解码时间设置为初始值,对后续音频帧进行连续解码直至所述连续解码时间减为0。
可选地,还包括:
判断跳帧标志是否为开启状态,所述开启状态用于表示不解码音频帧;
当所述跳帧标志不为开启状态时,则执行所述对音频帧进行解码的步骤。
可选地,所述当不存在语音时,跳过N帧音频帧,对跳过所述N帧音频帧后的音频帧进行解码的步骤包括:
当不存在语音时,获取连续解码出不存在语音的次数;
根据所述连续解码出不存在语音的次数确定N的值,其中,所述连续解码出不存在语音的次数越大,N的值越大。
本发明还提供一种音频解码装置,包括:
解码单元,用于对音频帧进行解码,得到解码结果;
第一判断单元,用于判断所述解码结果中是否存在语音;
其中,所述解码单元还用于当不存在语音时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,其中,N大于等于1。
可选地,还包括:
第二判断单元,用于当不存在语音时,判断连续解码时间是否为0;
所述解码单元用于当所述第二判断单元判断连续解码时间为0时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧进行解码。
所述解码单元还用于当所述第二判断单元判断连续解码时间不为0时,减少连续解码时间,并获取下一帧音频帧进行解码。
可选地,所述解码单元还用于当存在语音时,将所述连续解码时间设置为初始值,对后续音频帧进行连续解码直至所述连续解码时间减为0。
可选地,所述解码单元包括:
获取模块,用于当不存在语音时,获取连续解码出不存在语音的次数;
确定模块,用于根据所述连续解码出不存在语音的次数确定N的值,其中,所述连续解码出不存在语音的次数越大,N的值越大。
本发明还提供一种音频解码终端,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至6中任一项所述的音频解码方法。
本发明的上述技术方案相对于现有技术具有以下优点:
本发明提供的音频解码方法,首先对音频帧进行解码,得到解码结果;然后判断解码结果中是否存在语音;当不存在语音时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果的步骤。该音频解码方法通过对当前音频帧有无语音的判断,当没有语音的情况下,对后续音频帧选择跳帧解码,如此,使得在音视频会议***中,多路终端接入时,解码端对没有声音的终端进行跳帧解码,有效降低了整个***的解码负载,降低***内存占用率,提高解码后的音频进入混音处理平台时的音质,同时也可以增加接入路数,提高***利用率。与现有技术相比,本发明提供的音频解码方法不需要对每个音频帧进行声学模型检测打分,进一步有效降低了平台资源的占用率。
本发明提供的音频解码方法,在不存在语音的情况下,还对连续解码时间进行判断,当连续解码时间为0时,则执行上述跳帧解码的步骤,否则,减小连续解码时间,获取下一帧音频帧进行解码。如此,保证了当某一路接入终端的完整的语音发生断续时,也能够保证其中没有语音的音频帧也能得到正常解码,从而得到一段完整的语音,保证了语音的连贯性,有利于音视频会议的顺利进行。
本发明提供的音频解码方法,当解码后的音频帧判断为有语音时,恢复连续解码时间为初始值,对后续音频帧进行连续解码直到连续解码时间减为0。连续解码时间的恢复保证了后续音频帧能够得到连续解码,直到当没有语音的时间超过连续解码时间,即连续解码时间减为0时,则执行跳帧解码,一方面保证了语音的连贯性,另一方面保证了没有声音的接入终端不进行连续解码,降低整个***的解码负载。
本发明提供的音频解码方法,还包括不存在语音时,获取连续解码出不存在语音的次数,根据连续解码出不存在语音的次数确定N的值,且连续解码出不存在语音的次数与N呈正相关。由于跳过的音频帧的帧数N随着连续解码出不存在语音的次数的增大而增大,随连续解码出不存在语音的次数的减小而减小,因此,本发明中跳帧解码的灵活性得到显著提高,解码负载得到了进一步的降低,整个解码***得到了进一步的优化。
本发明提供的音频解码装置,包括解码单元和第一判断单元,解码单元用于对音频帧进行解码,得到解码结果,第一判断单元用于判断解码结果中是否存在语音,当不存在语音时,解码单元跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行对音频帧进行解码,其中,N大于等于1。该音频解码装置通过第一判断单元对当前音频帧有无语音的判断,当没有语音的情况下,通过解码单元对后续音频帧选择跳帧解码,如此,使得在音视频会议***中,多路终端接入时,解码端对没有声音的终端进行跳帧解码,有效降低了整个***的解码负载,降低***内存占用率,提高解码后的音频进入混音处理平台时的音质,同时也可以增加接入路数,提高***利用率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的应用场景示意图;
图2为本发明实施例1中音频解码方法的一个具体示例的方法流程图;
图3为本发明实施例2中音频解码方法的一个具体示例的方法流程图;
图4为本发明实施例3中音频解码方法的一个具体示例的方法流程图;
图5为本发明实施例3中音频解码方法的一个具体示例的方法流程图;
图6为本发明实施例4中音频解码装置的一个具体示例的方法流程图;
图7为本发明实施例4中音频解码装置的一个具体示例的结构框图;
图8为本发明实施例4中音频解码装置的一个具体示例的结构框图;
图9为本发明实施例4中音频解码装置的一个具体示例的结构框图;
图10为本发明实施例4中音频解码装置的一个具体示例的结构框图;
图11为本发明实施例5中音频解码终端的一个具体示例的结构框图;
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
图1示出了本发明实施例的应用场景示意图,音视频会议***包括终端侧、解码平台以及混音处理平台,其中,终端可以为多台。图1中示出了两个终端接入的情况,即音视频会议***包括解码平台、混音处理平台、第一终端和第二终端。其中,第一终端和第二终端可以是智能手机、平板电脑等移动客户端,也可以是专用的音视频会议***终端。
音视频会议***的工作过程如下:
终端侧实时采集与会人员的音频数据,将其转换成音频帧封装后发送给解码平台,解码平台对接收到的音频数据进行解码处理,将处理完的音频发送至混音处理平台,混音处理平台对其进行混音处理后发送回各个终端侧。
实施例1
本实施例提供了一种音频解码方法,应用于解码平台中,如图2所示,包括以下步骤:
步骤S14、对音频帧进行解码,得到解码结果。
其中,在本实施例中,可以采用PCM解码、MP3解码、OGG解码或者MPC解码等解码方式对音频帧进行解码。优选地,本实施例中采用PCM解码方式进行解码,能够保证解码过程具有很强的抗干扰性,而且便于利用计算机编程,不增加或少增加成本。
本实施例中,解码结果包括语音信息、能量信息或其他有关音频信息,其中,语音信息是指人声,音视频会议***是以人讲话作为第一要务,能量信息是指音频帧所携带的音量信息。
步骤S15、判断解码结果中是否存在语音;当不存在语音时,执行步骤S13,否则执行其他操作。
本实施例中,其他操作可以为获取下一帧音频帧,返回执行步骤S14。
步骤S13、跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行步骤S14,其中,N大于等于1。
本实施例提供的上述音频解码方法通过对当前音频帧有无语音的判断,当没有语音的情况下,对后续音频帧选择跳帧解码,如此,使得在音视频会议***中,多路终端接入时,解码端对没有声音的终端进行跳帧解码,有效降低了整个***的解码负载,降低***内存占用率,提高解码后的音频进入混音处理平台时的音质,同时也可以增加接入路数,提高***利用率。与现有技术相比,上述音频解码方法不需要对每个音频帧进行声学模型检测打分,进一步有效降低了平台资源的占用率。
实施例2
本实施例提供了一种音频解码方法,应用于解码平台中,如图3所示,包括以下步骤:
步骤S24、对音频帧进行解码,得到解码结果。与实施例1中的步骤S14相同,在此不再赘述。
步骤S25、判断解码结果中是否存在语音;当不存在语音时,执行步骤S27,否则执行步骤S26。
步骤S26、将连续解码时间设置为初始值。之后执行步骤S211。
本实施例中,连续解码时间的初始值为大于0的数值,例如,初始值为10秒或者15秒或者其他,可以由实际情况自由设定。
步骤S27、判断连续解码时间是否为0,当连续解码时间为0时,则执行步骤S23,当连续解码时间不为0时,则执行步骤S210。
步骤S23、跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行步骤S24,其中,N大于等于1。与实施例1中的步骤S13相同,在此不再赘述。
步骤S210、减小连续解码时间。
步骤S211、获取下一帧音频帧,并返回步骤S24。
本实施例提供的上述音频解码方法,在不存在语音的情况下,还对连续解码时间进行判断,当连续解码时间为0时,则执行上述跳帧解码的步骤,否则,减小连续解码时间,获取下一帧音频帧进行解码。如此,保证了当某一路接入终端的完整的语音发生断续时,也能够保证其中没有语音的音频帧也能得到正常解码,从而得到一段完整的语音,保证了语音的连贯性,有利于音视频会议的顺利进行。
当解码后的音频帧判断为有语音时,恢复连续解码时间为初始值,对后续音频帧进行连续解码直到连续解码时间减为0。连续解码时间的恢复保证了后续音频帧能够得到连续解码,直到当没有语音的时间超过连续解码时间,即连续解码时间减为0时,则执行跳帧解码,一方面保证了语音的连贯性,另一方面保证了没有声音的接入终端不进行连续解码,降低整个***的解码负载。
实施例3
本实施例提供了一种音频解码方法,应用于解码平台中,如图4所示,包括以下步骤:
步骤S31、接收终端侧发送的音频码流;
步骤S32、判断跳帧标志是否为开启状态,开启状态用于表示不解码音频帧,当跳帧标志为开启状态,则执行步骤S33,否则执行步骤S34。
本实施例中,首次接收终端侧发送过来的音频码流时,跳帧标志的状态默认为不开启。
步骤S33、跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行步骤S34,其中,N大于等于1。
步骤S34、对音频帧进行解码,得到解码结果。
步骤S35、判断解码结果中是否存在语音;当不存在语音时,执行步骤S37,否则执行步骤S36。
本实施例中,如图5所示,步骤S35具体包括:
步骤S351、判断解码结果中是否存在语音信息,若存在语音信息,则代表有语音,执行步骤S36,否则执行步骤S352。
步骤S352、判断能量信息是否高于预设阈值,若能量信息高于预设阈值,则代表有语音,执行步骤S36,否则代表没有语音,执行步骤S37。
步骤S36、将连续解码时间设置为初始值。之后执行步骤S311。
步骤S37、判断连续解码时间是否为0,当连续解码时间为0时,则执行步骤S33,当连续解码时间不为0时,则执行步骤S310。
步骤S38、获取连续解码出不存在语音的次数。
步骤S39、根据所述连续解码出不存在语音的次数确定N的值,其中,所述连续解码出不存在语音的次数越大,N的值越大。
步骤S310、减小连续解码时间。
步骤S311、获取下一帧音频帧,并返回步骤S34。
本实施例提供的音频解码方法,在音频码流接入解码端时,首先需要判断解码端的跳帧标志是否开启,若开启,则跳帧解码,若不开启,则直接解码当前帧,提高了解码端的自动化程度,避免了不必要的解码。
另外,由于连续解码出不存在语音的次数与N呈正相关,跳过的音频帧的帧数N随着连续解码出不存在语音的次数的增大而增大,随连续解码出不存在语音的次数的减小而减小,因此,本发明中跳帧解码的灵活性得到显著提高,解码负载得到了进一步的降低,整个解码***得到了进一步的优化。
当没有语音消息时,进一步对能量信息进行判断,避免了音量较小但属于人声的接入音频帧跳过不解码,提高了音频处理的效果。
实施例4
本实施例提供了一种音频解码装置,用于执行实施例1中的音频解码方法。如图6所示,该音频解码装置包括:
解码单元41,用于对音频帧进行解码,得到解码结果;
第一判断单元42,用于判断解码结果中是否存在语音;
其中,解码单元41还用于当不存在语音时,跳过N帧音频帧,对于跳过N帧音频帧后的音频帧返回执行对音频帧进行解码,其中,N大于等于1。
作为本实施例的一种可选实施方式,如图7所示,还包括:
第二判断单元43,用于当不存在语音时,判断连续解码时间是否为0;
解码单元41用于当第二判断单元43判断连续解码时间为0时,跳过N帧音频帧,对于跳过N帧音频帧后的音频帧进行解码。
解码单元41还用于当第二判断单元43判断连续解码时间不为0时,减少连续解码时间,并获取下一帧音频帧进行解码。
作为本实施例的一种可选实施方式,解码单元41还用于当存在语音时,将连续解码时间设置为初始值,对后续音频帧进行连续解码直至连续解码时间减为0。
作为本实施例的一种可选实施方式,如图8所示,还包括:
接收单元44,用于接收终端侧发送的音频码流;
第三判断单元45,用于判断跳帧标志是否为开启状态,开启状态用于表示不解码音频帧;
解码单元41还用于当跳帧标志不为开启状态时,对音频帧进行解码。
作为本实施例的一种可选实施方式,如图9所示,解码单元41包括:
获取模块411,用于当不存在语音时,获取连续解码出不存在语音的次数;
确定模块412,用于根据连续解码出不存在语音的次数确定N的值,其中,连续解码出不存在语音的次数越大,N的值越大。
作为本实施例的一种可选实施方式,如图10所示,第一判断单元42包括:
第一判断子单元421,用于判断解码结果中是否存在语音信息;
第二判断子单元422,用于当解码结果中不存在语音信息时,判断能量信息是否高于预设阈值。
本实施例提供的音频解码装置,通过第一判断单元42对当前音频帧有无语音的判断,当没有语音的情况下,通过解码单元41对后续音频帧选择跳帧解码,如此,使得在音视频会议***中,多路终端接入时,解码端对没有声音的终端进行跳帧解码,有效降低了整个***的解码负载,降低***内存占用率,提高解码后的音频进入混音处理平台时的音质,同时也可以增加接入路数,提高***利用率。
另外,第一判断子单元421和第二判断子单元422的设置避免了将音量较小但属于人声的音频帧跳过不解码,提高了音频处理效果。
实施例5
本实施例提供了一种音频解码终端,如图11所示,该设备包括一个或多个处理器51以及存储器52,图中以一个处理器51为例。
音频解码终端还可以包括:音频图像显示器(未示出),用于显示音频的电平幅值图像。处理器51、存储器52和音频图像显示器可以通过总线或者其他方式连接,图中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器51也可以是任何常规的处理器等。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的音频解码方法对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述实施例中的音频解码方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据音频解码装置的使用所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至音频解码装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述一个或者多个处理器51执行时,执行实施例1中所述的音频解码方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,具体可参见如图2所示的实施例中的相关描述。
实施例6
本实施例提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行实施例1中所述的音频解码方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccess Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一种计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种音频解码方法,其特征在于,包括以下步骤:
对音频帧进行解码,得到解码结果;
判断所述解码结果中是否存在语音;
当不存在语音时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果的步骤,其中,N大于等于1。
2.根据权利要求1所述的音频解码方法,其特征在于,当不存在语音时,还包括:
判断连续解码时间是否为0;
当所述连续解码时间为0时,则执行所述跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,得到解码结果步骤;
当所述连续解码时间不为0时,则减小所述连续解码时间,并获取下一帧音频帧返回执行对音频帧进行解码,得到解码结果的步骤。
3.根据权利要求2所述的音频解码方法,其特征在于,
当存在语音时,将所述连续解码时间设置为初始值,对后续音频帧进行连续解码直至所述连续解码时间减为0。
4.根据权利要求1所述的音频解码方法,其特征在于,还包括:
判断跳帧标志是否为开启状态,所述开启状态用于表示不解码音频帧;
当所述跳帧标志不为开启状态时,则执行所述对音频帧进行解码的步骤。
5.根据权利要求1所述的音频解码方法,其特征在于,所述当不存在语音时,跳过N帧音频帧,对跳过所述N帧音频帧后的音频帧进行解码的步骤包括:
当不存在语音时,获取连续解码出不存在语音的次数;
根据所述连续解码出不存在语音的次数确定N的值,其中,所述连续解码出不存在语音的次数越大,N的值越大。
6.一种音频解码装置,其特征在于,包括:
解码单元,用于对音频帧进行解码,得到解码结果;
第一判断单元,用于判断所述解码结果中是否存在语音;
其中,所述解码单元还用于当不存在语音时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧返回执行对音频帧进行解码,其中,N大于等于1。
7.根据权利要求6所述的音频解码装置,其特征在于,还包括:
第二判断单元,用于当不存在语音时,判断连续解码时间是否为0;
所述解码单元用于当所述第二判断单元判断连续解码时间为0时,跳过N帧音频帧,对于跳过所述N帧音频帧后的音频帧进行解码;
所述解码单元还用于当所述第二判断单元判断连续解码时间不为0时,减少连续解码时间,并获取下一帧音频帧进行解码。
8.根据权利要求7所述的音频解码装置,其特征在于,
所述解码单元还用于当存在语音时,将所述连续解码时间设置为初始值,对后续音频帧进行连续解码直至所述连续解码时间减为0。
9.根据权利要求6所述的音频解码装置,其特征在于,所述解码单元包括:
获取模块,用于当不存在语音时,获取连续解码出不存在语音的次数;
确定模块,用于根据所述连续解码出不存在语音的次数确定N的值,其中,所述连续解码出不存在语音的次数越大,N的值越大。
10.一种音频解码终端,其特征在于,包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至5中任一项所述的音频解码方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710625359.1A CN107424620B (zh) | 2017-07-27 | 2017-07-27 | 一种音频解码方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710625359.1A CN107424620B (zh) | 2017-07-27 | 2017-07-27 | 一种音频解码方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107424620A true CN107424620A (zh) | 2017-12-01 |
CN107424620B CN107424620B (zh) | 2020-12-01 |
Family
ID=60431223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710625359.1A Active CN107424620B (zh) | 2017-07-27 | 2017-07-27 | 一种音频解码方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107424620B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292725A (zh) * | 2020-02-28 | 2020-06-16 | 北京声智科技有限公司 | 一种语音解码方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1612607A (zh) * | 2001-05-11 | 2005-05-04 | 皇家菲利浦电子有限公司 | 无声检测 |
CN1767394A (zh) * | 2004-10-26 | 2006-05-03 | 三星电子株式会社 | 对音频信号进行编码和解码的方法和设备 |
CN1980293A (zh) * | 2005-12-03 | 2007-06-13 | 鸿富锦精密工业(深圳)有限公司 | 静音处理装置及方法 |
US7418393B2 (en) * | 2000-05-26 | 2008-08-26 | Fujitsu Limited | Data reproduction device, method thereof and storage medium |
CN104768025A (zh) * | 2015-04-02 | 2015-07-08 | 无锡天脉聚源传媒科技有限公司 | 一种视频坏帧修复方法及装置 |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
-
2017
- 2017-07-27 CN CN201710625359.1A patent/CN107424620B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7418393B2 (en) * | 2000-05-26 | 2008-08-26 | Fujitsu Limited | Data reproduction device, method thereof and storage medium |
CN1612607A (zh) * | 2001-05-11 | 2005-05-04 | 皇家菲利浦电子有限公司 | 无声检测 |
CN1767394A (zh) * | 2004-10-26 | 2006-05-03 | 三星电子株式会社 | 对音频信号进行编码和解码的方法和设备 |
CN1980293A (zh) * | 2005-12-03 | 2007-06-13 | 鸿富锦精密工业(深圳)有限公司 | 静音处理装置及方法 |
CN104768025A (zh) * | 2015-04-02 | 2015-07-08 | 无锡天脉聚源传媒科技有限公司 | 一种视频坏帧修复方法及装置 |
CN106710606A (zh) * | 2016-12-29 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292725A (zh) * | 2020-02-28 | 2020-06-16 | 北京声智科技有限公司 | 一种语音解码方法及装置 |
CN111292725B (zh) * | 2020-02-28 | 2022-11-25 | 北京声智科技有限公司 | 一种语音解码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107424620B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101685466B1 (ko) | 다자간 영상 회의 서비스의 참여자 확장 방법 | |
US20020105917A1 (en) | Method and apparatus for packet-based media communication | |
US10115390B2 (en) | System and method to facilitate conversion between voice calls and text communications | |
CN107276777A (zh) | 会议***的音频处理方法及装置 | |
CN105704338B (zh) | 一种混音方法、混音设备及*** | |
CN111276152A (zh) | 一种音频处理方法、终端及服务器 | |
CN109599115A (zh) | 用于音频采集设备和用户终端的会议记录方法和装置 | |
CN108271096A (zh) | 一种任务执行方法、装置、智能音箱及存储介质 | |
CN104902111A (zh) | 一种基于Web RTC多方通话建立的方法、设备和*** | |
CN107205132A (zh) | 网格拓扑与集中式桥拓扑之间视频会话的无缝过渡 | |
CN110457078A (zh) | 智能服务方法、装置及设备 | |
CN113050910B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN110675875B (zh) | 智能语音对话技术电话体验方法和装置 | |
US20210183394A1 (en) | Fault detection and management in a real-time communication | |
CN107424620A (zh) | 一种音频解码方法和装置 | |
CN111741177B (zh) | 在线会议的混音方法、装置、设备和介质 | |
US20220246133A1 (en) | Systems and methods of handling speech audio stream interruptions | |
CN113553048A (zh) | 一种低代码融合通信集成*** | |
CN112449208A (zh) | 语音处理方法及其装置 | |
CN112260982B (zh) | 音频处理方法及设备 | |
CN111613235A (zh) | 一种回声消除方法及装置 | |
US9473551B2 (en) | Method and apparatus for processing VoIP data | |
CN116233316A (zh) | 语音信息处理方法、装置、***、设备及介质 | |
CN114974273B (zh) | 一种会议音频混音方法和装置 | |
CN114980066A (zh) | 语音通话方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |