CN105489223A - 一种语音实时传输方法 - Google Patents

一种语音实时传输方法 Download PDF

Info

Publication number
CN105489223A
CN105489223A CN201510837151.7A CN201510837151A CN105489223A CN 105489223 A CN105489223 A CN 105489223A CN 201510837151 A CN201510837151 A CN 201510837151A CN 105489223 A CN105489223 A CN 105489223A
Authority
CN
China
Prior art keywords
voice
data
signal
cloud platform
denoising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510837151.7A
Other languages
English (en)
Inventor
王天宇
宋雷
刘爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Wishcloud Technology Co Ltd
Original Assignee
Chengdu Wishcloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Wishcloud Technology Co Ltd filed Critical Chengdu Wishcloud Technology Co Ltd
Priority to CN201510837151.7A priority Critical patent/CN105489223A/zh
Publication of CN105489223A publication Critical patent/CN105489223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/0001Systems modifying transmission characteristics according to link quality, e.g. power backoff
    • H04L1/0002Systems modifying transmission characteristics according to link quality, e.g. power backoff by adapting the transmission rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种语音实时传输方法,该方法包括:对语音数据进行去噪处理,将去噪后的数据上传到所述云平台,根据云平台的反馈信号调节数据发送速率,通过所述云平台将语音数据到监控客户端。本发明提出了一种语音实时传输方法,在语音传输中提高了网络稳定性,提升了通话质量,取得了较高的信噪比增量和降噪效果。

Description

一种语音实时传输方法
技术领域
本发明涉及即时通讯,特别涉及一种语音通讯实现方法。
背景技术
基于移动设备的监控通讯***,在企业日常工作中由相关工作人员随身携带或是手持设备位于现场,通过3G或WiFi信号进行即时通讯,将现场的实时语音和音频信息及时回传到监控人员,由于设备简单,易于携带等优点,因此得到广泛应用,例如勘察、传媒、物流运输等行业。对于企业及时了解现场情况作出有效解决方案具有极大的意义。加入语音和音频传输之后将会极大地提高终端人员的应用范围与效率。然而现有的通讯***普遍多为端到端的直接通信,各个终端所在现场的网络状况不确定的情况下,流媒体传输缺乏稳定性,容易发生数据包丢失和延迟,导致通话质量显著下降,并且对复杂的环境噪声没有针对性的控制手段,难以达到较好的主观体验。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种语音实时传输方法,包括:
对语音数据进行去噪处理,将去噪后的数据上传到所述云平台,根据云平台的反馈信号调节数据发送速率,通过所述云平台将语音数据到监控客户端。
优选地,所述云平台包括通信服务器和数据传输服务器,云平台通信服务器进行信令的解析与转发,处理来自监控客户端的对语音操作的会话连接信令;而云平台数据传输服务器提供语音的上行通道,把移动终端的语音转发给监控客户端用户,同时提供语音的下行通道,从监控客户端到移动终端的语音信号转发;在移动终端,语音数据按8000Hz采样,16位单声道PCM数据,将采集到的数据根据G723算法进行压缩,在多播或单播的网络服务上提供端对端的网络传输,对于接收的音频数据,经过G723算法解压,将音频播放设备的参数设置成8000Hz采样,16位单声道PCM数据执行播放。
优选地,所述对语音数据进行去噪处理,进一步包括:
语音输入X(t)通过延迟累加函数,输出为yc(t)=ATX(t);其中,A=C-1f为权重向量,C为约束矩阵,f为对应的约束响应向量;
再将语音输入X(t)通过提取矩阵和K阶冲激响应函数,经提取矩阵处理后的输出信号为
H(t)=BX(t);
其中,提取矩阵B中的第m列元素向量bm相互线性独立;
经提取矩阵处理后的输出信号再经自适应冲激响应函数处理,得到输出信号y1(t)
y 1 ( t ) = Σ k = 0 K - 1 w k T ( t ) h k ( t ) = W K T ( t ) H ( t )
其中,WK=[w1(t),w2(t)···wK(t)]T,H(t)=[h1(t),h2(t)···hK(t)]T
两路输出信号相减,得到处理后语音信号y2(t)=yc(t)-y1(t);
寻找滤波函数权重系数Wk(t),使得最终的输出功率最小,对权重向量进行调整:
W’k(t)=Wk(t)+2γy2(t)H(t)
Wk(t+1)=W’k(t)+2γy’2(t)H(t)
取γ=1/(2||H(t)||2),最终权重系数调整为
Wk(t+1)=W’k(t)+y2(t)H(t)/(||H(t)||2);
在提取输出信号y2后,对语音信号y2进行傅里叶变换和重叠分帧处理,将每帧信号功率减去估计的噪声功率得到去噪语音信号功率,用语音信号y2的相位代替去噪语音信号的相位;然后对去噪语音信号进行傅里叶逆变换即可得到增强后的语音信号。
本发明相比现有技术,具有以下优点:
本发明提出了一种语音实时传输方法,在语音传输中提高了网络稳定性,提升了通话质量,取得了较高的信噪比增量和降噪效果。
附图说明
图1是根据本发明实施例的一种语音实时传输方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种语音实时传输方法。图1是根据本发明实施例的一种语音实时传输方法流程图。
本发明在基于移动终端进行双向语音传输的即时通讯,即从移动终端经云平台转发到监控客户端,从监控客户端经云平台转发到移动终端的语音传输。其中移动终端用于语音数据的采集、编码压缩、去噪与实时播放,对信息进行存储并将语音数据上传到云平台;云平台包括通信服务器和数据传输服务器,通信服务器用于转发连接消息,数据传输服务器用于转发语音数据;监控客户端则是用来接收从移动终端上传的语音,因此需要接收解码并播放接收到的语音信息,并且可以实现控制、数据存储以及用户设备管理。
移动终端将需要传送的语音数据分割成固定大小的数据段,利用序列号和时间戳对每个数据段进行标识,将数据段封装到数据包中。移动终端统计传输过程中丢包率,并检测当前可用带宽;在检测链路的带宽过程中,记录连续数据包之间的间隔时间,通过均值滤波函数过滤后,使用平均值估计带宽容量。移动终端基于当前丢包率和所检测的带宽来调整发送速率;为了降低数据传输服务器的资源开销,本发明采用数据传输服务器定期应答的方式对发送速率进行反馈,数据传输服务器每隔预定时间向移动终端发送一个反馈信号,移动终端根据收到的反馈信号调节数据发送速率。反馈信号中包含如下内容:该反馈间隔内收到的数据包总数量;该反馈间隔内丢失的数据包总数量;检测得到的网络带宽;该反馈间隔内发生的丢包事件数量。在每个传输周期完成时,服务器将丢失的数据段的标识信息反馈给移动终端,请求重新发送。移动终端在下一个传输周期重新发送这些丢失的数据包,整个过程反复进行,直到所有的数据包都被成功接收。
在第一个传输周期,数据传输服务器通过序列号判断数据包有无丢失,如果一次丢包事件内连续丢失了多个数据包,则记录丢失的第一个和最后一个数据包的序列号,并加上连续丢包的标志位,以降低反馈的数据量。在传输周期结束时,移动终端向数据传输服务器发送传送完成的信号,数据传输服务器收到信号后,将丢包链表反馈给移动终端。移动终端重新发送丢失的数据包,整个过程循环进行,直到数据传输服务器成功接收到所有的数据包。
本发明中语音数据按8000Hz采样,16位单声道PCM数据,采集到的数据根据G723算法进行压缩。在发送之前还需要将语音数据进行去噪和RTSP打包,在多播或单播的网络服务上提供端对端的网络传输功能,适合传输实时数据。而接收的音频数据,经过G723算法解压,将音频播放设备的参数设置成8000Hz采样,16位单声道PCM数据即可正常播放。
云平台的通信服务器实现信令的解析与转发,处理来自监控客户端的对语音操作的会话连接信令,如打开语音双向或仅开单向语音等。数据传输服务器提供语音的上行通道,把移动终端的语音转发给监控客户端用户,同时提供语音的下行通道,从监控客户端到移动终端一对一的语音信号的转发。
当移动终端的数据上传时,数据传输服务器将该数据直接转发给请求的用户;对于语音下行,因为在移动终端,目前直接接收RTSP数据,然后进行解码。所以,采用跟上行一样的方式,采用G723数据,进行RTSP打包发送,数据传输服务器直接用于转发,到某一台设备,在终端接收,解码播放。
监控客户端的音频处理包括音频上行处理和音频下行处理。上行语音数据的处理包括接收、解压和播放。监控客户端运行过程中,多路语音同时播放,每路音频数据也同时接收,但是考虑到多路声音同时播放会造成听觉上的干扰,所以用户可根据需要随时切换收听任意一路音频,其他路的音频则采用静音处理。
由于网络的不稳定,RTSP语音包可能会出现乱序,因此会首先对RTSP数据包进行排序,将排序好的数据存入一级缓存中;然后从一级缓存中取出语音包,利用G723解压算法对其进行解压,将解压好的数据放入二级缓存中;最后从二级缓存中取出语音数据,设置语音数据播放格式,即8000Hz采样、16位单声道PCM数据,并嵌入时间戳。完成以上操作,将数据推送到一级缓存中,便可以实现语音数据的播放。
语音下行包括语音的采集、编码和发送。监控客户端音频采集首先初始化音频采集设备、音频采集格式等具体参数。然后通过设备对象创建采集缓冲区对象并初始化通知机制。最后在需要音频采集时触发音频采集主程序,设备将数据写入缓冲区,应用程序主动从缓冲区将数据读出,这样就实现了音频采集的功能。为保持与终端发送的数据的一致性,因此监控客户端语音数据也是按照8000Hz采样的16位单声道PCM语音数据。采集到语音数据之后便是对数据进行G723编码。
在上述监控客户端和移动终端向云平台上传语音数据过程中,不同的现场设备难免处于多种噪声源的环境,给提取和处理带来的极大的困难,造成巨大的影响。本发明采用以下去噪过程。
首先通过延迟累加函数对期望方向的目标语音信号进行增强,而对其他方向的干扰噪声进行抑制。对目标信号进行提取使其输出为干扰和噪声信号的组合,并为延迟累加函数输出信号中的残留噪声提供参考信号。根据噪声参考信号估计延迟累加输出信号中的噪声信号,以此获得目标语音信号再进一步去除期望方向上残留的干扰噪声信号,以实现目标信号的增强。
语音输入X(t)通过延迟累加函数的输出为yc(t)=ATX(t)。其中,A=C-1f为权重向量,C为约束矩阵,f为对应的约束响应向量。权重向量A随目标信号方向的变化而变化。另一方面,语音输入通过提取矩阵和K阶冲激响应函数。经过延迟补偿后,每个通道中的信号在时间上是同步的,要实现提取矩阵输出信号中不含期望信号,只要保证提取矩阵中每一行元素之和为0即可。经提取矩阵处理后的输出信号为
H(t)=BX(t)
其中,提取矩阵B中的第m列元素向量bm是相互线性独立的。
经提取矩阵处理后的输出信号再经自适应冲激响应函数处理,得到输出信号 y 1 ( t ) = Σ k = 0 K - 1 w k T ( t ) h k ( t ) = W K T ( t ) H ( t )
其中,
WK=[w1(t),w2(t)···wK(t)]T,H(t)=[h1(t),h2(t)···hK(t)]T。两路输出信号相减,便可以得到处理后较纯净的语音信号为y2(t)=yc(t)-y1(t)。
y1(t)中不含期望信号而只是干扰和噪声信号的组合,因此寻找合适的滤波函数权重系数Wk(t),使得最终的输出功率最小。
对权重向量进行调整:
W’k(t)=Wk(t)+2γy2(t)H(t)
Wk(t+1)=W’k(t)+2γy’2(t)H(t)
取γ=1/(2||H(t)||2)。最终权重系数调整为
Wk(t+1)=W’k(t)+y2(t)H(t)/(||H(t)||2)
上述方法在一定程度上适用于随机信号的去噪处理。
为了进一步去除残留噪声,在提取的输出信号y2后,对带噪语音信号进行傅里叶变换和重叠分帧处理,将每帧信号功率减去估计的噪声功率得到去噪语音信号功率,并根据人耳对语音信号的幅度比较敏感而对语音的相位不敏感这一特性,用含有噪声的语音信号y2的相位代替去噪语音信号的相位;然后对去噪语音信号进行傅里叶逆变换即可得到增强后的语音信号。
综上所述,本发明提出了一种语音实时传输方法,在语音传输中提高了网络稳定性,提升了通话质量,取得了较高的信噪比增量和降噪效果。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算***来实现,它们可以集中在单个的计算***上,或者分布在多个计算***所组成的网络上,可选地,它们可以用计算***可执行的程序代码来实现,从而,可以将它们存储在存储***中由计算***来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种语音实时传输方法,用于在云平台环境下实现多个终端的语音传输,其特征在于,包括:
对语音数据进行去噪处理,将去噪后的数据上传到所述云平台,根据云平台的反馈信号调节数据发送速率,通过所述云平台将语音数据到监控客户端。
2.根据权利要求1所述的方法,其特征在于,所述云平台包括通信服务器和数据传输服务器,云平台通信服务器进行信令的解析与转发,处理来自监控客户端的对语音操作的会话连接信令;而云平台数据传输服务器提供语音的上行通道,把移动终端的语音转发给监控客户端用户,同时提供语音的下行通道,从监控客户端到移动终端的语音信号转发;在移动终端,语音数据按8000Hz采样,16位单声道PCM数据,将采集到的数据根据G723算法进行压缩,在多播或单播的网络服务上提供端对端的网络传输,对于接收的音频数据,经过G723算法解压,将音频播放设备的参数设置成8000Hz采样,16位单声道PCM数据执行播放。
3.根据权利要求2所述的方法,其特征在于,所述对语音数据进行去噪处理,进一步包括:
语音输入X(t)通过延迟累加函数,输出为yc(t)=ATX(t);其中,A=C-1f为权重向量,C为约束矩阵,f为对应的约束响应向量;
再将语音输入X(t)通过提取矩阵和K阶冲激响应函数,经提取矩阵处理后的输出信号为
H(t)=BX(t);
其中,提取矩阵B中的第m列元素向量bm相互线性独立;
经提取矩阵处理后的输出信号再经自适应冲激响应函数处理,得到输出信号y1(t)
y 1 ( t ) = Σ k = 0 K - 1 w k T ( t ) h k ( t ) = W K T ( t ) H ( t )
其中,WK=[w1(t),w2(t)···wK(t)]T,H(t)=[h1(t),h2(t)···hK(t)]T
两路输出信号相减,得到处理后语音信号y2(t)=yc(t)-y1(t);
寻找滤波函数权重系数Wk(t),使得最终的输出功率最小,对权重向量进行调整:
W’k(t)=Wk(t)+2γy2(t)H(t)
Wk(t+1)=W’k(t)+2γy’2(t)H(t)
取γ=1/(2||H(t)||2),最终权重系数调整为
Wk(t+1)=W’k(t)+y2(t)H(t)/(||H(t)||2);
在提取输出信号y2后,对语音信号y2进行傅里叶变换和重叠分帧处理,将每帧信号功率减去估计的噪声功率得到去噪语音信号功率,用语音信号y2的相位代替去噪语音信号的相位;然后对去噪语音信号进行傅里叶逆变换即可得到增强后的语音信号。
CN201510837151.7A 2015-11-26 2015-11-26 一种语音实时传输方法 Pending CN105489223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510837151.7A CN105489223A (zh) 2015-11-26 2015-11-26 一种语音实时传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510837151.7A CN105489223A (zh) 2015-11-26 2015-11-26 一种语音实时传输方法

Publications (1)

Publication Number Publication Date
CN105489223A true CN105489223A (zh) 2016-04-13

Family

ID=55676170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510837151.7A Pending CN105489223A (zh) 2015-11-26 2015-11-26 一种语音实时传输方法

Country Status (1)

Country Link
CN (1) CN105489223A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117440001A (zh) * 2023-12-20 2024-01-23 国投人力资源服务有限公司 一种基于消息的数据同步方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402143A (zh) * 2002-09-29 2003-03-12 清华大学 一种基于客户端反馈的流量控制方法
CN202889466U (zh) * 2012-09-25 2013-04-17 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的应急通信***
CN103067791A (zh) * 2012-12-11 2013-04-24 深圳市梦网科技发展有限公司 一种网络动态适应监控视频传输方法
CN103313024A (zh) * 2013-06-26 2013-09-18 深圳市合广测控技术有限公司 楼宇可视对讲***及方法
CN105025051A (zh) * 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和***
CN105429855A (zh) * 2015-11-26 2016-03-23 成都微讯云通科技有限公司 一种基于语音的通信方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1402143A (zh) * 2002-09-29 2003-03-12 清华大学 一种基于客户端反馈的流量控制方法
CN202889466U (zh) * 2012-09-25 2013-04-17 浙江图讯科技有限公司 一种用于面向工矿企业的安全生产云服务平台的应急通信***
CN103067791A (zh) * 2012-12-11 2013-04-24 深圳市梦网科技发展有限公司 一种网络动态适应监控视频传输方法
CN103313024A (zh) * 2013-06-26 2013-09-18 深圳市合广测控技术有限公司 楼宇可视对讲***及方法
CN105025051A (zh) * 2014-04-24 2015-11-04 深圳市赛格导航科技股份有限公司 一种云端语音服务提供方法和***
CN105429855A (zh) * 2015-11-26 2016-03-23 成都微讯云通科技有限公司 一种基于语音的通信方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐进 等: ""一种新的麦克风阵列自适应语音增强方法"", 《应用科学学报》 *
王虹: ""DSP实现G_729语音编解码的方法及关键技术研究"", 《信息技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117440001A (zh) * 2023-12-20 2024-01-23 国投人力资源服务有限公司 一种基于消息的数据同步方法
CN117440001B (zh) * 2023-12-20 2024-02-27 国投人力资源服务有限公司 一种基于消息的数据同步方法

Similar Documents

Publication Publication Date Title
RU2010127310A (ru) Система и способ сжатия интерактивного потокового видео
CN1938972A (zh) 用于测量多媒体数据传输质量的方法和装置
CA2498330A1 (en) Post-harvest non-containerized reporting system
MX2011009971A (es) Sistema y método para la compresión de video usando retroalimentación que incluye datos relacionados con la recepción exitosa de contenido de video.
CN105515943B (zh) 一种即时通讯实现方法
CN103560836A (zh) 声波无线通信方法和装置
CN104270684A (zh) 一种面向实时应用的视音频数据网络传输***和方法
CN103248964A (zh) 基于rtp/rtcp的车载视频传输***
CN102143130A (zh) 一种快速频道切换时获取关键信息的方法、装置和***
CN105429855A (zh) 一种基于语音的通信方法
US8856267B2 (en) Network audio directory server and method
CN112019905A (zh) 直播回放方法、计算机设备及可读存储介质
CN103974057A (zh) 一种视频质量用户体验值测评方法、设备及***
CN104917626B (zh) 用户行为分析中的数据采集方法和装置
CN105681817A (zh) 一种智能终端视音频采集传输播放***和方法
CN105872572A (zh) 直播视频的处理方法及装置
CN105379267B (zh) 用于提供视频质量管理的方法和装置
RU2013130744A (ru) Устройство передачи, способ передачи, устройство приема, способ приема, программа и система распределения содержания
CN105489223A (zh) 一种语音实时传输方法
CN103780869B (zh) 一种视频会话中动态调整视频传输效率的方法
CN111193966A (zh) 音频数据传输方法、装置、计算机设备及存储介质
Zeng et al. Adaptive uplink data compression in spectrum crowdsensing systems
EP1631059A3 (en) Content service method, content relay method, content output method and servers, output devices and transmission/receving systems employing said methods
CN104079580B (zh) 教务教学图像语音识别***及方法
CN105519121B (zh) 一种关键帧路由的方法及媒体服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160413