CN106161218A - 实时通话中的语音处理方法及装置 - Google Patents

实时通话中的语音处理方法及装置 Download PDF

Info

Publication number
CN106161218A
CN106161218A CN201610862730.1A CN201610862730A CN106161218A CN 106161218 A CN106161218 A CN 106161218A CN 201610862730 A CN201610862730 A CN 201610862730A CN 106161218 A CN106161218 A CN 106161218A
Authority
CN
China
Prior art keywords
browser
voice
real time
phone call
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610862730.1A
Other languages
English (en)
Inventor
王璟瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Mobile Intelligent Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610862730.1A priority Critical patent/CN106161218A/zh
Publication of CN106161218A publication Critical patent/CN106161218A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例提供了一种实时通话中的语音处理方法及装置。该方法中,框架层应用语音优化工具包对接收到的对方语音进行优化,得到第一优化处理结果,并将第一优化处理结果发送至浏览器内核,浏览器内核将第一优化处理结果发送至用户界面层进行语音播放。在经过这样的处理之后,用户界面层播放的即为经过优化之后的对方的语音信号,从而能够有效消除对方传来的语音信号中的各类干扰因素,提高语音通话的质量。

Description

实时通话中的语音处理方法及装置
技术领域
本发明实施例涉及智能终端技术领域,尤其涉及一种实时通话中的语音处理方法及装置。
背景技术
随着信息技术的进步和居民收入的增加,智能终端的普及率大大提高。目前的智能终端能够支持越来越多的功能,使得人们可以使用智能终端进行各式各样的操作。其中,通过智能终端中的浏览器访问网页,是人们获取各类信息的常用手段之一。人们只需在浏览器的搜索栏中输入待访问网页的网址,浏览器就可以通过移动网络访问发布该网页内容的网站服务器,从而使得人们可以通过浏览器浏览该网页发布的内容。
现有的浏览器已经不满足于单纯的包含浏览网页的功能,还可以支持实时视频通话或音频通话等。然而,在实现本发明实施例的过程中发明人发现,在通过浏览器进行视频或语音通话时,浏览器对于通话中包含干扰因素的语音并未做任何处理,使得通话质量较差。例如,会出现语音增益或回声等干扰因素。其中,这里的语音增益指的是用户在接收到对方声音的同时,对方的声音也传入了用户的麦克风中,导致对方在说话之后还听见由这边用户的麦克风传输过去的对方自己的声音。这里的回声指的是用户在进行讲话时,麦克风会接收到回音,使得对方无法听清传输过去的声音。这些因素都严重影响了用户实时通话的通话质量。
发明内容
本发明实施例提供一种实时通话中的语音处理方法及装置,用以解决现有的浏览器在进行视频通话时,没有对包含干扰因素的语音进行处理,严重影响通话质量的缺陷。
第一方面,本发明提供了一种实时通话中的语音处理方法,包括:
浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
所述浏览器的框架层单元获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;所述浏览器的框架层单元向所述浏览器的内核单元返回所述第一优化处理结果;所述浏览器的内核单元将所述第一优化处理结果发送给所述浏览器的用户界面层;所述浏览器的用户界面层对所述第一优化处理结果进行语音播放。
可选地,所述方法还包括:
所述浏览器的框架层单元建立音频代理,所述音频代理在所述浏览器的用户界面层上建立语音播放器,所述语音播放器与所述语音优化工具包进行通信;
相应地,所述浏览器的内核单元将所述第一优化处理结果发送给所述浏览器的用户界面层包括:
所述浏览器的内核单元将所述第一优化处理结果通过所述音频代理发送给所述浏览器的用户界面层;
所述浏览器的用户界面层对所述第一优化处理结果进行语音播放包括:
所述浏览器的用户界面层通过所述语音播放器播放所述第一优化处理结果。
可选地,所述优化处理包括语音增益处理。
可选的,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行语音增益处理包括:
采用第一反馈信号对所述实时通话中接收到的通话对方的第一语音帧进行调整,所述第一反馈信号为对所述第一语音帧前的第二语音帧进行调整后所得的低通能量与参考能量的差值。
可选地,所述优化处理包括回声消除处理。
可选地,还包括:
在获取到预设的语音优化工具包之后,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;
所述浏览器的框架层单元向所述浏览器的内核单元返回所述第二优化处理结果;
所述浏览器的内核单元将所述第二优化处理结果发送给通话对方。
第二方面,本发明还提供了一种实时通话中的语音处理方法,包括:
浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
所述浏览器的框架层单元获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;所述浏览器的框架层单元向所述浏览器的内核单元返回所述第二优化处理结果;所述浏览器的内核单元将所述第二优化处理结果发送给通话对方。
第三方面,本发明还提供了一种实时通话中的语音处理装置,应用于浏览器,包括:
浏览器的内核单元,用于若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
浏览器的框架层单元,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;以及用于向所述浏览器的内核单元返回所述第一优化处理结果;
所述浏览器的用户界面层,用于对所述第一优化处理结果进行语音播放。
可选地,所述浏览器的框架层单元,还用于建立音频代理,所述音频代理在所述浏览器的用户界面层上建立语音播放器,所述语音播放器与所述语音优化工具包进行通信;
相应地,所述浏览器内核单元,还用于将所述第一优化处理结果通过所述音频代理发送给所述浏览器的用户界面层;
所述浏览器的用户页面,还用于通过所述建立语音播放器播放所述第一优化处理结果。
可选地,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行语音增益处理包括:
采用第一反馈信号对所述实时通话中接收到的通话对方的第一语音帧进行调整,所述第一反馈信号为对所述第一语音帧前的第二语音帧进行调整后所得的低通能量与参考能量的差值。
可选地,所述优化处理包括回声消除处理。
可选地,所述浏览器的框架层单元,还用于在获取到预设的语音优化工具包之后,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;还用于向所述浏览器的内核单元发送所述第二优化处理结果;
所述浏览器的内核单元,还用于将所述第二优化处理结果发送给通话对方。
第四方面,本发明还提供了一种实时通话中的语音处理装置,应用于浏览器,包括:
浏览器的内核单元,用于若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;还用于将浏览器的框架层单元返回的第二优化处理结果发送给通话对方;
浏览器的框架层单元,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;以及用于向所述浏览器的内核单元返回所述第二优化处理结果。
本发明实施例提供的实时通话中的语音处理方法及装置中,框架层应用语音优化工具包对接收到的对方语音进行优化,得到第一优化处理结果,并将第一优化处理结果发送至浏览器内核,以供浏览器内核将第一优化处理结果发送至用户界面层进行语音播放。在经过这样的处理之后,用户界面层播放的即为经过优化之后的对方的语音信号,从而能够有效消除对方传来的语音信号中的各类干扰因素,提高语音通话的质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的浏览器实例结构示意图;
图2为本发明提供的一种实时通话中的语音处理方法实施例流程图;
图3为本发明提供的又一种实时通话中的语音处理方法实施例流程图;
图4为本发明提供的又一种实时通话中的语音处理方法实施例流程图;
图5为本发明提供的实时通话中的语音处理方法装置实施例结构示意图;
图6为本发明提供的又一种实时通话中的语音处理方法装置实施例结构示意图;
图7为本发明提供的又一种实时通话中的语音处理方法装置实施例结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于理解,首先对本发明实施例涉及到的浏览器的框架结构进行详细说明。如图1所示,本发明实施例涉及到的浏览器10包括用户界面层单元11(也即用户界面层,UserInterface)、框架层单元12以及内核单元13。其中,用户界面层主要用于向用户显示浏览器界面;框架层主要用于根据各种协议向浏览器的外界获取资源;浏览器内核主要用于根据用户对浏览器的各类触发操作产生不同的响应。
该浏览器10可预装在终端设备中,例如,该终端设备包含但不限于:手机、平板电脑和电视等。
基于上述内容,第一方面,本发明实施例提供了一种实时通话中的语音处理方法,该方法实现了对接收到的通话对方的语音信息的处理,该方法的执行主体例如可以为浏览器10,如图2所示,该方法例如可以包括:
S101、浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
具体来说,若检测到用户进行了实时通话的触发操作,则在建立通话连接的同时,浏览器内核单元向框架层单元发送语音优化请求,请求框架层单元执行对于接收到的对方的语音信号进行优化的操作。
其中,这里的实时通话也被称作网页实时通信WebRTC(Web Real-TimeCommunication),它是一种可以支持网页浏览器进行实时语音对话或视频对话的技术。网页浏览器只需提供简单的Java script(Java语言脚本)即可实现实时通话的目的,因此实时通话技术具有简单易实现的特点。此外,实时通话技术还适于多种操作***平台,同时还能够支持跨平台操作。在本发明实施例中,这里的实时通话技术主要应用于Android操作平台下,由Android操作平台中的浏览器提供Java script进行实时的通话连接。
S102、浏览器的框架层单元获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;
具体来说,框架层单元在接收到语音优化请求后,首先获取相应的预设的语音优化工具包。接着在接收到的对方传来的语音信息之后,应用该语音优化工具包对实时通话中每一帧的声音信号进行优化处理,得到第一优化处理结果。
S103、浏览器的框架层单元向浏览器的内核单元返回第一优化处理结果。
S104,浏览器的用户界面层对第一优化处理结果进行语音播放。
具体来说,在语音优化工具包对每一帧声音进行优化处理得到第一优化处理结果后,框架层单元再将第一优化处理结果向浏览器内核单元发送。浏览器内核单元在接收到第一优化处理结果后,将其发送至用户界面层,以使该第一优化处理结果在用户界面层进行语音播放,从而用户就可以接收经过优化处理后的对方的声音。
本发明实施例提供的实时通话中的语音处理方法中,框架层单元应用语音优化工具包对接收到的对方的语音进行优化得到第一优化处理结果,并将第一优化处理结果发送至浏览器内核单元,以供浏览器内核单元将第一优化处理结果发送至用户界面层进行语音播放。在经过这样的处理之后,用户界面层播放的即为经过优化之后的对方的语音信号,从而能够有效消除对方传来的语音信号中的各类干扰因素,提高语音通话的质量。
在具体实施时,上述方法实施例的步骤S102可以有多种实现方式,下面对其中一种可选的实施方式进行详细说明,步骤S102可以具体包括:
S1021、框架层单元建立音频代理,音频代理在用户界面层上建立语音播放器,语音播放器与获取的语音优化工具包进行通信;
具体来说,框架层单元在获取语音优化工具包之前首先建立音频代理,接着音频代理在用户界面层建立语音播放器。语音播放器与获取的语音优化工具包进行通信(即语音播放器与获取的语音优化工具包通信),将接收到的对方的语音信息传输至语音优化工具包。
S1022、框架层单元应用语音优化工具包对实时通话中接收到的对方的语音信息进行优化处理,获取第一优化处理结果。
具体来说,语音优化工具包在接收到对方的语音信息后,对每一帧的语音信息进行相应的优化处理,得到第一优化处理结果。
相应地,在上述步骤S102这一具体实施方式的基础上,上述方法实施例中步骤S103的一种可选的实施方式可以包括:
S1031、浏览器内核单元将第一优化处理结果通过音频代理发送至浏览器用户界面层,通过建立语音播放器播放第一优化处理结果。
具体来说,浏览器的内核单元利用框架层单元的音频代理将第一优化处理结果发送至用户界面层,并通过用户界面层的语音播放器播放该第一优化结果,使用户能够接收经过优化处理后的对方的声音。
这样做的好处是,通过音频代理建立的语音播放器与语音识别工具包进行通信,使得浏览器的框架层单元可以从音频识别的任务中解脱出来,只需向用户界面层或浏览器内核单元传输信息即可,从而可以提高浏览器的性能,提升浏览器运行的流畅性。
可以理解的是,上述方法实施例中仅仅是对用户接收到的通话对方的语音信息的优化处理,在实际应用中,用户自身的声音也可以进行一定的优化处理。因此,本实施例的方法实现了通话本方的语音信息的优化处理,该方法的执行主体例如可以为浏览器10,如图3所示,本发明实施例提供的方法例如可以包括:
S201,浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求。
具体实施方式可以参见对步骤S101的说明,这里不再详细说明。
S202,浏览器的框架层单元应用语音优化工具包对实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;具体来说,框架层单元在获取语音优化工具包之后,应用语音优化工具包对实时通话中本方也即用户本身的语音信息进行优化,获取第二优化处理结果。
需要说明的是,由于用户与用户的对方进行实时通话时是一种全双工的通信模式,对于用户一侧来说,接收对方的语音信号以及将自身的语音信号传输给对方是可以同时发生的。因此本实施例中对于用户本身语音信息的优化与上述方法实施例中对于对方语音信息的优化是互不影响的,也就是说,框架层单元可以应用同一语音优化工具包同时执行步骤S102中对于对方语音信号的优化以及本步骤中对于用户本身语音信号的优化,并分别获得第一优化处理结果和第二优化处理结果。
S203、浏览器的框架层单元向浏览器的内核单元返回第二优化处理结果;
S204,浏览器的内核单元将第二优化处理结果发送给通话对方。
具体来说,框架层单元在获得第二优化处理结果后向浏览器内核单元发送该结果。由于第二优化处理结果是针对用户本方语音的处理结果,其目的是为了使对方能够听清本方的声音,因此浏览器内核单元在接收第二优化处理结果将其发送至对方,以使对方能够获得清晰的本方声音。
不难理解的是,步骤S102和步骤S103对通话对方的语音信息的语音优化过程(为了方便描述,称为第一语音优化过程)和步骤S202与步骤S203中本端语音处理的过程可以在同一实施例中实施,也就是说,可以首先按照步骤S102和步骤S103的方式执行第一语音优化过程,之后按照步骤S202和步骤S203的方式执行第二语音优化过程;或者首先执行上述的第二语音优化过程,之后执行第一语音优化过程。
不难理解的是,由于目前的实时通话声音的干扰因素主要为语音增益和回声,因此,上述所述的方法实施例中的优化处理可以包括语音增益处理,还可以包括回声消除处理。当然,还可以包括其他优化处理,例如去噪处理、语音声音放大处理等等。
具体来说,语音增益处理的过程可以采用如下方式:采用第一反馈信号对所述实时通话中接收到的通话对方的第一语音帧进行调整,所述第一反馈信号为对所述第一语音帧前的第二语音帧进行调整后所得的低通能量与参考能量的差值。
回声消除可以采用如下方式:通过求经调节的返回信号和第一自适应FIR滤波器滤波后的输入信号之差,生成第一有限冲激响应(FIR)误差信号,其中所述第一自适应FIR滤波器包括至少一个适于通过第一FIR适配机构调整的前馈增益,其中所述第一FIR适配机构适于接收所述生成的第一FIR误差信号;通过求所述经调节的返回信号和所述第一自适应IIR滤波器滤波后的输入信号之差,生成第一无限冲激响应(IIR)误差信号,其中所述第一自适应IIR滤波器包括至少一个前馈增益和至少一个反馈增益,所述增益适于通过第一IIR适配机构调整,其中所述第一IIR适配机构适于接收所述生成的第一IIR误差信号;以及从一组滤波后的输入信号中选择一个信号,所述滤波后的输入信号包括所述第一自适应FIR滤波器滤波后的所述输入信号和所述第一自适应IIR滤波器滤波后的所述输入信号。
其中,去噪处理可以采用去燥滤波器进行;而语音声音放大处理则可以通过放大器实现。
第二方面,本发明实施例还提供了一种实时通话中的语音处理方法,如图4所示,包括:
S301、浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
S302、浏览器的框架层单元获取预设的语音优化工具包,应用语音优化工具包对实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;
S303、浏览器的框架层单元向浏览器的内核单元返回第二优化处理结果;
S303、浏览器的内核单元将第二优化处理结果发送给通话对方。
不难理解的是,本发明实施例提供的方法可以仅对通话本方的语音进行优化处理,也可以同时对通话双方的语音进行处理。由于在第一方面中,对于如何对通话双方的语音信息进行优化处理已经进行了详尽的介绍,在此不再赘述。
第三方面,本发明实施例还提供了一种实时通话中的语音处理装置,应用于浏览器中,如图5所示,包括浏览器的内核单元401、浏览器的框架层单元402以及浏览器的用户界面层403。
其中,浏览器内核单元401用于检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;还用于将所述浏览器的框架层单元返回的所述第一优化处理结果发送给所述浏览器的用户界面层;
浏览器的框架层单元402,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;以及用于向所述浏览器的内核单元返回所述第一优化处理结果;
浏览器的用户界面层403,用于对所述第一优化处理结果进行语音播放。
具体来说,若检测到用户进行了实时通话的触发操作,则在建立通话连接的同时,浏览器内核单元401向框架层单元402发送语音优化请求,请求框架层单元402执行对于接收到的对方的语音信号进行优化的操作。框架层单元402在接收到语音优化请求后,首先获取相应的预设的语音优化工具包。接着在接收到的对方传来的语音信息之后,应用该语音优化工具包对实时通话中每一帧的声音信号进行优化处理,得到第一优化处理结果。在语音优化工具包对每一帧声音进行优化处理得到第一优化处理结果后,框架层单元402再将第一优化处理结果向浏览器内核单元401发送。浏览器内核单元401在接收到第一优化处理结果后,将其发送至用户界面层,以使该第一优化处理结果在用户界面层进行语音播放,从而用户就可以接收经过优化处理后的对方的声音。
本发明实施例提供的实时通话中的语音处理装置中,框架层应用语音优化工具包对接收到的对方的语音进行优化得到第一优化处理结果,并将第一优化处理结果发送至浏览器内核,以供浏览器内核将第一优化处理结果发送至用户界面层进行语音播放。在经过这样的处理之后,用户界面层播放的即为经过优化之后的对方的语音信号,从而能够有效消除对方传来的语音信号中的各类干扰因素,提高语音通话的质量。
在具体实施时,上述装置实施例中的框架层单元402还用于建立音频代理,音频代理在用户界面层上建立语音播放器,语音播放器与获取的语音优化工具包进行通信,并应用语音优化工具包对实时通话中接收到的对方的语音信息进行优化处理,获取第一优化处理结果。具体来说,框架层单元402在获取语音优化工具包之前首先建立音频,接着音频代理在用户界面层建立语音播放器。语音播放器与获取的语音优化工具包进行通信,将接收到的对方的语音信息传输至语音优化工具包。语音优化工具包在接收到对方的语音信息后,对每一帧的语音信息进行相应的优化处理,得到第一优化处理结果。
相应地,浏览器内核单元401还用于将第一优化处理结果通过音频代理发送至浏览器用户界面层,通过建立语音播放器播放第一优化处理结果。具体来说,浏览器内核单元401利用框架层单元402的音频代理将第一优化处理结果发送至用户界面层,并通过用户界面层的语音播放器播放该第一优化结果,使用户能够接收经过优化处理后的对方的声音。
这样做的好处是,通过音频代理建立的语音播放器与语音识别工具包进行通信,使得浏览器的框架层单元402可以从音频识别的任务中解脱出来,只需向用户界面层或浏览器内核单元401传输信息即可,从而可以提高浏览器的性能,提升浏览器运行的流畅性。
可以理解的是,在上述装置实施例的基础上,本发明的另一个实施例提供的装置的结构可以参考图6,可以对用户本方的声音进行优化,包括:
浏览器内核单元501用于检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;还用于将所述第二优化处理结果发送给通话对方
浏览器的框架层单元502,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;还用于向所述浏览器的内核单元发送所述第二优化处理结果。
具体来说,框架层单元502还用于应用语音优化工具包对实时通话中本方的语音信息进行优化处理,获取第二优化处理结果;框架层单元502,还用于向浏览器内核单元501发送第二优化处理结果,以供浏览器内核单元501将第二优化处理结果发送至对方。
需要说明的是,由于用户与用户的对方进行实时通话时是一种全双工的通信模式,对于用户一侧来说,接收对方的语音信号以及将自身的语音信号传输给对方是可以同时发生的。因此本实施例中框架层单元502对于用户本身语音信息的优化以及对于对方语音信息的优化是互不影响的,因此,框架层单元502可以应用同一语音优化工具包同时对对方的语音信号和/或用户本方的语音信号进行处理,并分别获得第一优化处理结果和第二优化处理结果,从而使得本方用户以及对方均能够接受到经过优化处理的、清晰的语音信号。
在具体实施时,框架层单元502应用语音优化工具包对对方语音或本方语音执行的优化处理可以包括语音增益处理以及回声消除处理。当然,还可以包括其他处理,如去噪、增大语音声音等,本发明实施例对此不作具体限定。
第四方面,本发明实施例还提供了一种实时通话中的语音处理装置,应用于浏览器中,如图7所示,包括浏览器的内核单元601、浏览器的框架层单元602。
其中,浏览器的内核单元601用于若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;还用于将浏览器的框架层单元返回的第二优化处理结果发送给通话对方;
浏览器的框架层单元602用于获取预设的语音优化工具包,应用语音优化工具包对实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;以及用于向浏览器的内核单元返回第二优化处理结果。
不难理解的是,本发明实施例提供的语音处理装置可以仅对通话本方的语音进行优化处理,也可以同时对通话双方的语音进行处理。由于在第三方面中,对于如何对通话双方的语音信息进行优化处理已经进行了详尽的介绍,在此不再赘述。
由于本实施例所介绍的实时通话中的语音处理装置为可以执行本发明实施例中的实时通话中的语音处理方法的装置,故而基于本发明实施例中所介绍的实时通话中的语音处理方法,本领域所属技术人员能够了解本实施例的实时通话中的语音处理装置的具体实施方式以及其各种变化形式,所以在此对于该实时通话中的语音处理装置如何实现本发明实施例中的实时通话中的语音处理方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中实时通话中的语音处理方法所采用的装置,都属于本申请所欲保护的范围。
不难理解的是,上述实施例中的举例说明只是为了便于更好地理解本发明实施例提供的方法或装置,并不能构成对本发明的具体限定。且上述的各个优选实施方式之间不会相互影响,各个优选实施方式之间的任意组合所得到的方案均应该落入本发明的保护范围。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种实时通话中的语音处理方法,其特征在于,包括:
浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
所述浏览器的框架层单元获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;
所述浏览器的框架层单元向所述浏览器的内核单元返回所述第一优化处理结果;
所述浏览器的内核单元将所述第一优化处理结果发送给所述浏览器的用户界面层;
所述浏览器的用户界面层对所述第一优化处理结果进行语音播放。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述浏览器的框架层单元建立音频代理,所述音频代理在所述浏览器的用户界面层上建立语音播放器,所述语音播放器与所述语音优化工具包进行通信;
相应地,所述浏览器的内核单元将所述第一优化处理结果发送给所述浏览器的用户界面层包括:
所述浏览器的内核单元将所述第一优化处理结果通过所述音频代理发送给所述浏览器的用户界面层;
所述浏览器的用户界面层对所述第一优化处理结果进行语音播放包括:
所述浏览器的用户界面层通过所述语音播放器播放所述第一优化处理结果。
3.根据权利要求1或2所述的方法,其特征在于,所述优化处理包括语音增益处理。
4.根据权利要求3所述的方法,其特征在于,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行语音增益处理包括:
采用第一反馈信号对所述实时通话中接收到的通话对方的第一语音帧进行调整,所述第一反馈信号为对所述第一语音帧前的第二语音帧进行调整后所得的低通能量与参考能量的差值。
5.根据权利要求1或2所述的方法,其特征在于,所述优化处理包括回声消除处理。
6.根据权利要求1所述的方法,其特征在于,还包括:
在获取到预设的语音优化工具包之后,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;
所述浏览器的框架层单元向所述浏览器的内核单元返回所述第二优化处理结果;
所述浏览器的内核单元将所述第二优化处理结果发送给通话对方。
7.一种实时通话中的语音处理方法,其特征在于,包括:
浏览器的内核单元若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
所述浏览器的框架层单元获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;
所述浏览器的框架层单元向所述浏览器的内核单元返回所述第二优化处理结果;
所述浏览器的内核单元将所述第二优化处理结果发送给通话对方。
8.一种实时通话中的语音处理装置,其特征在于,应用于浏览器,包括:
浏览器的内核单元,用于若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;
浏览器的框架层单元,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行优化处理,获得第一优化处理结果;以及用于向所述浏览器的内核单元返回所述第一优化处理结果;
所述浏览器的用户界面层,用于对所述第一优化处理结果进行语音播放。
9.根据权利要求8所述的装置,其特征在于,
所述浏览器的框架层单元,还用于建立音频代理,所述音频代理在所述浏览器的用户界面层上建立语音播放器,所述语音播放器与所述语音优化工具包进行通信;
相应地,所述浏览器内核单元,还用于将所述第一优化处理结果通过所述音频代理发送给所述浏览器的用户界面层;
所述浏览器的用户页面,还用于通过所述建立语音播放器播放所述第一优化处理结果。
10.根据权利要求8或9所述的装置,其特征在于,所述优化处理包括语音增益处理。
11.根据权利要求10所述的装置,其特征在于,所述浏览器的框架层单元应用所述语音优化工具包对所述实时通话中接收到的通话对方的语音信息进行语音增益处理包括:
采用第一反馈信号对所述实时通话中接收到的通话对方的第一语音帧进行调整,所述第一反馈信号为对所述第一语音帧前的第二语音帧进行调整后所得的低通能量与参考能量的差值。
12.根据权利要求8或9所述的装置,其特征在于,所述优化处理包括回声消除处理。
13.根据权利要求8所述的装置,其特征在于,
所述浏览器的框架层单元,还用于在获取到预设的语音优化工具包之后,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;还用于向所述浏览器的内核单元发送所述第二优化处理结果;
所述浏览器的内核单元,还用于将所述第二优化处理结果发送给通话对方。
14.一种实时通话中的语音处理装置,其特征在于,应用于浏览器,包括:
浏览器的内核单元,用于若检测到用户进行实时通话的触发操作,向浏览器的框架层单元发送语音优化请求;还用于将浏览器的框架层单元返回的第二优化处理结果发送给通话对方;
浏览器的框架层单元,用于获取预设的语音优化工具包,应用所述语音优化工具包对所述实时通话中待发送的通话本方的语音信息进行优化处理,获得第二优化处理结果;以及用于向所述浏览器的内核单元返回所述第二优化处理结果。
CN201610862730.1A 2016-09-28 2016-09-28 实时通话中的语音处理方法及装置 Pending CN106161218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610862730.1A CN106161218A (zh) 2016-09-28 2016-09-28 实时通话中的语音处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610862730.1A CN106161218A (zh) 2016-09-28 2016-09-28 实时通话中的语音处理方法及装置

Publications (1)

Publication Number Publication Date
CN106161218A true CN106161218A (zh) 2016-11-23

Family

ID=57341228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610862730.1A Pending CN106161218A (zh) 2016-09-28 2016-09-28 实时通话中的语音处理方法及装置

Country Status (1)

Country Link
CN (1) CN106161218A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527478A (zh) * 2016-11-24 2017-03-22 深圳市道通智能航空技术有限公司 无人机现场声音获取方法与有声视频实现方法及相关装置
CN109005190A (zh) * 2018-08-31 2018-12-14 杭州数心网络科技有限公司 一种基于网页实现全双工语音对话和页面控制的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101304391A (zh) * 2008-06-30 2008-11-12 腾讯科技(深圳)有限公司 一种基于即时通讯***的语音通话方法及***
CN103095752A (zh) * 2011-10-31 2013-05-08 中兴通讯股份有限公司 语音视频的录制方法、装置及***
CN105407123A (zh) * 2014-09-15 2016-03-16 上海天脉聚源文化传媒有限公司 一种基于web页端的声音传送的方法、装置及***
CN105516112A (zh) * 2015-12-01 2016-04-20 深圳联友科技有限公司 通过基于WebRTC的浏览器实现语音通话的方法及***
CN105721217A (zh) * 2016-03-01 2016-06-29 中山大学 基于Web的音频通信质量改进方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101304391A (zh) * 2008-06-30 2008-11-12 腾讯科技(深圳)有限公司 一种基于即时通讯***的语音通话方法及***
CN103095752A (zh) * 2011-10-31 2013-05-08 中兴通讯股份有限公司 语音视频的录制方法、装置及***
CN105407123A (zh) * 2014-09-15 2016-03-16 上海天脉聚源文化传媒有限公司 一种基于web页端的声音传送的方法、装置及***
CN105516112A (zh) * 2015-12-01 2016-04-20 深圳联友科技有限公司 通过基于WebRTC的浏览器实现语音通话的方法及***
CN105721217A (zh) * 2016-03-01 2016-06-29 中山大学 基于Web的音频通信质量改进方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527478A (zh) * 2016-11-24 2017-03-22 深圳市道通智能航空技术有限公司 无人机现场声音获取方法与有声视频实现方法及相关装置
CN109005190A (zh) * 2018-08-31 2018-12-14 杭州数心网络科技有限公司 一种基于网页实现全双工语音对话和页面控制的方法
CN109005190B (zh) * 2018-08-31 2020-10-30 浙江百应科技有限公司 一种在网页上实现全双工语音对话和页面控制的方法

Similar Documents

Publication Publication Date Title
CN111951819B (zh) 回声消除方法、装置及存储介质
CN107123430B (zh) 回声消除方法、装置、会议平板及计算机存储介质
US10477031B2 (en) System and method for suppression of non-linear acoustic echoes
CN112634923B (zh) 基于指挥调度***的音频回声消除方法、设备、存储介质
CN107277207B (zh) 自适应通话方法、装置、移动终端及存储介质
CN104243732A (zh) 振动传感器在回声消除中的使用
CN102223456B (zh) 回声信号处理方法及装置
CN107026950B (zh) 一种频域自适应回声消除方法
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
CN102568494A (zh) 消除回声的优化方法、装置及***
CN110992923B (zh) 回声消除方法、电子设备以及存储装置
US10432797B2 (en) Pre-distortion system for cancellation of nonlinear distortion in mobile devices
CN113241085B (zh) 回声消除方法、装置、设备及可读存储介质
CN106899455A (zh) 一种客户端与网页交互的方法和装置
CN114792524B (zh) 音频数据处理方法、装置、程序产品、计算机设备和介质
US20230197096A1 (en) Audio signal processing method, training method, apparatus and storage medium
CN106161218A (zh) 实时通话中的语音处理方法及装置
CN109727605A (zh) 处理声音信号的方法及***
CN111081238B (zh) 一种蓝牙音箱语音交互控制方法、装置及***
EP3414889B1 (en) Bi-magnitude processing framework for nonlinear echo cancellation in mobile devices
CN109935238B (zh) 一种回声消除方法、装置和终端设备
CN108154886A (zh) 噪声抑制方法及装置、电子装置及计算机可读存储介质
CN107967919A (zh) 消除tdd噪声的方法、装置及移动终端
CN114979344A (zh) 回声消除方法、装置、设备及存储介质
CN110995950B (zh) 基于pc端和移动端回音消除自适应的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20161123

WD01 Invention patent application deemed withdrawn after publication