CN113053401A - 音频采集方法及相关产品 - Google Patents
音频采集方法及相关产品 Download PDFInfo
- Publication number
- CN113053401A CN113053401A CN201911385884.6A CN201911385884A CN113053401A CN 113053401 A CN113053401 A CN 113053401A CN 201911385884 A CN201911385884 A CN 201911385884A CN 113053401 A CN113053401 A CN 113053401A
- Authority
- CN
- China
- Prior art keywords
- audio
- microphone
- target
- voice
- call
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006870 function Effects 0.000 claims description 75
- 238000001914 filtration Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000006854 communication Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 239000002699 waste material Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/90—Services for handling of emergency or hazardous situations, e.g. earthquake and tsunami warning systems [ETWS]
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Environmental & Geological Engineering (AREA)
- Public Health (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种音频采集方法及相关产品,该方法包括:在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;确定所述音频信息为通话音频;向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。采用本申请实施例,有利于减少对麦克风资源的浪费。
Description
技术领域
本申请涉及智能驾驶技术领域,具体涉及一种音频采集方法及相关产品。
背景技术
远程信息处理器(Telematics Box,TBOX),也就是常说的车载TBOX(也可直接称为TBOX)。为了保证行车的安全,在TBOX中设置了多种安全服务功能。具体来说,该安全服务功能包括路边救援协助、紧急呼叫(emergency Call,eCall)、车辆异常自动报警、车辆异常信息自动上传等服务。举例来说,车辆碰撞触发安全气囊后,TBOX会自动启动eCall功能,自动上传车辆位置信息以及事故位置信息给远程服务提供商(Telematics Service Provider,TSP)平台(远程服务提供商平台),并与TSP平台建立通话连接。
因此,为了保证eCall功能的通话过程,为TBOX中的eCall功能安装了一个特有的麦克风,以采集通话语音,实现通话过程。由于车辆主机本身就安装有多个麦克风,而TBOX只会在紧急的情况下才会使用该特有的麦克风,进而导致该麦克风资源在很大程度上浪费掉了,并且额外安装一个麦克风,会导致车辆上麦克风的布线比较复杂,增加了布线成本。
发明内容
本申请实施例提供了一种音频采集方法及相关产品,在启动eCall功能的情况下,通过车辆主机的麦克风采集eCall过程中的通话音频,无需为eCall功能额外布局麦克风,进而节省了麦克风资源,简化了车辆的布线。
第一方面,本申请实施例提供一种音频采集方法,包括:
在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定所述音频信息为通话音频;
向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
第二方面,本申请实施例提供一车载装置,包括:
采集单元,用于在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定单元,用于确定所述音频信息为通话音频;
发送单元,用于向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,在启动了eCall功能的情况下,通过车辆主机的麦克风来采集eCall过程中的通话音频,无需为eCall功能额外布局麦克风,减少麦克风资源的浪费,而且简化了车辆上麦克风的布线,降低了车辆的布线成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A为本申请实施例提供的一种车辆上麦克风布局的示意图;
图1B为本申请实施例提供的一种音频采集方法的流程示意图;
图1C为本申请实施例提供的另一种车辆上麦克风布局的示意图;
图1D为本申请实施例提供的另一种车辆上麦克风布局的示意图;
图2为本申请实施例提供的另一种音频采集方法的流程示意图;
图3为本申请实施例提供的另一种音频采集方法的流程示意图;
图4为本申请实施例提供的一种车载装置的结构示意图;
图5为本申请实施例提供的一种车载装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了便于理解本申请方案,首先对部分专业术语进行解释说明。
远程信息处理器(Telematics BOX),简称汽车TBOX(也称TBOX)。车辆网***包含四个部分:主机、TBOX、手机APP以及后台***。其中,主机用于影音娱乐,以及车辆信息显示,并且主机还用于语音识别,如图1A所示,为主机设置了第一麦克风和第二麦克风,通过第一麦克风和第二麦克风采集音频信息,并基于该音频信息进行语音识别;TBOX主要用于和手机APP或者后台***互联通信,实现手机APP或者后台***的车辆信息显示与控制。
其中,TBOX与主机通过汽车总线通信,实现指令与信息的传递,从而获取到包括车辆状态、按键状态等信息以及传递控制指令等等;通过音频连接,实现双方共用麦克风与喇叭输出。与手机APP是通过后台***以数据链路的形式进行双向通信。TBOX与后台***通信还包括语音和短信等形式。
其中,TBOX具有安全服务功能。该安全服务功能主要是针对行车安全和防盗设计的,包括路边救援协助、紧急呼叫(emergency Call,eCall)、车辆异常自动报警、车辆异常信息自动上传等服务。例如,碰撞自动求救功能,即车辆碰撞触发安全气囊后,TBOX会自动启动eCall功能,自动上传车辆位置信息给TSP平台,并同时给所有紧急联系人发送短信,该短信包括事故位置信息以及事件信息,以让事故车辆和人员得到及时的救援。
另外,在启动eCall功能的情况下,除了自动上传车辆位置信息给TSP平台之外,还需要与TSP平台建立通话。如图1A所示,为了保证与TSP平台通话成功,特地给eCall功能设置了第三麦克风,以采集启动eCall功能过程中的通话音频。由于车辆主机本身就安装有两个麦克风,而TBOX只会在紧急的情况下才会使用该第三麦克风,进而导致该第三麦克风资源浪费掉了,并且额外安装一个麦克风,会导致车辆麦克风的布线比较复杂,增加了布线成本。
因此为了节省麦克风资源以及简化车辆麦克风的布线,特提出本申请的技术方案。
首先,需要说明的是,本申请所涉及的车载装置具有TBOX,且该TBOX中具有eCall功能。
参阅图1B,图1B为本申请实施例提供的一种音频采集方法的流程示意图。该方法应用于车载装置。本实施例的方法包括但不限于以下步骤:
101:在启动紧急呼叫eCall功能的情况下,车载装置通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风。
在启动了eCall功能的情况下,车载装置使用目标麦克风采集音频信息,该目标麦克风可以为与车辆主机对应的第一麦克风和/或第二麦克风,其中,第一麦克风为设置于主驾驶位置的麦克风,第二麦克风为设置于副驾驶位置的麦克风。
如图1C所示。图1C仅示出了复用第二麦克风的情况,其复用第一麦克风的情况与复用第二麦克风的情况相似,不再叙述。
可选的,在TBOX中设置微控制单元(Microcontroller Unit,MCU),通过该MCU控制转换开关,以实现复用第二麦克风。
具体来说,在正常情况下,也就是MCU检测到TBOX未启动eCall功能时,则控制该转换开关切换到主机,即控制该第二麦克风与主机连接,将该第二麦克风作为主机的麦克风,通过第二麦克风和第一麦克风采集音频信息,并进行音频识别。在MCU检测到TBOX启动了eCall功能的情况下,通过MCU控制该转换开关进行切换,使第二麦克风与TBOX连接,即将第二麦克作为TBOX的麦克风。可以理解的是,在第二麦克风与TBOX连接的情况下,可控制第一麦克风处于非工作状态,也可以控制第一麦克风处于工作状态,本申请对此不做限定。
进一步地,如图1D所示,在同时复用第一麦克风和第二麦克风的情况下,当MCU检测到TBOX启动了eCall功能时,可通过MCU控制两个转换开关进行转换,以使第一麦克风和/或第二麦克风与TBOX连接。
102:车载装置确定所述音频信息为通话音频。
可选的,在目标麦克风与TBOX连接的情况下,则将目标麦克风采集到的音频信息作为通话音频,并通过TBOX将该通话音频发送给TSP平台。
103:车载装置向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
可以看出,在本申请实施例中,在启动了eCall功能的情况下,通过车辆主机的麦克风来采集eCall过程中的通话音频,无需为eCall功能额外布局麦克风,减少麦克风资源的浪费,而且简化了车辆上麦克风的布线,降低了车辆的布线成本。
在一种可能的实施方式中,所述方法还包括:
在未启动所述eCall功能的情况下,通过所述控制开关控制所述目标麦克风与所述主机连接;
通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述主机,以使所述主机得到语音识别所需的音频信息。
在一种可能的实施方式中,由于启动eCall功能的原因是车辆发生碰撞导致的。因此,在启动eCall功能的时候,周围环境噪声比较大,故向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,所述方法还包括:
使用预先训练好的人声提取模型对所述通话音频进行人声提取,得到中间通话音频,所述中间通话音频包括人声音频帧和非人声音频帧,其中,该人声提取模型可以为现有技术中的神经网络模型。例如,Hoursglass模型等,不再对人声提取过程进行赘述。
需要说明的是,现有的人声提取模型(例如Hoursglass模型)在进行人声提取时,输入数据为一个一个的音频帧(即将完整的通话音频拆分为多个音频帧),因此,对每个音频进行人声提取时,只有局部信息进行,从而导致与人声特征相近的非人声音频帧误识别为人声而提取出来,导致最后提取出的人声音频混合了了非人声音频帧。
因此,对所述中间通话音频进行过滤,以滤除该中间通话音频中的非人声音频帧,得到目标通话音频,所述目标通话音频包括人声音频帧;
向与所述eCall功能对应的远程服务提供商平台发送所述目标通话音频。
在本示例中,在发送通话音频之前,先对通话音频进行人声提取以及过滤,滤除了周围环境噪声,进而得到清晰、且只包含人声的通话音频,提高通话质量,进而提高救援成功率。
在一种可能的实施方式中,对所述中间通话音频进行过滤,得到目标通话音频的实现过程可以为:
将所述中间通话音频分割为多个音频段,所述多个音频段中每个音频段由多个音频帧组成,且任意两个相邻的音频段存在重叠的音频帧;
对每个音频段进行过滤,得到与每个音频段对应的第一人声概率序列,所述第一人声概率序列用于表示每个音频段中每个音频帧为人声的概率,即使用过滤模型输出该音频段中每个音频帧属于人声的概率,然后,将每个音频帧属于人声的概率依次连接,得到该第一人声概率序列;
根据每个音频段的第一人声概率序列确定任意两个相邻的音频段之间重叠音频段中每个音频帧为人声的概率均值,得到所述中间通话音频的第二人声概率序列;具体来说,由于任意两个相邻的音频段之间存在重叠的音频帧,因此,将每个重叠音频帧在两个音频段上对应的人声的概率的均值作为该重叠音频帧的人声的概率;
根据维特比算法以及所述第二人声概率序列确定所述中间通话音频的目标人声概率序列。其中,基于维特比viterbi算法对第二人声概率序列中的元素进行优化调整,将最优的概率序列作为目标人声概率序列。例如,第二人声概率序列为[0.0,0,1,0.1,0.2,0.3,0.5,0.8,0.7,0.1,0.1,0.6,0.7,0.8,…,],从该序列可以看出该中间通话音频中的第6、7、8、11、12、13个音频帧为人声音频帧,第9、10个音频帧为非人声音频帧。由于说话是一个渐变的过程,故各个音频帧的人声概率也是一个渐变过程,不存在上一个音频帧的人声概率非常大,下一个音频帧的人声概率非常小,不符合说话人的说话规律。因此,断定第9、10个音频帧对应的人声概率存在问题,需动态调整。即将其人声概率调整大于阈值,以符合说话规律;
根据所述目标人声概率序列滤除所述中间通话音频中的非人声音频帧,得到目标通话音频,所述非人声音频帧为所述中间通话音频中与所述目标人声概率序列中的目标元素对应的音频帧,所述目标元素为所述目标人声概率序列中概率小于阈值的元素。
在本示例中,由于过滤时的输入数据为音频段,相比现有技术中输入数据为音频帧,该输入数据具有更大的感受野,从而可以可用全局信息过滤非人声音频帧,提高了对非人声音频帧全部滤出的概率。
在一种可能的实施方式中,向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,所述方法还包括:
对所述通话音频进行格式转换,得到目标格式的音频数据,其中,该目标格式包括但不限于json格式、mp4格式、ProtoBuf格式;
对所述音频数据进行压缩,得到目标音频数据;
向与所述eCall功能对应的远程服务提供商平台发送所述目标音频数据。
在本示例中,对通话音频进行格式转换与压缩,
在一种可能的实施方式中,向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,所述方法还包括:
获取无线网络的网络质量;
在所述网络质量满足条件的情况下,启动直通链路功能,以与辅助设备建立直通链路,通过该直通链路向该辅助设备发送该通话音频,并请求该辅助设备将该通话音频转发给TSP平台。
具体来说,获取无线网络的误码率,在误码率大于阈值的情况下,确定该无线网络的质量满足条件。
在本示例中,在网络质量较差的情况下,则通过直通链路的方式,向TSP发送通话音频,提高了通话音频发送的成功率,避免了由于无线质量较差的情况导致数据丢包问题,进而提高救援成功率。
参阅图2,图2为本申请实施例提供的另一种音频采集方法的流程示意图。该方法应用于车载装置。本实施例的方法包括但不限于以下步骤:
201:车载装置判断是否开启eCall功能。
202:在启动紧急呼叫eCall功能的情况下,车载装置通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接。
203:车载装置通过目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到所述eCall功能所需的通话音频。
其中,该目标麦克风为车辆主机对应的麦克风。该目标麦克风包括第一麦克风和/或第二麦克风。
204、车载装置向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
205:在未启动所述eCall功能的情况下,车载装置通过所述控制开关控制所述目标麦克风与所述车辆主机连接。
206:车载装置通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述车辆主机,以使所述车辆主机得到语音识别所需的音频信息。
需要说明的是,图2所示的方法的各个步骤的具体实现过程可参见上述图1B所述方法的具体实现过程,在此不再叙述。
可以看出,在本申请实施例中,在启动eCall功能的情况下,通过车辆主机的麦克风来采集eCall过程中的通话音频,在未启动eCall功能的情况下,通过车辆主机的麦克风来采集语音识别所需的音频信息,提高了对辆主机的麦克风资源的利用率;而且,无需为eCall功能额外布局麦克风,简化了车辆上麦克风的布线,降低了车辆布局成本。
参阅图3,图3为本申请实施例提供的另一种音频采集方法的流程示意图。该方法应用于车载装置。本实施例的方法包括但不限于以下步骤:
301:车载装置判断是否开启eCall功能。
302:在启动紧急呼叫eCall功能的情况下,车载装置通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接。
303:车载装置通过目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到所述eCall功能所需的通话音频。
其中,该目标麦克风为车辆主机对应的麦克风。该目标麦克风包括第一麦克风和/或第二麦克风。
304、车载装置使用预先训练好的人声提取模型对所述通话音频进行人声提取,得到中间通话音频,所述中间通话音频包括人声音频帧和非人声音频帧。
305:车载装置对所述中间通话音频进行过滤,得到目标通话音频,所述目标通话音频包括人声音频帧。
306:车载装置向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
307:在未启动所述eCall功能的情况下,车载装置通过所述控制开关控制所述目标麦克风与所述车辆主机连接。
308:车载装置通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述车辆主机,以使所述车辆主机得到语音识别所需的音频信息。
需要说明的是,图3所示的方法的各个步骤的具体实现过程可参见上述图1B所述方法的具体实现过程,在此不再叙述。
可以看出,在本申请实施例中,在启动eCall功能的情况下,通过车辆主机的麦克风来采集eCall过程中的通话音频,在未启动eCall功能的情况下,通过车辆主机的麦克风来采集语音识别所需的音频信息,提高了对辆主机的麦克风资源的利用率;而且,无需为eCall功能额外布局麦克风,简化了车辆上麦克风的布线,降低了车辆布局成本;此外,在向远程服务提供商平台发送通话音频之前,滤除了通话音频中的非人声(环境噪声),提高了eCall过程中的通话质量,进而提高救援成功率。
参阅图4,图4为本申请实施例提供的一种车载装置的结构示意图。如图4所示,车载装置400包括处理器、存储器、通信接口以及一个或多个程序,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定所述音频信息为通话音频;
向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
在一种可能的实施方式中,所述目标麦克风包括第一麦克风和/或第二麦克风,所述第一麦克风为设置于车辆主驾驶位置的麦克风,所述第二麦克风为设置于车辆副驾驶位置的麦克风。
在一种可能的实施方式中,在通过目标麦克风采集音频信息方面,上述程序具体用于执行以下步骤的指令:
通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接;
通过所述目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到所述eCall功能所需的通话音频。
在一种可能的实施方式中,上述程序还用于执行以下步骤的指令:
在未启动所述eCall功能的情况下,通过所述控制开关控制所述目标麦克风与所述车辆主机连接;
通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述车辆主机,以使所述车辆主机得到语音识别所需的音频信息。
在一种可能的实施方式中,向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,上述程序还用于执行以下步骤的指令:
使用预先训练好的人声提取模型对所述通话音频进行人声提取,得到中间通话音频,所述中间通话音频包括人声音频帧和非人声音频帧;
对所述中间通话音频进行过滤,得到目标通话音频,所述目标通话音频包括人声音频帧;
向与所述eCall功能对应的远程服务提供商平台发送所述目标通话音频。
在一种可能的实施方式中,在对所述中间通话音频进行过滤,得到目标通话音频方面,上述程序具体用于执行以下步骤的指令:
将所述中间通话音频分割为多个音频段,所述多个音频段中每个音频段由多个音频帧组成,且任意两个相邻的音频段存在重叠的音频帧;
对每个音频段进行过滤,得到与每个音频段对应的第一人声概率序列,所述第一人声概率序列用于表示每个音频段中每个音频帧为人声的概率;
根据每个音频段的第一人声概率序列确定任意两个相邻的音频段之间重叠音频段中每个音频帧为人声的概率均值,得到所述中间通话音频的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述中间通话音频的目标人声概率序列;
根据所述目标人声概率序列滤除所述中间通话音频中的非人声音频帧,得到目标通话音频,所述非人声音频帧为所述中间通话音频中与所述目标人声概率序列中的目标元素对应的音频帧,所述目标元素为所述目标人声概率序列中概率小于阈值的元素。
参阅图5,图5本申请实施例提供的一种车载装置的功能单元组成框图。车载装置500包括:采集单元510、确定单元520和发送单元530,其中:
采集单元510,用于在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定单元520,用于确定所述音频信息为通话音频;
发送单元530,用于向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
在一种可能的实施方式中,所述目标麦克风包括第一麦克风和/或第二麦克风,所述第一麦克风为设置于车辆主驾驶位置的麦克风,所述第二麦克风为设置于车辆副驾驶位置的麦克风。
在一种可能的实施方式中,在通过目标麦克风采集音频信息方面,采集单元510,具体用于:
通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接;
通过所述目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到所述eCall功能所需的通话音频。
在一种可能的实施方式中,采集单元510,还用于:
在未启动所述eCall功能的情况下,通过所述控制开关控制所述目标麦克风与所述车辆主机连接;
通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述车辆主机,以使所述车辆主机得到语音识别所需的音频信息。
在一种可能的实施方式中,车载装置500,还包括人声提取单元540,向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,人声提取单元540,用于:
使用预先训练好的人声提取模型对所述通话音频进行人声提取,得到中间通话音频,所述中间通话音频包括人声音频帧和非人声音频帧;
对所述中间通话音频进行过滤,得到目标通话音频,所述目标通话音频包括人声音频帧;
向与所述eCall功能对应的远程服务提供商平台发送所述目标通话音频。
在一种可能的实施方式中,在对所述中间通话音频进行过滤,得到目标通话音频方面,人声提取单元540,具体用于:
将所述中间通话音频分割为多个音频段,所述多个音频段中每个音频段由多个音频帧组成,且任意两个相邻的音频段存在重叠的音频帧;
对每个音频段进行过滤,得到与每个音频段对应的第一人声概率序列,所述第一人声概率序列用于表示每个音频段中每个音频帧为人声的概率;
根据每个音频段的第一人声概率序列确定任意两个相邻的音频段之间重叠音频段中每个音频帧为人声的概率均值,得到所述中间通话音频的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述中间通话音频的目标人声概率序列;
根据所述目标人声概率序列滤除所述中间通话音频中的非人声音频帧,得到目标通话音频,所述非人声音频帧为所述中间通话音频中与所述目标人声概率序列中的目标元素对应的音频帧,所述目标元素为所述目标人声概率序列中概率小于阈值的元素。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种音频采集方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种音频采集方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种音频采集方法,其特征在于,包括:
在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定所述音频信息为通话音频;
向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
2.根据权利要求1所述的方法,其特征在于,所述目标麦克风包括第一麦克风和/或第二麦克风,所述第一麦克风为设置于车辆主驾驶位置的麦克风,所述第二麦克风为设置于车辆副驾驶位置的麦克风。
3.根据权利要求1或2所述的方法,其特征在于,所述通过目标麦克风采集音频信息,包括:
通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接;
通过所述目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到所述eCall功能所需的通话音频。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在未启动所述eCall功能的情况下,通过所述控制开关控制所述目标麦克风与所述车辆主机连接;
通过所述目标麦克风采集音频信息,并将所述音频信息发送给所述车辆主机,以使所述车辆主机得到语音识别所需的音频信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,向与所述eCall功能对应的远程服务提供商平台发送所述通话音频之前,所述方法还包括:
使用预先训练好的人声提取模型对所述通话音频进行人声提取,得到中间通话音频,所述中间通话音频包括人声音频帧和非人声音频帧;
对所述中间通话音频进行过滤,得到目标通话音频,所述目标通话音频包括人声音频帧;
向与所述eCall功能对应的远程服务提供商平台发送所述目标通话音频。
6.根据权利要求5所述的方法,其特征在于,所述对所述中间通话音频进行过滤,得到目标通话音频,包括:
将所述中间通话音频分割为多个音频段,所述多个音频段中每个音频段由多个音频帧组成,且任意两个相邻的音频段存在重叠的音频帧;
对每个音频段进行过滤,得到与每个音频段对应的第一人声概率序列,所述第一人声概率序列用于表示每个音频段中每个音频帧为人声的概率;
根据每个音频段的第一人声概率序列确定任意两个相邻的音频段之间重叠音频段中每个音频帧为人声的概率均值,得到所述中间通话音频的第二人声概率序列;
根据维特比算法以及所述第二人声概率序列确定所述中间通话音频的目标人声概率序列;
根据所述目标人声概率序列滤除所述中间通话音频中的非人声音频帧,得到目标通话音频,所述非人声音频帧为所述中间通话音频中与所述目标人声概率序列中的目标元素对应的音频帧,所述目标元素为所述目标人声概率序列中概率小于阈值的元素。
7.一种车载装置,其特征在于,包括:
采集单元,用于在启动紧急呼叫eCall功能的情况下,通过目标麦克风采集音频信息,所述目标麦克风为车辆主机对应的麦克风;
确定单元,用于确定所述音频信息为通话音频;
发送单元,用于向与所述eCall功能对应的远程服务提供商平台发送所述通话音频。
8.根据权利要求7所述的装置,其特征在于,
在通过目标麦克风采集音频信息方面,所述采集单元,具体用于:
通过转换开关控制所述目标麦克风与远程信息处理器TBOX连接;
通过所述目标麦克风采集音频信息,并通过所述目标麦克风将所述音频信息发送给所述TBOX,以使所述TBOX得到eCall功能所需的通话音频。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911385884.6A CN113053401A (zh) | 2019-12-26 | 2019-12-26 | 音频采集方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911385884.6A CN113053401A (zh) | 2019-12-26 | 2019-12-26 | 音频采集方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113053401A true CN113053401A (zh) | 2021-06-29 |
Family
ID=76507327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911385884.6A Withdrawn CN113053401A (zh) | 2019-12-26 | 2019-12-26 | 音频采集方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053401A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105793906A (zh) * | 2014-03-20 | 2016-07-20 | 奥迪股份公司 | 机动车中的控制器、机动车和用于紧急通信的方法 |
DE102015224327A1 (de) * | 2015-12-04 | 2017-06-08 | Volkswagen Aktiengesellschaft | Audiovorrichtung für ein Fahrzeug und Verfahren zur Steuerung der Audiovorrichtung |
KR20180104896A (ko) * | 2017-03-14 | 2018-09-27 | 현대자동차주식회사 | 차량 긴급구난체계 서비스 연동 공용 마이크의 진단 시스템 |
CN108616844A (zh) * | 2016-12-07 | 2018-10-02 | 中兴通讯股份有限公司 | 通讯方法、装置及*** |
CN110085251A (zh) * | 2019-04-26 | 2019-08-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声提取方法、人声提取装置及相关产品 |
-
2019
- 2019-12-26 CN CN201911385884.6A patent/CN113053401A/zh not_active Withdrawn
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105793906A (zh) * | 2014-03-20 | 2016-07-20 | 奥迪股份公司 | 机动车中的控制器、机动车和用于紧急通信的方法 |
DE102015224327A1 (de) * | 2015-12-04 | 2017-06-08 | Volkswagen Aktiengesellschaft | Audiovorrichtung für ein Fahrzeug und Verfahren zur Steuerung der Audiovorrichtung |
CN108616844A (zh) * | 2016-12-07 | 2018-10-02 | 中兴通讯股份有限公司 | 通讯方法、装置及*** |
KR20180104896A (ko) * | 2017-03-14 | 2018-09-27 | 현대자동차주식회사 | 차량 긴급구난체계 서비스 연동 공용 마이크의 진단 시스템 |
CN110085251A (zh) * | 2019-04-26 | 2019-08-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 人声提取方法、人声提取装置及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9049584B2 (en) | Method and system for transmitting data using automated voice when data transmission fails during an emergency call | |
CN104813688A (zh) | 司机与司机通信***、车辆及其方法 | |
DE102015107505A1 (de) | Verfahren und System zum Starten einer Anwendung | |
DE102015107503A1 (de) | Verfahren und System zum Starten einer Anwendung | |
US8588731B2 (en) | TYY interface module signal to communicate equipment disruption to call center | |
JP7160454B2 (ja) | 情報を出力するための方法、装置及びシステム、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム | |
CN105761532B (zh) | 动态语音提示方法及车载*** | |
CN110313022B (zh) | 用于事故响应的设备和方法 | |
CN108597524B (zh) | 一种汽车人声识别提示装置及方法 | |
CN110293909A (zh) | 车载***消息的显示方法、装置、车辆和存储介质 | |
CN110691109A (zh) | 车辆、车机设备及其车载通话环境控制方法 | |
CN114724566A (zh) | 语音处理方法、装置、存储介质及电子设备 | |
CN107005825B (zh) | 一种汽车紧急呼叫方法、车载终端和*** | |
CN107018505B (zh) | 用于车辆紧急呼叫的方法和设备 | |
CN113055847B (zh) | 音频播放方法及相关产品 | |
US8600011B2 (en) | Navigation system support of in-vehicle TTY system | |
CN113053401A (zh) | 音频采集方法及相关产品 | |
CN112752223A (zh) | 一种基于车载t-box的ecall实现方法、装置及存储介质 | |
CN215769843U (zh) | 车载多麦手机交互记录仪和汽车 | |
CN104158566A (zh) | 车载通信机构与无线耳机的连接控制方法及装置 | |
CN114793326A (zh) | 一种车载呼叫方法、车载呼叫设备和车辆 | |
CN113489843A (zh) | 一种音频通路切换方法、装置、车辆及存储介质 | |
CN111845590A (zh) | 基于车载以太网的车载音频采集***及方法 | |
DE102015119282A1 (de) | Verfahren und System zum Starten einer Anwendung | |
CN1893492A (zh) | 车载无线设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 201821 room 208, building 4, No. 1411, Yecheng Road, Jiading Industrial Zone, Jiading District, Shanghai Applicant after: Botai vehicle networking technology (Shanghai) Co.,Ltd. Address before: Room 208, building 4, 1411 Yecheng Road, Jiading Industrial Zone, Jiading District, Shanghai, 201800 Applicant before: SHANGHAI PATEO ELECTRONIC EQUIPMENT MANUFACTURING Co.,Ltd. |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210629 |