CN111863029A - 一种基于音频的事件检测方法和*** - Google Patents
一种基于音频的事件检测方法和*** Download PDFInfo
- Publication number
- CN111863029A CN111863029A CN201910886729.6A CN201910886729A CN111863029A CN 111863029 A CN111863029 A CN 111863029A CN 201910886729 A CN201910886729 A CN 201910886729A CN 111863029 A CN111863029 A CN 111863029A
- Authority
- CN
- China
- Prior art keywords
- audio
- target event
- audio signal
- neural network
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000005236 sound signal Effects 0.000 claims abstract description 186
- 238000012545 processing Methods 0.000 claims abstract description 99
- 238000000034 method Methods 0.000 claims abstract description 57
- 238000003062 neural network model Methods 0.000 claims abstract description 49
- 238000005520 cutting process Methods 0.000 claims abstract description 30
- 238000010801 machine learning Methods 0.000 claims description 54
- 238000003860 storage Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000000306 recurrent effect Effects 0.000 claims description 14
- 230000001568 sexual effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 5
- 208000032544 Cicatrix Diseases 0.000 claims description 4
- 206010039580 Scar Diseases 0.000 claims description 4
- 208000014745 severe cutaneous adverse reaction Diseases 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 230000001133 acceleration Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Alarm Systems (AREA)
Abstract
本申请实施例公开了一种基于音频的事件检测方法和***。所述基于音频的事件检测方法包括:获取一段音频信号;将所述音频信号切割成多个音频片段;对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。本申请采用了在神经网络模型中引入残差连接,可以使神经网络模型同时学习浅层与深层的特征,有效提升了模型对音频信号中目标事件检测的准确性,同时联合多个音频片段是否包含目标事件的确定结果,来确定音频信号中是否包含目标事件的方法,可以增加对音频信号中目标事件检测的准确性。
Description
技术领域
本申请涉及安全监测领域,特别涉及一种基于音频的事件检测方法和系 统。
背景技术
随着经济发展,民众对衣食住行体验的要求越来越高,先进的音频检测是 提供民众体验的一种途径。对于一些可能存在潜在风险的场景(如,网约车服务、 地下停车场),通过录制的音频及时判断出当前场景是否存在目标事件(如,冲 突、抢劫等),并及时实施干预措施具有非常重要的意义。因此,有必要提供一 种基于音频进行目标事件检测的方法,以更准确的判断音频对应的场景是否存 在目标事件(如,冲突、抢劫等),从而可以有效的采取相应的干预措施,以保 证民众的人身安全。
发明内容
本申请实施例之一提供一种基于音频的事件检测方法。所述方法包括:获 取一段音频信号;将所述音频信号切割成多个音频片段;对所述多个音频片段进 行处理,以确定所述音频信号中是否包含目标事件。
在一些实施例中,所述对所述多个音频片段进行处理,以确定所述音频信 号中是否包含目标事件包括:确定所述多个音频片段的一个或多个音频片段中 是否包含目标事件;联合所述一个或多个音频片段中是否包含目标事件的确定 结果,确定所述音频信号中是否包含所述目标事件。
在一些实施例中,所述联合所述一个或多个音频片段中是否包含目标事 件的确定结果,确定所述音频信号中是否包含所述目标事件包括:若任一所述音 频片段中包含目标事件,则确定所述音频信号中包含所述目标事件;若所述音频 片段中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。
在一些实施例中,所述将所述音频信号切割成多个音频片段包括将所述 音频信号在时域上切割成多个音频片段。
在一些实施例中,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢 劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。
在一些实施例中,所述确定所述多个音频片段的一个或多个音频片段中 是否包含目标事件包括对于音频片段:提取音频片段的特征信息;基于机器学习 模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值。
在一些实施例中,所述确定所述多个音频片段的一个或多个音频片段中 是否包含目标事件还包括:对于音频片段:获取设定阈值;判断所述音频片段中 包含目标事件的概率值是否大于所述设定阈值:若是,则确定所述音频片段中包 含目标事件。
在一些实施例中,所述特征信息包括以下特征中的一种或多种的组合:F- bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率 倒谱系数、Tandem特征以及Bottleneck特征。
在一些实施例中,所述机器学习模型包括神经网络模型;所述基于机器学 习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:机 器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音 频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。
在一些实施例中,所述神经网络模型包括卷积循环神经网络、卷积神经网 络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。
在一些实施例中,所述神经网络模型中具有残差连接;所述残差连接用于 将神经网络模型中某一层的输出数据融合到之后层的输入数据中。
在一些实施例中,所述机器学习模型通过以下方法获得:获取音频信号样 本;其中,包含目标事件的音频信号样本标记为正样本,未包含目标事件的音频 信号样本标记为负样本;将音频信号样本切割成多个音频片段;基于所述多个音 频片段及标记结果训练初始模型得到所述机器学习模型。
在一些实施例中,所述音频信号通过音频采集设备实时获取;所述方法还 包括:响应于所述音频信号包含所述目标事件,对与所述音频信号相关的场景实 施干预措施。
在一些实施例中,所述干预措施包括提醒、支援、报警中至少一个。
本申请实施例之一提供一种环形伪影的检测***。所述***包括获取模 块、音频信号切割模块和处理模块;其中:所述获取模块用于获取一段音频信号; 所述音频信号切割模块用于将所述音频信号切割成多个音频片段;所述处理模 块用于对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事 件。
在一些实施例中,所述处理模块包括音频片段处理单元和目标事件联合 确定单元;其中:所述音频片段处理单元用于确定所述多个音频片段的一个或多 个音频片段中是否包含目标事件;所述目标事件联合确定单元用于联合所述一 个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否 包含所述目标事件。
在一些实施例中,所述目标事件联合确定单元还用于:若任一所述音频片 段中包含目标事件,则确定所述音频信号中包含所述目标事件;若所述音频片段 中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。
在一些实施例中,所述音频信号切割模块进一步用于将所述音频信号在 时域上切割成多个音频片段。
在一些实施例中,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢 劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。
在一些实施例中,所述音频片段处理单元还用于:对于音频片段:提取音 频片段的特征信息;基于机器学习模型处理所述特征信息,预测所述音频片段中 包含目标事件的概率值。
在一些实施例中,所述音频片段处理单元还用于:对于音频片段:获取设 定阈值;判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值:若 是,则确定所述音频片段中包含目标事件。
在一些实施例中,所述特征信息包括F-bank特征、线性预测系数、感知 线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征、Bottleneck 特征中至少一个。
在一些实施例中,所述机器学习模型包括神经网络模型;所述基于机器学 习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:机 器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音 频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。
在一些实施例中,所述神经网络模型包括卷积循环神经网络、卷积神经网 络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。
在一些实施例中,所述神经网络模型中具有残差连接;所述残差连接用于 将神经网络模型中某一层的输出数据融合到之后层的输入数据中。
在一些实施例中,还包括机器学习模型训练模块,所述机器学习模型训练 模块用于:获取音频信号样本;其中,包含目标事件的音频信号样本标记为正样 本,未包含目标事件的音频信号样本标记为负样本;将音频信号样本切割成多个 音频片段;基于所述多个音频片段及标记结果训练初始模型得到所述机器学习 模型。
在一些实施例中,所述音频信号通过音频采集设备实时获取;所述***还 包括干预措施实施模块,其中:所述干预措施实施模块用于响应于所述音频信号 包含所述目标事件,对与所述音频信号相关的场景实施干预措施。
在一些实施例中,所述干预措施包括提醒、支援、报警中至少一个。
本申请实施例之一提供一种基于音频的事件检测装置。所述装置包括至 少一个处理器和至少一个存储设备,所述存储设备用于存储指令,当所述至少一 个处理器执行所述指令时,实现如本申请任一实施例所述的方法。
本申请实施例之一提供一种计算机可读存储介质。所述存储介质存储计 算机指令,当计算机读取所述存储介质中的所述计算机指令后,所述计算机执行 如本申请任一实施例所述的方法。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过 附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表 示相同的结构,其中:
图1是根据本申请的一些实施例所示的音频检测***的应用场景示意图。
图2是根据本申请的一些实施例所示的示例性计算设备的硬件和软件组 件的示意图。
图3是根据本申请的一些实施例所示的基于音频的目标事件检测***的 模块图;
图4是根据本申请的一些实施例所示的基于音频的目标事件检测方法的 示例性流程图;
图5是根据本申请的一些实施例所示的音频信号中目标事件确定方法的 示例性流程图;
图6是根据本申请的一些实施例所示的音频片段中目标事件确定方法的 示例性流程图。
图7是根据本申请的一些实施例所示的机器学习模型训练方法的示例性 流程图;
图8是根据本申请的一些实施例所示的具有残差块的神经网络模型的网 络结构示意图。
具体实施方式
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所 需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的 一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前 提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显 而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“***”、“装置”、“单元”和/或“模组”是 用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如 果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、 “一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来, 术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元 素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操 作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以 按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或 从这些过程移除某一步或数步操作。
本申请的实施例可以应用于不同的线上线下服务***,例如,可以是运输 服务***(包括出租车、专车、顺风车、巴士、代驾等)、家政服务***、商品 交易***等。本申请描述的“乘客”、“乘客端”、“用户终端”、“顾客”、 “需求者”、“服务请求者”、“消费者”、“消费方”、“使用需求者”等是 可以互换的,是指需要或者订购服务的一方,可以是个人,也可以是工具。同样 地,本申请描述的“司机”、“司机端”、“提供者”、“供应者”、“服务提 供者”、“服务者”、“服务方”等也是可以互换的,是指提供服务或者协助提 供服务的个人、工具或者其他实体等。另外,本申请描述的“用户”可以是需要 或者订购服务的一方,也可以是提供服务或者协助提供服务的一方。本申请的实 施例可以应用于不同的待监测场景,例如,地下停车场、安全事故(如,抢劫、 车祸)高发地等。
图1是根据本申请的一些实施例所示的音频检测***100的应用场景示 意图。
音频检测***100可以判定音频相关的对话场景中是否包含目标事件, 并采取应对方法以减少对用户的伤害。音频检测***100可以是用于互联网或 者其它网络的服务平台。例如,音频检测***100可以是为交通运输提供服务 的线上服务平台。在一些实施例中,音频检测***100可以应用于网约车服务, 例如出租车呼叫、快车呼叫、专车呼叫、小巴呼叫、拼车、公交服务、司机雇佣 和接送服务等。在一些实施例中,音频检测***100还可以应用于代驾、快递、 外卖等。在另一些实施例中,音频检测***100还可以应用于家政服务、出行 (如旅游)服务、教育(如线下教育)服务等领域。如图1所示,音频检测*** 100可以包括处理设备110、一个或一个以上终端120、存储设备130、网络140 以及信息源150。
在一些实施例中,处理设备110可以处理从终端120、存储设备130和/ 或信息源150处获得的数据和/或信息。例如,处理设备110可以获取多个终端 120的定位/轨迹信息和/或与行程相关的参与方(例如,司机和乘客)的特征信 息。又例如,处理设备110可以获取多个终端120传输的音频信号。处理设备 110可以处理上述所获取的信息和/或数据以执行本申请描述的一个或多个功能。 例如,处理设备110可以基于机器学习模型对所获取的音频信号以进行目标事 件(如,冲突、抢劫)的判断,并根据判断结果采取相应干预措施,比如报警和 /或提供线下支援。在一些实施例中,处理设备110可以获取音频信号并将该音频信号切割成多个音频片段。在一些实施例中,处理设备110可以对多个音频 片段进行处理,以确定音频信号中是否包含目标事件。在一些实施例中,处理设 备110可以响应于音频信号包含目标事件,对与所述音频信号相关的场景实施 干预措施。
在一些实施例中,处理设备110可以是独立的服务器或者服务器组。该 服务器组可以是集中式的或者分布式的(如:处理设备110可以是分布***)。 在一些实施例中,处理设备110可以是本地的或者远程的。例如,处理设备110 可通过网络140访问存储于终端120、存储设备130和/或信息源150中的信息 和/或资料。在一些实施例中,处理设备110可直接与终端120、存储设备130和 /或信息源150连接以访问存储于其中的信息和/或资料。在一些实施例中,处理 设备110可在云平台上执行。例如,该云平台可包括私有云、公共云、混合云、 社区云、分散式云、内部云等中的一种或其任意组合。在另一些实施例中,处理 设备110可以同时是终端120之一。
在一些实施例中,处理设备110可以包含一个或多个子处理设备(如:单 核处理器或多核处理器)。仅仅作为范例,处理设备110可包含中央处理器(CPU)、 专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物 理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可 编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微 处理器等或以上任意组合。
在一些实施例中,终端120可以是带有数据获取、存储和/或发送功能的 设备,可以包括任一用户或者非直接参与服务的终端、服务提供者终端、服务请 求者终端和/或车载终端。所述服务提供者可以是提供服务的个人、工具或者其 他实体。所述服务请求者可以是需要得到或者正在接受服务的个人、工具或者其 他实体。例如,针对网约车服务而言,所述服务提供者可以是司机、第三方平台, 所述服务请求者可以是乘客或者其它接受类似服务的个人或者设备(例如物联 网设备)。在一些实施例中,终端120可以用于采集各类数据,包括但不限于与 服务相关的数据。例如,终端120所采集的数据可以包括与服务场景相关的数 据(例如,司机乘客的对话音频、导航提示语音等)、与订单相关的数据(例如, 订单请求时间、起终点、乘客信息、司机信息、车辆信息等)、与车辆行驶情况 相关的数据(例如,当前速度、当前加速度、设备的姿态、路况等)、与服务行 程相关的数据(例如,预设行程路径、实际行驶路径、费用等)、与服务参与方 (服务提供者/服务请求者)相关的数据(例如,参与方的个人信息、服务提供 者/服务请求者对于终端120的操控信息、终端设备的各种相关数据等)等或其 任意组合。所采集数据可以是实时的,也可以是各类历史数据如用户过去的使用 历史等等。数据可由终端120通过自身的传感器进行数据采集,也可以搜集外 接传感器获取的数据,也可以读取存储在自身的存储器中的数据,还可以通过网 络140读取存储在存储设备130中的数据。在一些实施例中,传感器可以包括 定位装置、声音传感器、图像传感器、温湿度传感器、位置传感器、压力传感器、 距离传感器、速度传感器、加速度传感器、重力传感器、位移传感器、力矩传感 器、陀螺仪等或其任意组合。
在一些实施例中,终端120可以包括台式电脑120-1、笔记本电脑120-2、 车载设备120-3、移动设备120-4等中的一种或几种的组合。在一些实施例中, 移动设备120-4可以包括智能家居设备、可穿戴设备、智能移动设备、增强现实 设备等或其任意组合。在一些实施例中,可穿戴设备可以包括智能手镯、智能鞋 袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等或其任 意组合。在一些实施例中,智能移动设备可以包括智能手机、个人数字助理 (PDA)、游戏设备、导航设备、POS机等或其任意组合。在一些实施例中,车载设备120-3可以包括车载录音机、车载计算机、汽车数据记录器、车载人机交 互(HCI)***、行车记录仪、车载电视等。在一些实施例中,车载设备120-3 可以获取车辆的各种部件数据和/或运行数据,例如,速度、加速度、行驶方向、 部件状态、车辆周围环境等。所获取的数据可以用于判定当前服务场景是否发生 目标事件(例如,冲突、抢劫)、行车故障(例如,发动机或变速箱故障导致车 辆无法移动)等。在一些实施例中,终端120可以是具有用于定位终端120的位 置的定位技术的设备。在一些实施例中,终端120可以将采集到的数据/信息通 过网络140传输至处理设备110进行后续步骤。终端120还可以将采集到的数 据/信息存储至自身的存储器中,或通过网络140传输至存储设备130进行存储。 终端120还可以接收和/或显示由处理设备110生成的与音频检测相关的通知。 在一些实施例中,可以有多个终端相互连接,共同采集各类数据,并由一个或者 多个终端对这些数据进行预处理。
存储设备130可以存储数据和/或指令。在一些实施例中,存储设备130 可以存储终端120获取的数据/信息(如,音频信号)。存储设备130还可以存 储历史音频数据或历史交通运输服务数据,例如,历史行程录音数据、历史服务 订单的订单数据、服务参与方数据、车辆相关数据及行程数据等。在一些实施例 中,存储设备130可以存储处理设备110用于执行或使用来完成本申请中描述 的示例性方法的数据和/或指令。例如,存储设备130可以存储神经网络模型, 所述神经网络模型可以基于处理设备110所获取的音频信号确定该交通运输服 务是否存在目标事件。在一些实施例中,存储设备130可以存储用户终端的各类实时或者和历史数据,例如,与历史服务相关的用户的历史记录,比如历史评 价等。在一些实施例中,存储设备130可以是处理设备110或者终端120的一 部分。在一些实施例中,存储设备130可以包括大容量存储器、可移动存储器、 易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存 储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动 器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包 括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍 速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T- RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、 可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电子可擦除可编程 ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些 实施例中,存储设备130可以在云平台上实现。仅作为示例,所述云平台可以包 括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。 例如,本申请中一些目标事件确定的算法或者数据可以存储在某个云平台上,定 期更新,处理设备110通过网络访问这些算法或者数据,以实现整个平台的算 法或者数据的统一与交互。特别的,一些历史数据可以统一存储在平台的一个云 平台上,以便多个处理设备110或者终端120访问或者更新,以便保证数据的 实时性和跨平台使用。例如,终端120可以随时将其服务行程的音频发布到某 个云平台上,***可以根据多个终端120的反馈判断是否出现异常状况。
在一些实施例中,存储设备130可以连接到网络140以与音频检测*** 100中的一个或以上组件(例如,处理设备110、终端120、信息源150)通信。 音频检测***100中的一个或以上组件可以通过网络140访问存储设备130中 存储的数据或指令。在一些实施例中,存储设备130可以与音频检测***100中 的一个或以上组件(例如,处理设备110、终端120、信息源150)直接连接或 通信。在一些实施例中,存储设备130可以是处理设备110的一部分。
网络140可以促进信息和/或数据的交换。在一些实施例中,音频检测系 统100中的一个或以上组件(例如,处理设备110、终端120、存储设备130和 信息源150)可以通过网络140向/从音频检测***100中的其他组件发送和/或 接收信息和/或数据。例如,处理设备110可以通过网络140从终端120和/或信 息源150获取与音频信号相关的数据/信息。又例如,终端120可以通过网络140 从处理设备110或存储设备130处获取用于确定音频信号中是否包含目标事件 的神经网络模型。获取的神经网络模型可以以终端120的应用软件实现。终端 120在获取与音频信号相关的数据/信息后,可以自行判定该音频信号中是否包含目标事件,并实施干预措施,比如,启动电话报警。在一些实施例中,网络140 可以为任意形式的有线或无线网络或其任意组合。仅作为示例,网络140可以 包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域 网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广 域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯 (NFC)网络、全球移动通讯***(GSM)网络、码分多址(CDMA)网络、时 分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM 演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入 (HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输 控制协议/互联网协议(TCP/IP)网络、短信息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G) 网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)等或其任意组合。在一些实施例中, 音频检测***100可以包括一个或以上网络接入点。例如,音频检测***100可 以包括有线或无线网络接入点,例如基站和/或无线接入点140-1、140-2、...,音 频检测***100的一个或以上组件可以通过其连接到网络140以交换数据和/或 信息。
信息源150可以用于为音频检测***100提供信息的来源。在一些实施 例中,信息源150可以用于为音频检测***100提供与交通运输服务相关的信 息,例如,天气情况、交通信息、地理信息、法律法规信息、新闻事件、生活资 讯、生活指南信息等。在一些实施例中,信息源150还可以是其他第三方平台, 可以提供服务请求方和/或服务提供方的征信记录,如信贷记录等。在一些实施 例中,信息源150可以用于为音频检测***100提供与音频检测相关的信息, 例如,驾驶安全提示信息、人身安全提示信息、财产安全提示信息等。信息源150 可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。当信息源150在多个个人设备中实现时,个人设备可以生成内容(例如,被 称为“用户生成内容”),例如,通过将文本、语音、图像和视频上载到云服务 器。信息源可以由多个个人设备和云服务器生成。存储设备130、处理设备110 以及终端120同时也可以是信息源。例如,终端120实时反馈的速度和定位信 息,可以作为信息源提供交通状况信息供其他设备获取使用。
图2是根据本申请的一些实施例所示的示例性计算设备的硬件和软件组 件的示意图。
如图2所示,移动设备200可以包括通信单元210、显示单元220、图形 处理单元(GPU)230、中央处理单元(CPU)240、输入/输出250、内存260、 存储器270和传感器280。在一些实施例中,任何其他合适的组件,包括但不限 于***总线或控制器(未显示),亦可包括于移动设备200内。
在一些实施例中,移动操作***262(例如,IOSTM、AndroidTM、Windows PhoneTM等)和一个或多个应用程序264可以从存储器290加载到内存260中以 便由CPU240执行。应用程序264可以包括浏览器或任何其他合适的移动应用 程序,用于发送与交通运输服务相关联的数据/信息,并接收和呈现来自音频检 测***100的处理或其他相关的信息。例如,应用程序264可以是在线网约车 出行平台(例如,滴滴出行TM),用户(例如,服务请求者)可以通过应用程序 264请求交通运输服务,并将请求信息发送至后台服务器端。用户与信息流的交 互可以经由输入/输出250来实现并且经由网络140被提供给处理设备110和/或 音频检测***100的其他组件。
在一些实施例中,移动设备200还可以包括多个传感器280。传感器280 可以获取与服务参与方(例如,司机/乘客)、车辆和/或行程等相关的数据。在 一些实施例中,所述传感器可以包括声音传感器、图像传感器、温湿度传感器、 位置传感器、压力传感器、距离传感器、速度传感器、加速度传感器、重力传感 器、位移传感器、力矩传感器、陀螺仪等或其任意组合。在一些实施例中,由所 述传感器所获取的数据可以用于判定该数据所对应的场景是否包含目标事件和/ 或包含何种目标事件。例如,声音传感器和图像传感器可以采集服务参与方之间 的对话以及车内的实时场景,以供判断是否发生司乘冲突或财产/人身安全事件, 比如,肢体冲突、酒驾、抢劫、性侵犯、性骚扰等。又例如,位置传感器和位移 传感器可以采集车辆的实时位置和/或车辆的行驶轨迹数据,以供判断是否发生 行程异常,比如,异常停留、行程偏离、行驶时间异常等。还例如,速度传感器、 加速度传感器和陀螺仪可以采集车辆的实时速度、实时加速度、终端120的偏 转量、偏转频率等,以供判断车辆是否发生行车安全事故,比如,撞车、翻车等。
在一些实施例中,移动设备200还可以与车辆进行通信,例如,蓝牙通 信,以获取安装在车辆内部或外部的车载传感器所采集的数据,比如,车辆当前 状态数据和行驶数据,并将通过自身传感器获取的数据和通过车载传感器获取 的数据进行合并,以用于后续的目标事件判定。
在一些实施例中,移动设备200可以将所获取的数据/信息,包括通过自 身传感器获取的数据和通过车载传感器获取的数据,通过网络140发送到音频 检测***100的处理设备110以进行目标事件判定及干预措施。在一些实施例 中,移动设备200可以直接进行目标事件判定及干预措施。例如,应用程序264 中可以内置有进行目标事件判定的代码或模块,可以直接进行目标事件判定及 干预措施。在一些实施例中,音频检测***100的处理设备110和/或移动设备 200还可以根据目标事件判定和/或干预措施结果生成安全通知指令。移动设备 200可以通过接收并执行上述安全通知指令,提醒使用者当前所处的安全状态。 例如,移动设备200可以通过语音(例如,通过扬声器)、振动(例如,通过振 动器)、文字(通过短信或社交应用程序)、灯光闪烁(例如,通过闪光灯或显 示单元220)等或其组合的方式实现该安全通知以达到提醒使用者的目的。
在一些实施例中,移动设备200的使用者,例如,司机和/或乘客,可以 自行执行目标事件确定过程。具体地,司机和/或乘客可以通过移动设备200中 的应用程序264主动上报目标事件。例如,上报冲突事件。移动设备200执行特 定操作,比如摇晃或摔掷,可以启动报警程序。又例如,应用程序264的界面中 可以包括直接与后端安全平台通信的快速入口(例如,报警按钮、求助按钮), 在判断自身处于危险情况时,用户可以通过该点击报警按钮向警方报警。在报警 后,应用程序264还可以将报警用户的当前位置和行程信息发送至警方以辅助 救援。
为了实现本申请描述的各种模块、单元及其功能,计算机硬件平台可用作 本申请中所描述的一个或以上组件的硬件平台。具有用户接口组件的计算机可 用于实施个人计算机(PC)或任何其他类型的工作站或终端装置。若计算机被 适当的程序化,计算机亦可充当***。
图3是根据本申请的一些实施例所示的基于音频的目标事件检测***300 的模块图。如图3所示,该基于音频的目标事件检测***300可以包括获取模 块310、音频信号切割模块320、处理模块330和干预措施实施模块340。
获取模块310可以用于获取一段音频信号。具体的,该音频信号可以是 实时音频信号,也可以是历史音频信号。在一些实施例中,音频信号可以通过音 频采集设备(如,录音机、录音笔、手机、平板电脑等)采集。
音频信号切割模块320可以用于将音频信号切割成多个音频片段。具体 的,音频信号切割模块320可以将音频信号在时域上切割成多个音频片段。
处理模块330可以用于确定音频信号中是否包含目标事件。具体的,处 理模块330可以对多个音频片段进行处理,以确定音频信号中是否包含目标事 件。在一些实施例中,目标事件可以包括冲突、威胁、恐吓、敲诈、勒索、抢劫、 盗窃、猥亵、性侵犯、性骚扰、***、车祸等。在一些具体的实施例中,在网约 车场景下,目标事件还可以包括拒载、恶意绕路、恶意要价、乘客拒付等。
如图3所示,处理模块330可以进一步包括音频片段处理单元331和目 标事件联合确定单元332。音频片段处理单元331可以用于确定多个音频片段的 一个或多个音频片段中是否包含目标事件。
音频片段处理单元331还可以用于提取音频片段的特征信息。在一些实 施例中,音频片段的特征信息可以包括F-bank(Filter bank)特征、线性预测系 数(LinearPrediction Coefficients,LPC)、感知线性预测系数(Perceptual Linear Predictive,PLP)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient, LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、Tandem 特征以及Bottleneck特征等中的一种或多种的组合。
音频片段处理单元331还可以用于基于机器学习模型处理特征信息,预 测音频片段中包含目标事件的概率值。在一些实施例中,机器学习模型可以包括 神经网络模型。在一些实施例中,神经网络模型可以包括卷积循环神经网络 (Convolutional RecurrentNeural Network,CRNN)、卷积神经网络(Convolutional neural networks,CNN)、深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)、循环神经网络(Recurrentneural networks,RNN)以及长短期记忆(Long /Short Term Memory,LSTM)模型等。在该神经网络模型中可以具有残差连接, 该残差连接可以用于将神经网络模型中某一层的输出数据融合到之后层的输入 数据中。具体的,可以用于将神经网络模型中某一层的输出数据融合到与其不相 邻的层的输入数据中,也可以用于将神经网络模型中某一层的输出数据直接作 为与其相邻的层的输入数据。在一些实施例中,机器学习模型可以基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定当 前音频片段中包含目标事件的概率值。
音频片段处理单元331还可以用于获取设定阈值。具体的,该设定阈值 可以用于确定音频片段中是否包含目标事件。在一些实施例中,该设定阈值可以 手动设置,也可以由音频片段处理单元331通过统计历史目标事件及其概率值 后确定。
音频片段处理单元331还可以用于判断音频片段中是否包含目标事件。 具体的,音频片段处理单元331可以用于判断音频片段中包含目标事件的概率 值是否大于设定阈值:若是,则可以确定音频片段中包含目标事件。
目标事件联合确定单元332可以用于联合一个或多个音频片段中是否包 含目标事件的确定结果,确定音频信号中是否包含所述目标事件。在一些实施例 中,若任一个音频片段中包含目标事件,则可以确定音频信号中包含目标事件。 在一些实施例中,若音频片段中全部都未包含目标事件,则可以确定音频信号中 未包含目标事件。
干预措施实施模块340可以用于对与音频信号相关的场景实施干预措施。 具体的,干预措施实施模块340可以响应于音频信号包含目标事件,对与音频 信号相关的场景实施干预措施。在一些实施例中,干预措施可以包括提醒、支援、 报警等。
在一些实施例中,***300还可以包括机器学习模型训练模块350,机器 学习模型训练模块350可以用于获得机器学习模型。具体的,机器学习模型训 练模块350可以获取音频信号样本;其中包含目标事件的音频信号样本可以标 记为正样本,未包含目标事件的音频信号样本可以标记为负样本;将音频信号样 本切割成多个音频片段;基于多个音频片段及标记结果可以训练初始模型得到 机器学习模型。
应当理解,图3所示的***及其模块可以利用各种方式来实现。例如,在 一些实施例中,***及其模块可以通过硬件、软件或者软件和硬件的结合来实现。 其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由 适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域技术人员 可以理解上述的方法和***可以使用计算机可执行指令和/或包含在处理器控制 代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储 器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了 这样的代码。本申请的***及其模块不仅可以有诸如超大规模集成电路或门阵 列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理 器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实 现。
需要注意的是,以上对于基于音频检测目标事件的***及其模块的描述, 仅为描述方便,并不能把本申请限制在所举实施例范围之内。可以理解,对于本 领域的技术人员来说,在了解该***的原理后,可能在不背离这一原理的情况下, 对各个模块进行任意组合,或者构成子***与其他模块连接。例如,音频片段处 理单元331和目标事件联合确定单元332可以为同一个单元。又例如,若音频 信号为历史音频信号,干预措施实施模块340可以删除,不需要对与该音频信 号相关的场景实施干预措施。再例如,机器学习模型训练模块350可以从*** 300中移除,或者将机器学习模型训练模块350设置在另一***中。诸如此类的 变形,均在本申请的保护范围之内。
图4是根据本申请的一些实施例所示的基于音频的目标事件检测方法400 的示例性流程图。如图4所示,该基于音频的目标事件检测方法400可以包括:
步骤410,获取一段音频信号。具体的,该步骤410可以由获取模块310 执行。
在一些实施例中,音频信号可以是实时音频信号,也可以是历史音频信号。 在一些实施例中,音频信号可以记录音频信号所对应场景的信息。例如,音频信 号所对应场景的对话信息。以网约车服务为例,音频信号可以包括行程过程中的 车内实时录音或行程结束后上传的历史录音。该音频信号的内容可以包括行车 过程中服务参与方(如,司机/乘客)之间的对话以及车内的场景信息(如,路 线导航提示语音、车辆鸣笛音等)。在一些实施例中,音频信号可以通过音频采 集设备(如,行车记录仪、录音机、录音笔、手机、平板电脑等)采集,上传给 处理设备110或存储在存储器150中。
步骤420,将音频信号切割成多个音频片段。具体的,该步骤420可以由 音频信号切割模块320执行。
在一些实施例中,音频片段可以为一段时长较短(如,10秒)的音频信 号,多个音频片段组成一段完整的音频信号。在一些实施例中,可以将音频信号 在时域上切割成多个音频片段。在一些实施例中,若音频信号为实时音频信号, 则将实时音频信号在时域上切割的时长不宜过长,以便可以达到实时检测目标 事件的效果。在一些实施例中,在时域上切割可以包括等时长切割、非等时长切 割。在一些替代性实施例中,还可以包括按帧切割、基于距离度量的分割、按说 话人变换点切割等。在一些实施例中,基于距离度量的切割可以包括按KL距离 切割、按欧式距离切割、按马氏距离切割。在一些实施例中,按说话人变换点切 割可以包括按GMM高斯混合模型切割、按SVM支持向量机模型切割。
步骤430,对多个音频片段进行处理,以确定音频信号中是否包含目标事 件。具体的,该步骤430可以由处理模块330执行。
在一些实施例中,目标事件可以包括冲突、威胁、恐吓、敲诈、勒索、抢 劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸等。在一些具体的实施例中,在 网约车场景下,目标事件还可以包括拒载、恶意绕路、恶意要价、乘客拒付等。 在一些实施例中,对多个音频片段进行处理,以确定音频信号中是否包含目标事 件可以包括确定一个或多个音频片段是否包含目标事件进而确定音频信号中是 否包含目标事件。具体的,可以确定多个音频片段的一个或多个音频片段中是否 包含目标事件,进而联合一个或多个音频片段中是否包含目标事件的确定结果, 以确定音频信号中是否包含所述目标事件。关于确定音频信号中是否包含目标 事件的方法的更多描述可以在本申请的其他地方(如流程图6及其相关描述中) 找到,在此不作赘述。
在一些实施例中,还可以包括步骤440,响应于音频信号包含目标事件, 对与所述音频信号相关的场景实施干预措施。具体的,该步骤440可以由干预 措施实施模块340执行。
在一些实施例中,与音频信号相关的场景可以为录制音频信号所对应的 场景,例如,网约车订单服务场景、家政服务场景、商品交易服务场景或线下教 育服务场景。在一些实施例中,若音频信号为实时获取的音频信号,在检测到音 频信号包含目标事件时,对与该音频信号相关的场景实施干预措施。在一些实施 例中,干预措施可以包括提醒、支援、报警等。以网约车服务为例,若检测到音 频信号包含的目标事件为语言冲突时,可以向司机和乘客终端(如,手机)发出 提醒语音,例如,可以播报提示语音“请注意文明交流,注意行车安全”;若检 测到音频信号包含的目标事件为发生敲诈时,向司机和乘客终端(如,手机)发 出提醒语音(如,播报语音“请注意文明乘车(或服务),远离犯罪”),同时, 也可以通知该场景附近其他服务车辆的司机,让其协助对该敲诈进行干预,或者 可以自动报警通知警方介入;若检测到音频信号包含的目标事件为发生抢劫时, 向司机和乘客终端(如,手机)发出提醒语音(如,播报语音“珍爱生命,远离 犯罪”),同时,也可以通知该场景附近其他服务车辆的司机,让其协助对该敲 诈进行干预并自动报警通知警方介入。
应当注意的是,上述有关流程400的描述仅仅是为了示例和说明,而不 限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流 程400进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例 如,步骤440可以删除,若音频信号为历史音频信号,则不需要对与该音频信号 相关的场景实施干预措施。又例如,步骤410与步骤420可以合并。具体的,可 以利用音频采集设备实时获取短时间间隔的音频信号,可等同于音频片段。持续 监控对话场景以获取多个短时间间隔的音频信号则可视为已将一段长时间间隔 的音频信号在时域上分割得到了多个音频片段。从而实现,在获取音频间隔的同 时,对已获取的音频片段进行处理,并基于已经处理音频片段的处理结果实时预测其对应的音频信号中是否出现目标事件,提高目标事件监测的时效性,确保服 务双方的安全。
图5是根据本申请的一些实施例所示的音频信号中目标事件确定方法500 的示例性流程图。如图5所示,该音频信号中目标事件确定方法500可以包括: 步骤510,确定多个音频片段的一个或多个音频片段中是否包含目标事件。具体 的,该步骤510可以由音频片段处理单元331执行。
在一些实施例中,确定多个音频片段的一个或多个音频片段中是否包含 目标事件可以包括基于机器学习模型预测音频片段中包含目标事件的概率值, 通过判断音频片段中包含目标事件的概率值是否大于设定阈值,来判断音频片 段中包含目标事件。具体的,可以提取音频片段的特征信息,基于机器学习模型 处理该特征信息以预测音频片段中包含目标事件的概率值;可以获取设定阈值; 当音频片段中包含目标事件的概率值大于设定阈值时,则可以确定音频片段中 包含目标事件。关于确定音频片段中是否包含目标事件的方法的更多描述可以 在本申请的其他地方(如流程图6及其相关描述中)找到,在此不作赘述。
步骤520,联合一个或多个音频片段中是否包含目标事件的确定结果,确 定音频信号中是否包含所述目标事件。具体的,该步骤520可以由目标事件联 合确定单元332执行。
关于目标事件的更多描述可以在本申请的其他地方(如流程图4及其相 关描述中)找到,在此不作赘述。在一些实施例中,若任一音频片段中包含目标 事件,则可以确定音频信号中包含所述目标事件。在一些实施例中,若音频片段 中全部都未包含目标事件,则可以确定音频信号中未包含所述目标事件。在一些 实施例中,若音频信号为实时音频信号,则在确定音频信号中是否包含所述目标 事件时,联合音频片段中是否包含目标事件的确定结果的数量不宜过多,以便可 以达到实时检测目标事件的效果。
应当注意的是,上述有关流程500的描述仅仅是为了示例和说明,而不 限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流 程500进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例 如,步骤510及步骤520可以合并在一个步骤中。
图6是根据本申请的一些实施例所示的音频片段中目标事件确定方法600 的示例性流程图。如图6所示,该音频片段中目标事件确定方法600可以包括:
步骤610,提取音频片段的特征信息。具体的,该步骤610可以由音频片 段处理单元331执行。
在一些实施例中,音频片段的特征信息可以包括F-bank(Filter bank)特 征、线性预测系数(Linear Prediction Coefficients,LPC)、感知线性预测系数 (PerceptualLinear Predictive,PLP)、线性预测倒谱系数(Linear Predictive CepstralCoefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient, MFCC)、Tandem特征以及Bottleneck特征等中的一种或多种的组合。在一些 实施例中,音频片段处理单元331可以提取音频片段的特征信息。例如,F-bank 特征。
步骤620,基于机器学习模型处理特征信息,预测音频片段中包含目标事 件的概率值。具体的,该步骤620可以由音频片段处理单元331执行。
在一些实施例中,机器学习模型可以包括神经网络模型。在一些实施例中, 神经网络模型可以包括卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)、卷积神经网络(Convolutional neural networks,CNN)、深 度卷积神经网络(DeepConvolutional Neural Networks,DCNN)、循环神经网络 (Recurrent neural networks,RNN)、长短期记忆(Long/Short Term Memory, LSTM)模型等。
在一些实施例中,该神经网络模型中可以具有残差连接。在一些实施例中, 残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。 具体的,残差连接可以用于将神经网络模型中某一层的输出数据融合到与其不 相邻的层的输入数据中,使得神经网络模型中该不相邻的层的输入数据中不仅 引用了上一层的输出数据,同时还引用了之前某一层的输出数据。在一些实施例 中,残差连接还可以用于将神经网络模型中某一层的输出数据直接作为与其相 邻的层的输入数据。所述层可以包括但不限于卷积层、池化层、全连接层等等。 仅仅作为示例,如图8所示,可以在神经网络模型中以三层为单位形成一个或 多个残差块。在每个残差块中,第一结构层的输出数据可以直接作为第二结构层 的输入数据,第一层的输出数据也可以通过残差连接融合到第三结构层的输入 数据中,因此第三结构层的输入数据引用了第二结构层的输出数据,同时还引用 了第一结构层的输出数据。在一些替代性实施例中,可以在神经网络模型中以四 层、五层或六层等为单位形成残差块,在残差块中引入残差连接,残差连接可以 将第一层的输出数据“短接”到与其不相邻的层(如第四层、第五层或第六层) 的输入数据中,第一层的输出数据也可以直接作为与其相邻的层(如第二层)的 输入数据;神经网络中的各个残差块中的层数可以相同,也可以不相同;残差块 中的层按照功能区分,可以包括卷积层、池化层、全连接层以及ReLU层中的一 种或多种,残差块中的层按照层所在位置区分,可以包括输入层、隐藏层以及输出层中的一种或多种;本申请对此均不作限制。
在一些实施例中,机器学习模型可以为提前训练好且可以直接使用的模 型。关于机器学习模型训练方法的更多描述可以在本申请的其他地方(如流程图 8及其相关描述中)找到,在此不作赘述。在一些实施例中,可以将音频片段的 特征信息输入机器学习模型中,机器学习模型基于音频片段的特征信息可以预 测该音频片段中包含目标事件的概率值。具体的,可以将音频片段的特征信息输 入机器学习模型中,机器学习模型可以基于当前音频片段的特征信息和当前音 频片段之前的一个或多个音频片段的特征信息来预测当前音频片段中包含目标 事件的概率值。
步骤630,获取设定阈值。具体的,该步骤630可以由音频片段处理单元 331执行。
在一些实施例中,该设定阈值可以用于确定音频片段中是否包含目标事 件。在一些实施例中,该设定阈值可以人为设置,也可以由音频片段处理单元 331通过统计历史目标事件及其概率值后确定。在一些实施例中,该设定阈值可 以是固定值,也可以根据不同情况进行调整。例如,对于夜间22:00~次日凌晨 5:00之间,可以将该设定阈值可以设定为一个较小值(如,0.3),以避免遗漏 任何潜在的目标事件。又例如,如果想要实施的干预措施具有较高的有效性,该 设定阈值可以设定为一个较大的值(如,0.8)。
步骤640,判断音频片段中包含目标事件的概率值是否大于设定阈值。具 体的,该步骤640可以由音频片段处理单元331执行。
在一些实施例中,若音频片段中包含目标事件的概率值大于设定阈值,音 频片段处理单元331可以执行步骤650,确定该音频片段中包含目标事件。在一 些实施例中,若音频片段中包含目标事件的概率值不大于设定阈值,音频片段处 理单元331可以确定该音频片段中未包含目标事件。关于目标事件的更多描述 可以在本申请的其他地方(如流程图4及其相关描述中)找到,在此不作赘述。
应当注意的是,上述有关流程600的描述仅仅是为了示例和说明,而不 限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流 程600进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例 如,步骤630可以设置在步骤610或者步骤620之前。又例如,还可以包括步 骤660,若音频片段中包含目标事件的概率值不大于设定阈值,音频片段处理单 元331可以确定该音频片段中未包含目标事件。
图7是根据本申请的一些实施例所示的机器学习模型训练方法700的示 例性流程图。如图7所示,该机器学习模型训练方法700可以包括:
步骤710,获取音频信号样本。具体的,该步骤710可以由机器学习模型 训练模块350执行。
在一些实施例中,音频信号样本可以为一定数量的历史音频信号。在一些 实施例中,该一定数量的历史音频信号中可以有包含目标事件的音频信号,也可 以有未包含目标事件的音频信号。在一些实施例中,机器学习模型训练模块350 可以对获取的音频信号样本进行标注。具体的,可以将包含目标事件的音频信号 样本标记为正样本,将未包含目标事件的音频信号样本标记为负样本。例如,在 音频信号样本中,某一个音频信号样本中包含目标事件(如,抢劫),可以将该 音频信号样本标记为正样本;某一个音频信号样本中未包含目标事件,则可以将 该音频信号样本标记为负样本。在一些实施例中,可以将正样本用数字“1”表 示,将负样本用数字“0”表示。
步骤720,将音频信号样本切割成多个音频片段。具体的,该步骤720可 以由机器学习模型训练模块350执行。
在一些实施例中,可以将音频信号样本中任一个都按时域切割成多个音 频片段。在模型训练的时候,对音频信号样本进行标记,而无需对音频信号样本 切割后的音频片段逐一标记,有利于降低样本标记的人力成本同时确保训练得 到的模型的识别准确度。关于音频信号切割成多个音频片段的更多描述可以在 本申请的其他地方(如流程图4及其相关描述中)找到,在此不作赘述。
步骤730,基于多个音频片段及标记结果训练初始模型得到机器学习模型。 具体的,该步骤730可以由机器学习模型训练模块350执行。
在一些实施例中,初始模型可以是神经网络模型。在一些实施例中,神经 网络模型可以包括卷积循环神经网络(Convolutional Recurrent Neural Network, CRNN)、卷积神经网络(Convolutional neural networks,CNN)、深度卷积神 经网络(DeepConvolutional Neural Networks,DCNN)、循环神经网络(Recurrent neural networks,RNN)、长短期记忆模型(Long/Short Term Memory,LSTM) 模型等。例如,初始模型可以是包含至少三个层的神经网络模型。所述层可以包 括卷积层、池化层、全连接层、ReLU层中的一种或多种,残差块中的层按照层 所在位置区分,可以包括输入层、隐藏层以及输出层中的一种或多种。在一些实 施例中,初始模型可以根据训练情况调整内部参数。
在一些实施例中,可以在神经网络模型中引入残差连接。在一些实施例中, 残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。 具体的,残差连接可以用于将神经网络模型中某一层的输出数据融合到与其不 相邻的层的输入数据中,使得神经网络模型中该不相邻的层的输入数据中不仅 引用了上一层的输出数据,同时还引用了之前某一层的输出数据。在一些实施例 中,残差连接还可以用于将神经网络模型中某一层的输出数据直接作为与其相 邻的层的输入数据。仅仅作为示例,如图8所示,可以在神经网络模型中以三层 为单位形成一个或多个残差块。在每个残差块中,第一结构层的输出数据可以直 接作为第二结构层的输入数据,第一结构层的输出数据也可以通过残差连接融 合到第三结构层的输入数据中,因此第三结构层的输入数据引用了第二结构层 的输出数据,同时还引用了第一结构层的输出数据。在一些替代性实施例中,也 可以在神经网络模型中以四层、五层或六层等为单位形成残差块,在残差块中引 入残差连接,残差连接可以将第一层的输出数据“短接”到与其不相邻的层(如 第四层、第五层或第六层)的输入数据中,第一层的输出数据也可以直接作为与 其相邻的层(如第二层)的输入数据。神经网络中的各个残差块中的层数可以相 同,也可以不相同,本申请对此不作限制。在模型中引入残差连接,可以模型在 学习深层特征的同时还学到了浅层特征,从而提高了模型的准确度。
在一些实施例中,还可以基于模型的预测结果以及样本真实值构造损失 函数,并基于损失函数的梯度值反向对模型中的参数进行调整,使模型优化。在 一些实施例中,由于模型中引入了残差连接,可以减损失函数的梯度损耗,提高 模型的训练效率。在一些实施例中,在训练过程中,可以利用验证集对模型进行 验证,并根据验证结果(例如,模型处于欠拟合和/或过拟合状态)对模型参数 进行调整以使模型优化。所述验证集中的数据与所述初始模型的训练数据独立 同分布,且没有交集。在一些实施例中,当满足预设条件时,可以停止模型训练, 并将最终的模型作为所需要的机器学习模型输出。在一些实施例中,可以采用贪 心算法对模型进行优化。在一些实施例中,可以通过极大似然估计法确定模型中 的特征参数。在一些实施例中,可以采用对数似然函数,即 计算。
应当注意的是,上述有关流程700的描述仅仅是为了示例和说明,而不 限定本申请的适用范围。对于本领域技术人员来说,在本申请的指导下可以对流 程700进行各种修正和改变。然而,这些修正和改变仍在本申请的范围之内。例 如,在步骤710中,可以将包含目标事件的音频信号样本标记为负样本,将未包 含目标事件的音频信号样本标记为正样本。
本申请实施例可能带来的有益效果包括但不限于:(1)通过在神经网络 模型中引入残差连接,可以使神经网络模型同时学习浅层与深层的特征,有效提 升了模型对音频信号中目标事件检测的准确性;(2)使用联合多个音频片段是 否包含目标事件的确定结果,来确定音频信号中是否包含所述目标事件的方法, 可以增加对音频信号中目标事件检测的准确性。需要说明的是,不同实施例可能 产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意 一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细 披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本 领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修 正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精 神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、 “一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一 特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多 次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指 同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以 进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专 利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或 物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可 以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也 可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、 “引擎”、“单元”、“组件”或“***”。此外,本申请的各方面可能表现为 位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序 编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号, 例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁 形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储 介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行***、装 置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序 编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或 类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语 言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、 C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、 Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby 和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或 作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远 程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算 机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网 (WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或 作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数 字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽 管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理 解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例, 相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。 例如,虽然以上所描述的***组件可以通过硬件设备实现,但是也可以只通过软 件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的***。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多 个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至 一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象 所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披 露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用 于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体 上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允 许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值 参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施 例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请 一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中, 此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如 文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。 与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广 范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如 果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一 致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原 则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实 施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于 本申请明确介绍和描述的实施例。
Claims (30)
1.一种基于音频的事件检测方法,其特征在于,包括:
获取一段音频信号;
将所述音频信号切割成多个音频片段;
对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。
2.如权利要求1所述的方法,其特征在于,所述对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件包括:
确定所述多个音频片段的一个或多个音频片段中是否包含目标事件;
联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件。
3.如权利要求2所述的方法,其特征在于,所述联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件包括:
若任一所述音频片段中包含目标事件,则确定所述音频信号中包含所述目标事件;
若所述音频片段中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。
4.如权利要求1所述的方法,其特征在于,所述将所述音频信号切割成多个音频片段包括将所述音频信号在时域上切割成多个音频片段。
5.如权利要求1所述的方法,其特征在于,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。
6.如权利要求2所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件包括:
对于音频片段:
提取音频片段的特征信息;
基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值。
7.如权利要求6所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件还包括:
对于音频片段:
获取设定阈值;
判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值:
若是,则确定所述音频片段中包含目标事件。
8.如权利要求6所述的方法,其特征在于,所述特征信息包括以下特征中的一种或多种的组合:F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征以及Bottleneck特征。
9.如权利要求6所述的方法,其特征在于,所述机器学习模型包括神经网络模型;
所述基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:
机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。
10.如权利要求9所述的方法,其特征在于,所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。
11.如权利要求9所述的方法,其特征在于,所述神经网络模型中具有残差连接;所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。
12.如权利要求6所述的方法,其特征在于,所述机器学习模型通过以下方法获得:
获取音频信号样本;其中,包含目标事件的音频信号样本标记为正样本,未包含目标事件的音频信号样本标记为负样本;
将音频信号样本切割成多个音频片段;
基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。
13.如权利要求1所述的方法,其特征在于,所述音频信号通过音频采集设备实时获取;所述方法还包括:
响应于所述音频信号包含所述目标事件,对与所述音频信号相关的场景实施干预措施。
14.如权利要求13所述的方法,其特征在于,所述干预措施包括提醒、支援、报警中至少一个。
15.一种基于音频的事件检测***,其特征在于,包括获取模块、音频信号切割模块和处理模块;其中:
所述获取模块用于获取一段音频信号;
所述音频信号切割模块用于将所述音频信号切割成多个音频片段;
所述处理模块用于对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。
16.如权利要求15所述的***,其特征在于,所述处理模块包括音频片段处理单元和目标事件联合确定单元;其中:
所述音频片段处理单元用于确定所述多个音频片段的一个或多个音频片段中是否包含目标事件;
所述目标事件联合确定单元用于联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件。
17.如权利要求16所述的***,其特征在于,所述目标事件联合确定单元还用于:
若任一所述音频片段中包含目标事件,则确定所述音频信号中包含所述目标事件;
若所述音频片段中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。
18.如权利要求15所述的***,其特征在于,所述音频信号切割模块进一步用于将所述音频信号在时域上切割成多个音频片段。
19.如权利要求15所述的***,其特征在于,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。
20.如权利要求16所述的***,其特征在于,所述音频片段处理单元还用于:
对于音频片段:
提取音频片段的特征信息;
基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值。
21.如权利要求20所述的***,其特征在于,所述音频片段处理单元还用于:
对于音频片段:
获取设定阈值;
判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值:
若是,则确定所述音频片段中包含目标事件。
22.如权利要求20所述的***,其特征在于,所述特征信息包括F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征、Bottleneck特征中至少一个。
23.如权利要求20所述的***,其特征在于,所述机器学习模型包括神经网络模型;
所述基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:
机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。
24.如权利要求23所述的***,其特征在于,所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。
25.如权利要求23所述的***,其特征在于,所述神经网络模型中具有残差连接;所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。
26.如权利要求20所述的***,其特征在于,还包括机器学习模型训练模块,所述机器学习模型训练模块用于:
获取音频信号样本;其中,包含目标事件的音频信号样本标记为正样本,未包含目标事件的音频信号样本标记为负样本;
将音频信号样本切割成多个音频片段;
基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。
27.如权利要求15所述的***,其特征在于,所述音频信号通过音频采集设备实时获取;所述***还包括干预措施实施模块,其中:
所述干预措施实施模块用于响应于所述音频信号包含所述目标事件,对与所述音频信号相关的场景实施干预措施。
28.如权利要求27所述的***,其特征在于,所述干预措施包括提醒、支援、报警中至少一个。
29.一种基于音频的事件检测装置,其特征在于,所述装置包括至少一个处理器和至少一个存储设备,所述存储设备用于存储指令,当所述至少一个处理器执行所述指令时,实现如权利要求1~14中任一项所述的方法。
30.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取所述存储介质中的所述计算机指令后,所述计算机执行如权利要求1~14中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886729.6A CN111863029A (zh) | 2019-09-19 | 2019-09-19 | 一种基于音频的事件检测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910886729.6A CN111863029A (zh) | 2019-09-19 | 2019-09-19 | 一种基于音频的事件检测方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111863029A true CN111863029A (zh) | 2020-10-30 |
Family
ID=72970602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910886729.6A Pending CN111863029A (zh) | 2019-09-19 | 2019-09-19 | 一种基于音频的事件检测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111863029A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561108A (zh) * | 2020-12-24 | 2021-03-26 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置、设备和介质 |
CN113273992A (zh) * | 2021-05-11 | 2021-08-20 | 清华大学深圳国际研究生院 | 信号处理方法及装置 |
CN113596368A (zh) * | 2021-07-23 | 2021-11-02 | 深圳市警威警用装备有限公司 | 基于执法记录仪的信息采集方法及执法记录仪 |
CN113903003A (zh) * | 2021-10-15 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 事件发生概率的确定方法、存储介质及电子装置 |
CN115830800A (zh) * | 2022-11-28 | 2023-03-21 | 广州城建职业学院 | 车祸预警方法、***、装置及存储介质 |
CN118072766A (zh) * | 2024-04-24 | 2024-05-24 | 南京小草交通科技有限公司 | 一种基于声音检测的公路事件感知*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913849A (zh) * | 2015-11-27 | 2016-08-31 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
US20160284346A1 (en) * | 2015-03-27 | 2016-09-29 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
US20180108369A1 (en) * | 2016-10-19 | 2018-04-19 | Ford Global Technologies, Llc | Vehicle Ambient Audio Classification Via Neural Network Machine Learning |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
US20190259378A1 (en) * | 2018-02-20 | 2019-08-22 | Krishna Khadloya | Audio type detection |
-
2019
- 2019-09-19 CN CN201910886729.6A patent/CN111863029A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284346A1 (en) * | 2015-03-27 | 2016-09-29 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
CN105913849A (zh) * | 2015-11-27 | 2016-08-31 | 中国人民解放军总参谋部陆航研究所 | 一种基于事件检测的说话人分割方法 |
US20180108369A1 (en) * | 2016-10-19 | 2018-04-19 | Ford Global Technologies, Llc | Vehicle Ambient Audio Classification Via Neural Network Machine Learning |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
US20190259378A1 (en) * | 2018-02-20 | 2019-08-22 | Krishna Khadloya | Audio type detection |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561108A (zh) * | 2020-12-24 | 2021-03-26 | 北京嘀嘀无限科技发展有限公司 | 数据处理方法、装置、设备和介质 |
CN113273992A (zh) * | 2021-05-11 | 2021-08-20 | 清华大学深圳国际研究生院 | 信号处理方法及装置 |
CN113596368A (zh) * | 2021-07-23 | 2021-11-02 | 深圳市警威警用装备有限公司 | 基于执法记录仪的信息采集方法及执法记录仪 |
CN113903003A (zh) * | 2021-10-15 | 2022-01-07 | 宿迁硅基智能科技有限公司 | 事件发生概率的确定方法、存储介质及电子装置 |
CN113903003B (zh) * | 2021-10-15 | 2022-07-29 | 宿迁硅基智能科技有限公司 | 事件发生概率的确定方法、存储介质及电子装置 |
CN115830800A (zh) * | 2022-11-28 | 2023-03-21 | 广州城建职业学院 | 车祸预警方法、***、装置及存储介质 |
CN118072766A (zh) * | 2024-04-24 | 2024-05-24 | 南京小草交通科技有限公司 | 一种基于声音检测的公路事件感知*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020169052A1 (en) | Systems and methods for driving condition identification | |
CN111863029A (zh) | 一种基于音频的事件检测方法和*** | |
WO2020169053A1 (en) | Systems and methods for identifying abnormalities | |
US9940530B2 (en) | Platform for acquiring driver behavior data | |
CN110782111B (zh) | 一种风险评估方法和*** | |
US11151813B2 (en) | Method and system for vehicle-related driver characteristic determination | |
US20240249363A1 (en) | Traveling-based insurance ratings | |
US11664043B2 (en) | Real-time verbal harassment detection system | |
US9818239B2 (en) | Method for smartphone-based accident detection | |
CN111598368B (zh) | 基于行程结束后停留异常的风险识别方法、***及装置 | |
EP3188150A2 (en) | Platform for acquiring driver behavior data | |
CN111598371B (zh) | 一种风险防范方法、***、装置及存储介质 | |
US10553119B1 (en) | Roadside assistance system | |
CN111598641A (zh) | 一种订单风险验证方法和*** | |
CN110992119A (zh) | 一种对风险订单进行排序的方法和*** | |
CN111383362B (zh) | 一种安全监测方法及装置 | |
CN113256993B (zh) | 一种模型训练、分析车辆行驶风险的方法 | |
US20210201893A1 (en) | Pattern-based adaptation model for detecting contact information requests in a vehicle | |
CN111598642A (zh) | 一种风险判定方法、***、装置及存储介质 | |
CN111951560A (zh) | 服务异常检测方法、训练服务异常检测模型的方法和训练声音模型的方法 | |
Kirushanth et al. | Telematics and road safety | |
JP6697998B2 (ja) | 移動体保険料算出方法、移動体保険料算出装置、移動体保険料算出プログラム及び移動体 | |
CN112329963A (zh) | 数据处理方法、数据处理装置、存储介质和电子设备 | |
CN112184519A (zh) | 行程监控方法、装置、电子设备及存储介质 | |
CN110991781A (zh) | 一种风险订单展示方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |