CN111863029A

CN111863029A - 一种基于音频的事件检测方法和***

Info

Publication number: CN111863029A
Application number: CN201910886729.6A
Authority: CN
Inventors: 李武波; 张睿雄
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-10-30

Abstract

本申请实施例公开了一种基于音频的事件检测方法和***。所述基于音频的事件检测方法包括：获取一段音频信号；将所述音频信号切割成多个音频片段；对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件。本申请采用了在神经网络模型中引入残差连接，可以使神经网络模型同时学习浅层与深层的特征，有效提升了模型对音频信号中目标事件检测的准确性，同时联合多个音频片段是否包含目标事件的确定结果，来确定音频信号中是否包含目标事件的方法，可以增加对音频信号中目标事件检测的准确性。

Description

一种基于音频的事件检测方法和***

技术领域

本申请涉及安全监测领域，特别涉及一种基于音频的事件检测方法和系统。

背景技术

随着经济发展，民众对衣食住行体验的要求越来越高，先进的音频检测是提供民众体验的一种途径。对于一些可能存在潜在风险的场景(如，网约车服务、地下停车场)，通过录制的音频及时判断出当前场景是否存在目标事件(如，冲突、抢劫等)，并及时实施干预措施具有非常重要的意义。因此，有必要提供一种基于音频进行目标事件检测的方法，以更准确的判断音频对应的场景是否存在目标事件(如，冲突、抢劫等)，从而可以有效的采取相应的干预措施，以保证民众的人身安全。

发明内容

本申请实施例之一提供一种基于音频的事件检测方法。所述方法包括：获取一段音频信号；将所述音频信号切割成多个音频片段；对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件。

在一些实施例中，所述对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件包括：确定所述多个音频片段的一个或多个音频片段中是否包含目标事件；联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件。

在一些实施例中，所述联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件包括：若任一所述音频片段中包含目标事件，则确定所述音频信号中包含所述目标事件；若所述音频片段中全部都未包含目标事件，则确定所述音频信号中未包含所述目标事件。

在一些实施例中，所述将所述音频信号切割成多个音频片段包括将所述音频信号在时域上切割成多个音频片段。

在一些实施例中，所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。

在一些实施例中，所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件包括对于音频片段：提取音频片段的特征信息；基于机器学习模型处理所述特征信息，预测所述音频片段中包含目标事件的概率值。

在一些实施例中，所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件还包括：对于音频片段：获取设定阈值；判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值：若是，则确定所述音频片段中包含目标事件。

在一些实施例中，所述特征信息包括以下特征中的一种或多种的组合：F- bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征以及Bottleneck特征。

在一些实施例中，所述机器学习模型包括神经网络模型；所述基于机器学习模型处理所述特征信息，预测所述音频片段中包含目标事件的概率值包括：机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。

在一些实施例中，所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。

在一些实施例中，所述神经网络模型中具有残差连接；所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。

在一些实施例中，所述机器学习模型通过以下方法获得：获取音频信号样本；其中，包含目标事件的音频信号样本标记为正样本，未包含目标事件的音频信号样本标记为负样本；将音频信号样本切割成多个音频片段；基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。

在一些实施例中，所述音频信号通过音频采集设备实时获取；所述方法还包括：响应于所述音频信号包含所述目标事件，对与所述音频信号相关的场景实施干预措施。

在一些实施例中，所述干预措施包括提醒、支援、报警中至少一个。

本申请实施例之一提供一种环形伪影的检测***。所述***包括获取模块、音频信号切割模块和处理模块；其中：所述获取模块用于获取一段音频信号；所述音频信号切割模块用于将所述音频信号切割成多个音频片段；所述处理模块用于对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件。

在一些实施例中，所述处理模块包括音频片段处理单元和目标事件联合确定单元；其中：所述音频片段处理单元用于确定所述多个音频片段的一个或多个音频片段中是否包含目标事件；所述目标事件联合确定单元用于联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件。

在一些实施例中，所述目标事件联合确定单元还用于：若任一所述音频片段中包含目标事件，则确定所述音频信号中包含所述目标事件；若所述音频片段中全部都未包含目标事件，则确定所述音频信号中未包含所述目标事件。

在一些实施例中，所述音频信号切割模块进一步用于将所述音频信号在时域上切割成多个音频片段。

在一些实施例中，所述音频片段处理单元还用于：对于音频片段：提取音频片段的特征信息；基于机器学习模型处理所述特征信息，预测所述音频片段中包含目标事件的概率值。

在一些实施例中，所述音频片段处理单元还用于：对于音频片段：获取设定阈值；判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值：若是，则确定所述音频片段中包含目标事件。

在一些实施例中，所述特征信息包括F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征、Bottleneck 特征中至少一个。

在一些实施例中，还包括机器学习模型训练模块，所述机器学习模型训练模块用于：获取音频信号样本；其中，包含目标事件的音频信号样本标记为正样本，未包含目标事件的音频信号样本标记为负样本；将音频信号样本切割成多个音频片段；基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。

在一些实施例中，所述音频信号通过音频采集设备实时获取；所述***还包括干预措施实施模块，其中：所述干预措施实施模块用于响应于所述音频信号包含所述目标事件，对与所述音频信号相关的场景实施干预措施。

本申请实施例之一提供一种基于音频的事件检测装置。所述装置包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当所述至少一个处理器执行所述指令时，实现如本申请任一实施例所述的方法。

本申请实施例之一提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取所述存储介质中的所述计算机指令后，所述计算机执行如本申请任一实施例所述的方法。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本申请的一些实施例所示的音频检测***的应用场景示意图。

图2是根据本申请的一些实施例所示的示例性计算设备的硬件和软件组件的示意图。

图3是根据本申请的一些实施例所示的基于音频的目标事件检测***的模块图；

图4是根据本申请的一些实施例所示的基于音频的目标事件检测方法的示例性流程图；

图5是根据本申请的一些实施例所示的音频信号中目标事件确定方法的示例性流程图；

图6是根据本申请的一些实施例所示的音频片段中目标事件确定方法的示例性流程图。

图7是根据本申请的一些实施例所示的机器学习模型训练方法的示例性流程图；

图8是根据本申请的一些实施例所示的具有残差块的神经网络模型的网络结构示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“***”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、 “一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请的实施例可以应用于不同的线上线下服务***，例如，可以是运输服务***(包括出租车、专车、顺风车、巴士、代驾等)、家政服务***、商品交易***等。本申请描述的“乘客”、“乘客端”、“用户终端”、“顾客”、 “需求者”、“服务请求者”、“消费者”、“消费方”、“使用需求者”等是可以互换的，是指需要或者订购服务的一方，可以是个人，也可以是工具。同样地，本申请描述的“司机”、“司机端”、“提供者”、“供应者”、“服务提供者”、“服务者”、“服务方”等也是可以互换的，是指提供服务或者协助提供服务的个人、工具或者其他实体等。另外，本申请描述的“用户”可以是需要或者订购服务的一方，也可以是提供服务或者协助提供服务的一方。本申请的实施例可以应用于不同的待监测场景，例如，地下停车场、安全事故(如，抢劫、车祸)高发地等。

图1是根据本申请的一些实施例所示的音频检测***100的应用场景示意图。

音频检测***100可以判定音频相关的对话场景中是否包含目标事件，并采取应对方法以减少对用户的伤害。音频检测***100可以是用于互联网或者其它网络的服务平台。例如，音频检测***100可以是为交通运输提供服务的线上服务平台。在一些实施例中，音频检测***100可以应用于网约车服务，例如出租车呼叫、快车呼叫、专车呼叫、小巴呼叫、拼车、公交服务、司机雇佣和接送服务等。在一些实施例中，音频检测***100还可以应用于代驾、快递、外卖等。在另一些实施例中，音频检测***100还可以应用于家政服务、出行 (如旅游)服务、教育(如线下教育)服务等领域。如图1所示，音频检测*** 100可以包括处理设备110、一个或一个以上终端120、存储设备130、网络140 以及信息源150。

在一些实施例中，处理设备110可以处理从终端120、存储设备130和/ 或信息源150处获得的数据和/或信息。例如，处理设备110可以获取多个终端 120的定位/轨迹信息和/或与行程相关的参与方(例如，司机和乘客)的特征信息。又例如，处理设备110可以获取多个终端120传输的音频信号。处理设备 110可以处理上述所获取的信息和/或数据以执行本申请描述的一个或多个功能。例如，处理设备110可以基于机器学习模型对所获取的音频信号以进行目标事件(如，冲突、抢劫)的判断，并根据判断结果采取相应干预措施，比如报警和 /或提供线下支援。在一些实施例中，处理设备110可以获取音频信号并将该音频信号切割成多个音频片段。在一些实施例中，处理设备110可以对多个音频片段进行处理，以确定音频信号中是否包含目标事件。在一些实施例中，处理设备110可以响应于音频信号包含目标事件，对与所述音频信号相关的场景实施干预措施。

在一些实施例中，处理设备110可以是独立的服务器或者服务器组。该服务器组可以是集中式的或者分布式的(如：处理设备110可以是分布***)。在一些实施例中，处理设备110可以是本地的或者远程的。例如，处理设备110 可通过网络140访问存储于终端120、存储设备130和/或信息源150中的信息和/或资料。在一些实施例中，处理设备110可直接与终端120、存储设备130和 /或信息源150连接以访问存储于其中的信息和/或资料。在一些实施例中，处理设备110可在云平台上执行。例如，该云平台可包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。在另一些实施例中，处理设备110可以同时是终端120之一。

在一些实施例中，处理设备110可以包含一个或多个子处理设备(如：单核处理器或多核处理器)。仅仅作为范例，处理设备110可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。

在一些实施例中，终端120可以是带有数据获取、存储和/或发送功能的设备，可以包括任一用户或者非直接参与服务的终端、服务提供者终端、服务请求者终端和/或车载终端。所述服务提供者可以是提供服务的个人、工具或者其他实体。所述服务请求者可以是需要得到或者正在接受服务的个人、工具或者其他实体。例如，针对网约车服务而言，所述服务提供者可以是司机、第三方平台，所述服务请求者可以是乘客或者其它接受类似服务的个人或者设备(例如物联网设备)。在一些实施例中，终端120可以用于采集各类数据，包括但不限于与服务相关的数据。例如，终端120所采集的数据可以包括与服务场景相关的数据(例如，司机乘客的对话音频、导航提示语音等)、与订单相关的数据(例如，订单请求时间、起终点、乘客信息、司机信息、车辆信息等)、与车辆行驶情况相关的数据(例如，当前速度、当前加速度、设备的姿态、路况等)、与服务行程相关的数据(例如，预设行程路径、实际行驶路径、费用等)、与服务参与方 (服务提供者/服务请求者)相关的数据(例如，参与方的个人信息、服务提供者/服务请求者对于终端120的操控信息、终端设备的各种相关数据等)等或其任意组合。所采集数据可以是实时的，也可以是各类历史数据如用户过去的使用历史等等。数据可由终端120通过自身的传感器进行数据采集，也可以搜集外接传感器获取的数据，也可以读取存储在自身的存储器中的数据，还可以通过网络140读取存储在存储设备130中的数据。在一些实施例中，传感器可以包括定位装置、声音传感器、图像传感器、温湿度传感器、位置传感器、压力传感器、距离传感器、速度传感器、加速度传感器、重力传感器、位移传感器、力矩传感器、陀螺仪等或其任意组合。

在一些实施例中，终端120可以包括台式电脑120-1、笔记本电脑120-2、车载设备120-3、移动设备120-4等中的一种或几种的组合。在一些实施例中，移动设备120-4可以包括智能家居设备、可穿戴设备、智能移动设备、增强现实设备等或其任意组合。在一些实施例中，可穿戴设备可以包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣物、智能背包、智能配饰等或其任意组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理 (PDA)、游戏设备、导航设备、POS机等或其任意组合。在一些实施例中，车载设备120-3可以包括车载录音机、车载计算机、汽车数据记录器、车载人机交互(HCI)***、行车记录仪、车载电视等。在一些实施例中，车载设备120-3 可以获取车辆的各种部件数据和/或运行数据，例如，速度、加速度、行驶方向、部件状态、车辆周围环境等。所获取的数据可以用于判定当前服务场景是否发生目标事件(例如，冲突、抢劫)、行车故障(例如，发动机或变速箱故障导致车辆无法移动)等。在一些实施例中，终端120可以是具有用于定位终端120的位置的定位技术的设备。在一些实施例中，终端120可以将采集到的数据/信息通过网络140传输至处理设备110进行后续步骤。终端120还可以将采集到的数据/信息存储至自身的存储器中，或通过网络140传输至存储设备130进行存储。终端120还可以接收和/或显示由处理设备110生成的与音频检测相关的通知。在一些实施例中，可以有多个终端相互连接，共同采集各类数据，并由一个或者多个终端对这些数据进行预处理。

存储设备130可以存储数据和/或指令。在一些实施例中，存储设备130 可以存储终端120获取的数据/信息(如，音频信号)。存储设备130还可以存储历史音频数据或历史交通运输服务数据，例如，历史行程录音数据、历史服务订单的订单数据、服务参与方数据、车辆相关数据及行程数据等。在一些实施例中，存储设备130可以存储处理设备110用于执行或使用来完成本申请中描述的示例性方法的数据和/或指令。例如，存储设备130可以存储神经网络模型，所述神经网络模型可以基于处理设备110所获取的音频信号确定该交通运输服务是否存在目标事件。在一些实施例中，存储设备130可以存储用户终端的各类实时或者和历史数据，例如，与历史服务相关的用户的历史记录，比如历史评价等。在一些实施例中，存储设备130可以是处理设备110或者终端120的一部分。在一些实施例中，存储设备130可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘、磁带等。示例性的挥发性只读存储器可以包括随机存取内存(RAM)。示例性的RAM可包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、闸流体RAM(T- RAM)和零电容RAM(Z-RAM)等。示例性的ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电子可擦除可编程 ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用磁盘ROM等。在一些实施例中，存储设备130可以在云平台上实现。仅作为示例，所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。例如，本申请中一些目标事件确定的算法或者数据可以存储在某个云平台上，定期更新，处理设备110通过网络访问这些算法或者数据，以实现整个平台的算法或者数据的统一与交互。特别的，一些历史数据可以统一存储在平台的一个云平台上，以便多个处理设备110或者终端120访问或者更新，以便保证数据的实时性和跨平台使用。例如，终端120可以随时将其服务行程的音频发布到某个云平台上，***可以根据多个终端120的反馈判断是否出现异常状况。

在一些实施例中，存储设备130可以连接到网络140以与音频检测*** 100中的一个或以上组件(例如，处理设备110、终端120、信息源150)通信。音频检测***100中的一个或以上组件可以通过网络140访问存储设备130中存储的数据或指令。在一些实施例中，存储设备130可以与音频检测***100中的一个或以上组件(例如，处理设备110、终端120、信息源150)直接连接或通信。在一些实施例中，存储设备130可以是处理设备110的一部分。

网络140可以促进信息和/或数据的交换。在一些实施例中，音频检测系统100中的一个或以上组件(例如，处理设备110、终端120、存储设备130和信息源150)可以通过网络140向/从音频检测***100中的其他组件发送和/或接收信息和/或数据。例如，处理设备110可以通过网络140从终端120和/或信息源150获取与音频信号相关的数据/信息。又例如，终端120可以通过网络140 从处理设备110或存储设备130处获取用于确定音频信号中是否包含目标事件的神经网络模型。获取的神经网络模型可以以终端120的应用软件实现。终端 120在获取与音频信号相关的数据/信息后，可以自行判定该音频信号中是否包含目标事件，并实施干预措施，比如，启动电话报警。在一些实施例中，网络140 可以为任意形式的有线或无线网络或其任意组合。仅作为示例，网络140可以包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通讯 (NFC)网络、全球移动通讯***(GSM)网络、码分多址(CDMA)网络、时分多址(TDMA)网络、通用分组无线服务(GPRS)网络、增强数据速率GSM 演进(EDGE)网络、宽带码分多址接入(WCDMA)网络、高速下行分组接入 (HSDPA)网络、长期演进(LTE)网络、用户数据报协议(UDP)网络、传输控制协议/互联网协议(TCP/IP)网络、短信息服务(SMS)网络、无线应用协议(WAP)网络、超宽带(UWB)网络、移动通信(1G、2G、3G、4G、5G) 网络、Wi-Fi、Li-Fi、窄带物联网(NB-IoT)等或其任意组合。在一些实施例中，音频检测***100可以包括一个或以上网络接入点。例如，音频检测***100可以包括有线或无线网络接入点，例如基站和/或无线接入点140-1、140-2、...，音频检测***100的一个或以上组件可以通过其连接到网络140以交换数据和/或信息。

信息源150可以用于为音频检测***100提供信息的来源。在一些实施例中，信息源150可以用于为音频检测***100提供与交通运输服务相关的信息，例如，天气情况、交通信息、地理信息、法律法规信息、新闻事件、生活资讯、生活指南信息等。在一些实施例中，信息源150还可以是其他第三方平台，可以提供服务请求方和/或服务提供方的征信记录，如信贷记录等。在一些实施例中，信息源150可以用于为音频检测***100提供与音频检测相关的信息，例如，驾驶安全提示信息、人身安全提示信息、财产安全提示信息等。信息源150 可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。当信息源150在多个个人设备中实现时，个人设备可以生成内容(例如，被称为“用户生成内容”)，例如，通过将文本、语音、图像和视频上载到云服务器。信息源可以由多个个人设备和云服务器生成。存储设备130、处理设备110 以及终端120同时也可以是信息源。例如，终端120实时反馈的速度和定位信息，可以作为信息源提供交通状况信息供其他设备获取使用。

如图2所示，移动设备200可以包括通信单元210、显示单元220、图形处理单元(GPU)230、中央处理单元(CPU)240、输入/输出250、内存260、存储器270和传感器280。在一些实施例中，任何其他合适的组件，包括但不限于***总线或控制器(未显示)，亦可包括于移动设备200内。

在一些实施例中，移动操作***262(例如，IOS^TM、Android^TM、Windows Phone^TM等)和一个或多个应用程序264可以从存储器290加载到内存260中以便由CPU240执行。应用程序264可以包括浏览器或任何其他合适的移动应用程序，用于发送与交通运输服务相关联的数据/信息，并接收和呈现来自音频检测***100的处理或其他相关的信息。例如，应用程序264可以是在线网约车出行平台(例如，滴滴出行^TM)，用户(例如，服务请求者)可以通过应用程序 264请求交通运输服务，并将请求信息发送至后台服务器端。用户与信息流的交互可以经由输入/输出250来实现并且经由网络140被提供给处理设备110和/或音频检测***100的其他组件。

在一些实施例中，移动设备200还可以包括多个传感器280。传感器280 可以获取与服务参与方(例如，司机/乘客)、车辆和/或行程等相关的数据。在一些实施例中，所述传感器可以包括声音传感器、图像传感器、温湿度传感器、位置传感器、压力传感器、距离传感器、速度传感器、加速度传感器、重力传感器、位移传感器、力矩传感器、陀螺仪等或其任意组合。在一些实施例中，由所述传感器所获取的数据可以用于判定该数据所对应的场景是否包含目标事件和/ 或包含何种目标事件。例如，声音传感器和图像传感器可以采集服务参与方之间的对话以及车内的实时场景，以供判断是否发生司乘冲突或财产/人身安全事件，比如，肢体冲突、酒驾、抢劫、性侵犯、性骚扰等。又例如，位置传感器和位移传感器可以采集车辆的实时位置和/或车辆的行驶轨迹数据，以供判断是否发生行程异常，比如，异常停留、行程偏离、行驶时间异常等。还例如，速度传感器、加速度传感器和陀螺仪可以采集车辆的实时速度、实时加速度、终端120的偏转量、偏转频率等，以供判断车辆是否发生行车安全事故，比如，撞车、翻车等。

在一些实施例中，移动设备200还可以与车辆进行通信，例如，蓝牙通信，以获取安装在车辆内部或外部的车载传感器所采集的数据，比如，车辆当前状态数据和行驶数据，并将通过自身传感器获取的数据和通过车载传感器获取的数据进行合并，以用于后续的目标事件判定。

在一些实施例中，移动设备200可以将所获取的数据/信息，包括通过自身传感器获取的数据和通过车载传感器获取的数据，通过网络140发送到音频检测***100的处理设备110以进行目标事件判定及干预措施。在一些实施例中，移动设备200可以直接进行目标事件判定及干预措施。例如，应用程序264 中可以内置有进行目标事件判定的代码或模块，可以直接进行目标事件判定及干预措施。在一些实施例中，音频检测***100的处理设备110和/或移动设备 200还可以根据目标事件判定和/或干预措施结果生成安全通知指令。移动设备 200可以通过接收并执行上述安全通知指令，提醒使用者当前所处的安全状态。例如，移动设备200可以通过语音(例如，通过扬声器)、振动(例如，通过振动器)、文字(通过短信或社交应用程序)、灯光闪烁(例如，通过闪光灯或显示单元220)等或其组合的方式实现该安全通知以达到提醒使用者的目的。

在一些实施例中，移动设备200的使用者，例如，司机和/或乘客，可以自行执行目标事件确定过程。具体地，司机和/或乘客可以通过移动设备200中的应用程序264主动上报目标事件。例如，上报冲突事件。移动设备200执行特定操作，比如摇晃或摔掷，可以启动报警程序。又例如，应用程序264的界面中可以包括直接与后端安全平台通信的快速入口(例如，报警按钮、求助按钮)，在判断自身处于危险情况时，用户可以通过该点击报警按钮向警方报警。在报警后，应用程序264还可以将报警用户的当前位置和行程信息发送至警方以辅助救援。

为了实现本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本申请中所描述的一个或以上组件的硬件平台。具有用户接口组件的计算机可用于实施个人计算机(PC)或任何其他类型的工作站或终端装置。若计算机被适当的程序化，计算机亦可充当***。

图3是根据本申请的一些实施例所示的基于音频的目标事件检测***300 的模块图。如图3所示，该基于音频的目标事件检测***300可以包括获取模块310、音频信号切割模块320、处理模块330和干预措施实施模块340。

获取模块310可以用于获取一段音频信号。具体的，该音频信号可以是实时音频信号，也可以是历史音频信号。在一些实施例中，音频信号可以通过音频采集设备(如，录音机、录音笔、手机、平板电脑等)采集。

音频信号切割模块320可以用于将音频信号切割成多个音频片段。具体的，音频信号切割模块320可以将音频信号在时域上切割成多个音频片段。

处理模块330可以用于确定音频信号中是否包含目标事件。具体的，处理模块330可以对多个音频片段进行处理，以确定音频信号中是否包含目标事件。在一些实施例中，目标事件可以包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸等。在一些具体的实施例中，在网约车场景下，目标事件还可以包括拒载、恶意绕路、恶意要价、乘客拒付等。

如图3所示，处理模块330可以进一步包括音频片段处理单元331和目标事件联合确定单元332。音频片段处理单元331可以用于确定多个音频片段的一个或多个音频片段中是否包含目标事件。

音频片段处理单元331还可以用于提取音频片段的特征信息。在一些实施例中，音频片段的特征信息可以包括F-bank(Filter bank)特征、线性预测系数(LinearPrediction Coefficients，LPC)、感知线性预测系数(Perceptual Linear Predictive，PLP)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient， LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient，MFCC)、Tandem 特征以及Bottleneck特征等中的一种或多种的组合。

音频片段处理单元331还可以用于基于机器学习模型处理特征信息，预测音频片段中包含目标事件的概率值。在一些实施例中，机器学习模型可以包括神经网络模型。在一些实施例中，神经网络模型可以包括卷积循环神经网络 (Convolutional RecurrentNeural Network，CRNN)、卷积神经网络(Convolutional neural networks，CNN)、深度卷积神经网络(Deep Convolutional Neural Networks， DCNN)、循环神经网络(Recurrentneural networks，RNN)以及长短期记忆(Long /Short Term Memory，LSTM)模型等。在该神经网络模型中可以具有残差连接，该残差连接可以用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。具体的，可以用于将神经网络模型中某一层的输出数据融合到与其不相邻的层的输入数据中，也可以用于将神经网络模型中某一层的输出数据直接作为与其相邻的层的输入数据。在一些实施例中，机器学习模型可以基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定当前音频片段中包含目标事件的概率值。

音频片段处理单元331还可以用于获取设定阈值。具体的，该设定阈值可以用于确定音频片段中是否包含目标事件。在一些实施例中，该设定阈值可以手动设置，也可以由音频片段处理单元331通过统计历史目标事件及其概率值后确定。

音频片段处理单元331还可以用于判断音频片段中是否包含目标事件。具体的，音频片段处理单元331可以用于判断音频片段中包含目标事件的概率值是否大于设定阈值：若是，则可以确定音频片段中包含目标事件。

目标事件联合确定单元332可以用于联合一个或多个音频片段中是否包含目标事件的确定结果，确定音频信号中是否包含所述目标事件。在一些实施例中，若任一个音频片段中包含目标事件，则可以确定音频信号中包含目标事件。在一些实施例中，若音频片段中全部都未包含目标事件，则可以确定音频信号中未包含目标事件。

干预措施实施模块340可以用于对与音频信号相关的场景实施干预措施。具体的，干预措施实施模块340可以响应于音频信号包含目标事件，对与音频信号相关的场景实施干预措施。在一些实施例中，干预措施可以包括提醒、支援、报警等。

在一些实施例中，***300还可以包括机器学习模型训练模块350，机器学习模型训练模块350可以用于获得机器学习模型。具体的，机器学习模型训练模块350可以获取音频信号样本；其中包含目标事件的音频信号样本可以标记为正样本，未包含目标事件的音频信号样本可以标记为负样本；将音频信号样本切割成多个音频片段；基于多个音频片段及标记结果可以训练初始模型得到机器学习模型。

应当理解，图3所示的***及其模块可以利用各种方式来实现。例如，在一些实施例中，***及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行***，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和***可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本申请的***及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于基于音频检测目标事件的***及其模块的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该***的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子***与其他模块连接。例如，音频片段处理单元331和目标事件联合确定单元332可以为同一个单元。又例如，若音频信号为历史音频信号，干预措施实施模块340可以删除，不需要对与该音频信号相关的场景实施干预措施。再例如，机器学习模型训练模块350可以从*** 300中移除，或者将机器学习模型训练模块350设置在另一***中。诸如此类的变形，均在本申请的保护范围之内。

图4是根据本申请的一些实施例所示的基于音频的目标事件检测方法400 的示例性流程图。如图4所示，该基于音频的目标事件检测方法400可以包括：

步骤410，获取一段音频信号。具体的，该步骤410可以由获取模块310 执行。

在一些实施例中，音频信号可以是实时音频信号，也可以是历史音频信号。在一些实施例中，音频信号可以记录音频信号所对应场景的信息。例如，音频信号所对应场景的对话信息。以网约车服务为例，音频信号可以包括行程过程中的车内实时录音或行程结束后上传的历史录音。该音频信号的内容可以包括行车过程中服务参与方(如，司机/乘客)之间的对话以及车内的场景信息(如，路线导航提示语音、车辆鸣笛音等)。在一些实施例中，音频信号可以通过音频采集设备(如，行车记录仪、录音机、录音笔、手机、平板电脑等)采集，上传给处理设备110或存储在存储器150中。

步骤420，将音频信号切割成多个音频片段。具体的，该步骤420可以由音频信号切割模块320执行。

在一些实施例中，音频片段可以为一段时长较短(如，10秒)的音频信号，多个音频片段组成一段完整的音频信号。在一些实施例中，可以将音频信号在时域上切割成多个音频片段。在一些实施例中，若音频信号为实时音频信号，则将实时音频信号在时域上切割的时长不宜过长，以便可以达到实时检测目标事件的效果。在一些实施例中，在时域上切割可以包括等时长切割、非等时长切割。在一些替代性实施例中，还可以包括按帧切割、基于距离度量的分割、按说话人变换点切割等。在一些实施例中，基于距离度量的切割可以包括按KL距离切割、按欧式距离切割、按马氏距离切割。在一些实施例中，按说话人变换点切割可以包括按GMM高斯混合模型切割、按SVM支持向量机模型切割。

步骤430，对多个音频片段进行处理，以确定音频信号中是否包含目标事件。具体的，该步骤430可以由处理模块330执行。

在一些实施例中，目标事件可以包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸等。在一些具体的实施例中，在网约车场景下，目标事件还可以包括拒载、恶意绕路、恶意要价、乘客拒付等。在一些实施例中，对多个音频片段进行处理，以确定音频信号中是否包含目标事件可以包括确定一个或多个音频片段是否包含目标事件进而确定音频信号中是否包含目标事件。具体的，可以确定多个音频片段的一个或多个音频片段中是否包含目标事件，进而联合一个或多个音频片段中是否包含目标事件的确定结果，以确定音频信号中是否包含所述目标事件。关于确定音频信号中是否包含目标事件的方法的更多描述可以在本申请的其他地方(如流程图6及其相关描述中) 找到，在此不作赘述。

在一些实施例中，还可以包括步骤440，响应于音频信号包含目标事件，对与所述音频信号相关的场景实施干预措施。具体的，该步骤440可以由干预措施实施模块340执行。

在一些实施例中，与音频信号相关的场景可以为录制音频信号所对应的场景，例如，网约车订单服务场景、家政服务场景、商品交易服务场景或线下教育服务场景。在一些实施例中，若音频信号为实时获取的音频信号，在检测到音频信号包含目标事件时，对与该音频信号相关的场景实施干预措施。在一些实施例中，干预措施可以包括提醒、支援、报警等。以网约车服务为例，若检测到音频信号包含的目标事件为语言冲突时，可以向司机和乘客终端(如，手机)发出提醒语音，例如，可以播报提示语音“请注意文明交流，注意行车安全”；若检测到音频信号包含的目标事件为发生敲诈时，向司机和乘客终端(如，手机)发出提醒语音(如，播报语音“请注意文明乘车(或服务)，远离犯罪”)，同时，也可以通知该场景附近其他服务车辆的司机，让其协助对该敲诈进行干预，或者可以自动报警通知警方介入；若检测到音频信号包含的目标事件为发生抢劫时，向司机和乘客终端(如，手机)发出提醒语音(如，播报语音“珍爱生命，远离犯罪”)，同时，也可以通知该场景附近其他服务车辆的司机，让其协助对该敲诈进行干预并自动报警通知警方介入。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，步骤440可以删除，若音频信号为历史音频信号，则不需要对与该音频信号相关的场景实施干预措施。又例如，步骤410与步骤420可以合并。具体的，可以利用音频采集设备实时获取短时间间隔的音频信号，可等同于音频片段。持续监控对话场景以获取多个短时间间隔的音频信号则可视为已将一段长时间间隔的音频信号在时域上分割得到了多个音频片段。从而实现，在获取音频间隔的同时，对已获取的音频片段进行处理，并基于已经处理音频片段的处理结果实时预测其对应的音频信号中是否出现目标事件，提高目标事件监测的时效性，确保服务双方的安全。

图5是根据本申请的一些实施例所示的音频信号中目标事件确定方法500 的示例性流程图。如图5所示，该音频信号中目标事件确定方法500可以包括：步骤510，确定多个音频片段的一个或多个音频片段中是否包含目标事件。具体的，该步骤510可以由音频片段处理单元331执行。

在一些实施例中，确定多个音频片段的一个或多个音频片段中是否包含目标事件可以包括基于机器学习模型预测音频片段中包含目标事件的概率值，通过判断音频片段中包含目标事件的概率值是否大于设定阈值，来判断音频片段中包含目标事件。具体的，可以提取音频片段的特征信息，基于机器学习模型处理该特征信息以预测音频片段中包含目标事件的概率值；可以获取设定阈值；当音频片段中包含目标事件的概率值大于设定阈值时，则可以确定音频片段中包含目标事件。关于确定音频片段中是否包含目标事件的方法的更多描述可以在本申请的其他地方(如流程图6及其相关描述中)找到，在此不作赘述。

步骤520，联合一个或多个音频片段中是否包含目标事件的确定结果，确定音频信号中是否包含所述目标事件。具体的，该步骤520可以由目标事件联合确定单元332执行。

关于目标事件的更多描述可以在本申请的其他地方(如流程图4及其相关描述中)找到，在此不作赘述。在一些实施例中，若任一音频片段中包含目标事件，则可以确定音频信号中包含所述目标事件。在一些实施例中，若音频片段中全部都未包含目标事件，则可以确定音频信号中未包含所述目标事件。在一些实施例中，若音频信号为实时音频信号，则在确定音频信号中是否包含所述目标事件时，联合音频片段中是否包含目标事件的确定结果的数量不宜过多，以便可以达到实时检测目标事件的效果。

应当注意的是，上述有关流程500的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程500进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，步骤510及步骤520可以合并在一个步骤中。

图6是根据本申请的一些实施例所示的音频片段中目标事件确定方法600 的示例性流程图。如图6所示，该音频片段中目标事件确定方法600可以包括：

步骤610，提取音频片段的特征信息。具体的，该步骤610可以由音频片段处理单元331执行。

在一些实施例中，音频片段的特征信息可以包括F-bank(Filter bank)特征、线性预测系数(Linear Prediction Coefficients，LPC)、感知线性预测系数 (PerceptualLinear Predictive，PLP)、线性预测倒谱系数(Linear Predictive CepstralCoefficient，LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient， MFCC)、Tandem特征以及Bottleneck特征等中的一种或多种的组合。在一些实施例中，音频片段处理单元331可以提取音频片段的特征信息。例如，F-bank 特征。

步骤620，基于机器学习模型处理特征信息，预测音频片段中包含目标事件的概率值。具体的，该步骤620可以由音频片段处理单元331执行。

在一些实施例中，机器学习模型可以包括神经网络模型。在一些实施例中，神经网络模型可以包括卷积循环神经网络(Convolutional Recurrent Neural Network，CRNN)、卷积神经网络(Convolutional neural networks，CNN)、深度卷积神经网络(DeepConvolutional Neural Networks，DCNN)、循环神经网络 (Recurrent neural networks，RNN)、长短期记忆(Long/Short Term Memory， LSTM)模型等。

在一些实施例中，该神经网络模型中可以具有残差连接。在一些实施例中，残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。具体的，残差连接可以用于将神经网络模型中某一层的输出数据融合到与其不相邻的层的输入数据中，使得神经网络模型中该不相邻的层的输入数据中不仅引用了上一层的输出数据，同时还引用了之前某一层的输出数据。在一些实施例中，残差连接还可以用于将神经网络模型中某一层的输出数据直接作为与其相邻的层的输入数据。所述层可以包括但不限于卷积层、池化层、全连接层等等。仅仅作为示例，如图8所示，可以在神经网络模型中以三层为单位形成一个或多个残差块。在每个残差块中，第一结构层的输出数据可以直接作为第二结构层的输入数据，第一层的输出数据也可以通过残差连接融合到第三结构层的输入数据中，因此第三结构层的输入数据引用了第二结构层的输出数据，同时还引用了第一结构层的输出数据。在一些替代性实施例中，可以在神经网络模型中以四层、五层或六层等为单位形成残差块，在残差块中引入残差连接，残差连接可以将第一层的输出数据“短接”到与其不相邻的层(如第四层、第五层或第六层) 的输入数据中，第一层的输出数据也可以直接作为与其相邻的层(如第二层)的输入数据；神经网络中的各个残差块中的层数可以相同，也可以不相同；残差块中的层按照功能区分，可以包括卷积层、池化层、全连接层以及ReLU层中的一种或多种，残差块中的层按照层所在位置区分，可以包括输入层、隐藏层以及输出层中的一种或多种；本申请对此均不作限制。

在一些实施例中，机器学习模型可以为提前训练好且可以直接使用的模型。关于机器学习模型训练方法的更多描述可以在本申请的其他地方(如流程图 8及其相关描述中)找到，在此不作赘述。在一些实施例中，可以将音频片段的特征信息输入机器学习模型中，机器学习模型基于音频片段的特征信息可以预测该音频片段中包含目标事件的概率值。具体的，可以将音频片段的特征信息输入机器学习模型中，机器学习模型可以基于当前音频片段的特征信息和当前音频片段之前的一个或多个音频片段的特征信息来预测当前音频片段中包含目标事件的概率值。

步骤630，获取设定阈值。具体的，该步骤630可以由音频片段处理单元 331执行。

在一些实施例中，该设定阈值可以用于确定音频片段中是否包含目标事件。在一些实施例中，该设定阈值可以人为设置，也可以由音频片段处理单元 331通过统计历史目标事件及其概率值后确定。在一些实施例中，该设定阈值可以是固定值，也可以根据不同情况进行调整。例如，对于夜间22:00～次日凌晨 5:00之间，可以将该设定阈值可以设定为一个较小值(如，0.3)，以避免遗漏任何潜在的目标事件。又例如，如果想要实施的干预措施具有较高的有效性，该设定阈值可以设定为一个较大的值(如，0.8)。

步骤640，判断音频片段中包含目标事件的概率值是否大于设定阈值。具体的，该步骤640可以由音频片段处理单元331执行。

在一些实施例中，若音频片段中包含目标事件的概率值大于设定阈值，音频片段处理单元331可以执行步骤650，确定该音频片段中包含目标事件。在一些实施例中，若音频片段中包含目标事件的概率值不大于设定阈值，音频片段处理单元331可以确定该音频片段中未包含目标事件。关于目标事件的更多描述可以在本申请的其他地方(如流程图4及其相关描述中)找到，在此不作赘述。

应当注意的是，上述有关流程600的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程600进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，步骤630可以设置在步骤610或者步骤620之前。又例如，还可以包括步骤660，若音频片段中包含目标事件的概率值不大于设定阈值，音频片段处理单元331可以确定该音频片段中未包含目标事件。

图7是根据本申请的一些实施例所示的机器学习模型训练方法700的示例性流程图。如图7所示，该机器学习模型训练方法700可以包括：

步骤710，获取音频信号样本。具体的，该步骤710可以由机器学习模型训练模块350执行。

在一些实施例中，音频信号样本可以为一定数量的历史音频信号。在一些实施例中，该一定数量的历史音频信号中可以有包含目标事件的音频信号，也可以有未包含目标事件的音频信号。在一些实施例中，机器学习模型训练模块350 可以对获取的音频信号样本进行标注。具体的，可以将包含目标事件的音频信号样本标记为正样本，将未包含目标事件的音频信号样本标记为负样本。例如，在音频信号样本中，某一个音频信号样本中包含目标事件(如，抢劫)，可以将该音频信号样本标记为正样本；某一个音频信号样本中未包含目标事件，则可以将该音频信号样本标记为负样本。在一些实施例中，可以将正样本用数字“1”表示，将负样本用数字“0”表示。

步骤720，将音频信号样本切割成多个音频片段。具体的，该步骤720可以由机器学习模型训练模块350执行。

在一些实施例中，可以将音频信号样本中任一个都按时域切割成多个音频片段。在模型训练的时候，对音频信号样本进行标记，而无需对音频信号样本切割后的音频片段逐一标记，有利于降低样本标记的人力成本同时确保训练得到的模型的识别准确度。关于音频信号切割成多个音频片段的更多描述可以在本申请的其他地方(如流程图4及其相关描述中)找到，在此不作赘述。

步骤730，基于多个音频片段及标记结果训练初始模型得到机器学习模型。具体的，该步骤730可以由机器学习模型训练模块350执行。

在一些实施例中，初始模型可以是神经网络模型。在一些实施例中，神经网络模型可以包括卷积循环神经网络(Convolutional Recurrent Neural Network， CRNN)、卷积神经网络(Convolutional neural networks，CNN)、深度卷积神经网络(DeepConvolutional Neural Networks，DCNN)、循环神经网络(Recurrent neural networks，RNN)、长短期记忆模型(Long/Short Term Memory，LSTM) 模型等。例如，初始模型可以是包含至少三个层的神经网络模型。所述层可以包括卷积层、池化层、全连接层、ReLU层中的一种或多种，残差块中的层按照层所在位置区分，可以包括输入层、隐藏层以及输出层中的一种或多种。在一些实施例中，初始模型可以根据训练情况调整内部参数。

在一些实施例中，可以在神经网络模型中引入残差连接。在一些实施例中，残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。具体的，残差连接可以用于将神经网络模型中某一层的输出数据融合到与其不相邻的层的输入数据中，使得神经网络模型中该不相邻的层的输入数据中不仅引用了上一层的输出数据，同时还引用了之前某一层的输出数据。在一些实施例中，残差连接还可以用于将神经网络模型中某一层的输出数据直接作为与其相邻的层的输入数据。仅仅作为示例，如图8所示，可以在神经网络模型中以三层为单位形成一个或多个残差块。在每个残差块中，第一结构层的输出数据可以直接作为第二结构层的输入数据，第一结构层的输出数据也可以通过残差连接融合到第三结构层的输入数据中，因此第三结构层的输入数据引用了第二结构层的输出数据，同时还引用了第一结构层的输出数据。在一些替代性实施例中，也可以在神经网络模型中以四层、五层或六层等为单位形成残差块，在残差块中引入残差连接，残差连接可以将第一层的输出数据“短接”到与其不相邻的层(如第四层、第五层或第六层)的输入数据中，第一层的输出数据也可以直接作为与其相邻的层(如第二层)的输入数据。神经网络中的各个残差块中的层数可以相同，也可以不相同，本申请对此不作限制。在模型中引入残差连接，可以模型在学习深层特征的同时还学到了浅层特征，从而提高了模型的准确度。

在一些实施例中，还可以基于模型的预测结果以及样本真实值构造损失函数，并基于损失函数的梯度值反向对模型中的参数进行调整，使模型优化。在一些实施例中，由于模型中引入了残差连接，可以减损失函数的梯度损耗，提高模型的训练效率。在一些实施例中，在训练过程中，可以利用验证集对模型进行验证，并根据验证结果(例如，模型处于欠拟合和/或过拟合状态)对模型参数进行调整以使模型优化。所述验证集中的数据与所述初始模型的训练数据独立同分布，且没有交集。在一些实施例中，当满足预设条件时，可以停止模型训练，并将最终的模型作为所需要的机器学习模型输出。在一些实施例中，可以采用贪心算法对模型进行优化。在一些实施例中，可以通过极大似然估计法确定模型中的特征参数。在一些实施例中，可以采用对数似然函数，即

计算。

应当注意的是，上述有关流程700的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程700进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，在步骤710中，可以将包含目标事件的音频信号样本标记为负样本，将未包含目标事件的音频信号样本标记为正样本。

本申请实施例可能带来的有益效果包括但不限于：(1)通过在神经网络模型中引入残差连接，可以使神经网络模型同时学习浅层与深层的特征，有效提升了模型对音频信号中目标事件检测的准确性；(2)使用联合多个音频片段是否包含目标事件的确定结果，来确定音频信号中是否包含所述目标事件的方法，可以增加对音频信号中目标事件检测的准确性。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、 “一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、 “引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、 C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、 Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby 和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网 (WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的***组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的***。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种基于音频的事件检测方法，其特征在于，包括：

获取一段音频信号；

将所述音频信号切割成多个音频片段；

对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件。

2.如权利要求1所述的方法，其特征在于，所述对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件包括：

确定所述多个音频片段的一个或多个音频片段中是否包含目标事件；

联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件。

3.如权利要求2所述的方法，其特征在于，所述联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件包括：

若任一所述音频片段中包含目标事件，则确定所述音频信号中包含所述目标事件；

若所述音频片段中全部都未包含目标事件，则确定所述音频信号中未包含所述目标事件。

4.如权利要求1所述的方法，其特征在于，所述将所述音频信号切割成多个音频片段包括将所述音频信号在时域上切割成多个音频片段。

5.如权利要求1所述的方法，其特征在于，所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。

6.如权利要求2所述的方法，其特征在于，所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件包括：

对于音频片段：

提取音频片段的特征信息；

基于机器学习模型处理所述特征信息，预测所述音频片段中包含目标事件的概率值。

7.如权利要求6所述的方法，其特征在于，所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件还包括：

对于音频片段：

获取设定阈值；

判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值：

若是，则确定所述音频片段中包含目标事件。

8.如权利要求6所述的方法，其特征在于，所述特征信息包括以下特征中的一种或多种的组合：F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征以及Bottleneck特征。

9.如权利要求6所述的方法，其特征在于，所述机器学习模型包括神经网络模型；

所述基于机器学习模型处理所述特征信息，预测所述音频片段中包含目标事件的概率值包括：

机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。

10.如权利要求9所述的方法，其特征在于，所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。

11.如权利要求9所述的方法，其特征在于，所述神经网络模型中具有残差连接；所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。

12.如权利要求6所述的方法，其特征在于，所述机器学习模型通过以下方法获得：

获取音频信号样本；其中，包含目标事件的音频信号样本标记为正样本，未包含目标事件的音频信号样本标记为负样本；

将音频信号样本切割成多个音频片段；

基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。

13.如权利要求1所述的方法，其特征在于，所述音频信号通过音频采集设备实时获取；所述方法还包括：

响应于所述音频信号包含所述目标事件，对与所述音频信号相关的场景实施干预措施。

14.如权利要求13所述的方法，其特征在于，所述干预措施包括提醒、支援、报警中至少一个。

15.一种基于音频的事件检测***，其特征在于，包括获取模块、音频信号切割模块和处理模块；其中：

所述获取模块用于获取一段音频信号；

所述音频信号切割模块用于将所述音频信号切割成多个音频片段；

所述处理模块用于对所述多个音频片段进行处理，以确定所述音频信号中是否包含目标事件。

16.如权利要求15所述的***，其特征在于，所述处理模块包括音频片段处理单元和目标事件联合确定单元；其中：

所述音频片段处理单元用于确定所述多个音频片段的一个或多个音频片段中是否包含目标事件；

所述目标事件联合确定单元用于联合所述一个或多个音频片段中是否包含目标事件的确定结果，确定所述音频信号中是否包含所述目标事件。

17.如权利要求16所述的***，其特征在于，所述目标事件联合确定单元还用于：

18.如权利要求15所述的***，其特征在于，所述音频信号切割模块进一步用于将所述音频信号在时域上切割成多个音频片段。

19.如权利要求15所述的***，其特征在于，所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、***、车祸中至少一个。

20.如权利要求16所述的***，其特征在于，所述音频片段处理单元还用于：

对于音频片段：

提取音频片段的特征信息；

21.如权利要求20所述的***，其特征在于，所述音频片段处理单元还用于：

对于音频片段：

获取设定阈值；

若是，则确定所述音频片段中包含目标事件。

22.如权利要求20所述的***，其特征在于，所述特征信息包括F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征、Bottleneck特征中至少一个。

23.如权利要求20所述的***，其特征在于，所述机器学习模型包括神经网络模型；

24.如权利要求23所述的***，其特征在于，所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。

25.如权利要求23所述的***，其特征在于，所述神经网络模型中具有残差连接；所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。

26.如权利要求20所述的***，其特征在于，还包括机器学习模型训练模块，所述机器学习模型训练模块用于：

将音频信号样本切割成多个音频片段；

27.如权利要求15所述的***，其特征在于，所述音频信号通过音频采集设备实时获取；所述***还包括干预措施实施模块，其中：

所述干预措施实施模块用于响应于所述音频信号包含所述目标事件，对与所述音频信号相关的场景实施干预措施。

28.如权利要求27所述的***，其特征在于，所述干预措施包括提醒、支援、报警中至少一个。

29.一种基于音频的事件检测装置，其特征在于，所述装置包括至少一个处理器和至少一个存储设备，所述存储设备用于存储指令，当所述至少一个处理器执行所述指令时，实现如权利要求1～14中任一项所述的方法。

30.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取所述存储介质中的所述计算机指令后，所述计算机执行如权利要求1～14中任一项所述的方法。