CN110706700B

CN110706700B - 一种车内骚扰预防报警方法及装置、服务器、存储介质

Info

Publication number: CN110706700B
Application number: CN201910932287.4A
Authority: CN
Inventors: 刘均; 邹鹏
Original assignee: Shenzhen Launch Technology Co Ltd
Current assignee: Shenzhen Launch Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-06-14
Anticipated expiration: 2039-09-29
Also published as: CN110706700A

Abstract

本申请实施例适用于车内骚扰预防报警，公开了一种车内骚扰预防报警方法及装置、服务器、存储介质，包括：服务器采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果；服务器获取车内图像信息并分析，得到车内图像识别结果；服务器根据车内语音识别结果和车内图像识别结果确定车内骚扰等级；服务器根据车内骚扰等级执行对应的预警操作。采用本申请，可以实时监控判断网约车车内情形，及时避免不良行为发生，有效保障乘车人员的安全。

Description

一种车内骚扰预防报警方法及装置、服务器、存储介质

技术领域

本申请涉及语音识别和图像识别技术领域，尤其涉及一种车内骚扰预防报警方法及装置、服务器、存储介质。

背景技术

随着移动互联网的快速发展，人们的出行方式更加丰富多样，网约车逐渐成为了人们出行的一种习惯。与此同时，网约车运营过程中存在的若干问题也逐渐凸显，其中最重要的问题就是安全问题。

目前，网约车可以通过摄像头对司机和乘客行为进行视频监控，该视频数据仅仅用来作为事故发生时的证据。因此，网约车在事故发生时并不能对司机或者乘客受到骚扰的情况采取预防措施。

发明内容

本申请实施例提供一种车内骚扰预防报警方法及装置、服务器、存储介质，以期及时避免不良行为发生，提高乘车安全性。

第一方面，为本申请实施例提供了一种车内骚扰预防报警方法，包括：

采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果；

获取车内图像信息并分析，得到车内图像识别结果；

根据所述车内语音识别结果和所述车内图像识别结果确定车内骚扰等级；

根据所述车内骚扰等级执行对应的预警操作。

可选的，所述采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果，具体包括：

通过语音采集模块对车内对话内容进行录制，获得车内语音信号；

对采集到的所述车内语音信号进行特征提取，获得车内语音特征；

将所述车内语音特征输入声学数据库，所述声学数据库包括至少一个敏感词的语音特征，通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词；

根据判断结果确定所述车内语音识别结果。可选的，所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列；

所述通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词，包括：

将各个语音帧对应的特征向量输入预设的敏感词判断模型，以得到所述敏感词判断模型输出的对应语音帧存在敏感词的概率；

若所述车内语音特征中包含第一语音帧，则确认所述车内语音信号中包含敏感词，所述第一语音帧存在敏感词的概率大于等于预设阈值。

可选的，所述对采集到的车内语音信号进行特征提取，获得车内语音特征，包括：

对所述车内语音信号进行分帧，并对经过分帧处理得到的每一语音帧进行离散傅里叶变换得到所述每一语音帧的频谱；

对所述每一语音帧的频谱进行计算得到所述每一语音帧的能量谱，并将所述能量谱通过M个Mel带通滤波器滤波，得到所述M个Mel带通滤波器的输出功率谱；

基于所述输出功率谱得到所述每一语音帧的静态特征，计算所述静态特征的一阶差分参数和二阶差分参数得到所述每一语音帧的动态特征，计算所述静态特征与所述动态特征的和得到所述每一语音帧对应的特征向量。

可选的，所述获取车内图像信息并分析，得到车内图像识别结果，具体包括：

采集车内图像；

采用背景减除法对采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓；

计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果。

可选的，所述采用背景减除法对车载摄像头采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓，包括：

分别对所述车内图像和不包含人物对象的车内背景图像进行灰度处理和高斯模糊平滑处理，得到第一车内图像和第一车内背景图像；

采用背景减除法对所述第一车内图像和所述第一车内背景图像进行处理，得到多个轮廓图像；通过所述轮廓图像的像素分布直方图和像素梯度分布图得到所述轮廓图像上轮廓点的坐标和特征点的坐标，其中，特征点包括头部最左侧、头部最左侧、肩膀最左侧和肩膀最右侧；

根据所述轮廓图像上特征点的坐标计算头肩比，若所述头肩比在预设范围内，则确认所述轮廓图像为人形轮廓，并将位于特定区域的所述轮廓图像标记为所述第一对象轮廓，其余人形轮廓标记为所述第二对象轮廓。

可选的，所述计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果包括：

在预设时间内，若所述车载摄像头采集到的第二车内图像出现的次数大于等于预设次数，则所述车内图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于所述预设阈值。

可选的，所述车内骚扰等级包括非常严重，严重、轻微、一般；

所述根据所述车内骚扰等级执行对应的预警操作，具体包括：

当所述车内骚扰等级为非常严重或者严重时，进行语音警告并向救助服务***报警；

当所述车内骚扰等级为轻微时，进行语音警告；

当所述车内骚扰等级为一般时，不进行处理。

第二方面，为本申请实施例提供了一种车内骚扰预防报警装置，包括：

车内语音识别单元，用于采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果；

车内图像识别单元，用于获取车内图像信息并分析，得到车内图像识别结果；

车内骚扰等级确定单元，用于根据所述车内语音识别结果和车内图像识别结果确定车内骚扰等级；

预警操作单元，用于根据所述车内骚扰等级执行对应的预警操作。

可选的，所述车内语音识别单元在采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果方面，具体包括：

语音采集子单元，用于通过车内语音采集模块对车内对话内容进行录制，获得车内语音信号；

语音特征提取子单元，用于对采集到的所述车内语音信号进行特征提取，获得车内语音特征；所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列；

语音识别子单元，用于将所述车内语音特征输入声学数据库，所述声学数据库包括至少一个敏感词的语音特征，通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词；

识别结果确定子单元，用于根据判断结果确定所述车内语音识别结果。

可选的，所述语音识别子单元，具体用于将各个语音帧对应的特征向量输入预设的敏感词判断模型，以得到所述敏感词判断模型输出的对应语音帧存在敏感词的概率；

所述语音识别子单元，具体用于若所述车内语音特征中包含第一语音帧，则确认所述车内语音信号中包含敏感词，所述第一语音帧存在敏感词的概率大于等于预设阈值。

可选的，所述语音特征提取子单元，具体用于对所述车内语音信号进行分帧，并对经过分帧处理得到的每一语音帧进行离散傅里叶变换得到所述每一语音帧的频谱；

所述语音特征提取子单元，具体用于对所述每一语音帧的频谱进行计算得到所述每一语音帧的能量谱，并将所述能量谱通过M个Mel带通滤波器滤波，得到所述M个Mel带通滤波器的输出功率谱；

所述语音特征提取子单元，具体用于基于所述输出功率谱得到所述每一语音帧的静态特征，计算所述静态特征的一阶差分参数和二阶差分参数得到所述每一语音帧的动态特征，计算所述静态特征与所述动态特征的和得到所述每一语音帧对应的特征向量。

可选的，所述车内图像识别单元在获取车内图像信息并分析，得到车内图像识别结果方面，具体包括：

图像采集子单元，用于采集车内图像；

对象轮廓获取子单元，用于采用背景减除法对采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓；

图像识别结果子单元，用于计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果。可选的，所述对象轮廓获取子单元，具体用于分别对所述车内图像和不包含人物对象的车内背景图像进行灰度处理和高斯模糊平滑处理，得到第一车内图像和第一车内背景图像；

所述对象轮廓获取子单元，具体用于采用背景减除法对所述第一车内图像和所述第一车内背景图像进行处理，得到多个轮廓图像；通过所述轮廓图像的像素分布直方图和像素梯度分布图得到所述轮廓图像上轮廓点的坐标和特征点的坐标，其中，特征点包括头部最左侧、头部最左侧、肩膀最左侧和肩膀最右侧；

所述对象轮廓获取子单元，具体用于根据所述轮廓图像上特征点的坐标计算头肩比，若所述头肩比在预设范围内，则确认所述轮廓图像为人形轮廓，并将位于特定区域的所述轮廓图像标记为所述第一对象轮廓，其余人形轮廓标记为所述第二对象轮廓。

可选的，所述图像识别结果子单元，具体用于：在预设时间内，若所述车载摄像头采集到的第二车内图像出现的次数大于等于预设次数，则所述车内图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于所述预设阈值。

可选的，所述车内骚扰等级包括非常严重，严重、轻微、一般。

所述预警操作单元在根据所述车内骚扰等级执行对应的预警操作方面，具体包括：

第一预警子单元，用于当所述车内骚扰等级为非常严重或者严重时，进行语音警告并向救助服务***报警；

第二预警子单元，用于当所述车内骚扰等级为轻微时，进行语音警告；

第三预警子单元，用于当所述车内骚扰等级为一般时，不进行处理。

第三方面，为本申请实施例提供了一种服务器，包括处理器、存储器和收发器，所述处理器、所述存储器和所述收发器相互连接，其中，所述存储器用于存储支持所述电子设备执行上述车内骚扰预防报警方法的计算机程序，所述计算机程序包括程序指令；所述处理器被配置用于调用所述程序指令，执行如上述本申请实施例一方面中所述的车内骚扰预防报警方法。

第四方面，为本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令；所述程序指令当被处理器执行时使所述处理器执行如本申请实施例一方面中所述的车内骚扰预防报警方法。

在本申请实施例中，服务器通过采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果；服务器获取车内图像信息并分析，得到车内图像识别结果；服务器根据车内语音识别结果和车内图像识别结果确定车内骚扰等级；服务器根据车内骚扰等级执行对应的预警操作。由于服务器通过实时分析车内语音信号和车内图像确定车内骚扰等级，之后再根据确定的车内骚扰等级及时采取车内骚扰预防报警操作，能够有效避免不良行为发生，提高乘车人员的安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种车内骚扰预防报警方法的场景示意图；

图2是本申请实施例提供的一种车内骚扰预防报警方法的流程示意图；

图3是本申请实施例提供的一种车内语音识别方法的流程示意图；

图4是本申请实施例提供的一种车内图像识别方法的流程示意图；

图5是本申请实施例提供的一种车内图像经过处理得到的第一对象轮廓和第二对象轮廓示意图；

图6是本申请实施例提供的一种车内骚扰预防报警装置的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本申请实施例提供的一种车内骚扰预防报警方法的场景示意图。如图1所示，车载设备端100中的语音采集模块101(如麦克风)对车内乘客和司机的对话内容进行录制，同时车内的摄像头102采集车内图像信息，车载设备端100将采集到的车内语音信号和车内图像信息上传给服务器103，服务器103对车内语音信号和车内图像信息进行识别，根据车内语音信号中是否包含敏感词以及车内图像中是否存在肢体接触的识别结果确定车内骚扰等级，之后根据确定的车内骚扰等级执行相应的预警操作。例如，若得到的识别结果为车内语音信号中包含敏感词且车内图像中不存在肢体接触，则服务器103将车内骚扰等级确定为轻微，并根据轻微骚扰等级向车载设备端100发送语音警告指令，使得车载设备端100向车内人员发出“请注意文明用语”的语音警告；若得到的识别结果为车内语音信号中不包含敏感词且车内图像信息中存在肢体接触，则服务器103将车内骚扰等级确定为严重，向网约车监控平台104发送存在肢体接触的消息，并向车载设备端100发送语音警告指令，使得车载设备端100向车内人员发出“请注意您的行为举止”的语音警告，并拨打110，从而对车内存在的骚扰或者暴力行为实现有效预防报警。

请参见图2，是本申请实施例提供的一种车内骚扰预防报警方法的流程示意图。如图2所示，该方法实施例包括如下步骤：

S101，服务器采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果。

具体的，服务器对车内语音信号进行分析得到车内语音识别结果的具体实现方式可参照图3，图3是本申请实施例提供的一种车内语音识别的方法流程图。如图3所示，该方法实施例具体包括以下步骤：

S201，服务器通过车内语音采集模块对车内对话内容进行录制，获得车内语音信号。

举例来说，车内语音采集模块以8KHz的频率对车内乘客和司机的对话内容进行录制采样，即1秒采集8K个样点，并将实时采集得到的车内语音信号上传给服务器。

S202，服务器对采集到的所述车内语音信号进行特征提取，获得车内语音特征。

一种可能的实现方式中，服务器获得车内语音信号的车内语音特征可以通过以下步骤实现：

一、服务器对所述车内语音信号进行分帧，并对经过分帧处理得到的每一语音帧进行离散傅里叶变换得到所述每一语音帧的频谱。

具体的，由于语音信号具有短时平稳性，即在短时间内，语音特性保持相对不变，故服务器需要对车内语音信号进行分帧，即将车内语音信号分为一段一段来分析其特征参数。服务器可以用有限长度的窗函数来截取车内语音信号形成分析帧，窗函数将需要处理区域以外的采样点置零来获得当前语音帧。

可选的，本申请实施例中的窗函数可以使用汉明窗窗函数，即，

其中，N为帧长，通常取256或512。

之后得到加窗处理后第n时刻对应的的车内语音信号S_ω(n)，即，

S_ω(n)＝S(n)×ω(n)

其中，S(n)为第n时刻对应的车内语音信号，即n时刻的语音采样值。

具体的，由于人发音时存在***的辐射效应，语音信号损失了高频成分，并且随着信号速率的增加，信号在传输过程中受损很大，为了能够得到比较好的信号波形，需要对受损的信号进行补偿，在一种可能的实现方式中，对加窗处理后第n时刻对应的车内语音信号S_ω(n)进行预加重，使用y(n)＝x(n)-ax(n-1)对加窗处理后的车内语音信号S_ω(n)进行处理，其中x(n)为第n时刻加窗处理后的车内语音信号S_ω(n)的语音采样值，a为预加重系数，a的值介于0.9和1之间，示例性的，a＝0.9375，y(n)为经过预加重处理的信号。可以理解为，预加重处理将语音信号通过一个高通滤波器，对高频成分进行补偿，减少了***发音或麦克风录音的过程带来的高频损失。

具体的，由于信号在时域上的变换较难发现信号的特性，故需要将信号转换为频域上的能量分布来观察，不同的能量分布就能代表不同语音信号的特性。故在对车内语音信号进行加窗预加重处理得到车内语音信号的每一语音帧后，还需要对每一语音帧进行快速傅里叶变换得到每一语音帧的频谱。示例性的，每一语音帧可以通过以下公式完成离散傅里叶变换得到每一语音帧的频谱。

其中，x(n)为加窗预加重处理后的车内语音信号，N表示傅里叶变换的点数。

二、服务器对所述每一语音帧的频谱进行计算得到所述每一语音帧的能量谱，并将所述能量谱通过M个Mel带通滤波器滤波，得到所述M个Mel带通滤波器的输出功率谱。

具体的，服务器对每一语音帧的频谱幅度取平方得到每一语音帧的能量谱，由于人耳在分辨语音时，耳蜗相当于一个滤波器组，在对数域上对语音进行滤波，即相比于频率f，梅尔频率f_Mel＝2595×log(1+f/700)更接近人耳的听觉机理，故之后需要将每一语音帧的能量谱通过一组Mel频率滤波器组(M个Mel带通滤波器)，得到M个Mel带通滤波器的输出功率谱。

三、基于所述输出功率谱得到所述每一语音帧的静态特征，服务器计算所述静态特征的一阶差分参数和二阶差分参数得到所述每一语音帧的动态特征，计算所述静态特征与所述动态特征的和得到所述每一语音帧对应的特征向量。

具体的，服务器对输出功率谱取对数，之后进行反离散余弦变化，得到若干个MFCC系数(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)，即静态特征，一般为12-16个，静态特征可以通过以下公式计算得到：

其中，x(k)为每个Mel带通滤波器的输出功率谱，C₀为频谱能量。

之后，服务器将静态特征和频谱能量做一阶、二阶差分得到动态特征，并将静态特征和动态特征求和得到每一语音帧对应的特征向量。

S203，服务器将所述车内语音特征输入声学数据库，所述声学数据库包括至少一个敏感词的语音特征，通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词。

一种可能的实现方式中，所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列；

其中，声学数据库包括至少一个敏感词以及敏感词对应的语音特征，敏感词可以包括辱骂、亲吻、骚扰、跟着你等。

具体的，服务器基于多个固定敏感词以HMM模型(Hidden Markov model，隐马尔科夫模型)对多个固定敏感词的语音特征进行训练得到多个敏感词的HMM模型，并将得到的多个敏感词的HMM模型进行全局连接组成一个全局HMM模型，即声学数据库。

一种可能的实现方式中，服务器将车内语音信号各个语音帧的特征向量输入全局HMM模型，通过Viterbi算法得到对应语音帧存在敏感词的概率，若存在一个语音帧存在敏感词的概率大于等于预设阈值，则确认车内语音信号中包含敏感词。举例来说，服务器将车内语音信号进行处理后得到100个语音帧对应的特征向量组成的特征向量序列，并将该特征向量序列输入全局HMM模型，通过Viterbi算法得到各个语音帧存在敏感词的概率分别为0.2、0.4、0.7……，其中，第三个语音帧存在敏感词的概率为0.7大于预设阈值0.6，则确认车内语音信号中包含关键词。

进一步的，另一种可能的实现方式中，服务器车内语音信号各个语音帧的特征向量输入全局HMM模型，通过Viterbi算法找出各个语音帧产生的最优字输出结果，搜索出最佳的状态路径，若最佳的状态路径中包含有一个子序列使得子序列中的每个状态都是某个敏感词HMM模型中的状态，则服务器确认车内语音信号中包含敏感词，并得到车内语音信号中包含的敏感词的内容。之后执行步骤S204。

S204，服务器根据判断结果确定所述车内语音识别结果。

具体的，若步骤S203中判断结果为存在敏感词，则服务器得到车内语音识别结果为存在敏感词；若步骤S203中判断结果为不存在敏感词，则服务器得到车内语音识别结果为不存在敏感词。

S102，服务器获取车内图像信息并分析，得到车内图像识别结果。

具体的，服务器对车内图像信息进行分析得到车内图像识别结果的具体实现方式可参照图4，图4是本申请实施例提供的一种车内图像识别的方法流程图。如图4所示，该方法实施例具体包括以下步骤：

S301，服务器采集车内图像。

具体的，服务器通过车载设备端中的车载摄像头以一定的频率对车内场景进行采集，从而获得车内图像。例如，车载摄像头每隔5秒采集一次车内场景，获得相应的车内图像。

S302，服务器采用背景减除法对采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓。

一种可能的实现方式中，服务器分别对所述车内图像和不包含人物对象的车内背景图像进行灰度处理和高斯模糊平滑处理，得到第一车内图像和第一车内背景图像；

其中，第一对象轮廓为司机轮廓，第二对象轮廓为乘客轮廓。

具体的，服务器选取一张不包含人物的车内场景图作为车内背景图像，之后对车内背景图像和车载摄像头采集到的车内图像进行灰度处理，由于图像像素信息可以由RGB信息表示，因此可以通过公式Gray＝0.3R+0.6G+0.1B对车内背景图像和车内图像进行灰度处理，得到灰度处理后的车内图像和车内背景图像，其中，Gray为像素的灰度值，R，G，B为像素中RGB的值。之后，服务器对灰度处理后的车内图像和车内背景图像进行高斯模糊平滑处理，得到第一车内图像I_i和第一车内背景图像I₀，有效实现对车内图像和车内背景图像的降噪。

服务器采用背景减除法对第一车内图像I_i和第一车内背景图像I₀进行处理，得到包含多个轮廓的轮廓图像I＝|I_i-I₀|，I_i为车载摄像头采集到的第i张进行灰度处理和高斯平滑处理后的车内图像。之后分别在轮廓图像I的水平和垂直方向上统计灰度值为255的像素点个数，得到水平方向和垂直方向的像素分布直方图，并计算得到水平方向和垂直方向的像素梯度分布直方图，从而得到轮廓图像I上轮廓点坐标和特征点的坐标，其中，特征点包括头部最左侧、头部最左侧、肩膀最左侧和肩膀最右侧。

之后，服务器根据公式y＝y₁/y₂计算头肩比，其中y₁可以为头部最左侧与头部最右侧两点之间的距离，y₂可以为肩膀最左侧与肩膀最右侧两点之间的距离，若计算得到的头肩比在预设人形轮廓范围内，则确定该轮廓为人形轮廓，并将位于特定区域的人形轮廓标记为司机轮廓，将轮廓图像中的其余人形轮廓标记为乘客轮廓，其中，若车载摄像头位于司机和乘客的前方，则轮廓图像中位于右侧的人形轮廓为司机轮廓，剩余人形轮廓为乘客轮廓。

S303，服务器计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到图像识别结果。

其中，图像识别结果包括存在肢体接触和不存在肢体接触。

一种可能的实现方式中，在预设时间内，若所述车载摄像头采集到的第二车内图像出现的次数大于等于预设次数，则所述图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于所述预设阈值。

举例来说，服务器在执行步骤S301后得到第一对象轮廓和第二对象轮廓，请参见图5，是车内图像经过处理得到的第一对象轮廓和第二对象轮廓示意图。如图5所示，A可以为第一对象轮廓，即乘客轮廓，B可以为第二对象轮廓，即司机轮廓。计算车内图像中第一对象轮廓A与不同高度水平线相交的两点a(i)、a(i+1)与第二对象轮廓B与上述同一水平线相交的两点b(i)、b(i+1)之间的距离，显然，点a(9)与点b(8)之间的距离最小为0等于预设阈值0，则确定该车内图像为第一车内图像，若在预设时间为20秒内，第一车内图像出现的次数为3大于预设次数2，则得到图像识别结果为存在肢体接触。可以理解为，通过计算预设时间t内摄像头以频率f采集得到的tf张车内图像中满足第一对象轮廓与第二对象轮廓之间的最小距离等于预设阈值的车内图像的张数，若满足上述条件的车内图像的张数大于等于预设张数(预设次数)，则图像识别结果为存在肢体接触。这样可以有效避免车内人员出现无意识肢体接触的情况，减少误判次数，提高肢体接触的正确识别率。

S103，服务器根据所述车内语音识别结果和所述车内图像识别结果确定车内骚扰等级。

其中，所述车内骚扰等级包括非常严重，严重、轻微、一般。

具体的，服务器将车内语音识别结果和车内图像识别结果与预设的车内骚扰等级对照表(如表1所示)进行比对，进而确定车内骚扰等级。

表1车内骚扰等级对照表

例如，若服务器执行步骤S101和步骤S102后得到车内语音识别结果为不存在敏感词以及车内图像识别结果为存在肢体接触，则通过对比预设的车内骚扰等级对照表(如表1所示)得到车内骚扰等级为严重。

S104，服务器根据所述车内骚扰等级执行对应的预警操作。

一种可能的实现方式中，服务器根据所述车内骚扰等级执行对应的预警操作，具体包括：

当所述车内骚扰等级为轻微时，进行语音警告；

当所述车内骚扰等级为一般时，不进行处理。

例如，若步骤S103中得到的车内骚扰等级为非常严重，即车内语音识别结果为存在敏感词以及车内图像识别结果为存在肢体接触，则服务器向网约车监控平台发送“车内存在敏感词和肢体接触”的消息，同时向车载设备端发送语音警告指令，使得车载设备端向车内人员发出“请注意您的言行举止”的语音警告，并同时拨打110。

又如，若步骤S103中得到的车内骚扰等级为严重，即车内语音识别结果为不存在敏感词以及车内图像识别结果为存在肢体接触，则服务器向网约车监控平台发送“车内存在肢体接触”的消息，同时向车载设备端发送语音警告指令，使得车载设备端向车内人员发出“请注意您的行为举止”的语音警告，并同时拨打110。

又如，若步骤S103中得到的车内骚扰等级为轻微，即车内语音识别结果为存在敏感词以及车内图像识别结果为不存在肢体接触，则服务器向车载设备端发送语音警告指令，使得车载设备端向车内人员发出“请注意文明用语”的语音警告。

再如，又如，若步骤S103中得到的车内骚扰等级为一般，即车内语音识别结果为不存在敏感词以及车内图像识别结果为不存在肢体接触，则服务器不进行任何操作。

请参见图6，是本申请实施例提供的一种车内骚扰预防报警装置的结构示意图。如图6所示，该车内骚扰预防报警装置包括车内语音识别单元601、车内图像识别单元602、车内骚扰等级确定单元603和预警操作单元604。

车内语音识别单元601，用于采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果；

车内图像识别单元602，用于获取车内图像信息并分析，得到车内图像识别结果；

车内骚扰等级确定单元603，用于根据所述车内语音识别结果和车内图像识别结果确定车内骚扰等级；

预警操作单元604，用于根据所述车内骚扰等级执行对应的预警操作。

可选的，所述车内语音识别单元601在采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果方面，具体包括：

语音采集子单元6011，用于通过车内语音采集模块对车内对话内容进行录制，获得车内语音信号；

语音特征提取子单元6012，用于对采集到的所述车内语音信号进行特征提取，获得车内语音特征；所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列；

语音识别子单元6013，用于将所述车内语音特征输入声学数据库，所述声学数据库包括至少一个敏感词的语音特征，通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词；

识别结果确定子单元6014，用于根据判断结果确定所述车内语音识别结果。

可选的，所述语音识别子单元6013，具体用于将各个语音帧对应的特征向量输入预设的敏感词判断模型，以得到所述敏感词判断模型输出的对应语音帧存在敏感词的概率；

所述语音识别子单元6013，具体用于若所述车内语音特征中包含第一语音帧，则确认所述车内语音信号中包含敏感词，所述第一语音帧存在敏感词的概率大于等于预设阈值。

可选的，所述语音特征提取子单元6012，具体用于对所述车内语音信号进行分帧，并对经过分帧处理得到的每一语音帧进行离散傅里叶变换得到所述每一语音帧的频谱；

所述语音特征提取子单元6012，具体用于对所述每一语音帧的频谱进行计算得到所述每一语音帧的能量谱，并将所述能量谱通过M个Mel带通滤波器滤波，得到所述M个Mel带通滤波器的输出功率谱；

所述语音特征提取子单元6012，具体用于基于所述输出功率谱得到所述每一语音帧的静态特征，计算所述静态特征的一阶差分参数和二阶差分参数得到所述每一语音帧的动态特征，计算所述静态特征与所述动态特征的和得到所述每一语音帧对应的特征向量。

可选的，所述车内图像识别单元602在获取车内图像信息并分析，得到车内图像识别结果方面，具体包括：

图像采集子单元6021，用于采集车内图像；

对象轮廓获取子单元6022，用于采用背景减除法对采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓；

图像识别结果子单元6023，用于计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果。

可选的，所述对象轮廓获取子单元6022，具体用于分别对所述车内图像和不包含人物对象的车内背景图像进行灰度处理和高斯模糊平滑处理，得到第一车内图像和第一车内背景图像；

所述对象轮廓获取子单元6022，具体用于采用背景减除法对所述第一车内图像和所述第一车内背景图像进行处理，得到多个轮廓图像；通过所述轮廓图像的像素分布直方图和像素梯度分布图得到所述轮廓图像上轮廓点的坐标和特征点的坐标，其中，特征点包括头部最左侧、头部最左侧、肩膀最左侧和肩膀最右侧；

所述对象轮廓获取子单元6022，具体用于根据所述轮廓图像上特征点的坐标计算头肩比，若所述头肩比在预设范围内，则确认所述轮廓图像为人形轮廓，并将位于特定区域的所述轮廓图像标记为所述第一对象轮廓，其余人形轮廓标记为所述第二对象轮廓。

可选的，所述图像识别结果子单元6023，具体用于：在预设时间内，若所述车载摄像头采集到的第二车内图像出现的次数大于等于预设次数，则所述车内图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于所述预设阈值。

所述预警操作单元604在根据所述车内骚扰等级执行对应的预警操作方面，具体包括：

第一预警子单元6041，用于当所述车内骚扰等级为非常严重或者严重时，进行语音警告并向救助服务***报警；

第二预警子单元6042，用于当所述车内骚扰等级为轻微时，进行语音警告；

第三预警子单元6043，用于当所述车内骚扰等级为一般时，不进行处理。可以理解的，该车内骚扰预防报警装置600用于实现图2实施例中服务器所执行的步骤。关于图6的车内骚扰预防报警装置600包括的功能块的具体实现方式及相应的有益效果，可参考前述图2的实施例的具体介绍，这里不赘述。

上述图6所示实施例中的车内骚扰预防报警装置600可以以图7所示的服务器700来实现。请参见图7，为本申请实施例提供了一种服务器的结构示意图。如图7所示，上述服务器700可以包括：一个或多个处理器701、存储器702和收发器703。上述处理器701、存储器702和收发器703通过总线704连接。其中，上述收发器703用于获取车内语音信号和车内图像或者发送语音警告指令，上述存储器702用于存储计算机程序，该计算机程序包括程序指令；处理器701用于执行存储器702存储的程序指令，执行如下操作：

获取车内图像信息并分析，得到车内图像识别结果；

根据所述车内骚扰等级执行对应的预警操作。

可选的，上述处理器701采集车内对话内容获得车内语音信号并分析，得到车内语音识别结果，具体执行以下操作：

根据判断结果确定所述车内语音识别结果。可选的，所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列。可选的，上述处理器701通过比对所述语音特征和所述声学数据库中的至少一个敏感词的语音特征，判断所述车内语音信号中是否包含敏感词，具体执行以下操作：

可选的，上述处理器701对采集到的车内语音信号进行特征提取，获得车内语音特征，具体执行以下操作：

可选的，上述处理器701获取车内图像信息并分析，得到车内图像识别结果，具体执行以下操作：

采集车内图像；

采用背景减除法对车载摄像头采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓；

计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果。可选的，上述服务器701采用背景减除法对车载摄像头采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓，具体执行以下操作：

可选的，上述服务器701计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果，具体执行以下操作：在预设时间内，若所述车载摄像头采集到的第二车内图像出现的次数大于等于预设次数，则所述车内图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于所述预设阈值。

上述服务器701根据所述车内骚扰等级执行对应的预警操作，具体执行以下操作：

当所述车内骚扰等级为轻微时，进行语音警告；

当所述车内骚扰等级为一般时，不进行处理。

在本申请实施例中还提供了一种计算机存储介质，可以用于存储图6所示实施例中上述车内骚扰预防报警装置所用的计算机软件指令，其包含用于执行上述实施例中为车内骚扰预防报警装置所设计的程序。该存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

在本申请实施例中还提供了一种计算机程序产品，该计算机产品被计算设备运行时，可以执行上述图6所示实施例中为所设计的车内骚扰预防报警装置。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请中，“A和/或B”是指下述情况之一：A，B，A和B。“……中至少一个”是指所列出的各项或者任意数量的所列出的各项的任意组合方式，例如，“A、B和C中至少一个”是指下述情况之一：A，B，C，A和B，B和C，A和C，A、B和C这七种情况中的任一种。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种车内骚扰预防报警方法，其特征在于，包括：

根据判断结果确定所述车内语音识别结果；

采集车内图像；

计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果；

根据所述车内骚扰等级执行对应的预警操作。

2.根据权利要求1所述的方法，其特征在于，所述车内语音特征包括多个语音帧对应的特征向量组成的特征向量序列；

3.根据权利要求1所述的方法，其特征在于，所述对采集到的车内语音信号进行特征提取，获得车内语音特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述采用背景减除法对采集到的车内图像进行处理，获得第一对象轮廓和第二对象轮廓，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果包括：

在预设时间内，若采集到的第二车内图像出现的次数大于等于预设次数，则所述车内图像识别结果为存在肢体接触，所述第二车内图像包括所述第一对象轮廓和所述第二对象轮廓之间的最小距离等于预设阈值。

6.根据权利要求1-5任一所述的方法，其特征在于，所述车内骚扰等级包括非常严重，严重、轻微、一般；

当所述车内骚扰等级为轻微时，进行语音警告；

当所述车内骚扰等级为一般时，不进行处理。

7.一种车内骚扰预防报警装置，其特征在于，包括：

车内语音识别单元，用于通过语音采集模块对车内对话内容进行录制，获得车内语音信号；

根据判断结果确定所述车内语音识别结果；

车内图像识别单元，用于采集车内图像；

计算所述第一对象轮廓和所述第二对象轮廓之间的距离，根据所述距离得到所述车内图像识别结果；车内骚扰等级确定单元，用于根据所述车内语音识别结果和车内图像识别结果确定车内骚扰等级；预警操作单元，用于根据所述车内骚扰等级执行对应的预警操作。

8.一种服务器，其特征在于，包括处理器、存储器和收发器；

所述存储器用于存储支持多媒体终端执行上述车内骚扰预防报警方法的计算机程序，所述计算机程序包括程序指令；

所述处理器被配置用于调用所述程序指令，执行如权利要求1-6任一项所述的车内骚扰预防报警方法。