CN112307948A - 特征融合方法、装置及存储介质 - Google Patents

特征融合方法、装置及存储介质 Download PDF

Info

Publication number
CN112307948A
CN112307948A CN202011181418.9A CN202011181418A CN112307948A CN 112307948 A CN112307948 A CN 112307948A CN 202011181418 A CN202011181418 A CN 202011181418A CN 112307948 A CN112307948 A CN 112307948A
Authority
CN
China
Prior art keywords
target
preset
fusion
feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011181418.9A
Other languages
English (en)
Inventor
李剑
苟巍
沈海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202011181418.9A priority Critical patent/CN112307948A/zh
Publication of CN112307948A publication Critical patent/CN112307948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Computer Security & Cryptography (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种特征融合方法、装置及存储介质,该方法通过获取待检测目标的目标图像特征和目标语音特征,然后利用融合模型对上述多个特征进行融合,获得上述待检测目标的融合特征,从而利用融合特征对待检测目标进行检测。其中,本申请实施例在进行目标检测时,不仅考虑待检测目标的图像特征,还考虑待检测目标的语音特征,即本申请实施例获取待检测目标的多个特征用于后续目标检测,解决了现有利用终端设备采集的图像进行目标检测误差率较高的问题,并且本申请实施例对待检测目标的图像特征和语音特征进行融合,融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。

Description

特征融合方法、装置及存储介质
技术领域
本申请涉及目标检测技术,尤其涉及一种特征融合方法、装置及存储介质。
背景技术
随着经济技术的不断发展,人们的出行方式越来越多样化,例如通过出租车、网约车等运营车辆出行。然而上述出行方式在给人们带来便捷的同时,也产生了一些新的问题。例如,以网约车为例,车辆在行驶过程中,司机和乘客可能会发生冲突,这样会导致司机在异常状态下驾驶车辆,使乘客在使用网约车日常出行的过程中存在一定的安全隐患。
为了解决上述问题,相关技术中,通常是终端设备采集车辆内的图像,基于采集的图像进行目标检测。示例性的,以终端设备为司机的手机为例,车辆在行驶过程中,上述手机采集车辆内的图像,然后基于采集的图像对车辆内司机和乘客进行检测,例如判断司机和乘客是否发生冲突。
然而,上述终端设备采集的图像误差较大,导致后续基于采集的图像进行目标检测的误差率较高,从而无法及时发现安全隐患,无法对车辆驾驶中出现的问题进行正确干预。
发明内容
为解决现有技术中存在的问题,本申请提供一种特征融合方法、装置及存储介质。
第一方面,本申请实施例提供一种特征融合方法,所述方法包括:
获取待检测目标的目标特征,所述目标特征包括目标图像特征和目标语音特征;
将所述目标特征输入预设融合模型,其中,所述预设融合模型通过参考特征和参考融合特征训练得到,所述参考特征包括参考图像特征和参考语音特征;
根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征。
在一种可能的实现方式中,在所述将所述目标特征输入预设融合模型之前,还包括:
确定所述目标特征的维度;
若所述维度与输入所述预设融合模型的预设特征维度不同,则根据所述预设特征维度,对所述目标特征进行维度拆分;
所述将所述目标特征输入预设融合模型,包括:
分别将维度拆分后的目标特征输入所述预设融合模型。
在一种可能的实现方式中,所述根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征,包括:
获取所述预设融合模型输出的所述维度拆分后的目标特征对应的融合特征;
对获取的融合特征进行维度合并,获得所述目标融合特征。
在一种可能的实现方式中,所述根据所述预设特征维度,对所述目标特征进行维度拆分;
确定所述预设特征维度的行数和列数;
根据所述预设特征维度的行数,对所述目标特征的行数进行拆分,以使拆分后的目标特征的行数等于所述预设特征维度的行数;
和/或,根据所述预设特征维度的列数,对所述目标特征的列数进行拆分,以使拆分后的目标特征的列数等于所述预设特征维度的列数。
在一种可能的实现方式中,在所述将所述目标特征输入预设融合模型之前,还包括:
将所述参考特征输入所述预设融合模型;
根据所述预设融合模型输出的融合特征,以及所述参考融合特征,确定融合准确率;
若所述融合准确率低于预设准确率阈值,则根据所述融合准确率,调整所述预设融合模型,以提高所述融合准确率,将调整后的预设融合模型作为新的预设融合模型,重新执行所述将所述参考特征输入所述预设融合模型的步骤。
在一种可能的实现方式中,所述获取待检测目标的目标特征,包括:
将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型,其中,所述第一预设模型通过参考图像和参考图像特征训练得到,所述第二预设模型通过参考语音和参考语音特征训练得到;
获取所述第一预设模型输出的所述目标图像特征,以及所述第二预设模型输出的所述目标语音特征。
在一种可能的实现方式中,所述目标特征还包括目标文本特征;所述获取待检测目标的目标特征,包括:
将所述待检测目标的目标文本输入第三预设模型,其中,所述第三预设模型通过参考文本和参考文本特征训练得到;
获取所述第三预设模型输出的所述目标文本特征。
在一种可能的实现方式中,在所述根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征之后,还包括:
根据所述目标融合特征,对所述待检测目标进行检测。
在一种可能的实现方式中,所述根据所述目标融合特征,对所述待检测目标进行检测,包括:
将所述目标融合特征输入第四预设模型,其中,所述第四预设模型通过参考融合特征和参考状态训练得到;
获取所述第四预设模型输出的所述待检测目标的目标状态。
在一种可能的实现方式中,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收预设图像采集装置发送的所述目标图像。
在一种可能的实现方式中,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标图像。
在一种可能的实现方式中,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收预设语音采集装置发送的所述目标语音。
在一种可能的实现方式中,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标语音。
在一种可能的实现方式中,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收预设语音采集装置发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
在一种可能的实现方式中,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
在一种可能的实现方式中,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标文本。
第二方面,本申请实施例提供一种特征融合装置,所述装置包括:
特征获取模块,用于获取待检测目标的目标特征,所述目标特征包括目标图像特征和目标语音特征;
特征输入模块,用于将所述目标特征输入预设融合模型,其中,所述预设融合模型通过参考特征和参考融合特征训练得到,所述参考特征包括参考图像特征和参考语音特征;
融合特征获得模块,用于根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征。
在一种可能的实现方式中,所述特征输入模块,还用于:
确定所述目标特征的维度;
若所述维度与输入所述预设融合模型的预设特征维度不同,则根据所述预设特征维度,对所述目标特征进行维度拆分;
所述特征输入模块,具体用于:
分别将维度拆分后的目标特征输入所述预设融合模型。
在一种可能的实现方式中,所述融合特征获得模块,具体用于:
获取所述预设融合模型输出的所述维度拆分后的目标特征对应的融合特征;
对获取的融合特征进行维度合并,获得所述目标融合特征。
在一种可能的实现方式中,所述特征输入模块,具体用于:
确定所述预设特征维度的行数和列数;
根据所述预设特征维度的行数,对所述目标特征的行数进行拆分,以使拆分后的目标特征的行数等于所述预设特征维度的行数;
和/或,根据所述预设特征维度的列数,对所述目标特征的列数进行拆分,以使拆分后的目标特征的列数等于所述预设特征维度的列数。
在一种可能的实现方式中,所述特征输入模块,还用于:
将所述参考特征输入所述预设融合模型;
根据所述预设融合模型输出的融合特征,以及所述参考融合特征,确定融合准确率;
若所述融合准确率低于预设准确率阈值,则根据所述融合准确率,调整所述预设融合模型,以提高所述融合准确率,将调整后的预设融合模型作为新的预设融合模型,重新执行所述将所述参考特征输入所述预设融合模型的步骤。
在一种可能的实现方式中,所述特征获取模块,具体用于:
将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型,其中,所述第一预设模型通过参考图像和参考图像特征训练得到,所述第二预设模型通过参考语音和参考语音特征训练得到;
获取所述第一预设模型输出的所述目标图像特征,以及所述第二预设模型输出的所述目标语音特征。
在一种可能的实现方式中,所述目标特征还包括目标文本特征;所述特征获取模块,还用于:
将所述待检测目标的目标文本输入第三预设模型,其中,所述第三预设模型通过参考文本和参考文本特征训练得到;
获取所述第三预设模型输出的所述目标文本特征。
在一种可能的实现方式中,所述融合特征获得模块,还用于:
根据所述目标融合特征,对所述待检测目标进行检测。
在一种可能的实现方式中,所述融合特征获得模块,具体用于:
将所述目标融合特征输入第四预设模型,其中,所述第四预设模型通过参考融合特征和参考状态训练得到;
获取所述第四预设模型输出的所述待检测目标的目标状态。
第三方面,本申请实施例提供一种特征融合设备,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如第一方面所述的方法的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行第一方面所述的方法。
本申请实施例提供的特征融合方法、装置及存储介质,该方法通过获取待检测目标的目标图像特征和目标语音特征,然后利用融合模型对上述多个特征进行融合,获得上述待检测目标的融合特征,从而利用融合特征对待检测目标进行检测。其中,本申请实施例在进行目标检测时,不仅考虑待检测目标的图像特征,还考虑待检测目标的语音特征,即本申请实施例获取待检测目标的多个特征用于后续目标检测,解决了现有利用终端设备采集的图像进行目标检测误差率较高的问题,并且本申请实施例对待检测目标的图像特征和语音特征进行融合,融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的特征融合***架构示意图;
图2为本申请实施例提供的一种特征融合方法的流程示意图;
图3为本申请实施例提供的一种预设融合模型的示意图;
图4为本申请实施例提供的利用预设融合模型进行特征融合的过程示意图;
图5为本申请实施例提供的一种预设融合模型的训练过程示意图;
图6为本申请实施例提供的另一种特征融合方法的流程示意图;
图7为本申请实施例提供的一种特征融合装置的结构示意图;
图8示出了本申请特征融合设备的一种可能的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
现有用户在通过出租车、网约车等运营车辆出行时,存在一些问题,例如,以网约车为例,车辆在行驶过程中,司机和乘客可能会发生冲突,这样会导致司机在异常状态下驾驶车辆,使乘客在使用网约车日常出行的过程中存在一定的安全隐患。为了解决上述问题,相关技术中,通常是终端设备采集车辆内的图像,基于采集的图像进行目标检测。示例性的,以终端设备为司机的手机为例,车辆在行驶过程中,上述手机采集车辆内的图像,然后基于采集的图像对车辆内司机和乘客进行检测,例如判断司机和乘客是否发生冲突。
然而,上述终端设备采集的图像误差较大,例如上述终端设备在采集图像时其摄像头被部分或全部遮挡,导致采集的图像不完整或采集不到图像。或者,在光线较差,例如夜晚,导致采集的图像比较模糊。又或者,终端设备在工作过程中由于性能老化或部件损坏,导致采集的图像质量较差等等,进而导致终端设备基于上述采集的图像进行目标检测的误差率较高,从而无法及时发现安全隐患,无法对车辆驾驶中出现的问题进行正确干预。
因此,本申请实施例提出一种特征融合方法,对待检测目标的多个特征,例如待检测目标的目标图像特征和目标语音特征等,进行融合,获得融合特征,从而利用融合特征对待检测目标进行检测,例如判断司机和乘客是否发生冲突。其中,本申请实施例获取待检测目标的多个特征用于后续目标检测,解决现有利用终端设备采集的图像进行目标检测误差率较高的问题,而且融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。
在本申请实施例中,上述目标图像特征可以通过对上述待检测目标的目标图像进行特征提取获得。示例性的,以网约车为例,上述目标图像可以为网约车内司机和乘客的图像。该图像可以通过网约车上搭载的预设图像采集装置,例如摄像头采集得到。这里,以预设图像采集装置为上述摄像头为例,上述摄像头的数量、位置和类型等信息可以由网约车管理服务器统一规定。其中,网约车管理服务器用于对各个网约车进行管理,例如审核网约车和网约车司机等的资质,以及监管网约车接单情况等。网约车管理服务器可以根据上述摄像头的规定,检查网约车中摄像头的安装是否符合要求,例如通过网约车司机上传的网约车内摄像头的安装图像,检查网约车中摄像头安装是否符合要求。如果符合要求,网约车管理服务器可以与网约车中的摄像头建立连接,在确定网约车接单后,可以控制网约车中的摄像头启动,采集车内司机和乘客的图像,直至网约车完成该单任务,停止采集。
除上述外,上述目标图像还可以通过待检测目标的终端设备采集得到,例如通过司机的手机采集得到。示例性的,上述网约车管理服务器在审核网约车和网约车司机等的资质后,如果审核符合要求,可以与网约车司机的手机建立连接,通过该连接监管网约车接单情况等。网约车管理服务器可以在确定网约车接单后,发送摄像开启提示信息至网约车司机的手机。网约车司机根据该提示开启手机摄像头,采集车内司机和乘客的图像。这里,网约车司机根据上述提示开启摄像头后,可以反馈摄像头开启信息至网约车管理服务器,以使网约车管理服务器及时了解网约车司机的手机状态。
另外,上述目标图像还可以通过其它设备采集得到,例如行车记录仪、行车路线上的摄像头等。示例性的,网约车管理服务器可以与网约车中的行车记录仪建立连接,在确定网约车接单后,可以通过网约车中的行车记录仪采集车内司机和乘客的图像。对于行车路线比较固定的网约车,网约车管理服务器还可以通过行车路线上的摄像头,采集网约车内司机和乘客的图像。
同样,在本申请实施例中,上述目标语音特征可以通过对上述待检测目标的目标语音进行特征提取获得。示例性的,还以网约车为例,上述目标语音可以为网约车内司机和乘客的语音。该语音可以通过网约车上搭载的语音采集装置采集得到。其中,上述语音采集装置的数量、位置和类型等信息也可以由网约车管理服务器统一规定。网约车管理服务器可以根据该规定检查网约车中语音采集装置的安装是否符合要求。如果符合要求,网约车管理服务器可以与网约车中的语音采集装置建立连接,在确定网约车接单后,可以控制网约车中的语音采集装置启动,采集车内司机和乘客的语音,直至网约车完成该单任务,停止采集。
上述目标语音还可以通过待检测目标的终端设备采集得到,例如通过司机的手机采集得到。另外,上述目标语音也可以通过其它设备采集得到,例如行车记录仪。具体可以参见上述通过司机的手机或通过行车记录仪采集上述目标图像的描述,在此不再赘述。
在一些可行的实施例中,上述待检测目标的多个特征中还可以包括待检测目标的目标文本特征,该目标文本特征可以通过对上述待检测目标的目标文本进行特征提取获得。示例性的,还以网约车为例,上述目标文本可以为网约车内司机和乘客输入的文本信息。该文本信息可以通过待检测目标的终端设备获得,例如通过乘客的手机或司机的手机获得。其中,以通过乘客的手机获得上述文本信息为例,上述网约车管理服务器在乘客通过手机下单后,可以与乘客的手机建立连接。在网约车行车过程中,乘客可以在手机上直接输入文本信息发送至网约车管理服务器,网约车管理服务器直接获得乘客输入的文本信息。再以通过司机的手机获得上述文本信息为例,上述网约车管理服务器在审核网约车和网约车司机等的资质后,如果审核符合要求,可以与网约车司机的手机建立连接。在确定网约车接单后,网约车管理服务器可以发送录音开启提示信息至网约车司机的手机。网约车司机根据该提示开启手机录音功能,采集车内司机和乘客的语音,并将采集的语音发送至网约车管理服务器。网约车管理服务器将接收的语音转换为文本,间接获得司机输入的文本信息。同样,司机也可以在手机上直接输入文本信息发送至网约车管理服务器,网约车管理服务器直接获得司机输入的文本信息。
另外,上述目标文本还可以通过语音采集装置采集得到。网约车管理服务器在确定网约车接单后,可以控制网约车中的语音采集装置启动,采集车内司机和乘客的语音,直至网约车完成该单任务,停止采集。语音采集装置在采集到上述语音后,可以将采集的语音发送至网约车管理服务器,网约车管理服务器将接收的语音转换为文本,间接获得相关文本。
这里,本申请实施例在获取待检测目标的上述目标图像、目标语音和目标文本后,可以对上述目标图像进行特征提取,对上述目标语音进行特征提取,从而获得目标图像特征和目标语音特征,也可以对目标文本进行特征提取,获得目标文本特征,进而,对这些特征进行融合,获得融合特征,从而利用融合特征对待检测目标进行检测,例如判断司机和乘客是否发生冲突。
其中,上述特征提取、特征融合等可以由上述网约车管理服务器执行。以上述目标图像通过网约车上搭载的预设图像采集装置采集得到,上述目标语音通过网约车上搭载的预设语音采集装置采集得到,上述目标文本通过上述语音采集装置采集得到为例。上述预设图像采集装置在采集得到上述目标图像后,可以把上述目标图像发送至上述网约车管理服务器。上述预设语音采集装置在采集得到上述目标语音后,把上述目标语音发送至上述网约车管理服务器。上述预设语音采集装置在采集得到车内司机和乘客的语音后,把该语音发送至上述网约车管理服务器转换为目标文件。上述网约车管理服务器对上述目标图像进行特征提取,对上述目标语音进行特征提取,获得目标图像特征和目标语音特征,也可以对目标文本进行特征提取,获得目标文本特征,进而,对待检测目标的多个特征,例如上述目标图像特征和目标语音特征等,进行融合,获得融合特征,从而利用融合特征对待检测目标进行检测,例如判断司机和乘客是否发生冲突。如果判断发生冲突,上述网约车管理服务器还可以把判断结果发送至相关人员,以及时发现安全隐患,并及时对车辆驾驶中出现的问题进行正确干预。
可选地,图1为本申请实施例提供的一种特征融合***架构示意图。在图1中,以待检测目标为网约车中的司机和乘客为例。上述架构包括网约车管理服务器11、预设图像采集装置12和预设语音采集装置13。
可以理解的是,本申请实施例示意的结构并不构成对特征融合架构的具体限定。在本申请另一些可行的实施方式中,上述架构可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置,具体可根据实际应用场景确定,在此不做限制。图1所示的部件可以以硬件,软件,或软件与硬件的组合实现。
在具体实现过程中,网约车管理服务器11可以首先确定是否控制网约车中的预设图像采集装置12和预设语音采集装置13启动。示例性的,以网约车管理服务器11确定是否控制预设图像采集装置12启动为例,网约车管理服务器11可以在确定网约车接单后,控制网约车中的预设图像采集装置12启动,采集车内司机和乘客的图像,直至网约车完成该单任务,停止采集。或者,网约车管理服务器11可以根据网约车司机的接单评价情况,确定是否控制预设图像采集装置12启动。示例性的,如果网约车司机的接单评价较差,例如最近一个月接到超过两次的投诉,则网约车管理服务器11控制预设图像采集装置12启动,采集车内司机和乘客的图像,直至网约车完成该单任务,停止采集。同样,网约车管理服务器11也可以采用上述方式,控制预设语音采集装置13采集车内司机和乘客的语音。
在预设图像采集装置12启动,采集到网约车内司机和乘客的图像后,预设图像采集装置12可以将采集的图像发送至网约车管理服务器11。同样,在预设语音采集装置13启动,采集到网约车内司机和乘客的语音后,预设语音采集装置13可以将采集的语音发送至网约车管理服务器11。网约车管理服务器11在接收到上述图像和语音后,可以对上述图像进行特征提取获得图像特征,并对上述语音进行特征提取获得语音特征。另外,网约车管理服务器11也可以将上述网约车内司机和乘客的语音转换为文本,对该文本进行特征提取获得文本特征。进而,上网约车管理服务器11对网约车中司机和乘客的多个特征,例如上述图像特征、语音特征和文本特征,进行融合,获得融合特征,从而,利用融合特征,对网约车中的司机和乘客进行检测,例如判断司机和乘客是否发生冲突。其中,上述获取司机和乘客的多个特征用于后续目标检测,解决现有利用终端设备采集的图像进行目标检测误差率较高的问题,而且融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。
另外,当网约车特别多时,上述网约车管理服务器接收到的数据量级较大,所需的计算资源较多,可能导致通过网约车管理服务器对目标进行检测的周期较长。为了解决该问题,在本申请实施例中,上述特征提取、特征融合等可以先由上述待检测目标的终端设备执行,例如先由司机的手机执行。示例性的,上述预设图像采集装置12可以把采集的网约车内司机和乘客的图像发送至上述司机的手机。上述预设语音采集装置13也可以把采集的网约车内司机和乘客的语音发送至上述司机的手机。上述司机可以通过手机对上述图像进行特征提取获得图像特征,对上述语音进行特征提取获得语音特征。另外,上述司机也可以通过手机将上述网约车内司机和乘客的语音转换为文本,对该文本进行特征提取获得文本特征。进而,上述司机通过手机对网约车中司机和乘客的多个特征,例如上述图像特征、语音特征和文本特征,进行融合,获得融合特征,并将融合特征发送至上述网约车管理服务器11。从而上述网约车管理服务器11利用融合特征,对待检测目标进行检测,例如判断司机和乘客是否发生冲突。
这里,本申请实施例通过终端设备和网约车管理服务器相结合的方式进行目标检测,既能够充分利用终端设备的计算能力,又减轻了网约车管理服务器的计算压力,提高网约车管理服务器的处理速度。
其中,如果终端设备,例如上述司机的手机无法进行上述特征提取、特征融合等,可以向上述网约车管理服务器11发送处理请求。上述网约车管理服务器11在接收到该处理请求后,可以发送信息获取请求至上述预设图像采集装置12和上述预设语音采集装置13,从而,上述预设图像采集装置12可以将采集的图像发送至上述网约车管理服务器11,上述预设语音采集装置13将采集的语音发送至上述网约车管理服务器11等。上述网约车管理服务器11基于接收的信息,进行上述特征提取、特征融合等,并基于融合特征,对网约车中的司机和乘客进行检测。
下面以几个实施例为例对本申请的技术方案进行描述,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的一种特征融合方法的流程示意图,本申请实施例提供了一种特征融合方法,该方法可以应用于特征融合的处理,且该方法可以由任意执行特征融合方法的装置来执行,该装置可以通过软件和/或硬件实现。如图2所示,在图1所示***架构的基础上,本申请实施例提供的特征融合方法包括如下步骤:
S201:获取待检测目标的目标特征,该目标特征包括目标图像特征和目标语音特征。
其中,上述待检测目标可以根据实际情况确定,例如以上述车辆行驶过程中,判断司机和乘客是否发生冲突为例,上述待检测目标可以为车辆内的司机和乘客。
上述目标图像特征的数量可以为一个或多个,具体可以根据实际情况确定。同理,上述目标语音特征的数量也可以为一个或多个,本申请实施例对此不做特别限制。
S202:将上述目标特征输入预设融合模型,其中,该预设融合模型通过参考特征和参考融合特征训练得到,该参考特征包括参考图像特征和参考语音特征。
其中,上述参考融合特征可以理解为参考真实特征。后续描述中出现的参考融合特征可以参考此处描述,后续不再赘述。
上述预设融合模型可以采用维度为AxB的全连接层,示例性的,如图3所示的10x1的全连接层。为了使输入预设融合模型的特征的维度与预设融合模型的维度相匹配,本申请实施例在将上述目标特征输入预设融合模型之前,还可以:确定上述目标特征的维度。如果上述维度与输入上述预设融合模型的预设特征维度不同,则根据上述预设特征维度,对上述目标特征进行维度拆分。进而,将维度拆分后的目标特征输入上述预设融合模型。
这里,以执行主体为上述网约车管理服务器为例。上述根据上述预设特征维度,对上述目标特征进行维度拆分可以包括:网约车管理服务器确定上述预设特征维度的行数和列数,例如如果预设融合模型采用维度为10x1的全连接层,则输入上述预设融合模型的预设特征维度为10x1,确定上述预设特征维度的行数为10,列数为1。如果上述目标图像特征有10个,目标语音特征有10个,即上述目标特征的维度为10x2,与输入上述预设融合模型的预设特征维度10x1不同,需要将上述目标特征的维度进行拆分。示例性的,网约车管理服务器根据上述预设特征维度的行数,对目标特征的行数进行拆分,以使拆分后的目标特征的行数等于预设特征维度的行数。和/或,网约车管理服务器根据上述预设特征维度的列数,对目标特征的列数进行拆分,以使拆分后的目标特征的列数等于预设特征维度的列数。这里,目标特征的维度为10x2,行数为10,列数为2。预设特征维度10x1,行数为10,列数为1。目标特征维度的行数与预设特征维度的行数相同,网约车管理服务器无需对目标特征的行数进行拆分,只将目标特征的列数进行拆分,即将目标特征的维度10x2拆成两个10x1。拆分后的目标特征的维度与输入上述预设融合模型的预设特征维度相同,然后网约车管理服务器可以将维度拆分后的目标特征输入上述预设融合模型。
S203:根据上述预设融合模型的输出,获得上述待检测目标的目标融合特征。
这里,如果上述网约车管理服务器在将上述目标特征输入预设融合模型之前,对上述目标特征进行了维度拆分,将维度拆分后的目标特征输入上述预设融合模型,这里,网约车管理服务器根据上述预设融合模型的输出,获得上述待检测目标的目标融合特征可以包括:获取上述预设融合模型输出的上述维度拆分后的目标特征对应的融合特征,对获取的融合特征进行维度合并,获得上述目标融合特征。
示例性的,上述网约车管理服务器利用预设融合模型进行特征融合的过程可以如图4所示,首先网约车管理服务器获取上述待检测目标的上述目标特征,输入上述预设融合模型,进而,获得上述待检测目标的目标融合特征。
在获得上述待检测目标的目标融合特征之后,上述网约车管理服务器可以根据该目标融合特征,对上述待检测目标进行检测,例如判断司机和乘客是否发生冲突。示例性的,上述网约车管理服务器可以将上述目标融合特征输入第四预设模型,其中,第四预设模型通过参考融合特征和参考状态训练得到。从而,上述网约车管理服务器获取第四预设模型输出的待检测目标的目标状态,实现对上述待检测目标的检测。
本申请实施例,网约车管理服务器首先获取待检测目标的目标图像特征和目标语音特征,然后利用融合模型对上述多个特征进行融合,获得上述待检测目标的融合特征,从而利用融合特征对待检测目标进行检测,例如判断司机和乘客是否发生冲突。其中,本申请实施例在进行目标检测时,不仅考虑待检测目标的图像特征,还考虑待检测目标的语音特征,即本申请实施例获取待检测目标的多个特征用于后续目标检测,解决了现有利用终端设备采集的图像进行目标检测误差率较高的问题,并且本申请实施例对待检测目标的图像特征和语音特征进行融合,融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。
这里,网约车管理服务器在将上述目标特征输入预设融合模型之前,需要对上述预设融合模型进行训练,以便后续将上述目标特征输入训练好的预设融合模型,根据预设融合模型的输出,获得上述待检测目标的目标融合特征。其中,在训练过程中,网约车管理服务器可以将上述参考特征输入预设融合模型,然后,根据预设融合模型输出的融合特征,以及上述参考语音特征,确定融合准确率。如果该融合准确率低于预设准确率阈值,网约车管理服务器可以根据上述融合准确率,调整上述预设融合模型,以提高上述融合准确率,将调整后的预设融合模型作为新的预设融合模型,重新执行上述将上述参考特征输入预设融合模型的步骤。
其中,上述参考特征包括参考图像特征和参考语音特征。该参考图像特征可以通过对参考图像进行特征提取获得。如果还以上述网约车为例,该参考图像可以通过网约车上搭载的预设图像采集装置,例如摄像头采集得到。或者,该参考图像通过司机或乘客的终端设备采集得到,例如通过司机的手机采集得到。或者,该参考图像通过行车记录仪、行车路线上的摄像头等采集得到。具体过程可以参照上述目标图像的获取过程,在此不再赘述。同样,上述参考语音特征可以通过对参考语音进行特征提取获得。该参考语音的获取过程可以参照上述目标语音的获取过程,在此不再赘述。
上述参考融合特征可以通过网约车管理服务器对上述参考特征进行加权平均获得。示例性的,如果上述参考特征包括参考图像特征和参考语音特征,参考图像特征的数量为多个,参考语音特征的数量也为多个。网约车管理服务器可以分别计算上述多个参考图像特征的加权平均值,以及上述多个参考语音特征的加权平均值,然后再将多个参考图像特征的加权平均值和多个参考语音特征的加权平均值,进行加权平均,获得上述参考融合特征。其中,在上述加权平均处理中的权重可以根据实际情况确定。
网约车管理服务器在将上述参考特征输入预设融合模型后,获取预设融合模型输出的融合特征,将获取的融合特征与上述参考融合特征进行比较。示例性的,比较两者特征相似度。网约车管理服务器根据比较得到的特征相似度,确定上述融合准确率。如果上述融合准确率低于预设准确率阈值,说明上述预设融合模型的特征融合效果较差,需要调整上述预设融合模型,以提高上述融合准确率,并将调整后的预设融合模型作为新的预设融合模型,重新执行上述步骤,直至确定的融合准确率高于或等于上述预设准确率阈值,停止训练。这里,上述预设准确率阈值可以根据实际情况设置,例如90%或95%等,本申请实施例对此不做特别限制。示例性的,上述预设融合模型的训练过程可以如图5所示,首先网约车管理服务器获取训练样本,该训练样本包括上述参考特征。然后网约车管理服务器利用上述训练样本训练预设融合模型,即将上述参考特征输入预设融合模型,根据预设融合模型输出的融合特征,以及上述参考融合特征,确定融合准确率,直至该融合准确率大于或等于预设准确率阈值,停止训练,得到训练好的预设融合模型。
另外,上述网约车管理服务器在将上述目标融合特征输入第四预设模型之前,也需要对上述第四预设模型进行训练,以便后续将上述目标融合特征输入训练好的第四预设模型,获取第四预设模型输出的待检测目标的目标状态,实现对上述待检测目标的检测。其中,以上述判断司机和乘客是否发生冲突为例,在训练过程中,上述第四预设模型输入参考融合特征,输出司机和乘客的状态,例如发生冲突或没有发生冲突。示例性的,上述网约车管理服务器将上述参考融合特征输入第四预设模型,然后,确定第四预设模型输出的司机和乘客的状态,与上述参考状态是否相同。如果不相同,则调整上述第四预设模型,以使第四预设模型输出的司机和乘客的状态为上述参考状态。其中,上述参考状态可以为上述司机和乘客的真实状态,例如发生冲突或没有发生冲突。
在本申请实施例中,上述目标特征除包括上述目标图像特征和目标语音特征外,还可以包括目标文本特征。上述网约车管理服务器在获取待检测目标的目标特征时,考虑利用预设模型获取目标特征。图6为本申请实施例提出的另一种特征融合方法的流程示意图。如图6所示,该方法包括:
S601:将待检测目标的目标图像输入第一预设模型,其中,第一预设模型通过参考图像和参考图像特征训练得到。
其中,以执行主体为上述网约车管理服务器为例。网约车管理服务器可以获取待检测目标的多个图像。例如以待检测目标为车辆内司机和乘客为例,网约车管理服务器可以获取车辆内司机和乘客的多个图像,然后对获取的多个图像进行筛选,获得符合预设图像要求的图像作为目标图像。其中,上述预设图像要求可以包括:图像无遮挡和图像清晰度达到预设清晰度阈值等。
示例性的,网约车管理服务器在对获取的多个图像进行筛选时,可以利用预设图像筛选模型。即网约车管理服务器将上述获取的多个图像输入预设图像筛选模型,获取该预设图像筛选模型输出的上述目标图像。其中,上述图像筛选模型通过多个参考图像和参考目标图像训练得到。
这里,网约车管理服务器从上述获取的多个图像中筛选出图像无遮挡和图像清晰度达到预设清晰度阈值的图像作为目标图像,从而,可以使后续基于上述目标图像获取的目标图像特征更加准确,提高后续处理结果的准确性。
S602:获取第一预设模型输出的目标图像特征。
S603:将待检测目标的目标语音输入第二预设模型,其中,第二预设模型通过参考语音和参考语音特征训练得到。
在本申请实施例中,网约车管理服务器可以获取待检测目标的多个语音。例如还以待检测目标为车辆内司机和乘客为例,网约车管理服务器可以获取车辆内司机和乘客的多个语音,然后对获取的多个语音进行筛选,获得符合预设语音要求的语音作为目标语音。其中,上述预设语音要求可以包括:语音延时低于预设延时阈值和语音抖动低于预设抖动阈值等。
示例性的,网约车管理服务器在对获取的多个语音进行筛选时,可以利用预设语音筛选模型。即网约车管理服务器将上述获取的多个语音输入预设语音筛选模型,获取该预设语音筛选模型输出的上述目标语音。其中,上述语音筛选模型通过多个参考语音和参考目标语音训练得到。
这里,网约车管理服务器从上述获取的多个语音中筛选出低延时和低抖动的语音作为目标语音,保证后续处理结果的准确性。
S604:获取第二预设模型输出的目标语音特征。
S605:将待检测目标的目标文本输入第三预设模型,其中,第三预设模型通过参考文本和参考文本特征训练得到。
其中,网约车管理服务器可以获取待检测目标的多个文本。例如还以待检测目标为车辆内司机和乘客为例,网约车管理服务器可以获取车辆内司机和乘客的多个文本,然后对获取的多个文本进行筛选,获得符合预设文本要求的文本作为目标文本。其中,上述预设文本要求可以包括:携带预设关键字。该预设关键字可以通过司机和乘客发生冲突时获取的文本确定。
示例性的,网约车管理服务器在对获取的多个文本进行筛选时,可以利用预设文本筛选模型。即网约车管理服务器将上述获取的多个文本输入预设文本筛选模型,获取该预设文本筛选模型输出的上述目标文本。其中,上述文本筛选模型通过多个参考文本和参考目标文本训练得到。
这里,网约车管理服务器从上述获取的多个文本中筛选出携带预设关键字的文本作为目标文本,从而提高后续目标检测结果的准确性。
S606:获取第三预设模型输出的目标文本特征。
S607:将上述目标图像特征、目标语音特征和目标文本特征输入预设融合模型,其中,该预设融合模型通过参考特征和参考融合特征训练得到,该参考特征包括参考图像特征、参考语音特征和参考文本特征。
S608:根据上述预设融合模型的输出,获得上述待检测目标的目标融合特征。
其中,步骤S607-S608与上述步骤S202-S203的实现方式相同,此处不再赘述。
本申请实施例在获取待检测目标的目标特征时,考虑利用预设模型获取目标特征,简单、快速,适合应用。另外,本申请实施例在进行目标检测时,不仅考虑待检测目标的图像特征,还考虑待检测目标的语音特征,即本申请实施例获取待检测目标的多个特征用于后续目标检测,解决了现有利用终端设备采集的图像进行目标检测误差率较高的问题,并且本申请实施例对待检测目标的图像特征和语音特征进行融合,融合特征中包含的信息更丰富,进一步提高了后续目标检测结果的准确率。
这里,网约车管理服务器在将待检测目标的目标图像输入第一预设模型之前,需要对第一预设模型进行训练,以便后续将上述目标图像输入训练好的第一预设模型,获得第一预设模型输出的目标图像特征。在训练过程中,网约车管理服务器可以将上述参考图像输入第一预设模型,然后,根据第一预设模型输出的图像特征,以及上述参考图像特征,确定输出准确率。如果该输出准确率低于预设准确率阈值,网约车管理服务器可以根据上述输出准确率,调整上述第一预设模型,以提高上述输出准确率,将调整后的第一预设模型作为新的第一预设模型,重新执行上述将上述目标图像输入第一预设模型的步骤。
其中,上述参考图像特征可以通过对上述参考图像进行特征提取获得,示例性的,网约车管理服务器可以利用方向梯度直方图等技术对上述参考图像进行特征提取,获得上述参考图像特征。
网约车管理服务器在将上述参考图像输入第一预设模型后,获取第一预设模型输出的图像特征,将获取的图像特征与上述参考图像特征进行比较。示例性的,比较两者特征相似度。网约车管理服务器根据比较得到的特征相似度,确定上述输出准确率。如果上述输出准确率低于预设准确率阈值,说明上述第一预设模型的特征提取效果较差,需要调整上述第一预设模型,以提高上述输出准确率,并将调整后的第一预设模型作为新的第一预设模型,重新执行上述步骤,直至确定的输出准确率高于或等于上述预设准确率阈值,停止训练。
同样,网约车管理服务器在将待检测目标的目标语音输入第二预设模型之前,需要对第二预设模型进行训练;在将待检测目标的目标文本输入第三预设模型之前,也需要对第三预设模型进行训练。这里,第二预设模型和第三预设模型的训练过程可以参见上述第一预设模型的训练过程,在此不再赘述。
其中,上述参考语音特征可以通过对上述参考语音进行特征提取获得,示例性的,网约车管理服务器可以利用离散小波变换等技术对上述参考语音进行特征提取,获得上述参考语音特征。上述参考文本特征可以通过对上述参考文本进行特征提取获得。网约车管理服务器可以利用TF-IDF算法等对上述参考文本进行特征提取,获得上述参考文本特征。
另外,网约车管理服务器在对上述获取的多个图像进行筛选时,可以利用预设图像筛选模型。因此,网约车管理服务器在利用预设图像筛选模型,对上述获取的多个图像进行筛选之前,需要对预设图像筛选模型进行训练。在训练过程中,网约车管理服务器可以将上述多个参考图像输入预设图像筛选模型,然后,确定预设图像筛选模型输出的图像与上述参考目标图像是否相同。如果不同,网约车管理服务器可以调整上述预设图像筛选模型,以使预设图像筛选模型输出的图像为上述参考目标图像。其中,上述参考目标图像可以为上述多个参考图像中图像无遮挡,且图像清晰度达到预设清晰度阈值的图像。
同样,网约车管理服务器在利用预设语音筛选模型,对上述获取的多个语音进行筛选之前,需要对预设语音筛选模型进行训练;在利用预设文本筛选模型,对上述获取的多个文本进行筛选之前,需要对预设文本筛选模型进行训练。这里,预设语音筛选模型和预设文本筛选模型的训练过程可以参见上述预设图像筛选模型的训练过程,在此不再赘述。
其中,上述参考目标语音可以为上述多个参考语音中低延时和低抖动的语音。上述参考目标文本可以为上述多个参考文本中携带预设关键字的文本。
对应于上文实施例的特征融合方法,图7为本申请实施例提供的特征融合装置的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分。图7为本申请实施例提供的一种特征融合装置的结构示意图,该特征融合装置70包括:特征获取模块701、特征输入模块702以及融合特征获得模块703。这里的特征融合装置可以是上述处理装置本身,或者是实现处理装置的功能的芯片或者集成电路。这里需要说明的是,特征获取模块、特征输入模块以及融合特征获得模块的划分只是一种逻辑功能的划分,物理上两者可以是集成的,也可以是独立的。
其中,特征获取模块701,用于获取待检测目标的目标特征,所述目标特征包括目标图像特征和目标语音特征。
特征输入模块702,用于将所述目标特征输入预设融合模型,其中,所述预设融合模型通过参考特征和参考融合特征训练得到,所述参考特征包括参考图像特征和参考语音特征。
融合特征获得模块703,用于根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征。
在一种可能的设计中,所述特征输入模块702,还用于:
确定所述目标特征的维度;
若所述维度与输入所述预设融合模型的预设特征维度不同,则根据所述预设特征维度,对所述目标特征进行维度拆分。
所述特征输入模块702,具体用于:
分别将维度拆分后的目标特征输入所述预设融合模型。
在一种可能的设计中,所述融合特征获得模块703,具体用于:
获取所述预设融合模型输出的所述维度拆分后的目标特征对应的融合特征;
对获取的融合特征进行维度合并,获得所述目标融合特征。
在一种可能的设计中,所述特征输入模块702,具体用于:
确定所述预设特征维度的行数和列数;
根据所述预设特征维度的行数,对所述目标特征的行数进行拆分,以使拆分后的目标特征的行数等于所述预设特征维度的行数;
根据所述预设特征维度的列数,对所述目标特征的列数进行拆分,以使拆分后的目标特征的列数等于所述预设特征维度的列数。
在一种可能的设计中,所述特征输入模块702,还用于:
将所述参考特征输入所述预设融合模型;
根据所述预设融合模型输出的融合特征,以及所述参考融合特征,确定融合准确率;
若所述融合准确率低于预设准确率阈值,则根据所述融合准确率,调整所述预设融合模型,以提高所述融合准确率,将调整后的预设融合模型作为新的预设融合模型,重新执行所述将所述参考特征输入所述预设融合模型的步骤。
在一种可能的设计中,所述特征获取模块701,具体用于:
将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型,其中,所述第一预设模型通过参考图像和参考图像特征训练得到,所述第二预设模型通过参考语音和参考语音特征训练得到;
获取所述第一预设模型输出的所述目标图像特征,以及所述第二预设模型输出的所述目标语音特征。
在一种可能的设计中,所述目标特征还包括目标文本特征。
所述特征获取模块701,还用于:
将所述待检测目标的目标文本输入第三预设模型,其中,所述第三预设模型通过参考文本和参考文本特征训练得到;
获取所述第三预设模型输出的所述目标文本特征。
在一种可能的设计中,所述融合特征获得模块703,还用于:
根据所述目标融合特征,对所述待检测目标进行检测。
在一种可能的设计中,所述融合特征获得模块703,具体用于:
将所述目标融合特征输入第四预设模型,其中,所述第四预设模型通过参考融合特征和参考状态训练得到;
获取所述第四预设模型输出的所述待检测目标的目标状态。
在一种可能的设计中,所述特征获取模块,还用于:
接收预设图像采集装置发送的所述目标图像。
在一种可能的设计中,所述特征获取模块,还用于:
接收所述待检测目标的终端设备发送的所述目标图像。
在一种可能的设计中,所述特征获取模块,还用于:
接收预设语音采集装置发送的所述目标语音。
在一种可能的设计中,所述特征获取模块,还用于:
接收所述待检测目标的终端设备发送的所述目标语音。
在一种可能的设计中,所述特征获取模块,还用于:
接收预设语音采集装置发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
在一种可能的设计中,所述特征获取模块,还用于:
接收所述待检测目标的终端设备发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
在一种可能的设计中,所述特征获取模块,还用于:
接收所述待检测目标的终端设备发送的所述目标文本。
本申请实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本申请实施例此处不再赘述。
可选地,图8示意性地提供本申请所述特征融合设备的一种可能的基本硬件架构。
参见图8,特征融合设备800包括至少一个处理器801以及通信接口803。进一步可选的,还可以包括存储器802和总线804。
其中,特征融合设备800可以是上述处理装置,本申请对此不作特别限制。特征融合设备800中,处理器801的数量可以是一个或多个,图8仅示意了其中一个处理器801。可选地,处理器801,可以是中央处理器(Central Processing Unit,CPU)、图形处理器(Graphics Processing Unit,GPU)或者数字信号处理(Digital Signal Process,DSP)。如果特征融合设备800具有多个处理器801,多个处理器801的类型可以不同,或者可以相同。可选地,特征融合设备800的多个处理器801还可以集成为多核处理器。
存储器802存储计算机指令和数据;存储器802可以存储实现本申请提供的上述特征融合方法所需的计算机指令和数据,例如,存储器802存储用于实现上述特征融合方法的步骤的指令。存储器802可以是以下存储介质的任一种或任一种组合:非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘),易失性存储器。
通信接口803可以为所述至少一个处理器提供信息输入/输出。也可以包括以下器件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
可选的,通信接口803还可以用于特征融合设备800与其它计算设备或者终端进行数据通信。
进一步可选的,图8用一条粗线表示总线804。总线804可以将处理器801与存储器802和通信接口803连接。这样,通过总线804,处理器801可以访问存储器802,还可以利用通信接口803与其它计算设备或者终端进行数据交互。
在本申请中,特征融合设备800执行存储器802中的计算机指令,使得特征融合设备800实现本申请提供的上述特征融合方法,或者使得特征融合设备800部署上述的特征融合装置。
从逻辑功能划分来看,示例性的,如图8所示,存储器802中可以包括特征获取模块701、特征输入模块702以及融合特征获得模块703。这里的包括仅仅涉及存储器中所存储的指令被执行时可以分别实现特征获取模块、特征输入模块以及融合特征获得模块的功能,而不限定是物理上的结构。
另外,上述的特征融合设备除了可以像上述图8通过软件实现外,也可以作为硬件模块,或者作为电路单元,通过硬件实现。
本申请提供一种计算机可读存储介质,所述计算机程序产品包括计算机指令,所述计算机指令指示计算设备执行本申请提供的上述特征融合方法。
本申请提供一种芯片,包括至少一个处理器和通信接口,所述通信接口为所述至少一个处理器提供信息输入和/或输出。进一步,所述芯片还可以包含至少一个存储器,所述存储器用于存储计算机指令。所述至少一个处理器用于调用并运行该计算机指令,以执行本申请提供的上述特征融合方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

Claims (19)

1.一种特征融合方法,其特征在于,包括:
获取待检测目标的目标特征,所述目标特征包括目标图像特征和目标语音特征;
将所述目标特征输入预设融合模型,其中,所述预设融合模型通过参考特征和参考融合特征训练得到,所述参考特征包括参考图像特征和参考语音特征;
根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标特征输入预设融合模型之前,还包括:
确定所述目标特征的维度;
若所述维度与输入所述预设融合模型的预设特征维度不同,则根据所述预设特征维度,对所述目标特征进行维度拆分;
所述将所述目标特征输入预设融合模型,包括:
分别将维度拆分后的目标特征输入所述预设融合模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征,包括:
获取所述预设融合模型输出的所述维度拆分后的目标特征对应的融合特征;
对获取的融合特征进行维度合并,获得所述目标融合特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述预设特征维度,对所述目标特征进行维度拆分;
确定所述预设特征维度的行数和列数;
根据所述预设特征维度的行数,对所述目标特征的行数进行拆分,以使拆分后的目标特征的行数等于所述预设特征维度的行数;
和/或,根据所述预设特征维度的列数,对所述目标特征的列数进行拆分,以使拆分后的目标特征的列数等于所述预设特征维度的列数。
5.根据权利要求1所述的方法,其特征在于,在所述将所述目标特征输入预设融合模型之前,还包括:
将所述参考特征输入所述预设融合模型;
根据所述预设融合模型输出的融合特征,以及所述参考融合特征,确定融合准确率;
若所述融合准确率低于预设准确率阈值,则根据所述融合准确率,调整所述预设融合模型,以提高所述融合准确率,将调整后的预设融合模型作为新的预设融合模型,重新执行所述将所述参考特征输入所述预设融合模型的步骤。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取待检测目标的目标特征,包括:
将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型,其中,所述第一预设模型通过参考图像和参考图像特征训练得到,所述第二预设模型通过参考语音和参考语音特征训练得到;
获取所述第一预设模型输出的所述目标图像特征,以及所述第二预设模型输出的所述目标语音特征。
7.根据权利要求6所述的方法,其特征在于,所述目标特征还包括目标文本特征;
所述获取待检测目标的目标特征,还包括:
将所述待检测目标的目标文本输入第三预设模型,其中,所述第三预设模型通过参考文本和参考文本特征训练得到;
获取所述第三预设模型输出的所述目标文本特征。
8.根据权利要求1至5中任一项所述的方法,其特征在于,在所述根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征之后,还包括:
根据所述目标融合特征,对所述待检测目标进行检测。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标融合特征,对所述待检测目标进行检测,包括:
将所述目标融合特征输入第四预设模型,其中,所述第四预设模型通过参考融合特征和参考状态训练得到;
获取所述第四预设模型输出的所述待检测目标的目标状态。
10.根据权利要求6所述的方法,其特征在于,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收预设图像采集装置发送的所述目标图像。
11.根据权利要求6所述的方法,其特征在于,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标图像。
12.根据权利要求6所述的方法,其特征在于,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收预设语音采集装置发送的所述目标语音。
13.根据权利要求6所述的方法,其特征在于,在所述将所述待检测目标的目标图像输入第一预设模型,所述待检测目标的目标语音输入第二预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标语音。
14.根据权利要求7所述的方法,其特征在于,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收预设语音采集装置发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
15.根据权利要求7所述的方法,其特征在于,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述待检测目标的语音,并将接收的语音转换为所述目标文本。
16.根据权利要求7所述的方法,其特征在于,在所述将所述待检测目标的目标文本输入第三预设模型之前,还包括:
接收所述待检测目标的终端设备发送的所述目标文本。
17.一种特征融合装置,其特征在于,包括:
特征获取模块,用于获取待检测目标的目标特征,所述目标特征包括目标图像特征和目标语音特征;
特征输入模块,用于将所述目标特征输入预设融合模型,其中,所述预设融合模型通过参考特征和参考融合特征训练得到,所述参考特征包括参考图像特征和参考语音特征;
融合特征获得模块,用于根据所述预设融合模型的输出,获得所述待检测目标的目标融合特征。
18.一种特征融合设备,其特征在于,包括:
处理器;
存储器;以及
计算机程序;
其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-16任一项所述的方法的指令。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得服务器执行权利要求1-16任一项所述的方法。
CN202011181418.9A 2020-10-29 2020-10-29 特征融合方法、装置及存储介质 Pending CN112307948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011181418.9A CN112307948A (zh) 2020-10-29 2020-10-29 特征融合方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011181418.9A CN112307948A (zh) 2020-10-29 2020-10-29 特征融合方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112307948A true CN112307948A (zh) 2021-02-02

Family

ID=74331662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011181418.9A Pending CN112307948A (zh) 2020-10-29 2020-10-29 特征融合方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112307948A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN114373448A (zh) * 2022-03-22 2022-04-19 北京沃丰时代数据科技有限公司 话题检测方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361462A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN113361462B (zh) * 2021-06-30 2022-11-08 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN114373448A (zh) * 2022-03-22 2022-04-19 北京沃丰时代数据科技有限公司 话题检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
KR102418446B1 (ko) 픽쳐 기반의 차량 손해 평가 방법 및 장치, 및 전자 디바이스
KR20190060817A (ko) 이미지 기반의 차량 손상 판정 방법과 장치, 및 전자기기
JP2020517015A (ja) ピクチャベースの車両損害査定の方法および装置、ならびに電子デバイス
CN109740573B (zh) 视频分析方法、装置、设备及服务器
CN111372037B (zh) 目标抓拍***和方法
CN110276257B (zh) 人脸识别方法、装置、***、服务器及可读存储介质
CN112307948A (zh) 特征融合方法、装置及存储介质
CN110084113B (zh) 活体检测方法、装置、***、服务器及可读存储介质
CN110031697B (zh) 目标识别设备的测试方法、装置、***和计算机可读介质
CN112528940B (zh) 驾驶员行为识别模型的训练方法、识别方法及装置
CN112507314B (zh) 客户身份核实方法、装置、电子设备及存储介质
CN111539358A (zh) 工作状态确定方法、装置、计算机设备和存储介质
US11120308B2 (en) Vehicle damage detection method based on image analysis, electronic device and storage medium
JP6387838B2 (ja) 交通違反管理システムおよび交通違反管理方法
CN112233428A (zh) 车流量预测方法、装置、存储介质及设备
CN110807394A (zh) 情绪识别方法、试驾体验评估方法、装置、设备与介质
CN110443221A (zh) 一种车牌识别方法及***
CN112052780A (zh) 人脸验证方法、装置、***及存储介质
CN111339949A (zh) 车牌识别的方法、装置及巡检车
CN110110141B (zh) 摄像机列表排序方法、装置及监控管理平台
CN112560685A (zh) 人脸表情识别方法、装置及存储介质
CN109698900B (zh) 一种数据处理方法、装置及监控***
CN104067606A (zh) 照相机、照相机***及自诊断方法
CN113537087A (zh) 一种智慧交通信息处理方法、装置及服务器
CN111145558B (zh) 一种基于高点视频监控的违法行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination