CN113239901A - 场景识别方法、装置、设备及存储介质 - Google Patents

场景识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113239901A
CN113239901A CN202110674250.3A CN202110674250A CN113239901A CN 113239901 A CN113239901 A CN 113239901A CN 202110674250 A CN202110674250 A CN 202110674250A CN 113239901 A CN113239901 A CN 113239901A
Authority
CN
China
Prior art keywords
scene
sequence
driving
network
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110674250.3A
Other languages
English (en)
Other versions
CN113239901B (zh
Inventor
李潇
丁曙光
杜挺
袁克彬
任冬淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110674250.3A priority Critical patent/CN113239901B/zh
Publication of CN113239901A publication Critical patent/CN113239901A/zh
Application granted granted Critical
Publication of CN113239901B publication Critical patent/CN113239901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请提供了一种场景识别方法、装置、设备及存储介质,属于计算机技术领域。方法包括:调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到第二场景序列;基于第二场景序列和第一驾驶场景的第三场景序列,训练场景特征提取网络和场景预测网络;调用训练后的场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;基于第二驾驶场景的场景类别标签和预测类别标签,训练场景分类网络;获取场景识别模型,场景识别模型包括训练后的场景特征提取网络和训练后的场景分类网络。上述方法能够获取到场景识别模型,通过该场景识别模型进行场景识别,能够提高场景识别的准确率。

Description

场景识别方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种场景识别方法、装置、设备及存储介质。
背景技术
场景理解在自动驾驶领域扮演了重要角色。场景理解是指辨识不同的驾驶场景,例如,超车、会车、跟车等驾驶场景。只有做到准确的场景理解,才能针对性地确定驾驶策略,保证自动驾驶的安全性。
相关技术中,一般通过条件来确定驾驶场景的场景类别,即判断驾驶场景对应的场景数据是否符合某个场景类别对应的条件,若符合,就将该场景类别确定为该驾驶场景的场景类别。然而,由于进行场景识别的条件是人为设计的,受到人为经验的限制,导致场景识别的准确率低。
发明内容
本申请实施例提供了一种场景识别方法、装置、设备及存储介质,能够获取到场景识别模型,通过该场景识别模型进行场景识别,能够提高场景识别的准确率。所述技术方案如下:
一方面,提供了一种场景识别方法,所述方法包括:
调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,所述第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,所述第二场景序列包括在第二时间段内的至少一个时刻对应的预测场景数据,所述第一时间段早于所述第二时间段;
基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,所述第三场景序列包括在所述第二时间段内的至少一个时刻对应的样本场景数据;
调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;
基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络;
获取场景识别模型,所述场景识别模型包括训练后的所述场景特征提取网络和训练后的所述场景分类网络。
在一种可能的实现方式中,所述调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,包括:
调用所述场景特征提取网络,对所述第一场景序列进行特征提取,得到第一场景特征;
调用所述场景预测网络,基于所述第一场景特征进行场景预测,得到所述第二场景序列。
在一种可能的实现方式中,所述基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,包括:
基于所述第二场景序列和所述第三场景序列,确定第一损失值,所述第一损失值用于表示所述第二场景序列与所述第三场景序列之间的相似度;
基于所述第一损失值,训练所述场景特征提取网络和所述场景预测网络。
在一种可能的实现方式中,所述调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签,包括:
调用训练后的所述场景特征提取网络,对所述第二驾驶场景的场景序列进行特征提取,得到第二场景特征;
调用所述场景分类网络,基于所述第二场景特征进行场景分类,得到所述预测类别标签。
在一种可能的实现方式中,所述基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络,包括:
基于所述场景类别标签和所述预测类别标签,确定第二损失值,所述第二损失值用于表示所述场景类别标签与所述预测类别标签之间的相似度;
基于所述第二损失值,训练所述场景分类网络。
在一种可能的实现方式中,所述第一场景序列中,任一时刻对应的所述样本场景数据包括:所述第一驾驶场景中的自动驾驶车辆在所述时刻对应的第一状态数据、所述自动驾驶车辆周围的目标车辆在所述时刻对应的第二状态数据,以及以所述自动驾驶车辆为参考,所述目标车辆的相对位置数据。
在一种可能的实现方式中,所述任一时刻对应的所述样本场景数据还包括目标图像,所述方法还包括:
基于所述时刻对应的所述第一状态数据、所述第二状态数据以及所述相对位置数据,绘制所述时刻对应的目标图像,所述目标图像用于表示在所述时刻,所述自动驾驶车辆与所述目标车辆的姿态,以及所述自动驾驶车辆与所述目标车辆的相对位置关系。
在一种可能的实现方式中,所述方法还包括:
对于所述任一时刻,将所述自动驾驶车辆所处的目标区域划分为9个网格,以使所述自动驾驶车辆处于所述目标区域的中间的网格;
确定所述9个网格的网格标识;
确定所述自动驾驶车辆所处网格的第一网格标识,以及所述目标车辆所处网格的第二网格标识;
将所述第一网格标识和所述第二网格标识,确定为所述相对位置数据。
在一种可能的实现方式中,所述目标车辆为所述自动驾驶车辆周围的目标数量的车辆,所述目标车辆距离所述自动驾驶车辆的距离小于所述第一驾驶场景中的其他车辆距离所述自动驾驶车辆的距离。
在一种可能的实现方式中,所述方法还包括:
调用所述场景识别模型,识别任一驾驶场景的场景类别。
在一种可能的实现方式中,所述调用所述场景识别模型,识别任一驾驶场景的场景类别,包括:
获取所述任一驾驶场景的场景序列;
调用所述场景识别模型,基于所述驾驶场景的场景序列进行场景分类,得到所述驾驶场景的场景类别标签。
另一方面,提供了一种场景识别装置,所述装置包括:
场景预测模块,被配置为调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,所述第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,所述第二场景序列包括在第二时间段内的至少一个时刻对应的预测场景数据,所述第一时间段早于所述第二时间段;
第一训练模块,被配置为基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,所述第三场景序列包括在所述第二时间段内的至少一个时刻对应的样本场景数据;
场景分类模块,被配置为调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;
第二训练模块,被配置为基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络;
模型获取模块,被配置为获取场景识别模型,所述场景识别模型包括训练后的所述场景特征提取网络和训练后的所述场景分类网络。
在一种可能的实现方式中,所述场景预测模块,被配置为调用所述场景特征提取网络,对所述第一场景序列进行特征提取,得到第一场景特征;调用所述场景预测网络,基于所述第一场景特征进行场景预测,得到所述第二场景序列。
在一种可能的实现方式中,所述第一训练模块,被配置为基于所述第二场景序列和所述第三场景序列,确定第一损失值,所述第一损失值用于表示所述第二场景序列与所述第三场景序列之间的相似度;基于所述第一损失值,训练所述场景特征提取网络和所述场景预测网络。
在一种可能的实现方式中,所述场景分类模块,被配置为调用训练后的所述场景特征提取网络,对所述第二驾驶场景的场景序列进行特征提取,得到第二场景特征;调用所述场景分类网络,基于所述第二场景特征进行场景分类,得到所述预测类别标签。
在一种可能的实现方式中,所述第二训练模块,被配置为基于所述场景类别标签和所述预测类别标签,确定第二损失值,所述第二损失值用于表示所述场景类别标签与所述预测类别标签之间的相似度;基于所述第二损失值,训练所述场景分类网络。
在一种可能的实现方式中,所述第一场景序列中,任一时刻对应的所述样本场景数据包括:所述第一驾驶场景中的自动驾驶车辆在所述时刻对应的第一状态数据、所述自动驾驶车辆周围的目标车辆在所述时刻对应的第二状态数据,以及以所述自动驾驶车辆为参考,所述目标车辆的相对位置数据。
在一种可能的实现方式中,所述任一时刻对应的所述样本场景数据还包括目标图像,所述装置还包括:图像获取模块,被配置为基于所述时刻对应的所述第一状态数据、所述第二状态数据以及所述相对位置数据,绘制所述时刻对应的目标图像,所述目标图像用于表示在所述时刻,所述自动驾驶车辆与所述目标车辆的姿态,以及所述自动驾驶车辆与所述目标车辆的相对位置关系。
在一种可能的实现方式中,所述装置还包括:
位置数据获取模块,被配置为对于所述任一时刻,将所述自动驾驶车辆所处的目标区域划分为9个网格,以使所述自动驾驶车辆处于所述目标区域的中间的网格;确定所述9个网格的网格标识;确定所述自动驾驶车辆所处网格的第一网格标识,以及所述目标车辆所处网格的第二网格标识;将所述第一网格标识和所述第二网格标识,确定为所述相对位置数据。
在一种可能的实现方式中,所述目标车辆为所述自动驾驶车辆周围的目标数量的车辆,所述目标车辆距离所述自动驾驶车辆的距离小于所述第一驾驶场景中的其他车辆距离所述自动驾驶车辆的距离。
在一种可能的实现方式中,所述装置还包括:
场景识别模块,被配置为调用所述场景识别模型,识别任一驾驶场景的场景类别。
在一种可能的实现方式中,所述场景识别模块,被配置为获取所述任一驾驶场景的场景序列;调用所述场景识别模型,基于所述驾驶场景的场景序列进行场景分类,得到所述驾驶场景的场景类别标签。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述程序代码由所述处理器加载并执行以实现上述任一种可能实现方式中的场景识别方法中执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的场景识别方法中执行的操作。
另一方面,提供了一种计算机程序产品,所述计算机程序产品中包括至少一条程序代码,所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的场景识别方法中执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,不是通过人为设计的条件来识别驾驶场景的类别,而是通过样本场景数据训练场景识别模型,以使场景识别模型学习到不同的驾驶场景的场景特征,从而能够辨识不同的驾驶场景,这样就能够摆脱人为经验的限制,提高场景识别的准确率。并且,在训练场景识别模型时,对于场景识别模型中的场景特征提取网络和场景分类网络,分为两个阶段来训练,在第一个训练阶段,通过无需标注的第一驾驶场景的数据训练场景特征提取网络,使场景识别模型能够提取场景特征,在第二个训练阶段,通过需要标注场景类别标签的第二驾驶场景的数据对场景分类网络进行训练,使场景识别模型能够基于场景特征进行场景分类,这样不仅能够保证场景识别模型的训练效果,还能够降低训练数据的标注量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种场景识别方法的流程图;
图3是本申请实施例提供的一种自动驾驶车辆所处的目标区域的示意图;
图4是本申请实施例提供的一种目标图像的示意图;
图5是本申请实施例提供的一种目标图像的示意图;
图6是本申请实施例提供的一种目标图像的示意图;
图7是本申请实施例提供的一种场景识别模型的训练过程的示意图;
图8是本申请实施例提供的第一训练阶段的数据处理过程的示意图;
图9是本申请实施例提供的第二训练阶段的数据处理过程的示意图;
图10是本申请实施例提供的一种场景识别装置的框图;
图11是本申请实施例提供的一种终端的结构示意图;
图12是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一场景序列称为场景序列,且类似地,可将第二场景序列称为第一场景序列。
本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”,至少一个包括一个、两个或两个以上,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个时刻包括3个时刻,而每个是指这3个时刻中的每一个时刻,任一是指这3个时刻中的任意一个,可以是第一个,可以是第二个、也可以是第三个。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。可选地,终端101为电脑、手机、平板电脑或者其他终端。可选地,服务器102为后台服务器或者为提供云计算以及云存储等服务的云服务器。
可选地,终端101上安装有由服务器102提供服务的目标应用,终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地,目标应用为终端101操作***中的目标应用,或者为第三方提供的目标应用。该目标应用具有场景识别的功能,即能够识别驾驶场景的类别。可选地,当然,该目标应用还能够具有其他功能,例如,基于驾驶场景进行仿真测试等。可选地,该目标应用为仿真应用或者其他应用,本申请实施例对此不做限制。
本申请实施例中,终端101或者服务器102用于训练场景识别模型,通过训练后的场景识别模型,进行场景识别。例如,终端101或者服务器102训练得到场景识别模型后,将该场景识别模型进行分享,则终端101和服务器102都能够通过场景识别模型进行场景识别。或者,服务器102训练得到场景识别模型后,不将场景识别模型分享给终端101,当终端101需要确定某个驾驶场景的场景类别时,将该驾驶场景的场景序列上传服务器102,由服务器102基于该场景序列进行场景识别,将识别出的场景类别返回给终端101。
需要说明的是,本申请实施例仅以实施环境中包括终端101和服务器102为例进行说明,在其他实施例中,实施环境中仅包括终端101或者服务器102。由终端101或者服务器102来实现场景识别模型的训练以及场景识别。
本申请提供的场景识别方法能够应用于自动驾驶场景下,例如,服务器通过本申请提供的方法训练得到场景识别模型后,将该场景识别模型发送给自动驾驶车辆中的终端,在自动驾驶车辆的驾驶过程中,终端调用存储的场景识别模型实时对当前的驾驶场景进行识别,基于场景识别结果确定驾驶策略。又如,服务器训练该场景识别模型后,将该场景识别模型的调用接口提供给自动驾驶车辆中的终端,在自动驾驶车辆的驾驶过程中,终端通过实时调用服务器提供的调用接口,来调用该场景识别模型进行场景识别,基于场景识别结果确定驾驶策略。当然,本申请实施例提供的场景识别方法还能够应用在其他场景下,本申请实施例对此不做限制。
图2是本申请实施例提供的一种场景识别方法的流程图。参见图2,该实施例包括:
201、服务器调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到第一驾驶场景的第二场景序列。
场景特征提取网络用于提取驾驶场景的场景数据中的场景特征。场景预测网络用于基于驾驶场景在历史时刻对应的场景数据的场景特征,预测驾驶场景在未来时刻对应的场景数据。
驾驶场景中包括场景元素,场景元素为构成驾驶场景的对象。场景元素包括动态的场景元素和静态的场景元素。其中,动态的场景元素是指在场景中能够移动的元素,例如,路上的行人、车辆等。静态的场景元素是指在驾驶场景中不能移动的元素,例如,路障、树木等。场景元素具有对应的状态数据,该状态数据用于指示场景元素的状态。例如,对于车辆这种场景元素来说,其状态数据包括速度、加速度、方向、位置等数据。
驾驶场景是与时间段对应的,在时间段中的不同时刻,驾驶场景中的场景元素的状态数据可能会发生变化,例如,在前一时刻该驾驶场景中的某个车辆的速度为50公里/小时,在当前时刻,该车辆的速度变为60公里/小时。又如,在前一时刻,驾驶场景中的另一个车辆与自动驾驶车辆分别行驶在双车道的两个车道中,而在当前时刻,该另一个车辆从自动驾驶车辆的前方汇入自动驾驶车辆所在的车道。
在本申请实施例中,将驾驶场景在一个时间段内的至少一个时刻对应的场景数据所构成的序列,称为该驾驶场景在该时间段对应的场景序列。相应的,驾驶场景在某个时间段对应的场景序列包括:该驾驶场景在该时间段内的至少一个时刻对应的场景数据。第一场景序列包括第一驾驶场景在第一时间段内的至少一个时刻对应的样本场景数据。例如,第一场景序列包括第一驾驶场景在第一时间段内的三个时刻对应的样本场景数据。第二场景序列包括第一驾驶场景在第二时间段内的至少一个时刻对应的预测场景数据。例如,第二场景序列包括第一驾驶场景在第二时间段内的两个时刻对应的预测场景数据。其中,第一时间段早于第二时间段。样本场景数据是第一驾驶场景实际的场景数据,预测场景数据是由场景特征提取网络和场景预测网络所预测的第一驾驶场景的场景数据,并不是第一驾驶场景实际的场景数据。
在一种可能的实现方式中,第一场景序列中,任一时刻对应的样本场景数据包括:第一驾驶场景中的自动驾驶车辆在该时刻对应的第一状态数据、自动驾驶车辆周围的目标车辆在该时刻对应的第二状态数据,以及在该时刻目标车辆的相对位置数据,该相对位置数据是以自动驾驶车辆为参考。
可选地,第一状态数据包括自动驾驶车辆在该时刻的速度、加速度、方向、位置等。可选地,第二状态数据包括目标车辆在该时刻的速度、加速度、方向、位置等。其中,速度包括横向速度和纵向速度。加速度包括横向加速度和纵向加速度。横向就是与车辆行驶方向垂直的方向,纵向是指车辆行驶的方向。可选地,目标车辆的相对位置数据为任意形式,例如,以自动驾驶车辆为参考,将自动驾驶车辆的左前方、前方、右前方、左方、左后方、后方、右后方或右方作为目标车辆的位置,则该目标车辆的位置即为以自动驾驶车辆为参考的相对位置数据。又如,以自动驾驶车辆所在位置作为表盘的中心位置,将自动驾驶车辆的1点钟方向至12点钟方向中的其中一个方向作为目标车辆的位置,则该目标车辆的位置即为以自动驾驶车辆为参考的相对位置数据。
在一种可能的实现方式中,将自动驾驶车辆所在的区域划分为多个网格,基于网格标识确定相对位置数据,也即是,对于任一时刻,服务器将自动驾驶车辆所处的目标区域划分为9个网格,以使自动驾驶车辆处于目标区域的中间的网格;确定9个网格的网格标识;确定自动驾驶车辆所处网格的第一网格标识,以及目标车辆所处网格的第二网格标识;将第一网格标识和第二网格标识,确定为该相对位置数据。
参考图3,自动驾驶车辆所在的区域划分为9个网格,其中,自动驾驶车辆所处的网格的第一网格标识为数字5,则当一个目标车辆所处网格的第二网格标识为6时,将5和6确定为以自动驾驶车辆为参考,该目标车辆的相对位置数据。其中,在每个时刻,服务器确定9个网格的网格标识的方式不变。例如,继续参考图3,服务器将目标区域的中间的网格的网格标识确定为1,将中间网格的沿车道方向上的相邻网格的网格标识确定为2,也即是即按照图3所示的方式来确定这9个网格的网格标识,则在每个时刻,对于自动驾驶车辆所处目标区域中的9个网格,都是采用图3所示的方式来确定网格标识。由于每个时刻,目标区域中的9个网格的网格标识的确定方式是不变的,因此,自动驾驶车辆和目标车辆对应的网格标识能够表明以自动驾驶车辆为参考,目标车辆的相对位置。
继续参考图3,自动驾驶车辆所处网格的网格标识5对应的位置坐标为(ego_starts_s,ego_end_s,ego_start_l,ego_end_l),其中包括四个坐标值,则以该位置坐标为参考,该目标区域中的各个网格标识对应的目标车辆的位置坐标能够通过下述公式(1)来定义。
Figure BDA0003120423660000111
其中,
Figure BDA0003120423660000112
表示在t时刻第i个目标车辆的位置坐标,
Figure BDA0003120423660000113
表示第i个目标车辆的第一个坐标值,
Figure BDA0003120423660000114
表示第i个目标车辆的第二个坐标值,
Figure BDA0003120423660000115
表示第i个目标车辆的第三个坐标值,
Figure BDA0003120423660000116
表示第i个目标车辆的第四个坐标值,
Figure BDA0003120423660000117
表示自动驾驶车辆的第一个坐标值,
Figure BDA0003120423660000118
表示自动驾驶车辆的第二个坐标值,
Figure BDA0003120423660000119
表示自动驾驶车辆的第三个坐标值,
Figure BDA00031204236600001110
表示自动驾驶车辆的第四个坐标值。
在本申请实施例中,通过将目标车辆所在的目标区域划分为9个网格,以自动驾驶车辆和目标车辆所处网格的网格标识来表示以自动驾驶车辆为参考,目标车辆的相对位置数据,该相对位置数据的表示形式简单,易于实现,且能够清楚地表明自动驾驶车辆与目标车辆的相对位置关系。
在一种可能的实现方式中,目标车辆为自动驾驶车辆周围的目标数量的车辆,该目标车辆距离自动驾驶车辆的距离小于第一驾驶场景中的其他车辆距离自动驾驶车辆的距离。可选地,目标数量为任意数量,例如8。
在本申请实施例中,由于驾驶场景的类别取决于自动驾驶车辆与该驾驶场景中的场景元素的交互行为,而驾驶场景中距离自动驾驶车辆较近的车辆与自动驾驶车辆的交互行为较多,因此,将第一驾驶场景中距离自动驾驶车辆较近的目标数量的车辆确定为目标车辆,基于该目标车辆的状态数据和相对位置数据,确定的驾驶场景的场景类别更加准确。
在一种可能的实现方式中,任一时刻对应的样本场景数据还包括目标图像,该目标图像的获取过程包括:服务器基于该时刻对应的第一状态数据、第二状态数据以及相对位置数据,绘制该时刻对应的目标图像,该目标图像用于表示在该时刻,自动驾驶车辆与目标车辆的姿态,以及自动驾驶车辆与目标车辆的相对位置关系。
可选地,目标图像为任意形式的图像。可选地,目标图像为俯视图。参考图4,图4为目标图像的示意图。其中,该目标图像中包括三个车辆,其中自动驾驶车辆行驶在双车道的其中一个车道,一个目标车辆行驶在双车道的另一车道,自动驾驶车辆前方的目标车辆横跨两个车道,表示该目标车辆正在进行变道。可选地,目标图像为鸟瞰图。参考图5,图5为目标图像的示意图。其中,该目标图像中包括5个车辆,其中4个目标车辆并列停在车库中,自动驾驶车辆正在进行倒车入库。参考图6,图6为目标图像的示意图。其中,该目标图像包括两个车辆,自动驾驶车辆和目标车辆行驶在同一车道,且自动驾驶车辆行驶在该目标车辆的后方,且自动驾驶车辆的方向偏向另一车道,表示自动驾驶车辆正在进行变道超车。
在本申请实施例中,通过任一时刻自动驾驶车辆和目标车辆的状态数据及相对位置数据来绘制目标图像,以该目标图像来表示自动驾驶车辆与目标车辆的姿态,以及自动驾驶车辆与目标车辆的相对位置关系,然后将该目标图像作为样本场景数据中的其中一项数据,丰富了样本场景数据的数据形式和数据内容,能够提高场景识别的准确性。
可选地,用xi表示第一场景序列,image表示目标图像,state表示自动驾驶车辆周围的目标车辆的状态数据和相对位置数据,action表示自动驾驶车辆的状态数据,则xi={(image,{state,action})1,(image,{state,action})2,...,(image,{state,action})t},其中,该第一场景序列包括t个时刻对应的样本场景数据,(image,{state,action})1表示第一场景序列在第一时间段内的第一个时刻对应的样本场景数据,(image,{state,action})2表示第一场景序列在第二个时刻对应的样本场景数据,(image,{state,action})t表示第一场景序列在第t个时刻对应的样本场景数据。可选地,用n表示第一驾驶场景的数量,服务器通过多个第一驾驶场景的场景序列训练场景识别模型,则训练集D1能够表示为D1={X1,…,Xn}。
在本申请实施例中,用来训练场景识别模型的场景序列中包括具有时序关系的多个时刻对应的样本场景数据,且样本场景数据包括自动驾驶车辆的状态数据、自动驾驶车辆周围的目标车辆的状态数据,以及目标车辆与自动驾驶车辆的相对位置数据,使得场景识别模型提取的场景特征考虑了这多个时刻下,自动驾驶车辆与周围的目标车辆的行为以及两者的位置变化,从而能够准确反映自动驾驶车辆与周围目标车辆的交互情况,因此,根据该场景特征进行场景识别,能够保证场景识别的准确率。
在一种可能的实现方式中,服务器调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到第一驾驶场景的第二场景序列,包括:服务器调用场景特征提取网络,对第一场景序列进行特征提取,得到第一场景特征;调用场景预测网络,基于第一场景特征进行场景预测,得到第二场景序列。
可选地,场景特征提取网络为编码器,场景预测网络为解码器。编码器和解码器的结构为任意结构。例如,编码器和解码器均为LSTM(Long Short-Term Memory,长短期记忆网络)、或者,编码器和解码器均为MLP(Multi-Layer Perceptron,多层感知器),或者,编码器为Transformer(一种神经网络模型),解码器为LSTM,本申请实施例对此不做限制。
202、服务器基于第二场景序列和第一驾驶场景的第三场景序列,训练场景特征提取网络和场景预测网络。
第三场景序列包括在第二时间段内的至少一个时刻对应的样本场景数据。
在一种可能的实现方式中,服务器基于第二场景序列和第一驾驶场景的第三场景序列,训练场景特征提取网络和场景预测网络,包括:服务器基于第二场景序列和第三场景序列,确定第一损失值,第一损失值用于表示第二场景序列与第三场景序列之间的相似度;基于第一损失值,训练场景特征提取网络和场景预测网络。
其中,第一损失值与第二场景序列和第三场景序列之间的相似度呈负相关关系,第一损失值越小,表示第二场景序列和第三场景序列之间的相似度越大,也即表示场景特征提取网络和场景预测网络的预测准确度越高。相应的,服务器基于第一损失值,训练场景特征提取网络和场景预测网络的实现方式为:服务器调整场景特征提取网络和场景预测网络的模型参数,以使基于调整后的场景特征提取网络和场景预测网络所确定的第一损失值变小。可选地,当该第一损失值小于参考损失值时,服务器确定特征提取网络和场景预测网络训练完成。
可选地,通过下述公式(2)来确定第一损失值。
Figure BDA0003120423660000131
其中,Loss为第一损失值,at为第三场景序列中自动驾驶车辆的状态数据,
Figure BDA0003120423660000132
为第二场景序列中自动驾驶车辆的状态数据,
Figure BDA0003120423660000133
为第二场景序列中目标车辆的状态数据及相对位置数据,st为第三场景序列中目标车辆的状态数据及相对位置数据,F为泛数。
需要说明的一点是,第一驾驶场景的数量为一个或多个,在第一驾驶场景的数量为多个的情况下,多个第一驾驶场景对应的场景数据不同,服务器依次基于该多个第一驾驶场景中的每个第一驾驶场景的场景数据来训练场景特征提取网络和场景预测网络,从而能够提高场景特征提取网络和场景预测网络的准确性。其中,服务器通过每个第一驾驶场景数据训练场景特征提取网络和场景预测网络的方式相同。
203、服务器调用训练后的场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签。
场景分类网络用于基于驾驶场景对应的场景数据的场景特征,确定驾驶场景的场景类别。
预测类别标签用于表示第二驾驶场景的场景类别。并且,该场景类别是场景特征提取网络和场景分类网络所预测的场景类别,和第二驾驶场景实际所属的场景类别可能相同,也可能不同。
可选地,预测类别标签包括第二驾驶场景属于多个场景类别中的每个场景类别的概率,其中,对应的概率最大的场景类别即为第二驾驶场景所属的场景类别。例如,场景类别有三个,分别为“泊车”、“窄路通行”和“变道超车”,“泊车”对应的概率为0.2,“窄路通行”对应的概率为“0.5”,“变道超车”对应的概率为0.3,则第二驾驶场景所属的场景类别为“窄路通行”。上述多个场景类别仅是示例性说明,实际上,场景类别能够根据实际情况设置,例如,多个场景类别包括会车、让行、通过红绿灯、转弯、掉头等,本申请实施例对此不做限制。
在一种可能的实现方式中,服务器调用训练后的场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签,包括:服务器调用训练后的场景特征提取网络,对第二驾驶场景的场景序列进行特征提取,得到第二场景特征;调用场景分类网络,基于第二场景特征进行场景分类,得到预测类别标签。
可选地,场景分类网络为解码器。该解码器的结构为任意结构。例如,该解码器均为LSTM、MLP等,本申请实施例对此不做限制。
204、服务器基于第二驾驶场景的场景类别标签和预测类别标签,训练场景分类网络。
其中,场景类别标签用于表示第二驾驶场景实际所属的场景类别。可选地,场景类别标签包括第二驾驶场景属于多个场景类别中的每个场景类别的概率,其中,对应的概率最大的场景类别即为第二驾驶场景所属的场景类别。例如,场景类别有三个,分别为“泊车”、“窄路通行”和“变道超车”,“泊车”对应的概率为0,“窄路通行”对应的概率为“1”,“变道超车”对应的概率为0,则第二驾驶场景所属的场景类别为“窄路通行”。可选地,该场景类别标签是由人工标注的。
在一种可能的实现方式中,服务器基于第二驾驶场景的场景类别标签和预测类别标签,训练场景分类网络,包括:服务器基于场景类别标签和预测类别标签,确定第二损失值,第二损失值用于表示场景类别标签与预测类别标签之间的相似度;基于第二损失值,训练场景分类网络。
其中,第二损失值与场景类别标签和预测类别标签之间的相似度呈负相关关系,第二损失值越小,表示场景类别标签和预测类别标签之间的相似度越大,也即表示场景特征提取网络和场景分类网络的准确度越高。相应的,服务器基于第二损失值,训练场景特征提取网络和场景预测网络的实现方式为:服务器调整场景分类网络的模型参数,以使基于调整后的场景分类网络所确定的第二损失值变小。可选地,当该第二损失值小于参考损失值时,服务器确定场景分类网络训练完成。
需要说明的一点是,通过第一驾驶场景的场景数据的训练,场景特征提取网络已经能够准确提取场景特征,因此,在通过第二驾驶场景的场景数据进行训练时,无需再次训练场景特征提取网络,只需要训练场景分类网络即可,一方面,这样训练能够提高场景识别模型的训练效率,另一方面,由于第一场景数据无需进行人工标注,因此这种训练方式能够降低数据标准量,从而降低训练成本。
205、服务器获取场景识别模型,场景识别模型包括训练后的场景特征提取网络和训练后的场景分类网络。
经过上述训练过程,场景特征提取网络能够准确提取驾驶场景的场景数据中的场景特征,场景分类网络能够基于该场景特征准确确定该驾驶场景的场景类别,因此,由该场景特征提取网络和该场景分类网络构成的场景识别模型能够准确识别驾驶场景的场景类别。
206、服务器调用场景识别模型,识别任一驾驶场景的场景类别。
在一种可能的实现方式中,服务器调用场景识别模型,识别任一驾驶场景的场景类别,包括:服务器获取任一驾驶场景的场景序列;调用场景识别模型,基于该驾驶场景的场景序列进行场景分类,得到该驾驶场景的场景类别标签。
其中,该任一驾驶场景的场景序列包括:该驾驶场景在任一时间段内的至少一个时刻对应的场景数据。任一时刻对应的场景数据包括该驾驶场景中的自动驾驶车辆在该时刻对应的状态数据、自动驾驶车辆周围的目标车辆在该时刻对应的状态数据,以及以自动驾驶车辆为参考,目标车辆的相对位置数据。
可选地,服务器调用场景识别模型,基于该驾驶场景的场景序列进行场景分类,得到该驾驶场景的场景类别标签,包括:服务器调用场景识别模型中的场景特征提取网络,对驾驶场景的场景序列进行特征提取,得到场景特征;调用场景识别模型中的场景分类网络,基于该场景特征进行场景分类,得到预测类别标签。该预测类别标签用于表示场景识别模型所识别的该驾驶场景的场景类别。
其中,该场景识别模型是基于第一训练样本和第二训练样本训练得到的,其中,第一训练样本包括第一驾驶场景的第一场景序列和第三场景序列,第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,第三场景序列包括在第二时间段内的至少一个时刻对应的样本场景数据,第一时间段早于第二时间段。第二训练样本包括第二驾驶场景的场景序列和第二驾驶场景的场景类别标签。
需要说明的一点是,经过上述步骤201-205,服务器则获取到场景识别模型,之后,服务器能够基于该场景识别模型重复识别多个驾驶场景的场景类别,即当服务器需要进行场景识别时,只需执行步骤206即可,无需再次执行步骤201-205。
参考图7,图7为场景识别模型的训练过程的示意图。场景识别模型的训练过程分为两个阶段,在第一个训练阶段中,将未标注场景类别标签的第一驾驶场景的第一场景序列输入到场景特征提取网络,调用该场景特征提取网络和该场景预测网络,基于该第一场景序列进行场景预测,得到第一驾驶场景的第二场景序列。然后,基于第一场景序列和第二场景序列训练场景特征提取网络和场景预测网络。在第二个训练阶段中,将标注有场景类别标签的第二驾驶场景的场景序列输入到训练后的场景特征提取网络,调用训练后的场景特征提取网络和场景分类网络,基于该场景序列进行场景分类,得到预测类别标签,然后,基于第二驾驶场景的场景类别标签和预测类别标签训练场景分类网络,则训练后的场景特征提取网络和训练后的场景分类网络则构成训练好的场景识别模型。
参考图8,图8为第一阶段的训练过程中,场景特征提取网络和场景预测网络的数据处理过程的示意图。其中,hθ为场景特征提取网络,zt为场景特征,f场景预测网络,
Figure BDA0003120423660000171
为预测的第二场景序列中自动驾驶车辆的状态数据,
Figure BDA0003120423660000172
为该第二场景序列中目标车辆的状态数据及相对位置数据,xi为第一驾驶场景在第一时间段对应的第一场景序列,第一时间段对应的时长为T,t表示第一时间段的终止时刻,t-T表示第一时间段的开始时刻。场景特征提取网络对第一场景序列进行特征提取,得到场景特征,场景预测网络基于该场景特征进行场景预测,得到第二场景序列。该第二场景序列包括在第二时间段内的至少一个时刻对应的场景数据,该场景数据包括
Figure BDA0003120423660000173
Figure BDA0003120423660000174
参考图9,图9为第二阶段的训练过程中,场景特征提取网络和场景分类网络的数据处理过程的示意图。其中,hθ为场景特征提取网络,zt为场景特征,gφ场景分类网络,xi为第二驾驶场景在任一时间段对应的场景序列,该时间段对应的时长为T,t表示该时间段的终止时刻,t-T表示该时间段的开始时刻。场景特征提取网络对该场景序列进行特征提取,得到场景特征,场景分类网络基于该场景特征进行场景分类,得到预测类别标签。
在本申请实施例中,不是通过人为设计的条件来识别驾驶场景的类别,而是通过样本场景数据训练场景识别模型,以使场景识别模型学习到不同的驾驶场景的场景特征,从而能够辨识不同的驾驶场景,这样就能够摆脱人为经验的限制,提高场景识别的准确率。并且,在训练场景识别模型时,对于场景识别模型中的场景特征提取网络和场景分类网络,分为两个阶段来训练,在第一个训练阶段,通过无需标注的第一驾驶场景的数据训练场景特征提取网络,使场景识别模型能够提取场景特征,在第二个训练阶段,通过需要标注场景类别标签的第二驾驶场景的数据对场景分类网络进行训练,使场景识别模型能够基于场景特征进行场景分类,这样不仅能够保证场景识别模型的训练效果,还能够降低训练数据的标注量。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图10是本申请实施例提供的一种场景识别装置的框图。参见图10,该实施例包括:
场景预测模块1001,被配置为调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到第一驾驶场景的第二场景序列,第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,第二场景序列包括在第二时间段内的至少一个时刻对应的预测场景数据,第一时间段早于第二时间段;
第一训练模块1002,被配置为基于第二场景序列和第一驾驶场景的第三场景序列,训练场景特征提取网络和场景预测网络,第三场景序列包括在第二时间段内的至少一个时刻对应的样本场景数据;
场景分类模块1003,被配置为调用训练后的场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;
第二训练模块1004,被配置为基于第二驾驶场景的场景类别标签和预测类别标签,训练场景分类网络;
模型获取模块1005,被配置为获取场景识别模型,场景识别模型包括训练后的场景特征提取网络和训练后的场景分类网络。
在一种可能的实现方式中,场景预测模块1001,被配置为调用场景特征提取网络,对第一场景序列进行特征提取,得到第一场景特征;调用场景预测网络,基于第一场景特征进行场景预测,得到第二场景序列。
在一种可能的实现方式中,第一训练模块1002,被配置为基于第二场景序列和第三场景序列,确定第一损失值,第一损失值用于表示第二场景序列与第三场景序列之间的相似度;基于第一损失值,训练场景特征提取网络和场景预测网络。
在一种可能的实现方式中,场景分类模块1003,被配置为调用训练后的场景特征提取网络,对第二驾驶场景的场景序列进行特征提取,得到第二场景特征;调用场景分类网络,基于第二场景特征进行场景分类,得到预测类别标签。
在一种可能的实现方式中,第二训练模块1004,被配置为基于场景类别标签和预测类别标签,确定第二损失值,第二损失值用于表示场景类别标签与预测类别标签之间的相似度;基于第二损失值,训练场景分类网络。
在一种可能的实现方式中,第一场景序列中,任一时刻对应的样本场景数据包括:第一驾驶场景中的自动驾驶车辆在时刻对应的第一状态数据、自动驾驶车辆周围的目标车辆在时刻对应的第二状态数据,以及以自动驾驶车辆为参考,目标车辆的相对位置数据。
在一种可能的实现方式中,任一时刻对应的样本场景数据还包括目标图像,装置还包括:图像获取模块,被配置为基于时刻对应的第一状态数据、第二状态数据以及相对位置数据,绘制时刻对应的目标图像,目标图像用于表示在时刻,自动驾驶车辆与目标车辆的姿态,以及自动驾驶车辆与目标车辆的相对位置关系。
在一种可能的实现方式中,装置还包括:
位置数据获取模块,被配置为对于任一时刻,将自动驾驶车辆所处的目标区域划分为9个网格,以使自动驾驶车辆处于目标区域的中间的网格;确定9个网格的网格标识;确定自动驾驶车辆所处网格的第一网格标识,以及目标车辆所处网格的第二网格标识;将第一网格标识和第二网格标识,确定为相对位置数据。
在一种可能的实现方式中,目标车辆为自动驾驶车辆周围的目标数量的车辆,目标车辆距离自动驾驶车辆的距离小于第一驾驶场景中的其他车辆距离自动驾驶车辆的距离。
在一种可能的实现方式中,装置还包括:
场景识别模块,被配置为调用场景识别模型,识别任一驾驶场景的场景类别。
在一种可能的实现方式中,场景识别模块,被配置为获取任一驾驶场景的场景序列;调用场景识别模型,基于驾驶场景的场景序列进行场景分类,得到驾驶场景的场景类别标签。
在本申请实施例中,不是通过人为设计的条件来识别驾驶场景的类别,而是通过样本场景数据训练场景识别模型,以使场景识别模型学习到不同的驾驶场景的场景特征,从而能够辨识不同的驾驶场景,这样就能够摆脱人为经验的限制,提高场景识别的准确率。并且,在训练场景识别模型时,对于场景识别模型中的场景特征提取网络和场景分类网络,分为两个阶段来训练,在第一个训练阶段,通过无需标注的第一驾驶场景的数据训练场景特征提取网络,使场景识别模型能够提取场景特征,在第二个训练阶段,通过需要标注场景类别标签的第二驾驶场景的数据对场景分类网络进行训练,使场景识别模型能够基于场景特征进行场景分类,这样不仅能够保证场景识别模型的训练效果,还能够降低训练数据的标注量。
需要说明的是:上述实施例提供的场景识别装置在进行场景识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的场景识别装置与场景识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的场景识别方法中执行的操作。
可选地,该计算机设备提供为终端。图11示出了本申请一个示例性实施例提供的终端1100的结构框图。该终端1100可以是:智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
终端1100包括有:处理器1101和存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1101所执行以实现本申请中方法实施例提供的场景识别方法。
在一些实施例中,终端1100还可选包括有:***设备接口1103和至少一个***设备。处理器1101、存储器1102和***设备接口1103之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1103相连。具体地,***设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。
***设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和***设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和***设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置终端1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端1100的不同表面或呈折叠设计;在另一些实施例中,显示屏1105可以是柔性显示屏,设置在终端1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
定位组件1108用于定位终端1100的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System,全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。
电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。
加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1112可以检测终端1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1114用于采集用户的指纹,由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份,或者,由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1101授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时,指纹传感器1114可以与物理按键或厂商Logo集成在一起。
光学传感器1115用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1115采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1115采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
接近传感器1116,也称距离传感器,设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中,当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
可选地,该计算机设备提供为服务器。图12是本申请实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)1201和一个或一个以上的存储器1202,其中,所述存储器1202中存储有至少一条程序代码,所述至少一条程序代码由所述处理器1201加载并执行以实现上述各个方法实施例提供的场景识别方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的场景识别方法中执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的场景识别方法中执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种场景识别方法,其特征在于,所述方法包括:
调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,所述第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,所述第二场景序列包括在第二时间段内的至少一个时刻对应的预测场景数据,所述第一时间段早于所述第二时间段;
基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,所述第三场景序列包括在所述第二时间段内的至少一个时刻对应的样本场景数据;
调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;
基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络;
获取场景识别模型,所述场景识别模型包括训练后的所述场景特征提取网络和训练后的所述场景分类网络。
2.根据权利要求1所述的方法,其特征在于,所述调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,包括:
调用所述场景特征提取网络,对所述第一场景序列进行特征提取,得到第一场景特征;
调用所述场景预测网络,基于所述第一场景特征进行场景预测,得到所述第二场景序列。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,包括:
基于所述第二场景序列和所述第三场景序列,确定第一损失值,所述第一损失值用于表示所述第二场景序列与所述第三场景序列之间的相似度;
基于所述第一损失值,训练所述场景特征提取网络和所述场景预测网络。
4.根据权利要求1所述的方法,其特征在于,所述调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签,包括:
调用训练后的所述场景特征提取网络,对所述第二驾驶场景的场景序列进行特征提取,得到第二场景特征;
调用所述场景分类网络,基于所述第二场景特征进行场景分类,得到所述预测类别标签。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络,包括:
基于所述场景类别标签和所述预测类别标签,确定第二损失值,所述第二损失值用于表示所述场景类别标签与所述预测类别标签之间的相似度;
基于所述第二损失值,训练所述场景分类网络。
6.根据权利要求1所述的方法,其特征在于,所述第一场景序列中,任一时刻对应的所述样本场景数据包括:所述第一驾驶场景中的自动驾驶车辆在所述时刻对应的第一状态数据、所述自动驾驶车辆周围的目标车辆在所述时刻对应的第二状态数据,以及以所述自动驾驶车辆为参考,所述目标车辆的相对位置数据。
7.根据权利要求6所述的方法,其特征在于,所述任一时刻对应的所述样本场景数据还包括目标图像,所述方法还包括:
基于所述时刻对应的所述第一状态数据、所述第二状态数据以及所述相对位置数据,绘制所述时刻对应的目标图像,所述目标图像用于表示在所述时刻,所述自动驾驶车辆与所述目标车辆的姿态,以及所述自动驾驶车辆与所述目标车辆的相对位置关系。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对于所述任一时刻,将所述自动驾驶车辆所处的目标区域划分为9个网格,以使所述自动驾驶车辆处于所述目标区域的中间的网格;
确定所述9个网格的网格标识;
确定所述自动驾驶车辆所处网格的第一网格标识,以及所述目标车辆所处网格的第二网格标识;
将所述第一网格标识和所述第二网格标识,确定为所述相对位置数据。
9.根据权利要求6所述的方法,其特征在于,所述目标车辆为所述自动驾驶车辆周围的目标数量的车辆,所述目标车辆距离所述自动驾驶车辆的距离小于所述第一驾驶场景中的其他车辆距离所述自动驾驶车辆的距离。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
调用所述场景识别模型,识别任一驾驶场景的场景类别。
11.根据权利要求10所述的方法,其特征在于,所述调用所述场景识别模型,识别任一驾驶场景的场景类别,包括:
获取所述任一驾驶场景的场景序列;
调用所述场景识别模型,基于所述驾驶场景的场景序列进行场景分类,得到所述驾驶场景的场景类别标签。
12.一种场景识别装置,其特征在于,所述装置包括:
场景预测模块,被配置为调用场景特征提取网络和场景预测网络,基于第一驾驶场景的第一场景序列进行场景预测,得到所述第一驾驶场景的第二场景序列,所述第一场景序列包括在第一时间段内的至少一个时刻对应的样本场景数据,所述第二场景序列包括在第二时间段内的至少一个时刻对应的预测场景数据,所述第一时间段早于所述第二时间段;
第一训练模块,被配置为基于所述第二场景序列和所述第一驾驶场景的第三场景序列,训练所述场景特征提取网络和所述场景预测网络,所述第三场景序列包括在所述第二时间段内的至少一个时刻对应的样本场景数据;
场景分类模块,被配置为调用训练后的所述场景特征提取网络和场景分类网络,基于第二驾驶场景的场景序列进行场景分类,得到预测类别标签;
第二训练模块,被配置为基于所述第二驾驶场景的场景类别标签和所述预测类别标签,训练所述场景分类网络;
模型获取模块,被配置为获取场景识别模型,所述场景识别模型包括训练后的所述场景特征提取网络和训练后的所述场景分类网络。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述程序代码由所述处理器加载并执行以实现如权利要求1至权利要求11任一项所述的场景识别方法所执行的操作。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至权利要求11任一项所述的场景识别方法所执行的操作。
CN202110674250.3A 2021-06-17 2021-06-17 场景识别方法、装置、设备及存储介质 Active CN113239901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110674250.3A CN113239901B (zh) 2021-06-17 2021-06-17 场景识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110674250.3A CN113239901B (zh) 2021-06-17 2021-06-17 场景识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113239901A true CN113239901A (zh) 2021-08-10
CN113239901B CN113239901B (zh) 2022-09-27

Family

ID=77140261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110674250.3A Active CN113239901B (zh) 2021-06-17 2021-06-17 场景识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113239901B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN109255364A (zh) * 2018-07-12 2019-01-22 杭州电子科技大学 一种基于深度卷积生成对抗网络的场景识别方法
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN111241943A (zh) * 2019-12-31 2020-06-05 浙江大学 自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法
CN111242044A (zh) * 2020-01-15 2020-06-05 东华大学 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法
CN111612820A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 多目标跟踪方法、特征提取模型的训练方法和装置
CN111797762A (zh) * 2020-07-02 2020-10-20 北京灵汐科技有限公司 一种场景识别方法和***
CN111898173A (zh) * 2019-05-06 2020-11-06 达索***公司 虚拟世界中的经验学习
CN112109717A (zh) * 2019-06-19 2020-12-22 商汤集团有限公司 一种智能驾驶控制方法及装置、电子设备
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112487907A (zh) * 2020-11-23 2021-03-12 北京理工大学 一种基于图分类的危险场景识别方法及***
CN112837344A (zh) * 2019-12-18 2021-05-25 沈阳理工大学 一种基于条件对抗生成孪生网络的目标跟踪方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520238A (zh) * 2018-04-10 2018-09-11 东华大学 一种基于深度预测编码网络的夜视图像的场景预测方法
CN109255364A (zh) * 2018-07-12 2019-01-22 杭州电子科技大学 一种基于深度卷积生成对抗网络的场景识别方法
CN109614517A (zh) * 2018-12-04 2019-04-12 广州市百果园信息技术有限公司 视频的分类方法、装置、设备及存储介质
CN111898173A (zh) * 2019-05-06 2020-11-06 达索***公司 虚拟世界中的经验学习
CN112109717A (zh) * 2019-06-19 2020-12-22 商汤集团有限公司 一种智能驾驶控制方法及装置、电子设备
CN112837344A (zh) * 2019-12-18 2021-05-25 沈阳理工大学 一种基于条件对抗生成孪生网络的目标跟踪方法
CN111241943A (zh) * 2019-12-31 2020-06-05 浙江大学 自动驾驶场景下基于背景目标检测与三元组损失的场景识别与回环检测方法
CN111242044A (zh) * 2020-01-15 2020-06-05 东华大学 基于ConvLSTM双通道编码网络的夜间无人车场景预测方法
CN111612820A (zh) * 2020-05-15 2020-09-01 北京百度网讯科技有限公司 多目标跟踪方法、特征提取模型的训练方法和装置
CN111797762A (zh) * 2020-07-02 2020-10-20 北京灵汐科技有限公司 一种场景识别方法和***
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112487907A (zh) * 2020-11-23 2021-03-12 北京理工大学 一种基于图分类的危险场景识别方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WILLIAM LOTTER ET AL: "DEEP PREDICTIVE CODING NETWORKS FOR VIDEO PREDICTION AND UNSUPERVISED LEARNING", 《ARXIV:1605.08104V5》 *
刘志超: "视频帧预测算法探究", 《电脑知识与技术》 *

Also Published As

Publication number Publication date
CN113239901B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN111126182B (zh) 车道线检测方法、装置、电子设备及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN111854780B (zh) 车辆导航方法、装置、车辆、电子设备及存储介质
CN113395542A (zh) 基于人工智能的视频生成方法、装置、计算机设备及介质
CN113378705B (zh) 车道线检测方法、装置、设备及存储介质
CN112581358B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN112272311A (zh) 花屏修复方法、装置、终端、服务器及介质
CN113160427A (zh) 虚拟场景的创建方法、装置、设备及存储介质
CN111437600A (zh) 剧情展示方法、装置、设备及存储介质
CN112839107B (zh) 推送内容的确定方法、装置、设备及计算机可读存储介质
CN111179628B (zh) 自动驾驶车辆的定位方法、装置、电子设备及存储介质
CN112269939A (zh) 自动驾驶的场景搜索方法、装置、终端、服务器及介质
CN112053360A (zh) 图像分割方法、装置、计算机设备及存储介质
CN112818979A (zh) 文本识别方法、装置、设备及存储介质
CN111753813A (zh) 图像处理方法、装置、设备及存储介质
CN111611414A (zh) 车辆检索方法、装置及存储介质
CN111444749A (zh) 路面导向标志的识别方法、装置及存储介质
CN113239901B (zh) 场景识别方法、装置、设备及存储介质
CN114598992A (zh) 信息交互方法、装置、设备及计算机可读存储介质
CN114283395A (zh) 车道线检测的方法、装置、设备及计算机可读存储介质
CN112699906B (zh) 获取训练数据的方法、装置及存储介质
CN114648315A (zh) 虚拟面试的方法、装置、设备及存储介质
CN114817709A (zh) 排序方法、装置、设备及计算机可读存储介质
CN113936240A (zh) 确定样本图像的方法、装置、设备及存储介质
CN113920222A (zh) 获取地图建图数据的方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant