CN109522913B

CN109522913B - 检查方法和检查设备以及计算机可读介质

Info

Publication number: CN109522913B
Application number: CN201710845577.6A
Authority: CN
Inventors: 顾建平; 刘涛; 赵自然; 刘耀红; ***
Original assignee: Nuctech Co Ltd
Current assignee: Nuctech Co Ltd
Priority date: 2017-09-18
Filing date: 2017-09-18
Publication date: 2022-07-19
Anticipated expiration: 2037-09-18
Also published as: EP3699579B1; EP3699579A1; WO2019052561A1; JP2020534508A; KR20200003011A; CN109522913A; KR102240058B1; EP3699579A4

Abstract

公开了一种检查方法和检查设备以及计算机可读介质。该方法包括：用X射线扫描被检查物体，得到被检查物体的图像；利用第一神经网络处理所述图像，得到被检查物体的语义描述；读取所述被检查物体的舱单的文字信息；利用第二神经网络对被检查物体的舱单的文字信息进行处理，得到被检查物体的语义特征；基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过。利用上述实施例的方案，能够在确保检查准确率的同时，大大提高查验的速度，使得安全检查的效率得到大幅度提升。

Description

检查方法和检查设备以及计算机可读介质

技术领域

本申请涉及安全检查，具体涉及一种基于射线成像的检查方法和检查设备以及计算机可读介质。

背景技术

目前，物流行业扮演着愈发重要的角色。无论是“全民网购”思潮的兴起，还是国家提出的“一带一路”政策，物流都需要在其中发挥至关重要的作用。然而，有不法分子利用物流的便利性伪报寄送物品，实际邮寄毒品、***物、***等违禁品。这给社会安全造成巨大威胁。

中国的《反***法》第85条规定“铁路、公路、水上、航空的货运和邮政、快递等物流运营单位未实行安全查验制度，对客户身份进行查验，或者未依照规定对运输、寄递物品进行安全检查或者开封验视、未实行运输、寄递客户身份和物品信息登记制度的进行处罚”。这要求快递企业须落实100％先验视后封箱、100％寄递实名制、100％X光机安检等制度保障。

在这种情况下，如果采用人工查验的方法，确认申报信息与真实物品是否一致，势必造成大量的资源浪费和效率低下等问题。人工查验也会造成查验人员极大的工作压力。

发明内容

针对现有技术的一个或多个问题，本公开的实施例提出了一种检查方法、检查设备以及计算机可读介质，能够对被检查物体进行自动检查，在保证查验准确率的同时，极大地提高查验速度。

在本公开的一个方面，提出了一种检查方法，包括步骤：用X射线扫描被检查物体，得到被检查物体的图像；利用第一神经网络处理所述图像，得到被检查物体的语义描述；读取所述被检查物体的舱单的文字信息；利用第二神经网络对被检查物体的舱单的文字信息进行处理，得到被检查物体的语义特征；基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过。

根据本公开的实施例，所述第一神经网络是卷积神经网络或者基于候选区域的卷积神经网络或者基于快速候选区域的卷积神经网络，所述第二神经网络是循环神经网络或者双向循环神经网络。

根据本公开的实施例，利用事先建立的图像-语义对集合来训练所述第一神经网络。

根据本公开的实施例，在利用所述第一神经网络对图像进行处理前还包括步骤：对所述被检查物体的图像进行二值化；将二值化的图像计算平均值；用二值化的图像的每个像素值减去所述平均值。

根据本公开的实施例，基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过的步骤包括：计算表示所述语义描述的第一向量与表示所述语义特征的第二向量之间的距离；在计算的距离小于阈值的情况下允许所述被检查物体通过。

根据本公开的实施例，在第一神经网络的训练过程中在样本图像中包含的多个区域特征与所述样本图片的舱单信息中包括的多个词语之间建立对应关系。

根据本公开的实施例，将表示所述区域特征的特征矢量与表示所述词语的语义矢量之间的点积作为区域特征与词语之间的相似度，并且利用所述样本图像的多个区域特征与其舱单信息包括的多个词语之间的相似度的加权和作为所述样本图像与其舱单信息之间的相似度。

在本公开的另一方面，提出了一种检查设备，包括：扫描装置，用X射线对被检查物体进行扫描，得到扫描图像；输入装置，输入所述被检查物体的舱单信息；处理器，配置为：利用第一神经网络处理所述图像，得到被检查物体的语义描述；利用第二神经网络对被检查物体的舱单的文字信息进行处理，得到被检查物体的语义特征；基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过。

在本公开的再一方面，提出了一种计算机可读介质，存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

利用第一神经网络处理被检查物体的X射线图像，得到被检查物体的语义描述；

利用第二神经网络对被检查物体的舱单的文字信息进行处理，得到被检查物体的语义特征；

基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过。

利用上述实施例的方案，能够在确保检查准确率的同时，大大提高查验的速度，使得安全检查的效率得到大幅度提升。

附图说明

为了更好地理解本公开，将根据以下附图对本公开进行详细描述：

图1示出了根据本公开实施例的检查设备的示意图；

图2示出了在图1所示的实施例中用于图像处理的计算机的内部结构的示意图；

图3是描述在本公开实施例的检查设备和检查方法中使用的人工神经网络的示意图；

图4示出了在本公开实施例的检查设备和检查方法中使用的另一人工神经网络的示意图；

图5是描述根据本公开实施例的将图像和语义对齐的过程的示意图；

图6是描述根据本发明实施例的检查设备和检查方法中建立图像-语义模型的流程图；以及

图7是描述根据本公开实施例的检查方法对被检查物体进行安全检查的过程的流程图。

具体实施方式

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的结构、材料或方法。

针对现有技术中的检查效率低的问题，本公开的实施例提出一种基于深度学习的检查技术，能够智能地完成物品机图单对比。利用本公开实施例的方案，可以发现物品机货物图像中，与物品申报的报关单数据不一致的区域。这个区域可能是伪报或瞒报。伪报一般是物流货品中的违禁物品或对物流运输安全造成威胁的危险物品，为了逃避检测，在报关单上把货物描述为运输安全的货物。瞒报一般是数量和体积较小的物品，也叫夹带，是走私、违禁品常用的手段。

此外，在物品机扫描图像中，物流货品中一箱多物的问题是传统图像处理条件下无法解决的难题。准确的说，它是受到设备不一致性影响的，在报关单数据监督下的多义性复杂分割问题。比如，不同的设备下算法必然会有不同的表现，报关单的数据形式给出了多个监督值(比如货物有多少种，每种类型与单位重量等)，图像上的每个像素可能属于多个货物等。本公开的方法采用基于深度学习的方法解决该问题，无论一箱有几种物品，不用手动选取特征，通过卷积神经网络和大规模的训练数据得到训练好的图像模型以及语义模型，进而可以对测试图片生成对应的图像语义描述，从而准确完成一箱多货的图单对比。

图1示出了根据本公开实施例的检查设备的结构示意图。如图1所示的检查设备10包括X射线源11，探测器模块15、采集电路16、控制器17和数据处理计算机18等。射线源11包括一个或多个X射线发生器，可以进行单能透射扫描，也可以进行双能透射扫描。

如图1所示，例如行李物品之类的被检查物体14放在传送带13上穿过射线源11与探测器模块15之间的扫描区域。在一些实施例中，探测器模块15和采集电路16例如是具有整体模块结构的探测器及数据采集器，例如多排探测器，用于探测透射被检物体14的射线，获得模拟信号，并且将模拟信号转换成数字信号，从而输出被检查物体14针对X射线的透射图像。在双能的情况下，可以例如针对高能射线设置一排探测器，针对低能射线设置另一排探测器，或者高能射线和低能射线分时使用同一排探测器。控制器17用于控制整个***的各个部分同步工作。数据处理计算机18用来处理由数据采集电路16采集的数据，对图像数据进行处理，输出结果。例如数据处理计算机18运行图像处理程序，对扫描得到的图像进行分析和学习，得到该图像的语义描述，然后将得到的语义描述与给行李物品的舱单信息中包括的语义特征进行对比，判断申报信息与行李物品中的物体是否一致。在一致的情况下，允许给行李物品通过，否则发出警报，提醒安检人员该行李物品可能有问题。

根据该实施例，探测器模块15和采集电路16用于获取被检查物体14的透射数据。采集电路16中包括数据放大成形电路，它可工作于(电流)积分方式或脉冲(计数)方式。采集电路16的数据输出电缆与控制器17和数据处理计算机18连接，根据触发命令将采集的数据存储在数据处理计算机18中。

在一些实施例中，探测器模块15包括多个探测单元，接收穿透被检查物体14的X射线。采集电路16与探测器模块15耦接，将探测器模块16产生的信号转换为探测数据。控制器17通过控制线路CTRL1与射线源11连接，通过控制线路CTRL2与探测器模块连接15，并且与采集电路16连接，控制射线源11中的一个或多个X射线发生器对被检查物体14进行单能扫描，或者对被检查物体14进行双能扫描，从而随着被检查物体14的移动而发出X射线穿透被检查物体14。此外，控制器17控制探测器模块15和采集电路16，获得相应的透射数据，例如单能透射数据或者双能透射数据。数据处理计算机18基于透射数据得到被检查物体14的图像，对该图像进行处理并且基于被检查物体14的舱单信息判断二者是否一致。

图2示出了如图1所示的数据处理计算机的结构框图。如图2所示，数据处理计算20包括存储设备21、只读存储器(ROM)22、随机存取存储器(RAM)23、输入装置24、处理器25、显示设备26和接口单元27以及总线28等。

采集电路16所采集的数据通过接口单元27和总线28存储在存储设备21中。只读存储器(ROM)22中存储有计算机数据处理器的配置信息以及程序。随机存取存储器(RAM)23用于在处理器25工作过程中暂存各种数据。另外，存储设备21中还存储有用于进行数据处理的计算机程序。内部总线28连接上述的存储设备21、只读存储器22、随机存取存储器23、输入装置24、处理器25、显示设备28和接口单元27。

在用户通过诸如键盘和鼠标之类的输入装置24输入的操作命令后，计算机程序的指令代码命令处理器25执行数据处理算法，在得到数据处理结果之后，将其显示在诸如LCD显示器之类的显示装置27上，或者直接以诸如打印之类硬拷贝的形式输出处理结果。

例如，射线源11可以是放射性同位素(例如钴-60)，也可以是低能的X光机或高能的X射线加速器等。

例如，探测器模块15从材料上划分，可以是气体探测器、闪烁体探测器或固体探测器等，从阵列排布上划分，可以是单排、双排或者多排，以及单层探测器或双层高低能探测器等。

以上描述的是被检查物体14，例如行李物品，通过传送带13移动通过检查区域，但是本领域的技术人员应该想到，也可以是被检查物体14静止而射线源和探测器阵列移动完成扫描过程。

为了识别透射图像中的特征，本公开的实施例提出使用卷积神经网络CNN来对图像中的特征进行识别。以下结合图3来详细说明根据本公开实施例的卷积神经网络30。图3是示出了根据本公开实施例的卷积神经网络30的示意图。如图3所示卷积神经网络30通常可以包含多个卷积层32和34，这些卷积层32和34一般是由彼此部分重叠的小型神经元(其在数学的意义上也被称为卷积核，以下如无特别声明，这两个术语可以互换使用)的集合。此外，在本公开的上下文中，除非另有明确声明，否则对于卷积神经网络30中的任何两层而言，更接近输入数据(或输入层，例如图3的输入层31)的层被称为“在前”或“在下”的层，而另一个更接近输出数据(或输出层，例如图3的输出层37)的层被称为“在后”或“在上”的层。此外，在训练、验证和/或使用期间，从输入层(例如，图3的输入层31)到输出层(例如，图3的输出层37)的方向被称为前向或正向(forward)，而从输出层(例如，图3的输出层37)到输入层(例如，图3的输入层31)的方向被称为后向或反向(backward)。

以图3所示的第一卷积层32为例，这些小型神经元可以对输入图像的各个局部进行处理。然后这些小型神经元的输出被合并排列为一个输出(称为特征映射，例如第一卷积层32中的方形)，以获得对原始图像中某些特征进行更好表示的输出图像。同时，相邻神经元之间部分重叠的排列也使得卷积神经网络30对于原始图像中的特征具备一定程度的平移容忍度。换言之，即使原始图像中的特征在某个容忍度内以平移方式改变了其位置，该卷积神经网络30也可以正确地识别出该特征。关于卷积层的详细描述将在后文中给出，此处不再详细讨论。

接下来的一层是可选的池化(pooling)层，即第一池化层33，其主要用于在保持特征的情况下对前一卷积层32的输出数据进行下采样，减少计算量并防止过拟合。

接下来的一层同样是一个卷积层，第二卷积层34，可以对于第一卷积层32所产生的、并经由池化层33下采样的输出数据进行进一步的特征采样。从直观上看，其所学习到的特征在全局性上大于第一卷积层所学习到的特征。同样地，后续的卷积层都是对前一卷积层的特征的全局化。

卷积层(例如，第一和第二卷积层32和34)是CNN(例如，卷积神经网络30)的核心构造单元。该层的参数由可学习卷积核(或简称为卷积核)的集合来构成，每个卷积核具有很小的感受野，但是在输入数据的整个深度上延伸。在前向过程中，将每个卷积核沿输入数据的宽度和高度进行卷积，计算卷积核的元素与输入数据之间的点积，并产生该卷积核的二维激活映射。作为结果，网络能够学习到在输入的某个空间位置上看到某个具体类型的特征时才可以激活的卷积核。

将所有卷积核的激活映射沿深度方向进行堆叠，形成了卷积层的全输出数据。因此，输出数据中的每个元素可以被解释为看到输入中的小区域并与相同激活映射中的其他卷积核共享参数的卷积核的输出。

输出数据的深度控制了层中连接到输入数据的相同区域的卷积核的数量。例如，如图3所示，第一卷积层32的深度为4，第二卷积层34的深度为6。所有这些卷积核将学习到针对输入中的不同特征来激活。例如，如果第一卷积层32以原始图像为输入，则沿着深度维度的不同卷积核(即，图3中的不同方形)可以在输入数据中出现各种定向的边、或灰度块时激活。

训练过程在深度学习中是一个非常重要的部分。为了保证网络能够有效收敛，可以采用随机梯度下降法。例如，可以采用Nesterov优化算法来求解。在一些实施例中，初始的学习速率可以设置为从0.01开始，并逐渐减小，直至找到一个最优值。此外，在一些实施例中，对于权重的初始值，可以使用具有较小方差的Gaussian随机过程来初始化各卷积核的权重值。在一些实施例中，图像训练集可以采用标记的物品图像，其均标记有图像中的特征位置。

根据本公开的实施例，在图片上利用如图3所示的CNN(ConvolutionNeuralNetworks)，生成稠密的图片描述来表征物品机图像中物品的信息。特别的，利用卷积神经网络模型提取图像特征时，可以采用基于候选区域的卷积神经网络或者基于快速候选区域卷积神经网络(Faster-RCNN)的提取方法。例如，在图片上利用CNN(Convolution NeuralNetworks)生成稠密的图片描述来表征小型物品机图像中物品的信息。由于图片的语句描述常常与图片中的物体以及它们的属性有关系，因此采用RCNN(Region ConvolutionalNeural Network)在每张图片中检测物体。在整个图片中检测，得到一系列物品及其置信度，采用置信度最高的10个检测位置，并根据每个边界框内的全部像素来计算图片表示。本领域的技术人员应该理解，可以采用其他的人工神经网络来识别和学习透射图像中的特征。本公开的实施例不限于此。

为了学习舱单信息或者说确定舱单中包括的信息，本公开的实施例采用了适用于自然语言学习的循环神经网络RNN(Recurrent NeuralNetworks)。图4示出了在本公开实施例的检查设备和检查方法中使用的人工神经网络的示意图。

如图4所示，通常RNN包含输入单元(Input units)，输入集标记为{x₀，x₁，...，x_t，x_t+1，...}，而输出单元(Output units)的输出集则被标记为{y₀，y₁，...，y_t，y_t+1.，..}。RNN还包含隐藏单元(Hidden units)，将其输出集标记为{S₀，S₁，...，S_t，S_t+1，...}，这些隐藏单元完成了最为主要的工作。在图4中，有一条单向流动的信息流是从输入单元到达隐藏单元的，与此同时另一条单向流动的信息流从隐藏单元到达输出单元。在某些情况下，RNN会打破后者的限制，引导信息从输出单元返回隐藏单元，这些被称为“Back Projections”，并且隐藏层的输入还包括上一隐藏层的状态，即隐藏层内的节点可以自连也可以互连。

如图4所示，将循环神经网络展开成一个全神经网络。例如，对一个包含5个单词的语句，那么展开的网络便是一个五层的神经网络，每一层代表一个单词。

这样将自然语言转换成机器能够识别的符号，并且方便在机器学习过程中，对其进行数值化。由于词是自然语言理解与处理的基础，因此需要对词进行数值化，本公开的实施例提出使用词向量(WordRepresentation)。词向量是指使用一个指定长度的实数向量v来表示一个词。可以使用One-hot vector表示单词，即根据单词的数量|V|生成一个|V|*1的向量，当某一位为一的时候其他位都为零，然后这个向量就代表一个单词。

在RNN中，每输入一步，每一层各自都共享参数U，V，W。其反应了RNN中的每一步都在做相同的事，只是输入不同，因此大大地降低了网络中需要学习的参数。

Bidirectional RNN(双向循环神经网络)对RNN的改进之处是，当前的输出(第t步的输出)不仅仅与前面的序列有关，并且还与后面的序列有关。例如：预测一个语句中缺失的词语那么就需要根据上下文来进行预测。Bidirectional RNN是一个相对较简单的RNN，是由两个RNN上下叠加在一起组成的。输出由这两个RNN的隐藏层的状态决定的。

在本公开的实施例中，针对图像对应的报关单信息或者快递单物品信息，采用RNN(Recurrent Neural Networks)模型，如图4所示。例如，本公开的实施例中采用双向RNN(BRNN)的方法。BRNN输入n个词的序列，每个用one-hot编码，将每个词语转换成一个固定的h维向量。因为使用了词语周围长度变化的上下文，词语的表示得到了丰富。本领域的技术人员应该理解，可以采用其他的人工神经网络来识别和学习舱单信息中的特征。本公开的实施例不限于此。

根据本公开的实施例，检查过程涉及到三部分：1)建立已扫描图像以及对应报关单语义信息的数据库；2)建立行李物品图像模型与对应的语义模型，3)建立图单对比模型完成智能图单核查。已扫描图像以及对应报关单语义信息的数据库包括图像采集、图像预处理、样本预处理三个部分。

建立图像以及对应报关单语义信息的数据库主要分为图像采集、图像预处理、样本预处理三个部分。其建立过程为：(1)图像采集。采集相当数量的物品机扫描的物品图像，使图像数据库包含各种物品图像。注意，此时图像包括正常物品和违禁物品。(2)图像预处理。在扫描采集得到的图像中附带噪声信息，需要对扫描图像进行预处理。由于二值图像具备统一的物理分辨率，而且可以方便多种算法结合使用，因此本专利采用二值图像。注意，为了保证模型的泛化性能，可以将每张图片都减去所有图片的均值。

例如，采集相当数量的小型机扫描的物品图像，使图像数据库包含各种物品图像。注意，此时图像包括正常物品和违禁物品。然后，在扫描采集得到的图像中附带噪声信息，需要对扫描图像进行预处理。由于二值图像具备统一的物理分辨率，而且可以方便多种算法结合使用，因此本专利采用二值图像。得到二值图像之后，计算图像的灰度平均值，为了保证模型的泛化性能，将每张图片都减去所有图片的均值，得到的结果当作模型的图像输入。

根据本公开的实施例，采用报关单语义信息对样本进行标注。图像和语义信息形成一个完整的信息对，以便于网络的训练。注意，此处语义信息还包括快递运输单等所述的物品信息。例如，采用报关单语义信息对样本进行标注。图像和语义信息形成一个完整的信息对，以便于网络的训练。为了对使模型对关键词保持敏感，需要把物品描述里面的非关键词语进行处理，比如删除“一种、一类”之类的非物品关键词。

建立图单对比模型的过程如图5所示，在图片和它们对应的语句描述构成的数据集合上，学习语言和视觉数据内在的模式对应关系。如图5所示，本公开的方法基于一个新模型组合的方式，同时也基于一个结构化目的，通过一个多模编码模型来对齐两种模式输入。。

将图像特征与语义特征通过多模编码模型来对齐，通过随机梯度下降训练最终得到图单对比模型，也就是如图5所示的RCNN 52和BRNN53。例如，若计算的结果是图像与其申报的物品语义信息对应的，物品自动通过安检机。若计算的结果是图像与其申报的物品语义信息不对应的，安检机发出警告，提示工作人员存在异常，进行相应的处理。在本公开中，模型需要不依赖于假设，例如特殊的硬编码模型，规则或者是类别，而仅仅是从训练语料中学习它们。

这样，利用这些大量的(图片-语句)数据集，将图片的语言描述看成弱标注。这些语句中连续分割的词语对应图片中一些特殊但未知的位置。利用神经网络52和53推断这些“对齐”并且将他们应用到学习描述生成模型。具体的，如上所述本公开采用了一个深度神经网络模型，能够推断分片语句和它们对应的描述图片区域间的潜在对齐关系。这样的模型通过一个共同的、多模的编码空间，以及一个结构化目标，将两种模式联系在一起。采用了一个多模的递归神经网络架构，输入一副图像，生成对应的文本描述，生成的图片描述与图像标注信息进行关键词匹配，判断生成的语句描述与标注信息的相似性。实验显示，生成的文本描述语句明显优于基于检索的方法。在推断的对应关系上，训练这个模型，并且用一个新的局部注释的数据集来测试了它的效果。

如图5所示，将图像特征与语义特征通过多模编码模型来对齐，通过随机梯度下降训练最终得到图单对比模型。

例如通过已建立的RCNN 52和BRNN 53，可以将每个小型物品机扫描图片和对应的描述语句转化成一个公共的h维向量集合。因为有监督语料是在整个图片和整个语句粒度的，但是可以把(图片-语句)看成是(区域-词语)打分的函数。直觉地来看，一个(图片-语句)组合，如果它的某个词语在图片中能找到充足的物体或属性支持，那么它们应该得到较高的匹配得分。将第i个图片区域的矢量v_i和第t个词语矢量的s_t之间的点积解释成相似度的度量，并且使用它来进一步定义图片和语句之间的得分，得分越高，表明图像与报关单对应程度越高。

这样可以训练出一个完整的(图片-语义)模型。另外，在实际检查过程中，可以把生成的语义描述与真实物品语义描述的差别也作为损失函数的一部分。检查过程中根据训练模型输入一张处理的图片之后，会得到与图片对应的语义描述，之后与真实的报关单进行匹配，得到一个置信度，据此判断图单是否一致。

根据本公开的实施例，在神经网络的训练过程中，在样本图像中包含的多个区域特征与所述样本图片的舱单信息中包括的多个词语之间建立对应关系。例如，将表示区域特征的特征矢量与表示词语的语义矢量之间的点积作为区域特征与词语之间的相似度，并且利用所述样本图像的多个区域特征与其舱单信息包括的多个词语之间的相似度的加权和作为所述样本图像与其舱单信息之间的相似度。

图6是描述根据本发明实施例的检查设备和检查方法中建立图像-语义模型的流程图。如图6所示，在步骤S61，将事先准备的带标签的图像输入到卷积神经网络30中进行训练，在步骤S62得到训练的图像-语义模型，也就是初步训练后的卷积神经网络。为了提高模型的准确性，在步骤S63输入测试图片对网络进行测试，在步骤S64计算预测得分以及与标签的差值，例如将测试图片输入到神经网络中，得到了预测的语义描述以及该语义描述与标签之间的差值。例如分别用两个向量表示语义表述和标签，则用两个向量之间的差表示二者之间的差值。在步骤S65，判断差值是否小于阈值，如果大于在步骤S66更新网络参数对网络进行调整。如果差值小于阈值，则在步骤S67建立网络模型，也就是对网络的训练结束。

在实际的安全检查过程中，在步骤S71，利用图1所示的检查设备对被检查物体14进行扫描，得到被检查物体的透射图像。在步骤S74，通过手动录入或者条码扫描仪或者其他方式将被检查物体的舱单信息输入到数据处理计算机18中。在数据处理计算机18中，在步骤S72利用第一神经网络，例如卷积神经网络或者RCNN等，对透射图像进行处理，在步骤S73得到被检查物体的语义描述。在步骤S75利用双向循环神经网络对舱单的文字信息进行处理，得到被检查物体的语义特征。然后在步骤S76，判断语义特征是否与根据图像得到的语义描述一致，如果不一致，则在步骤S77发出警报。如果一致，则在步骤S78，允许被检查物体通过。根据一些实施例，可以计算表示语义描述的第一向量与表示语义特征的第二向量之间的距离，然后在计算的距离小于阈值的情况下允许所述被检查物体通过。这里两个向量之间的距离可以用两个向量的元素之间的差值的绝对值之和表示，也可以用两个向量的欧氏距离来表示。本公开的实施例不局限于此。

本公开通过图像处理、深度学习的方式，实现智能查验申报物品与实际物品是否一致，一方面可以大大提高工作效率，实现“通得快”，另一方面也可以减少各类主观因素的副作用，实现“管得住”，是当前安检智能化查验的重要手段，具有巨大的市场潜力。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了检查方法和检查设备的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。在一个实施例中，本发明的实施例所述主题的若干部分可以通过专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、或其他集成格式来实现。然而，本领域技术人员应认识到，这里所公开的实施例的一些方面在整体上或部分地可以等同地实现在集成电路中，实现为在一台或多台计算机上运行的一个或多个计算机程序(例如，实现为在一台或多台计算机***上运行的一个或多个程序)，实现为在一个或多个处理器上运行的一个或多个程序(例如，实现为在一个或多个微处理器上运行的一个或多个程序)，实现为固件，或者实质上实现为上述方式的任意组合，并且本领域技术人员根据本公开，将具备设计电路和/或写入软件和/或固件代码的能力。此外，本领域技术人员将认识到，本公开所述主题的机制能够作为多种形式的程序产品进行分发，并且无论实际用来执行分发的信号承载介质的具体类型如何，本公开所述主题的示例性实施例均适用。信号承载介质的示例包括但不限于：可记录型介质，如软盘、硬盘驱动器、紧致盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等；以及传输型介质，如数字和/或模拟通信介质(例如，光纤光缆、波导、有线通信链路、无线通信链路等)。

虽然已参照几个典型实施例描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种检查方法，包括步骤：

用X射线扫描被检查物体，得到被检查物体的图像；

利用第一神经网络处理所述图像，得到被检查物体的语义描述；

读取所述被检查物体的舱单的文字信息；

采用图像-语义模型对齐所述语义描述和所述语义特征；并基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过，

其中，在所述图像-语义模型的训练过程中对样本图像中包含的多个区域特征与所述样本图像的舱单信息中包括的多个词语之间建立对应关系；将表示所述区域特征的特征矢量与表示所述词语的语义矢量之间的点积作为区域特征与词语之间的相似度，并且利用所述样本图像的多个区域特征与其舱单信息包括的多个词语之间的相似度的加权和作为所述样本图像与其舱单信息之间的相似度；

其中，所述第一神经网络和所述第二神经网络构成多模编码模型，所述多模编码模型用于通过共同的、多模的编码空间将处理图像得到的语义描述和处理文字信息得到的语义特征联系在一起；所述多模编码模型和所述图像-语义模型构成多模的递归神经网络架构，

其中，所述第一神经网络是卷积神经网络或者基于候选区域的卷积神经网络或者基于快速候选区域的卷积神经网络；所述第二神经网络是循环神经网络或者双向循环神经网络。

2.如权利要求1所述的检查方法，其中利用事先建立的图像-语义对集合来训练所述第一神经网络。

3.如权利要求1所述的检查方法，其中，在利用所述第一神经网络对图像进行处理前还包括步骤：

对所述被检查物体的图像进行二值化；

将二值化的图像计算平均值；

用二值化的图像的每个像素值减去所述平均值。

4.如权利要求1所述的检查方法，其中基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过的步骤包括：

计算表示所述语义描述的第一向量与表示所述语义特征的第二向量之间的距离；

在计算的距离小于阈值的情况下允许所述被检查物体通过。

5.一种检查设备，包括：

扫描装置，用X射线对被检查物体进行扫描，得到扫描图像；

输入装置，输入所述被检查物体的舱单信息；

处理器，配置为：

其中，所述处理器被配置为在所述图像-语义模型的训练过程中在样本图像中包含的多个区域特征与所述样本图像的舱单信息中包括的多个词语之间建立对应关系；将表示所述区域特征的特征矢量与表示所述词语的语义矢量之间的点积作为区域特征与词语之间的相似度，并且利用所述样本图像的多个区域特征与其舱单信息包括的多个词语之间的相似度的加权和作为所述样本图像与其舱单信息之间的相似度；

6.如权利要求5所述的检查设备，其中利用事先建立的图像-语义对集合来训练所述第一神经网络。

7.如权利要求5所述的检查设备，其中，所述处理器还被配置为在利用所述第一神经网络对图像进行处理前：

对所述被检查物体的图像进行二值化；

将二值化的图像计算平均值；

用二值化的图像的每个像素值减去所述平均值。

8.如权利要求5所述的检查设备，其中所述处理器还被配置为：

在计算的距离小于阈值的情况下允许所述被检查物体通过。

9.一种计算机可读介质，存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

利用图像-语义模型对齐所述语义描述和所述语义特征；并基于所述语义描述和所述语义特征来判断所述被检查物体是否允许通过，

其中，所述计算机程序被处理器执行时还实现如下步骤：在所述图像-语义模型的训练过程中在样本图像中包含的多个区域特征与所述样本图像的舱单信息中包括的多个词语之间建立对应关系；将表示所述区域特征的特征矢量与表示所述词语的语义矢量之间的点积作为区域特征与词语之间的相似度，并且利用所述样本图像的多个区域特征与其舱单信息包括的多个词语之间的相似度的加权和作为所述样本图像与其舱单信息之间的相似度，