WO2023078243A1

WO2023078243A1 - 一种车载网络can总线入侵检测方法及***

Info

Publication number: WO2023078243A1
Application number: PCT/CN2022/128988
Authority: WO
Inventors: 胡恒; 胡红星; 成文东; 黄惠斌; 于涛; 刘虹
Original assignee: 中汽创智科技有限公司
Priority date: 2021-11-02
Filing date: 2022-11-01
Publication date: 2023-05-11
Also published as: CN114124472B; US20230137489A1; CN114124472A; US11985005B2

Abstract

本发明公开了一种车载网络CAN总线入侵检测方法，包括以下步骤：获取车载网络CAN总线正常报文，按时间顺序统计出每个CAN ID所有报文的周期，形成周期序列，作为算法的输入；算法将每个CAN ID的周期序列划分为固定长度，然后为每个CAN ID训练一个GMM-HMM模型，得出正常周期序列的似然概率；对于被测报文序列，同样统计出每个CAN ID的周期序列，输入模型后计算出生成该序列的似然概率，通过比较该似然概率与上一步得到的似然概率的阈值作比较，来判断报文序列是否异常。本发明解决CAN总线报文周期异常检测问题，可以发现DoS、模糊、重放等向总线***报文的攻击行为。

Description

一种车载网络CAN总线入侵检测方法及***

本申请要求于2021年11月2日提交中国专利局、申请号为202111287157.3、发明名称为“一种基于GMM-HMM的车载网络CAN总线入侵检测方法及***”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及车辆入侵检测技术领域，特别是涉及一种车载网络CAN总线入侵检测方法及***。

背景技术

近年来，车联网进入了一个迅速发展的时期。车辆上的车载设备通过无线通信技术连接网络，来获取更加丰富的服务和强大的功能，同时也为网络攻击提供了更多的可能。攻击者可以通过各种手段攻击到车辆电子***，对车载CAN总线发起DoS、模糊、重放、篡改等攻击，将可能严重影响到车辆的行驶安全，威胁到驾驶员和其他交通参与者的人身安全和财产安全。因此，有必要对CAN总线通信状态和内容进行实时监测，并及时报告异常情况，以保障CAN总线的通信安全。

以往针对CAN总线入侵监测的方法，不少是基于深度学习、神经网络的机器学习方法，这类方法的可解释性很差，计算量要求很高，实用性比较弱；针对CAN总线报文周期特征的异常检测方法，往往只关注周期大小本身，而没有考虑不同周期之间的变化关系，导致对于存在多周期的报文的检测准确率下降。

发明内容

为了解决现有技术存在的不足，本发明的目的是提出了一种车载网络CAN总线入侵检测方法，即基于GMM-HMM(高斯混合模型-隐马尔可夫模型)的车载网络CAN总线入侵检测方法。所述方法利用了一种无监督的基于统计学的概率算法，可以提取出报文序列存在的不同周期，并给出不同周期之间的转移关系，即从上一个周期变化为下一个周期的概率。通过计算被测报文序列关于上述周期特征的似然概率，可以判断被测报文序列是否存在异常，可以发现DoS、模糊、重放等向总线***报文的攻击行为。

本发明提出的车载网络CAN总线入侵检测方法，其原理在于：由于CAN总线报文存在周期型、事件型等多种发送方式，导致了CAN总线报文存在不同的发送周期，由于CAN总线的仲裁机制和噪声影响，导致了报文的帧间间隔是围绕某一特定周期而有一定波动的，通过统计发现这种波动呈现出高斯分布的形态，所以使用混合高斯模型GMM拟合这种分布，来还原报文被定义的发送周期，此时GMM就代表了报文的一个发送周期，将每个GMM作为一个状态，使用HMM算法统计每个状态之间的转移关系，就可以得到报文每个周期之间的转移关系，从而可以使用GMM-HMM对报文的周期特征建模。通过模型可以计算产生某一周期序列的似然概率，如果序列中存在偏离既有周期太大的周期，或者出现了不应该出现的转移关系，那么该周期序列的似然概率就会明显下降，从而可以判断其异常情况。

本发明提出的车载网络CAN总线入侵检测方法，包括以下步骤：

步骤1：获取车载网络CAN总线正常报文；

所述报文的信息包括时间戳、CAN ID、数据长度码DLC、数据。

步骤2：对于每个CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列，作为GMM-HMM的算法输入；

所述计算的周期为相同CAN ID的任意连续两帧报文之间的时间间隔；所述报文周期的计算方法为连续两帧报文中后一帧报文的时间戳减去前一帧报文的时间戳所得的差值。

步骤3：对于每个CAN ID的周期序列，为其构建和训练一个GMM-HMM模型M _id，并计算在该模型中，该CAN ID正常序列的最小似然概率score _id；

步骤3的具体步骤如下：

步骤3.1：搭建GMM-HMM算法模型，模型结构如图2所示，所述算法模型中包括一个或多个GMM模型，GMM模型结构如图3所示，x轴为统计对象，y轴为统计数量，一个GMM模型是若干高斯分布的组合，每个GMM模型是HMM模型的一个状态，GMM模型即HMM状态两两之间存在概率转移关系，其中GMM-HMM模型对应于CAN ID的周期模型，一个GMM模型对应于CAN ID的一种周期，GMM模型即HMM状态，HMM状态两两之间的转移关系对应于CAN ID报文周期之间的跳变关系。作为GMM-HMM模型输入的周期序列称为观测序列，观测序列由隐藏状态序列随机产生，这里的隐藏状态指该CAN ID报文本身所定义的发送周期，而报文在发送时会受到总线其他报文和环境的影响，所以实际发送的周期也就是被观测到的周期和定义的不一定一样，GMM-HMM模型通过GMM拟合观测周期分布获得可能的预先定义的周期，然后通过HMM统计出它们之间的跳变关系，从而为该CAN ID的周期建模；

步骤3.2：设定GMM-HMM算法的训练参数，算法迭代轮数c＝10，迭代收敛阈值tol＝0.01，GMM模型即HMM模型状态的个数n＝4，每个GMM模型的高斯成分的个数K＝2，HMM模型状态初始概率π、状态转移概率矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w；并对HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w做随机初始化。GMM模型为

HMM模型为λ＝(π,A,B)，其中发射概率B是隐藏状态生成观测值的概率，也就是定义周期产生观测周期的概率，即GMM模型产生样本点x的概率p(x)；在训练过程中要求算法的训练效果较好，并且速度越快越好；迭代过程中达到设定的迭代轮数或迭代收敛阈值，则迭代结束；在一般的使用场景中，使用默认值，迭代轮数c＝10，迭代收敛阈值tol＝0.01即可；

步骤3.3：对于每个CAN ID的周期序列，分别将其划分为长度为T＝150的周期序列组成的向量Cycle _id，其中T可以根据经验进行调整设置；如果T的设置值过小则难以有效提取特征，如果T的设置值过大，则会降低异常周期的影响，都会使检测能力降低；

步骤3.4：将Cycle _id向量划分成训练集Train _id和验证集Verify _id两部分，要求训练集和验证集没有重叠部分，两者的划分比例根据经验设置为9:1；

步骤3.5：将Train _id作为输入，使用Baum-Welch算法训练GMM-HMM模型的模型参数。

设Train _id中的观测样本为O＝{o ₁,o ₂,…,o _T}，则{o ₁,o ₂,…,o _t},t≤T且t时刻状态s _t为i的概率α _ti＝P(o ₁,o ₂,…,o _t,s _t＝i)用前向算法计算为：

其中α _ji是指状态转移矩阵A中第j个状态转移到第i个状态的概率，

是指发射概率B中第i个状态生成观测值

的概率。生成观测序列O的概率为：

t时刻状态st为i且t+1时刻开始的观测序列为{o _t+1,o _t+2,…,o _T}的概率β _ti＝P(o _t+1,o _t+2,…,o _T,s _t＝i)用后向算法计算为：

β _Ti＝1

生成观测序列O的概率为：

观测序列在t时刻状态s _t为i的概率γ _ti和观测序列在t时刻状态s _t为i且t+1时刻状态s _t+1为j的概率ξ _tij的计算公式为：

迭代训练GMM-HMM模型参数的公式为：

其中，w _{ik}，μ _ik，Σ _ik是第i个状态即第i个GMM模型中第k个高斯成分的参数，γ _tik＝γ _tir _ik是观测序列在t时刻的观测值属于第i个状态第k个高斯成分的概率，其中

是第i个状态中的样本属于第k个高斯成分的概率。

步骤3.6：根据训练好的GMM-HMM模型，将Verify _id作为输入，使用前向-后向算法计算同一CAN ID中每个长度为T的周期序列样本的似然概率；

步骤3.7：统计上一步得到的似然概率的最小值为score _id。

步骤4：使用训练好的GMM-HMM模型，计算被测报文序列每个CAN ID的周期序列的似然概率，通过与score的阈值作比较，来判断被测报文序列是否异常。

步骤4的具体步骤如下：

步骤4.1：对于每个被测的CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列；

步骤4.2：对于每个CAN ID的周期序列，将每个CAN ID划分为等长的，长度为T的周期序列组成的向量Test _id，其中T根据经验设置为150；长度T在设置时可以选择与模型训练时设定的长度一致，也可以不一致；长度一致时可以达到更好的检测效果；

步骤4.3：将Test _id作为输入，使用前向-后向算法利用每个CAN ID对应的GMM-HMM模型计算每个CAN ID的每个周期序列的似然概率；

步骤4.4：将计算出来的似然概率与score _id的阈值作比较，如果计算获得的似然概率小于阈值范围，则判断为异常周期序列，其中阈值范围根据经验设置为

本发明的有益效果是：本发明提供了一种CAN总线入侵检测方法，能够提取报文的不同发送周期和不同周期之间的转移关系，从而能够对向CAN总线***报文导致周期异常的情况进行检测，相对于解决同类问题的机器学习方法可解释性强，考虑特征更全面，训练速度快，所需算力少，能够应对未知的攻击模式。

说明书附图

图1是本发明入侵检测方法的流程图。

图2是本发明方法中GMM-HMM模型结构图。

图3是本发明方法中GMM模型的结构图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提供了一种基于GMM-HMM的车载网络CAN总线入侵检测方法，具体实施步骤如下：

步骤1：获取CAN总线正常报文。

步骤2：对于每个CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列。

步骤3：对每个CAN ID的周期序列构建和训练一个GMM-HMM模型，并计算正常序列的最小似然概率score _id。

步骤3.1：搭建GMM-HMM算法模型，所述算法模型中包括一个或多个GMM模型，每个GMM模型是HMM模型的一个状态，HMM模型的状态两两之间存在概率转移关系。

步骤3.2：设定GMM-HMM算法的训练参数，算法迭代轮数c＝10，迭代收敛阈值tol＝0.01，GMM模型即HMM模型状态的个数n＝4，每个GMM模型的高斯成分的个数K＝2，HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w；对HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w做随机初始化；所述HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w为模型训练时进行迭代的参数。

步骤3.3：对于每个CAN ID的周期序列，分别将其划分为长度为T ＝150的周期序列组成的向量Cycle _id，其中下标表示CAN ID。

步骤3.4：将Cycle id向量划分成训练集Train _id和验证集Verify _id两部分。

步骤3.5：将Train _id作为输入，借助python hmmlearn库训练GMM-HMM模型的模型参数。

步骤3.6：根据训练好的GMM-HMM模型，将Verify _id作为输入，借助python hmmlearn库计算每个周期序列样本的似然概率。

步骤3.7：统计上一步得到的似然概率的最小值为score _id。

步骤4.1：对于被测的每个CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列。

步骤4.2：对于每个CAN ID的周期序列，分别将其划分为长度为T＝150的周期序列组成的向量Test _id，其中下标表示CAN ID。

步骤4.3：将Test _id作为输入，借助python hmmlearn库计算每个模型生成每个周期序列的似然概率。

步骤4.4：将计算出来的似然概率与score _id的阈值比较，设定阈值为

如果小于阈值范围

则判断为异常周期序列。

实施例1

使用CANoe连接汽车OBD接口，采集30分钟CAN总线报文保存到本地，对采集的报文进行预处理，提取出时间戳、CAN ID、DLC和数据等信息，作为基于本方法的输入报文，训练出其中每个CAN ID的GMM-HMM模型，然后将模型部署到CAN总线网关上，对总线上存在的报文进行监听，记录每个CAN ID出现的时间戳并计算出周期，保存最近150个周期最为被测周期序列，通过模型计算出似然概率，来判断该周期序列是否异常，若出现异常则产生警告显示在仪表上。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

一种车载网络CAN总线入侵检测方法，其特征在于，包括以下步骤：

步骤1：获取车载网络CAN总线正常报文；

步骤2：对于每个CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列，作为GMM-HMM的算法输入；

步骤3：对于每个CAN ID的周期序列，为其构建和训练一个GMM-HMM模型M _id，并计算在该模型中，该CAN ID正常序列的最小似然概率score _id；

步骤4：使用每个训练好的GMM-HMM模型M _id，计算被测报文序列中模型对应CAN ID的周期序列的似然概率，将其与对应CAN ID的score _id的阈值作比较，来判断被测报文序列是否异常。
根据权利要求1所述的车载网络CAN总线入侵检测方法，其特征在于，步骤1中，所述报文的信息包括时间戳、CAN ID、数据长度码DLC、数据。
根据权利要求1所述的车载网络CAN总线入侵检测方法，其特征在于，步骤2中，所述计算的周期为相同CAN ID的任意连续两帧报文之间的时间间隔；所述报文周期的计算方法为连续两帧报文中后一帧报文的时间戳减去前一帧报文的时间戳所得的差值。
根据权利要求1所述的车载网络CAN总线入侵检测方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.1：搭建GMM-HMM算法模型，所述算法模型中包括一个或多个GMM模型，每个GMM模型是HMM模型的一个状态，HMM模型的状态两两之间存在概率转移关系；

步骤3.2：设定GMM-HMM算法的训练参数，包括算法迭代轮数c，迭代收敛阈值tol，GMM模型即HMM模型状态的个数n，每个GMM模型的高斯成分的个数K，HMM模型状态初始概率π、状态转移概率矩阵A，以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w；迭代过程中达到设定的迭代轮数或迭代收敛阈值，则迭代结束；

步骤3.3：对于每个CAN ID的周期序列，将每个CAN ID的周期序列划分为等长的，长度为T的周期序列组成的向量Cycle _id，其中T设置为100～200；

步骤3.4：将Cycle _id向量划分成训练集Train _id和验证集Verify _id两部分，要求训练集和验证集没有重叠部分，两者的划分比例设置为(4～9)∶1；

步骤3.5：将Train _id作为输入，使用Baum-Welch算法训练GMM-HMM模型的模型参数；

步骤3.6：根据训练好的GMM-HMM模型，将Verify _id作为输入，使用前向-后向算法计算同一CAN ID中每个长度为T的周期序列样本的似然概率；

步骤3.7：统计上一步得到的似然概率的最小值为score _id。
根据权利要求1所述的车载网络CAN总线入侵检测方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1：对于被测的每个CAN ID，按时间顺序计算出该CAN ID所有报文的周期，形成一个周期序列；

步骤4.2：对于每个CAN ID的周期序列，将每个CAN ID的周期序列划分为等长的，长度为T的周期序列组成的向量Test _id，其中T设置为100～200；

步骤4.3：将Test _id作为输入，使用前向-后向算法利用每个CAN ID对应的GMM-HMM模型计算每个CAN ID的每个周期序列的似然概率；

步骤4.4：将计算出来的似然概率与score _id的阈值作比较，如果计算出的似然概率小于阈值范围，则判断为异常周期序列，其中阈值范围设置为0.3score _id～0.7score _id。
一种实现如权利要求1-5之任一项所述方法的***，其特征在于，所述***包括：数据预处理模块，模型训练模块，异常检测模块。
如权利要求6所述的***，其特征在于，所述数据预处理模块用于对输入的车载网络CAN总线正常报文进行预处理；所述预处理操作包括将报文按照CAN ID分类，然后分别计算出它们的报文周期序列，再分割成等长的周期序列样本，最后划分出训练集和验证集；

所述模型训练模块训练和确定各个GMM-HMM模型的参数，包括算法迭代轮数c，迭代收敛阈值tol，GMM模型即HMM模型状态的个数n，每个GMM模型的高斯成分的个数K，HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w；对HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w做随机初始化，然后根据训练好的模型计算验证集中正常周期序列样本的最小似然概率；所述HMM模型状态初始概率π、状态转移矩阵A以及每个GMM模型中每个高斯成分的均值μ、方差∑、权重w为模型训练时进行迭代的参数；

所述异常检测模块负责对被测报文序列进行检测，首先将报文按照CAN ID分类，然后计算出被测报文序列的周期序列，接着每次对被测报文的每个周期序列样本计算其似然概率，通过比较该似然概率与正常样本的最小似然概率的大小，来判断该样本是否异常。