WO2020134299A1

WO2020134299A1 - 室内外标记的区分方法、分类器的训练方法及设备和介质

Info

Publication number: WO2020134299A1
Application number: PCT/CN2019/109438
Authority: WO
Inventors: 钟勇才
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-12-25
Filing date: 2019-09-30
Publication date: 2020-07-02
Also published as: CN111368862A

Abstract

一种室内外标记的区分方法、分类器的训练方法及设备和介质，所述区分方法包括：采集目标用户的测量报告数据(S101)；将所述目标用户的测量报告数据输入到用于分类用户的室内外标记的随机森林分类器(S102)；根据所述随机森林分类器的分类计算，确定所述目标用户的室内外标记(S103)。

Description

室内外标记的区分方法、分类器的训练方法及设备和介质

本文要求享有2018年12月25日提交的名称为“室内外标记的区分方法、分类器的训练方法及设备和介质”的中国专利申请CN201811595402.5的优先权，其全部内容通过引用并入本文中。

技术领域

本文涉及通信领域，特别是涉及一种室内外标记的区分方法、分类器的训练方法及设备和介质。

背景技术

在移动互联网时代，人们的生活方式和行为习惯都被智能终端所改变。人们习惯性地通过基于位置服务(LBS，Location Based Service)寻找商场、医院、银行，甚至交友等等，其中部分移动业务是发生在室内，也有部分移动业务发生在室外。如何针对某个特定房间，能够准确判断出移动业务用户位于室内还是位于室外至关重要。例如：区分室内外用户可以解决运营商关注的如何精准识别深度覆盖问题，并依此定制精准加站方案。如果是室内覆盖不足，则添加室分站；如果是室外覆盖不足，则添加室外站：对于需要照顾的老人或小孩，可以通过室内外区分判断他们是否在房间或者区域内；以及在公司内部可以访问网络，一旦离开办公楼就无法访问公司信息等。

对上述应用的需求分析，移动业务室内外区分对实时性要求高，同时还对准确性要求高。但是，在一些情况下在判断移动用户室内外区分方面存在效率低下、误判率高和实时性得不到保证的问题。

发明内容

为了克服上述缺陷，本文要解决的技术问题是提供一种室内外标记的区分方法、分类器的训练方法及设备和介质，用以至少解决在确定用户室内外标记方面存在误判率高的问题。

为解决上述技术问题，本文实施例中的一种用户室内外标记的区分方法，包括：采集目标用户的测量报告数据；将所述目标用户的测量报告数据输入到用于分类用户的室内外标记的随机森林分类器；根据所述随机森林分类器的分类计算，确定所述目标用户的室内外标记。

为解决上述技术问题，本文实施例中的一种随机森林分类器的训练方法，包括：从采集的目标区域内样本用户的测量报告数据和每条训练数据对应的实际室内外标记中提取训练数据集；将所述训练数据集输入到预设的随机森林分类模型中进行训练；在训练过程中，通过网格搜索所述随机森林分类模型的最优模型参数；将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器。

为解决上述技术问题，本文实施例中的一种通信节点设备，包括存储器和处理器，所述存储器存储有用户的室内外标记程序，所述处理器执行所述计算机程序，以实现如上区分方法的步骤。

为解决上述技术问题，本文实施例中的一种随机森林分类器的训练设备，包括存储器和处理器，所述存储器存储有随机森林分类器的训练程序，所述处理器执行所述计算机程序以实现如上训练方法的步骤。

为解决上述技术问题，本文实施例中的一种计算机可读存储介质，存储有用户的室内外标记程序，所述计算机程序可被至少一个处理器执行，以实现如上区分方法的步骤。

为解决上述技术问题，本文实施例中的一种计算机可读存储介质，存储有随机森林分类器的训练程序，所述计算机程序可被至少一个处理器执行，以实现如上训练方法的步骤。

本文上述说明仅是本文技术方案的概述，为了能够更清楚了解本文的技术手段，而可依照说明书的内容予以实施，并且为了让本文的上述和其它目的、特征和优点能够更明显易懂，以下特举本文的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本文的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本文实施例中一种用户室内外标记的区分方法的流程图；

图2是本文实施例中一种可选地用户室内外标记的区分方法的流程图；

图3是本文实施例中目标用户的室内外标记的预测效果图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本文的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

使用用于区分元件的诸如“第一”、“第二”等前缀仅为了有利于本文的说明，其本身没有特定的意义。

实施例一

本文实施例提供一种用户室内外标记的区分方法，如图1所示，所述方法包括：S101，采集目标用户的测量报告数据(MR，Measurement Report)；S102，将所述目标用户的测量报告数据输入到用于分类用户的室内外标记POSITIONMARK_REAL的随机森林分类器；S103，根据所述随机森林分类器的分类计算，确定所述目标用户的室内外标记。

其中，目标用户指代待定位的用户，用户一般指代移动用户。MR记录了移动用户在业务过程中的服务小区ID(标识)、RSRP(测试功率值)、(LTE参考信号接收质量rsrq)、TA_CALC(时延)、AOA(入射角度)、STARTTIME(开始时间)、ENDTIME(结束时间)、IMSI(国际移动用户识别码)等无线测量信息。在本文实施例中采集的目标用户的MR数据包括AOA(入射角度)、TA_CALC(时延)、RSRP(测试功率值)、TADLTVALUE(下行时延)、TIME_DIFFERENCE(时间差endtime-starttime)。室内外标记用于标记用户处于室内或室外，也可以描述为室内或室外标记、室内室外标记。

本文实施例中方法可以应用于通信节点侧，例如基站侧；在确定过程中，基站可以实时采集的目标用户的MR数据，因此本文实施例中MR数据也可以描述为实时MR数据。由于确定过程是通过随机森林分类器的分类计算来实现的，因此确定过程也是一个预测过程。

本文实施例通过将采集的目标用户的MR数据输入到随机森林分类器进行分类计算，从而可以根据分类计算确定目标用户的室内外标记，进而在确定用户室内外标记方面有效降低误判率，并且基于MR数据进行判断，有效保证确定用户室内外标记过程中的实时性。

在上述实施例的基础上，下面给出几个具体及可选实施方式，用以细化和优化本文实施例，以使本文实施例的方案的实施更方便，准确。需要说明的是，在不冲突的情况下，以下实施方式可以互相任意组合。

为了有效保证确定用户室内外标记过程中的实时性，在一些实施方式中，所述将所述目标用户的测量报告数据输入到用于分类用户的室内外标记的随机森林分类器之前，包括：采集目标区域内样本用户的测量报告数据，以及每条测量报告数据对应的室内或室外标签；从采集的目标区域内样本用户的测量报告数据和每条训练数据对应的实际室内外标记中提取训练数据集；将所述训练数据集输入到预设的随机森林分类模型中进行训练；在训练过程中，通过GRIDSEARCHCV网格搜索所述随机森林分类模型的最优模型参数；将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器。

其中，目标区域可以是一个指定区域，模型参数可以包括决策树个数N_ESTIMATORS和计算属性CRITERION；可以通过Python代码实现随机森林分类模型，本文实施例中随机森林分类模型可以简称为模型。当然在将所述训练数据集和每条训练数据对应的实际室内外标记输入到预设的随机森林分类模型中进行训练之前，为了提高用户的室内外标记的预测准确性，可以将采集的目标区域内样本用户的测量报告数据以及每条测量报告数据对应的室内或室外标签作为原始数据，对所述原始数据进行数据预处理，剔除异常数据。

在预测过程中，提取训练数据集中的AOA(入射角度)、TA_CALC(时延)、RSRP(测试功率值)、TADLTVALUE(下行时延)、TIME_DIFFERENCE(时间差endtime-starttime)等特征为自变量X，对应的POSITIONMARK_REAL(室内室外标记)设为因变量Y，用自变量X决定室内室外标记Y；也就是说，将所述训练数据集中每个训练数据设置为自变量，将所述每个训练数据对应的实际室内外标记设置为由所述自变量决定的因变量，可以看成一个0-1分类问题，从而可以有效降低随机森林分类器训练过程的复杂度，并有效提高用户的室内外标记的预测准确性。

在预测过程中，也可以通过测试数据集来预测验证训练得到的随机森林分类模型，通过预测验证来保证得到的用户的室内外标记的预测准确性。也就说，对所述原始数据进行数据预处理，剔除异常数据，并从剔除异常数据的原始数据中提取特征值得到数据集，将数据集分成训练数据集和测试数据集两部分。不断将将测试数据集输入到训练后的随机森林模型中进行交差预测验证，直到找到相对较优的模型作为最终的随机森林分类模型。也就是说，所述将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器，可以包括：从所述样本测量报告数据中提取测试数据集；将所述测试数据集输入到所述最优模型参数对应的随机森林分类模型进行预测验证；确定预测验证结果与所述测试数据集对应设置的实际室内外标记之间的最小均方误差；在所述均方误差不大于预设的阈值时，将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器；在所述均方误差大于所述阈值时，重新通过网格搜索所述随机森林分类模型的最优模型参数。

实施例二

基于实施例一，本文实施例提供一种具体的用户室内外标记的区分方法，如图2所示，所述方法主要分成两个阶段：离线阶段和在线阶段，离线阶段主要用于随机森林分类器的训练，在线阶段主要用于对目标用于的实时预测，包括：

步骤201、采集目标区域内样本用户的MR数据。

选取一个指定区域，通过在基站侧采集用户上报的12000条MR数据。MR数据记录了用户在业务过程中的服务小区ID、TA_CALC、RSRP、RSRQ、TA、AOA、MRTIME、STARTTIME、ENDTIME、IMSI等无线测量信息，以及每条测量信息对应的POSTIONMARK_REAL室内外标记。

步骤202、异常数据处理。

将采取的12000条MR数据中的各个字段异常的数据或空值用0来代替，并对整个数据矩阵进行正交归一化处理。随机选取数据集中75％数据作为训练集，25％数据作为测试集分别保存到两个文件中。

步骤203、特征值对应的MR数据选取。

由于MR记录的指标项比较多，对整个模型的计算和准确性造成很多的影响。为了提高模型的计算和准确性，选取AOA(入射角度)、TA_CALC(时延)、RSRP(测试功率值)、TADLTVALUE(下行时延)、TIME_DIFFERENCE(时间差endtime-starttime)等特征值为自变量X，对应的POSITIONMARK_REAL(室内室外标记)设为因变量Y。这样将该问题转换为数学问题，用环境变量X决定室内室外标记Y，可以看成一个0-1分类问题，在本文实施例中随机森林分类模型具有更优的准确性和泛化性。通过Python代码构建随机森林分类模型，将训练数据集输入到RANDOMFORESTCLASSIFIER模型中开始进行训练。

步骤204、训练模型优化模型参数。

将训练数据集输入到RANDOMFORESTCLASSIFIER模型中，再通过GRIDSEARCHCV网格搜索最优的随机森林分类算法的决策树个数N_ESTIMATORS和计算属性CRITERION；将测试数据集输入到训练后的模型中进行交差验证。如果误差越小则选择该模型，否则继续调整模型参数，直到模型验证测试数据的误差足够小。

步骤205、衡量模型准确率机制。

将测试集数据输入到训练好的随机森林分类模型进行交叉预测验证，

交差预测验证测试集数据的预测值和真实值之间的最小均方误差。如果该误差越小模型越好，反之则差。每次将模型的预测数据集的准确性记录起来，选择准确率最高的模型，将该模型保存起来；在所述均方误差不大于预设的阈值时，将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器；在所述均方误差大于所述阈值时，重新通过网格搜索所述随机森林分类模型的最优模型参数。

步骤206、采集目标用户的实时MR数据。

随机选择一个区域的目标用户，在基站侧采集部分目标用户的MR实时数据，至少包括AOA(入射角度)、TA_CALC(时延)、RSRP(测试功率值)、TADLTVALUE(下行时延)、TIME_DIFFERENCE(时间差endtime-starttime)几个指标，再用这些指标实际预测移动用户的室内外标记。

步骤207、实时MR数据预处理。

实时数据中可能存在异常或空值数据，将这些异常数据用0来替代，选取训练模型对应的几个指标作为特征值。对特征值数据进行正交归一化处理，可以有效避免过拟合现象的发生。

步骤208、实时MR数据输入随机森林分类器进行预测。

如图3所示，将处理后的实时MR数据输入之前训练好的随机森林分类器中，经过随机森林分类器的拟合。

步骤209、可得这些目标用户的实时MR数据对应的室内、室外标记结果。

本文实施例有效提高用户的室内外标记的预测准确性，并且有效保证确定用户室内外标记过程中的实时性。

实施例三

本文实施例提供一种随机森林分类器的训练方法，所述方法包括：从采集的目标区域内样本用户的测量报告数据和每条训练数据对应的实际室内外标记中提取训练数据集；将所述训练数据集输入到预设的随机森林分类模型中进行训练；在训练过程中，通过网格搜索所述随机森林分类模型的最优模型参数；将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器。

本文实施例随机森林分类器的训练过程与实施例一的训练过程相同，在具体实现时，可以参阅实施例一，具有相应的技术效果。

实施例四

本文实施例提供一种通信节点设备，其中，所述设备包括存储器和处理器，所述存储器存储有用户的室内外标记程序，所述处理器执行所述计算机程序，以实现如实施例一和实施例二中任意一项所述方法的步骤。其中通信节点设备可以是基站等。

实施例五

本文实施例提供一种随机森林分类器的训练设备，所述设备包括存储器和处理器，所述存储器存储有随机森林分类器的训练程序，所述处理器执行所述计算机程序以实现如实施例三所述方法的步骤。

实施例六

本文实施例提供一种计算机可读存储介质，其中，所述存储介质存储有用户的室内外标记程序，所述计算机程序可被至少一个处理器执行，以实现如实施例一和实施例二中任意一项所述方法的步骤。

实施例七

本文实施例提供一种计算机可读存储介质，其中，所述存储介质存储有随机森林分类器的训练程序，所述计算机程序可被至少一个处理器执行，以实现如实施例三所述方法的步骤。

需要说明的是，实施例三至实施例七的具体实现可以参阅实施例一，具有相应的技术效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本文实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本文各个实施例所述的方法。

本文实施例有益效果如下：上述的各个实施例中通过将采集的目标用户的MR数据输入到随机森林分类器进行分类计算，从而可以根据分类计算确定目标用户的室内外标记，进而在确定用户室内外标记方面有效降低误判率，并且基于MR数据进行判断，有效保证确定用户室内外标记过程中的实时性。

上面结合附图对本文的实施例进行了描述，但是本文并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本文的启示下，在不脱离本文宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本文的保护之内。

Claims

一种用户室内外标记的区分方法，其中，所述方法包括：

采集目标用户的测量报告数据；

将所述目标用户的测量报告数据输入到用于分类用户的室内外标记的随机森林分类器；

根据所述随机森林分类器的分类计算，确定所述目标用户的室内外标记。
如权利要求1所述的方法，其中，所述将所述目标用户的测量报告数据输入到用于分类用户的室内外标记的随机森林分类器之前，包括：

从采集的目标区域内样本用户的测量报告数据和每条训练数据对应的实际室内外标记中提取训练数据集；

将所述训练数据集输入到预设的随机森林分类模型中进行训练；

在训练过程中，通过网格搜索所述随机森林分类模型的最优模型参数；

将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器。
如权利要求2所述的方法，其中，所述将所述训练数据集输入到预设的随机森林分类模型中进行训练之前，包括：

将所述训练数据集中每个训练数据设置为自变量，将所述每个训练数据对应的实际室内外标记设置为由所述自变量决定的因变量。
如权利要求2所述的方法，其中，所述将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器，包括：

从所述样本测量报告数据中提取测试数据集；

将所述测试数据集输入到所述最优模型参数对应的随机森林分类模型进行预测验证；

确定预测验证结果与所述测试数据集对应设置的实际室内外标记之间的最小均方误差；

在所述均方误差不大于预设的阈值时，将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器；

在所述均方误差大于所述阈值时，重新通过网格搜索所述随机森林分类模型的最优模型参数。
如权利要求1-4中任意一项所述的方法，其中，所述测量报告数据包括入射角度、时延、测试功率值、下行时延和时间差。
一种随机森林分类器的训练方法，其中，所述方法包括：

从采集的目标区域内样本用户的测量报告数据和每条训练数据对应的实际室内外标记中提取训练数据集；

将所述训练数据集输入到预设的随机森林分类模型中进行训练；

在训练过程中，通过网格搜索所述随机森林分类模型的最优模型参数；

将所述最优模型参数对应的随机森林分类模型作为所述随机森林分类器。
一种通信节点设备，其中，所述设备包括存储器和处理器，所述存储器存储有用户的室内外标记程序，所述处理器执行所述计算机程序，以实现如权利要求1-5中任意一项所述方法的步骤。
一种随机森林分类器的训练设备，其中，所述设备包括存储器和处理器，所述存储器存储有随机森林分类器的训练程序，所述处理器执行所述计算机程序以实现如权利要求6所述方法的步骤。
一种计算机可读存储介质，其中，所述存储介质存储有用户的室内外标记程序，所述计算机程序可被至少一个处理器执行，以实现如权利要求1-5中任意一项所述方法的步骤。
一种计算机可读存储介质，其中，所述存储介质存储有随机森林分类器的训练程序，所述计算机程序可被至少一个处理器执行，以实现如权利要求6所述方法的步骤。