CN102209385B - 一种基于空间离群数据挖掘算法计算基站位置的方法 - Google Patents

一种基于空间离群数据挖掘算法计算基站位置的方法 Download PDF

Info

Publication number
CN102209385B
CN102209385B CN 201110137078 CN201110137078A CN102209385B CN 102209385 B CN102209385 B CN 102209385B CN 201110137078 CN201110137078 CN 201110137078 CN 201110137078 A CN201110137078 A CN 201110137078A CN 102209385 B CN102209385 B CN 102209385B
Authority
CN
China
Prior art keywords
base station
data
point
distance
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110137078
Other languages
English (en)
Other versions
CN102209385A (zh
Inventor
黄家乾
吕春月
陆萍
时宜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yaxon Networks Co Ltd
Original Assignee
Xiamen Yaxon Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yaxon Networks Co Ltd filed Critical Xiamen Yaxon Networks Co Ltd
Priority to CN 201110137078 priority Critical patent/CN102209385B/zh
Publication of CN102209385A publication Critical patent/CN102209385A/zh
Application granted granted Critical
Publication of CN102209385B publication Critical patent/CN102209385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于空间离群数据挖掘算法计算基站位置的方法,对于某一待处理数据集T,首先,计算出数据集中心。数据中心的确定可以选取数据集的几何中心、重心等。其次,用Di表示第i个点到数据集中心的距离,记D为Di的均值,最后,将那些|D(k)-P(k)|超过一定阈值的点记为离群点。相对于K-最近邻算法来讲,该算法只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,而且这种算法更适合于提取基站采集数据集中的离群点。本发明更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效,只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,更适合于提取基站采集数据集中的离群点。

Description

一种基于空间离群数据挖掘算法计算基站位置的方法
技术领域
本发明涉及基站定位领域,主要涉及一种基于空间离群数据挖掘算法并根据基站数据采集点计算基站位置的方法。
背景技术
基于位置的服务(Location Based Service,LBS),它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息***(GIS,Geographic Information System)平台的支持下,为用户提供相应服务的一种增值业务。因此无线定位技术是LBS中一项关键技术,同时也是解决企业移动应用如移动CRM***中全方位定位需求(包括室内、室外)的有效手段。
在移动通讯网络定位***中,是根据终端接入的基站位置进行定位的。因此定位过程中基站位置获取是基础。
空间离群数据挖掘的目的在于找出隐含在海量数据中相对稀疏而孤立的异常数据,即空间邻域中非空间属性与其他对象有明显不同的空间对象;而且,它们是局部不稳定的,即使对于总体来说并不异常,但对邻近的其他对象却具有极端的值。目前离群点还没有一个被普遍采纳的定义, Hawkins对离群定义在一定意义上揭示了离群点的本质:“离群点与其他点如此不同,以至于让人怀疑它们是由另外一个不同的机制产生的”。
空间数据具有空间属性和非空间属性两种属性,Shekhar 等对空间离群点定义中,用空间属性定义邻域关系,用非空间属性定义距离函数,这种定义符合GIS 的一般思维,但在地理现象中经常会出现以相似的非空间属性为邻接的情况,因此可以从一个相反的角度来定义和挖掘空间离群点,即用非空间属性来定义邻域关系,用空间属性来定义距离函数。换言之,空间离群点是在和其非空间属性邻域内的其他空间对象在空间位置上差异十分显著的空间对象。
近年来,研究人员提出了大量的离群检测算法,大致可以把它们归纳为以下几类:基于统计的方法、基于密度的方法、基于深度的方法、基于距离的方法和基于偏离的方法。本文主要采用基于距离的方法去除基站数据中离群数据,然后利用剩余数据计算基站位置。
基于距离的离群点最早是由Knorr和Ng提出的,他们把记录看作高维空间中的点,离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点,通常被描述为DB ( pct,dmin ) ,数据集T中一个记录O称为离群点,当且仅当数据集T中至少有pct部分的数据与O的距离大于dmin。换一种角度考虑,记M =N ×(1 - pct) ,离群检测即判断与点O距离小于dmin的点是否多于M。若是, 则O 不是离群点,否则O 是离群点。
Rastogi &Ramaswamy在上面基于距离的离群点定义的基础上,提出改进的基于距离的k-最近邻( k-NN) 离群检测算法。用Dk( P)表示点P的第k个最近邻点点的距离,首先计算出数据集T中所有点的k-最近邻距离,然后按值大小降序排列,算法把排在最前面的n0 个点标记为n0 个离群点。此算法的一个主要缺陷是要计算所有点的Dk ( P) , 每计算一个点的Dk ( P)就要扫描一次数据集,对于大数据集,其I/O次数常常使得算法的计算效率非常低。
发明内容
为了解决上述问题,本发明是根据采集到同一基站数据的特点,对k-最近邻( k-NN) 离群检测算法进行改进,提出了一种基于空间离群数据挖掘算法计算基站位置的方法,更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效。
本发明的核心思想是:对于某一待处理数据集T,首先,计算出数据集中心。数据中心的确定可以选取数据集的几何中心、重心等。其次,用Di表示第i个点到数据集中心的距离,记D为Di的均值,最后,将那些|D(k)-P(k)|超过一定阈值的点记为离群点。相对于K-最近邻算法来讲,该算法只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,而且这种算法更适合于提取基站采集数据集中的离群点。
本发明的技术方案是:一种基于空间离群数据挖掘算法计算基站位置的方法,包括以下步骤:
步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3;
步骤2.根据基站数据采集点集合中所有采集点的数据计算出中心点C0,作为基站的初始位置,执行步骤4;
步骤3.根据终端设备的信号强度将基站数据采集点集合分为若干基站数据采集组,执行步骤4;
步骤4.计算同一基站数据采集组中各点i到中心点C0的距离Di,再求所有Di的平均距离D,执行步骤5;
步骤5.求出同一基站数据采集组的各点i到中心点C0的距离Di与平均距离D的偏差Di0,对同一组中所有Di0由大到小降序排序;
步骤6.判断Di0是否大于设定阈值X,若是,则执行步骤7,否则执行步骤8; 
步骤7. 从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;
步骤8. 在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合;
步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度计算出基站的最终位置。
进一步的,步骤2中所述的中心点C0的计算方法为:几何平均值算法或者算数平均值算法。因为此时的基站位置只是一个初始值,是为判断离群点提供的参考的数据集中心,简单的取平均算法即可满足要求。
进一步的,步骤4、步骤5中所述的平均距离D为各点i到中心点C0的距离Di的算数平均值。因为此时的平均距离D也是一个参考值,是为判断离群点偏离程度提供的参考的数据,简单的取平均算法即可满足要求。
进一步的,步骤6中所述的设定阈值X的取值依据是:Di0/D>0.3。阈值的确定是一个关键,如果阈值的取值过小则会漏掉一些离群点,过大则会滤掉正常点,取Di0/D>0.3设定阈值的设定依据,能够更精确地判定离群点和正常点。
进一步的,步骤9中,新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。经过对基站采集数据离群数据挖掘处理之后,剩余采集点的信号强度的空间分布处于正常状态。同一基站手机信号强度分布规律是手机信号强度会随着距离基站的距离的增加而减弱。基于这种规律采用基于手机信号强度的加权平均算法来计算基站的位置。
通过本发明的一种基于空间离群数据挖掘算法计算基站位置的方法,能够对k-最近邻( k-NN) 离群检测算法进行改进,提出了一种基于空间离群数据挖掘算法计算基站位置的方法,更加适合于离群基站数据点的挖掘算法,从而使得基站的定位更加准确高效。相对于K-最近邻算法来讲,本发明只计算每一个点到数据集中心的距离,省去了每计算一个点都要扫描一次整个数据集的步骤,更适合于提取基站采集数据集中的离群点。
附图说明
图 1 是本发明一最佳实施例的离群点区域的示意图。
图 2 是本发明一最佳实施例的流程图。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
如图1所示,白色区域中的数据为离群点数据,其判定离群点的方法为:某数据点到数据集中心的距离Di0与所有数据点到数据集中心的平均距离D的比值大于0.3,即Di0/D>0.3时,该点为离群点。
结合图2,对本发明的一最佳实施例的流程进一步说明;
步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3;
步骤2.根据基站数据采集点集合中所有采集点的数据采用几何平均值算法计算出中心点C0,作为基站的初始位置,执行步骤4;
步骤3.根据终端设备的信号强度将基站数据采集点集合级分为若干基站数据采集组,执行步骤4;
步骤4.计算同一基站数据采集组中各点i到中心点C0的距离Di,再采用算数平均值计算出所有Di的平均距离D,执行步骤5;
步骤5.求出同一基站数据采集组的各点i到中心点C0的距离Di与平均距离D的偏差Di0,对同一组中所有Di0由大到小降序排序;
步骤6.判断Di0是否满足Di0/D>0.3,若是,则执行步骤7,否则执行步骤8; 
步骤7. 从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;
步骤8. 在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合;
步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。
本发明从相反的角度考虑可以使用非空间属性来定义邻域关系,用空间属性来定义距离函数的思想,则终端设备的信号强度可以作为划分数据集的标准,而将每个点到数据集中心的距离作为距离函数。同时这种分组方式也是为了避免了不同手机信号强度之间数据集的干扰,降低数据处理的复杂性。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。 

Claims (5)

1.一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,包括以下步骤:
步骤1.采集基站数据,建立基站数据采集点集合,执行步骤2、步骤3;
步骤2.根据基站数据采集点集合中所有采集点的数据计算出中心点C0,作为基站的初始位置,执行步骤4;
步骤3.根据终端设备的信号强度将基站数据采集点集合分为若干基站数据采集组,执行步骤4;
步骤4.计算同一基站数据采集组中各点i到中心点C0的距离Di,再求所有Di的平均距离D,执行步骤5;
步骤5.求出同一基站数据采集组的各点i到中心点C0的距离Di与平均距离D的偏差Di0,对同一组中所有Di0由大到小降序排序,执行步骤6;
步骤6.判断Di0是否大于设定阈值X,若是,则执行步骤7,否则执行步骤8; 
步骤7. 从该组中去除该点i,重复步骤4、步骤5、步骤6和步骤7,直至所有基站数据采集组的数据都处理完毕;
步骤8. 在该组中保留该点i数据,将所有组中保留的点i的数据重新组成新的集合;
步骤9.根据新集合中的所有点i的数据结合终端设备的信号强度计算出基站的最终位置。
2.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤2中所述的中心点C0的计算方法为:几何平均值算法或者算数平均值算法。
3.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤4、步骤5中所述的平均距离D为各点i到中心点C0的距离Di的算数平均值。
4.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤6中所述的设定阈值X的取值依据是:Di0/D>0.3。
5.根据权利要求1所述的一种基于空间离群数据挖掘算法计算基站位置的方法,其特征在于,步骤9中,新集合中的所有点i的数据结合终端设备的信号强度采用加权平均值的算法计算出基站的最终位置。
CN 201110137078 2011-05-25 2011-05-25 一种基于空间离群数据挖掘算法计算基站位置的方法 Active CN102209385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110137078 CN102209385B (zh) 2011-05-25 2011-05-25 一种基于空间离群数据挖掘算法计算基站位置的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110137078 CN102209385B (zh) 2011-05-25 2011-05-25 一种基于空间离群数据挖掘算法计算基站位置的方法

Publications (2)

Publication Number Publication Date
CN102209385A CN102209385A (zh) 2011-10-05
CN102209385B true CN102209385B (zh) 2013-10-16

Family

ID=44698000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110137078 Active CN102209385B (zh) 2011-05-25 2011-05-25 一种基于空间离群数据挖掘算法计算基站位置的方法

Country Status (1)

Country Link
CN (1) CN102209385B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013174013A1 (zh) * 2012-05-25 2013-11-28 华为技术有限公司 一种确定站址的方法、服务器及***
CN105138650A (zh) * 2015-08-28 2015-12-09 成都康赛信息技术有限公司 一种基于孤立点挖掘的Hadoop数据清洗方法及***
CN105678704B (zh) * 2015-11-02 2018-09-25 安庆师范学院 一种基于视觉感知的非局部中值盲降噪方法
CN106162652A (zh) * 2016-08-29 2016-11-23 杭州电子科技大学 一种基于路测数据的基站位置定位方法
CN108521628A (zh) * 2018-03-29 2018-09-11 维沃移动通信有限公司 一种定位方法、装置和移动终端
CN111639703B (zh) * 2020-05-29 2023-11-14 国家计算机网络与信息安全管理中心广东分中心 一种基于离散点集最小包围圆计算基站位置的方法
CN113466826A (zh) * 2021-05-12 2021-10-01 武汉中仪物联技术股份有限公司 测距雷达的数据去噪方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1354491B1 (en) * 2000-12-29 2008-02-06 Ekahau Oy Location estimation in wireless telecommunication networks
CN101888640A (zh) * 2010-07-09 2010-11-17 广州杰赛科技股份有限公司 一种城市移动台定位方法
CN101945325A (zh) * 2010-08-13 2011-01-12 厦门雅迅网络股份有限公司 一种基于基站定位的朋友感知方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1354491B1 (en) * 2000-12-29 2008-02-06 Ekahau Oy Location estimation in wireless telecommunication networks
CN101888640A (zh) * 2010-07-09 2010-11-17 广州杰赛科技股份有限公司 一种城市移动台定位方法
CN101945325A (zh) * 2010-08-13 2011-01-12 厦门雅迅网络股份有限公司 一种基于基站定位的朋友感知方法

Also Published As

Publication number Publication date
CN102209385A (zh) 2011-10-05

Similar Documents

Publication Publication Date Title
CN102209385B (zh) 一种基于空间离群数据挖掘算法计算基站位置的方法
CN110447277B (zh) 一种指纹定位方法及相关设备
CN102348160B (zh) 基于多模信号的定位方法与***、定位平台
CN107046700B (zh) 一种预测移动终端切换基站的方法和装置
CN102521973B (zh) 一种手机切换定位的道路匹配方法
CN102571910B (zh) 在社交网络中查找附近用户的方法和服务器
US8477721B2 (en) Wireless communication terminal and wireless communication system
CN108181607A (zh) 基于指纹库的定位方法、装置及计算机可读存储介质
JP2006014320A (ja) 2gおよび3gシステム間の接続の自動切換のための2g−3g近傍計算の方法とシステム
WO2017219598A1 (zh) 一种定位方法和可穿戴设备
WO2020024597A1 (zh) 室内定位方法和装置
KR20140022695A (ko) 전파 환경 정보를 이용한 측위 방법 및 장치
JP6358247B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN102802233B (zh) 一种信息传输方法与用户设备
WO2016062161A1 (zh) 资源利用方法及装置
EP2501166B1 (en) Method and system for selecting candidate neighboring cells
CN103945433A (zh) 一种网络弱覆盖区域确定方法及装置
JP6223302B2 (ja) 携帯端末を所持したユーザの滞在判定が可能な装置、プログラム及び方法
CN115396977A (zh) 信号传输路径的确定方法、装置、设备及存储介质
JP2012039389A (ja) 基地局増設位置決定方法及び基地局
CN105491574A (zh) 一种邻区规划中确定邻区优先级的方法及装置
JP5418059B2 (ja) 隣接セル設計装置、隣接セル設計方法及びプログラム
KR20160139796A (ko) 로그 데이터를 이용한 ap 위치 추정 방법 및 장치
KR100867715B1 (ko) Mle 및 lse 개념을 이용한 강건 위치 인식 방법
JP6433059B2 (ja) 通信レコードに基づき移動端末を測位する装置、プログラム及び方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant