CN107016042B - 一种基于用户位置日志的地址信息校验*** - Google Patents
一种基于用户位置日志的地址信息校验*** Download PDFInfo
- Publication number
- CN107016042B CN107016042B CN201710076294.XA CN201710076294A CN107016042B CN 107016042 B CN107016042 B CN 107016042B CN 201710076294 A CN201710076294 A CN 201710076294A CN 107016042 B CN107016042 B CN 107016042B
- Authority
- CN
- China
- Prior art keywords
- user
- address information
- data
- updating
- log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于用户位置日志的地址信息校验***,其包括收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息匹配度,最后得到校验结果;根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型。本发明能够提供一种前置数据要求低、数据收集处理简单且成本低、实时性强、校验准确度高的基于用户位置日志的地址信息校验***。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于用户位置日志的地址信息校验***。
背景技术
以3G、4G为主的移动通讯网络的普及,产生了反映用户日常生活规律的大数据。通过数据挖掘技术可以从用户的位置日志中识别出用户的关键地点,比如居住场所,工作场所等。在互联网金融业务中,经常需要用户提交一些信息,这些位置数据可用于验证用户提交信息的真实性,可以应用于信用评估、反欺诈等场景。
传统的用户行为识别技术基于用户的位置日志和与位置相关的语义信息,通过分类或聚类算法,区分用户的行为类别。其中,与位置相关的语义信息指的是小区、学校、超市等地点,用户行为类别指的是居家,出行,购物等活动。通过判断用户是否出现在某些特定地点以及出现的频率来进行位置信息校验。该传统识别技术具有以下缺点:依赖地点位置的语义信息进行行为模式识别,对前置数据要求高,数据收集代价大;在校验地点时,只关注用户出现在特定位置的频率,忽略用户的行动模式。
发明内容
本发明目的是为了克服现有技术的不足而提供一种基于用户位置日志的地址信息校验***,该***具备前置数据要求低、数据收集处理简单、成本低、实时性强、校验准确度高等优点。
为达到上述目的,本发明采用了如下技术方案。
本发明的一种基于用户位置日志的地址信息校验***,其通过以下步骤实现:
步骤一:收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;
步骤二:建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;
步骤三:利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息的匹配度,最后得到校验结果;
步骤四:根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型。
所述步骤一具体包括:
(1)收集数据,每个用户有多条记录,每条记录包含用户标识UID、时间T、经度LNG、纬度LAT等信息的日志数据。
(2)处理位置日志,计算位置配置表和位置特征:基于一定时间内(比如半年内)的全部用户位置日志进行集体行为分析;采用聚类方法将位置划分为连续的大小适当的区域,比如半径50m至500m,聚类的特征包括但不限于经纬度和集体行为特征(比如曾在位置周边出现的用户数,各时段在该位置的驻留人数、通过人数、抵达人数和离开人数);得到位置配置表,每条记录包含(聚类后)位置标识LID、位置清单((LNG0,LAT0),…,(LNGi,LATi))、集体行为特征(包括但不限于各时段在该位置驻留的用户数、流入用户数、流出用户数、流向邻近地点LIDj的用户数)、地址信息(以前缀树形式记录,行政区划统计)、标记结果统计信息(将地点作为工作地点的用户数、将该地点作为住所的用户数等)。
所述聚类方法分为三步:第一步,使用聚类算法通过集体行为特征对位置进行第一次聚类,特征处理算法包括但不限于Iso-map,PCA等,聚类算法包括但不限于K-means,DBScan,Spectral Clustering;第二步,将第一步的聚类特征和经纬度组合进行第二次聚类,聚类算法包括但不限于层次聚类,mean-shift,SOM算法;第三步,在第二次聚类结果上根据地理位置的连通性进行修正,使用的算法包括但不限于Dijkstra算法。
(3)预处理每个用户的位置日志,统计用户-位置特征:对于每一位用户,基于一定时间内(比如半年内)的位置日志进行个体行为分析,得到形如(UID,LID,feature0,…,featureN)的特征;然后对位置日志进行预处理,包括但不限于:基于固定的时间粒度(比如5min)合并,匹配聚类结果LID,识别并消除乒乓现象,统计在每个LID周边的回转半径,将用户活动切分为移动和驻留;统计用户-位置特征数据,所述用户-位置特征包括但不限于:用户在该地点周边活动记录的比例、用户在该地点周边活动记录的回转半径、用户在法定工作日/节假日各时段到达/离开/驻留在该地点的频率、用户在法定工作日/节假日各时段离开该地点去往的地点LID及分布的回转半径、用户在到达该地点前离开的地点LID及分布的回转半径。
(4)建立用户与位置关系标签数据库:用户与位置关系标签是指每一个用户标识UID和地点标识LID二元组的类别,标签包括但不限于住所、固定工作场所、工作区域、上下班、娱乐等,用户-位置关系标签记录形如(UID,LID,类别label,概率p);人工登记实际数据,如果用户UIDi有明显的夜间常驻地点LIDj,将(UIDi,LIDj)标记为“住所”,有明显的日间常驻地点LIDk,将(UIDi,LIDk)标注为“工作场所”,在住所和工作场所之间有地点LIDl、LIDm将其标注为(UIDi,LIDl),(UIDi,LIDm)标注为“上下班”。
所述步骤二具体包括:
(1)建立用户-位置关系识别模型:输入“用户-位置特征”和“位置特征”,输出“用户-位置关系标签”或“用户-位置关系标签的概率”。
所述位置识别模型的类别包括但不限于:针对单个类别的单类分类模型,比如识别住所的OCSVM、识别工作场所的OCSVM等;针对多个类别的多类分类模型,比如Bayes分类器、神经网络、逻辑回归模型、梯度提升树、随机森林等;每个城市的模型和通用模型;手工逻辑规则;真实记录;不同类型模型的集成模型,集成方式包括但不限于结果投票、概率平均、模型堆叠等。
特殊的,在建立模型时保留部分标签记录作为验证数据(比如20%的用户日志),供***更新模型时使用。数据集划分的方式包括但不限于以用户为单位、根据活动地点层次采样等。
(2)更新用户-位置关系标签。模型建立之后,批量标记除真实记录以外的所有用户-位置关系标签,同时***保留手工规则修正标签的方式。
所述步骤三具体包括:
(1)收集待验证的地址信息:待验证地址信息是指用户提交资料时填写的常驻地址、单位地址等,比如(UID,住所,某省某市某区某街道某小区某栋某室),要求用户从省级行政区划开始填写,前三级行政区划需要填写完整。
(2)记录/匹配待验证地址信息:从地图服务匹配经纬度,用户填写待验证地址后,从第三方或本地地图服务中匹配该地址经纬度;若经纬度匹配成功,根据经纬度从***数据中匹配相应地点LID;若经纬度匹配不成功则进行模糊匹配。首先,从该用户-位置关系记录中选择地址信息匹配程度最高的LID;若失败,则从该行政区划之中选择地址信息匹配程度最高的LID;若模糊匹配失败,则该地址信息验证失败;若经纬度匹配成功或模糊匹配成功,则将该地址信息更新到匹配成功的LID所对应的位置配置表的地址记录中。
(3)记录用户地址信息验证结果:验证地址是指通过对比用户提交的地址信息和用户的日志,返回两者的一致性,比如,匹配失败或匹配成功其住所的概率为0.72;验证的结果可以作为该信息真实性的参考,比如应用于信用评估、反欺诈等场景。
所述步骤四具体包括:
(1)更新地址信息和位置配置表:***将定期更新记录的地址信息,包括但不限于清理真实性低的记录、清理过期记录等。***将定期根据最新数据修正位置配置表,包括但不限于扩展或缩小经每个LID所属区域、合并和拆分LID。***将提供统计功能,自动选择不确定程度高的区域,以便辅助人工调研补充信息等方式。
(2)更新用户-位置标签数据库:***会定期根据最新的用户位置日志更新用户-位置标签数据;***还会根据验证过的用户日志数据实时更新用户-位置标签数据。
(3)更新用户-位置关系识别模型:随着标签的更新和数据库的完善,***将定期根据新数据重新训练用户-位置关系识别模型。在更新模型时保留部分标签记录作为验证数据,供模型对比使用。数据集划分的方式包括但不限于以用户为单位根据活动地点层次采样。验证数据和训练数据都随着数据的收集增量式增加。模型的更新,***以量化评价的方式评价多标签模型,同时分别评价每个城市的用户-位置标签模型,比如以logloss作为多类分类标签的识别标志更新通用模型和多标签模型;同时以在某某市某某标签的F1-Score作为特定标签识别模型的评价标准。根据量化指标,***先更新子模型,再更新集成模型,每个城市量化指标最好的模型将被保留,完全没有被使用到的模型将被下线。
由于上述技术方案的运用,本发明具有的有益技术效果:本发明的技术方案是基于位置日志对用户地址信息进行校验,具有隐蔽性且难以造假;本发明的技术方可以基于无标签或少量有标签数据训练初始模型,处理冷启动的情况;本发明的技术方同时考虑位置本身和用户活动规律两方面信息,在用户日志丰富的情况下可以提高准确性,在用户日志不丰富的情况下可以也得出相对正确的结果;本发明的技术方可以在校验信息的同时更新***中的数据和模型,即可以随着信息完善不断提高准确性,也可以保持实时性。
附图说明
下面结合附图对本发明技术方案作进一步说明。
附图1为本发明的流程示意框图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
如附图1所示,本发明提出了一种基于用户位置日志的地址信息校验***,收集用户日志数据,通过将用户位置日志1采用聚类方法处理后得到位置配备表2;通过计算得到地点的位置特征3及用户-位置特征4,对用户-位置特征4根据规则标记得到初始用户-位置标签5;结合人工登记的初始-真实位置标签6得到真实用户-位置标签7,利用所述位置特征3、用户-位置特征4、初始用户-位置标签5和真实用户-位置标签7,通过初始化模型训练数据8,得到验证用数据集9、训练用数据集10和待更新数据集11,使用训练用数据集10建立用户-位置关系识别模型12,采用验证用数据集9对用户-位置关系识别模型12进行性能评估,对比模型性能13并更新模型;通过用户-位置关系识别模型12识别后得到的用户-位置标签14对待更新数据集11进行更新;通过用户-位置关系识别模型12进行匹配用户-位置标签14与待验证地址信息15进行对比后得到待验证地址信息匹配结果16;根据地址信息验证结果17对位置配备表2、真实用户-位置标签7进行更新数据。
以上仅是本发明的具体应用范例,对本发明的保护范围不构成任何限制。凡采用等同变换或者等效替换而形成的技术方案,均落在本发明权利保护范围之内。
Claims (2)
1.一种基于用户位置日志的地址信息校验***,其特征在于,通过以下步骤实现:
步骤一:收集及预处理用户数据信息,计算位置配置表并统计位置特征,建立用户与位置关系标签数据库;所述位置配置表是采用聚类算法进行计算的;所述用户与位置关系标签包括每一个用户标识和地点标识二元组的类别;标签包括住所、固定工作场所、工作区域、上下班、娱乐,用户位置关系标签记录包括UID,LID,类别label,概率p;人工登记实际数据,如果用户UIDi有明显的夜间常驻地点LIDj,将(UIDi,LIDj)标记为“住所”,有明显的日间常驻地点LIDk,将(UIDi,LIDk)标注为“工作场所”,在住所和工作场所之间有地点LIDl、LIDm将其标注为(UIDi,LIDl),(UIDi,LIDm)标注为“上下班”;
步骤二:建立用户与位置关系的识别模型,利用模型识别用户行为模式并更新用户与位置关系标签数据库;建立用户-位置关系识别模型:输入“用户-位置特征”和“位置特征”,输出“用户-位置关系标签”或“用户-位置关系标签的概率”;所述用户与位置关系的识别模型类别包括:针对单个类别的单类分类模型,包括识别住所的OCSVM、识别工作场所的OCSVM;针对多个类别的多类分类模型,包括Bayes分类器、神经网络、逻辑回归模型、梯度提升树、随机森林;每个城市的模型和通用模型;手工逻辑规则;真实记录;不同类型模型的集成模型,集成方式包括结果投票、概率平均、模型堆叠;
步骤三:利用用户实时位置日志、用户与位置关系标签数据库,校验用户提交的地址信息的匹配度,最后得到校验结果;
收集待验证的地址信息:待验证地址信息是指用户提交资料时填写的常驻地址、单位地址,要求用户从省级行政区划开始填写,前三级行政区划需要填写完整;
记录/匹配待验证地址信息:从地图服务匹配经纬度,用户填写待验证地址后,从第三方或本地地图服务中匹配该地址经纬度;若经纬度匹配成功,根据经纬度从***数据中匹配相应地点LID;
若经纬度匹配不成功则进行模糊匹配,具体包括:首先,从该用户-位置关系记录中选择地址信息匹配程度最高的LID;若失败,则从该行政区划之中选择地址信息匹配程度最高的LID;若模糊匹配失败,则该地址信息验证失败;若经纬度匹配成功或模糊匹配成功,则将该地址信息更新到匹配成功的LID所对应的位置配置表的地址记录中;
记录用户地址信息验证结果:验证地址是指通过对比用户提交的地址信息和用户的日志,返回两者的一致性,验证的结果应用于信用评估、反欺诈场景;
步骤四:根据校验结果,更新地址信息和位置配置表、用户与位置关系标签数据库及识别模型;
更新地址信息和位置配置表:定期更新记录的地址信息,包括清理真实性低的记录、清理过期记录;定期根据最新数据修正位置配置表,包括扩展或缩小经每个LID所属区域、合并和拆分LID;
更新用户-位置标签数据库:定期根据最新的用户位置日志更新用户-位置标签数据;根据验证过的用户日志数据实时更新用户-位置标签数据;
更新用户-位置关系识别模型:随着标签的更新和数据库的完善,定期根据新数据重新训练用户-位置关系识别模型;在更新模型时保留部分标签记录作为验证数据,供模型对比使用;数据集划分的方式包括以用户为单位根据活动地点层次采样;验证数据和训练数据都随着数据的收集增量式增加。
2.根据权利要求1所述的一种基于用户位置日志的地址信息校验***,其特征在于:所述收集的用户数据信息包括每个用户的多条记录,包含用户标识、时间、经度、纬度信息的日志数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710076294.XA CN107016042B (zh) | 2017-02-13 | 2017-02-13 | 一种基于用户位置日志的地址信息校验*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710076294.XA CN107016042B (zh) | 2017-02-13 | 2017-02-13 | 一种基于用户位置日志的地址信息校验*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107016042A CN107016042A (zh) | 2017-08-04 |
CN107016042B true CN107016042B (zh) | 2023-07-04 |
Family
ID=59439627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710076294.XA Active CN107016042B (zh) | 2017-02-13 | 2017-02-13 | 一种基于用户位置日志的地址信息校验*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107016042B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679903A (zh) * | 2017-09-27 | 2018-02-09 | 风变科技(深圳)有限公司 | 一种基于地理位置的分组方法、装置、***及存储介质 |
CN107613084B (zh) * | 2017-10-09 | 2020-02-07 | 陈包容 | 一种通讯录联系人自动分组的方法、装置和*** |
CN107704586B (zh) * | 2017-10-09 | 2020-02-07 | 陈包容 | 一种基于用户活动地址的用户画像的方法、装置和*** |
CN109325081A (zh) * | 2018-07-23 | 2019-02-12 | 广州都市圈网络科技有限公司 | 基于对象绑定的匹配坐标同步更新方法 |
CN113034157B (zh) * | 2019-12-24 | 2023-12-26 | ***通信集团浙江有限公司 | 集团成员识别方法、装置及计算设备 |
CN113076482A (zh) * | 2021-04-23 | 2021-07-06 | 支付宝(杭州)信息技术有限公司 | 业务信息推送方法、装置、***、计算机设备、存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468463A (zh) * | 2013-09-12 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 验证方法、装置和*** |
CN105100096A (zh) * | 2015-07-17 | 2015-11-25 | 小米科技有限责任公司 | 验证方法和装置 |
-
2017
- 2017-02-13 CN CN201710076294.XA patent/CN107016042B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104468463A (zh) * | 2013-09-12 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 验证方法、装置和*** |
CN105100096A (zh) * | 2015-07-17 | 2015-11-25 | 小米科技有限责任公司 | 验证方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107016042A (zh) | 2017-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016042B (zh) | 一种基于用户位置日志的地址信息校验*** | |
CN101719315B (zh) | 一种基于中间件的动态交通信息采集方法 | |
CN110413707A (zh) | 互联网中欺诈团伙关系的挖掘与排查方法及其*** | |
CN107657267B (zh) | 产品***挖掘方法及装置 | |
CN106651247A (zh) | 基于gis拓扑分析的地址匹配区域块方法和*** | |
Kim | Exploring the difference between ridership patterns of subway and taxi: Case study in Seoul | |
CN106651424A (zh) | 基于大数据技术的电力用户画像建立与分析方法 | |
CN104699818A (zh) | 一种多源异构的多属性poi融合方法 | |
CN112861972A (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN113177101B (zh) | 用户轨迹识别方法、装置、设备及存储介质 | |
CN109657063A (zh) | 一种海量环保人工上报事件数据的处理方法及存储介质 | |
CN104331502A (zh) | 针对快递员周边人群营销中快递员数据的识别方法 | |
CN114912717B (zh) | 基于物联网的智慧城市保障住房申请风险评估方法和*** | |
CN112800210B (zh) | 基于海量公交数据的人群画像算法 | |
CN113159149A (zh) | 一种企业办公地址的识别方法及装置 | |
Rodrigues et al. | Automatic classification of points-of-interest for land-use analysis | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
CN113052505A (zh) | 基于人工智能的跨境文旅推荐方法、装置和设备 | |
CN115100395A (zh) | 一种融合poi预分类和图神经网络的城市街区功能分类方法 | |
Yao et al. | Forecasting passenger flow distribution on holidays for urban rail transit based on destination choice behavior analysis | |
CN117370539A (zh) | 一种基于知识库和大模型的法律条文信息推荐*** | |
CN112364776A (zh) | 一种城市功能区识别模型建立、分类方法及装置 | |
CN111915368A (zh) | 汽车行业客户id识别***、方法及介质 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN111127035A (zh) | 一种基于轨迹数据的置信度检测方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |