CN116992267A - 一种基于信令数据的区域人口性别识别方法及*** - Google Patents

一种基于信令数据的区域人口性别识别方法及*** Download PDF

Info

Publication number
CN116992267A
CN116992267A CN202311272274.1A CN202311272274A CN116992267A CN 116992267 A CN116992267 A CN 116992267A CN 202311272274 A CN202311272274 A CN 202311272274A CN 116992267 A CN116992267 A CN 116992267A
Authority
CN
China
Prior art keywords
signaling data
mobile phone
gender
preset
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311272274.1A
Other languages
English (en)
Other versions
CN116992267B (zh
Inventor
成立立
张广志
于笑博
路飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiling Rongxin Datalnfo Science and Technology Ltd
Original Assignee
Beiling Rongxin Datalnfo Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiling Rongxin Datalnfo Science and Technology Ltd filed Critical Beiling Rongxin Datalnfo Science and Technology Ltd
Priority to CN202311272274.1A priority Critical patent/CN116992267B/zh
Publication of CN116992267A publication Critical patent/CN116992267A/zh
Application granted granted Critical
Publication of CN116992267B publication Critical patent/CN116992267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Telephonic Communication Services (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Primary Health Care (AREA)

Abstract

本发明公开的一种基于信令数据的区域人口性别识别方法及***,其中方法包括:基于预设第一时间周期,获取预设区域的手机信令数据信息;将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。本发明通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。

Description

一种基于信令数据的区域人口性别识别方法及***
技术领域
本发明涉及时空大数据处理领域,更具体的,涉及一种基于信令数据的区域人口性别识别方法及***。
背景技术
现有的区域人口性别识别统计技术,传统方法是通过人口普查方式人工调查统计,新技术通过人脸识别等技术识别统计。传统人口普查方式最为准确,但耗时耗力,且因人口流动无法识别统计当下区域内不同性别人口。新技术通过监控设备采集人脸信息使用人脸识别技术对人口进行性别识别统计,较为准确,虽可识别统计当下区域内不同性别人口,但因监控设备不能覆盖全区域(如某市区),不能较全面的识别统计全区域不同性别人口。
因此,现有技术存在缺陷,亟待改进。
发明内容
鉴于上述问题,本发明的目的是提供一种基于信令数据的区域人口性别识别方法及***,能够更加方便的统计全区域不同性别人口。
本发明第一方面提供了一种基于信令数据的区域人口性别识别方法,包括:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
本方案中,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
本方案中,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
本方案中,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
本方案中,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
本方案中,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
本方案中,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
本发明第二方面提供了一种基于信令数据的区域人口性别识别***,包括存储器和处理器,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
本方案中,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
本方案中,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
本方案中,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
本方案中,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
本方案中,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
本方案中,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
本发明公开的一种基于信令数据的区域人口性别识别方法及***,通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。
附图说明
图1示出了本发明一种基于信令数据的区域人口性别识别方法的流程图;
图2示出了本发明一种基于信令数据的区域人口性别识别***的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于信令数据的区域人口性别识别方法的流程图。
如图1所示,本发明公开了一种基于信令数据的区域人口性别识别方法,包括:
S101,基于预设第一时间周期,获取预设区域的手机信令数据信息;
S102,将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
S103,根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
S104,提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
S105,将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
根据本发明实施例,根据预设区域的边界框选内部所有基站,提取所框选基站下的信令轨迹,清洗仅有部分的信令轨迹,比如预设第一时间周期为一天,则清洗未满足一天的信令轨迹,得到该预设区域的手机信令数据信息,再将手机信令数据进行分类,得到本地手机信令数据和异地手机信令数据,所述本地手机信令数据为手机号归属地为预设区域的信令数据,所述异地手机信令数据为手机号归属地不是预设区域的信令数据,其中本地手机信令数据在预设本地数据库中有记录,能确定对应本地手机信令数据对应用户在购买手机号时的登记信息,因此,可以通过预设本地数据库查询对应本地手机信令数据对应用户的性别;异地手机信令数据通过预设人口性别识别模型进行评估预测,得到异地手机信令数据对应用户的性别。
根据本发明实施例,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
需要说明的是,手机信令数据对应用户的移动轨迹信息包括移动轨迹分布、驻留场所、出行OD(origin destination)场所、驻留时间段和时长、工作居住场所等方面,结合白天/晚上、工作日/节假日等维度,得到对应手机信令数据中的特征值。
根据本发明实施例,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
需要说明的是,所述特征处理包括特征预处理、特征单/多变量分析、特征剔除等特征工程,通过有监督学习分类识别算法挖掘不同性别人口用户的时空行为特征规律,所述预设初始化模型为一种神经网络模型,比如预设准确率阈值为95%,则当验证样本发送至训练之后的预设初始化模型,得到性别预测准确率大于95%时,停止训练预设初始化模型,并将训练之后的预设初始化模型设为预设人口性别识别模型。
根据本发明实施例,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
需要说明的是,对应异地手机信令数据中的特征值分为主要特征值和次要特征值,其中若主要特征值能够判定异地手机信令数据对应用户的性别时,次要特征值不需要发送至预设人口性别识别模型以节省计算时间。
根据本发明实施例,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
需要说明的是,通过第一性别指数差值的绝对值判断异地手机信令数据对应用户的性别,比如第一性别指数差值等于第一男性别指数减去第一女性别指数,当第一性别指数差值大于预设性别指数差阈值时,异地手机信令数据对应用户的性别为男,当第一性别差值为负数且对应第一性别差值的绝对值大于预设性别指数差阈值,则异地手机信令数据对应用户的性别为女,否则异地手机信令数据需要通过次要特征进行判定。
根据本发明实施例,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
需要说明的是,当主要特征对应的性别指数无法判定异地手机信令数据对应用户的性别时,将次要特征发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数,结合主要特征对应的第一男性别指数和第一女性别指数,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性,否则根据异地手机信令数据中的最大特征值进行再次判定。
根据本发明实施例,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
需要说明的是,当男性别指数等于女性别指数时,将异地手机信令数据中的特征值按照从小到大的顺序进行排列,首先将第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数,若第三男性别指数和第三女性别指数相同,则继续提取第二大特征值进行判定,若第二大特征值对应的男性别指数和女性别指数还相同,则提取第三大特征值进行判定,并依次类推,若男性别指数和女性别指数不相同,则以性别指数大的性别设为异地手机信令数据对应用户的性别。
图2示出了本发明一种基于信令数据的区域人口性别识别***的框图。
如图2所示,本发明第二方面提供了一种基于信令数据的区域人口性别识别***2,包括存储器21和处理器22,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
根据本发明实施例,根据预设区域的边界框选内部所有基站,提取所框选基站下的信令轨迹,清洗仅有部分的信令轨迹,比如预设第一时间周期为一天,则清洗未满足一天的信令轨迹,得到该预设区域的手机信令数据信息,再将手机信令数据进行分类,得到本地手机信令数据和异地手机信令数据,所述本地手机信令数据为手机号归属地为预设区域的信令数据,所述异地手机信令数据为手机号归属地不是预设区域的信令数据,其中本地手机信令数据在预设本地数据库中有记录,能确定对应本地手机信令数据对应用户在购买手机号时的登记信息,因此,可以通过预设本地数据库查询对应本地手机信令数据对应用户的性别;异地手机信令数据通过预设人口性别识别模型进行评估预测,得到异地手机信令数据对应用户的性别。
根据本发明实施例,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
需要说明的是,手机信令数据对应用户的移动轨迹信息包括移动轨迹分布、驻留场所、出行OD(origin destination)场所、驻留时间段和时长、工作居住场所等方面,结合白天/晚上、工作日/节假日等维度,得到对应手机信令数据中的特征值。
根据本发明实施例,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
需要说明的是,所述特征处理包括特征预处理、特征单/多变量分析、特征剔除等特征工程,通过有监督学习分类识别算法挖掘不同性别人口用户的时空行为特征规律,所述预设初始化模型为一种神经网络模型,比如预设准确率阈值为95%,则当验证样本发送至训练之后的预设初始化模型,得到性别预测准确率大于95%时,停止训练预设初始化模型,并将训练之后的预设初始化模型设为预设人口性别识别模型。
根据本发明实施例,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
需要说明的是,对应异地手机信令数据中的特征值分为主要特征值和次要特征值,其中若主要特征值能够判定异地手机信令数据对应用户的性别时,次要特征值不需要发送至预设人口性别识别模型以节省计算时间。
根据本发明实施例,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
需要说明的是,通过第一性别指数差值的绝对值判断异地手机信令数据对应用户的性别,比如第一性别指数差值等于第一男性别指数减去第一女性别指数,当第一性别指数差值大于预设性别指数差阈值时,异地手机信令数据对应用户的性别为男,当第一性别差值为负数且对应第一性别差值的绝对值大于预设性别指数差阈值,则异地手机信令数据对应用户的性别为女,否则异地手机信令数据需要通过次要特征进行判定。
根据本发明实施例,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
需要说明的是,当主要特征对应的性别指数无法判定异地手机信令数据对应用户的性别时,将次要特征发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数,结合主要特征对应的第一男性别指数和第一女性别指数,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性,否则根据异地手机信令数据中的最大特征值进行再次判定。
根据本发明实施例,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
需要说明的是,当男性别指数等于女性别指数时,将异地手机信令数据中的特征值按照从小到大的顺序进行排列,首先将第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数,若第三男性别指数和第三女性别指数相同,则继续提取第二大特征值进行判定,若第二大特征值对应的男性别指数和女性别指数还相同,则提取第三大特征值进行判定,并依次类推,若男性别指数和女性别指数不相同,则以性别指数大的性别设为异地手机信令数据对应用户的性别。
本发明公开的一种基于信令数据的区域人口性别识别方法及***,其中方法包括:基于预设第一时间周期,获取预设区域的手机信令数据信息;将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。本发明通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于信令数据的区域人口性别识别方法,其特征在于,包括:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
2.根据权利要求1所述的一种基于信令数据的区域人口性别识别方法,其特征在于,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
3.根据权利要求1所述的一种基于信令数据的区域人口性别识别方法,其特征在于,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
4.根据权利要求1所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
5.根据权利要求4所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
6.根据权利要求4所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
7.根据权利要求6所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
8.一种基于信令数据的区域人口性别识别***,其特征在于,包括存储器和处理器,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
9.根据权利要求8所述的一种基于信令数据的区域人口性别识别***,其特征在于,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
10.根据权利要求8所述的一种基于信令数据的区域人口性别识别***,其特征在于,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
CN202311272274.1A 2023-09-28 2023-09-28 一种基于信令数据的区域人口性别识别方法及*** Active CN116992267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311272274.1A CN116992267B (zh) 2023-09-28 2023-09-28 一种基于信令数据的区域人口性别识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311272274.1A CN116992267B (zh) 2023-09-28 2023-09-28 一种基于信令数据的区域人口性别识别方法及***

Publications (2)

Publication Number Publication Date
CN116992267A true CN116992267A (zh) 2023-11-03
CN116992267B CN116992267B (zh) 2024-01-23

Family

ID=88521772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311272274.1A Active CN116992267B (zh) 2023-09-28 2023-09-28 一种基于信令数据的区域人口性别识别方法及***

Country Status (1)

Country Link
CN (1) CN116992267B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN109495856A (zh) * 2018-12-18 2019-03-19 成都方未科技有限公司 一种基于大数据的手机用户类型标记方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110990443A (zh) * 2019-10-28 2020-04-10 上海城市交通设计院有限公司 一种基于手机信令的职住人口特征估算方法
CN111615054A (zh) * 2020-05-25 2020-09-01 和智信(山东)大数据科技有限公司 人口分析方法及装置
US20230041266A1 (en) * 2021-08-04 2023-02-09 Nice Ltd. System and method for gender based authentication of a caller

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095401A (zh) * 2015-07-07 2015-11-25 北京嘀嘀无限科技发展有限公司 一种性别识别的方法及装置
CN107886366A (zh) * 2017-11-22 2018-04-06 深圳市金立通信设备有限公司 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN109495856A (zh) * 2018-12-18 2019-03-19 成都方未科技有限公司 一种基于大数据的手机用户类型标记方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110990443A (zh) * 2019-10-28 2020-04-10 上海城市交通设计院有限公司 一种基于手机信令的职住人口特征估算方法
CN111615054A (zh) * 2020-05-25 2020-09-01 和智信(山东)大数据科技有限公司 人口分析方法及装置
US20230041266A1 (en) * 2021-08-04 2023-02-09 Nice Ltd. System and method for gender based authentication of a caller

Also Published As

Publication number Publication date
CN116992267B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN110198310B (zh) 一种网络行为反作弊方法、装置及存储介质
CN110390262A (zh) 视频分析方法、装置、服务器及存储介质
CN111462488A (zh) 一种基于深度卷积神经网络和交叉口行为特征模型的交叉口安全风险评估方法
CN113065474B (zh) 行为识别方法、装置及计算机设备
CN108304567B (zh) 高压变压器工况模式识别与数据分类方法及***
CN107368770B (zh) 一种回头客自动识别方法及***
CN112298844B (zh) 一种垃圾分类监督方法及装置
CN114782897A (zh) 基于机器视觉及深度学习的危险行为检测方法及***
CN112188532A (zh) 网络异常检测模型的训练方法、网络检测方法及装置
CN102902960A (zh) 基于高斯建模与目标轮廓的遗留物检测方法
US10853829B2 (en) Association method, and non-transitory computer-readable storage medium
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN116992267B (zh) 一种基于信令数据的区域人口性别识别方法及***
CN116702059B (zh) 一种基于物联网的智能生产车间管理***
CN108399387A (zh) 用于识别目标群体的数据处理方法及装置
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置
CN113158084A (zh) 移动轨迹数据处理的方法、装置、计算机设备及存储介质
CN112365269A (zh) 风险检测方法、装置、设备以及存储介质
CN116610821A (zh) 一种基于知识图谱的企业风险分析方法、***和存储介质
CN113448955B (zh) 数据集质量评估方法、装置、计算机设备及存储介质
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN111798237B (zh) 基于应用日志的异常交易诊断方法及***
CN115412854A (zh) 车辆同乘判断方法、装置、电子设备及存储介质
CN114386529B (zh) 基于大数据的社区服务分析方法、***和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant