CN116992267B - 一种基于信令数据的区域人口性别识别方法及*** - Google Patents
一种基于信令数据的区域人口性别识别方法及*** Download PDFInfo
- Publication number
- CN116992267B CN116992267B CN202311272274.1A CN202311272274A CN116992267B CN 116992267 B CN116992267 B CN 116992267B CN 202311272274 A CN202311272274 A CN 202311272274A CN 116992267 B CN116992267 B CN 116992267B
- Authority
- CN
- China
- Prior art keywords
- signaling data
- mobile phone
- gender
- preset
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011664 signaling Effects 0.000 title claims abstract description 370
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims description 38
- 230000006399 behavior Effects 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010202 multivariate logistic regression analysis Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Telephonic Communication Services (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Mobile Radio Communication Systems (AREA)
- Primary Health Care (AREA)
Abstract
本发明公开的一种基于信令数据的区域人口性别识别方法及***,其中方法包括:基于预设第一时间周期,获取预设区域的手机信令数据信息;将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。本发明通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。
Description
技术领域
本发明涉及时空大数据处理领域,更具体的,涉及一种基于信令数据的区域人口性别识别方法及***。
背景技术
现有的区域人口性别识别统计技术,传统方法是通过人口普查方式人工调查统计,新技术通过人脸识别等技术识别统计。传统人口普查方式最为准确,但耗时耗力,且因人口流动无法识别统计当下区域内不同性别人口。新技术通过监控设备采集人脸信息使用人脸识别技术对人口进行性别识别统计,较为准确,虽可识别统计当下区域内不同性别人口,但因监控设备不能覆盖全区域(如某市区),不能较全面的识别统计全区域不同性别人口。
因此,现有技术存在缺陷,亟待改进。
发明内容
鉴于上述问题,本发明的目的是提供一种基于信令数据的区域人口性别识别方法及***,能够更加方便的统计全区域不同性别人口。
本发明第一方面提供了一种基于信令数据的区域人口性别识别方法,包括:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
本方案中,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
本方案中,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
本方案中,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
本方案中,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
本方案中,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
本方案中,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
本发明第二方面提供了一种基于信令数据的区域人口性别识别***,包括存储器和处理器,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
本方案中,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
本方案中,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
本方案中,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
本方案中,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
本方案中,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
本方案中,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
本发明公开的一种基于信令数据的区域人口性别识别方法及***,通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。
附图说明
图1示出了本发明一种基于信令数据的区域人口性别识别方法的流程图;
图2示出了本发明一种基于信令数据的区域人口性别识别***的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于信令数据的区域人口性别识别方法的流程图。
如图1所示,本发明公开了一种基于信令数据的区域人口性别识别方法,包括:
S101,基于预设第一时间周期,获取预设区域的手机信令数据信息;
S102,将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
S103,根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
S104,提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
S105,将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
根据本发明实施例,根据预设区域的边界框选内部所有基站,提取所框选基站下的信令轨迹,清洗仅有部分的信令轨迹,比如预设第一时间周期为一天,则清洗未满足一天的信令轨迹,得到该预设区域的手机信令数据信息,再将手机信令数据进行分类,得到本地手机信令数据和异地手机信令数据,所述本地手机信令数据为手机号归属地为预设区域的信令数据,所述异地手机信令数据为手机号归属地不是预设区域的信令数据,其中本地手机信令数据在预设本地数据库中有记录,能确定对应本地手机信令数据对应用户在购买手机号时的登记信息,因此,可以通过预设本地数据库查询对应本地手机信令数据对应用户的性别;异地手机信令数据通过预设人口性别识别模型进行评估预测,得到异地手机信令数据对应用户的性别。
根据本发明实施例,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
需要说明的是,手机信令数据对应用户的移动轨迹信息包括移动轨迹分布、驻留场所、出行OD(origin destination)场所、驻留时间段和时长、工作居住场所等方面,结合白天/晚上、工作日/节假日等维度,得到对应手机信令数据中的特征值。
根据本发明实施例,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
需要说明的是,所述特征处理包括特征预处理、特征单/多变量分析、特征剔除等特征工程,通过有监督学习分类识别算法挖掘不同性别人口用户的时空行为特征规律,所述预设初始化模型为一种神经网络模型,比如预设准确率阈值为95%,则当验证样本发送至训练之后的预设初始化模型,得到性别预测准确率大于95%时,停止训练预设初始化模型,并将训练之后的预设初始化模型设为预设人口性别识别模型。
根据本发明实施例,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
需要说明的是,对应异地手机信令数据中的特征值分为主要特征值和次要特征值,其中若主要特征值能够判定异地手机信令数据对应用户的性别时,次要特征值不需要发送至预设人口性别识别模型以节省计算时间。
根据本发明实施例,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
需要说明的是,通过第一性别指数差值的绝对值判断异地手机信令数据对应用户的性别,比如第一性别指数差值等于第一男性别指数减去第一女性别指数,当第一性别指数差值大于预设性别指数差阈值时,异地手机信令数据对应用户的性别为男,当第一性别差值为负数且对应第一性别差值的绝对值大于预设性别指数差阈值,则异地手机信令数据对应用户的性别为女,否则异地手机信令数据需要通过次要特征进行判定。
根据本发明实施例,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
需要说明的是,当主要特征对应的性别指数无法判定异地手机信令数据对应用户的性别时,将次要特征发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数,结合主要特征对应的第一男性别指数和第一女性别指数,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性,否则根据异地手机信令数据中的最大特征值进行再次判定。
根据本发明实施例,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
需要说明的是,当男性别指数等于女性别指数时,将异地手机信令数据中的特征值按照从小到大的顺序进行排列,首先将第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数,若第三男性别指数和第三女性别指数相同,则继续提取第二大特征值进行判定,若第二大特征值对应的男性别指数和女性别指数还相同,则提取第三大特征值进行判定,并依次类推,若男性别指数和女性别指数不相同,则以性别指数大的性别设为异地手机信令数据对应用户的性别。
图2示出了本发明一种基于信令数据的区域人口性别识别***的框图。
如图2所示,本发明第二方面提供了一种基于信令数据的区域人口性别识别***2,包括存储器21和处理器22,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。
根据本发明实施例,根据预设区域的边界框选内部所有基站,提取所框选基站下的信令轨迹,清洗仅有部分的信令轨迹,比如预设第一时间周期为一天,则清洗未满足一天的信令轨迹,得到该预设区域的手机信令数据信息,再将手机信令数据进行分类,得到本地手机信令数据和异地手机信令数据,所述本地手机信令数据为手机号归属地为预设区域的信令数据,所述异地手机信令数据为手机号归属地不是预设区域的信令数据,其中本地手机信令数据在预设本地数据库中有记录,能确定对应本地手机信令数据对应用户在购买手机号时的登记信息,因此,可以通过预设本地数据库查询对应本地手机信令数据对应用户的性别;异地手机信令数据通过预设人口性别识别模型进行评估预测,得到异地手机信令数据对应用户的性别。
根据本发明实施例,还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值。
需要说明的是,手机信令数据对应用户的移动轨迹信息包括移动轨迹分布、驻留场所、出行OD(origin destination)场所、驻留时间段和时长、工作居住场所等方面,结合白天/晚上、工作日/节假日等维度,得到对应手机信令数据中的特征值。
根据本发明实施例,还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
需要说明的是,所述特征处理包括特征预处理、特征单/多变量分析、特征剔除等特征工程,通过有监督学习分类识别算法挖掘不同性别人口用户的时空行为特征规律,所述预设初始化模型为一种神经网络模型,比如预设准确率阈值为95%,则当验证样本发送至训练之后的预设初始化模型,得到性别预测准确率大于95%时,停止训练预设初始化模型,并将训练之后的预设初始化模型设为预设人口性别识别模型。
根据本发明实施例,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
需要说明的是,对应异地手机信令数据中的特征值分为主要特征值和次要特征值,其中若主要特征值能够判定异地手机信令数据对应用户的性别时,次要特征值不需要发送至预设人口性别识别模型以节省计算时间。
根据本发明实施例,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
需要说明的是,通过第一性别指数差值的绝对值判断异地手机信令数据对应用户的性别,比如第一性别指数差值等于第一男性别指数减去第一女性别指数,当第一性别指数差值大于预设性别指数差阈值时,异地手机信令数据对应用户的性别为男,当第一性别差值为负数且对应第一性别差值的绝对值大于预设性别指数差阈值,则异地手机信令数据对应用户的性别为女,否则异地手机信令数据需要通过次要特征进行判定。
根据本发明实施例,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
需要说明的是,当主要特征对应的性别指数无法判定异地手机信令数据对应用户的性别时,将次要特征发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数,结合主要特征对应的第一男性别指数和第一女性别指数,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性,否则根据异地手机信令数据中的最大特征值进行再次判定。
根据本发明实施例,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
需要说明的是,当男性别指数等于女性别指数时,将异地手机信令数据中的特征值按照从小到大的顺序进行排列,首先将第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数,若第三男性别指数和第三女性别指数相同,则继续提取第二大特征值进行判定,若第二大特征值对应的男性别指数和女性别指数还相同,则提取第三大特征值进行判定,并依次类推,若男性别指数和女性别指数不相同,则以性别指数大的性别设为异地手机信令数据对应用户的性别。
本发明公开的一种基于信令数据的区域人口性别识别方法及***,其中方法包括:基于预设第一时间周期,获取预设区域的手机信令数据信息;将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计。本发明通过基于信令数据使用有监督学习算法对区域内人口性别进行识别统计,较依据已知性别人口等比例估算更准确,且信令数据获取便捷。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (6)
1.一种基于信令数据的区域人口性别识别方法,其特征在于,包括:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计;
还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值;
还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
2.根据权利要求1所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别的步骤,具体包括:
将异地手机信令数据中的特征值和对应预设特征阈值进行对比分析,判断异地手机信令数据中的特征值是否大于对应预设特征阈值,若是,将对应异地手机信令数据中的特征值设为主要特征值;若否,将对应异地手机信令数据中的特征值设为次要特征值;
将主要特征值优先发送至预设人口性别识别模型,若确定异地手机信令数据对应用户的性别,则次要特征值不需要发送至预设人口性别识别模型;若不确定异地手机信令数据对应用户的性别,则将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定。
3.根据权利要求2所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述将主要特征值优先发送至预设人口性别识别模型之后,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将第一男性别指数和第一女性别指数进行对比差值计算,得到第一性别指数差值;
其中若第一性别指数差值的绝对值大于预设性别指数差阈值,则将性别指数大的性别设为对应异地手机信令数据对应用户的性别;
若第一性别指数差值的绝对值不大于预设性别指数差阈值,则不确定异地手机信令数据对应用户的性别。
4.根据权利要求2所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述将次要特征值发送至预设人口性别识别模型以对异地手机信令数据对应用户的性别进行再次判定的步骤,具体包括:
将主要特征值优先发送至预设人口性别识别模型,得到第一男性别指数和第一女性别指数;
将次要特征值发送至预设人口性别识别模型,得到第二男性别指数和第二女性别指数;
将第一男性别指数和第二男性别指数进行累加,得到男性别指数;
将第一女性别指数和第二女性别指数进行累加,得到女性别指数;
将男性别指数和女性别指数进行对比分析,若男性别指数大于女性别指数,则将异地手机信令数据对应用户的性别设为男性;
若男性别指数小于女性别指数,则将异地手机信令数据对应用户的性别设为女性;
若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定。
5.根据权利要求4所述的一种基于信令数据的区域人口性别识别方法,其特征在于,所述若男性别指数等于女性别指数,则通过异地手机信令数据中的最大特征值进行判定的步骤,具体包括:
将异地手机信令数据中的特征值按照从小到大的顺序进行排列,得到异地手机信令数据中的第一大特征值;
将异地手机信令数据中的第一大特征值发送至预设人口性别识别模型,得到第三男性别指数和第三女性别指数;
将第三男性别指数和第三女性别指数进行对比分析,将性别指数大的性别设为异地手机信令数据对应用户的性别;
若第三男性别指数和第三女性别指数相等,则提取异地手机信令数据中的第二大特征值以对异地手机信令数据对应用户的性别进行判定,若异地手机信令数据中的第二大特征值对应的性别指数相同,则继续提取异地手机信令数据中的第三大特征值以对异地手机信令数据对应用户的性别进行判定,并以此类推,直至将异地手机信令数据对应用户的性别进行区分。
6.一种基于信令数据的区域人口性别识别***,其特征在于,包括存储器和处理器,所述存储器中存储有一种基于信令数据的区域人口性别识别方法程序,所述一种基于信令数据的区域人口性别识别方法程序被所述处理器执行时实现如下步骤:
基于预设第一时间周期,获取预设区域的手机信令数据信息;
将手机信令数据进行划分,得到本地手机信令数据和异地手机信令数据;
根据本地手机信令数据在预设本地数据库中查询,得到本地手机信令数据对应用户的性别;
提取异地手机信令数据中的特征值,并将所述特征值发送至预设人口性别识别模型,得到异地手机信令数据对应用户的性别;
将本地手机信令数据对应用户和异地手机信令数据对应用户按照相同性别进行合并统计;
还包括:
根据手机信令数据,得到手机信令数据对应用户的移动轨迹信息;
提取对应用户的移动轨迹信息中的驻留点信息;
根据对应用户的移动轨迹信息中的驻留点信息,得到对应手机信令数据中的特征值;
所述手机信令数据中的特征值包括本地手机信令数据中的特征值和异地手机信令数据中的特征值;
还包括:
提取本地手机信令数据中的特征值;
将所述本地手机信令数据中的特征值进行特征处理,得到对应本地手机信令数据对应用户的时空行为特征规律;
将本地手机信令数据对应用户的时空行为特征规律和对应本地手机信令数据对应用户的性别进行整理,并划分为训练样本和验证样本;
将训练样本发送至预设初始化模型进行训练,得到训练之后的预设初始化模型;
将验证样本发送至训练之后的预设初始化模型,得到性别预测准确率;
当性别预测准确率大于预设准确率阈值时,预设初始化模型停止训练,得到预设人口性别识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311272274.1A CN116992267B (zh) | 2023-09-28 | 2023-09-28 | 一种基于信令数据的区域人口性别识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311272274.1A CN116992267B (zh) | 2023-09-28 | 2023-09-28 | 一种基于信令数据的区域人口性别识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992267A CN116992267A (zh) | 2023-11-03 |
CN116992267B true CN116992267B (zh) | 2024-01-23 |
Family
ID=88521772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311272274.1A Active CN116992267B (zh) | 2023-09-28 | 2023-09-28 | 一种基于信令数据的区域人口性别识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992267B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN107886366A (zh) * | 2017-11-22 | 2018-04-06 | 深圳市金立通信设备有限公司 | 性别分类模型的生成方法、性别填充方法、终端及存储介质 |
CN109495856A (zh) * | 2018-12-18 | 2019-03-19 | 成都方未科技有限公司 | 一种基于大数据的手机用户类型标记方法 |
CN110245981A (zh) * | 2019-05-31 | 2019-09-17 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的人群类型识别方法 |
CN110990443A (zh) * | 2019-10-28 | 2020-04-10 | 上海城市交通设计院有限公司 | 一种基于手机信令的职住人口特征估算方法 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11582336B1 (en) * | 2021-08-04 | 2023-02-14 | Nice Ltd. | System and method for gender based authentication of a caller |
-
2023
- 2023-09-28 CN CN202311272274.1A patent/CN116992267B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN107886366A (zh) * | 2017-11-22 | 2018-04-06 | 深圳市金立通信设备有限公司 | 性别分类模型的生成方法、性别填充方法、终端及存储介质 |
CN109495856A (zh) * | 2018-12-18 | 2019-03-19 | 成都方未科技有限公司 | 一种基于大数据的手机用户类型标记方法 |
CN110245981A (zh) * | 2019-05-31 | 2019-09-17 | 南京瑞栖智能交通技术产业研究院有限公司 | 一种基于手机信令数据的人群类型识别方法 |
CN110990443A (zh) * | 2019-10-28 | 2020-04-10 | 上海城市交通设计院有限公司 | 一种基于手机信令的职住人口特征估算方法 |
CN111615054A (zh) * | 2020-05-25 | 2020-09-01 | 和智信(山东)大数据科技有限公司 | 人口分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116992267A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110198310B (zh) | 一种网络行为反作弊方法、装置及存储介质 | |
WO2021184630A1 (zh) | 基于知识图谱定位排污对象的方法及相关设备 | |
CN110390262A (zh) | 视频分析方法、装置、服务器及存储介质 | |
CN106469181B (zh) | 一种用户行为模式分析方法及装置 | |
CN108304567B (zh) | 高压变压器工况模式识别与数据分类方法及*** | |
CN107368770B (zh) | 一种回头客自动识别方法及*** | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及*** | |
CN113065474A (zh) | 行为识别方法、装置及计算机设备 | |
CN114782897A (zh) | 基于机器视觉及深度学习的危险行为检测方法及*** | |
CN102902960A (zh) | 基于高斯建模与目标轮廓的遗留物检测方法 | |
CN112016769B (zh) | 管理相对人风险预测以及信息推荐方法及装置 | |
US10853829B2 (en) | Association method, and non-transitory computer-readable storage medium | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN110111011B (zh) | 一种教学质量监管方法、装置及电子设备 | |
CN116702059B (zh) | 一种基于物联网的智能生产车间管理*** | |
CN116992267B (zh) | 一种基于信令数据的区域人口性别识别方法及*** | |
CN108399387A (zh) | 用于识别目标群体的数据处理方法及装置 | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
CN112365269A (zh) | 风险检测方法、装置、设备以及存储介质 | |
CN116610821A (zh) | 一种基于知识图谱的企业风险分析方法、***和存储介质 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
CN111798237B (zh) | 基于应用日志的异常交易诊断方法及*** | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |