CN112434136B - 性别分类方法、装置、电子设备以及计算机存储介质 - Google Patents
性别分类方法、装置、电子设备以及计算机存储介质 Download PDFInfo
- Publication number
- CN112434136B CN112434136B CN202011424607.4A CN202011424607A CN112434136B CN 112434136 B CN112434136 B CN 112434136B CN 202011424607 A CN202011424607 A CN 202011424607A CN 112434136 B CN112434136 B CN 112434136B
- Authority
- CN
- China
- Prior art keywords
- information
- gender
- user
- classified
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003058 natural language processing Methods 0.000 claims abstract description 60
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 141
- 230000006399 behavior Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 16
- 238000010801 machine learning Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003796 beauty Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000020509 sex determination Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种性别分类方法,方法包括:根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;将推送信息访问序列作为语句序列输入至性别分类模型,得到性别分类模型输出的待分类用户的第一性别结果;性别分类模型是样本数据对自然语言处理模型进行训练得到的,样本数据对应的用户性别已知;基于第一对应关系以及各个第一信息标签确定出待分类用户的第二性别结果,第一对应关系为利用样本数据统计得到的信息标签与性别概率分布之间的对应关系;根据第一性别结果和第二性别结果确定待分类用户的性别,可以结合基于机器学习和基于统计进行性别分类的优势,对待分类用户的性别进行准确分类,并且提高了性别分类的准确率。
Description
技术领域
本申请涉及互联网技术领域,具体涉及性别分类方法、装置、电子设备以及计算机存储介质。
背景技术
随着互联网以及移动互联网的进一步普及,以互联网以及移动互联网作为载体的信息推送市场规模也在不断的扩大。信息推送可指广告推送、新闻推送等向用户推送互联网信息的行为。在互联网信息的投放过程中,性别作为定向投放过程中基础而又重要的属性,对于信息推送的匹配率以及转化率来说至关重要。例如一些美颜类的APP的广告投放主要人群是女性,而一些游戏类的广告投放则更偏向于男性。因此,在信息推送平台中,具有精准的性别属性对于信息推送来说,能够大大的提升最终给平台带来的收益。
然而,对于大部分信息推送平台而言,获取用户的性别信息是较为困难的。出于个人隐私的考虑,大部分用户并不希望将性别信息上传至信息推送平台。即使有少部分用户愿意上传性别信息,信息推送平台获取到的也可能是用户有意提供的错误的性别信息。基于此,如何准确对用户进行性别分类成了亟需解决的问题。
发明内容
本申请实施例公开了一种性别分类方法、装置、电子设备以及计算机存储介质,能够准确地对用户性别进行分类。
本申请实施例公开一种性别分类方法,其特征在于,所述方法包括:根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;将所述推送信息访问序列作为语句序列输入至性别分类模型,得到所述性别分类模型输出的所述待分类用户的第一性别结果;所述性别分类模型是利用样本数据对自然语言处理模型进行训练得到的,所述样本数据包括多个推送信息访问样本序列,所述推送信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建的;基于第一对应关系以及各个所述第一信息标签确定出所述待分类用户的第二性别结果,所述第一对应关系为利用所述样本数据统计得到的信息标签与性别概率分布之间的对应关系;根据所述第一性别结果和所述第二性别结果确定所述待分类用户的性别。
本申请实施例公开一种性别分类装置,包括:构建模块,用于根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;第一确定模块,用于将所述推送信息访问序列作为语句序列输入至性别分类模型,得到所述性别分类模型输出的所述待分类用户的第一性别结果;所述性别分类模型是利用样本数据对自然语言处理模型进行训练得到的,所述样本数据包括多个推送信息访问样本序列,所述推送信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建的;第二确定模块,用于基于第一对应关系以及各个所述第一信息标签确定出所述待分类用户的第二性别结果,所述第一对应关系为利用所述样本数据统计得到的信息标签与性别概率分布之间的对应关系;融合模块,根据所述第一性别结果和所述第二性别结果确定所述待分类用户的性别。
本申请实施例公开一种移动终端,包括:包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现本申请实施例公开的任一种性别分类方法。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本申请实施例公开的任一种性别分类方法。
与相关技术相比,本申请实施例具有以下有益效果:
本申请实施例可将性别分类问题转换为自然语言处理(Natural LanguageProcessing,NLP)中的文本分类问题,利用NLP模型进行分类,得出基于机器学习确定的待分类用户的第一性别结果。同时,还可基于统计得出的信息标签与性别之间的对应关系确定待分类用户的第二性别结果。基于机器学习进行性别分类的优势在于NLP模型可学习到由信息标签构建出的语句序列与性别之间隐藏的、不易被人工提取出的行为特征;基于统计进行性别分类的优势在于针对具有典型行为特征的待分类用户可取得更高的分类准确率。通过对第一性别结果和第二性别结果的融合,可以结合基于机器学习和基于统计进行性别分类的优势,无论待分类用户在访问推送信息时的行为特征是否典型,都可以对待分类用户的性别进行准确分类,并且提高了性别分类的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例公开的一种性别分类方法的应用场景示意图;
图2是本申请实施例公开的一种性别分类方法的流程示意图;
图3A是本申请实施例公开的一种用于进行文本分类的BERT模型的结构示意图;
图3B是本申请实施例公开的一种BERT模型输入表示的示例图;
图4是本申请实施例公开的一种性别分类模型的训练方法的流程示意图;
图5是本申请实施例公开的一种步骤420的实施方式的流程示意图;
图6是本申请实施例公开的一种CBOW模型的结构示意图;
图7是本申请实施例公开的一种步骤430的实施方式的流程示意图;
图8是本申请实施例公开的另一种性别分类方法的流程示意图;
图9是本申请实施例公开的一种性别分类装置的结构示意图;
图10本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请实施例公开了一种性别分类方法、装置、电子设备以及计算机存储介质,能够准确地对用户性别进行分类。以下分别进行详细说明。
请参阅图1,图1是本申请实施例公开的一种性别分类方法的应用场景示意图。如图1所示,应用场景中可包括终端设备10和服务设备20。终端设备10可为个人电脑、智能手机、智能可穿戴设备、车载终端、智能平板等电子设备,具体不做限定。服务设备20可为后台服务器,或者云端计算设备,具体不做限定。
以终端设备10为智能手机为例,终端设备10上可以运行有多种不同的应用程序(Application,APP),APP可以向用户推送不同的推送信息,包括但不限于广告信息、新闻信息、通知信息。推送信息可以由服务设备20下发至终端设备10,并通过APP推送的。如图1所示,APP可以在展示页面内110中输出推送信息。并且,在展示页面110中可内置有目标链接。通过访问该目标链接,可从推送信息的展示页面跳转至对应的引流页面中。例如,在展示页面中展示的推送信息为产品广告,则对应的引流页面中可展示产品详情。终端设备10可检测用户触发目标链接的跳转操作,例如可检测用户针对目标链接的点击操作。终端设备10在检测到上述的跳转操作时,可基于终端设备10和服务设备20之间的通信连接将用户本次访问相关的访问数据上传至服务设备20。其中,与本次访问相关的访问数据可包括但不限于:用于指示推送信息的信息标签、本次访问的访问时间。若本次访问的用户预先登记有性别信息,则访问数据中还可进一步包括用户的性别标签;若本次访问的用户未登记有性别信息,则访问数据中可缺失用户的性别标签。
服务设备20可将从多个终端设备10中获取到的访问数据记录至访问日志中。在访问日志中,可记录有每个终端设备10对应的用户身份标识(Identification,ID)以及每个终端设备10上报的访问数据。示例性的,请参阅表1,表1是本申请实施例公开的一种访问日志示例。
表1访问日志
如表1所示,访问日志中可包括性别已知或未知的多个用户分别上传的访问数据。在本申请实施例中,性别已知的用户可作为样本用户,基于样本用户上传的广告访问数据,可对性别未知的待分类用户的性别进行识别。
请一并参阅图2,图2是本申请实施例公开的一种性别分类方法的流程示意图。图2所示的性别分类方法可适用于具有一定计算能力的电子设备,该电子设备可为图1所示的服务设备20,或者也可为能够获取到上述的访问数据的任一终端设备,具体不做限定。如图2所示,该性别分类方法可包括以下步骤:
210、根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列。
在本申请实施例中,电子设备可获取待分类用户在推送信息时上传的访问数据。例如,可获取如上述的服务设备20记录的访问日志,并中访问日志中读取出性别未知的待分类用户(如用户C)上传的访问数据。其中,待分类用户上传的访问数据中可包括待分类用户访问的各个推送信息对应的第一信息标签。第一信息标签可用于对推送信息进行唯一标识,不同推送信息可分别对应不同的第一信息标签,该第一信息标签可包括推送信息的名称、推送信息的序列号等,但不限于此。
在本申请实施例中,推送信息访问序列中包含的各个元素可基于获取到的第一信息标签确定。可选的,推送信息访问序列中的元素可为第一信息标签本身,或者可对第一信息标签进行处理得到。
在一个实施例中,可获取待分类用户在一定时长内访问推送信息的第一信息标签构建推送信息访问序列。上述的一定时长可根据具体业务需求设定,例如设定为5天。示例性的,可获取待分类用户C在5天内访问推送信息的第一信息标签。基于第一信息标签构建出的推送信息访问序列可包括:广告b,广告d,广告s,广告a,广告f,广告s,广告a,广告o。
在一个实施例中,可从待分类用户访问推送信息的多个第一信息标签中获取出一定数量的第一信息标签构建推送信息访问序列。即,构建固定长度的推送信息访问序列。上述的一定数量也可根据具体业务需求或者计算量,例如设定为100。
220、将推送信息访问序列作为语句序列输入至性别分类模型,得到性别分类模型输出的待分类用户的第一性别结果,性别分类模型是利用样本数据对自然语言处理模型进行训练得到的。
在本申请实施例中,可将性别分类问题转换为自然语言处理(NaturalLanguageProcessing,NLP)中的文本分类问题。文本分类可指将给定的语句序列P分类为指定类别中的一个或多个类别。在本申请实施例中,推送信息访问序列可看作文本分类问题中待分类的语句序列,可利用NLP模型以文本分类的逻辑处理性别分类任务。NLP模型可包括但不限于基于卷积神经网络(Convolutional Neural Networks,CNN)的模型、基于循环神经网络(Recurrent Neural Network,RNN)的模型、基于注意力(Attention)机制的模型、基于转换器(Transformer)的模型。
为了使NLP模型能够以文本分类的逻辑执行性别分类任务,需要使用带有性别标记的样本数据对NLP模型进行训练。其中,可从上述的访问日志中读取出的多个性别已知的样本用户访问推送信息的第二信息标签,并根据第二信息标签构建多个推送信息访问样本序列,每个推送信息访问样本序列与一个样本用户对应。推送信息访问样本序列中隐含了样本用户访问推送信息时的用户行为特征,即隐含了样本用户倾向于访问哪些推送信息。需要说明的是,推送信息访问样本序列中包含的元素与推送信息访问序列中包含的元素对应,若推送信息访问样本序列中的元素为第二信息标签本身,则推送信息访问序列中包含的元素为第一信息标签本身;若推送信息访问样本序列中的元素由第二信息标签进行处理得到,则推送信息访问序列中包含的元素由第一信息标签进行处理得到。
对NLP模型进行训练的过程,可理解为将推送信息访问样本序列输入至NLP模型,由NLP模型预测该推送信息访问样本序列对应的用户性别。对NLP模型预测的用户性别以及该推送信息访问样本序列对应的样本用户的实际性别进行对比,利用对比结果反向调整NLP模型中的参数,使得NLP模型最终学习到以推送信息访问样本序列作为给定的语句序列时,给定语句序列与性别之间的关联关系。
在本申请实施例中,性别分类模型是利用样本数据对NLP模型进行训练后得到的。因此,性别分类模型已经学习到由推送信息标签构建出的语句序列与性别之间的关联关系,基于此,在接收到待分类用户对应的推送信息访问序列时,性别分类模型可将推送信息访问序列作为给定的语句序列,根据上述的关联关系输出第一性别结果。NLP模型作为一种机器学习的算法模型,可学习到由信息标签构成的语句序列与性别之间隐含的,不易被人工提取出的用户行为特征,从而可以准确地对性别进行分类。
在本申请实施例中,性别分类模型输出的第一性别结果可以是将确定为不同性别时,每一性别分别对应的第一概率,而非输出一个确定的分类结论。例如,第一性别结果可指示待分类用户是男性的概率为70%,是女性的概率为30%。
230、基于第一对应关系以及各个第一信息标签确定出待分类用户的第二性别结果。
在本申请实施例中,可基于样本数据统计得出信息标签与性别概率分布之间的第一对应关系。例如,可统计得出访问广告a的用户是男性的概率为80%,是女性的概率为20%。
推送信息访问序列中可包括一个或多个第一信息标签,基于上述的第一对应关系,可确定出每个第一信息标签对应的性别概率分布。对每个第一信息标签对应的性别概率分布进行融合,可得到待分类用户的第二性别结果。即,可基于统计得出待分类用户的第二性别结果。与第一性别结果类似,第二性别结果可以是将确定为不同性别时,每一性别分别对应的第二概率,而非一个确定的分类结论。统计得出的第一对应关系可用于表征不同性别的人群在访问推送信息时的典型行为特征,因此,基于统计得出的第二性别结果在某种程度上也可以具有较高的准确率。
在一个实施例中,可根据各个第一信息标签对应的性别概率分布的均值确定待分类用户的第二性别结果。其中,上述的均值可以为基于简单算术平均得到的均值,或者也可以为基于加权平均得到的均值,具体不做限定。在进行加权平均时,各个第一信息标签对应的权重可根据实际需求设定。示例性的,可基于样本数据统计得出以下第一对应关系:访问广告a的用户是男性的概率为80%,是女性的概率为20%;访问广告b的用户是男性的概率为30%,是女性的概率为70%;访问广告c的用户是男性的概率为50%,是男性的概率50%。待分类用户对应的第一信息标签可包括:广告a,广告b,广告c,则各个第一广告标签对应的性别概率分布的均值为:53.3%男性,46.7%女性,可将该均值作为第二性别结果。
需要说明的是,在本申请实施例中,步骤220和步骤230在逻辑上没有必然的先后关系,步骤220和步骤230可以同时进行,或者可以先执行步骤220再执行步骤230,也可以先执行步骤230再执行步骤220,具体不做限定。
240、根据第一性别结果和第二性别结果确定待分类用户的性别。
在本申请实施例中,性别分类模型输出的第一性别结果以及基于统计得出的第二性别结果均可实际表示为不同性别类别对应的预测概率。对第一性别结果包括的各个第一概率和第二性别结果包括的各个第二概率进行融合,得到不同性别类别最终对应的预测概率,从而可以基于该最终对应的预测概率确定待分类用户的性别。
在一个实施例中,可将同一性别分别对应的第一概率和第二概率的均值作为每一性别对应的均值概率,并根据各个性别对应的均值概率确定待分类用户的性别。其中,第一概率和第二概率的均值可以为基于简单算术平均得到的均值,或者也可以为基于加权平均得到的均值,具体不做限定。在进行加权平均时,同一性别分别对应的第一概率和第二概率对应的权重可根据实际需求设定。可选的,根据各个性别对应的均值概率确定待分类用户的性别时,可将数值最大的均值概率对应的性别确定为待分类用户的性别;或者,还进一步限定数值最大的均值概率大于概率阈值时,将数值最大的均值概率对应的性别确定为待分类用户的性别,否则,仍然将待分类用户的性别确定为位置,以提高最终得到的分类结果的可信度。
示例性的,第一性别结果可指示待分类用户是男性的概率为70%,是女性的概率为30%,第二性别结果可指示待分类用户是男性的概率为53.3%,是女性的概率为46.7%。因此,待分类用户是男性的均值概率为61.7%,是女性的均值概率为38.3%,从而可以确定待分类用户的性别为男性。
在前述实施例中,可将性别分类问题转换为NLP中的文本分类问题,以信息访问序列作为语句序列,利用NLP模型对语句序列进行分类,得出基于机器学习确定的待分类用户的第一性别结果。同时,还可基于统计得出的信息标签与性别之间的对应关系确定待分类用户的第二性别结果。基于机器学习进行性别分类的优势在于NLP模型可学习到由信息标签构建出的语句序列与性别之间隐藏的,不易被人工提取出的行为特征;基于统计进行性别分类的优势在于针对具有典型行为特征的待分类用户可取得更高的分类准确率。通过对第一性别结果和第二性别结果的融合,可以结合基于机器学习和基于统计进行性别分类的优势,无论待分类用户在访问推送信息时的用户行为特征是否典型,都可以对待分类用户的性别进行准确分类,并且提高了性别分类的准确率。
在一个实施例中,性别分类模型可以为利用样本数据对BERT(BidirectionalEncoderRepresentations from Transformers)模型进行训练得到的,BERT模型是一种基于双向编码器(Transformer)的NLP模型。
请一并参阅图3A,图3A是本申请实施例公开的一种用于进行文本分类的BERT模型的结构示意图。如图3A所示,BERT模型可包括输入层、隐藏层和输出层。其中,
输入层接收输入的语句序列,每个输入的语句序列可表示一个文本句。在语句序列之前,还包括一个用于表征句子开头的占位符CLS。请一并参阅图3B,图3B是本申请实施例公开的一种BERT模型输入表示的示例图。如图3B所述,在BERT的输入层中,语句序列会被分解成字向量(Token Embedding)、段向量(Segment Embedding)以及位置向量(PositionEmbedding)。字向量为语句序列包括的每个信息标签转换为向量形式的表示,段向量用于表征输入的语句序列是单句还是由两个句子组成的句对,位置向量用于表征每个信息标签在语句序列中的排列位置。在本申请实施例中,输入的语句序列为单句,段向量的取值为表征单句对应的值。输入层将字向量、段向量和位置向量的求和值输入至隐藏层。
隐藏层可包括双向的编码器(Transformer),双向编码器可抽取语句序列中的上下文关系,即所谓的语义理解。
输出层可使用Softmax函数或者Sigmod函数作为输出层函数,以执行文本分类任务。Softmax函数可适用于多分类问题,Sigmod函数可适用于二分类问题。例如,若将性别分为男女两种类别,则输出层可使用Sigmod函数进行二值分类。在输出层中,占位符CLS的输出结果为BERT本次预测的分类结果(Class Label)。
在本申请实施例中,为了使得BERT能够以文本分类的逻辑执行性别分类任务,使用多个推送信息访问样本序列对BERT模型进行训练,信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建出的。针对每个推送信息访问样本序列,将访问样本序列输入至BERT模型之后,获取BERT模型的输出结果,从输出结果中读取出占位符CLS的取值确定BERT模型预测的用户性别,再根据BERT模型预测的用户性别与样本用户的实际性别进行对比的结果对BERT模型中的参数进行调整。使用多个推送信息访问样本序列,不断对BERT模型中的参数进行迭代调整,BERT模型预测的用户性别会越来越接近样本用户的实际性别,从而可以准确地完成性别分类任务。
在一个实施例中,在利用带有性别标记的样本数据对BERT模型进行训练之前,可先利用无性别标记的文本数据对BERT模型进行预训练。无性别标记的文本数据可指与性别无关的普通文本数据,例如***上记录的文本。预训练阶段对BERT模型中的参数进行了初步调整,的目的在于使得BERT模型可预先学习到文本内词语间的关联关系,使得BERT模型可具有一定的先验知识。在预训练之后,再利用样本数据对的BERT模型中的参数进行微调(Fine-Tuning)。需要说明的是,对于其他NLP模型,也可先利用无性别标记的文本数据进行预训练,再利用样本数据对NLP模型中的参数进行微调。基于预训练过程中学习到的先验知识,可以有效减少微调阶段的训练时间和计算量。
从上述对NLP模型的介绍中可以看出,NLP模型的输入可以影响NLP模型的准确性以及训练所需的时长。若直接利用第二信息标签本身构建推送信息访问样本序列,由于信息标签的种类是海量的,容易导致推送信息访问样本序列较为稀疏,增加了NLP模型的训练时长,且难以发挥深度神经网络的优势。
本申请实施例公开一种推送信息访问样本序列的构建方法,以及相应的性别分类模型的训练方法,可将稀疏的输入数据转换为稠密的输入数据,有利于发挥NLP模型等深度网络的优势。以下内容进行分别说明。
请一并参阅图4,图4是本申请实施例公开的一种性别分类模型的训练方法的流程示意图。如图4所示,可包括以下步骤:
410、根据同一样本用户访问推送信息的第二信息标签生成信息标签样本序列。
在本申请实施例中,信息标签样本序列中包含的元素为第二信息标签本身,可获取某一样本用户在一定时长内访问推送信息的第二信息标签组合成信息标签序列,或者获取一定数量的第二信息标签组合成信息标签序列,具体不做限定。其中,各个第二信息标签在信息标签序列中可按时间排序。通过将同一样本用户访问推送信息的信息标签进行合并,可以有效减少数据维度,扩充每个信息标签样本序列中包括的信息量。
示例性的,用户A在5天内访问推送信息一共产生了180条数据,包括180个第二信息标签。以每5个信息标签构建一个标签样本序列,180个第二信息标签可构建36个标签样本序列。构建出的标签样本序列可以如下表所示:
表2标签样本序列表
420、生成信息标签样本序列中包括的各个第二信息标签对应的特征向量。
在本申请实施例中,第二信息标签对应的特征向量可为第二信息标签在向量空间中的表示,特征向量可用于表征与第二信息标签对应的推送信息。
在一个实施例中,可通过词嵌入(Word Eembedding)模型将第二信息标签的标签文本映射至向量空间,将映射得到的词向量作为第一信息标签对应的特征向量。上述的词嵌入模型可指将词语转换为向量的算法模型,可采用独热(one-hot)编码等词嵌入算法将词语转换为向量。或者,可以通过对Word2Vec模型、GloVe(Global Vectors of WordRepresentation)等算法模型的结构进行训练,得到词嵌入模型。
在一个实施例中,还可结合推送信息的固有属性与信息标签的标签文本确定第二信息标签对应的特征向量。推送信息的固有属性可包括推送信息所属的内容类别和/或推送信息投放的平台类别。推送信息的内容类别,如金融类、游戏类、电商类等。推送内容投放的平台类别,例如理财APP、游戏APP、贷款APP、导购APP、团购APP等。结合推送信息的固有属性与信息标签的标签文本生成特征向量,可使得特征向量既能表征用户访问推送信息时的行为特征,也能表征推送信息本身自带的属性特征。
430、根据每个第二信息标签对应的特征向量从K个聚类类别中确定出每个第二信息标签对应的聚类类别,得到由各个第二信息标签对应的聚类类别构成的推送信息访问样本序列。
在本申请实施例中,上述的K个聚类类别是由多个第二推送信息标签对应的特征向量进行聚类得到的。聚类可指将相同或者相似的特征向量划分至同一个数据集合的方法,可使用基于划分的聚类方法,例如K均值(K-Means)聚类,或者基于层级的聚类方法,例如使用代表点的聚类法(Clustering Using Representatives,CURE),但不限于此。可通过向量距离衡量两个特征向量之间的相似度,向量距离越短,两个特征向量之间的相似度越高。
在本申请实施例中,聚合得到的K个聚类类别可通过对应的数据集合的质心进行表示。某一数据集合的质心可指该数据集合中包括的各个特征向量的均值向量;或者,也可以从该数据集合包括的各个特征向量中选定某个特征向量作为质心,具体不做限定。
示例性的,假设从信息标签样本序列中获取到的第二信息标签分别为:广告a、广告b、广告c、广告d、广告e、广告x,且执行步骤420生成了各个第二信息标签对应的特征向量。执行步骤430对上述的广告a-广告x进行聚类,聚合得到3个类别,分别为类别A、类别B、类别C。各个第二信息标签与聚类类别之间的映射关系可以如下表所示:
表3信息标签与聚类类别之间的映射关系表
聚类类别 | 信息标签 |
类别A | 广告a、广告b |
类别B | 广告c、广告d、广告e |
类别C | 广告x |
可见,在步骤430中,每个信息标签样本序列中包括的第二信息标签都可从K个聚类类别中确定出对应的聚类类别,将信息标签样本序列中的第二信息标签替换为对应的聚类类别,可得到与该信息标签样本序列对应的推送信息访问样本序列。
示例性的,对各个信息标签样本序列进行转换后得到的推送信息访问样本序列可以如下表所示:
表4推送信息访问样本序列表
需要说明的是,在步骤430中,上述K个聚类类别与推送信息的固有属性包括的内容类别和/或平台类别不同。聚类类别一般远小于信息标签的数量,但可能多于内容类别或者平台类别的数量。
440、利用推送信息访问样本序列以及与推送信息访问样本序列对应的样本用户的性别标签对自然语言处理模型进行训练。
在本申请实施例中,将信息标签样本序列中的第二信息标签样本替换为对应的聚类类别,可将稀疏的信息标签样本序列转换为稠密的推送信息访问样本序列。以稠密的推送信息访问样本序列对NLP模型进行训练,有利于发挥NLP模型等深度网络的优势,使得训练得出的性别分类模型在性别分类问题上可以取得更优的准确率。
为了更清楚地说明图4所示的性别分类模型的训练法方法,下面对上述的步骤420和步骤430进行进一步说明。
请一并参阅图5,图5是本申请实施例公开的一种步骤420的实施方式的流程示意图。图5所示的实施方式为结合推送信息的固有属性与推送信息的信息标签确定第二信息标签对应的特征向量,可包括以下步骤:
4210、通过词嵌入模型将每个第二信息标签的标签文本映射至向量空间,得到与每个第二信息标签的标签文本对应的行为特征子向量。
在一个实施例中,可利用多个信息标签样本序列对算法模型进行训练,使得词嵌入模型可以基于信息标签在序列中的上下文进行映射,以使映射得到词向量也具有语义信息。在本申请实施例中,可将具有语义信息的词向量称作行为特征向量。示例性的,词嵌入模型可使用Word2Vec模型的一种实现方式:连续词袋(Continuous Bag-of-Words,CBOW)模型。下面以CBOW模型为例说明利用信息标签样本序列训练得到词嵌入模型的过程。
请一并参阅图6,图6是本申请实施例公开的一种CBOW模型的结构示意图。如图6所示,CBOW模型包括输入层、映射层和输出层。CBOW模型根据信息标签样本序列中目标信息标签的上下文(前N个第一信息标签或者后N个第一信息标签),预测目标信息标签的出现概率。可以说一个信息标签由其上下文的信息标签进行表示,而相似的信息标签往往拥有相似的上下文语境,所以相似的信息标签用这种方式得到的词向量也相似。
示例性的,通过词嵌入模型将每个第二信息标签的标签文本映射至向量空间之后,各个第二信息标签的行为特征向量如下表所示:
表5词嵌入模型输出结果示例表
4220、对每个第二信息标签的固有属性进行编码,得到与每个第二信息标签的固有属性对应的属性特征子向量。
在一个实施例中,对第二信息标签的固有属性进行编码可指将第二信息标签的固有属性映射至向量空间中,以向量的形式进行表示。当固有属性包括内容类别时,属性特征子向量可包括内容类别编码;当固有属性包括类别时,属性特征子向量可包括平台类别编码;当固有属性包括内容类别平台和平台类别时,属性特征子向量可由内容类别编码和平台类别编码进行拼接得到。
可选的,可通过独热(One-hot)编码方法对第二信息标签的固有属性进行编码。独热编码方法将每个类别表示成向量中的一个元素,向量的长度等于所有类别的个数。使用向量表示某个目标类别时,向量中该目标类别对应位置的元素是1,其他位置的元素都是0。
示例性的,当固有属性包括内容类别时,假设有6种不同的内容类别,分别为:金融、游戏、电商、招商投资、娱乐和教育。可使用6维的向量对内容类别进行表示,维度位数与上述的6种内容类别一一对应。假设第二信息标签为广告A,广告A对应的推送信息为某***的宣传信息,广告A对应的推送信息所属的内容类别可为游戏类和娱乐类,则广告A对应内容类别编码可为010010。
示例性的,当固有属性包括平台类别时,假设有5种不同的平台类别,分别为:理财类平台、游戏类平台、贷款类平台、导购类平台、团购类平台等,可用5维的向量对平台类别进行表示。假设第二信息标签为广告A,广告A对应的推送信息在理财类平台投放,则广告A对应的平台类别编码可为10000。
4230、将每个第二信息标签的对应的行为特征子向量以及对应的属性特征子向量进行拼接,得到与每个第二信息标签对应的特征向量。
在本申请实施例中,拼接后得到的第二信息标签对应的特征向量的长度可为第二信息标签对应的行为特征子向量与对应的属性特征子向量的长度之和。例如,第二信息标签对应的行为特征子向量为8维向量,第二信息标签对应的属性特征子向量包括内容类别编码和平台类别编码,且内容类别编码为6维向量,平台类别编码维5维向量。对行为特征子向量与属性特征子向量进行拼接,得到19维的第二信息标签对应的特征向量。
在图5所示的方法中,利用经由多个信息标签样本序列训练得到的词嵌入模型将第二信息标签映射为行为特征子向量,可以利用NLP模型学习用户访问信息标签的行为特征之前,对输入至NLP模型中的数据进行预训练,预先学习到用户访问推送信息时的部分行为特征。此外,通过拼接行为特征子向量与属性特征子向量生成特征向量,可以使得特征向量既能表征用户访问推送信息时的行为特征,也能表征推送信息本身自带的属性特征。
请一并参阅图7,图7是本申请实施例公开的一种步骤430的实施方式的流程示意图。图7所示的实施方式采用K-Means聚类算法将多个第二信息标签聚合成K个类别,可包括以下步骤:
4310、从各个第二信息标签对应的特征向量中随机选取出K个特征向量作为K个聚类类别的原始质心。
基于K-Means聚类算法进行聚类时,K的取值决定了最终聚合得出的聚类类别的数量。在本申请实施例中,K的取值可根据实际的业务需求设定。例如,假设多个样本用户的访问数据中包括100万个第二信息标签,基于计算量或者计算效率等因素的效率,期望将NLP模型的输入从100万降维至1万,则可将K的取值设置为1万。
4320、计算各个第二信息标签对应的特征向量与K个原始质心之间的向量距离,将每个第二信息标签对应的特征向量划分至距离最近的原始质心对应的聚类类别中。
向量距离可通过以下方式计算:
其中,X可表示第二信息标签对应的特征向量,Y可表示聚类类别的质心,xi可为第i个第二信息标签对应的特征向量,yj可为第j个聚类类别的质心,1≤j≤K。
4330、在所有第二信息标签对应的特征向量均被划分至对应的聚类类别中时,重新计算每个聚类类别的质心。
在重新计算聚类类别的质心时,可以聚类类别包括的各个特征向量的均值向量作为重新计算出的新质心。
4340、判断每个聚类类别重新计算出的新质心与原始质心之间的向量距离是否小于距离阈值;若是,则执行步骤4350;若否,则以重新计算出的新质心替代原始质心,并继续执行步骤4320。
距离阈值可根据期望的误差进行设定,当新质心与原始质心之间的向量距离小于距离阈值时,说明质心的位置变化趋于稳定,聚类达到了期望的结果,可终止迭代。
4350、以重新计算出的新质心作为聚合得到的K个聚类类别的质心。
针对标签样本序列中包括的各个第二信息标签,在生成第二信息标签对应的特征向量之后,可以将第二信息标签对应的特征向量与K个聚类类别的质心进行比较,从而确定出与第二信息标签对应的特征向量距离最近的质心,将距离最近的质心表征的聚类类别确定为与该第二信息标签对应的聚类类别。
可见,基于如图7所示的聚类方法,可根据各个第二信息标签对应的特征向量之间的向量距离将各个第二信息标签聚合成K个聚类类别。
在前述实施例中,对性别分类模型的模型结构以及训练过程进行了说明。基于训练得到的性别分类模型,本申请实施例公开另一种性别分类方法。请一并参阅图8,图8是本申请实施例公开的另一种性别分类方法的流程示意图。如图8所示,该性别分类方法可以包括以下步骤:
810、根据待分类用户访问推送信息的第一信息标签生成信息标签序列。
在本申请实施例中,信息标签序列中包含的元素为第一信息标签本身,可获取待分类用户在一定时长内访问推送信息的第一信息标签组合成信息标签序列,或者获取出一定数量的第一信息标签组合成信息标签序列,具体不做限定。
示例性的,根据性别未知的用户C访问推送信息的第一信息标签生成的信息标签序列可包括:广告b,广告d,广告s,广告a,广告f,广告s,广告a,广告o。
820、生成信息标签序列中包含的各个第一信息标签对应的特征向量。
在本申请实施例中,步骤820的实施方式可参考前述实施例中描述的生成第二信息标签对应的特征向量的实施方式。需要说明的是,生成第一信息标签对应的特征向量的实施方式应与生成第二信息标签对应的特征向量时的实施方式对应。例如,若在训练NLP模型以得到性别分类模型时,结合推送信息的固有属性与推送信息的信息标签确定第二信息标签对应的特征向量,则在生成第一信息标签对应的特征向量时,也应根据第一信息标签的标签文本以及第一信息标签的固有属性生成第一信息标签的特征向量。
830、根据每个第一信息标签对应的特征向量从K个聚类类别中确定每个第一信息标签对应的聚类类别,得到由各个第一信息标签对应的聚类类别构成的推送信息访问序列。
在本申请实施例中,K个聚类类别是由多个第二推送信息标签对应的特征向量进行聚类得到的。聚类得到K个聚类类别的实施方式可以参见前述实施例,以下内容不再赘述。
聚合得到的K个聚类类别可通过对应的数据集合的质心进行表示,因此,在确定第一信息标签对应的聚类类别时,可分别计算第一信息标签对应的特征向量与各个聚类类被的质心之间的向量距离,并将距离最近的质心所在的聚类类别确定为与第一信息标签对应的聚类类别。将信息标签序列中包括的各个第一信息标签替换为对应的聚类类别,可得到推送信息访问序列。
示例性的,推送信息访问序列可包括:类别B,类别F,类别A,类别D,类别K,类别A,类别B。
840、将推送信息访问序列作为语句序列输入至性别分类模型,得到性别分类模型输出的待分类用户的第一性别结果,性别分类模型是利用样本数据对自然语言处理模型进行训练得到的。
在本申请实施例中,将推送信息访问序列输入至性别分类模型,例如输入至如图3A所示的BERT模型,可得到性别分类模型输出的待分类用户的第一性别结果,第一性别结果可实际表示为不同性别分别对应的第一概率。
850、基于第一对应关系以及各个第一信息标签确定出待分类用户的第二性别结果。
860、根据第一性别结果和第二性别结果确定待分类用户的性别。
在本申请实施例中,步骤850~步骤860的实施方式可参见前述实施例中对步骤230~步骤240的描述,以下内容不再赘述。
可见,在前述实施例中,若采用由聚类类别构成的推送信息访问样本序列对自然语言处理模型进行训练得到性别分类模型,则需要在利用性别分类模型对待分类用户的性别进行确定前,将待分类用户访问推送信息的第一信息标签替换成对应的聚类类别,从而构建出包括聚类类别的推送信息访问序列。利用信息稠密的推送信息访问样本序列训练得到的性别分类模型在性别分类问题上可以具有更高的准确性,使得输出的第一性别结果更加准确。在此基础上,融合基于统计得出的第二性别结果,可进一步提高分类的准确率。
请参阅图9,图9是本申请实施例公开的一种性别分类装置的结构示意图。如图9所示,该性别分类装置900可包括:构建模块910、第一确定模块920、第二确定模块930、融合模块940。
构建模块910,用于根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;
第一确定模块920,用于将推送信息访问序列作为语句序列输入至性别分类模型,得到性别分类模型输出的待分类用户的第一性别结果;性别分类模型是利用样本数据对自然语言处理模型进行训练得到的,样本数据包括多个推送信息访问样本序列,推送信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建的;
第二确定模块930,用于基于第一对应关系以及各个第一信息标签确定出待分类用户的第二性别结果,第一对应关系为利用样本数据统计得到的信息标签与性别概率分布之间的对应关系;
融合模块940,根据第一性别结果和第二性别结果确定待分类用户的性别。
在前述实施例中,可将性别分类问题转换为NLP中的文本分类问题,利用NLP模型对语句序列进行分类,得出基于机器学习确定的待分类用户的第一性别结果。同时,还可基于统计得出的信息标签与性别之间的对应关系确定待分类用户的第二性别结果。基于机器学习进行性别分类的优势在于NLP模型可学习到由信息标签构建出的语句序列与性别之间隐藏的,不易被人工提取出的特征规则;基于统计进行性别分类的优势在于针对具有典型行为特征的待分类用户可取得更高的分类准确率。通过对第一性别结果和第二性别结果的融合,可以结合基于机器学习和基于统计进行性别分类的优势,提高了性别分类的准确率。
在一个实施例中,第一性别结果包括将待分类用户确定为不同性别时,每一性别分别对应的第一概率;第二性别结果包括将待分类用户确定为不同性别时,每一性别分别对应的第二概率。
上述的融合模块940,可包括:均值确定单元和性别确定单元。
均值确定单元,可用于将每一性别分别对应的第一概率和第二概率的均值作为每一性别对应的均值概率。
性别确定单元,可用于将每一性别分别对应的第一概率和第二概率的均值作为每一性别对应的均值概率。
在一个实施例中,构建模块910,包括:第一生成单元,第二生成单元,序列确定单元。
第一生成单元,用于根据待分类用户访问推送信息的第一信息标签生成信息标签序列;
第二生成单元,用于生成信息标签序列中包含的各个第一信息标签对应的特征向量;
序列确定单元,用于根据每个第一信息标签对应的特征向量从K个聚类类别中确定每个第一信息标签对应的聚类类别,得到由各个第一信息标签对应的聚类类别构成的推送信息访问序列;K个聚类类别是由多个第二推送信息标签对应的特征向量进行聚类得到的。
在一个实施例中,性别分类装置900还包括:训练模块,用于在构建模块910根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列之前,根据同一样本用户访问推送信息的第二信息标签生成信息标签样本序列;以及,生成信息标签样本序列中包括的各个第二信息标签对应的特征向量;以及,根据每个第二信息标签对应的特征向量从K个聚类类别中确定出每个第二信息标签对应的聚类类别,得到由各个第二信息标签对应的聚类类别构成的推送信息访问样本序列;K个聚类类别是由多个第二推送信息标签对应的特征向量进行聚类得到的;以及,利用推送信息访问样本序列以及与推送信息访问样本序列对应的样本用户的性别标签对自然语言处理模型进行训练。
在一个实施例中,上述的自然语言处理模型是利用无性别标记的文本数据进行预训练得到的。
在一个实施例中,样本数据还包括第二信息标签的固有属性;固有属性包括第二信息标签对应的推送信息所属的内容类别和/或第二信息标签对应的推送信息投放的平台类别;
性别分类装置900还包括:聚类模块。
聚类模块,用于在构建模块910根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列之前,根据每个第二信息标签的标签文本以及每个第二信息标签的固有属性生成每个第二信息标签的特征向量,并根据特征向量对各个第二信息标签进行聚类,得到K个聚类类别。
在一个实施例中,聚类模块,包括:
映射单元,用于通过词嵌入模型将每个第二信息标签的标签文本映射至向量空间,得到与每个第二信息标签的标签文本对应的行为特征子向量;
编码单元,对每个第二信息标签的固有属性进行编码,得到与每个第二信息标签的固有属性对应的属性特征子向量;
拼接单元,用于将每个第二信息标签的对应的行为特征子向量以及对应的属性特征子向量进行拼接,得到与每个第二信息标签对应的特征向量;
聚类单元,用于根据各个第二信息标签对应的特征向量之间的向量距离将各个第二信息标签聚合成K个聚类类别。
在一个实施例中,上述的词嵌入模型是利用多个信息标签样本序列进行训练得到的,每个信息标签样本序列包括同一样本用户在一定时长内访问推送信息的第二信息标签。
在前述实施例中,将信息标签样本序列中的第二信息标签样本替换为对应的聚类类别,可将稀疏的信息标签样本序列转换为稠密的推送信息访问样本序列。以稠密的推送信息访问样本序列对NLP模型进行训练,有利于发挥NLP模型等深度网络的优势,使得训练得出的性别分类模型在性别分类问题上可以取得更优的准确率。
在一个实施例中,第二确定模块930,用于根据第一对应关系确定推送信息访问序列中每个第一信息标签对应的性别概率分布;以及,以各个第一信息标签对应的性别概率分布的均值作为待分类用户的第二性别结果。
在前述实施例中,可将性别分类问题转换为NLP中的文本分类问题,利用NLP模型得到第一性别结果;并且,可基于统计得出第二性别结果。从而融合基于机器学习和基于统计进行性别分类的优势,提高性别分类的准确率。其次,在利用NLP模型进行性别分类时,并非直接输入信息标签,而是将信息标签转换为对应的聚类类别,从而可将稀疏的输入数据转换为稠密的输入数据,有利于发挥NLP模型等深度网络的优势,使得训练得出的性别分类模型在性别分类问题上可以取得更优的准确率。
图10为一个实施例中电子设备的结构示意图。电子设备可以是服务设备、手机、平板电脑、智能穿戴设备、PC、笔记本电脑等设备。如图10所示,电子设备1000可以包括一个或多个如下部件:处理器1010、与处理器1010耦合的存储器1020,其中存储器1020可存储有一个或多个应用程序,一个或多个应用程序可以被配置为由一个或多个处理器1010执行,一个或多个程序配置用于执行如上述各实施例中所描述的对话文本的处理方法。
处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集,以及调用存储在存储器1020内的数据,执行电子设备1000的各种功能和处理数据。可选地,处理器1010可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1010中,单独通过一块通信芯片进行实现。
存储器1020可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据等。
可以理解地,电子设备1000可包括比上述结构框图中更多或更少的结构元件,例如,包括电源、输入按键、摄像头、扬声器、屏幕、RF(Radio Frequency,射频)电路、Wi-Fi(Wireless Fidelity,无线保真)模块、蓝牙模块、传感器等,还可在此不进行限定。
本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序被处理器执行时实现如上述各实施例中描述的性别分类方法。
本申请实施例公开一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可被处理器执行时实现如上述各实施例描述的性别分类方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
如此处所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Erasable PROM,EPROM)、电可擦除PROM(Electrically ErasablePROM,EEPROM)或闪存。易失性存储器可包括随机存取存储器(random access memory,RAM),它用作外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(StaticRAM,SRAM)、动态RAM(Dynamic Random Access Memory,DRAM)、同步DRAM(synchronousDRAM,SDRAM)、双倍数据率SDRAM(Double Data RateSDRAM,DDR SDRAM)、增强型SDRAM(Enhanced Synchronous DRAM,ESDRAM)、同步链路DRAM(Synchlink DRAM,SLDRAM)、存储器总线直接RAM(Rambus DRAM,RDRAM)及直接存储器总线动态RAM(Direct Rambus DRAM,DRDRAM)。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。
以上对本申请实施例公开的一种性别分类方法、装置、电子设备以及计算机存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种性别分类方法,其特征在于,所述方法包括:
根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;
将所述推送信息访问序列作为语句序列输入至性别分类模型,得到所述性别分类模型输出的所述待分类用户的第一性别结果;所述性别分类模型是利用样本数据对自然语言处理模型进行训练得到的,所述样本数据包括多个推送信息访问样本序列,所述推送信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建的,所述第一性别结果包括将所述待分类用户与不同性别分别对应的第一概率;
基于第一对应关系以及各个所述第一信息标签确定出所述待分类用户的第二性别结果,所述第一对应关系为利用所述样本数据统计得到的信息标签与性别概率分布之间的对应关系,所述第二性别结果包括将所述待分类用户与不同性别分别对应的第二概率;
将同一性别对应的第一概率和第二概率的均值作为所述同一性别对应的均值概率;根据各个性别对应的均值概率确定所述待分类用户的性别;
所述根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列,包括:
根据待分类用户访问推送信息的第一信息标签生成信息标签序列;生成所述信息标签序列中包含的各个第一信息标签对应的特征向量;根据每个所述第一信息标签对应的特征向量从K个聚类类别中确定每个所述第一信息标签对应的聚类类别,得到由各个所述第一信息标签对应的聚类类别构成的推送信息访问序列,所述K个聚类类别是由多个第二信息标签对应的特征向量进行聚类得到的。
2.根据权利要求1所述的方法,其特征在于,所述样本数据还包括第二信息标签的固有属性;所述固有属性包括第二信息标签对应的推送信息所属的内容类别和/或第二信息标签对应的推送信息投放的平台类别;
在所述根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列之前,所述方法还包括:
根据每个第二信息标签的标签文本以及每个第二信息标签的所述固有属性生成每个第二信息标签的特征向量,并根据特征向量对各个第二信息标签进行聚类,得到K个聚类类别。
3.根据权利要求2所述的方法,其特征在于,所述根据每个第二信息标签的标签文本以及每个第二信息标签的所述固有属性生成每个第二信息标签的特征向量,并根据特征向量对各个第二信息标签进行聚类,得到K个聚类类别,包括:
通过词嵌入模型将每个第二信息标签的标签文本映射至向量空间,得到与每个第二信息标签的标签文本对应的行为特征子向量;
对每个第二信息标签的固有属性进行编码,得到与每个第二信息标签的固有属性对应的属性特征子向量;
将每个所述第二信息标签对应的行为特征子向量以及对应的属性特征子向量进行拼接,得到与每个所述第二信息标签对应的特征向量;
根据各个第二信息标签对应的特征向量之间的向量距离将所述各个第二信息标签聚合成K个聚类类别。
4.根据权利要求3所述的方法,其特征在于,所述词嵌入模型是利用多个信息标签样本序列进行训练得到的,每个所述信息标签样本序列包括同一样本用户在一定时长内访问推送信息的第二信息标签。
5.根据权利要求1所述的方法,其特征在于,在所述根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列之前,所述方法还包括:
根据同一样本用户访问推送信息的第二信息标签生成信息标签样本序列;
生成所述信息标签样本序列中包括的各个第二信息标签对应的特征向量;
根据每个所述第二信息标签对应的特征向量从K个聚类类别中确定出每个所述第二信息标签对应的聚类类别,得到由各个所述第二信息标签对应的聚类类别构成的推送信息访问样本序列;所述K个聚类类别是由多个第二推送信息标签对应的特征向量进行聚类得到的;
利用所述推送信息访问样本序列以及与所述推送信息访问样本序列对应的样本用户的性别标签对自然语言处理模型进行训练。
6.根据权利要求1或5所述的方法,其特征在于,所述自然语言处理模型是利用无性别标记的文本数据进行预训练得到的。
7.根据权利要求1所述的方法,其特征在于,所述基于第一对应关系以及所述推送信息访问序列确定出所述待分类用户的第二性别结果,包括:
根据第一对应关系确定所述推送信息访问序列中每个第一信息标签对应的性别概率分布;
以各个第一信息标签对应的性别概率分布的均值作为所述待分类用户的第二性别结果。
8.一种性别分类装置,其特征在于,包括:
构建模块,用于根据待分类用户访问推送信息的第一信息标签构建推送信息访问序列;
第一确定模块,用于将所述推送信息访问序列作为语句序列输入至性别分类模型,得到所述性别分类模型输出的所述待分类用户的第一性别结果;所述性别分类模型是利用样本数据对自然语言处理模型进行训练得到的,所述样本数据包括多个推送信息访问样本序列,所述推送信息访问样本序列是根据性别已知的样本用户访问推送信息的第二信息标签构建的,第一性别结果包括将待分类用户确定为不同性别时,每一性别分别对应的第一概率;
第二确定模块,用于基于第一对应关系以及各个所述第一信息标签确定出所述待分类用户的第二性别结果,所述第一对应关系为利用所述样本数据统计得到的信息标签与性别概率分布之间的对应关系,第二性别结果包括将待分类用户确定为不同性别时,每一性别分别对应的第二概率;
融合模块,根据所述第一性别结果和所述第二性别结果确定所述待分类用户的性别;
所述融合模块包括均值确定单元和性别确定单元:
所述均值确定单元,用于将同一性别对应的第一概率和第二概率的均值作为所述同一性别对应的均值概率;
所述性别确定单元,用于根据各个性别对应的均值概率确定所述待分类用户的性别;
所述构建模块包括第一生成单元、第二生成单元和序列确定单元:
所述第一生成单元,用于根据待分类用户访问推送信息的第一信息标签生成信息标签序列;
所述第二生成单元,用于生成所述信息标签序列中包含的各个第一信息标签对应的特征向量;
所述序列确定单元,用于根据每个所述第一信息标签对应的特征向量从K个聚类类别中确定每个所述第一信息标签对应的聚类类别,得到由各个所述第一信息标签对应的聚类类别构成的推送信息访问序列,所述K个聚类类别是由多个第二信息标签对应的特征向量进行聚类得到的。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424607.4A CN112434136B (zh) | 2020-12-08 | 2020-12-08 | 性别分类方法、装置、电子设备以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424607.4A CN112434136B (zh) | 2020-12-08 | 2020-12-08 | 性别分类方法、装置、电子设备以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434136A CN112434136A (zh) | 2021-03-02 |
CN112434136B true CN112434136B (zh) | 2024-04-23 |
Family
ID=74691599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424607.4A Active CN112434136B (zh) | 2020-12-08 | 2020-12-08 | 性别分类方法、装置、电子设备以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434136B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN107766891A (zh) * | 2017-10-31 | 2018-03-06 | 广东欧珀移动通信有限公司 | 用户性别识别方法、装置、存储介质及电子设备 |
CN108256537A (zh) * | 2016-12-28 | 2018-07-06 | 北京酷我科技有限公司 | 一种用户性别预测方法和*** |
CN111078742A (zh) * | 2019-12-09 | 2020-04-28 | 秒针信息技术有限公司 | 用户分类模型训练方法、用户分类方法及装置 |
CN111178983A (zh) * | 2020-01-03 | 2020-05-19 | 北京搜狐新媒体信息技术有限公司 | 用户性别预测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162522B2 (en) * | 2001-11-02 | 2007-01-09 | Xerox Corporation | User profile classification by web usage analysis |
-
2020
- 2020-12-08 CN CN202011424607.4A patent/CN112434136B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355449A (zh) * | 2016-08-31 | 2017-01-25 | 腾讯科技(深圳)有限公司 | 用户选取方法和装置 |
CN108256537A (zh) * | 2016-12-28 | 2018-07-06 | 北京酷我科技有限公司 | 一种用户性别预测方法和*** |
CN107766891A (zh) * | 2017-10-31 | 2018-03-06 | 广东欧珀移动通信有限公司 | 用户性别识别方法、装置、存储介质及电子设备 |
CN111078742A (zh) * | 2019-12-09 | 2020-04-28 | 秒针信息技术有限公司 | 用户分类模型训练方法、用户分类方法及装置 |
CN111178983A (zh) * | 2020-01-03 | 2020-05-19 | 北京搜狐新媒体信息技术有限公司 | 用户性别预测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112434136A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960800B (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN109388807B (zh) | 电子病历命名实体识别的方法、装置及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析*** | |
CN111581923A (zh) | 文案生成方法、装置、设备和计算机可读存储介质 | |
EP4310695A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
CN113887229A (zh) | 地址信息的识别方法、装置、计算机设备及存储介质 | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN111581926A (zh) | 文案生成方法、装置、设备和计算机可读存储介质 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN114239805A (zh) | 跨模态检索神经网络及训练方法、装置、电子设备、介质 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN115062134A (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
CN113435531B (zh) | 零样本图像分类方法、***、电子设备及存储介质 | |
CN117708428A (zh) | 推荐信息预测方法、装置以及电子设备 | |
CN111523312B (zh) | 一种基于释义消歧的查词显示方法、装置和计算设备 | |
CN111950265A (zh) | 一种领域词库构建方法和装置 | |
CN112434136B (zh) | 性别分类方法、装置、电子设备以及计算机存储介质 | |
CN112580365B (zh) | 篇章解析方法及电子设备、存储装置 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN112632994B (zh) | 基于文本信息确定基本属性特征的方法、装置及设备 | |
CN117938951B (zh) | 信息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |