CN113407579A - 群组查询方法、装置、电子设备及可读存储介质 - Google Patents
群组查询方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113407579A CN113407579A CN202110799579.2A CN202110799579A CN113407579A CN 113407579 A CN113407579 A CN 113407579A CN 202110799579 A CN202110799579 A CN 202110799579A CN 113407579 A CN113407579 A CN 113407579A
- Authority
- CN
- China
- Prior art keywords
- target
- group
- feature
- feature vector
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000013210 evaluation model Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种群组查询方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,尤其涉及大数据、智能搜索、云计算等领域。具体实现方案为:根据获取的查询请求,确定多个目标群组;确定每个所述目标群组的目标特征;所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、智能搜索、云计算等领域。
背景技术
对于大型企业或者组织的内部通讯工具来说,企业或组织内部的员工由于工作、生产、研发等需求,时常需要在内部通讯工具创建用于沟通的群组。同一个员工往往拥有很多具有类似描述的工作群组。目前在查询所需的群组时,常常利用关键词检索获得相关群组。
发明内容
本公开提供了一种用于群组查询的方法、装置、电子设备及可读存储介质。
根据本公开的一方面,提供了一种群组查询方法,包括:
根据获取的查询请求,确定多个目标群组;
确定每个所述目标群组的目标特征;其中,所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;
利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;
根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
根据本公开的另一方面,提供了一种群组查询装置,包括:
第一确定模块,用于根据获取的查询请求,确定多个目标群组;
第二确定模块,用于确定每个所述目标群组的目标特征;其中,所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;
处理模块,用于利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;
显示模块,用于根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
根据本申请的技术解决了目前利用关键词检索查询所需群组的效率低的问题,提高了查询到所需群组的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种群组查询方法的流程图;
图2是本公开实施例中的点击率评估模型的架构示意程图;
图3是用来实现本公开实施例的群组查询方法的群组查询装置的框图;
图4是用来实现本公开实施例的群组查询方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一。
请参见图1,图1是本公开实施例提供的一种群组查询方法的流程图,该方法应用于电子设备,如图1所示,该方法包括如下步骤:
步骤101:根据获取的查询请求,确定多个目标群组。
可选的,本公开实施例适用的场景包括但不限于在各类通讯工具中查询所需的群组。群组可理解为在通讯工具中创建的包括一定数量比如3个、10个等的成员的通讯群组。
一些实施例中,上述查询请求可以是用户在通讯工具中输入的。上述查询请求中可以包括用户输入的查询信息query,比如架构、副本等。
一些实施例中,上述多个目标群组可以是基于用户输入的query获得的群组,即是与用户输入的query关联的群组。比如,若某群组内的文本信息包括query,则可以将该群组确定为目标群组。或者,上述多个目标群组可以是基于输入查询请求的用户确定的群组,比如,若某群组的群成员包括输入查询请求的用户,则可以将该群组确定为目标群组。本实施例不对确定目标群组的方式进行限定。
步骤102:确定每个目标群组的目标特征。
本实施例中,目标群组的目标特征可以是基于目标群组的通用数据特征确定的,且借助目标群组的目标特征可以准确地表征出该目标群组。可选的,群组的通用数据特征可以包括但不限于以下至少一项:用户在群组内的发言时间、预设时间段(比如最近的30天、60天等)内的群组内的发言次数、群组的距离当前时间最近的发言时间、群组创建时间、query-群组的文本相关性分数、群组成员数量、是否高亮命中成员域、是否高亮命中群名域、query命中的群名长度占群名总长度的比值、query命中的群成员人数占群组总群成员人数的比值、群组内成员的分类标签、群组内每类成员的数量、群组内每类成员对应的预设关键词、群组内每类成员输入的查询信息当前用户搜索群组使用的历史query、群组名称、群组内每个文字的位置、当前用户搜索群组使用的query、查询信息在群组的位置等。
步骤103:利用预先训练的点击率评估模型,对每个目标群组的目标特征进行处理,得到每个目标群组的点击概率。
本实施例中,点击率评估模型表征的是群组的目标特征与群组的点击概率之间的关联关系。这样在确定某群组的目标特征之后,即可利用预先训练的点击率评估模型确定出群组的点击概率。
步骤104:根据每个目标群组的点击概率,按序显示多个目标群组。
由于群组的点击概率越高,表示该群组被选中的可能性越大,因此,为了方便用户选择所需的群组,可以按照点击概率的递减顺序显示相应的群组。比如,假设群组1的点击概率为0.4,群组2的点击概率为0.25,群组3的点击概率为0.3,则在按序显示群组时,可以按照群组1-群组3-群组2的顺序进行显示,以方便用户选择点击概率最高的群组1。
本公开实施例的群组查询方法,可以根据获取的查询请求,确定多个目标群组,并确定每个目标群组的目标特征,利用预先训练的点击率评估模型,对每个目标群组的目标特征进行处理,得到每个目标群组的点击概率,并根据每个目标群组的点击概率,按序显示多个目标群组。由此,可以实现基于目标群组的本身特征辅助用户选择所需的群组,从而相比于目前利用关键词检索查询所需的群组,可以提高查询到所需群组的效率。
本公开实施例中,基于对群组的通用数据的分析,可以针对群组划分出多类特征。可选的,目标群组的目标特征可以包括但不限于以下至少一项:数字类特征、群组画像特征、查询历史特征和文本类特征等。这样,借助多类特征,尤其是群组画像特征,可以准确地表征目标群组,从而提高后续确定的相应点击概率的准确度,进一步提高查询到所需群组的效率。
可选的,对于数字类特征(numerical features),相应的群组通用数据特征可以包括但不限于以下至少一项:用户在群组内的发言时间、预设时间段(比如最近的30天、60天等)内的群组内的发言次数、群组的距离当前时间最近的发言时间、群组创建时间、查询信息(query)-群组的文本相关性分数、群组成员数量、是否高亮命中成员域、是否高亮命中群名域、query命中的群名长度占群名总长度的比值、query命中的群成员人数占群组总群成员人数的比值等。在根据群组通用数据特征确定对应的数字类特征时,可以通过将通用数据特征映射为特征向量实现,本实施例不对此进行限制。
由于用户一次查询下所召回的群组往往在特征上的区分度从数值的角度来看不是很大,导致数字类特征的局部细小区分度会被群组的其他特征磨平,因此,为了突出群组的数字类特征,本实施例中采用了基于query粒度的特征数据分桶化处理,即在单query下对数字类特征进行排序归一化处理,以增强数据的抗噪性,且突出特征在单query内的相对大小。
也就是说,在本实施例中,每个目标群组的数字类特征可以是基于第一群组特征在多个目标群组的同类群组特征中的排名确定,第一群组特征是每个目标群组的数字类特征对应的特征。
可选的,目标群组的数字类特征可以利用如下公式计算得到:
其中,normalized_score(x)Q表示单条query Q下目标群组的群组特征X对应的数字类特征,rank(x)Q表示该目标群组的群组特征X在多个目标群组的同类群组特征中的排名。
比如,针对群组特征“群组成员数量”,假设群组1的成员数量是5,群组2的成员数量是10,群组3的成员数量是6,则:由于群组1的成员数量在3个群组中的排名为1,则群组1的成员数量对应的数字类特征为由于群组2的成员数量在3个群组中的排名为3,则群组2的成员数量对应的数字类特征为由于群组3的成员数量在3个群组中的排名为2,则群组3的成员数量对应的数字类特征为
可选的,对于群组画像特征(group profile),相应的群组通用数据特征可以包括但不限于以下至少一项:群组内成员的分类标签、群组成员数量、群组内每类成员的数量、群组内每类成员对应的预设关键词、群组内每类成员输入的查询信息等。
其中,群组画像特征可以是通过聚合群组内部成员的画像特征得到,可以利用如下公式计算得到:
其中,vecGroup表示群组画像特征,nx表示群组特征X对应的成员数量,vecx表示相应的成员画像特征。
比如,假设某群组内具有5个成员,属于分类标签1的有3人且分类标签1对应的特征向量是[1,2,3,4,5],属于分类标签2的有2人且分类标签2对应的特征向量是[2,3,4,5,6],则该群组对应的部门的群组画像特征是:3*[1,2,3,4,5]+2*[2,3,4,5,6]/(2+3)。
可选的,对于查询历史特征(query history),对应的群组通用数据特征可以包括但不限于:当前用户搜索群组使用的历史query。其中,此历史query的形式可以为:(用户,群组,(query1,time1),(query2,time2)......)。针对历史query可以聚合成一个query进行分析。考虑到不同时间的query对聚合后的query的贡献度可能不一样,因此,本实施例中采用了基于时间的历史query调权池化方法对历史query进行处理,即利用自适应的时间编码方式调权不同时间的历史query对聚合query的贡献强度。
也就是说,在本实施例中,查询历史特征可以是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到;每个查询信息的特征向量的权重是基于查询信息的输入时间确定。该预设时间段可以基于实际需求设定,本实施例不对此进行限制。
可选的,查询历史特征可以利用如下公式计算得到:
其中,queryaggregated表示历史query对应的查询历史特征,timei表示queryi对应的时间,queryi表示历史query中第i个query。k,ω,均为预设的参数,可以通过训练得到。
比如,用户A搜索群组B的历史query为(用户A,群组B,(搜索,t1),(架构,t2),(搜,t3)),其中,“搜索”对应的特征向量为[1,2,3],“架构”对应的特征向量为[2,3,4],“搜”对应的特征向量为[3,4,5],k,ω,都为1,则该历史query对应的查询历史特征可以表示为:sin(t1)*[1,2,3]+sin(t2)*[2,3,4]+sin(t3)*[3,4,5]。
可选的,对于文本类特征(text like features),相应的群组通用数据特征可以包括但不限于以下至少一项:群组名称、群组内每个文字的位置、当前用户搜索群组使用的query、query在群组的位置等。在根据群组通用数据特征确定对应的文本类特征时,可以通过将通用数据特征映射为特征向量实现,本实施例不对此进行限制。
本公开实施例中,基于对群组的分析,考虑到不同群组特征之间具有相关性,且一个特征对于群组点击概率的贡献往往会取决于其他特征,比如群组规模的大小对于用户最终是否点击该群组的贡献往往取决于用户最近在该群组的发言次数的多少,用于获得群组点击概率的点击率评估模型可以采用基于特征交叉和多头注意力机制的神经网络结构,以便利用预先训练的点击率评估模型,准确得到相应群组的点击概率,进而对用户搜索群组的结果进行个性化的排序。
可选的,上述点击率评估模型的基础架构可以结合群组交互数据实际场景进行搭建。上述点击率评估模型可以包括:特征交叉(FM)层、深度(Deep)层、多头自注意力(Multi-head Attention)层和分类层等。该Deep层可理解为传统的深度神经网络(Deep NeuralNetworks,DNN)层或者多层感知器(Multi-Layer Perception,MLP)。该分类层比如为Sigmoid层,用于将输入向量映射到(0,1)的数值范围中。相应的,上述利用利用预先训练的点击率评估模型获得目标群组的点击概率的过程可以包括:
针对每个目标群组的目标特征,分别执行以下过程:
将所述目标特征输入至所述特征交叉层中进行特征交叉,输出第一特征向量;
将所述目标特征输入至所述深度层中进行特征的高阶交叉,输出第二特征向量;
将所述目标特征输入至所述多头自注意力层中进行关联特征的编码,输出第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
这样,借助特征交叉层、深度层和多头自注意力层的处理操作,可以使得输入至分类层的特征向量精准地表征相应的目标群组,从而提高得到的群组点击概率的准确性。
可理解的,上述点击率评估模型是基于预先采集的样本数据集迭代训练得到,模型输出指标为群组的query top1点击率,即所有query中用户点击在首位query数与总query数的比值。对于点击率评估模型的具体训练过程,可参考现有神经网络的训练过程,本实施例不对此进行限制。
可选的,为了方便分类层的处理操作,可以先分别对第一特征向量、第二特征向量和第三特征向量进行扁平化处理,并将扁平化处理后的特征向量拼接在一起,得到第四特征向量;然后,将第四特征向量输入至分类层进行处理,得到相应目标群组的点击概率。
下面结合图2对本公开实施例的群组查询过程进行说明。
本公开实施例中,如图2所示,在根据获取的查询请求,确定多个目标群组,并确定每个目标群组的数字类特征、群组画像特征、查询历史特征和文本类特征之后,可以针对每个目标群组执行以下过程:1)使用pooling技术对文本类特征进行整合,得到更高层的新特征向量,以防止无用参数增加时间复杂度,和增加特征的整合度;2)使用时间嵌入的pooling技术对查询历史特征进行整合,得到更高层的新特征向量,并与1)中得到的特征向量进行点积dot后,输入至Concat层,其中,Concat层的作用为连接不同的特征向量;3)使用pooling技术对群组画像特征进行整合;4)使用Projection技术将群组内成员画像特征的不同维度的向量映射到同一维度,并与3)中整合得到的特征向量进行dot后,输入至Concat层;5)将群组画像的嵌入特征向量、数字类特征和经过平均化后的文本类特征向量输入到FM层进行两两特征的交叉处理,输出第一特征向量,比如为不同类特征的2阶和1阶交叉的数值;同时,将数字类特征和经过平均化后的文本类特征向量输入到Deep层进行多特征的高阶交叉,输出第二特征向量,比如为一个512维的特征向量;同时,将群组画像的嵌入特征向量、Vectorize后的数字类特征和经过平均化后的文本类特征向量输入到Multi-headattention层进行关联特征的编码,输出第三特征向量,比如为一个2维矩阵;其中,Vectorize用于将数字类特征扩充为满足维度要求的特征向量;6)分别将第一特征向量、第二特征向量和第三特征向量输出至Concat&flatten层进行扁平化处理,并将扁平化处理后的特征向量拼接在一起,得到第四特征向量;7)将第四特征向量输入至Sigmoid层进行处理,得到相应目标群组的点击概率。之后,在获得每个目标群组的点击概率之后,可以根据每个目标群组的点击概率,按照点击概率的递减顺序显示相应的群组,以方便用户选择所需的群组。
需要说明的是,本实施例提供的群组查询方法,执行主体可以为群组查询装置,或者,该群组查询装置中的用于执行群组查询方法的控制模块。本实施例中以群组查询装置执行群组查询方法为例,说明本实施例提供的群组查询装置。
请参见图3,图3是本申请实施例提供的一种群组查询装置的框图,如图3所示,群组查询装置30包括:
第一确定模块31,用于根据获取的查询请求,确定多个目标群组;
第二确定模块32,用于确定每个所述目标群组的目标特征;其中,所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;
处理模块33,用于利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;
显示模块34,用于根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
可选的,所述点击率评估模型包括:特征交叉层、深度层、多头自注意力层和分类层;
所述处理模块34包括:
执行单元,用于针对每个所述目标群组的目标特征,分别执行以下过程:将所述目标特征输入至所述特征交叉层中进行特征交叉,输出第一特征向量;将所述目标特征输入至所述深度层中进行特征的高阶交叉,输出第二特征向量;将所述目标特征输入至所述多头自注意力层中进行关联特征的编码,输出第三特征向量;将所述第一特征向量、所述第二特征向量和所述第三特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
可选的,所述执行单元还用于:
分别对所述第一特征向量、所述第二特征向量和所述第三特征向量进行扁平化处理,并将扁平化处理后的特征向量拼接在一起,得到第四特征向量;将所述第四特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
可选的,所述目标特征还包括以下至少一项:数字类特征、群组画像特征和文本类特征。
可选的,每个所述目标群组的数字类特征是基于第一群组特征在所述多个目标群组的同类群组特征中的排名确定;所述第一群组特征是每个所述目标群组的数字类特征对应的特征。
本实施例提供的群组查询装置30能够实现图1所示方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如群组查询方法。例如,在一些实施例中,群组查询方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时,可以执行上文描述的群组查询方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行群组查询方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种群组查询方法,包括:
根据获取的查询请求,确定多个目标群组;
确定每个所述目标群组的目标特征;其中,所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;
利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;
根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
2.根据权利要求1所述的方法,其中,所述点击率评估模型包括:特征交叉层、深度层、多头自注意力层和分类层;
所述利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率,包括:
针对每个所述目标群组的目标特征,分别执行以下过程:
将所述目标特征输入至所述特征交叉层中进行特征交叉,输出第一特征向量;
将所述目标特征输入至所述深度层中进行特征的高阶交叉,输出第二特征向量;
将所述目标特征输入至所述多头自注意力层中进行关联特征的编码,输出第三特征向量;
将所述第一特征向量、所述第二特征向量和所述第三特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
3.根据权利要求2所述的方法,其中,所述将所述第一特征向量、所述第二特征向量和所述第三特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率,包括:
分别对所述第一特征向量、所述第二特征向量和所述第三特征向量进行扁平化处理,并将扁平化处理后的特征向量拼接在一起,得到第四特征向量;
将所述第四特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
4.根据权利要求1所述的方法,其中,所述目标特征还包括以下至少一项:数字类特征、群组画像特征和文本类特征。
5.根据权利要求4所述的方法,其中,每个所述目标群组的数字类特征是基于第一群组特征在所述多个目标群组的同类群组特征中的排名确定;所述第一群组特征是每个所述目标群组的数字类特征对应的特征。
6.一种群组查询装置,包括:
第一确定模块,用于根据获取的查询请求,确定多个目标群组;
第二确定模块,用于确定每个所述目标群组的目标特征;其中,所述目标特征包括查询历史特征,所述查询历史特征是通过对预设时间段内的多个查询信息的特征向量进行加权计算得到,每个所述查询信息的特征向量的权重是基于所述查询信息的输入时间确定;
处理模块,用于利用预先训练的点击率评估模型,对每个所述目标群组的目标特征进行处理,得到每个所述目标群组的点击概率;
显示模块,用于根据每个所述目标群组的点击概率,按序显示所述多个目标群组。
7.根据权利要求6所述的装置,其中,所述点击率评估模型包括:特征交叉层、深度层、多头自注意力层和分类层;
所述处理模块包括:
执行单元,用于针对每个所述目标群组的目标特征,分别执行以下过程:
将所述目标特征输入至所述特征交叉层中进行特征交叉,输出第一特征向量;将所述目标特征输入至所述深度层中进行特征的高阶交叉,输出第二特征向量;将所述目标特征输入至所述多头自注意力层中进行关联特征的编码,输出第三特征向量;将所述第一特征向量、所述第二特征向量和所述第三特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
8.根据权利要求7所述的装置,其中,所述执行单元还用于:
分别对所述第一特征向量、所述第二特征向量和所述第三特征向量进行扁平化处理,并将扁平化处理后的特征向量拼接在一起,得到第四特征向量;将所述第四特征向量输入至所述分类层进行处理,得到相应目标群组的点击概率。
9.根据权利要求6所述的装置,其中,所述目标特征还包括以下至少一项:数字类特征、群组画像特征和文本类特征。
10.根据权利要求9所述的装置,其中,每个所述目标群组的数字类特征是基于第一群组特征在所述多个目标群组的同类群组特征中的排名确定;所述第一群组特征是每个所述目标群组的数字类特征对应的特征。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799579.2A CN113407579B (zh) | 2021-07-15 | 2021-07-15 | 群组查询方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110799579.2A CN113407579B (zh) | 2021-07-15 | 2021-07-15 | 群组查询方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113407579A true CN113407579A (zh) | 2021-09-17 |
CN113407579B CN113407579B (zh) | 2024-01-19 |
Family
ID=77686431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110799579.2A Active CN113407579B (zh) | 2021-07-15 | 2021-07-15 | 群组查询方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113407579B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115589391A (zh) * | 2022-12-09 | 2023-01-10 | 北京百度网讯科技有限公司 | 基于区块链的即时通信处理方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264513A1 (en) * | 2010-04-23 | 2011-10-27 | Adwait Ratnaparkhi | Finding Predictive Cross-Category Search Queries for Behavioral Targeting |
CN106980703A (zh) * | 2017-05-09 | 2017-07-25 | 北京三快在线科技有限公司 | 用于群组搜索的方法及装置、电子设备、计算机可读介质 |
US20180365257A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatu for querying |
CN109299976A (zh) * | 2018-09-07 | 2019-02-01 | 深圳大学 | 点击率预测方法、电子装置及计算机可读存储介质 |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐***点击率预测方法 |
CN112087371A (zh) * | 2020-09-10 | 2020-12-15 | 北京百度网讯科技有限公司 | 一种即时通讯群组的搜索方法、装置、设备和存储介质 |
CN112348592A (zh) * | 2020-11-24 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 广告推荐方法、装置、电子设备及介质 |
CN112487283A (zh) * | 2020-11-12 | 2021-03-12 | 北京三快在线科技有限公司 | 训练模型的方法、装置、电子设备及可读存储介质 |
CN112633931A (zh) * | 2020-12-28 | 2021-04-09 | 广州博冠信息科技有限公司 | 点击率预测方法、装置、电子设备及介质 |
-
2021
- 2021-07-15 CN CN202110799579.2A patent/CN113407579B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264513A1 (en) * | 2010-04-23 | 2011-10-27 | Adwait Ratnaparkhi | Finding Predictive Cross-Category Search Queries for Behavioral Targeting |
CN106980703A (zh) * | 2017-05-09 | 2017-07-25 | 北京三快在线科技有限公司 | 用于群组搜索的方法及装置、电子设备、计算机可读介质 |
US20180365257A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatu for querying |
CN109299976A (zh) * | 2018-09-07 | 2019-02-01 | 深圳大学 | 点击率预测方法、电子装置及计算机可读存储介质 |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐***点击率预测方法 |
CN112087371A (zh) * | 2020-09-10 | 2020-12-15 | 北京百度网讯科技有限公司 | 一种即时通讯群组的搜索方法、装置、设备和存储介质 |
CN112487283A (zh) * | 2020-11-12 | 2021-03-12 | 北京三快在线科技有限公司 | 训练模型的方法、装置、电子设备及可读存储介质 |
CN112348592A (zh) * | 2020-11-24 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 广告推荐方法、装置、电子设备及介质 |
CN112633931A (zh) * | 2020-12-28 | 2021-04-09 | 广州博冠信息科技有限公司 | 点击率预测方法、装置、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
石雁;李朝锋;: "基于朴素贝叶斯点击预测的查询推荐方法", 计算机应用与软件, no. 10 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115589391A (zh) * | 2022-12-09 | 2023-01-10 | 北京百度网讯科技有限公司 | 基于区块链的即时通信处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113407579B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397772B2 (en) | Information search method, apparatus, and system | |
EP3617952A1 (en) | Information search method, apparatus and system | |
CN114549874B (zh) | 多目标图文匹配模型的训练方法、图文检索方法及装置 | |
CN111797210A (zh) | 基于用户画像的信息推荐方法、装置、设备及存储介质 | |
CN112989023B (zh) | 标签推荐方法、装置、设备、存储介质及计算机程序产品 | |
CN112506864B (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN115455161A (zh) | 对话处理方法、装置、电子设备及存储介质 | |
CN114036322A (zh) | 用于搜索***的训练方法、电子设备和存储介质 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN112883248A (zh) | 信息推送方法、装置以及电子设备 | |
CN109977292A (zh) | 搜索方法、装置、计算设备和计算机可读存储介质 | |
CN115168545A (zh) | 群组搜索方法、装置、电子设备及介质 | |
CN115827872A (zh) | 一种意图识别模型的训练方法、意图识别方法及装置 | |
CN112528146B (zh) | 内容资源推荐方法、装置、电子设备及存储介质 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN113407579B (zh) | 群组查询方法、装置、电子设备及可读存储介质 | |
CN117271884A (zh) | 确定推荐内容的方法、装置、电子设备及存储介质 | |
CN109299353A (zh) | 一种网页信息搜索方法及装置 | |
CN114281990A (zh) | 文档分类方法及装置、电子设备和介质 | |
CN114329206A (zh) | 标题生成方法和装置、电子设备、计算机可读介质 | |
CN113326438A (zh) | 信息查询方法、装置、电子设备以及存储介质 | |
CN113595770A (zh) | 群组点击率预估方法、装置、电子设备和存储介质 | |
CN111985217A (zh) | 一种关键词提取方法及计算设备 | |
CN116383491B (zh) | 信息推荐方法、装置、设备、存储介质和程序产品 | |
CN113377921B (zh) | 用于匹配信息的方法、装置、电子设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |