CN112035750B - 一种用户标签扩展的控制方法及装置 - Google Patents
一种用户标签扩展的控制方法及装置 Download PDFInfo
- Publication number
- CN112035750B CN112035750B CN202010978824.1A CN202010978824A CN112035750B CN 112035750 B CN112035750 B CN 112035750B CN 202010978824 A CN202010978824 A CN 202010978824A CN 112035750 B CN112035750 B CN 112035750B
- Authority
- CN
- China
- Prior art keywords
- tag
- expanded
- candidate
- tags
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000007613 environmental effect Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用户标签扩展的控制方法,其基于用户的一个或多个标签获得扩展标签,包括如下步骤:a:基于N‑gram模型以及待扩展标签集群确定候选待扩展标签子集;b:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群;c:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;d:将关联度大于第一阈值的候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述最终被扩展标签或最终被扩展标签集群与所述用户的待扩展标签集群构成扩展关系。本发明其扩展精确度高、高效快捷、实用性强、功能强大,具有极高的商业价值。
Description
技术领域
本发明属于互联网应用技术领域,具体地,涉及一种用户标签扩展的控制方法及装置。
背景技术
随着互联网应用中大数据处理的实现,各用户都有其所对应的用户标签,以便基于用户标签来实现各种推荐应用,进而实现基于用户画像的个性化服务。如果一用户的用户标签数量稀疏,将会导致基于用户标签的推荐只局限于用户本身的历史信息,所潜在的兴趣、喜好等方面的信息将被忽略,无法精准推荐用户感兴趣的信息。因此需要进行用户标签的扩展处理。例如,在需要为推荐应用提供用户感兴趣的信息时,通过静态的数据库中的信息来扩展用户的喜好信息。如果用户最初感兴趣的信息存在于数据库中,与其在数据库中关联的其他信息可以作为关联信息来扩展用户的喜好信息,即实现用户标签扩展。
标签拓展经常在用户标签异常匮乏时被使用。当前标签拓展的方式主要有:A、利用分类算法:将拥有指定标签的用户作为正样本,对无此标签的用户进行采样得到负样本,训练分类模型,通过模型的泛化能力拓展标签。此方法需要用户的特征数据,同时针对一个标签就需要训练一个模型,所以应用场景有限,在广告标签中应用的比较多;B、通过社交网络进行拓展:利用用户相互之前的好友关系,将种子人群标签传给社区中的好友,从而实现标签拓展,此方法需要相应的社交数据。以上方法主要需要利用用户的相关特征数据才能拓展标签,而当用户只有标签数据时,以上方法此时都无能为力。
如申请号为CN201610341685.5的发明名称为“用户标签的扩展处理方法、文本推荐方法和装置”公开了一种用户标签的扩展处理方法,包括:获取用户标签和候选被扩展标签;进行用户标签和候选被扩展标签之间的互信息计算得到所述候选被扩展标签相对所述用户标签的关联度;根据所述关联度进行所述候选被扩展标签中扩展标签的筛选得到所述用户标签关联的扩展标签,所述用户标签和关联的扩展标签构成扩展关系。
然而,此方案仅仅只能针对两两标签的相关性,而由于标签语义的多样性,往往其实际代表的含义并不仅仅局限于当前字母理解的含义,进而在进行相关性推荐时,会存在一定的误差,一个标签表示的范围可以很广,也可以很窄,比如"魔X"这个标签,看起来与其相关性比较高的标签应该是"魔X世界"、“游戏”等标签,但其实,有"魔X"这个标签的用户,并不一定喜欢玩游戏,这个用户也有可能是喜欢篮球明星魔X霍XX,此时则应该推荐“篮球”等标签,又例如"孙XX"这个标签,看起来与其相关性比较高的标签应该是"西X记"等标签,但其实,有"孙XX"这个标签的用户,并不一定喜欢看西X记,这个用户也有可能是喜欢游戏人物里面的英雄角色,此时则应该推荐“游戏”等标签,更具体地,即使用户拥有“西X记”这样的标签,也无法判断其是喜欢看电源还是电视剧版,电视剧版是喜欢看老版还是新版,这都需要更多的其他标签来共同决定需要被扩展的标签,这时候,基于b i gram的方法是很有问题的。
而目前,并没有一种能够解决上述技术问题的技术方案,具体地,并没有一种用户标签扩展的控制方法及装置。
发明内容
针对现有技术存在的技术缺陷,本发明的目的是提供一种用户标签扩展的控制方法及装置,根据本发明的一个方面,提供了一种用户标签扩展的控制方法,其基于用户的一个或多个标签获得扩展标签,包括如下步骤:
a:基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,所述待扩展标签集群包含tag1、tag2…tagn-1、tagn,所述候选待扩展标签子集包含tag1、tag2…tagn-1、tagn的任意一个或多个的随机组合,其中所述待扩展标签集群为用户的现有标签,所述候选待扩展标签子集是可以被用于扩展的用户的标签;
b:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,所述多个外在标签和/或每个外在标签集群均包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合,其中,m〉n,所述候选被扩展标签为可以被进行扩展的目标标签;
c:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;
d:将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述最终被扩展标签或最终被扩展标签集群与所述用户的待扩展标签集群构成扩展关系;
其中,在所述步骤b中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的其他用户的多个外在标签和/或多个外在标签集群,相应地,在所述步骤c中,所述互信息计算为:将具有候选待扩展标签子集和候选被扩展标签的用户数量相较于候选待扩展标签子集的用户数量的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度;或者
在所述步骤b中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的文本内容中的多个外在标签和/或多个外在标签集群,相应地,在所述步骤c中,所述互信息计算为:将候选待扩展标签子集和候选被扩展标签在多个文本内容中同时出现的次数相较于候选待扩展标签子集在多个文本内容中同时出现的次数的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度。
优选地,在所述步骤a之前,还包括:确定用户的待扩展标签集群,所述用户的待扩展标签集群通过用户的文本、应用推荐而确定。
优选地,在所述步骤c中,将在多个外在标签和/或多个外在标签集群中除了所述待扩展标签集群之外的其他m-n个标签作为候选被扩展标签。
根据本发明的另一个方面,提供了一种用户标签扩展的控制装置,其采用所述的控制方法,包括:
第一确定装置:基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,其中所述待扩展标签集群为用户的现有标签,所述候选待扩展标签子集是可以被用于扩展的用户的标签;
第二确定装置:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,其中,所述候选被扩展标签为可以被进行扩展的目标标签;
第一处理装置:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;
第三确定装置:将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群;
其中,在所述第二确定装置(2)中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的其他用户的多个外在标签和/或多个外在标签集群,相应地,在第一处理装置(3)中,所述互信息计算为:将具有候选待扩展标签子集和候选被扩展标签的用户数量相较于候选待扩展标签子集的用户数量的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度;或者
在所述第二确定装置(2)中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的文本内容中的多个外在标签和/或多个外在标签集群,相应地,在第一处理装置(3)中,所述互信息计算为:将候选待扩展标签子集和候选被扩展标签在多个文本内容中同时出现的次数相较于候选待扩展标签子集在多个文本内容中同时出现的次数的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度。
本发明的有益效果:本发明基于统计的算法,计算每个标签出现时其它各个标签出现的条件概率,从而根据设置的阈值为用户进行标签拓展,本发明不仅可以基于Bi gram模型进行扩展,还可以在牺牲一定的内存和时间的前提下,拓展到精度更高的Tr i gram模型。
本发明基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集;b:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群;c:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;d:将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述最终被扩展标签或最终被扩展标签集群与所述用户的待扩展标签集群构成扩展关系。
应用N-gram模型于标签拓展,基于N-gram的标签拓展算法,解释性强,可查看各个标签下的条件概率,易于实现,并方便扩展,N-gram模型训练好后,还可以实时地拓展用户标签。而基于Tr i gram的方法相较于N-gram模型而言,可以更好的解决这个问题,本发明所提供的算法会基于用户的两个、三个甚至更多的标签进行扩展,扩展出来的标签可以为一个、两个或者更多。本发明能基于用户有限的、稀缺的的一个或多个标签扩展出更多的与用户相关联的标签,其扩展精确度高、高效快捷、实用性强、功能强大,具有极高的商业价值。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了本发明的具体实施方式的,一种用户标签扩展的控制方法的具体流程示意图;以及
图2示出了本发明的另一具体实施方式的,一种用户标签扩展的控制装置的模块连接示意图。
具体实施方式
为了更好的使本发明的技术方案清晰地表示出来,下面结合附图对本发明作进一步说明。
图1示出了本发明的具体实施方式的,一种用户标签扩展的控制方法的具体流程示意图,本发明将结合图1以及图2来对本发明的具体实施方案作进一步的描述,具体地,图1公开了一种用户标签扩展的控制方法,其基于用户的一个或多个标签获得扩展标签,当基于用户的一个标签获得扩展标签时,即基于通过的一个标签与其他标签之间的相关性从而选择与所述标签关联性最高的一个或多个标签作为其扩展标签,而当基于用户的多个标签获得扩展标签时,则是通过用户的多个标签,例如两个、三个标签来共同决定一个或多个扩展标签,包括如下步骤:
首先,进入步骤S101,基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,所述待扩展标签集群包含tag1、tag2…tagn-1、tagn,所述候选待扩展标签子集包含tag1、tag2…tagn-1、tagn的任意一个或多个的随机组合,本领域技术人员理解,所述待扩展标签集群即为用户的现有标签,所述用户的现有标签可以为一个也可以为多个,当且仅当只存在一个标签时,确定一个候选待扩展标签子集,而候选待扩展标签子集则是可以被用于扩展的用户的标签,在本发明中,可以通过多个不同的标签组合从而实现不同的标签的扩展,例如,在一个优选地实施例中,所述待扩展标签集群包含tag1、tag2、tag3、tag4,则所述候选待扩展标签子集包含多个的随机组合,可以为tag1、tag2的组合,tag1、tag3的组合,tag1、tag4的组合,tag2、tag3的组合,tag2、tag4的组合,tag3、tag4的组合,还可以为tag1、tag2、tag3的组合、tag1、tag2、tag4的组合、tag2、tag3、tag4的组合,还可以为tag1、tag2、tag3、tag4的组合,由上述组合中的每个组合进行标签扩展,并将扩展的结果全部作为用户的扩展标签。
进一步地,在所述步骤S101之前,还包括:确定用户的待扩展标签集群,所述用户的待扩展标签集群通过用户的文本、应用推荐而确定,在这样的实施例中,所述用户可以是某应用、讨论小组、群组等推荐的标签信息,也可以是自定义的标签信息,还可以是用户在阅读文章、新闻、周刊、杂志等方面文本而生成的标签信息或自定义标签。
然后,进入步骤S102,确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,所述多个外在标签和/或每个外在标签集群均包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合,其中,m〉n,在这样的实施例中,所述多个外在标签即为一组包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合,而多个外在标签集群即为多个外在标签集群均包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合。
进一步地,所述相关联环境状态下是指用以确定用户标签扩展的形式、方式,在本发明中,其用以确定同样拥有上述应用、讨论小组、群组的其他用户的标签,而在另一个实施例中,其还可以用以确定多个文本内容中出现的标签,并将其作为多个外在标签和/或多个外在标签集群,所述多个外在标签和/或每个外在标签集群均包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合,例如,在一个优选地实施例中,当所述m为5时,可以拟定第一集群为tag1、tag2、第二集群为tag1、tag2、tag5,第三集群为tag2、tag3、第四集群为tag1、tag4、第五集群为tag1、tag2、tag4、tag5、第六集群为tag4、tag5、第七集群为tag3、tag5、第八集群为tag2、tag3、tag4、tag5,上述拟定是作为一种可能实现的实施例,根据在实际应用时可能会发生的情况的随机拟定。
紧接着,在执行完步骤S102之后,进入步骤S103,遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度,本领域技术人员理解,所述候选被扩展标签即为可能可以被进行扩展的目标标签,结合本发明前述的步骤S101以及步骤S102,所述候选被扩展标签即为tag5,即本步骤即用以确定所述tag5是否可以被扩展。所谓遍历的意思,即为逐一地完成所有的候选被扩展标签的关联度计算。
进一步地,在所述步骤S103中,将在多个外在标签和/或多个外在标签集群中除了所述待扩展标签集群之外的其他m-n个标签作为候选被扩展标签,在本发明所列举的实施例中,所述m为5,所述n为4,即将在多个外在标签和/或多个外在标签集群中除了所述待扩展标签集群之外的1个标签作为候选被扩展标签,所述的候选被扩展标签即为tag5,而在本发明的实际应用中,其标签复杂程度将远远超过所列举的情况,但本发明旨在方便理解,优选地选择较为简单的列举形式,而在其他的实施例中,所述候选被扩展标签还有可能为tag5、tag6、tag7、tag8甚至更多,这都不影响本发明的具体实施方案,在此不予赘述。
进一步地,基于前述步骤S101以及步骤S102所示出的优选实施例,所述待扩展标签集群包含tag1、tag2、tag3、tag4,则所述候选待扩展标签子集包含多个的随机组合,可以为tag1、tag2的组合,tag1、tag3的组合,tag1、tag4的组合,tag2、tag3的组合,tag2、tag4的组合,tag3、tag4的组合,还可以为tag1、tag2、tag3的组合、tag1、tag2、tag4的组合、tag2、tag3、tag4的组合,还可以为tag1、tag2、tag3、tag4的组合,进一步地,当所述m为5时,可以拟定第一集群为tag1、tag2、第二集群为tag1、tag2、tag5,第三集群为tag2、tag3、第四集群为tag1、tag4、第五集群为tag1、tag2、tag4、tag5、第六集群为tag4、tag5、第七集群为tag3、tag5、第八集群为tag2、tag3、tag4、tag5,则可以将tag5分别依次代入到上述的候选待扩展标签子集中,从而确定tag5在上述的候选待扩展标签子集中的关联程度,为了简化说明,本发明将不会对上述所有的情况进行关联度计算,而是列举其中一个优选地实施例,即计算tag5在组合tag1、tag2、tag3中的关联程度,在这样的实施例中,可以设置模型:计算tag5与tag1、tag2、tag3的相关性,P=user(tag5,tag1、tag2、tag3)/user(tag1、tag2、tag3),其中,所述(tag5,tag1、tag2、tag3)可以表示为同时具有tag5,tag1、tag2、tag3的用户数量,所述tag1、tag2、tag3可以表示为同时具有tag1、tag2、tag3的用户数量,而两者的比值即为tag5在组合tag1、tag2、tag3中的关联程度。
进一步地,由于所述相关联环境状态不同,故所确定的多个外在标签和/或多个外在标签集群也不同,在这样的实施例中,将采用不同的相关联环境状态下所确定的不同的多个外在标签和/或多个外在标签集群用以实现不同的计算方式,得到不同的关联程度,例如,上述实施例即为在所述步骤S102中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的其他用户的多个外在标签和/或多个外在标签集群,与所述用户采用相同或相近的应用可以理解为用户的偏好应用,即若用户存在“微X”这样的应用,则“腾X”、“支付X”、“知X”、“YYXX”等等都将被落入到用户所采用的相同或相近的应用中。而应用或程序则是相当于pc端以及移动端而言的,而对于有些技术应用中,同时存在其帐号互通信息或相关联的信息时,则可以进行同步相关联的考虑。
相应地,在所述步骤S103中,所述互信息计算为:将具有候选待扩展标签子集和候选被扩展标签的用户数量相较于候选待扩展标签子集的用户数量的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度。
而在另一个优选地实施例中,在所述步骤S102中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的文本内容中的多个外在标签和/或多个外在标签集群,相应地,在所述步骤S103中,所述互信息计算为:将候选待扩展标签子集和候选被扩展标签在多个文本内容中同时出现的次数相较于候选待扩展标签子集在多个文本内容中同时出现的次数的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度,在这样的实施例中,结合步骤S103的前述实施例,可以设置模型:计算tag5与tag1、tag2、tag3的相关性,P=user(tag5,tag1、tag2、tag3)/user(tag1、tag2、tag3),其中,所述(tag5,tag1、tag2、tag3)可以表示为在文章中同时出现tag5,tag1、tag2、tag3的次数,所述tag1、tag2、tag3可以表示为在文章中同时出现tag1、tag2、tag3的次数,而两者的比值即为tag5在组合tag1、tag2、tag3中的关联程度。
最后,进入步骤S104,将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述最终被扩展标签或最终被扩展标签集群与所述用户的待扩展标签集群构成扩展关系,结合上述步骤S101至步骤S103中所列举的实施例,若所述第一阈值为80,且计算得出tag5在组合tag1、tag2、tag3中的关联程度为83%,则确定所述tag5可以被确定为最终被扩展标签,若所述第一阈值为80,且计算得出tag5在组合tag1、tag2、tag3中的关联程度为66%,则确定所述tag5不能被确定为最终被扩展标签。
本领域技术人员理解,上述实施例给出了一种用以确定一个最终被扩展标签的情况,然而在实际操作中,往往可以同时确定出多个最终被扩展标签,即当需要被进行候选被扩展标签确定的数量非常庞大时,最终被扩展标签可能也会越多,而这时,即形成最终被扩展标签集群。
图2示出了本发明的另一具体实施方式的,一种用户标签扩展的控制装置的模块连接示意图,本发明还公开了一种用户标签扩展的控制装置,其采用图1所述的控制方法,包括第一确定装置1:基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,所述第一确定装置1的工作原理可以参考前述步骤S101,在此不予赘述。
进一步地,所述控制装置还包括第二确定装置2:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,所述第二确定装置2的工作原理可以参考前述步骤S102,在此不予赘述。
进一步地,所述控制装置还包括第一处理装置3:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度,所述第一处理装置3的工作原理可以参考前述步骤S103,在此不予赘述。
进一步地,所述控制装置还包括第三确定装置4:将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述第三确定装置4的工作原理可以参考前述步骤S104,在此不予赘述。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。综上所述,本发明的技术方案,为用户提供了一种在用户的标签处于非常稀缺的状态时,能够基于两两标签的相关性实现相应标签的扩展,而当用户的标签存在一定数量,但并不是很多时,则可以根据用户的多个标签共同确定一个或多个标签进行扩展,该技术方案节约了大量人工时间并提高了效率。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实施例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
此外,本领域技术人员理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域技术人员理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (4)
1.一种用户标签扩展的控制方法,其基于用户的一个或多个标签获得扩展标签,其特征在于,包括如下步骤:
a:基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,所述待扩展标签集群包含tag1、tag2…tagn-1、tagn,所述候选待扩展标签子集包含tag1、tag2…tagn-1、tagn的任意一个或多个的随机组合,其中所述待扩展标签集群为用户的现有标签,所述候选待扩展标签子集是可以被用于扩展的用户的标签;
b:确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,所述多个外在标签和/或每个外在标签集群均包含tag1、tag2…tagm-1、tagm中的任意多个的随机组合,其中,m>n,候选被扩展标签为可以被进行扩展的目标标签;
c:遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;
d:将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群,所述最终被扩展标签或最终被扩展标签集群与所述用户的待扩展标签集群构成扩展关系;
其中,在所述步骤b中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的其他用户的多个外在标签和/或多个外在标签集群,相应地,在所述步骤c中,所述互信息计算为:将具有候选待扩展标签子集和候选被扩展标签的用户数量相较于候选待扩展标签子集的用户数量的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度;或者
在所述步骤b中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的文本内容中的多个外在标签和/或多个外在标签集群,相应地,在所述步骤c中,所述互信息计算为:将候选待扩展标签子集和候选被扩展标签在多个文本内容中同时出现的次数相较于候选待扩展标签子集在多个文本内容中同时出现的次数的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度。
2.根据权利要求1所述的控制方法,其特征在于,在所述步骤a之前,还包括:确定用户的待扩展标签集群,所述用户的待扩展标签集群通过用户的文本、应用推荐而确定。
3.根据权利要求1所述的控制方法,其特征在于,在所述步骤c中,将在多个外在标签和/或多个外在标签集群中除了所述待扩展标签集群之外的其他m-n个标签作为候选被扩展标签。
4.一种用户标签扩展的控制装置,其采用如权利要求1-3中任一项所述的控制方法,其特征在于,包括:
第一确定装置(1):基于N-gram模型以及待扩展标签集群确定一个或多个候选待扩展标签子集,其中所述待扩展标签集群为用户的现有标签,所述候选待扩展标签子集是可以被用于扩展的用户的标签;
第二确定装置(2):确定与用户相关联环境状态下的多个外在标签和/或多个外在标签集群,其中,候选被扩展标签为可以被进行扩展的目标标签;
第一处理装置(3):遍历所有候选被扩展标签,进行每个候选待扩展标签子集与每个候选被扩展标签的互信息计算并确定每个候选被扩展标签与每个候选待扩展标签子集之间的关联度;
第三确定装置(4):将关联度大于第一阈值的一个或多个候选被扩展标签确定为最终被扩展标签或最终被扩展标签集群;
其中,在所述第二确定装置(2)中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的其他用户的多个外在标签和/或多个外在标签集群,相应地,在第一处理装置(3)中,所述互信息计算为:将具有候选待扩展标签子集和候选被扩展标签的用户数量相较于候选待扩展标签子集的用户数量的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度;或者
在所述第二确定装置(2)中,所述与用户相关联环境状态下的多个外在标签和/或多个外在标签集群是指与所述用户采用相同或相近的应用或程序的文本内容中的多个外在标签和/或多个外在标签集群,相应地,在第一处理装置(3)中,所述互信息计算为:将候选待扩展标签子集和候选被扩展标签在多个文本内容中同时出现的次数相较于候选待扩展标签子集在多个文本内容中同时出现的次数的占比作为候选被扩展标签与候选待扩展标签子集之间的关联度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978824.1A CN112035750B (zh) | 2020-09-17 | 2020-09-17 | 一种用户标签扩展的控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010978824.1A CN112035750B (zh) | 2020-09-17 | 2020-09-17 | 一种用户标签扩展的控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112035750A CN112035750A (zh) | 2020-12-04 |
CN112035750B true CN112035750B (zh) | 2024-06-18 |
Family
ID=73589626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010978824.1A Active CN112035750B (zh) | 2020-09-17 | 2020-09-17 | 一种用户标签扩展的控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035750B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139125B (zh) * | 2021-04-21 | 2024-02-09 | 北方工业大学 | 一种用户需求驱动的服务匹配方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020293A (zh) * | 2012-12-28 | 2013-04-03 | 百度在线网络技术(北京)有限公司 | 一种移动应用的本体库的构建方法及*** |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101694657B (zh) * | 2009-09-18 | 2011-11-09 | 浙江大学 | 面向Web2.0标签图片共享空间的图片检索聚类方法 |
US20110289397A1 (en) * | 2010-05-19 | 2011-11-24 | Mauricio Eastmond | Displaying Table Data in a Limited Display Area |
CN103377185B (zh) * | 2012-04-24 | 2017-09-22 | 深圳市世纪光速信息技术有限公司 | 一种为短文本自动添加标签的方法及装置 |
CN104268292B (zh) * | 2014-10-23 | 2018-03-16 | 广州智索信息科技有限公司 | 画像***的标签词库更新方法 |
CN104699851A (zh) * | 2015-04-08 | 2015-06-10 | 上海理想信息产业(集团)有限公司 | 一种大数据环境下业务标签的扩展方法 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
CN107402932B (zh) * | 2016-05-20 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 用户标签的扩展处理方法、文本推荐方法和装置 |
CN106095966B (zh) * | 2016-06-15 | 2019-12-27 | 成都品果科技有限公司 | 一种用户可扩展的标签标注方法及*** |
CN108304444B (zh) * | 2017-11-30 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 信息查询方法及装置 |
CN109857957B (zh) * | 2019-01-29 | 2021-06-15 | 掌阅科技股份有限公司 | 建立标签库的方法、电子设备及计算机存储介质 |
CN110059244A (zh) * | 2019-02-01 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 受众扩展方法及装置 |
CN110175329B (zh) * | 2019-05-28 | 2023-07-18 | 度小满科技(北京)有限公司 | 一种样本扩充的方法、装置、电子设备与存储介质 |
CN111125435B (zh) * | 2019-12-17 | 2023-08-11 | 北京百度网讯科技有限公司 | 视频标签的确定方法、装置和计算机设备 |
CN111144936B (zh) * | 2019-12-19 | 2024-01-05 | 有米科技股份有限公司 | 基于用户标签的相似人群扩展方法及装置 |
-
2020
- 2020-09-17 CN CN202010978824.1A patent/CN112035750B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020293A (zh) * | 2012-12-28 | 2013-04-03 | 百度在线网络技术(北京)有限公司 | 一种移动应用的本体库的构建方法及*** |
Non-Patent Citations (1)
Title |
---|
个性化推荐中基于贝叶斯网络的用户兴趣模型研究;温梅;《中国优秀硕士学位论文全文数据库信息科技辑》(第S2期);I138-1661 * |
Also Published As
Publication number | Publication date |
---|---|
CN112035750A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402703B2 (en) | Training image-recognition systems using a joint embedding model on online social networks | |
JP6568609B2 (ja) | 構造化された検索クエリのための文法モデル | |
CN107609152B (zh) | 用于扩展查询式的方法和装置 | |
JP6689389B2 (ja) | ディープラーニングモデルを用いたエンティティの識別 | |
JP6039850B2 (ja) | オンライン・ソーシャル・ネットワーク上でのクエリについての検索意図 | |
US20190188285A1 (en) | Image Search with Embedding-based Models on Online Social Networks | |
US9172666B2 (en) | Locating a user based on aggregated tweet content associated with a location | |
US10140368B2 (en) | Method and apparatus for generating a recommendation page | |
US20180068023A1 (en) | Similarity Search Using Polysemous Codes | |
US9672251B1 (en) | Extracting facts from documents | |
US9679024B2 (en) | Social-based spelling correction for online social networks | |
US20180101540A1 (en) | Diversifying Media Search Results on Online Social Networks | |
US20150161529A1 (en) | Identifying Related Events for Event Ticket Network Systems | |
CN107424043A (zh) | 一种产品推荐方法及装置,电子设备 | |
CN110110201B (zh) | 一种内容推荐方法和*** | |
CN108292309A (zh) | 使用深度学习模型识别内容项 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN113366489A (zh) | 检测增强现实目标 | |
CN106095766A (zh) | 使用选择性重新讲话来校正话音识别 | |
US20110131093A1 (en) | System and method for optimizing selection of online advertisements | |
US8290925B1 (en) | Locating product references in content pages | |
CN110765348B (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN103955480B (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN105447005B (zh) | 一种对象推送方法及装置 | |
CN115659008A (zh) | 大数据信息反馈的信息推送***、方法、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |