CN103870512A - 一种生成用户兴趣标签的方法及装置 - Google Patents
一种生成用户兴趣标签的方法及装置 Download PDFInfo
- Publication number
- CN103870512A CN103870512A CN201210552046.5A CN201210552046A CN103870512A CN 103870512 A CN103870512 A CN 103870512A CN 201210552046 A CN201210552046 A CN 201210552046A CN 103870512 A CN103870512 A CN 103870512A
- Authority
- CN
- China
- Prior art keywords
- domain name
- user
- preset time
- time section
- categorize interests
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明适用于信息处理领域,提供了一种生成用户兴趣标签的方法及装置,所述方法包括:创建兴趣分类;获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系;采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。由于本发明是根据预设时间段内用户的网页浏览信息来生成用户兴趣标签的,从而使得生成的用户兴趣标签可以更真实、准确、客观的反映用户的兴趣。
Description
技术领域
本发明属于信息处理领域,尤其涉及一种生成用户兴趣标签的方法及装置。
背景技术
随着网络技术的不断发展,传统的需要面对面才能实现信息传播的多种业务已可以通过网络来实现,如广告投放、信息的传播和推送等。这不仅为传统的业务提供了一种新的传播方式,而且相对于传统的业务方式来说,网络业务显得更具有针对性和传播的广泛性。但现有的通过网络进行信息传播时,由于无法真实、准确、客观的采集到用户的兴趣信息,从而使得在通过网络进行信息传播时,也存在针对性差、盲目性大的问题。
发明内容
本发明实施例的目的在于提供一种用户兴趣标签的生成方法,旨在解决如何生成真实、准确、客观的用户兴趣标签的问题。
本发明实施例是这样实现的,一种用户兴趣标签的生成方法,所述方法包括:
创建兴趣分类;
获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系;
采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
本发明实施例的另一目的在于提供一种用户兴趣标签的生成装置,所述装置包括:
分类创建单元,用于创建兴趣分类;
映射单元,用于获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系;
兴趣标签生成单元,用于采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
在本发明实施例中,通过将网站域名匹配到预先创建的对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系,在根据预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系来生成用户兴趣标签,由于用户兴趣标签是根据预设时间段内用户的网页浏览信息生成的,从而使得生成的用户兴趣标签可以更真实、准确、客观的反映用户的兴趣。
附图说明
图1是本发明实施例提供的生成用户兴趣标签的方法的实现流程图;
图2是本发明实施例提供的多层级兴趣分类的示意图;
图3是本发明实施例提供的生成用户兴趣标签的装置的结构框图;
图4是本发明另一实施例提供的生成用户兴趣标签的装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,创建兴趣分类,将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系,采集预设时间段内用户的网页浏览信息,并根据用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的生成用户兴趣标签的方法的实现流程,详述如下:
S101,创建兴趣分类。
在本实施例中,兴趣分类可以为单层级兴趣分类,也可以为多层级兴趣分类。其中单层级兴趣分类是指创建多个并列的独立分类,如创建的兴趣分类包括如下多个并列的独立分类:军事分类、科技分类、女性分类等。多层级兴趣分类是指创建多个第一层分类,针对每个第一层分类再创建多个第二层分类,以此类推,其中层级数可依据需要任意设置。
在创建兴趣分类时,为创建的兴趣分类设置用于唯一标识该兴趣分类的分类标识。在创建多层级兴趣分类时,可以将上级兴趣分类的分类标识作为下级兴趣分类的分类标识的其中一部分,以便更清楚、明确的体现兴趣分类的上下层级关系。
为了更为清楚明确的说明上述兴趣分类,以下以一个具体的示例进行说明:
当创建单层级兴趣分类时,创建的兴趣分类包括但不限于军事分类、科技分类、女性分类等,并分别为创建的兴趣分类设置分类标识,如军事分类的分类标识为1,科技分类的分类标识为2,女性分类的分类标识为3等。可以理解,根据不同的需求,可以创建不同的兴趣分类,也可以为各兴趣分类设置其他形式的分类标识,在此不作限定,也不再进行穷举。
当创建多层级兴趣分类时,创建的一级兴趣分类包括但不限于军事分类、科技分类、女性分类等,针对一级兴趣分类中的军事分类,创建的二级兴趣分类包括但不限于陆军、海军等,针对一级兴趣分类中的科技分类,创建的二级兴趣分类包括但不限于IT、生物等,针对一级兴趣分类中的女性分类,创建的二级兴趣分类包括但不限于服饰、首饰等。同时为创建的上述各兴趣分类设置分类标识,一级兴趣分类中的军事分类的分类标识为1,科技分类的分类标识为2,女性分类的分类标识为3,二级兴趣分类中的陆军的分类标识为1.1、海军的分类标识为1.2,IT的分类标识为2.1,生物的分类标识为2.2,服饰的分类标识为3.1,首饰的分类标识为3.2。为了更为清楚的说明多层级兴趣分类,请参阅图2,为本发明实施例提供的多层级兴趣分类的示意图,但多层级兴趣分类不以该示意图为限。其中根节点不代表任何兴趣分类。
S102,获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系。
在本实施例中,可以从记录的用户的网页浏览信息中获取网站域名,也可以收集各网站的目录信息,并根据收集到的网站的目录信息获取网站域名。其中用户的网页浏览信息包括但不限于用户访问过的网址。其中网址可以为网页的统一资源定位符(Uniform/Universal Resource Locator,URL)。其中从记录的用户的浏览信息中获取网站域名的具体过程如下:
根据创建的兴趣分类的层级数,从用户的网页浏览信息中提取对应层级数的网站目录,将提取到的网站目录作为获取到的网站域名。详细说明如下:
由于一个网站可能包含多层级网站目录,如可能包含一级目录、二级目录等,因此,在本实施例中,在根据网页的URL提取网站域名时,可以根据创建的兴趣分类的层级数从用户访问过的网页的URL中提取对应级数的目录,并将提取到的目录作为获取到的网站域名。其中兴趣分类的层级数与提取的网站目录的层级数并不限定于完全一致的情况,即并不限定于当兴趣分类的层级数为1时即提取一级目录的情况,可以根据网站的分类情况任意设置兴趣分类的层级数与提取的网站目录的层级数之间的对应关系。
为了使上述获取网站域名的具体过程更为清楚,举例说明如下:
当兴趣分类的层级数为1时,即创建的是单层级兴趣分类时,则根据网页的URL提取一级目录,并将提取的一级目录作为获取到的网站域名。当兴趣分类的层级数为2(如图2所示)时,则根据网页的URL提取二级目录,并将提取的二级目录作为获取到的网站域名。举例说明如下:
假设某网页的URL如下:
http://tech.163.com/IT/1129/19/8HGJMVOH0001124J.html
则该网页的一级目录为http://tech.163.com,二级目录为http://tech.163.com/IT,三级目录为http://tech.163.com/IT/1129,四级目录为http://tech.163.com/IT/1129/19。
当创建的兴趣分类为单层级兴趣分类时,则根据该网页的URL提取到该网页的一级目录http://tech.163.com,并将提取的该一级目录作为依据该网页获取到的网站域名。
当创建的兴趣分类为多层级兴趣分类(如层级数为2)时,根据该网页的URL提取到该网页的二级目录http://tech.163.com/IT,并将提取的该二级目录作为依据该网页获取到的网站域名。
其中将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系的具体过程可以采用现有技术提供的任意一种方式,如预先配置的方式,也可以采用本发明实施例提供的如下方式:
A、预先创建域名关键字与兴趣分类之间的映射关系。
其中域名关键字是指可以用于将不同域名进行兴趣区分的关键字,该域名关键字的设置一般根据各网站的目录命名规则设置,如某网站中使用tech代表科技,另一网站中使用science代表科技时,可以将tech、science均作为域名关键字,依此原理,可以收集各种网站的目录命名规则,并根据各种网站的目录命名规则设置域名关键字,从而可以得到较为完善的域名关键字。为了便于理解,表1示出了创建的域名关键字与兴趣分类之间的映射关系的示例,但域名关键字与兴趣分类之间的映射关系不以表1为限,还可以为其他更多种表现形式。
表1
域名关键字 | 兴趣分类 |
Military、military、mil | 军事 |
Tech、tech、science | 科技 |
Women、women、wom | 女性 |
...... | ...... |
B、将网站域名与域名关键字进行匹配,并在匹配成功时,根据匹配成功的域名关键字获取对应的兴趣分类,并建立网站域名与兴趣分类之间的映射关系。举例说明如下:
假设网站域名为http://tech.163.com,则将该网站域名与域名关键字进行匹配时,可以得到与该网站域名匹配的域名关键字为tech,而根据域名关键字与兴趣分类之间的映射关系,根据匹配成功的域名关键字获取到的对应的兴趣分类为科技,从而可以建立网站域名http://tech.163.com与兴趣分类“科技”之间的映射关系。为了便于理解,表2示出了本发明实施例提供的网站域名与兴趣分类之间的映射关系的示例,但网站域名与兴趣分类之间的映射关系不以表2的示例为限。
表2
网站域名 | 兴趣分类 |
http://tech.163.com | 科技 |
http://tech.sina.com | 科技 |
http://Tech.sohu.com | 科技 |
http://mil.163.com | 军事 |
http://Mil.sina.com | 军事 |
...... | ...... |
在本实施例中,根据记录的用户的浏览信息可以自动获取到网站域名,在获取到网站域名后,可以自动将网站域名与兴趣分类进行匹配,得到网站域名与兴趣分类之间的映射关系,从而使得整个过程不需要人工参与。
S103,采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
第一预设时间段一般为最近一段时间,如从当前时间往前推到第一预设时间长度内。
其中根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签的具体过程可以采用现有技术提供的任意一种方式,也可以采用本发明提供的如下方式:
A1、根据第一预设时间段内的用户的网页浏览信息获取该第一预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数。其中第一预设时间段可以为一周、半个月、一个月或者其他时间段。举例说明如下:
假设第一预设时间段内用户访问过20个网页,根据用户的该网页浏览信息,可以从该20个网页的URL中获取对应的网站域名,根据前述的网站域名的具体获取过程可以得到,获取到的网站域名可能全部相同,可能部分相同,也可能全部不同,且同时可以得到获取到的网站域名的浏览次数,如当从20个网页中获取到的同一网站域名中,有4个网页中获取的网站域名相同,则该网站域名的浏览次数为4次,以此类推,即可得到第一预设时间段内用户浏览的网站域名和该网站域名的浏览次数。为了便于理解,表3示出了本发明实施例提供的第一预设时间段内用户浏览的网站域名和该网站域名的浏览次数的示例,但不以该示例为限。
表3
网站域名 | 浏览次数 |
host1 | 3 |
host2 | 5 |
host3 | 2 |
host4 | 10 |
A2、根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类。其具体过程如上,在此不再赘述,但为了便于理解,表4示出了本发明实施例提供的得到网站域名对应的兴趣分类后的结果如下,但不以表4为限。
表4
网站域名 | 浏览次数 | 兴趣分类 |
host1 | 3 | 军事 |
host2 | 5 | 军事 |
host3 | 2 | 科技 |
host4 | 10 | 女性 |
A3、根据第一预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取第一预设时间段内该用户的每个兴趣分类的权重。其具体过程如下:
将第一预设时间段内属于同一兴趣分类的各网站域名的浏览次数相加、浏览次数取平均值或者浏览次数相乘等多种不同的方式来获取第一预设时间段内该用户的每个兴趣分类的权重。本发明以次数相加为例,进行说明。
以上述表4所示为例,由于网站域名host1和host2均属于军事兴趣分类,因此该用户的军事兴趣分类对应的网站域名(即包括host1和host2)的浏览次数相加为3+5=8,即得到第一预设时间段内该用户的军事兴趣分类的权重为8,对于用户的其他兴趣分类,根据前述详述的原理,可以得到第一预设时间段内该用户的科技兴趣分类的权重为2,第一预设时间段内该用户的女性兴趣分类的权重为10,用表5表示如下,但不以表5为限。
表5
兴趣分类 | 兴趣分类的权重 |
军事 | 8 |
科技 | 2 |
女性 | 10 |
A4、根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。其具体过程如下:
将第一预设时间段内兴趣分类的权重大于预设第一权重阈值的兴趣分类作为该用户的兴趣标签。其中预设第一权重阈值是判断兴趣分类是否可作为用户的兴趣标签的参考值,可以根据经验或者实际需要设置。举例说明如下:
假设预设第一权重阈值为5,则根据与表5所示的第一预设时间段内该用户的每个兴趣分类的权重生成的用户兴趣标签包括军事和女性。
在本实施例中,通过根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系来获得第一预设时间段内该用户的每个兴趣分类的权重的,从而使得该第一预设时间段内该用户的每个兴趣分类的权重反应了用户浏览各属于各兴趣分类的网站域名的频繁度,因此,该第一预设时间段内该用户的每个兴趣分类的权重越大,则表示,该用户浏览属于该兴趣分类的网站域名的次数越多,从而可以客观的反映用户兴趣的倾向,而通过根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签,从而可以使生成的用户兴趣标签贴近用户真实的兴趣。
在本发明另一实施例中,将第一预设时间段划分为多个第二预设时间段,如当第一预设时间段为1个月时,则可以将该第一预设时间段划分为30个第二预设时间段,每个第二预设时间段为一天,当然,该第一预设时间段和第二预设时间段的具体设置可以依据需要任意设置,此时,根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签的具体过程如下:
B1、根据各第二预设时间段内的用户的网页浏览信息获取各第二预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数。其具体过程如上所述,在此不再赘述。其中获取到的各第预设二时间段内用户浏览过的网站域名以及该网站域名的浏览次数如表6所示,但不以表6为限。
表6
第二预设时间段标识 | 网站域名 | 浏览次数 |
Day0 | host1 | 3 |
Day0 | host2 | 5 |
Day0 | host3 | 2 |
Day0 | host4 | 10 |
Day1 | Host5 | 1 |
Day1 | host2 | 5 |
Day1 | host3 | 6 |
Day1 | host4 | 7 |
Day2 | Host6 | 7 |
Day2 | host2 | 3 |
Day2 | host3 | 3 |
Day2 | Host5 | 3 |
B2、根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类。其具体过程如上,在此不再赘述。其中各第二预设时间段内的网站域名、网站域名的浏览次数以及网站域名对应的兴趣分类的对应关系如表7所示,但不以表7为限。
表7
第二预设时间段标识 | 网站域名 | 浏览次数 | 兴趣分类 |
Day0 | host1 | 3 | 军事 |
Day0 | host2 | 5 | 军事 |
Day0 | host3 | 2 | 科技 |
Day0 | host4 | 10 | 女性 |
Dav1 | host2 | 5 | 女性 |
Dav1 | host3 | 6 | 女性 |
Dav1 | host4 | 7 | 科技 |
Day2 | Host6 | 7 | 军事 |
Day2 | host2 | 3 | 科技 |
Day2 | host3 | 3 | 科技 |
Day2 | Host5 | 3 | 女性 |
B3、根据各第二预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取各第二预设时间段内该用户的每个兴趣分类的初始权重。其具体过程如上所述,在此不再赘述,各第二预设时间段内该用户的每个兴趣分类的初始权重如表8所示,但不以表8为限。
表8
Day0 | Dav1 | Day2 | |
军事 | 8 | 0 | 7 |
科技 | 2 | 7 | 6 |
女性 | 10 | 11 | 3 |
表8中的内容表示,第二预设时间段Day0中,兴趣分类“军事”的初始权重为8,兴趣分类“科技”的初始权重为2,兴趣分类“女性”的初始权重为10。第二预设时间段Day1中,兴趣分类“军事”的初始权重为0,兴趣分类“科技”的初始权重为7,兴趣分类“女性”的初始权重为11。第二预设时间段Day2中,兴趣分类“军事”的初始权重为7,兴趣分类“科技”的初始权重为6,兴趣分类“女性”的初始权重为3。
B4、根据各第二预设时间段内该用户的每个兴趣分类的初始权重获取第一预设时间段内该用户的每个兴趣分类的权重。其具体过程如下:
B41、为各第二预设时间段设置时间衰减系数。在本实施例中,由于离当前时间越近的时间内的用户的网页浏览信息比离当前时间越远的时间内的用户的网页浏览信息更能真实的反映用户当前的兴趣所在,因此,为了体现这种差别,可以为各第二预设时间段设置时间衰减系数。如当第二预设时间段包括Day0、Day1和Day2时,则可以设置Day0的时间衰减系数为a0,Day1的时间衰减系数为a1,Day2的时间衰减系数为a2。
B42、根据各第二预设时间段内该用户的每个兴趣分类的初始权重结合各第二预设时间段的时间衰减系数获取第一预设时间段内该用户的每个兴趣分类的权重。其中根据各第二预设时间段内该用户的每个兴趣分类的初始权重结合各第二预设时间段的时间衰减系数获取第一预设时间段内该用户的每个兴趣分类的权重时,可以将各第二预设时间段内该用户的每个兴趣分类的初始权重的矢量和、矢量和的平均值或者矢量积作为第一预设时间段内该用户的每个兴趣分类的权重。其中当将各第二预设时间段内该用户的每个兴趣分类的初始权重的矢量和作为第一预设时间段内该用户的每个兴趣分类的权重时,可采用如下方式:
M=M0*a0+…+Mn*an
其中M为第一预设时间段内该用户的某兴趣分类的权重,M0到Mn为n个第二预设时间段内该用户的该兴趣分类的初始权重,a0到an为各第二预设时间段的时间衰减系数。以表8所示的各第二预设时间段内该用户的每个兴趣分类的初始权重为例,详述如下:
假设Day0的时间衰减系数为1,Day1的时间衰减系数为a,Day2的时间衰减系数为b,则
第一预设时间段内该用户的兴趣分类军事的权重为:8*1+0*a+7*b;
第一预设时间段内该用户的兴趣分类科技的权重为:2*1+7*a+6*b;
第一预设时间段内该用户的兴趣分类女性的权重为:10*1+11*a+3*b。
B5、根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。其具体过程如上所述,在此不再赘述。
在本实施例中,通过为第二预设时间段设置对应的时间衰减系数,从而使得获取到的第一预设时间段内该用户的每个兴趣分类的权重可以更为真实的反映用户的真实兴趣,进而使得根据第一预设时间段内该用户的每个兴趣分类的权重生成的用户兴趣标签与用户的真实兴趣更为接近。
在本发明另一实施例中,该方法还包括下述步骤:
根据生成的用户兴趣标签进行广告信息和/或内容信息的推荐处理。如生成的用户兴趣标签包括女性、科技等时,则可以将关于女性或者科技类的广告信息或者内容信息推荐给该用户,从而智能的实现广告或者内容与用户的联系。
图3示出了本发明实施例提供的用户兴趣标签生成装置的结构,为了便于说明仅示出了与本发明实施例相关的部分。
该装置可以用于浏览器,可以是运行于浏览器内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到浏览器中或者运行于浏览器的应用***中,其中:
分类创建单元1创建兴趣分类。其中兴趣分类可以为单层级兴趣分类,也可以为多层级兴趣分类。在创建兴趣分类时,为创建的兴趣分类设置用于唯一标识该兴趣分类的分类标识。在创建多层级兴趣分类时,可以将上级兴趣分类的分类标识作为下级兴趣分类的分类标识的其中一部分,以便更清楚、明确的体现兴趣分类的上下层级关系。
映射单元2获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系。
在本实施例中,可以从记录的用户的网页浏览信息中获取网站域名,也可以收集各网站的目录信息,并根据收集到的网站的目录信息获取网站域名。其中用户的网页浏览信息包括但不限于用户访问过的网址。其中网址可以为网页的统一资源定位符(Uniform/Universal Resource Locator,URL)。
在本发明另一实施例中,该映射单元2包括域名获取模块21。该域名获取模块21从记录的用户的浏览信息中获取网站域名,或者收集各网站的目录信息,并根据收集到的网站的目录信息获取网站域名。
在本发明另一实施例中,该域名获取模块21具体用于根据创建的兴趣分类的层级数,从用户的网页浏览信息中提取对应层级数的网站目录,将提取到的网站目录作为获取到的网站域名。
在本发明另一实施例中,该映射单元还包括映射建立模块22。该映射建立模块22预先创建域名关键字与兴趣分类之间的映射关系,将网站域名与域名关键字进行匹配,并在匹配成功时,根据匹配成功的域名关键字获取对应的兴趣分类,并建立网站域名与兴趣分类之间的映射关系。
兴趣标签生成单元3采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
在本发明另一实施例中,该兴趣标签生成单元3具体包括:
第一域名提取模块31根据第一预设时间段内的用户的网页浏览信息获取该第一预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
第一兴趣分类获取模块32根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
第一权重获取模块33根据第一预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取第一预设时间段内该用户的每个兴趣分类的权重;其具体过程如下:
将第一预设时间段内属于同一兴趣分类的各网站域名的浏览次数相加、浏览次数取平均值或者浏览次数相乘等多种不同的方式来获取第一预设时间段内该用户的每个兴趣分类的权重。
第一兴趣标签生成模块34根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。其具体过程如下:
将第一预设时间段内兴趣分类的权重大于预设第一权重阈值的兴趣分类作为该用户的兴趣标签。
请参阅图4,为本发明另一实施例提供的用户兴趣标签生成装置的结构,为了便于说明仅示出了与本发明实施例相关的部分。其与图3所示的用户兴趣标签生成装置的区别仅在于兴趣标签生成单元3的具体结构,在本实施例中,当将所述第一预设时间段划分为多个第二预设时间段时,所述兴趣标签生成单元3具体包括:
第二域名提取模块35根据各第二预设时间段内的用户的网页浏览信息获取各第二预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
第二兴趣分类获取模块36根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
初始权重获取模块37根据各第二预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取各第二预设时间段内该用户的每个兴趣分类的初始权重;
第二权重获取模块38根据各第二预设时间段内该用户的每个兴趣分类的初始权重获取第一预设时间段内该用户的每个兴趣分类的权重;
在本发明另一实施例中,该第二权重获取模块38具体用于为各第二预设时间段设置时间衰减系数,根据各第二预设时间段内该用户的每个兴趣分类的初始权重和各第二预设时间段的时间衰减系数,获取第一预设时间段内该用户的每个兴趣分类的权重。
其中根据各第二预设时间段内该用户的每个兴趣分类的初始权重结合各第二预设时间段的时间衰减系数获取第一预设时间段内该用户的每个兴趣分类的权重时,可以将各第二预设时间段内该用户的每个兴趣分类的初始权重的矢量和、矢量和的平均值或者矢量积作为第一预设时间段内该用户的每个兴趣分类的权重。其中当将各第二预设时间段内该用户的每个兴趣分类的初始权重的矢量和作为第一预设时间段内该用户的每个兴趣分类的权重时,可采用如下方式:
M=M0*a0+…+Mn*an
其中M为第一预设时间段内该用户的某兴趣分类的权重,M0到Mn为n个第二预设时间段内该用户的该兴趣分类的初始权重,a0到an为各第二预设时间段的时间衰减系数。
第二兴趣标签生成模块39根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。
在本发明另一实施例中,该装置还包括信息推荐单元(图未示出)。该信息推荐单元根据生成的用户兴趣标签进行广告信息和/或内容信息的推荐处理。如生成的用户兴趣标签包括女性、科技等时,则可以将关于女性或者科技类的广告信息或者内容信息推荐给该用户,从而智能的实现广告或者内容与用户的联系。
值得注意的是,上述***,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
在本发明实施例中,通过将网站域名匹配到预先创建的对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系,在根据预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系来生成用户兴趣标签,由于用户兴趣标签是根据预设时间段内用户的网页浏览信息生成的,从而使得生成的用户兴趣标签可以更真实、准确、客观的反映用户的兴趣。通过为第二预设时间段设置对应的时间衰减系数,从而使得获取到的第一预设时间段内该用户的每个兴趣分类的权重可以更为真实的反映用户的真实兴趣,进而使得根据第一预设时间段内该用户的每个兴趣分类的权重生成的用户兴趣标签与用户的真实兴趣更为接近。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种用户兴趣标签的生成方法,其特征在于,所述方法包括:
创建兴趣分类;
获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系;
采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
2.如权利要求1所述的方法,其特征在于,所述兴趣分类为单层级兴趣分类或者多层级兴趣分类。
3.如权利要求1所述的方法,其特征在于,所述获取网站域名具体包括:
从记录的用户的浏览信息中获取网站域名;或者
收集各网站的目录信息,并根据收集到的网站的目录信息获取网站域名。
4.如权利要求3所述的方法,其特征在于,所述从记录的用户的浏览信息中获取网站域名具体包括:
根据创建的兴趣分类的层级数,从用户的网页浏览信息中提取对应层级数的网站目录,将提取到的网站目录作为获取到的网站域名。
5.如权利要求1至4任一项所述的方法,其特征在于,所述将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系具体包括:
预先创建域名关键字与兴趣分类之间的映射关系;
将网站域名与域名关键字进行匹配,并在匹配成功时,根据匹配成功的域名关键字获取对应的兴趣分类,并建立网站域名与兴趣分类之间的映射关系。
6.如权利要求1所述的方法,其特征在于,所述根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签具体包括:
根据第一预设时间段内的用户的网页浏览信息获取该第一预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
根据第一预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取第一预设时间段内该用户的每个兴趣分类的权重;
根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。
7.如权利要求1所述的方法,其特征在于,当将所述第一预设时间段划分为多个第二预设时间段时,所述根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签具体包括:
根据各第二预设时间段内的用户的网页浏览信息获取各第二预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
根据各第二预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取各第二预设时间段内该用户的每个兴趣分类的初始权重;
根据各第二预设时间段内该用户的每个兴趣分类的初始权重获取第一预设时间段内该用户的每个兴趣分类的权重;
根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。
8.如权利要求7所述的方法,其特征在于,所述根据各第二预设时间段内该用户的每个兴趣分类的初始权重获取第一预设时间段内该用户的每个兴趣分类的权重具体包括:
为各第二预设时间段设置时间衰减系数;
根据各第二预设时间段内该用户的每个兴趣分类的初始权重和各第二预设时间段的时间衰减系数,获取第一预设时间段内该用户的每个兴趣分类的权重。
9.一种用户兴趣标签的生成装置,其特征在于,所述装置包括:
分类创建单元,用于创建兴趣分类;
映射单元,用于获取网站域名,并将网站域名匹配到对应的兴趣分类中,得到网站域名与兴趣分类之间的映射关系;
兴趣标签生成单元,用于采集第一预设时间段内用户的网页浏览信息,并根据第一预设时间段内用户的网页浏览信息以及网站域名与兴趣分类的映射关系生成用户兴趣标签。
10.如权利要求9所述的装置,其特征在于,所述映射单元包括:
域名获取模块,用于从记录的用户的浏览信息中获取网站域名,或者收集各网站的目录信息,并根据收集到的网站的目录信息获取网站域名。
11.如权利要求10所述的装置,其特征在于,所述域名获取模块具体用于根据创建的兴趣分类的层级数,从用户的网页浏览信息中提取对应层级数的网站目录,将提取到的网站目录作为获取到的网站域名。
12.如权利要求9至11任一项所述的装置,其特征在于,所述映射单元还包括:
映射建立模块,用于预先创建域名关键字与兴趣分类之间的映射关系,将网站域名与域名关键字进行匹配,并在匹配成功时,根据匹配成功的域名关键字获取对应的兴趣分类,并建立网站域名与兴趣分类之间的映射关系。
13.如权利要求9所述的装置,其特征在于,所述兴趣标签生成单元包括:
第一域名提取模块,用于根据第一预设时间段内的用户的网页浏览信息获取该第一预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
第一兴趣分类获取模块,用于根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
第一权重获取模块,用于根据第一预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取第一预设时间段内该用户的每个兴趣分类的权重;
第一兴趣标签生成模块,用于根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。
14.如权利要求9所述的装置,其特征在于,当将所述第一预设时间段划分为多个第二预设时间段时,所述兴趣标签生成单元包括:
第二域名提取模块,用于根据各第二预设时间段内的用户的网页浏览信息获取各第二预设时间段内用户浏览过的网站域名以及该网站域名的浏览次数;
第二兴趣分类获取模块,用于根据网站域名与兴趣分类之间的映射关系获取网站域名对应的兴趣分类;
初始权重获取模块,用于根据各第二预设时间段内的网站域名、网站域名的浏览次数以及该网站域名的兴趣分类获取各第二预设时间段内该用户的每个兴趣分类的初始权重;
第二权重获取模块,用于根据各第二预设时间段内该用户的每个兴趣分类的初始权重获取第一预设时间段内该用户的每个兴趣分类的权重;
第二兴趣标签生成模块,用于根据第一预设时间段内该用户的每个兴趣分类的权重生成用户兴趣标签。
15.如权利要求14所述的装置,其特征在于,所述第二权重获取模块具体用于为各第二预设时间段设置时间衰减系数,根据各第二预设时间段内该用户的每个兴趣分类的初始权重和各第二预设时间段的时间衰减系数,获取第一预设时间段内该用户的每个兴趣分类的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210552046.5A CN103870512A (zh) | 2012-12-18 | 2012-12-18 | 一种生成用户兴趣标签的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210552046.5A CN103870512A (zh) | 2012-12-18 | 2012-12-18 | 一种生成用户兴趣标签的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103870512A true CN103870512A (zh) | 2014-06-18 |
Family
ID=50909053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210552046.5A Pending CN103870512A (zh) | 2012-12-18 | 2012-12-18 | 一种生成用户兴趣标签的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870512A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991917A (zh) * | 2015-06-23 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 广告个性化推送***及方法 |
CN105243144A (zh) * | 2015-10-15 | 2016-01-13 | 桂林电子科技大学 | 一种兴趣标签的推荐方法及装置 |
CN105740389A (zh) * | 2016-01-27 | 2016-07-06 | 上海晶赞科技发展有限公司 | 一种分类方法及装置 |
CN106339421A (zh) * | 2016-08-15 | 2017-01-18 | 北京集奥聚合科技有限公司 | 一种用户浏览行为的兴趣挖掘方法 |
CN106383857A (zh) * | 2016-08-31 | 2017-02-08 | 锐捷网络股份有限公司 | 一种信息处理方法及电子设备 |
WO2017028097A1 (zh) * | 2015-08-16 | 2017-02-23 | 常平 | 推荐附近用户时的信息提醒方法和用户推荐*** |
WO2017028093A1 (zh) * | 2015-08-16 | 2017-02-23 | 常平 | 广告投放方法和广告投放*** |
CN106649316A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 一种视频推送方法及装置 |
CN106649347A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种兴趣信息的识别方法及装置 |
CN106997347A (zh) * | 2016-01-22 | 2017-08-01 | 华为技术有限公司 | 信息推荐方法及服务器 |
CN107038213A (zh) * | 2017-02-28 | 2017-08-11 | 华为技术有限公司 | 一种视频推荐的方法及装置 |
CN107451216A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 标签的粒度属性识别方法及装置 |
CN107592346A (zh) * | 2017-08-31 | 2018-01-16 | 江西博瑞彤芸科技有限公司 | 基于用户行为分析的用户分类方法 |
CN108510319A (zh) * | 2018-03-21 | 2018-09-07 | 四川斐讯信息技术有限公司 | 一种精确推送广告的方法及*** |
CN108829932A (zh) * | 2018-05-22 | 2018-11-16 | 中国人民解放军国防科技大学 | 兴趣匹配方法、装置、计算机设备和存储介质 |
CN109561162A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 挖掘用户访问喜好的方法及装置 |
CN109993587A (zh) * | 2019-04-10 | 2019-07-09 | 金瓜子科技发展(北京)有限公司 | 一种数据分类方法、装置、设备和介质 |
CN110199240A (zh) * | 2016-12-23 | 2019-09-03 | 瑞欧威尔股份有限公司 | 用于可穿戴显示器的基于上下文的内容导航 |
CN110737822A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用户兴趣挖掘方法、装置、设备和存储介质 |
CN111738768A (zh) * | 2020-06-24 | 2020-10-02 | 江苏云柜网络技术有限公司 | 广告推送方法及*** |
CN112148984A (zh) * | 2020-09-30 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种捕捉用户即时兴趣的方法及*** |
US11947752B2 (en) | 2016-12-23 | 2024-04-02 | Realwear, Inc. | Customizing user interfaces of binary applications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799662A (zh) * | 2012-07-10 | 2012-11-28 | 北京奇虎科技有限公司 | 推荐网址的方法、装置及*** |
-
2012
- 2012-12-18 CN CN201210552046.5A patent/CN103870512A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102799662A (zh) * | 2012-07-10 | 2012-11-28 | 北京奇虎科技有限公司 | 推荐网址的方法、装置及*** |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991917B (zh) * | 2015-06-23 | 2018-05-01 | 上海斐讯数据通信技术有限公司 | 广告个性化推送***及方法 |
CN104991917A (zh) * | 2015-06-23 | 2015-10-21 | 上海斐讯数据通信技术有限公司 | 广告个性化推送***及方法 |
WO2017028097A1 (zh) * | 2015-08-16 | 2017-02-23 | 常平 | 推荐附近用户时的信息提醒方法和用户推荐*** |
WO2017028093A1 (zh) * | 2015-08-16 | 2017-02-23 | 常平 | 广告投放方法和广告投放*** |
CN105243144A (zh) * | 2015-10-15 | 2016-01-13 | 桂林电子科技大学 | 一种兴趣标签的推荐方法及装置 |
CN106649316A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 一种视频推送方法及装置 |
CN106649316B (zh) * | 2015-10-29 | 2020-11-27 | 北京国双科技有限公司 | 一种视频推送方法及装置 |
CN106649347A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 一种兴趣信息的识别方法及装置 |
CN106997347A (zh) * | 2016-01-22 | 2017-08-01 | 华为技术有限公司 | 信息推荐方法及服务器 |
CN105740389A (zh) * | 2016-01-27 | 2016-07-06 | 上海晶赞科技发展有限公司 | 一种分类方法及装置 |
CN106339421A (zh) * | 2016-08-15 | 2017-01-18 | 北京集奥聚合科技有限公司 | 一种用户浏览行为的兴趣挖掘方法 |
CN106339421B (zh) * | 2016-08-15 | 2019-08-13 | 北京集奥聚合科技有限公司 | 一种用户浏览行为的兴趣挖掘方法 |
CN106383857A (zh) * | 2016-08-31 | 2017-02-08 | 锐捷网络股份有限公司 | 一种信息处理方法及电子设备 |
US11947752B2 (en) | 2016-12-23 | 2024-04-02 | Realwear, Inc. | Customizing user interfaces of binary applications |
CN110199240B (zh) * | 2016-12-23 | 2024-02-02 | 瑞欧威尔股份有限公司 | 用于可穿戴显示器的基于上下文的内容导航 |
CN110199240A (zh) * | 2016-12-23 | 2019-09-03 | 瑞欧威尔股份有限公司 | 用于可穿戴显示器的基于上下文的内容导航 |
CN107038213A (zh) * | 2017-02-28 | 2017-08-11 | 华为技术有限公司 | 一种视频推荐的方法及装置 |
CN107451216A (zh) * | 2017-07-17 | 2017-12-08 | 广州特道信息科技有限公司 | 标签的粒度属性识别方法及装置 |
CN107592346B (zh) * | 2017-08-31 | 2020-09-01 | 江西博瑞彤芸科技有限公司 | 基于用户行为分析的用户分类方法 |
CN107592346A (zh) * | 2017-08-31 | 2018-01-16 | 江西博瑞彤芸科技有限公司 | 基于用户行为分析的用户分类方法 |
CN109561162A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 挖掘用户访问喜好的方法及装置 |
CN108510319A (zh) * | 2018-03-21 | 2018-09-07 | 四川斐讯信息技术有限公司 | 一种精确推送广告的方法及*** |
CN108829932A (zh) * | 2018-05-22 | 2018-11-16 | 中国人民解放军国防科技大学 | 兴趣匹配方法、装置、计算机设备和存储介质 |
CN110737822A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 用户兴趣挖掘方法、装置、设备和存储介质 |
CN109993587A (zh) * | 2019-04-10 | 2019-07-09 | 金瓜子科技发展(北京)有限公司 | 一种数据分类方法、装置、设备和介质 |
CN109993587B (zh) * | 2019-04-10 | 2022-06-03 | 金瓜子科技发展(北京)有限公司 | 一种数据分类方法、装置、设备和介质 |
CN111738768A (zh) * | 2020-06-24 | 2020-10-02 | 江苏云柜网络技术有限公司 | 广告推送方法及*** |
CN112148984A (zh) * | 2020-09-30 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种捕捉用户即时兴趣的方法及*** |
CN112148984B (zh) * | 2020-09-30 | 2023-11-10 | 微梦创科网络科技(中国)有限公司 | 一种捕捉用户即时兴趣的方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103870512A (zh) | 一种生成用户兴趣标签的方法及装置 | |
CN103997507B (zh) | 一种信息的推送方法及装置 | |
US20180176318A1 (en) | Method and system for dynamic application management | |
US9405746B2 (en) | User behavior models based on source domain | |
CN103514204B (zh) | 信息推荐方法和装置 | |
CN102591995B (zh) | 一种基于云数据中心的用户信息处理方法及装置 | |
CN102752388B (zh) | 基于浏览器的交互***、方法、浏览器和云端服务器 | |
CN102662965A (zh) | 一种自动发现互联网热点新闻主题的方法及*** | |
CN102708132A (zh) | 一种网页推荐方法及*** | |
CN107256512A (zh) | 一种购房个性化推荐方法及*** | |
CN102354315A (zh) | 一种网址导航页面生成方法和装置 | |
CN105373608A (zh) | 一种基于输入法的场景式内容推送方法及其*** | |
CN103970753A (zh) | 关联知识的推送方法和装置 | |
KR101816205B1 (ko) | 인터넷 콘텐츠 제공 서버 및 그 방법이 구현된 컴퓨터로 판독 가능한 기록매체 | |
CN104992352A (zh) | 一种个性化资源检索方法 | |
CN104598604A (zh) | 一种网址导航应用于各种浏览器中的浏览方法 | |
CN102629265A (zh) | 一种建立网页数据库的方法及*** | |
CN106874509A (zh) | 基于中粒度用户分组的资源推荐方法及装置 | |
Belter | Visualizing networks of scientific research | |
CN102567533A (zh) | 网页信息添加方法及*** | |
CN108959579B (zh) | 一种获取用户和文档个性化特征的*** | |
Wee | We need to talk about zines: The case for collecting alternative publications in the Australian academic university library | |
WO2015135600A1 (en) | Method and computer product for automatically generating a sorted list from user generated input and / or metadata derived form social media platforms | |
Zemede et al. | Personalized search with editable profiles | |
Thorat et al. | Social tagging in social media: A review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140618 |