CN103617230B

CN103617230B - 一种基于微博的广告推荐方法及***

Info

Publication number: CN103617230B
Application number: CN201310608335.7A
Authority: CN
Inventors: 章昉; 刘明君; 赵中英
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-11-26
Filing date: 2013-11-26
Publication date: 2017-02-15
Anticipated expiration: 2033-11-26
Also published as: CN103617230A

Abstract

本发明适用于数据挖掘领域，提供了一种基于微博的广告推荐方法及***。所述方法包括：读取微博数据；初始化微博数据，获得微博文本词项集合；删除微博文本词项集合的停用词，获得微博文本原始特征词项集合；将微博文本原始特征词项集合与特征词项字典进行映射，判断微博文本原始特征词项集合中的词项是否出现在特征词项字典中，并计算出现的词项的tf‑idf值，作为词项的特征值；判断特征词项字典的词项是否出现在微博文本原始特征词项集合中，并将没有出现的词项的特征值标记为0；将计算得到的所有特征值组成的特征向量自动分类到预先划分的类别；以自动分类的结果为依据，向用户推荐广告。本发明实施例推荐的广告也更准确，效果也更好。

Description

一种基于微博的广告推荐方法及***

技术领域

本发明属于数据挖掘领域，尤其涉及一种基于微博的广告推荐方法及***。

背景技术

随着新浪微博、腾讯微博等社交网站在国内的流行，微博等社会化媒体不仅成为了网民发布、共享、传播信息的平台，而且积累了大规模网民的行为数据。2012年5月，新浪微博事业部副总经理芦义指出，新浪微博注册用户已超过3亿，用户平均每天发布超过1亿条微博内容。微博用户的基数大，数据量大，若微博运营***能够分析和挖掘已有的海量数据，能够根据分析结果对微博用户的兴趣进行较为精准的判断，根据微博用户的兴趣对其进行广告投放，则对微博用户推送的广告将使微博用户、商家和微博运营商三方都受益。

现有的微博广告推荐方法主要利用用户个人资料里的标签或者使用用户的搜索记录对微博用户进行兴趣判断，进而对其推送用户可能感兴趣的广告。由于很多用户的个人资料里面并不含有标签或者用户在创建个人资料时填写的标签不准确，因此通过用户标签来对其进行广告推荐不能达到很好的效果。而通过对微博用户的搜索记录来判断用户的兴趣具有一定的局限性，仅仅能表示该用户的当前需要而不能对其兴趣进行较为准确的判断。

发明内容

本发明实施例提供了一种基于微博的广告推荐方法，旨在解决现有的方法在挖掘用户信息时准确性低，从而导致广告推荐效果不好的问题。

本发明实施例是这样实现的，一种基于微博的广告推荐方法，所述方法包括下述步骤：

读取用户的微博数据；

初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词；

删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合；

将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中，并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率tf-idf值，以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值；

判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0；

使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中；

以自动分类的结果为依据，向读取微博数据的用户推荐广告。

本发明实施例的另一目的在于提供一种基于微博的广告推荐***，所述***包括：

第一数据读入模块，用于读取用户的微博数据；

第一数据初始化模块，用于初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词；

第一特征提取模块，用于删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合；

第一特征向量化模块，用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中，并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值；以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0；

分类模块，用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中；

推荐模块，用于以自动分类的结果为依据，向读取微博数据的用户推荐广告。

本发明实施例中，由于用户发布的微博数据比用户标签包含的信息更具有实时性，更能代表用户的兴趣偏好，因此通过分析用户的微博数据得到的判断结果更准确，从而推荐的广告也更准确，效果也更好。

附图说明

图1是本发明第一实施例提供的一种基于微博的广告推荐方法的流程图；

图2是本发明第二实施例提供的一种基于微博的广告推荐***结构图；

图3是本发明第二实施例提供的另一种基于微博的广告推荐***结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过对用户发布的微博数据进行挖掘、分类，判断出该用户的兴趣偏好，进而向该用户推荐相应的广告。

本发明实施例提供了一种：基于微博的广告推荐方法及***。

所述方法包括：读取用户的微博数据；

所述***包括：第一数据读入模块，用于读取用户的微博数据；

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一：

图1示出了本发明第一实施例提供的一种基于微博的广告推荐方法，详述如下：

步骤S11，读取用户的微博数据。

该步骤中，可预先获取用户的微博数据，将获取的微博数据存储在数据库中，在需要对某个用户的微博数据分析时，再读取该用户的微博数据。

步骤S12，初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词。

该步骤中，对每条微博数据进行初始化处理，比如去除标点符号等特殊符号、去除非中文字符、分词等，在初始化处理后得到一个微博文本词项集合。

步骤S13，删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合。

步骤S14，将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中，并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率（term frequency-inverse document frequency，tf-idf）值，以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。

该步骤中，将每条微博的微博文本原始特征词项集合向特征词项字典进行映射，如果微博文本原始特征词项集合的词项在特征词项字典，那么计算这个词项的tf-idf值作为该词项在该微博中的特征值。

步骤S15，判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0。

该步骤中，微博文本原始特征词项集合的词项不在特征词项字典，该词项被忽略，如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中，该词项的特征值为0；最终每条微博的微博文本转变成为一个维度为5000的特征向量。

步骤S16，使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中。

该步骤中，可根据实际需求预先划分多种类别，比如，预先划分12种类别，分别有体育类、健康类、教育类、旅游类、科技类、汽车类、游戏类、美容美发美体类、美食类、服装鞋靴包类、文化娱乐类、其他。

其中，体育类包括体育赛事、体育报刊、体育明星等内容；

其中，健康类包括健康常识、药物、身体健康状况等内容；

其中，教育类包括新东方、新航道等培训机构，个人的学习状况、学习意向，出国留学等内容；

其中，旅游类包括景点、游乐场、出国游、自由行、酒店等内容；

其中，科技类包括手机、电脑、数码产品等内容；

其中，汽车类包括汽车、汽车杂志等内容；

其中，游戏类包括***、网页游戏、网络游戏等内容；

其中，美容美发美体类包括护肤品、化妆品、美甲、纤体、洗护用品等内容；

其中，美食类包括食品、吃货、食谱等内容；

其中，文化娱乐类包括娱乐圈、演唱会、话剧、展览等内容；

其中，其他包括个人状态、个人情感、社会看法、生活看法等内容。

步骤S17，以自动分类的结果为依据，向读取微博数据的用户推荐广告。

该步骤中，若自动分类的结果是将用户的微博数据归入某类，则向用户推荐与该类别相对应的广告。这里的广告包括新闻、音乐、电影、微博等。

本发明实施例中，通过对用户发布的微博数据进行挖掘、分类，判断出该用户的兴趣偏好，进而向该用户推荐相应的广告。由于用户发布的微博数据比用户标签包含的信息更具有实时性，更能代表用户的兴趣偏好，因此通过分析用户的微博数据得到的判断结果更准确，从而推荐的广告也更准确，效果也更好。

作为本发明一优选实施例，在步骤S16，使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中的步骤之前包括下述步骤：

步骤A、读取训练微博数据。

该步骤中，尽量读取多个用户的微博数据作为训练的微博数据，以提高后续挖掘的准确性。

步骤B、将所述读取的训练微博数据人工标记为预先划分的类别。

该步骤中，多名标记员将读取的每条微博数据标记为预先划分的类别中的一类，在标记每条微博数据的类别时，使用少数服从多数的原则。

步骤C、初始化读取的训练微博数据，以获得微博文本词项集合，所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词中。

步骤D、删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合。

步骤E、生成特征词项字典。

该步骤中，生成特征词项字典的步骤具体包括：计算微博文本原始特征词项集合中每个词项的互信息值；选取互信息值排名在前N的N个词项作为特征词项字典的词项，所述N为整数，N大于0。例如选出互信息值最高的5000个词项作为特征词项字典的词项，生成的特征词项字典可按照互信息值的高低进行排列。

步骤F、将所述微博文本原始特征词项集合与所述特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中，并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。

步骤G、判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0。

步骤H、采用预设的算法训练计算得到的所有特征值所组成的特征向量，以获得分类模型。

该步骤中，训练所有微博数据对应的特征向量矩阵，后续挖掘某个用户的微博数据时可直接使用训练后的结果。

其中，预设的算法包括以下任一种算法：支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。

本实施例中，通过分析大量用户的微博数据，生成特征词项字典，该特征词项字典为以后挖掘某个用户的兴趣偏好提供一个参考标准。

作为本发明一优选实施例，步骤S17，以自动分类的结果为依据，向读取微博数据的用户推荐广告的步骤具体包括：统计用户的微博中每类微博所占的百分比；将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配，并将匹配成功的类别所占的百分比翻倍；向读取微博数据的用户推荐排名在前M的M个类别的广告，所述M为整数，M大于0。

本实施例中，对用户的历史微博进行类别统计出每类微博所占百分比并和该用户资料内的标签进行匹配，如果标签内含有某类，那么该类微博所占百分比翻倍，最后选出百分比最高的M个类别，例如选出三个类别作为该用户的广告推荐类别。优选地，一段时间后可以重新计算得出该用户最新的广告推荐类别。

实施例二：

图2示出了本发明第二实施例提供的一种基于微博的广告推荐***的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该基于微博的广告推荐***可以用于通过有线或者无线网络连接服务器的各种信息处理终端，例如移动电话、口袋计算机（Pocket Personal Computer，PPC）、掌上电脑、计算机、笔记本电脑、个人数字助理（Personal Digital Assistant，PDA）等，可以是运行于这些信息处理终端内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到这些信息处理终端中或者运行于这些信息处理终端的应用***中，其中：

第一数据读入模块201，用于读取用户的微博数据。

第一数据初始化模块202，用于初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词中。

第一特征提取模块203，用于删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合。

第一特征向量化模块204，用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中，并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0。

其中，经过第一特征向量化模块204的计算，最终将每条微博的微博数据转变为一个纬度为5000的特征向量。

分类模块205，用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中。

其中，预先划分的类别可为12类，具体如步骤S16所示，这里不再赘述。

推荐模块206，用于以自动分类的结果为依据，向读取微博数据的用户推荐广告。

其中，这里的广告包括新闻、音乐、电影、微博等内容。

本发明实施例中，通过对读取的微博数据进行挖掘，划分所属类别，并向用户推荐与划分类别相关的广告。由于微博数据能够及时反映用户的兴趣偏好，因此通过分析用户的微博数据得到的判断结果更准确，从而推荐的广告也更准确，效果也更好。

图3示出了基于微博的广告推荐***的另一结构，作为本发明的另一个优选实施例，所述基于微博的广告推荐***还包括：

第二数据读入模块301，用于读取训练微博数据。

其中，读取的微博数据为多个用户的微博数据。

人工分类模块302，用于将所述读取的训练微博数据人工标记为预先划分的类别。

第二数据初始化模块303，用于初始化读取的训练微博数据，以获得微博文本词项集合，所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词中。

第二特征提取模块304，用于删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合。

特征词项字典生成模块305，用于生成特征词项字典。

其中，特征词项字典生成模块305包括：

互信息值计算模块，用于计算微博文本原始特征词项集合中每个词项的互信息值。

特征词项字典词项选择模块，用于选取互信息值排名在前N的N个词项作为特征词项字典的词项，所述N为整数，N大于0。

第二特征向量化模块306，用于将所述微博文本原始特征词项集合与所述特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中，并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。以及用于判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0。

训练模块307，用于采用预设的算法训练计算得到的所有特征值所组成的特征向量，以获得分类模型。

其中，预设的算法包括以下任一种算法：

支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。

作为本发明一优选实施例，所述推荐模块206包括：

数据统计模块，用于统计用户的微博中每类微博所占的百分比。

数据匹配模块，用于将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配，并将匹配成功的类别所占的百分比翻倍。

广告推荐模块，用于向读取微博数据的用户推荐排名在前M的M个类别的广告，所述M为整数，M大于0。

本实施例中，只选取排名在前M个类别的广告推荐给客户，在不增加客户浏览压力的基础上使广告投放更准确。

在本发明实施例中，通过对用户发布的微博数据进行挖掘、分类，并结合用户在微博的标签信息判断出该用户的兴趣偏好，进而向该用户推荐相应的广告。由于用户发布的微博数据比用户标签包含的信息更具有实时性，更能代表用户的兴趣偏好，因此通过分析用户的微博数据及标签信息得到的判断结果比仅分析标签信息更准确，从而推荐的广告也更准确，效果也更好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于微博的广告推荐方法，其特征在于，所述方法包括下述步骤：

读取用户的微博数据；

初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符，分词；

以自动分类的结果为依据，向读取微博数据的用户推荐广告；

所述以自动分类的结果为依据，向读取微博数据的用户推荐广告的步骤具体包括：

统计用户的微博中每类微博所占的百分比；

将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配，并将匹配成功的类别所占的百分比翻倍；

向读取微博数据的用户推荐排名在前M的M个类别的广告，所述M为整数，M大于0。

2.如权利要求1所述的方法，其特征在于，在所述使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中之前包括下述步骤：

读取训练微博；

将所述读取的训练微博数据人工标记为预先划分的类别；

初始化读取的训练微博数据，以获得微博文本词项集合，所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词；

生成特征词项字典；

将所述微博文本原始特征词项集合与所述特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中，并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值；

判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0；

采用预设的算法训练计算得到的所有特征值所组成的特征向量，以获得分类模型。

3.如权利要求2所述的方法，其特征在于，所述生成特征词项字典的步骤具体包括：

计算微博文本原始特征词项集合中每个词项的互信息值；

选取互信息值排名在前N的N个词项作为特征词项字典的词项，所述N为整数，N大于0。

4.如权利要求2所述的方法，其特征在于，所述预设的算法包括以下任一种算法：

5.一种基于微博的广告推荐***，其特征在于，所述***包括：

第一数据读入模块，用于读取用户的微博数据；

第一数据初始化模块，用于初始化读取的微博数据，以获得微博文本词项集合，所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符，分词；

推荐模块，用于以自动分类的结果为依据，向读取微博数据的用户推荐广告；

所述推荐模块包括：

数据统计模块，用于统计用户的微博中每类微博所占的百分比；

数据匹配模块，用于将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配，并将匹配成功的类别所占的百分比翻倍；

6.如权利要求5所述的***，其特征在于，所述***还包括：

第二数据读入模块，用于读取训练微博数据；

人工分类模块，用于将所述读取的训练微博数据人工标记为预先划分的类别；

第二数据初始化模块，用于初始化读取的训练微博数据，以获得微博文本词项集合，所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词；

第二特征提取模块，用于删除所述微博文本词项集合的停用词，以获得微博文本原始特征词项集合；

特征词项字典生成模块，用于生成特征词项字典；

第二特征向量化模块，用于将所述微博文本原始特征词项集合与所述特征词项字典进行映射，判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中，并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值，以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值；以及用于判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中，并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0；

训练模块，用于采用预设的算法训练计算得到的所有特征值所组成的特征向量，以获得分类模型。

7.如权利要求6所述的***，其特征在于，所述特征词项字典生成模块包括：

互信息值计算模块，用于计算微博文本原始特征词项集合中每个词项的互信息值；

8.如权利要求6所述的***，其特征在于，所述预设的算法包括以下任一种算法：