CN103617230B - 一种基于微博的广告推荐方法及*** - Google Patents

一种基于微博的广告推荐方法及*** Download PDF

Info

Publication number
CN103617230B
CN103617230B CN201310608335.7A CN201310608335A CN103617230B CN 103617230 B CN103617230 B CN 103617230B CN 201310608335 A CN201310608335 A CN 201310608335A CN 103617230 B CN103617230 B CN 103617230B
Authority
CN
China
Prior art keywords
lexical item
feature
microblogging
microblog
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310608335.7A
Other languages
English (en)
Other versions
CN103617230A (zh
Inventor
章昉
刘明君
赵中英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310608335.7A priority Critical patent/CN103617230B/zh
Publication of CN103617230A publication Critical patent/CN103617230A/zh
Application granted granted Critical
Publication of CN103617230B publication Critical patent/CN103617230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明适用于数据挖掘领域,提供了一种基于微博的广告推荐方法及***。所述方法包括:读取微博数据;初始化微博数据,获得微博文本词项集合;删除微博文本词项集合的停用词,获得微博文本原始特征词项集合;将微博文本原始特征词项集合与特征词项字典进行映射,判断微博文本原始特征词项集合中的词项是否出现在特征词项字典中,并计算出现的词项的tf‑idf值,作为词项的特征值;判断特征词项字典的词项是否出现在微博文本原始特征词项集合中,并将没有出现的词项的特征值标记为0;将计算得到的所有特征值组成的特征向量自动分类到预先划分的类别;以自动分类的结果为依据,向用户推荐广告。本发明实施例推荐的广告也更准确,效果也更好。

Description

一种基于微博的广告推荐方法及***
技术领域
本发明属于数据挖掘领域,尤其涉及一种基于微博的广告推荐方法及***。
背景技术
随着新浪微博、腾讯微博等社交网站在国内的流行,微博等社会化媒体不仅成为了网民发布、共享、传播信息的平台,而且积累了大规模网民的行为数据。2012年5月,新浪微博事业部副总经理芦义指出,新浪微博注册用户已超过3亿,用户平均每天发布超过1亿条微博内容。微博用户的基数大,数据量大,若微博运营***能够分析和挖掘已有的海量数据,能够根据分析结果对微博用户的兴趣进行较为精准的判断,根据微博用户的兴趣对其进行广告投放,则对微博用户推送的广告将使微博用户、商家和微博运营商三方都受益。
现有的微博广告推荐方法主要利用用户个人资料里的标签或者使用用户的搜索记录对微博用户进行兴趣判断,进而对其推送用户可能感兴趣的广告。由于很多用户的个人资料里面并不含有标签或者用户在创建个人资料时填写的标签不准确,因此通过用户标签来对其进行广告推荐不能达到很好的效果。而通过对微博用户的搜索记录来判断用户的兴趣具有一定的局限性,仅仅能表示该用户的当前需要而不能对其兴趣进行较为准确的判断。
发明内容
本发明实施例提供了一种基于微博的广告推荐方法,旨在解决现有的方法在挖掘用户信息时准确性低,从而导致广告推荐效果不好的问题。
本发明实施例是这样实现的,一种基于微博的广告推荐方法,所述方法包括下述步骤:
读取用户的微博数据;
初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词;
删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;
判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
以自动分类的结果为依据,向读取微博数据的用户推荐广告。
本发明实施例的另一目的在于提供一种基于微博的广告推荐***,所述***包括:
第一数据读入模块,用于读取用户的微博数据;
第一数据初始化模块,用于初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词;
第一特征提取模块,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
第一特征向量化模块,用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
分类模块,用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
推荐模块,用于以自动分类的结果为依据,向读取微博数据的用户推荐广告。
本发明实施例中,由于用户发布的微博数据比用户标签包含的信息更具有实时性,更能代表用户的兴趣偏好,因此通过分析用户的微博数据得到的判断结果更准确,从而推荐的广告也更准确,效果也更好。
附图说明
图1是本发明第一实施例提供的一种基于微博的广告推荐方法的流程图;
图2是本发明第二实施例提供的一种基于微博的广告推荐***结构图;
图3是本发明第二实施例提供的另一种基于微博的广告推荐***结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例通过对用户发布的微博数据进行挖掘、分类,判断出该用户的兴趣偏好,进而向该用户推荐相应的广告。
本发明实施例提供了一种:基于微博的广告推荐方法及***。
所述方法包括:读取用户的微博数据;
初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词;
删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;
判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
以自动分类的结果为依据,向读取微博数据的用户推荐广告。
所述***包括:第一数据读入模块,用于读取用户的微博数据;
第一数据初始化模块,用于初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词;
第一特征提取模块,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
第一特征向量化模块,用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
分类模块,用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
推荐模块,用于以自动分类的结果为依据,向读取微博数据的用户推荐广告。
本发明实施例中,由于用户发布的微博数据比用户标签包含的信息更具有实时性,更能代表用户的兴趣偏好,因此通过分析用户的微博数据得到的判断结果更准确,从而推荐的广告也更准确,效果也更好。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种基于微博的广告推荐方法,详述如下:
步骤S11,读取用户的微博数据。
该步骤中,可预先获取用户的微博数据,将获取的微博数据存储在数据库中,在需要对某个用户的微博数据分析时,再读取该用户的微博数据。
步骤S12,初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词。
该步骤中,对每条微博数据进行初始化处理,比如去除标点符号等特殊符号、去除非中文字符、分词等,在初始化处理后得到一个微博文本词项集合。
步骤S13,删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合。
步骤S14,将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率(term frequency-inverse document frequency,tf-idf)值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。
该步骤中,将每条微博的微博文本原始特征词项集合向特征词项字典进行映射,如果微博文本原始特征词项集合的词项在特征词项字典,那么计算这个词项的tf-idf值作为该词项在该微博中的特征值。
步骤S15,判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0。
该步骤中,微博文本原始特征词项集合的词项不在特征词项字典,该词项被忽略,如果特征词项字典中的词项没有出现在微博文本原始特征词项集合中,该词项的特征值为0;最终每条微博的微博文本转变成为一个维度为5000的特征向量。
步骤S16,使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中。
该步骤中,可根据实际需求预先划分多种类别,比如,预先划分12种类别,分别有体育类、健康类、教育类、旅游类、科技类、汽车类、游戏类、美容美发美体类、美食类、服装鞋靴包类、文化娱乐类、其他。
其中,体育类包括体育赛事、体育报刊、体育明星等内容;
其中,健康类包括健康常识、药物、身体健康状况等内容;
其中,教育类包括新东方、新航道等培训机构,个人的学习状况、学习意向,出国留学等内容;
其中,旅游类包括景点、游乐场、出国游、自由行、酒店等内容;
其中,科技类包括手机、电脑、数码产品等内容;
其中,汽车类包括汽车、汽车杂志等内容;
其中,游戏类包括***、网页游戏、网络游戏等内容;
其中,美容美发美体类包括护肤品、化妆品、美甲、纤体、洗护用品等内容;
其中,美食类包括食品、吃货、食谱等内容;
其中,文化娱乐类包括娱乐圈、演唱会、话剧、展览等内容;
其中,其他包括个人状态、个人情感、社会看法、生活看法等内容。
步骤S17,以自动分类的结果为依据,向读取微博数据的用户推荐广告。
该步骤中,若自动分类的结果是将用户的微博数据归入某类,则向用户推荐与该类别相对应的广告。这里的广告包括新闻、音乐、电影、微博等。
本发明实施例中,通过对用户发布的微博数据进行挖掘、分类,判断出该用户的兴趣偏好,进而向该用户推荐相应的广告。由于用户发布的微博数据比用户标签包含的信息更具有实时性,更能代表用户的兴趣偏好,因此通过分析用户的微博数据得到的判断结果更准确,从而推荐的广告也更准确,效果也更好。
作为本发明一优选实施例,在步骤S16,使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中的步骤之前包括下述步骤:
步骤A、读取训练微博数据。
该步骤中,尽量读取多个用户的微博数据作为训练的微博数据,以提高后续挖掘的准确性。
步骤B、将所述读取的训练微博数据人工标记为预先划分的类别。
该步骤中,多名标记员将读取的每条微博数据标记为预先划分的类别中的一类,在标记每条微博数据的类别时,使用少数服从多数的原则。
步骤C、初始化读取的训练微博数据,以获得微博文本词项集合,所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词中。
步骤D、删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合。
步骤E、生成特征词项字典。
该步骤中,生成特征词项字典的步骤具体包括:计算微博文本原始特征词项集合中每个词项的互信息值;选取互信息值排名在前N的N个词项作为特征词项字典的词项,所述N为整数,N大于0。例如选出互信息值最高的5000个词项作为特征词项字典的词项,生成的特征词项字典可按照互信息值的高低进行排列。
步骤F、将所述微博文本原始特征词项集合与所述特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中,并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。
步骤G、判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0。
步骤H、采用预设的算法训练计算得到的所有特征值所组成的特征向量,以获得分类模型。
该步骤中,训练所有微博数据对应的特征向量矩阵,后续挖掘某个用户的微博数据时可直接使用训练后的结果。
其中,预设的算法包括以下任一种算法:支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。
本实施例中,通过分析大量用户的微博数据,生成特征词项字典,该特征词项字典为以后挖掘某个用户的兴趣偏好提供一个参考标准。
作为本发明一优选实施例,步骤S17,以自动分类的结果为依据,向读取微博数据的用户推荐广告的步骤具体包括:统计用户的微博中每类微博所占的百分比;将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配,并将匹配成功的类别所占的百分比翻倍;向读取微博数据的用户推荐排名在前M的M个类别的广告,所述M为整数,M大于0。
本实施例中,对用户的历史微博进行类别统计出每类微博所占百分比并和该用户资料内的标签进行匹配,如果标签内含有某类,那么该类微博所占百分比翻倍,最后选出百分比最高的M个类别,例如选出三个类别作为该用户的广告推荐类别。优选地,一段时间后可以重新计算得出该用户最新的广告推荐类别。
实施例二:
图2示出了本发明第二实施例提供的一种基于微博的广告推荐***的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
该基于微博的广告推荐***可以用于通过有线或者无线网络连接服务器的各种信息处理终端,例如移动电话、口袋计算机(Pocket Personal Computer,PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(Personal Digital Assistant,PDA)等,可以是运行于这些信息处理终端内的软件单元、硬件单元或者软硬件相结合的单元,也可以作为独立的挂件集成到这些信息处理终端中或者运行于这些信息处理终端的应用***中,其中:
第一数据读入模块201,用于读取用户的微博数据。
第一数据初始化模块202,用于初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符、分词中。
第一特征提取模块203,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合。
第一特征向量化模块204,用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0。
其中,经过第一特征向量化模块204的计算,最终将每条微博的微博数据转变为一个纬度为5000的特征向量。
分类模块205,用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中。
其中,预先划分的类别可为12类,具体如步骤S16所示,这里不再赘述。
推荐模块206,用于以自动分类的结果为依据,向读取微博数据的用户推荐广告。
其中,这里的广告包括新闻、音乐、电影、微博等内容。
本发明实施例中,通过对读取的微博数据进行挖掘,划分所属类别,并向用户推荐与划分类别相关的广告。由于微博数据能够及时反映用户的兴趣偏好,因此通过分析用户的微博数据得到的判断结果更准确,从而推荐的广告也更准确,效果也更好。
图3示出了基于微博的广告推荐***的另一结构,作为本发明的另一个优选实施例,所述基于微博的广告推荐***还包括:
第二数据读入模块301,用于读取训练微博数据。
其中,读取的微博数据为多个用户的微博数据。
人工分类模块302,用于将所述读取的训练微博数据人工标记为预先划分的类别。
第二数据初始化模块303,用于初始化读取的训练微博数据,以获得微博文本词项集合,所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词中。
第二特征提取模块304,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合。
特征词项字典生成模块305,用于生成特征词项字典。
其中,特征词项字典生成模块305包括:
互信息值计算模块,用于计算微博文本原始特征词项集合中每个词项的互信息值。
特征词项字典词项选择模块,用于选取互信息值排名在前N的N个词项作为特征词项字典的词项,所述N为整数,N大于0。
第二特征向量化模块306,用于将所述微博文本原始特征词项集合与所述特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中,并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值。以及用于判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0。
训练模块307,用于采用预设的算法训练计算得到的所有特征值所组成的特征向量,以获得分类模型。
其中,预设的算法包括以下任一种算法:
支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。
本实施例中,通过分析大量用户的微博数据,生成特征词项字典,该特征词项字典为以后挖掘某个用户的兴趣偏好提供一个参考标准。
作为本发明一优选实施例,所述推荐模块206包括:
数据统计模块,用于统计用户的微博中每类微博所占的百分比。
数据匹配模块,用于将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配,并将匹配成功的类别所占的百分比翻倍。
广告推荐模块,用于向读取微博数据的用户推荐排名在前M的M个类别的广告,所述M为整数,M大于0。
本实施例中,只选取排名在前M个类别的广告推荐给客户,在不增加客户浏览压力的基础上使广告投放更准确。
在本发明实施例中,通过对用户发布的微博数据进行挖掘、分类,并结合用户在微博的标签信息判断出该用户的兴趣偏好,进而向该用户推荐相应的广告。由于用户发布的微博数据比用户标签包含的信息更具有实时性,更能代表用户的兴趣偏好,因此通过分析用户的微博数据及标签信息得到的判断结果比仅分析标签信息更准确,从而推荐的广告也更准确,效果也更好。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于微博的广告推荐方法,其特征在于,所述方法包括下述步骤:
读取用户的微博数据;
初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符,分词;
删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的词频-逆向文件频率tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;
判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
以自动分类的结果为依据,向读取微博数据的用户推荐广告;
所述以自动分类的结果为依据,向读取微博数据的用户推荐广告的步骤具体包括:
统计用户的微博中每类微博所占的百分比;
将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配,并将匹配成功的类别所占的百分比翻倍;
向读取微博数据的用户推荐排名在前M的M个类别的广告,所述M为整数,M大于0。
2.如权利要求1所述的方法,其特征在于,在所述使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中之前包括下述步骤:
读取训练微博;
将所述读取的训练微博数据人工标记为预先划分的类别;
初始化读取的训练微博数据,以获得微博文本词项集合,所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词;
删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
生成特征词项字典;
将所述微博文本原始特征词项集合与所述特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中,并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;
判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0;
采用预设的算法训练计算得到的所有特征值所组成的特征向量,以获得分类模型。
3.如权利要求2所述的方法,其特征在于,所述生成特征词项字典的步骤具体包括:
计算微博文本原始特征词项集合中每个词项的互信息值;
选取互信息值排名在前N的N个词项作为特征词项字典的词项,所述N为整数,N大于0。
4.如权利要求2所述的方法,其特征在于,所述预设的算法包括以下任一种算法:
支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。
5.一种基于微博的广告推荐***,其特征在于,所述***包括:
第一数据读入模块,用于读取用户的微博数据;
第一数据初始化模块,用于初始化读取的微博数据,以获得微博文本词项集合,所述初始化读取的微博数据包括去除读取的微博数据中的特殊符号、非中文字符,分词;
第一特征提取模块,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
第一特征向量化模块,用于将所述微博文本原始特征词项集合与预先生成的特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述预先生成的特征词项字典中,并计算出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述预先生成的特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;以及用于判断所述预先生成的特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述预先生成的特征词项字典的词项的特征值标记为0;
分类模块,用于使用预先得到的分类模型将用户的微博数据自动分类到预先划分的类别中;
推荐模块,用于以自动分类的结果为依据,向读取微博数据的用户推荐广告;
所述推荐模块包括:
数据统计模块,用于统计用户的微博中每类微博所占的百分比;
数据匹配模块,用于将统计的每类微博所占的百分比与用户在微博资料内的标签进行匹配,并将匹配成功的类别所占的百分比翻倍;
广告推荐模块,用于向读取微博数据的用户推荐排名在前M的M个类别的广告,所述M为整数,M大于0。
6.如权利要求5所述的***,其特征在于,所述***还包括:
第二数据读入模块,用于读取训练微博数据;
人工分类模块,用于将所述读取的训练微博数据人工标记为预先划分的类别;
第二数据初始化模块,用于初始化读取的训练微博数据,以获得微博文本词项集合,所述初始化读取的训练微博数据包括去除读取的训练微博数据中的特殊符号、非中文字符、分词;
第二特征提取模块,用于删除所述微博文本词项集合的停用词,以获得微博文本原始特征词项集合;
特征词项字典生成模块,用于生成特征词项字典;
第二特征向量化模块,用于将所述微博文本原始特征词项集合与所述特征词项字典进行映射,判断所述微博文本原始特征词项集合中的词项是否出现在所述特征词项字典中,并计算出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项的tf-idf值,以作为所述出现在所述特征词项字典中的所述微博文本原始特征词项集合中的词项在微博的特征值;以及用于判断所述特征词项字典的词项是否出现在所述微博文本原始特征词项集合中,并将没有出现在所述微博文本原始特征词项集合中的所述特征词项字典的词项的特征值标记为0;
训练模块,用于采用预设的算法训练计算得到的所有特征值所组成的特征向量,以获得分类模型。
7.如权利要求6所述的***,其特征在于,所述特征词项字典生成模块包括:
互信息值计算模块,用于计算微博文本原始特征词项集合中每个词项的互信息值;
特征词项字典词项选择模块,用于选取互信息值排名在前N的N个词项作为特征词项字典的词项,所述N为整数,N大于0。
8.如权利要求6所述的***,其特征在于,所述预设的算法包括以下任一种算法:
支持向量机SVM、朴素贝叶斯分类算法、神经网络、K临近分类算法、遗传算法。
CN201310608335.7A 2013-11-26 2013-11-26 一种基于微博的广告推荐方法及*** Active CN103617230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310608335.7A CN103617230B (zh) 2013-11-26 2013-11-26 一种基于微博的广告推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310608335.7A CN103617230B (zh) 2013-11-26 2013-11-26 一种基于微博的广告推荐方法及***

Publications (2)

Publication Number Publication Date
CN103617230A CN103617230A (zh) 2014-03-05
CN103617230B true CN103617230B (zh) 2017-02-15

Family

ID=50167933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310608335.7A Active CN103617230B (zh) 2013-11-26 2013-11-26 一种基于微博的广告推荐方法及***

Country Status (1)

Country Link
CN (1) CN103617230B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104851026B (zh) * 2015-05-21 2018-07-17 上海宾谷网络科技有限公司 基于大数据实时定位用户的竞价原生广告奖励***及方法
CN104915386B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN104992347B (zh) * 2015-06-17 2018-12-14 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN106339402B (zh) * 2015-07-16 2020-11-24 腾讯科技(深圳)有限公司 一种推荐内容推送的方法、装置及***
CN105389345A (zh) * 2015-10-26 2016-03-09 天津大学 一种分类短信文本内容的方法
CN105975497A (zh) * 2016-04-27 2016-09-28 清华大学 微博话题自动推荐方法及装置
WO2018023657A1 (zh) * 2016-08-05 2018-02-08 汤隆初 根据微信公众号推送广告技术的调整方法以及推送***
WO2018023656A1 (zh) * 2016-08-05 2018-02-08 汤隆初 根据其他用户使用情况调整广告推送的方法以及推送***
WO2018023658A1 (zh) * 2016-08-05 2018-02-08 汤隆初 根据关注公众号推送广告的方法以及推送***
CN106886579B (zh) * 2017-01-23 2020-01-14 北京航空航天大学 实时流式文本分级监控方法和装置
CN107086925B (zh) * 2017-03-07 2020-04-07 珠海城市职业技术学院 一种基于深度学习的互联网流量大数据分析方法
CN107169799B (zh) * 2017-05-17 2020-10-27 微梦创科网络科技(中国)有限公司 一种基于社交关系的原生信息流代投广告实现方法及***
CN109145280B (zh) * 2017-06-15 2023-05-12 北京京东尚科信息技术有限公司 信息推送的方法和装置
CN107590195A (zh) * 2017-08-14 2018-01-16 百度在线网络技术(北京)有限公司 文本分类模型训练方法、文本分类方法及其装置
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及***
CN109214893A (zh) * 2018-08-31 2019-01-15 深圳春沐源控股有限公司 商品推荐方法、推荐***及计算机装置
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及***
CN111369298A (zh) * 2020-03-09 2020-07-03 成都欧魅时尚科技有限责任公司 一种基于互联网热点事件自动调整广告预算的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity
CN103324708A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种长文本到短文本的迁移学习方法
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027977B2 (en) * 2007-06-20 2011-09-27 Microsoft Corporation Recommending content using discriminatively trained document similarity
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN103389981A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 网络标签自动识别方法及其***
CN103324708A (zh) * 2013-06-18 2013-09-25 哈尔滨工程大学 一种长文本到短文本的迁移学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向中文微博的社会网络分析及应用";麦艺华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130215(第2期);第11-44页 *

Also Published As

Publication number Publication date
CN103617230A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617230B (zh) 一种基于微博的广告推荐方法及***
US11734725B2 (en) Information sending method, apparatus and system, and computer-readable storage medium
CN103678335B (zh) 商品标识标签的方法、装置及商品导航的方法
CN103365867B (zh) 一种对用户评价进行情感分析的方法和装置
CN106709040B (zh) 一种应用搜索方法和服务器
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN104866496B (zh) 确定词素重要性分析模型的方法及装置
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN109978630A (zh) 一种基于大数据建立用户画像的精准营销方法和***
US20220405607A1 (en) Method for obtaining user portrait and related apparatus
Zhang et al. Multimodal marketing intent analysis for effective targeted advertising
CN106294500B (zh) 内容项目的推送方法、装置及***
CN105718184A (zh) 一种数据处理方法和装置
JP6033697B2 (ja) 画像評価装置
WO2016192309A1 (zh) 推送信息的处理方法、装置、设备及非易失性计算机存储介质
Chung et al. Interactive design recommendation using sensor based smart wear and weather WebBot
CN104036002A (zh) 一种智能推荐数据的技术方法
Zhao et al. Neo-fashion: A data-driven fashion trend forecasting system using catwalk analysis
CN104050243B (zh) 一种将搜索与社交相结合的网络搜索方法及其***
CN105931082B (zh) 一种商品类目关键词提取方法和装置
CN115244547A (zh) 自动并智能地探索设计空间
JP2013196070A (ja) 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
JP2011113289A (ja) 文書装飾支援システムおよび文書装飾支援方法
CN108984711A (zh) 一种基于分层嵌入的个性化app推荐方法
CN107908749B (zh) 一种基于搜索引擎的人物检索***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140305

Assignee: Dongguan Shengnuolin Sports Products Co.,Ltd.

Assignor: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES

Contract record no.: X2023980037877

Denomination of invention: A Weibo based advertising recommendation method and system

Granted publication date: 20170215

License type: Common License

Record date: 20230712

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140305

Assignee: Shenzhen Huayun Xingchuang Cultural Technology Co.,Ltd.

Assignor: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES

Contract record no.: X2023980043804

Denomination of invention: A Weibo based advertising recommendation method and system

Granted publication date: 20170215

License type: Common License

Record date: 20231018

Application publication date: 20140305

Assignee: Shenzhen Xingfei Software Technology Co.,Ltd.

Assignor: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES

Contract record no.: X2023980043566

Denomination of invention: A Weibo based advertising recommendation method and system

Granted publication date: 20170215

License type: Common License

Record date: 20231016