CN101477566A

CN101477566A - 一种用于候选主题词广告投放的方法及装置

Info

Publication number: CN101477566A
Application number: CNA2009100771855A
Authority: CN
Inventors: 王震; 方高林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2009-01-19
Filing date: 2009-01-19
Publication date: 2009-07-08

Abstract

本发明公开了一种用于候选主题词广告投放的方法，该方法包括：将提取到的至少一个候选主题词，进行广告性及主题性计算；根据计算获得的广告性及主题性的计算结果，通过计算确定所述候选主题词的广告主题权重值，以选择所述候选主题词进行广告投放。本发明还提供了一种用于候选主题词广告投放的装置。采用本发明所述的技术方案，能够解决主题词优先级与广告词优先级之间的冲突问题，提高了广告投放的准确度。

Description

一种用于候选主题词广告投放的方法及装置

技术领域

本发明涉及互联网处理技术领域，更具体地说，涉及一种用于候选主题词广告投放的方法及装置。

背景技术

随着互联网技术的发展和普及，网络逐渐成为传播信息的重要媒介。其中，在线广告是互联网企业中最重要的盈利模式之一，怎样在互联网各网站或其他内容之间以最佳的方式投放广告是企业研究的重点。

目前，基于互联网文本内容的广告推介的一般过程(如图1所示)，主题词提取模块对提取出的候选主题词进行权重计算及排序，得到每个候选主题词作为文本关键字的可行程度，该程度的主要参考技术(如图2所示)，其中：

(1)TF-IDF(每个候选主题词在文本中的重要程度)值，综合考虑词汇频率和词汇的逆文本频率指数两个因素，该值越高，则该词的主题性越高；

(2)词汇本身特征：根据需要加入规则性的约束；如词性或词汇长度，一般名词的主题性要高一些；在一定限度内词汇长度越长认为该词越重要；

(3)词汇在文本中的结构化信息：如词汇出现在文中的位置，通常出现在标题上主题性高，或者第一句、第一段或末段等；词汇在文中的分布信息，通常词汇分布均匀，覆盖段落广的词汇主题性越高。

由上所述，通过以TF-IDF为基础，结合词汇本身特征和词汇在文本中的结构化信息来进行量化计算，找到与文章意义最相关的一些词汇，并可获得每个词汇的可行程度。

但这种广告推介***存在一些缺点：

(a)一般主题词是与文本描述信息最相关的词汇，但不一定具有广告价值。当文章中的主题词个数被限定的很少时，能匹配到相关广告的词汇就非常有限；

(b)权重值代表主题词的优先级，但不代表广告值的优先级。当一个广告意义非常轻的词汇在主题性上略微超越了一个广告意义强烈的词汇时，很可能造成广告投放的本末倒置。

目前，基于互联网文本内容的广告推介还存在一种使用“广告词库+主题词权重”的技术方案(如图3所示)，该解决方法是本质上仍然是按照主题性来进行权重计算并最终排序的，但为了适应广告的需求，在候选主题词产生过程结束后，权重计算之前，使用一个广告词库，通过筛选使进入主题计算的词汇都具有广告性，保证最终入选词汇都可以投放广告。然后根据主题相关性(即上面所述的普通权重计算的结果)进行排序输出。

主题相关性的计算主要以TF/IDF方式为主。TF(Term Frequency，单文本词汇频率)是指词汇在语义环境下的出现频率；DF(DocumentFrequency，文本频率指数)是指含有该词汇的文档的比例，这是一个先验的知识，通过训练得到，如10000篇文章有100篇含有某个词，那么这个词的DF便是0.01；IDF(Inverse Document Frequency，逆文本频率指数)是DF的倒数，IDF越高，该词越稀少，越能代表一个文章的特征。词汇的权重的计算公式为：

Weight＝TF×log(IDF)

由以上所述的技术方案，再辅以如词汇自身属性或词汇在文本中结构信息，得出最终的权重。这种方法虽然解决了主题词是非广告词的问题，但为使广告词库能够不断补充新的词汇，其维护的工作量很大；并且主题优先级与广告优先级的冲突关系仍旧没有解决；由于主题排序的词语都来自广告词库，所以限制了主题词的多样性。

发明内容

鉴于上述现有技术所存在的问题，本发明所要解决的技术问题是提供一种用于候选主题词广告投放的方法及装置，能够解决主题词优先级与广告词优先级之间的冲突问题。

本发明的目的是通过以下技术方案实现的：

本发明提供了一种用于候选主题词广告投放的方法，技术方案包括：

将提取到的至少一个候选主题词，进行广告性及主题性计算；

根据计算获得的所述广告性及主题性的计算结果，通过计算确定所述候选主题词的广告主题权重值，以选择所述候选主题词进行广告投放。

进一步地，对所述候选主题词进行广告性计算的具体过程为：

所述候选主题词在建立的广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，根据所述候选主题词对应的固定权重值，通过计算确定该候选主题词在所述广告词典中的精确广告匹配度；以及根据所述候选主题词的上下文向量和通过所述广告词典中的广告词获得的广告上下文向量，计算得到该候选主题词与所述广告上下文向量的相似度；

在所述精确广告匹配度与所述相似度之间取最大值，得到该候选主题词的广告性的计算结果。

进一步地，所述方法还包括建立所述广告词典的过程，具体包括：

将用户关注的文本信息中的词汇投入到搜索引擎中来搜索广告词，并记录搜索到的广告词及对应的出现频率和等级，获得所述广告词典中的广告词；

根据所述广告词在搜索引擎中的广告程度权重值以及该广告词在获得的所述广告上下文向量之间的相似度，来确定该广告词在所述广告词典中对应的固定权重值，并保存；其中，所述广告程度权重值用于表示该广告词在搜索引擎中被关注的程度；所述相似度用于表示该广告词的上下文向量与在存储有大量文章数据的资料库中获得所述广告上下文向量之间的相似程度。

进一步地，获得所述广告程度权重值的具体过程包括：

将由计算确定的该广告词在搜索引擎中的广告程度值与由计算确定的广告词典的广告词中的最大广告程度值之比，作为该广告词的广告程度权重值；

所述广告程度值是根据该广告词在搜索引擎中所作广告的频率及等级通过计算确定的。

进一步地，所述确定该候选主题词在广告词典中的精确广告匹配度的过程具体包括：

根据所述候选主题词在所述广告词典中对应的固定权重值及该候选主题词的字符长度，计算确定所述该候选主题词在广告词典中的精确广告匹配度；

或者，通过将所述候选主题词拆分后获得的成份词汇在所述广告词典中对应的固定权重值及该成份词汇的字符长度，计算确定该候选主题在广告词典中的精确广告匹配度。

进一步地，所述获得广告上下文向量的具体过程包括：

将广告词典中每个广告词在存储有大量文章数据的资料库中进行匹配，记录离该广告词距离最近的具有实体意义的上下文词汇及对应的频率信息；每个广告词的上下文词汇及对应的频率信息组成该广告词的上下文向量；广告词典中所有广告词的上下文向量组合在一起获得所述广告上下文向量；所述每个广告词的上下文向量在所述广告上下文向量中都对应一个数值。

进一步地，所述相似度的计算过程包括：

根据广告词典中每个广告词的上下文向量与所述广告上下文向量之间的余弦函数值，获得所述每个广告词与所述广告上下文向量之间的相似度，并保存；

以及，通过计算所述候选主题词的上下文向量与所述广告上下文向量之间的余弦函数值，确定该候选主题词与所述广告上下文向量之间的相似度。

进一步地，所述对所述候选主题词进行主题性计算的具体过程包括：

根据计算获得的所述候选主题词在文本中的重要程度值、该候选主题词本身的特性加权值及该候选主题词在文本中结构化信息的加权值，计算确定该候选主题词的主题性计算结果。

进一步地，所述候选主题词在文本中的重要程度值的计算过程包括：

对于单词，根据该候选主题词的逆文本频率指数和单文本词汇频率值，计算确定该候选主题词的所述重要程度值；

或者，对于复合词，根据所述复合词拆分后的成份词汇的逆文本频率指数的总体估计以及该候选主题词的单文本词汇频率值，计算确定该候选主题词的所述重要程度值；所述逆文本频率指数的总体估计，主要包括平均或加权平均，用于近似表示所述复合词的逆文本频率指数。

进一步地，获得所述逆文本频率指数值的过程具体包括：

在逆文本频率指数训练阶段，将分词***分出的词汇在保存有大量文章数据的资料库中，进行出现频率及文本频率的提取，得到每个词汇的逆文本频率指数，通过计算，将分词***切分的词汇的逆文本频率指数组合成逆文本指数词典。

进一步地，所述计算确定所述候选主题词的广告主题权重值的计算公式包括：

Weight(w)＝ADWeight(w)×TopicWeight(w)

其中，ADWeight(w)为所述候选主题词的广告性计算结果，TopicWeight(w)为所述候选主题词的主题性计算结果。

本发明还提供了一种用于候选主题词广告投放的装置，包括：

词汇计算模块，用于对提取的至少一个候选主题词，进行广告性及主题性的计算；

综合处理模块，用于将得到的所述广告性及主题性的计算结果，通过计算确定所述候选主题词的广告主题权重值，以选择所述候选主题词进行广告投放。

优选地，所述词汇计算模块具体包括：

广告性计算单元，用于将所述候选主题词在建立的广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，将匹配到的所述固定权重值通过计算，确定该候选主题词在所述广告词典中的精确广告匹配度；以及，根据所述候选主题词的上下文向量和通过所述广告词典中的广告词获得的广告上下文向量，计算得到该候选主题词与所述广告上下文向量的相似度；通过在所述精确广告匹配度与所述相似度之间取最大值，得到该候选主题词的广告计算结果；

主题性计算单元，用于将所述候选主题词根据计算出的该候选主题词在文本中的重要程度值，以及该候选主题词本身的特性加权值和该主题词在文本中的结构化信息加权值，通过计算确定该候选主题词的主题性计算结果。

优选地，所述广告性计算单元具体包括：

广告词典建立子单元，用于将用户关注的文本信息中的词汇投入到搜索引擎中来搜索广告词，并记录搜索到的广告词及对应的出现频率和等级，获得所述广告词典中的广告词；且根据该广告词在搜索引擎中的广告程度权重值，及该广告词与获得的所述广告上下文向量之间的相似度，来确定所述广告词在所述广告词典中对应的固定权重值，并保存；

广告上下文获取子单元，用于将所述广告词典建立子单元获得所述广告词在保存有大量文章数据的资料库中进行匹配，记录离该广告词距离最近的具有实体意义的上下文词汇及对应的频率信息；将广告词典中每个广告词的上下文词汇及频率信息组合成所述广告上下文向量；所述每个广告词的上下文向量在所述广告上下文向量中都对应一个数值。

优选地，所述广告性计算单元具体还包括：

匹配计算子单元，用于将所述候选主题词在所述广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，将匹配到的所述固定权重值通过计算，确定该候选主题词在所述广告词典中的精确广告匹配度；

相似度计算子单元，用于根据获得所述广告上下文向量，通过计算得到该候选主题词在所述广告上下文向量中的相似度；

广告性综合子单元，用于通过在所述匹配计算子单元计算得到的精确广告匹配度与所述相似度计算子单元计算出的相似度之间取最大值，得到该候选主题词的广告性计算结果。

优选地，所述广告性计算单元具体还包括：

固定权重值计算子单元，用于根据所述广告词在搜索引擎中的广告程度权重值，及该广告词与获得的所述广告上下文向量之间的相似度，来确定所述广告词在所述广告词典中对应的固定权重值，并保存。

优选地，所述主题性计算单元具体包括：

逆文本频率指数获取子单元，用于在逆文本频率指数训练阶段，将分词***分出的词汇在存储有大量文章数据的资料库中提取出所述词汇的出现频率及文本频率，通过计算获得所述词汇的逆文本频率指数，组合成逆文本频率指数词典；

重要程度计算子单元，用于根据所述逆文本频率指数获取子单元获得的所述逆文本频率指数，计算所述候选主题词在文本中的重要程度值；

主题性计算子单元，用于根据所述重要程度计算子单元计算出的所述候选主题词在文本中的重要程度值，及该主题词本身的特性加权值及该主题词在文本中结构化信息加权值，通过计算确定所述候选主题词的主题性计算结果。

优选地，所述综合处理模块具体包括：

综合结果计算单元，用于将得到的所述广告性及主题性的计算结果，计算所述候选主题词的广告主题权重值。

排序单元，根据所述综合结果计算单元计算出的所述候选主题词的广告主题权重值，从大到小的进行排序。

有益效果：

本发明所述技术方案，通过权衡词汇的广告性和主题性两方面，来甄别从文本文件中提取出的候选主题词，是否具有广告主题权重性，以针对不同的网页内容从中选取合适的候选主题词，进行广告的投放；候选主题词广告主题权重性的判断是基于内容广告***中的基础性工作。

本发明所述技术方案，通过对提取出的候选主题词进行广告程度性的权重计算，来鉴别一个词汇是否是广告词，克服了现有技术中主题词并非广告词的问题，并且通过精确匹配和相似度计算，确保了候选主题词的匹配结果，不会像现有技术中，直接在广告词库中完全匹配到响应的词汇，得到单一机械化的结果，保留了广告词语的多样性特征。

附图说明

图1为现有技术中互联网文本内容的广告推介的一般过程的示意图；

图2为现有技术中候选主题词能否作为文本关键字的可行程度的主要技术参数的示意图；

图3为现有技术中“广告词库+主题词权重”技术方案的示意图；

图4为本发明实施例所述方法的流程图；

图5为本发明实施例所述装置的结构示意图；

图6为本发明实施例所述装置中词汇计算模块的结构图；

图7为本发明实施例所述广告性计算单元的结构图；

图8为本发明实施例所述主题性计算单元的结构图；

图9为本发明实施例所述综合处理模块的结构图。

具体实施方式

下面结合附图和具体实施方式对本发明所述的技术方案作详细说明。

本发明所述技术方案，首先将提取出的候选主题词，通过广告词典，计算出每一个候选主题词的精确广告匹配权重值，即由广告词典中所给出的精确广告权重值来硬性衡量候选主题词的精确广告匹配权重值。然后，利用统计所得的广告上下文词汇及对应的频率信息组成的所述广告上下文向量，计算出每个候选主题词与所述广告上下文向量之间的余弦函数值，作为该候选主题词与所述广告上下文向量之间的广告相似度。对这两个数值取最大值作为最终的该候选主题词的广告性计算结果；并通过对所有候选主题词进行主题性计算，得到该候选主题词最终的广告主题权重值；以广告主题权重值来衡量一个候选广告词的广告性，广告主题权重值越高，该词汇的广告性越强。

如图4所示，本发明实施例一种用于候选主题词广告投放的方法，技术方案包括：

步骤S101：将提取到的至少一个候选主题词，进行广告性及主题性计算；

步骤S102：根据计算获得的所述广告性及主题性结果，通过计算确定所述候选主题词的广告主题权重值，以选择所述候选主题词进行广告投放。

说明：对候选主题词分别进行广告性及主题性的权重值计算，二者的计算互不影响，没有先后次序，通过最终综合两方面的数值计算出每个候选主题词的广告主题权重值，按照广告主题权重值进行排序后，根据需要取前几个作为最终结果进行广告词汇的投放。

具体地说，对于步骤S101中，本实施例中提取候选主题词的过程可以包括：

根据分词***对原始文本进行分词后，对所述文本内容进行语义分析，在文本中提取有具体意义的词汇，作为候选主题词；

其中，提取词汇的处理过程分为：

(1)从分词结果中选择出符合要求的原始词汇；

(2)对文本进行新词发现，挖掘未登录的实体词。

所以，候选主题词最终综合了两种结果：一个就是分词***可以分辨的、具有实体意义词性(例如：名词、动词、形容词等实体意义高的词汇)的词汇；另一个就是新词发现的结果。将两种结果进行合并，并经过垃圾过滤、冗余过滤处理后，将精选出来的词汇作为候选主题词的候选。

具体地说，对所述候选主题词进行广告性计算的具体过程为：

具体地说，所述方法还包括建立所述广告词典的过程，具体过程可以包括：

(1)将用户关注的文本信息中的词汇投入到搜索引擎中来搜索广告词，并对搜索到的广告词及对应的出现频率和等级进行记录，获得所述广告词典中的广告词；

本实施例中广告词典的建立主要通过分析用户的关注信息和各大搜索引擎的推广来获取，方法可以优选为：

在网络中，提取一部分查询日志(Query Log)，将日志中的词汇投入到各大搜索引擎中进行挖掘，将搜索到的带有广告的词条进行记录，并记载该广告词出现的频率或者级别等数据；本实施例的应用过程中对记录下的广告词汇及对应的出现频率和级别进行再次过滤，将单字、符号、垃圾词、宽泛意义词删除掉，获得最终的广告词。只要query log足够大，几乎可以覆盖所有的热门广告词。

(2)根据所述广告词在搜索引擎中的广告程度权重值以及该广告词在获得的所述广告上下文向量之间的相似度，来确定该广告词在所述广告词典中对应的固定权重值，并保存；

其中，所述广告程度权重值用于表示该广告词在搜索引擎中被关注的程度；所述相似度用于表示该广告词的上下文向量与在存储有大量文章数据的资料库中获得所述广告上下文向量之间的相似程度。

具体地说，获得所述广告程度权重值的具体过程可以包括：

将由计算确定的该广告词在搜索引擎中的广告程度值与由计算确定的广告词典的广告词中的最大广告程度值之比，作为该广告词的广告程度权重值；所述广告程度值是根据该广告词在搜索引擎中所作广告的频率及等级通过计算确定的。

本发明实施例中所述广告词的广告程度值的计算公式可以为：

设广告词为w，w在搜索引擎中出现的广告频率是F(w)，等级是D(w)：

AdSEWeight(w)＝log(F(w)+1)×(α+βD(w))

其中，α，β表示等级调整参数，α用于调整最高和最低等级之间的差距，β用于调整等级数据对搜索引擎广告程度值的影响；

例如：广告分7个等级(0-6)，在频率相等的条件下，如果α＝0.6，β＝0.1，那么最低等级和最高等级在等级这里的参数相差是两倍(0.6，1.2)，为了避免在等级是零的情况下，高、低等级的差异过大，所以就在公式中增加两个参数α和β，通过调节α和β的值从而降低高、低等级之间的差距，来满足要求。

说明：将广告词典中每个广告词的广告程度值都分别计算出来，然后将每个广告词的广告程度值与计算出的最大的广告程度值之比，作为每个广告词的广告程度权重值；所述广告程度权重值是该广告词在搜索引擎数中广告程度值进行归一后的数值，因为广告词w对应的频率值可能会非常大，这样为了保证计算的方便，通过归一化数值将广告程度权重值都分布在[0，1]区间内，这个数值主要表述每个广告词在搜索引擎中的推广力度和用户关注度。

本发明实施例中，所述广告词在广告词典中的固定权重值可以通过以下公式计算：

ADWordWeight(w)＝m×AdSEWeight(w)+n×AdSimilarty(w)：

其中，m和n，分别代表所述广告词的广告程度权重值和所述相似度所占的比例，满足条件为：m+n＝1，且m×AdSEWeight(w)＝n×AdSimilarity(w)；AdSEWeight(w)为所述广告程度权重值，AdSimilarity(w)为所述相似度。

其中，AdSEWeight(w)是经过归一化处理的数值，而AdSimilarity(w)则是余弦函数值，因此ADWordWeight(w)的取值范围在区间[0，1]中，便于计算处理。

具体地说，本发明实施例中所述确定该候选主题词在广告词典中的精确广告匹配度的过程具体包括：

所述精确广告匹配度的计算公式可以为：

设候选主题词w可分解为w₁w₂w₃....w_n时，

PreciseADWeight (w) = Σ_{i = 1}^{n} [\frac{AD (w_{i}) \times length (w_{i})}{length (w)}]

其中，AD(w_i)为所述候选主题词w_i在所述广告词典中对应的固定权重值，length(w_i)为所述候选主题词拆分后，每个词汇的字符长度；length(w)为该主题词的字符总长；当所述候选主题词直接可以在广告词典中匹配到时，同样适用于上述公式；当所述候选主题词或者由候选主题词分解得到的成份词汇，在广告词典中匹配不到对应的固定权重值时，则该词汇的固定权重值为零。

具体地说，所述获得广告词典的广告上下文向量的具体过程可以包括：

本发明实施例中可以通过如下公式计算广告上下文向量中每个词汇所对应的数值：

设所述广告上下文向量中包含M个词汇：(v₁，v₂，......，v_M)，词汇频率分别是(F₁，F₂，......F_M)，那么词汇v_i在所述广告上下文向量中对应的数值为：

NF (v_{i}) = \frac{\log (1 + F_{i})}{\sqrt{Σ_{k = 1}^{M} \log^{2} (1 + F_{k})}} .

说明：在本实施例中，为了计算方便，每个广告上下文词汇在所述广告上下文向量中对应的数值是归一化后的数值。所以，在所述广告上下文向量中每个广告词的广告上下文词汇都会对应一个归一化的数值。

本实施例中，获得广告上下文向量主要是通过将广告词典中的广告词在存储有大量文章数据的资料库中训练所得。首先将广告词典中的广告词在保存有大量文章数据的资料库中进行匹配，当匹配到含有广告词典中广告词的句子时，将句子中离广告词最近的2N个有意义的词汇(上文N个，下文N个)记录下来。训练完成后，广告词典中每一个广告词都有很多的上下文词汇，选择有意义的上下文词汇并且记录它们的频率信息。将这些上下文词汇及对应的频率信息合并在一起，组合成一个大的向量，作为广告上下文向量，它代表了所有广告词的综合特征。

具体地说，本发明实施例中，通过在所述精确广告匹配度与所述广告相似度之间取最大值，得到该候选主题词的广告性计算结果，可以通过如下公式计算：

ADWeight(w)＝MAX(ADSimilarity(w)，PreciseADWeight(w))

其中，广告字典中每个广告词的广告程度权重值的取值范围是[0，1]，因此所述候选主题词根据在广告词典中匹配到的固定权重值，通过计算得到的精确广告匹配权重值的数值也在[0，1]之间；所以广告性计算结果是一个取值在[0，1]之间的，用来衡量词汇广告性强弱的指标。

进一步地，所述相似度的计算过程包括：

本发明实施例中，计算所述广告词典中每个广告词的上下文向量与所述广告上下文向量之间的相似度，可以通过以下公式计算出来：

设广告词为w，w广告上下文向量是(w₁，w₂，...，w_s)，频率信息为

(F_{w_{1}}, F_{w_{2}}, . . ., F_{w_{s}}) :

AdSimilarity (w) = \frac{Σ_{i = 1}^{s} [ADVector (w_{i}) \times \log (1 + F_{w_{i}})]}{| | ADVector | | \times | | w_{1}, w_{2}, . . ., w_{s} | |}

其中，ADVector(w_i)表示广告词w的广告上下文词汇w_i在所述广告上下文向量中所对应的数值；

说明：在上述计算相似度的公式中，目的在于在广告词典的广告程度权重值上，加入广告相似度计算的元素，使得最终MAX值的计算中，对精确广告匹配度以及广告相似度两者具有可比性。

具体地说，词汇主题性主要是用来量化词汇与本篇文章主题的相关程度，具体计算方法在本发明实施例中，采用TF-IDF为主的算法，但进行了一些改进。由于权重计算过程只接受文本分析候选出来的主题词汇，因此所有主题词汇是通过垃圾过滤的，具有一定意义的词汇，这类词汇在文中的词频(TF)对于主题性计算往往比逆频率指数(IDF)更为重要，因此本发明实施例中对IDF的获取做了一些改进，使其更加突出词汇的重要度，然后再由词频来决定该词最终的TFIDF值。

所述对所述候选主题词进行主题性计算的具体过程可以包括：

本发明实施例中所述主题性的计算公式可以为：

Topic Weight(w)＝TFIDF(w)×Indep Weight(w)×StructWeight(w)

其中，IndepWeight(w)表示该候选主题词本身的特性加权值，StructWeight(w)表示该候选主题词在文本中结构化信息的加权值，TFIDF(w)表示该候选主题词在文本中的重要程度值。

其中，IndepWeight(w)表示候选主题词本身的特性加权，例如：如果是名词(复合词可按照名词数目的多少来确定)，该权重就高，动词次之等等，如果词汇长度在一定范围内，词越长权重越高；StructWeight(w)表示候选主题词在文本中结构化信息的加权，例如是标题词，则该权重需要大幅提升，首段词次之，如果词在文章中分布越均匀权重越高等等。

具体地说，所述候选主题词包含多个分词单元的词汇，是新词发现的结果，即所述候选主题词在文本中的重要程度值的计算过程可以包括：

具体公式可以为：TFIDF(w)＝TF(w)×IDF(w)

对于复合词，设w＝w₁w₂....w_n，TFIDF(w)＝TF(w)×AVEIDF(w₁，w₁，......，w_n)；

其中，AVEIDF(w₁，w₁，......，w_n)是对w的所有成分词逆文本频率指数的总体估计，主要包括平均或加权平均，用于近似表示复合词w的逆文本频率指数；IDF(w)值表示逆文本频率指数值；TF(w)值表示单文本词汇频率值。

具体地说，获得所述逆文本频率指数值的过程具体可以包括：

本发明实施例逆文本频率指数计算公式包括：

IDF (w) = \log [TF (w)] \times \log [\frac{DocumentNumber}{DF (w)}]

通过计算，将分词***切分的词汇的逆文本频率指数组合成逆文本指数词典。

具体地说，所述计算确定所述候选主题词的广告主题权重值的计算公式包括：

Weight(w)＝ADWeight(w)×TopicWeight(w)

将计算出来的所述候选主题词中所有词汇的综合权重值进行排序，具体优选方式可以按照该候选主题词广告主题权重值的大小来排，将最大的排列到最上面，排列越靠前，该候选主题词作为广告投放的程度越高。

如图5所示，本发明还提供了一种用于候选主题词广告投放的装置，包括：

词汇计算模块S11，用于对提取的至少一个候选主题词，进行广告性及主题性的计算；

综合处理模块S12，用于将得到的所述广告性及主题性的计算结果，通过计算确定所述候选主题词的广告主题权重值，以选择所述候选主题词进行广告投放。

如图6所示，本实施例优选地，所述词汇计算模块具体还可以包括：

广告性计算单元S111，用于将所述候选主题词在建立的广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，将匹配到的所述固定权重值通过计算，确定该候选主题词在所述广告词典中的精确广告匹配度；以及，根据获得所述广告上下文向量，通过计算得到该候选主题词在所述广告上下文向量中的相似度；通过在所述精确广告匹配度与所述相似度之间取最大值，得到该候选主题词的广告性计算结果；

主题性计算单元S112，用于将所述候选主题词根据计算出的该候选主题词在文本中的重要程度值，以及该候选主题词本身的特性加权值和该主题词在文本中的结构化信息加权值，通过计算确定该候选主题词的主题性计算结果。

如图7所示，本实施例优选地，所述广告性计算单元具体可以包括：

广告词典建立子单元S1111，用于将用户关注的文本信息中的词汇投入到搜索引擎中来搜索广告词，并记录搜索到的广告词及对应的出现频率和等级，获得所述广告词典中的广告词；且根据该广告词在搜索引擎中的广告程度权重值，及该广告词与获得的所述广告上下文向量之间的相似度，来确定所述广告词在所述广告词典中对应的固定权重值，并保存；

广告上下文获取子单元S1113，用于将所述广告词典建立子单元获得所述广告词在保存有大量文章数据的资料库中进行匹配，记录离该广告词距离最近的具有实体意义的上下文词汇及对应的频率信息；将广告词典中所述广告词的上下文词汇及频率信息组合成所述广告上下文向量；所述每个广告上下文向量在所述广告上下文向量中都对应一个数值。

本实施例优选地，所述广告性计算单元具体还可以包括：

匹配计算子单元S1112，用于将所述候选主题词在所述广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，将匹配到的所述固定权重值通过计算，确定该候选主题词在所述广告词典中的精确广告匹配度；

相似度计算子单元S1114，用于根据获得所述广告上下文向量，通过计算得到该候选主题词在所述广告上下文向量中的相似度；

广告性综合子单元S1115，用于通过在所述匹配计算子单元计算得到的精确广告匹配度与所述相似度计算子单元计算出的相似度之间取最大值，得到该候选主题词的广告性计算结果。

本实施例优选地，所述广告性计算单元具体还可以包括：

固定权重值计算子单元S1116，用于根据所述广告词在搜索引擎中的广告程度值，及该广告词在获得所述广告上下文向量中的相似度，来确定所述广告词在所述广告词典中对应的固定权重值，并保存。

如图8所示，本实施例优选地，所述主题性计算单元具体可以包括：

逆文本频率指数获取子单元S1121，用于在逆频率指数训练阶段，将分词***分出的词汇在大语料中提取出所述词汇的出现频率及文本频率，通过计算获得所述词汇的逆文本频率指数，组合成逆文本频率指数词典；

重要程度计算子单元S1122，用于根据所述逆文本频率指数获取子单元获得的所述逆文本频率指数，计算所述候选主题词在文本中的重要程度值；

主题性计算子单元S1123，用于根据所述重要程度计算子单元计算出的所述候选主题词在文本中的重要程度值，及该主题词本身的特性加权值及该主题词在文本中结构化信息加权值，通过计算确定所述候选主题词的主题性计算结果。

如图9所示，本实施例优选地，所述综合处理模块S12具体可以包括：

综合结果计算单元S121，用于将得到的所述广告性及主题性的计算结果，计算所述候选主题词的广告主题权重值。

排序单元S122，根据所述综合结果计算单元计算出的所述候选主题词的广告主题权重值，从大到小的进行排序。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种用于候选主题词广告投放的方法，其特征在于，包括：

2、根据权利要求1所述的方法，其特征在于，对所述候选主题词进行广告性计算的具体过程包括：

所述候选主题词在建立的广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，根据所述候选主题词对应的固定权重值，通过计算确定该候选主题词在所述广告词典中的精确广告匹配度；以及根据所述候选主题词的上下文向量和通过所述广告词典中的广告词获得的广告上下文向量，计算得到该候选主题词与所述广告上下文向量之间的相似度；

3、根据权利要求2所述的方法，其特征在于，所述方法还包括建立所述广告词典的过程，具体包括：

根据所述广告词在搜索引擎中的广告程度权重值以及该广告词与获得的所述广告上下文向量之间的相似度，来确定该广告词在所述广告词典中对应的固定权重值，并保存；

其中，所述广告程度权重值用于表示该广告词在搜索引擎中被关注的程度；所述相似度用于表示该广告词的上下文向量与通过在保存有大量文章数据的资料库中获得的所述广告上下文向量之间的相似程度。

4、根据权利要求3所述的方法，其特征在于，获得所述广告程度权重值的具体过程包括：

5、根据权利要求2所述的方法，其特征在于，所述确定该候选主题词在广告词典中的精确广告匹配度的过程具体包括：

6、根据权利要求2所述的方法，其特征在于，所述获得广告上下文向量的具体过程包括：

7、根据权利要求2所述的方法，其特征在于，所述相似度的计算过程包括：

8、根据权利要求1所述的方法，其特征在于，对所述候选主题词进行主题性计算的具体过程包括：

9、根据权利要求8所述的方法，其特征在于，所述候选主题词在文本中的重要程度值的计算过程包括：

10、根据权利要求9所述的方法，其特征在于，获得所述逆文本频率指数值的过程具体包括：

11、根据权利要求1所述的方法，其特征在于，计算确定所述候选主题词的广告主题权重值的计算公式包括：

Weight(w)＝ADWeight(w)×TopicWeight(w)

12、一种用于候选主题词广告投放的装置，其特征在于，包括：

13、根据权利要求12所述的装置，其特征在于，所述词汇计算模块具体包括：

广告性计算单元，用于将所述候选主题词在建立的广告词典中进行匹配，所述广告词典中保存有每个广告词的固定权重值，将匹配到的所述固定权重值通过计算，确定该候选主题词在所述广告词典中的精确广告匹配度；以及，根据所述候选主题词的上下文向量和通过所述广告词典中的广告词获得的广告上下文向量，计算得到该候选主题词与所述广告上下文向量之间的相似度；通过在所述精确广告匹配度与所述相似度之间取最大值，得到该候选主题词的广告性计算结果；

14、根据权利要求13所述的装置，其特征在于，所述广告性计算单元具体包括：

15、根据权利要求13所述的装置，其特征在于，所述广告性计算单元具体还包括：

相似度计算子单元，用于根据获得的所述广告上下文向量，通过计算得到该候选主题词与所述广告上下文向量之间的相似度；

16、根据权利要求13所述的装置，其特征在于，所述广告性计算单元具体还包括：

固定权重值计算子单元，用于根据所述广告词在搜索引擎中的广告程度值，及该广告词与获得的所述广告上下文向量之间的相似度，来确定所述广告词在所述广告词典中对应的固定权重值，并保存。

17、根据权利要求13所述的装置，其特征在于，所述主题性计算单元具体包括：

逆文本频率指数获取子单元，用于在逆文本频率指数训练阶段，将分词***分出的词汇在保存有大量文章数据的资料库中提取出所述词汇的出现频率及文本频率，通过计算获得所述词汇的逆文本频率指数，组合成逆文本频率指数词典；

18、根据权利要求12所述的装置，其特征在于，所述综合处理模块具体包括：