CN108491389B

CN108491389B - 点击诱饵标题语料识别模型训练方法和装置

Info

Publication number: CN108491389B
Application number: CN201810246454.5A
Authority: CN
Inventors: 祁斌川
Original assignee: Hangzhou Langhe Technology Co Ltd
Current assignee: Hangzhou Netease Shuzhifan Technology Co ltd
Priority date: 2018-03-23
Filing date: 2018-03-23
Publication date: 2021-10-08
Anticipated expiration: 2038-03-23
Also published as: CN108491389A

Abstract

本发明提供了一种点击诱饵标题语料识别模型训练方法和装置。该方法包括：将语料样本集合输入机器学习模型，所述语料样本集合包括已识别为点击诱饵标题语料的语料样本、以及随机语料样本,其中已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值；确定所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比是否满足预定条件；如果确定的占比满足预定条件，判断停止训练所述机器学习模型。本发明提高了建立点击诱饵标题语料识别模型的效率。

Description

点击诱饵标题语料识别模型训练方法和装置

技术领域

本发明涉及通信领域，具体涉及一种点击诱饵标题语料识别模型训练方法和装置。

背景技术

随着互联网的发展，互联网平台涌现出了很多的在线新闻媒体(内容生产商，包括专业媒体、自媒体等)。该类新闻媒体其收入与读者对它们所产生内容的点击量成正比。因此，为了获取高点击量，该类新闻媒体往往会在所生产内容的标题上做文章，生产出与内容完全不符的标题，以吸引读者的注意力，这种标题为点击诱饵标题(clickbait)，即俗称的标题党。

现有技术中识别点击诱饵标题的一种方法是采用机器学习模型。把大量人工预先标注为具有点击诱饵标题的语料样本、和大量人工预先标注为不具有点击诱饵标题的语料样本输入机器学习模型进行训练。机器学习模型从这些样本中提取特征，这些特征经构造的目标函数运算，得到是否为点击诱饵标题的识别结果。机器学习模型根据提取的特征和已知的识别结果，可以通过学习确定目标函数的系数。这样，当带有标题的语料输入到训练好的机器学习模型后，机器学习模型就输出识别结果。该方法的缺点是，预先标注大量具有点击诱饵标题的语料样本、和不具有点击诱饵标题的语料样本人工成本大，标注准确率因人而异，造成建立点击诱饵标题语料识别模型的效率低、识别准确率低。

发明内容

本发明的一个目的在于提高建立点击诱饵标题语料识别模型的效率。

根据本发明实施例的第一方面，公开了一种点击诱饵标题语料识别模型训练方法，包括：

将语料样本集合输入机器学习模型，所述语料样本集合包括已识别为点击诱饵标题语料的语料样本、以及随机语料样本,其中已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值；

确定所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比是否满足预定条件；

如果确定的占比满足预定条件，判断停止训练所述机器学习模型。

在一个实施例中，所述阈值比例为10％。

在一个实施例中，所述预定条件包括：

确定的占比落在围绕预定占比的区间内。在一个实施例中，所述围绕预定占比的区间包括端点为所述预定占比减特定值、和所述预定占比加特定值的区间。

在一个实施例中，所述方法还包括：

如果确定的占比不满足预定条件,则重构语料样本集合输入机器学习模型，直到确定的占比满足预定条件。

在一个实施例中，所述预定占比β按照如下公式确定：

β＝(M+N·α)/(M+N)，

其中，M是所述语料样本集合中已识别为点击诱饵标题语料的语料样本数量，N是所述随机语料样本的数量，α是事先统计出的标题语料是点击诱饵标题语料的概率。

在一个实施例中，所述如果确定的占比满足预定条件，判断停止训练所述机器学习模型，具体包括：

如果确定的占比满足预定条件，将多个测试语料输入所述机器学习模型，所述机器学习模型输出对多个测试语料的识别结果；

接收对每个识别结果的正确性的判定；

根据正确性的判定结果，判断停止训练所述机器学习模型。

在一个实施例中，根据正确性的判定结果，判断停止训练所述机器学习模型，具体包括：

如果判定正确的识别结果占识别结果总数的比值超过预定正确率阈值，判断停止训练所述机器学习模型。

在一个实施例中，在将语料样本集合输入机器学习模型后，所述方法还包括：

配置所述机器学习模型提取语料样本集合中的语料样本的特征，其中，所述机器学习模型基于所述特征识别点击诱饵标题语料。

在一个实施例中，所述特征包括词特征。所述配置所述机器学习模型提取语料样本集合中的语料样本的特征，具体包括：将所述语料样本的标题中的词作为特征。

在一个实施例中，所述特征包括词特征。所述配置所述机器学习模型提取语料样本集合中的语料样本的特征，具体包括：将所述语料样本的标题中的词结合所述词的词性，作为特征。

在一个实施例中，所述特征包括语义特征。所述配置所述机器学习模型提取语料样本集合中的语料样本的特征，具体包括：

将所述语料样本的标题分成的词对应的词向量合成标题语义向量；

计算标题语义向量的哈希向量；

将所述哈希向量编码成固定元素数的稀疏编码后向量；

基于所述稀疏编码后向量，确定作为所述特征的元素位置。

在一个实施例中，所述基于所述稀疏编码后向量，确定作为所述特征的元素位置，具体包括：确定所述稀疏编码后向量中元素值大小前n名的元素位置，作为所述特征，n为预定正整数。

在一个实施例中，所述将所述语料样本的标题分成的词对应的词向量合成标题语义向量，具体包括：

将所述语料样本的标题分词；

确定分成的词对应的词向量；

将确定的词向量合成标题语义向量。

在一个实施例中，所述特征包括句法特征。所述配置所述机器学习模型提取语料样本集合中的语料样本的特征，具体包括：

构造所述语料样本的标题的句法树；

将句法树的一个词性节点或词组性节点之下的全部词节点合成为提取出的短语；

将提取出的短语作为所述特征。

在一个实施例中，所述将提取出的短语作为所述特征，具体包括：

确定提取出的短语在语料库中的出现次数；

将出现次数超过预定次数阈值的短语作为所述特征。

根据本发明实施例的第二方面，公开了一种点击诱饵标题语料识别方法，包括：

根据本发明实施例第一方面的方法，训练机器学习模型；

将待识别语料输入所述机器学习模型，得到点击诱饵标题语料识别结果。

根据本发明实施例的第三方面，公开了一种点击诱饵标题语料识别模型训练装置，包括：

输入单元，用于将语料样本集合输入机器学习模型，所述语料样本集合包括已识别为点击诱饵标题语料的语料样本、以及随机语料样本,其中已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值；

占比确定单元，用于确定所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比是否满足预定条件；

停止训练判断单元，用于如果确定的占比满足预定条件，判断停止训练所述机器学习模型。

根据本发明实施例的第四方面，公开了一种点击诱饵标题语料识别装置，包括：

根据本发明实施例第三方面的点击诱饵标题语料识别模型训练装置；

点击诱饵标题语料识别单元，用于将待识别语料输入所述机器学习模型，得到点击诱饵标题语料识别结果。

根据本发明实施例的第五方面，公开了一种点击诱饵标题语料识别模型训练装置，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行根据本发明实施例第一方面的方法。

根据本发明实施例的第六方面，公开了一种点击诱饵标题语料识别装置，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行根据本发明实施例第二方面的方法。

根据本发明实施例的第七方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行根据本发明第一方面所述的点击诱饵标题语料识别模型训练方法。

根据本发明实施例的第八方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行根据本发明第二方面所述的点击诱饵标题语料识别方法。

区别于现有技术中训练机器学习模型时人工标注全部样本的作法，本发明实施例仅标注确切地核实为点击诱饵标题语料的语料样本，其余的样本采用随机语料样本，因而大大节省了模型训练时的标注成本。为了避免随机语料样本中出现极端的情况(一般来说，点击诱饵标题语料样本在全部随机语料样本中会很少，但在极端情况下，会有随机语料样本中凑巧出现大量点击诱饵标题语料样本的可能)，通过控制识别成点击诱饵标题语料样本的占比满足预定条件，来防止极端样本分布的出现，从而在减少了标注成本的同时保证正常的模型训练效果。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1示出根据本发明一示例实施方式的点击诱饵标题语料识别模型训练方法的流程图。

图2示出根据本发明一示例实施方式的判断停止训练所述机器学习模型的具体流程图。

图3示出根据本发明一示例实施方式的点击诱饵标题语料识别模型训练方法的流程图。

图4示出根据本发明一示例实施方式的配置机器学习模型提取语料样本集合中的语料样本的特征的具体流程图。

图5示出根据本发明一示例实施方式的配置机器学习模型提取语料样本集合中的语料样本的特征的具体流程图。

图6示出根据本发明一示例实施方式的点击诱饵标题语料识别方法的流程图。

图7示出根据本发明一示例实施方式的点击诱饵标题语料识别模型训练装置的框图。

图8示出根据本发明一示例实施方式的点击诱饵标题语料识别装置的框图。

图9示出根据本发明一示例实施方式的句法树结构示意图。

图10示出根据本发明一示例实施方式的点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本发明的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

语料是指互联网上的语言材料，例如互联网上的文章、评论等。一般来说，语料具有标题和正文。在一般的语料中，标题反映了正文的内容。点击诱饵标题是指互联网上为了增加点击量而制造出的与正文内容不符的标题，俗称“标题党”。点击诱饵标题语料是指带有点击诱饵标题的语料。

为了识别点击诱饵标题语料，可以采用机器学习方法。即，用含有点击诱饵标题语料样本和非点击诱饵标题语料样本的语料样本集合，对机器学习模型进行训练。机器学习模型训练好后，将带有标题的语料输入机器学习模型，就可以得到该语料是否是点击诱饵标题语料的识别结果。点击诱饵标题语料识别模型是指该训练好的、用于识别输入的语料是否是点击诱饵标题语料的机器学习模型。点击诱饵标题语料识别模型训练方法是指用语料样本集合训练该点击诱饵标题语料识别模型的方法。

在训练机器学习模型时，现有技术中，把大量人工预先标注为具有点击诱饵标题的语料样本、和大量人工预先标注为不具有点击诱饵标题的语料样本输入机器学习模型进行训练。机器学习模型从这些样本中提取特征，这些特征经构造的目标函数运算，得到是否为点击诱饵标题的识别结果。机器学习模型根据提取的特征和已知的识别结果，可以通过学习确定目标函数的系数。这样，当带有标题的语料输入到训练好的机器学习模型后，机器学习模型就输出识别结果。该方法的缺点是，标注样本的人工成本大，标注准确率因人而异，造成建模效率低，识别准确率低。

如图1所示，根据本发明的一个实施例的点击诱饵标题语料识别模型训练方法包括：

步骤110、将语料样本集合输入机器学习模型，所述语料样本集合包括已识别为点击诱饵标题语料的语料样本、以及随机语料样本；

步骤120、确定所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比是否满足预定条件,其中已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值；

步骤130、如果确定的占比满足预定条件，判断停止训练所述机器学习模型。

下面对这些步骤进行详细描述。

在步骤110中，将语料样本集合输入机器学习模型，所述语料样本集合包括已识别为点击诱饵标题语料的语料样本、以及随机语料样本,其中已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值。

语料样本集合是指用于训练机器学习模型的语料的集合。语料样本是指作为样本训练机器学习模型的语料。

在一个实施例中，步骤110包括：

接收已识别为点击诱饵标题语料的语料样本；

获取随机语料样本；

将由已识别为点击诱饵标题语料的语料样本和获取的随机语料样本构成的语料样本集合输入机器学习模型。

在一个实施例中，已识别为点击诱饵标题语料的语料样本事先人工识别、标注、并输入的。接收已识别为点击诱饵标题语料的语料样本就是指接收这些输入的语料样本。识别并标注的方法可以是，从互联网上随机抓取语料样本并由人工识别其是否是点击诱饵标题语料的语料样本，如果是，则找到一个点击诱饵标题语料的语料样本，直到通过这种不断抓取和识别，找到预定数目的点击诱饵标题语料的语料样本。例如，预定数目为100，计数器初始值为0。通过从互联网上抓取语料样本并识别，识别出1个点击诱饵标题语料的语料样本，计数器值加1，当计数器值达到100时，这100个对应的样本就是全部已识别为点击诱饵标题语料的语料样本。

随机语料样本是从互联网上随机爬取的语料样本，其可能是点击诱饵标题语料，但也可能是非点击诱饵标题语料。点击诱饵标题语料在互联网上的所有语料中的占比很小。

当接收已识别为点击诱饵标题语料的语料样本，并获取随机语料样本后，就可以将由已识别为点击诱饵标题语料的语料样本和获取的随机语料样本构成的语料样本集合输入机器学习模型。

已识别为点击诱饵标题语料的语料样本占语料样本集合中全部语料样本的比例小于预定比例阈值的好处是，在设置该预定比例阈值并且将该预定比例阈值控制得比较低的情况下，本发明实施例节省标注成本的优点可以进一步凸显。例如，设定该预定比例阈值为10％，这就意味着，在整个语料样本集合中需要标注的不超过10％，剩下的都不用标注，从而大大降低标注成本。

在一个实施例中，将该预定比例阈值控制在10％。经发明人反复实验证明，将该预定比例阈值控制在10％，能起到良好的既保证识别效果、又控制标注成本的作用。

在步骤120中，确定所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比是否满足预定条件。

如上所述，当训练好机器学习模型后，当带有标题的语料输入到该机器学习模型后，机器学习模型就输出识别结果。该识别结果可能是输入的语料是点击诱饵标题语料，也可能是输入的语料不是点击诱饵标题语料。用识别成是点击诱饵标题语料的识别结果数除以识别结果的总数，就得到所述机器学习模型识别成点击诱饵标题语料的语料样本的数量占所述语料样本集合中的语料样本数量的占比。

例如，对于上述容量为10000的语料样本集合，如果识别出107个语料样本是点击诱饵标题语料，则确定出所述占比为1.07％。

在一个实施例中，所述预定条件包括：确定的占比落在围绕预定占比的区间内。具体地，所述预定占比β按照如下公式确定：

β＝(M+N·α)/(M+N)，

由于N是所述随机语料样本的数量，α是事先统计出的标题语料是点击诱饵标题语料的概率，N·α是随机语料样本中预估为点击诱饵标题语料样本的数量，而M个语料样本是已经被识别为点击诱饵标题语料样本的，因此，M+N·α是预估的在所述语料样本集合中诱饵标题语料样本的数量，除以语料样本集合中的样本总数M+N就得到预估的在所述语料样本集合中诱饵标题语料样本的数量占比。

在一个实施例中，α的确定方法例如可以是：事先从互联网上爬取大量带有标题的语料，逐一人工识别是否为点击诱饵标题语料。然后，用识别为点击诱饵标题语料的语料数除以爬取的全部语料数，得到的比值即为α。

在另一个实施例中，α可以从其它获得了α的应用或装置请求得到。

例如，如果α＝0.1％，则在M＝100，N＝9900的情况下，β＝(100+9900·0.1％)/(100+9900)＝1.10％。

因此，只要确定的占比落在围绕预定占比的区间内，就可以认为机器学习模型的识别结果与统计学上的结果比较接近。这种情况下，基本上排除了样本的严重偏差(一般来说，点击诱饵标题语料样本在全部随机语料样本中会很少，但在极端情况下，会有随机语料样本中凑巧出现大量点击诱饵标题语料样本的可能，即样本的严重偏差)。如果确定的占比落在围绕预定占比的区间内，就可以认为机器学习模型的识别结果与统计学上的结果比较接近，说明没有样本严重偏差。

在一个实施例中，所述围绕预定占比的区间包括端点为所述预定占比减特定值、和所述预定占比加特定值的区间。该区间可以为开区间，也可以为闭区间。例如，特定值为0.05％,在β＝1.10％的情况下，所述围绕预定占比的区间可以为(1.05％，1.15％)或【1.05％，1.15％】。如果所述占比为1.07％，落在该区间，则可以停止训练机器学习模型。

在另一个实施例中，所述围绕预定占比的区间也可以包括端点为所述预定占比减第一值、和所述预定占比加第二值的区间，其中第一值和第二值不同。另外，第一值为0.04,％，第二值为0.06，在β＝1.10％的情况下，所述围绕预定占比的区间可以为(1.06％，1.16％)或【1.06％，1.16％】。

在步骤130中，如果确定的占比满足预定条件，判断停止训练所述机器学习模型。

如果确定的占比满足预定条件，则说明样本没有严重偏差(一般来说，点击诱饵标题语料样本在全部随机语料样本中会很少，但在极端情况下，会有随机语料样本中凑巧出现大量点击诱饵标题语料样本的可能，即严重偏差)。通过控制识别成点击诱饵标题语料样本的占比满足预定条件，来防止严重偏差的出现，从而在减少了标注成本的同时保证正常的模型训练效果。

如图1所示。在一个实施例中，所述方法还包括：步骤131、如果确定的占比不满足预定条件,则重构语料样本集合输入机器学习模型，直到确定的占比满足预定条件。

重构语料样本集合主要是指更换语料样本集合中的随机语料样本。因为语料样本集合中的已识别为点击诱饵标题语料的语料样本是识别好的，重新识别和标注会增加标注负担。另外，之所以不满足预定条件，很可能是由于随机爬取的语料样本不具有一般性(例如凑巧含有的点击诱饵标题语料过多)，因此，更换语料样本集合中的随机语料样本，有助于更客观地训练机器学习模型。

另外，如图2所示，在一个实施例中，步骤130具体包括：

步骤1301、如果确定的占比满足预定条件，将多个测试语料输入所述机器学习模型，所述机器学习模型输出对多个测试语料的识别结果；

步骤1302、接收对每个识别结果的正确性的判定；

步骤1303、根据正确性的判定结果，判断停止训练所述机器学习模型。

测试语料是用于测试机器学习模型的训练效果的语料，它不同于语料样本集合中的语料样本。在一个实施例中，测试语料也可以从互联网上随机爬取。

将多个测试语料输入机器学习模型后，所述机器学习模型输出对多个测试语料的识别结果。

在步骤1302中，根据一个实施例，可以将针对每个语料的机器学习模型识别结果显示在显示界面上，由专家来判定机器学习模型的识别结果是否正确。然后，接收专家在显示界面上的输入，该输入指示对每个识别结果的正确性的判定。

在步骤1303中，根据一个实施例，可以预定正确率阈值。如果判定正确的识别结果占识别结果总数的比值超过预定正确率阈值，判断停止训练所述机器学习模型。例如，预定正确率阈值为90％，测试语料为50个，50个对应的识别结果中判定为正确的有46个，错误的有4个，正确的识别结果占识别结果总数的比值为92％，高于预定正确率阈值90％，可以停止训练所述机器学习模型。

该实施例的好处在于，在确定的占比满足预定条件后，不是立即停止训练机器学习模型，而是继续进行测试，在测试通过的情况下才停止训练所述机器学习模型，否则继续训练所述机器学习模型。这样，就提高了训练出的机器学习模型的质量和识别准确率。

如图3所示，根据本发明的一个实施例，在步骤110之后，所述方法可以包括：步骤115、配置所述机器学习模型提取语料样本集合中的语料样本的特征，其中，所述机器学习模型基于所述特征识别点击诱饵标题语料。

机器学习领域中的特征是指从输入的样本中提取出的、对机器学习模型输出的结果有影响的要素或由要素衍生出的内容。机器学习模型从样本中提取特征，这些特征经构造的目标函数运算，得到的识别结果。机器学习的本质是，根据提取的特征和已知的识别结果，可以通过学习确定目标函数的系数。这样，当带有标题的语料输入到训练好的机器学习模型后，从输入的语料提取特征，经过系数已确定的目标函数运算，机器学习模型就输出识别结果。

一般来说，特征选择的目标大致如下：提高预测的准确性；构造更快，消耗更低的预测模型；能够对模型有更好的理解和解释。本发明的实施例从样本中提取词特征、语义特征和句法特征，从词、语义、句法各个角度提取特征，从各方面对语料样本进行评判，缓解了单一特征提取造成识别准确率不高的问题。

在一个实施例中，所述特征包括词特征。词特征由词构成的特征。步骤115具体包括：将所述语料样本的标题中的词作为特征。

在一个实施例中，将所述语料样本的标题中的每个词都作为特征。例如，对于标题“铝是一种重要的金属”，“铝”、“是”、“一”、“种”、“重要”、“的”、“金属”都是特征。将标题分成词可以通过已有的分词技术或分词***进行。

在另一个实施例中，将所述语料样本的标题分成词后，按照预定标准，选取分成的词中的部分词作为特征。在一个实施例中，预定标准例如是，将名词和动词作为特征。在标题“铝是一种重要的金属”的例子中，将标题分成“铝”、“是”、“一”、“种”、“重要”、“的”、“金属”这些词，其中的名词或动词为“铝”、“是”、“金属”。将“铝”、“是”、“金属”作为特征。

在一个实施例中，所述特征包括词特征。步骤115具体包括：将所述语料样本的标题中的词结合所述词的词性，作为特征。在标题“铝是一种重要的金属”的例子中，将标题分成“铝”、“是”、“一”、“种”、“重要”、“的”、“金属”这些词，将“铝+名词”、“是+动词”、“一+数词”、“种+量词”、“重要+形容词”、“的+助词”、“金属+名词”作为特征。由于同一词的不同词性对于整句话的意思解读影响很大，因此，采用词+词性能够更精确地限定词的含义，对机器学习模型的识别结果优化更有利。

在一个实施例中，所述特征包括语义特征。如图4所示，步骤115具体包括：

步骤1151、将所述语料样本的标题分成的词对应的词向量合成标题语义向量；

步骤1152、计算标题语义向量的哈希向量；

步骤1153、将所述哈希向量编码成固定元素数的稀疏编码后向量；

步骤1154、基于所述稀疏编码后向量，确定作为所述特征的元素位置。

下面对这些步骤进行详细描述。

在步骤1151中，将所述语料样本的标题分成的词对应的词向量合成标题语义向量。

在一个实施例中，步骤1151包括：

将所述语料样本的标题分词；

确定分成的词对应的词向量；

将确定的词向量合成标题语义向量。

可以采用目前已有的分词方法或分词***将语料样本的标题分成词。在如上所述的标题“铝是一种重要的金属”的例子中，将标题分成“铝”、“是”、“一”、“种”、“重要”、“的”、“金属”这些词。

当将网页上的自然语言交给机器学***面直角坐标系，则词向量可以比作坐标系中的坐标，坐标之间的距离越小则代表词向量的词性、语义越接近。在一个实施例中，确定分成的词对应的词向量可以通过训练神经网络，并将词输入神经网络来实现。

标题语义向量是表示整个标题的语义的向量，它是基于标题中各词的语音的向量生成的。

在一个实施例中，将确定的词向量合成标题语义向量可以通过将确定的词向量按词在标题中的出现顺序进行接续来实现。例如，“铝”的词向量(25,34,8,158,3)，“是”的词向量是(34,101,89,2,121)，“金属”的词向量是(57,9,91,46,201)。将这些词向量按照“铝”、“是”、“金属”的顺序接续成(25,34,8,158,3，34,101,89,2,121，57,9,91,46,201)。如果每个词向量有a个元素，有b个词向量，则接续成的标题语义向量具有ab个元素。

在另一个实施例中，将确定的词向量合成标题语义向量可以通过将各词向量进行交织来实现。即，将各词向量的第一个元素取出，按各词向量在标题中的出现顺序布置成第一元素系列；再将各词向量的第二个元素取出，按各词向量在标题中的出现顺序布置成第一元素系列之后的第二元素系列；再将各词向量的第三个元素取出，按各词向量在标题中的出现顺序布置成第二元素系列之后的第三元素系列。以此类推。例如，“铝”的词向量(25,34,8,158,3)，“是”的词向量是(34,101,89,2,121)，“金属”的词向量是(57,9,91,46,201)，合成的标题语义向量为(25,34,57,34,101,9,8,89,91,158,2,46,3,121,201)。

在步骤1152中，计算标题语义向量的哈希向量。

哈希向量是将标题语义向量应用哈希算法得到的向量。哈希算法是这样一种算法，它从庞大的字符串中提取能代表庞大的字符串的特征，从而生成较短的字符串。该较短的字符串由于体现了提取出的特征，仍然能够最大限度地区分该庞大字符串。将标题语义向量看作是一串庞大的字符串。将哈希算法应用于标题语义向量，即可得到哈希向量，其集中体现了标题语义向量的特征。

在步骤1153中，将所述哈希向量编码成固定元素数的稀疏编码后向量。

稀疏编码是一种模拟哺乳动物视觉***主视皮层V1区简单细胞感受的人工神经网络方法。该方法具有空间的局部性、方向性和频域的带通性，是一种自适应的图像统计方法。稀疏编码的好处是存储能力大,计算简便，又不丧失原有特征。由于不同的标尺分成的词的个数不同，因此，合成的标题语义向量的元素数量不同，经哈希运算后的哈希向量的元素数量不同，不便于在不同的标题之间的比较。因此，要将哈希向量编码成固定元素数的稀疏编码后向量，这些稀疏编码后向量不丧失原哈希向量的特点，又成为了固定元素数，即固定长度，便于各标题间的横向比较。

在步骤1154中，基于所述稀疏编码后向量，确定作为所述特征的元素位置。

在一个实施例中，确定所述稀疏编码后向量中元素值大小前n名的元素位置，作为所述特征，n为预定正整数。上述情况在n＝1时的特例就是，确定所述稀疏编码后向量中元素值最大的元素位置，作为所述特征。

元素位置是指元素在稀疏编码后向量的位置，例如向量的第几个元素。

例如，稀疏编码后向量为(122,48,86,3,88,4),n＝2,在122,48,86,3,88,4这6个元素中最大的是122和88，则位置1和5(向量的第一个元素和第五个元素)是确定出的元素位置，作为所述特征。

本发明实施例在确定机器学习模型提取的语义特征方面，采用了一种特殊的语义特征，即稀疏编码后向量中的元素位置。该元素位置如下获得：将所述语料样本的标题分成的词对应的词向量合成标题语义向量，计算标题语义向量的哈希向量，将所述哈希向量编码成固定元素数的稀疏编码后向量，基于所述稀疏编码后向量，确定作为所述特征的元素位置。由于标题语义向量是由标题分成的各词的词向量合成的，集中体现了句子中的词的特征。稀疏编码又使得在这些特征得以保留的同时，让编码后的元素数相同，使得编码后向量能够互相比较，从中提取的元素位置集中体现了句子的整体特征。用这样的特征表征句子的语义，能够提高机器学习模型识别的精确度。

在一个实施例中，所述特征包括句法特征。如图5所示，步骤115可以包括：

步骤1151’、构造所述语料样本的标题的句法树；

步骤1152’、将句法树的一个词性节点或词组性节点之下的全部词节点合成为提取出的短语；

步骤1153’、将提取出的短语作为所述特征。

下面对这些步骤进行详细描述。

在步骤1151’中，构造所述语料样本的标题的句法树。

句法树是指用来表示一个句子的句法(即句子成分之间的关系)的树性图。句法树的一种生成方法是：将句子分解成词，将分成的词作为句法数的最底层节点501；将词对应的词性作为词的上一层节点502；将相邻的词中句法关系紧密的词结合成词组，构造该词组的词组性节点503，作为所述词的词性节点的上一层节点；再将结合成的词组和未结合的词中相邻、且句法关系紧密的词再合成更上一层的词组，对应于更上一层节点。以此类推，如图9所示，直到生成整个句子作为一个词组的最上层节点。

词性是词的性质，如名词、动词等。词组性是词组的性质，如名词词组、动词词组等。在句法树中，S表示句子，NP表示名词词组,VP表示动词词组，AP表示形容词词组，NUMER表示数量词组，它们都表示词组性。N表示名词，V表示动词，CARD表示基数词，QTF表示量词，ADJ表示形容词，PART表示助词，它们都表示词性。

如图9所示，相邻的词“重要”和“的”对应的词性为ADJ、PART。将ADJ、PART分别作为“重要”和“的”的上一层节点。“重要”和“的”的句法关系紧密，因此，将其合成为词组“重要的”，其词组性是AP，将其作为ADJ、PART的上一层节点。相邻的词组“重要的”和“金属”句法关系紧密，将其合成为词组“重要的金属”，其词组性是NP，直到合成最上层的整个句子的词组节点S。

在步骤1152’中，将句法树的一个词性节点或词组性节点之下的全部词节点合成为提取出的短语。

这里的短语作广义解释，即指句子中的词或由句子中的词组合成的语义单位。

词性节点即句法树中表示词的词性的节点，如图9中的ADJ。词组性节点即句法树中表示词组的词组性的节点，如图9中的AP。句法树中任何一个词性节点或词组性节点下面的全部词，都有可能构成一个提取出的短语。对于词性节点来说，由于其与分出的词是一一对应的，因此，每个分出的词都可能是一个提取出的短语。对于词组性节点来说，其下面可能有词性节点、词组性节点、词节点，将其下面的词节点的词取出合成一个提取出的短语。如图9所示，对于词性节点ADJ来说，其下的词节点“重要”是一个提取出的短语；对于词组性节点AP来说，其下的词节点“重要”、“的”组合成一个提取出的短语“重要的”；对于AP上层的词组性节点NP来说，其下的词节点“重要”、“的”、“金属”组合成一个提取出的短语“重要的金属”。

在步骤1153’中，将提取出的短语作为所述特征。

在一个实施例中，将提取出的所有短语都作为特征。在另一个实施例中，也可以仅选择其中出现频率较高的短语作为特征。即，确定提取出的短语在语料库中的出现次数，将出现次数超过预定次数阈值的短语作为所述特征。

语料库可以不同于上述语料样本集合，而是另外建立的存储若干语料的数据库。例如，从互联网上爬取大量语料，放入语料库中。在语料库中搜索提取出的短语，得到该短语在语料库中的出现次数，将出现次数超过预先设置的次数阈值的短语作为特征，而将出现次数低于所述次数阈值的短语丢弃。

采用句法树来提取句法特征的好处在于，句法树能精确反映句子中句法成分之外的相邻词之间的紧密程度。利用句法树选择句法特征，相比于在句子中随意将相邻词进行组合形成特征的方式，提取的特征更能有效代表句子中的词的句法联系，提高识别精确性。

如图6所示，根据本发明的一个实施例，还提供了一种点击诱饵标题语料识别方法，包括：

步骤210、根据如上参照图1-5所述的点击诱饵标题语料识别模型训练方法，训练机器学习模型；

步骤220、将待识别语料输入所述机器学习模型，得到点击诱饵标题语料识别结果。

待识别语料是指要识别其是否为点击诱饵标题语料的语料。将待识别语料输入所述机器学习模型，机器学习模型就会输出待识别语料是否是点击诱饵标题语料的识别结果。

如图7所示，根据本发明一个实施例的点击诱饵标题语料识别模型训练装置包括：

在一个实施例中，预定比例阈值为10％。

在一个实施例中，所述预定条件包括：

确定的占比落在围绕预定占比的区间内。

在一个实施例中，所述围绕预定占比的区间包括端点为所述预定占比减特定值、和所述预定占比加特定值的区间。

在一个实施例中，所述装置还包括：

重构单元(未示)，用于如果确定的占比不满足预定条件,则重构语料样本集合输入机器学习模型，直到确定的占比满足预定条件。

在一个实施例中，所述预定占比β按照如下公式确定：

β＝(M+N·α)/(M+N)，

在一个实施例中，停止训练判断单元730进一步用于：

接收对每个识别结果的正确性的判定；

根据正确性的判定结果，判断停止训练所述机器学习模型。

在一个实施例中，所述装置还包括：

配置单元(未示)，用于配置所述机器学习模型提取语料样本集合中的语料样本的特征，其中，所述机器学习模型基于所述特征识别点击诱饵标题语料。

在一个实施例中，所述特征包括词特征。所述配置单元进一步用于：

将所述语料样本的标题中的词作为特征。

将所述语料样本的标题中的词结合所述词的词性，作为特征。

在一个实施例中，所述特征包括语义特征。所述配置单元进一步用于：

计算标题语义向量的哈希向量；

将所述哈希向量编码成固定元素数的稀疏编码后向量；

基于所述稀疏编码后向量，确定作为所述特征的元素位置。

在一个实施例中，所述基于所述稀疏编码后向量，确定作为所述特征的元素位置，具体包括：

确定所述稀疏编码后向量中元素值大小前n名的元素位置，作为所述特征，n为预定正整数。

将所述语料样本的标题分词；

确定分成的词对应的词向量；

将确定的词向量合成标题语义向量。

在一个实施例中，所述特征包括句法特征。所述配置单元进一步用于：

构造所述语料样本的标题的句法树；

将提取出的短语作为所述特征。

确定提取出的短语在语料库中的出现次数；

将出现次数超过预定次数阈值的短语作为所述特征。

如图8所示，根据本发明的一个实施例，还提供了一种点击诱饵标题语料识别装置，包括：

点击诱饵标题语料识别模型训练装置810，用于根据如上所述的方法，训练机器学习模型；

点击诱饵标题语料识别单元820，用于将待识别语料输入所述机器学习模型，得到点击诱饵标题语料识别结果。

下面参照图10来描述根据本发明的这种实施方式的点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800。图10显示的点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800以通用计算设备的形式表现。点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同***组件(包括存储单元820和处理单元810)的总线830。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图1中所示的各个步骤。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800交互的设备通信，和/或与使得该点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800的其它模块通信。应当明白，尽管图中未示出，可以结合点击诱饵标题语料识别模型训练装置或点击诱饵标题语料识别装置800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

根据本发明的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

Claims

1.一种点击诱饵标题语料识别模型训练方法，其特征在于，包括：

接收对每个识别结果的正确性的判定；

根据正确性的判定结果，判断停止训练所述机器学习模型。

2.根据权利要求1所述的方法，其特征在于，所述预定比例阈值为10％。

3.根据权利要求1所述的方法，其特征在于，所述预定条件包括：

确定的占比落在围绕预定占比的区间内。

4.根据权利要求3所述的方法，其特征在于，所述围绕预定占比的区间包括端点为所述预定占比减特定值、和所述预定占比加特定值的区间。

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求3所述的方法，其特征在于，所述预定条件包括：

确定的占比落在围绕预定占比的区间内，所述预定占比β按照如下公式确定：

β＝(M+N·α)/(M+N)，

7.根据权利要求1所述的方法，其特征在于，根据正确性的判定结果，判断停止训练所述机器学习模型，具体包括：

8.根据权利要求1所述的方法，其特征在于，在将语料样本集合输入机器学习模型后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述特征包括词特征，

所述配置所述机器学习模型提取语料样本集合中的语料样本的特征，具体包括：

将所述语料样本的标题中的词作为特征。

10.根据权利要求8所述的方法，其特征在于，所述特征包括词特征，

11.根据权利要求8所述的方法，其特征在于，所述特征包括语义特征，

计算标题语义向量的哈希向量；

将所述哈希向量编码成固定元素数的稀疏编码后向量；

基于所述稀疏编码后向量，确定作为所述特征的元素位置。

12.根据权利要求11所述的方法，其特征在于，所述基于所述稀疏编码后向量，确定作为所述特征的元素位置，具体包括：

13.根据权利要求11所述的方法，其特征在于，所述将所述语料样本的标题分成的词对应的词向量合成标题语义向量，具体包括：

将所述语料样本的标题分词；

确定分成的词对应的词向量；

将确定的词向量合成标题语义向量。

14.根据权利要求8所述的方法，所述特征包括句法特征，

构造所述语料样本的标题的句法树；

将提取出的短语作为所述特征。

15.根据权利要求14所述的方法，其特征在于，所述将提取出的短语作为所述特征，具体包括：

确定提取出的短语在语料库中的出现次数；

将出现次数超过预定次数阈值的短语作为所述特征。

16.一种点击诱饵标题语料识别方法，其特征在于，包括：

根据权利要求1-15中任一个的方法，训练机器学习模型；

17.一种点击诱饵标题语料识别模型训练装置，其特征在于，包括：

停止训练判断单元，用于如果确定的占比满足预定条件，将多个测试语料输入所述机器学习模型，所述机器学习模型输出对多个测试语料的识别结果；接收对每个识别结果的正确性的判定；根据正确性的判定结果，判断停止训练所述机器学习模型。

18.一种点击诱饵标题语料识别装置，其特征在于，包括：

根据权利要求17所述的点击诱饵标题语料识别模型训练装置，训练机器学习模型；

19.一种点击诱饵标题语料识别模型训练装置，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-15中的任一个所述的方法。

20.一种点击诱饵标题语料识别装置，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求16所述的方法。

21.一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-15中的任一个所述的点击诱饵标题语料识别模型训练方法。

22.一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求16所述的点击诱饵标题语料识别方法。