CN104850537B

CN104850537B - 对文本内容进行筛选的方法及装置

Info

Publication number: CN104850537B
Application number: CN201410053002.7A
Authority: CN
Inventors: 张红林
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2014-02-17
Filing date: 2014-02-17
Publication date: 2017-12-15
Anticipated expiration: 2034-02-17
Also published as: CN104850537A

Abstract

本发明公开了对文本内容进行筛选的方法及装置，其中，该方法包括：获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。本发明方案能够实现自动筛选出优质的文本内容。

Description

对文本内容进行筛选的方法及装置

技术领域

本发明涉及文本信息处理技术，尤其涉及对文本内容进行筛选的方法及装置。

背景技术

通过网络查询目标文本内容时，常存在多个候选文本内容，需要从中筛选出优质的文本内容。所述文本内容例如为小说文本、关于某指定主体的在线文本等；下面以在线阅读小说文本为例进行具体说明。

网络文学最早在互联网上兴起，是一种流行的pc端文字形式。随着网络文学的快速发展，越来越多的网络小说网站涌现。同一本小说往往在很多网站出现，但是各个网站对小说文本的编排质量、杂质程度都不尽相同。实际应用中，常需要对小说文本进行筛选，从中找出优质的小说文本。目前的文本内容筛选方式主要包括以下两种：

方式一、

大部分阅读类产品不对各小说网站的小说内容进行聚合，读者需要分别去各个第三方小说网站上查找网络小说并阅读。

该方式存在以下缺陷：由于第三方小说网站数量庞大，网速、更新速度、内容质量等参差不齐，读者需要耗费大量时间进行人为搜索和甄别，以筛选出优质的网络小说，阅读效率低下。而且往往一本网络小说在甲网站上可以顺利阅读，但另一本网络小说只能去乙网站阅读，造成读者需要记住大量小说网站。

方式二、

部分阅读类产品对各小说网站的小说内容做了简单的内容聚合，为部分目标小说内容提供了相关的小说网站，读者可点击链接，便可访问相应小说网站；这样，读者不需要分开去各个网站上查找小说，只需要从单一入口就可以看到一本书在各个网站上的情况。

该方式存在以下缺陷：这种方案减少了读者的查找时间，但查找后仍需要人为进行筛选，这仍需花费较多的时间；并且，对于一本小说的众多章节还是可能出现某些章节在不同的网站上质量不一致的情况，在阅读一本书的时候可能要进行网站之间的频繁切换，破坏阅读体验的连贯性。

综上，对于存在多个候选文本内容的情形，需要人为参与进行校验，以筛选出优质的文本内容，操作不便，且效率低。

发明内容

本发明提供了一种对文本内容进行筛选的方法，该方法能够实现自动筛选出优质的文本内容。

本发明提供了一种对文本内容进行筛选的装置，该装置能够实现自动筛选出优质的文本内容。

一种对文本内容进行筛选的方法，该方法包括：

获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；

获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；

计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。

一种对文本内容进行筛选的装置，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；

所述候选文本处理单元，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量，发送给所述相似运算单元；

所述标准文本处理单元，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量，发送给所述相似运算单元；

所述相似运算单元，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。

从上述方案可以看出，本发明中，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量；获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量；计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。采用本发明方案，将自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，以确定出优质的文本内容；从而，实现自动筛选出优质的文本内容。这样，无需读者参与进行人为校验，简化了操作，节省了筛选时间，提高了筛选效率。

附图说明

图1为本发明对文本内容进行筛选的方法示意性流程图；

图2为本发明对文本内容进行筛选的方法流程图实例；

图3为本发明对文本内容进行筛选的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明进一步详细说明。

本发明中，自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，将相似性高的确定为优质的文本内容；从而，实现对文本内容的自动筛选。参见图1，为本发明对文本内容进行筛选的方法示意性流程图，其包括以下步骤：

步骤101，获取来自不同数据源的至少两个候选文本内容，对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量。

具体地，可以从不同网站获取候选文本内容。权重体现了某个单词在候选文本内容中的重要性。对每个候选文本内容进行分词并确定各单词在相应候选文本内容中的权重，可采用现有的分词算法实现，所述分词算法例如TF-IDF算法。TF-IDF算法是一种统计方法，用以评价某一词对语料库中一个文件的重要程度；采用TF-IDF算法，可以对每个候选文本内容进行分词，并计算出各单词的权重，采用TF-IDF算法计算单词的权重为已有技术，这里不多赘述；而后，可选取权重最高的设定个数的单词，构成一个文本特征向量；所述设定个数根据需要设置，例如为100或500。

步骤102，获取与候选文本内容关联的标准文本内容，对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量。

针对某一阅读对象，包括标准文本内容和候选文本内容，标准文本内容为已经公布的正版文本内容，无需进行校验，可直接阅读；候选文本内容为未进行校验筛选的文本内容。

以文本内容为小说内容进行具体说明，标准文本内容为已经公布的可免费阅读的正版章节，假设只有前面十章节为正版章节；当前需要进行校验筛选的是第11章节的文本内容，多个网站都发布了免费的第11章节文本内容，这里，候选文本内容也就是从各网站获取的第11章节的文本内容，可以将前面十章正版章节都作为标准文本内容，也可以选择前面部分正版章节作为标准文本内容。

步骤103，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。

计算两个特征向量之间的距离，可采用现有算法实现，例如余弦相似公式，余弦相似公式为一种根据向量内机计算文本相似程度的算法。

如果推荐源中有一个候选文本内容，则结束流程，得到质量最优的文本内容；如果推荐源中包含至少两个候选文本内容，可以从中选取一个作为质量最优的文本内容。之后，便可根据请求为用户提供筛选后的文本内容，具体地：

接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；

将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容外的其他各候选文本内容的链接地址。

这样，用户便可直接读取质量最优的文本内容，根据实际需要，用户还可点击页面的其他候选文本内容的链接地址，以读取其他候选文本内容。

进一步地，步骤103之后，该方法还可以包括：

对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，判断确定第一数量和第二数量之差是否大于数目设定值，如果是，则从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中；否则，不进行剔除。

相似性分类可采用现有算法实现，例如K-means聚类运算算法，K-means聚类运算算法是一种无监督的自动聚类算法。

进一步地，上述相似性分类处理之后，该方法还可以包括：

确定第一设定维度，根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；

从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。

所述第一设定维度包含至少一个维度，例如文字长度、标点个数、英文字符个数等维度；确定第一设定维度后，便可根据维度评分算法计算出推荐源中各候选文本内容针对第一设定维度的评分值。

维度评分算法可采用现有算法实现，例如朴素贝叶斯评分算法或决策树算法等，朴素贝叶斯算法是基于贝叶斯公式和人工标注样本进行分类的一种机器学习算法。

进一步地，上述进行维度评分算法运算之后，该方法还可以包括：

确定第二设定维度；

针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。

所述第二设定维度包含至少一个维度，例如文字长度、网站排名等维度；确定第二设定维度后，便可针对第二设定维度，选取推荐源中最优的候选文本内容。

选取推荐源中最优的候选文本内容之后，便可根据请求为用户提供筛选后的文本内容，具体地：

将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。

采用本发明方案，将自动获取候选文本内容，将候选文本内容与标准文本内容进行相似比较，以确定出优质的文本内容；从而，实现自动筛选出优质的文本内容。这样，无需读者参与进行人为校验，简化了操作，节省了筛选时间，提高了筛选效率。

下面通过图2的流程，对本发明进行文本内容筛选的方法进行实例说明，本实例中，文本内容具体为小说内容，该流程包括以下步骤：

步骤201，获取来自不同数据源的至少两个候选文本内容，采用TF-IDF算法对每个候选文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第一文本特征向量。

本实例中，假设只有小说的前面十章节为已经公布的可免费阅读的正版章节，前十章的内容即标准文本内容，可以从正版网站获取；当前需要进行校验的是第11章节的文本内容，多个网站都进行了免费公布，但各网站对编排质量、参杂程度都不尽相同，需要从各网站获取第11章节的文本内容，作为候选文本内容，进行筛选。

本实例中，对各网站第11章节的文本内容进行分词，选取权重最高的500个单词，构成第一文本特征向量。

步骤202，获取与候选文本内容关联的标准文本内容，采用TF-IDF算法对标准文本内容进行分词，选取权重最高的设定个数的单词，构成一个文本特征向量，表示为第二文本特征向量。

本实例中，对正版的前10章节的文本内容进行分词，选取权重最高的500个单词，构成第二文本特征向量，作为相应小说的文本特征向量。

步骤203，采用余弦相似公式，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源。

距离值表示了相似度，值越大，越相似；所述距离设定值例如为0.8。

步骤204，采用K-means聚类运算算法，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。

如果两个分类的数量差距太大，说明其中一个分类的错误较多，将数量少的分类筛选掉，剩下的另一分类投入下一层算法处理。

步骤205，确定第一设定维度，采用朴素贝叶斯评分算法，计算推荐源中各候选文本内容针对第一设定维度的评分值，按照评分值将候选文本内容分为好中差三档。

本实例中，所述第一设定维度包含文字长度、标点个数和英文字符个数，采用朴素贝叶斯评分算法便可计算出各候选文本内容针对第一设定维度的评分值，评分结果可分为好中差三档。

步骤206，从推荐源中剔除评分结果为差的候选文本内容，将剔除的候选文本内容添加到候选源中。

步骤207，确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。

采用本步骤，可以对推荐源中的候选文本内容进行进一步筛选。确定第二设定维度后，通过简单的比较，便可针对第二设定维度选取推荐源中最优的候选文本内容。

本实例中，所述第二设定维度例如为网站排名，相应地，所述针对第二设定维度，选取推荐源中最优的候选文本内容具体包括：将推荐源中网站排名在第一位的作为最优的候选文本内容。再如，第二设定维度为文字长度和网站排名，相应地，所述针对第二设定维度，选取推荐源中最优的候选文本内容具体包括：首先对所有候选文本内容的文字长度求平均值，将各候选文本内容与平均值相减，将相减值与网站排名相乘，将得到的乘积进行比较，将乘积最小的值作为最优的候选文本内容。推荐源中，可保存具体的文本内容；候选源中，为了节省空间，可采用链接地址方式进行保存，无需保存具体的文本内容

步骤208，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源。

当用户需要读取第11章的内容时，点击浏览器显示的关于第11章的入口，向服务器发送关于第11章的读取请求；服务器接收读取请求中，获取第11章的推荐源和候选源。

步骤209，将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。

采用本发明方案，装置自动智能选择进行多重算法校验，从众多候选章节里选出一个评分最高的作为默认章节，并在请求时反馈给浏览器展示给读者，减少读者的甄别时间。

参见图3，为本发明对文本内容进行筛选的装置，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；

较佳地，该装置还包括分类运算单元，所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；

所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。

较佳地，该装置还包括分类运算单元和评分运算单元；所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；

所述分类运算单元，接收启动指令，对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中，向所述评分运算单元发送启动指令；

所述评分运算单元，接收启动指令，确定第一设定维度，根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值；从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中。

较佳地，该装置还包括最优文本确定单元，所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，向所述最优文本确定单元发送启动指令；

所述最优文本确定单元，接收启动指令，确定第二设定维度；针对第二设定维度，选取推荐源中最优的候选文本内容，将推荐源中的其他候选文本内容添加到候选源中。

较佳地，该装置还包括文本推荐单元，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。如果推荐源中只包含一个候选文本内容，则直接将其作为最优文本内容；如果推荐源中包含至少两个候选文本内容，可以从中任意选取一个作为最优文本内容；确定最优文本内容之后，将其他的候选文本内容的链接地址包含在请求页面中，供用户需要时点击。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种对文本内容进行筛选的方法，其特征在于，该方法包括：

计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源；

对推荐源中的文本内容进行相似性分类，得到一个或两个分类；如果为两个分类，则分别计算两个分类包含的候选文本内容数量，表示为第一数量和第二数量，确定第一数量和第二数量之差大于数目设定值，从推荐源中剔除包含候选文本内容数量少的分类，将剔除的候选文本内容添加到候选源中。

2.如权利要求1所述的方法，其特征在于，所述将剔除的候选文本内容添加到候选源中之后，该方法还包括：

3.如权利要求2所述的方法，其特征在于，所述从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，该方法还包括：

确定第二设定维度；

4.如权利要求3所述的方法，其特征在于，所述对每个候选文本内容数据进行分词包括：采用TF-IDF算法，对每个候选文本内容数据进行分词；

所述计算第一文本特征向量与第二文本特征向量之间的距离包括采用余弦相似公式，计算第一文本特征向量与第二文本特征向量之间的距离；

所述对推荐源中的文本内容进行相似性分类包括：采用K-means聚类运算算法，对推荐源中的文本内容进行相似性分类；

所述维度评分算法包括朴素贝叶斯评分算法或决策树算法。

5.如权利要求4所述的方法，其特征在于，所述将推荐源中的其他候选文本内容添加到候选源中之后，该方法还包括：

6.一种对文本内容进行筛选的装置，其特征在于，该装置包括候选文本处理单元、标准文本处理单元和相似运算单元；

所述相似运算单元，计算第一文本特征向量与第二文本特征向量之间的距离，判断计算得到的距离值是否大于距离设定值，如果是，则保留相应的候选文本内容，作为推荐源，否则剔除相应的候选文本内容，作为候选源；

该装置还包括分类运算单元，所述相似运算单元将剔除的候选文本内容作为候选源之后，向所述分类运算单元发送启动指令；

7.如权利要求6所述的装置，其特征在于，该装置还包括评分运算单元；

所述分类运算单元将剔除的候选文本内容添加到候选源中后，向所述评分运算单元发送启动指令；

8.如权利要求7所述的装置，其特征在于，该装置还包括最优文本确定单元，所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容，将剔除的候选文本内容添加到候选源中之后，向所述最优文本确定单元发送启动指令；

9.如权利要求8所述的装置，其特征在于，该装置还包括文本推荐单元，接收来自浏览器的关于指定文本标识的读取请求，获取与指定文本标识对应的推荐源和候选源；将推荐源中的最优文本内容包含在页面中反馈给浏览器，页面中还包含除最优文本内容以外的其他文本内容的链接地址。