CN106547822A

CN106547822A - 一种文本相关性确定方法及装置

Info

Publication number: CN106547822A
Application number: CN201610865596.0A
Authority: CN
Inventors: 鲍昕平; 沈; 沈一; 蔡龙军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2017-03-29

Abstract

本发明实施例公开了一种文本相关性确定方法及装置，预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，所述方法包括：提取待处理目标文本的特征词；根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率；根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。应用本发明实施例，提高了目标文本与目标领域相关性判定的准确率。

Description

一种文本相关性确定方法及装置

技术领域

本发明涉及互联网应用技术领域，特别涉及一种文本相关性确定方法及装置。

背景技术

随着Web技术的不断发展，基于大数据的机器学习已经被应用在医疗、教育、交通、娱乐等众多领域。而文本是最常见的数据类型，通常来自网络中的电子邮件、短信、微博、论坛的帖子等。目标文本与目标领域的相关性判定，是常见的文本数据处理方式。

用来标识文本内容的基本单位是特征或特征项，而对本文的处理的过程通常需要对文本进行分词，所以，用来表示文本的特征或者特征项的词即为文本特征词。一个文本可以包含多个特征词，通常用待处理目标文本的特征词进行文本之间或者文本与目标领域之间相关性的判别。现有技术中，采用提取目标领域的相关样本的特征词，然后计算目标文本的特征词与文本样本的特征词之间的相关度，从而判定目标文本与目标领域的相关性。由于只计算与目标文本的特征词的相似度就直接判定与目标领域是否相关，会导致目标文本和目标领域相关性判定的准确率较低。

发明内容

本发明实施例的目的在于提供一种文本相关性确定方法及装置，以提高目标文本与目标领域相关性判定的准确率。

为达到上述目的，本发明实施例公开了一种文本相关性确定方法，预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，所述方法包括：

提取待处理目标文本的特征词；

根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率；

根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。

优选的，提取针对目标领域的文本样本中的每一个文本的特征词，包括：

针对所述文本样本中的每一个文本，利用用于数据挖掘的技术，提取该文本的特征词；

所述提取待处理目标文本的特征词，包括：

针对所述待处理目标文本，利用所述用于数据挖掘的技术，提取该文本的特征词。

优选的，所述用于数据挖掘的技术，包括：

TF-IDF技术，或者词嵌入技术。

优选的，所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，包括：

获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率；

根据所获取的相关先验概率和不相关先验概率，确定每一个特征词的相关期望频次和不相关期望频次；

根据所确定的相关期望频次和不相关期望频次，计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。

优选的，所述根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性，包括：

根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积；

判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积；

如果是，确定所述待处理目标文本与所述目标领域相关；

如果否，确定所述待处理目标文本与所述目标领域不相关。

为达到上述目的，本发明实施例公开了一种文本相关性确定装置，所述装置包括：

第一提取模块，用于预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率；

第二提取模块，用于提取待处理目标文本的特征词；

第一确定模块，用于根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率；

第二确定模块，用于根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。

所述提取待处理目标文本的特征词，包括：

优选的，所述用于数据挖掘的技术，包括：

TF-IDF技术，或者词嵌入技术。

根据所获取的相关先验概率和不相关先验概率，确定该特征词的相关期望频次和不相关期望频次；

优选的，所述第二确定模块，包括：

计算子模块，用于根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积；

判断子模块，用于判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积；

确定子模块，用于在所述判断子模块判断结果为是的情况下，确定所述待处理目标文本与所述目标领域相关；在所述判断子模块判断结果为否的情况下，确定所述待处理目标文本与所述目标领域不相关。

由上述的技术方案可见，本发明实施例提供的一种文本相关性确定方法及装置，预先提取针对目标领域的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，所述方法包括：提取待处理目标文本的特征词；根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率；根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。

应用本发明实施例提供的技术方案，根据目标领域高相似度和低相似度的文本样本对应的特征词的相关似然概率和不相关似然概率，获得待处理目标文本提取的每一个特征词的相关似然概率和不相关似然概率，再根据目标文本的所有特征词对应的相关似然概率和不相关似然概率确定其与目标领域的相关性，相比现有技术中只通过计算待处理目标文本的特征词与文本样本的特征词的相关度来确定目标文本与目标领域是否相关，增加了特征词与文本样本对应的特征词的不相关性的比较，提高了特征词与目标领域的相关性和不相关性判定的全面性。因此，提高了目标文本与目标领域相关性判定的准确率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本相关性确定方法的流程示意图；

图2为本发明实施例提供的一种文本相关性确定装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种文本相关性确定方法及装置，以下分别进行详细说明。

需要说明的是，根据目标领域，可以预先获得大量的文本样本，文本样本是目标领域的高相似度文本和低相似度文本。因此，根据文本样本中的每一个文本提取出来的特征词也与目标领域的相关程度不同，相关的程度可以通过特征词与目标领域的相关先验概率和不相关的先验概率进行表现。提取文本的特征词为现有技术，本发明实施例在此不做赘述。

预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。

具体的，提取针对目标领域的文本样本中的每一个文本的特征词，可以针对所述文本样本中的每一个文本，利用用于数据挖掘的技术，提取该文本的特征词。

具体的，所述用于数据挖掘的技术，可以包括：TF-IDF技术，或者词嵌入技术。

具体的，所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，可以获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率；根据所获取的相关先验概率和不相关先验概率，确定每一个特征词的相关期望频次和不相关期望频次；根据所确定的相关期望频次和不相关期望频次，计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。

本领域技术人员可以理解的是，针对目标领域高相似度和低相似度的文本样本进行文本特征词的提取，可以采用TF-IDF技术，或者词嵌入技术，并根据所有文本样本的特征词，统计得到每一个特征词出现的频次，但是该特征词在目标领域的相关文本和不相文本中的分布需要进一步获得。针对每一个特征词，可以根据经验或者通过直接给定的方式，得到一个与目标领域相关的先验概率和一个不相关的先验概率，即相关先验概率和不相关先验概率。根据特征词的相关先验概率和不相关先验概率、以及出现的频次，通过EM(Expectation-maximization，期望最大化)算法，得到每一个特征词的相关期望频次和不相关期望频次；当给定一个文本时，还可以得到该文本下的相关概率和不相关概率。并计算在当前条件下，对于每一个特征词而言，与目标领域的相关似然概率可以根据该特征词的相关期望频次与所有特征词的相关期望频次之和的比值获得，同理，可得到该特征词与目标领域的不相关似然概率。EM算法为现有技术，本发明实施例不对其进行赘述。

示例性的，以电影《美人鱼》的影评为目标领域，获得的特征词为A₁、A₂、A₃、A₄、A₅、A₆、A₇、A₈，根据统计结果，得到表1所示的频次并获得其相关先验概率和不相关先验概率。根据EM算法得到相关期望频次和不相关期望频次以及对应的相关似然概率和不相关似然概率。以特征词A₁为例，计算其相关似然概率为：8/(8+4+8+10+5+10+8+10)＝13％；不相关似然概率为：2/(2+1+6+4+25+15+2+35)＝2％，依次计算A₂、A₃、A₄、A₅、A₆、A₇、A₈的相关似然概率和不相关似然概率。本发明实施例特征词的先验概率和频次仅仅是示例性的，不构成对本发明的限定。

实际应用中，目标领域包含大量的特征词，根据EM算法得到相关期望频次和不相关期望频次进而得到相关似然概率和不相关似然概率后，再根据相关似然概率和不相关似然概率重新确定文本样本与目标领域的相关性分类，并根据分类结果更新特征词的期望频次，直至目标领域在相关和不相关的两个类别上达到收敛状态，根据重新确定的结果更新特征词的相关期望频次和不相关期望频次。如此反复的通过EM的相关性模型训练、模型的更新和评估直到满足要求的精度，进行EM算法的迭代更新。

本领域技术人员可以理解的是，本发明实施例是利用文本样本(高相关文本和低相关文本)提取的特征词，并计算这些特征词在目标领域的相关性和不相关性中的概率，根据这些概率可以重新修正特征词的概率分布，根据修正后的概率分布从新计算文本样本的相关程度。经过反复迭代，可以改变特征词的原始概率分布，从而对那些既含有相关特征词又含有不相关特征词的文本进行有效区分，提高了分类的精度。

表1

图1为本发明实施例提供的一种文本相关性确定方法的流程示意图，包括如下步骤：

S101，提取待处理目标文本的特征词。

具体的，所述提取待处理目标文本的特征词，可以针对所述待处理目标文本，利用用于数据挖掘的技术，提取该文本的特征词。

S102，根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率。

S103，根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。

具体的，所述根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性，可以根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，计算所述待处理目标文本对应的特征词的相关似然概率的概率积和不相关似然概率的概率积；判断所述相关似然概率的概率积是否大于所述不相关似然概率的概率积；如果是，确定所述待处理目标文本与所述目标领域相关；如果否，确定所述待处理目标文本与所述目标领域不相关。

示例性的，判定待处理文本“美人鱼的童话故事，非常感人”是否属于电影《美人鱼》的影评这一目标领域，首先提取待处理目标文本的特征词，采用的技术是用于数据挖掘的TF-IDF技术或者词嵌入技术。假设提取到的特征词为A₁、A₂、A₅和A₈，从表1中查找A₁、A₂、A₅和A₈对应的相关似然概率和不相关似然概率，分别为：13％、6％、8％、16％和2％、1％、28％、39％。文本提取的特征词的数量仅仅是示例性的，不构成对本发明实施例的限定。

本领域技术人员可以理解的是，经过S102步骤获得待处理目标文本的所有特征词对应的相关似然概率和不相关似然概率，进而判定目标文本与目标领域是否相关。通常，可以采用比较概率积的方式进行判定，可以为：根据所有特征词的相关似然概率的概率积与不相关似然概率的概率积的大小进行确定；也可以采用与相关似然概率的概率积或者不相关似然概率的概率积与设定的阈值进行比较，从而确定目标文本与目标领域是否相关。

当根据特征词的相关似然概率的概率积与不相关似然概率的概率积的大小进行确定时，对于待处理目标文本的所有特征词来说，相关似然概率的概率积为：13％*6％*8％*16％＝0.0101％；不相关似然概率的概率积为：2％*1％*28％*39％＝0.0027％，因为0.0101％>0.0027％，所以确定待处理目标文本为目标领域的相关文本。实际应用中，根据目标文本的确定结果进行文本和对应特征词分布的更新，如，可将文本作为目标领域的高相似度或者低相似度的文本样本，或者进行特征词的频次、特征词的先验概率的修正等等，在后续的文本内容判定中，以提高特征词判定的准确率。其中，对于文本中未登录特征词，本发明设定未登录词在相关类中的概率远小于其在不相关类的概率，从而增强TF-IDF的解释能力。

可见，应用本发明图1所示的实施例，根据目标领域高相似度和低相似度的文本样本对应的特征词的相关似然概率和不相关似然概率，获得待处理目标文本提取的每一个特征词的相关似然概率和不相关似然概率，再根据目标文本的所有特征词对应的相关似然概率和不相关似然概率确定其与目标领域的相关性，相比现有技术中只通过计算待处理目标文本的特征词与文本样本的特征词的相关度来确定目标文本与目标领域是否相关，增加了特征词与文本样本对应的特征词的不相关性的比较，提高了特征词与目标领域的相关性和不相关性判定的全面性。因此，提高了目标文本与目标领域相关性判定的准确率。

图2为本发明实施例提供的一种文本相关性确定装置的结构示意图，可以包括：第一提取模块201、第二提取模块202、第一确定模块203和第二确定模块204。

第一提取模块201，用于预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。

具体的，实际应用中，提取针对目标领域的文本样本中的每一个文本的特征词，可以针对所述文本样本中的每一个文本，利用用于数据挖掘的技术，提取该文本的特征词。

具体的，实际应用中，所述用于数据挖掘的技术，可以包括：TF-IDF技术，或者词嵌入技术。

具体的，实际应用中，所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，可以获取所述文本样本中每一文本的特征词的与所述目标领域的相关先验概率和与所述目标领域的不相关先验概率；根据所获取的相关先验概率和不相关先验概率，确定该特征词的相关期望频次和不相关期望频次；根据所确定的相关期望频次和不相关期望频次，计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率。

第二提取模块202，用于提取待处理目标文本的特征词。

具体的，实际应用中，所述提取待处理目标文本的特征词，可以针对所述待处理目标文本，利用所述用于数据挖掘的技术，提取该文本的特征词。

第一确定模块203，用于根据计算得到的每一个特征词对应的相关似然概率和不相关似然概率，确定所提取的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率。

第二确定模块204，用于根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性。

具体的，实际应用中，所述第二确定模块204，可以包括：计算子模块、判断子模块、确定子模块(图中未示出)；其中，

可见，应用本发明图2所示的实施例，根据目标领域高相似度和低相似度的文本样本对应的特征词的相关似然概率和不相关似然概率，获得待处理目标文本提取的每一个特征词的相关似然概率和不相关似然概率，再根据目标文本的所有特征词对应的相关似然概率和不相关似然概率确定其与目标领域的相关性，相比现有技术中只通过计算待处理目标文本的特征词与文本样本的特征词的相关度来确定目标文本与目标领域是否相关，增加了特征词与文本样本对应的特征词的不相关性的比较，提高了特征词与目标领域的相关性和不相关性判定的全面性。因此，提高了目标文本与目标领域相关性判定的准确率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本相关性确定方法，其特征在于，预先提取针对目标领域高相似度和低相似度的文本样本中的每一个文本的特征词，并计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，所述方法包括：

提取待处理目标文本的特征词；

2.根据权利要求1所述的方法，其特征在于，提取针对目标领域的文本样本中的每一个文本的特征词，包括：

所述提取待处理目标文本的特征词，包括：

3.根据权利要求2所述的方法，其特征在于，所述用于数据挖掘的技术，包括：

TF-IDF技术，或者词嵌入技术。

4.根据权利要求1所述的方法，其特征在于，所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所确定的所述待处理目标文本的每一特征词对应的相关似然概率和不相关似然概率，确定所述待处理目标文本与所述目标领域的相关性，包括：

如果是，确定所述待处理目标文本与所述目标领域相关；

如果否，确定所述待处理目标文本与所述目标领域不相关。

6.一种文本相关性确定装置，其特征在于，所述装置包括：

第二提取模块，用于提取待处理目标文本的特征词；

7.根据权利要求6所述的装置，其特征在于，提取针对目标领域的文本样本中的每一个文本的特征词，包括：

所述提取待处理目标文本的特征词，包括：

8.根据权利要求7所述的装置，其特征在于，所述用于数据挖掘的技术，包括：

TF-IDF技术，或者词嵌入技术。

9.根据权利要求6所述的装置，其特征在于，所述计算每一个特征词与所述目标领域的相关似然概率以及与所述目标领域的不相关似然概率，包括：

10.根据权利要求6所述的装置，其特征在于，所述第二确定模块，包括：