CN108255813A

CN108255813A - 一种基于词频-逆文档与crf的文本匹配方法

Info

Publication number: CN108255813A
Application number: CN201810062016.3A
Authority: CN
Inventors: 唐贤伦; 李佳歆; 万辉; 马艺玮; 蔡军; 黄淼; 刘想德
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2018-07-06
Anticipated expiration: 2038-01-23
Also published as: CN108255813B

Abstract

本发明请求保护一种基于词频‑逆文档(TF‑IDF)与CRF的语义匹配方法，选用CRF挖掘到的属性特征和TF‑IDF的统计特征来表示文本的权重值，并将权重值赋予文本词向量。该方法解决了TF‑IDF和CRF单纯从统计角度以及需求信息上获取权重却没有考虑到词语之间语义的问题，同时也解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。

Description

一种基于词频-逆文档与CRF的文本匹配方法

技术领域

本发明属于文本处理技术领域，尤其涉及一种结合词频-逆文档与CRF的文本语义匹配方法。

背景技术

文本匹配是自然语言处理(NLP)任务之一，常被应用于解决信息检索、社区问答、推荐***等问题。将文字类的非结构化数据转换为结构化数据需要用到文本表示模型，通过文本表示模型对关键词语义的增强可以加深***对文本的理解，向量空间模型(VectorSpace Model，VSM)即是目前最为成熟和应用最为广泛的文本表示模型之一。通过增强文本中的特征项权重可以起到增强语义的作用，特征项的选取正确与否对于能否正确的表达一个文本的主题或特殊含义来说至关重要，而词频-逆文档算法(TF-IDF)是当今信息检索***中最常用的加权策略之一，因此，可以把TF-IDF与词向量模型结合，从而增加了特征对于文本在词与词之间语义上的联系，既适用于文本的全局相关性又适用于某些特定词的局部相关性，使得特征更具泛化能力。

条件随机场(Conditional Random Fields，CRFs)是一种概率图模型，这种模型具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注或偏置等问题；具备考虑上下文标记间的转移概率，所有特征能以序列化形式进行全局参数优化，能够求得全局的最优解，具有很强的推理能力，并且能使用复杂、有重叠性和非独立的特征进行训练和推理。因此，在匹配用户需求文本与商品描述文本任务中，可以将其用于挖掘用户属性，以此获取丰富的信息。

所以，结合TF-IDF以及CRF的特征向量，从计算量上看，基于统计方法的TF-IDF算法较为简单且快捷，而CRF的使用能够根据用户需求进行分析并做出相应的权重增强，因此获取到的语义信息更全面的同时也具有针对性，文本的特征向量表示也更准确，可显著提高文本匹配的正确率。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种特征向量表示更准确，可显著提高文本匹配的正确率的基于词频-逆文档与CRF的文本匹配方法。本发明的技术方案如下：

一种基于词频-逆文档与CRF的文本匹配方法，包括步骤：1：从网上搜集文本匹配语料集，包含产品描述与搜索词的句子对，关联匹配则其标签为1，否则为0，将语料集随机分为训练集语料和测试集语料，步骤2：采用中文分词算法对步骤1中处理好的语料进行分词，收集去停用词表，根据词表去除语料中的停用词；还包括以下步骤：

步骤3：通过条件随机场(CRF)将步骤2中得到的语料中的训练集进行身份词(act)、行为词(ide)及无关词(non)的标记，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型，并获取文本中所有词的属性。依据相关性或相似性匹配对身份词或行为词做该词权重增强；

步骤4：采用词频-逆文档(TF-IDF)对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值作为该词TF-IDF权重；

步骤5：采用Word2vec对步骤2中处理好的的语料进行训练，得到词向量模型；

步骤6：将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重，再将每个词的权重与步骤5得到的对应词向量进行相乘，得到新的文本特征向量；

步骤7：将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型；

步骤8：将步骤6中得到的测试集语料的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。

进一步的，所述采用基于N-最短路径的中文分词算法对语料进行分词。

进一步的，所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤：首先通过邻接表表示出每个词组之间的耦合关系，然后通过计算词组之间的耦合关系来确定初次的分词路径；最后当所有路径计算完毕后，找到最优的路径作为分词结果。

进一步的，所述步骤3具体为：通过CRF将步骤2中得到的语料中的训练集进行标记，用户行为词、身份词和无意义词分别标注为act、ide、non，以提取用户的偏好信息及需求信息，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，使得特征提取时考虑当前词与其前后各一个词的组合关系，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型。

进一步的，所述采用TF-IDF(词频-逆文档)对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值，TF-IDF算法以词语作为文本的特征项，每个特征项的权重由TF权值和IDF权值两个部分构成，具体包括：

具体计算公式如下：

w_ji＝TF_ji·IDF_i (2)

TF_ji＝f_ji/T (3)

IDF_i＝log(N/n_i+0.01) (4)

W_j＝{w_j1,w_j2,...,w_ji} (5)

TF,为特征项在文本中出现的频率，表示该词在当前文本中的重要程度，其中，T表示为第j个文本的全部词数，f_ji为第j个文本中第i个词在该文本中出现的次数，IDF为特征项的逆文档数，通过统观全局判断该词的重要性，其中N表示总共有N个文本，词i在n_i个文本中出现，W_j表示第j个文本特征向量的权重集合，w_ji则为第j个文本中第i个词的权重。

进一步的，所述步骤5采用Word2vec中分层Softmax算法的词袋模型，将步骤2中处理好的的语料输入模型中，获取得每个单词在向量空间上的表示。

进一步的，所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重，再将每个词的权重与步骤5得到的对应词向量进行相乘，得到新的文本特征向量，具体为：将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘，并根据在步骤3中获取的用户属性词进行按倍数的权重增强，得到语义增强后的特征向量。

进一步的，所述步骤8将得到的测试集语料的文本特征向量输入Softmax，根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率，具体包括：将步骤6中得到的测试集语料的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配，如果实际输出文本的标签等于1，判定该句子对内容是匹配的，如果实际输出文本的标签不等于1即标签等于0，判定该句子对内容是不匹配的，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算句子对匹配的准确率。

进一步的，所述CRF是基于判别式的无向图模型，采用是线性链条件随机场，x＝(x₁，x₂，…x_n)代表的标记序列表示被观察的输入数据序列，y＝(y₁，y₂，…y_n)表示一个状态序列，在给定一个输入序列的情况下，线性链的CRFs模型定义状态序列的联合条件概率为：

其中，t_j(y_i-1,y_i,x,_i)是观察序列在i与i-1时刻的转移特征函数，s_k(y_i,x,i)是观察序列在i时刻的状态特征函数，参数λ_j和μ_k可以从训练数据中估计，获得非负值越大则优先选择相应的特征事件；若获得的负值越大，则说明相应的特征事件越不可能发生。

本发明的优点及有益效果如下：

本发明提出一种文本的语义匹配方法，该方法选用TF-IDF和CRF挖掘用户需求信息的特征，并融合Word2vec的深层语义特征共同表示文本的特征。本发明首先采用CRF获取文本中词汇的属性特征以便针对需求做相应匹配，接着通过计算文本TF-IDF值作为浅层语义特征，将两种特征共同作为权重，该方法解决了TF-IDF和CRF单纯从统计角度或需求信息上获取权重却没有考虑到词语之间语义的问题。最后，将TF-IDF及CRF得到的权重与通过Word2vec得到的词向量融合，在获取深层语义特征的同时解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。

附图说明

图1是本发明提供优选实施例基于词频-逆文档与CRF的文本匹配方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本发明基于TF-IDF与CRF的语义匹配方法的具体步骤是：

步骤1：从网上搜集文本匹配语料集，包含产品描述与搜索词的句子对，关联匹配则其标签为1，否则为0。将语料集分为训练集和测试集，训练集用来训练情感分类的模型，测试集用来测试模型分类的效果。

步骤2：在分词前需要对待分词的匹配文本进行预处理，包括去除字符、标点符号及英文字母等非汉字信息。然后对步骤1中的语料集进行中文分词，本文使用的分词方法是基于N-最短路径的中文分词算法。首先通过邻接表(二叉分词图表)表示出每个词组之间的耦合关系，每一个节点都表示分词图表中的一条边，行值代表边的起点，列值代表边的终点,然后通过计算词组之间的耦合关系来确定初次的分词路径。最后当所有路径计算完毕后，找到最优的路径(即最短路径)作为分词结果。

分词完毕后，每个文本是由以空格隔开的单词组成的文本语料。然后搜集停用词表，人工删除停用词表中对实验有用的词汇，并根据停用词表去除分词后的语料中的停用词。去除停用词是为了节省存储空间和提高效率。

步骤3：使用CRF对文本进行用户需求分析，做用户属性提取。CRF是基于判别式的无向图模型，其中最常用的是线性链条件随机场。x＝(x₁，x₂，…x_n)代表的标记序列表示被观察的输入数据序列，y＝(y₁，y₂，…y_n)表示一个状态序列，在给定一个输入序列的情况下，线性链的CRFs模型定义状态序列的联合条件概率为：

其中，t_j(y_i-1,y_i,x,i)是观察序列在i与i-1时刻的转移特征函数，s_k(y_i,x,i)是观察序列在i时刻的状态特征函数，参数λ_j和μ_k可以从训练数据中估计，获得非负值越大则优先选择相应的特征事件；若获得的负值越大，则说明相应的特征事件越不可能发生。通过CRF将步骤2中得到的语料中的训练集进行标记，用户行为词、身份词和无意义词分别标注为act、ide、non，以提取用户的偏好信息及需求信息。对标记样本尾部加入词性作为外部特征，使得提取的用户属性信息更为准确。制作基于Bigram feature的属性特征模版，使得特征提取时考虑当前词与其前后各一个词的组合关系。采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型。

步骤4：采用TF-IDF获取每个词权重值。TF-IDF算法以词语作为文本的特征项，每个特征项的权重由TF权值和IDF权值两个部分构成。具体计算公式如下：

w_ji＝TF_ji·IDF_i (2)

TF_ji＝f_ji/T (3)

IDF_i＝log(N/n_i+0.01) (4)

W_j＝{w_j1,w_j2,...,w_ji} (5)

TF(Term Frequency)为特征项在文本中出现的频率，表示该词在当前文本中的重要程度，其中，T表示为第j个文本的全部词数，f_ji为第j个文本中第i个词在该文本中出现的次数。IDF(Inverse Document Frequency)为特征项的逆文档数，通过统观全局判断该词的重要性，其中N表示总共有N个文本，词i在n_i个文本中出现。W_j表示第j个文本特征向量的权重集合，w_ji则为第j个文本中第i个词的权重。使用TF-IDF计算语料中的每一个词，可以提取文本中高辨识度的词，并给予与其重要性相关的权值。

步骤5：采用word2vec中Hierarchical Softmax算法的DBOW模型，通过对语言模型进行建模，将文本中的每个词作为特征映射成k维实数向量，通过随机梯度下降法来训练这些词向量，在此过程中通过反向传播获得梯度，并计算出梯度误差。然后更新模型的参数，最终获取得每个单词在向量空间上的表示。即公式(6)的原始项目特征向量中V_j表示第j个文本的特征向量集合，v_ji表示第j个文本的第i个特征向量。

V_j＝{v_j1,v_j2,...,v_ji} (6)

步骤6：最后将步骤4中每个词的特征向量v_ji对应乘上其权重w_ji，得到改进后的V_j’如公式(7)所示：

V_j'＝{w_j1·v_j1,w_j2·v_j2,...,w_ji·v_ji} (7)

当需要做相似性匹配时，则将步骤3中提取到用户身份词进行权重增强；需要做相关性匹配时，则将步骤3中提取到用户行为词进行权重增强。改进后的特征向量因加入了TF-IDF及CRF获得的权值而对于不同类别的特征更具有针对性，使用词向量模型增加了特征对于文本在词与词之间语义上的联系，既适用于文本的全局相关性又适用于某些特定词的局部相关性，使得特征更具泛化能力。

步骤7：将步骤6中的语料中的训练集的文本语义特征向量输入Softmax训练出文本匹配模型。

步骤8：将步骤6中的语料中的测试集的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配，如果实际输出文本的标签等于1，判定该句子对内容是匹配的，如果实际输出文本的标签不等于1(即标签等于0)，判定该句子对内容是不匹配的，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算句子对匹配的准确率。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于词频-逆文档与CRF的文本匹配方法，包括步骤：1：从网上搜集文本匹配语料集，包含产品描述与搜索词的句子对，关联匹配则其标签为1，否则为0，将语料集随机分为训练集语料和测试集语料，步骤2：采用中文分词算法对步骤1中处理好的语料进行分词，收集去停用词表，根据词表去除语料中的停用词；其特征在于，还包括以下步骤：

步骤3：通过条件随机场CRF将步骤2中得到的语料中的训练集进行身份词、行为词及无关词的标记，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型，并获取文本中所有词的属性，依据相关性或相似性匹配对身份词或行为词做该词的权重增强；

步骤4：采用词频-逆文档TF-IDF对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值作为该词TF-IDF权重；

2.根据权利要求1所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，采用基于N-最短路径的中文分词算法对语料进行分词。

3.根据权利要求2所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述基于N-最短路径的中文分词算法对语料进行分词具体包括步骤：首先通过邻接表表示出每个词组之间的耦合关系，然后通过计算词组之间的耦合关系来确定初次的分词路径；最后当所有路径计算完毕后，找到最优的路径作为分词结果。

4.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤3具体为：通过CRF将步骤2中得到的语料中的训练集进行标记，用户行为词、身份词和无意义词分别标注为act、ide、non，以提取用户的偏好信息及需求信息，对标记样本尾部加入词性作为外部特征，制作基于Bigram feature的属性特征模版，使得特征提取时考虑当前词与其前后各一个词的组合关系，采用CRF++工具进行CRF建模，对标记好的文本进行学习，训练出属性模型。

5.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述采用TF-IDF对步骤2中得到的语料进行训练，并获取每个词的TF-IDF值，TF-IDF算法以词语作为文本的特征项，每个特征项的权重由TF权值和IDF权值两个部分构成，具体包括：

具体计算公式如下：

w_ji＝TF_ji·IDF_i (2)

TF_ji＝f_ji/T (3)

IDF_i＝log(N/n_i+0.01) (4)

W_j＝{w_j1,w_j2,...,w_ji} (5)

6.根据权利要求1-3之一所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤5采用Word2vec中分层Softmax算法的词袋模型DBOW，将步骤2中处理好的的语料输入模型中，获取得每个单词在向量空间上的表示。

7.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤6将步骤3和步骤4得到的两种权重进行融合得到每个词的权重，再将每个词的权重与步骤5得到的对应词向量进行相乘，得到新的文本特征向量，具体为：将步骤4中得到的每个词的TF-IDF值与其对应的词向量进行相乘，并根据在步骤3中获取的用户属性词进行按倍数的权重增强，得到语义增强后的特征向量。

8.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述步骤8将得到的测试集语料的文本特征向量输入Softmax，根据已经训练好的模型进行文本匹配并计算出匹配结果的准确率，具体包括：将步骤6中得到的测试集语料的文本特征向量输入Softmax，根据步骤7中已经训练好的模型进行文本匹配，如果实际输出文本的标签等于1，判定该句子对内容是匹配的，如果实际输出文本的标签不等于1即标签等于0，判定该句子对内容是不匹配的，统计实际输出文本的标签与期望输出文本的标签之间不同的个数，计算句子对匹配的准确率。

9.根据权利要求6所述的一种基于词频-逆文档与CRF的文本匹配方法，其特征在于，所述CRF是基于判别式的无向图模型，采用是线性链条件随机场，x＝(x₁，x₂，…x_n)代表的标记序列表示被观察的输入数据序列，y＝(y₁，y₂，…y_n)表示一个状态序列，在给定一个输入序列的情况下，线性链的CRFs模型定义状态序列的联合条件概率为：

其中，t_j(y_i-1,y_i,x,i)是观察序列在i与i-1时刻的转移特征函数，s_k(y_i,x,i)是观察序列在i时刻的状态特征函数，参数λ_j和μ_k可以从训练数据中估计，获得非负值越大则优先选择相应的特征事件；若获得的负值越大，则说明相应的特征事件越不可能发生。