CN112101018A

CN112101018A - 一种基于词频矩阵特征向量计算文本中新词的方法及***

Info

Publication number: CN112101018A
Application number: CN202010776142.2A
Authority: CN
Inventors: 朱国伟; 顾维玺; 吕衎; 马戈; 王青春; 黄启洋
Original assignee: China Industrial Internet Research Institute
Current assignee: Beijing Gonglian Technology Co ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-18
Anticipated expiration: 2040-08-05
Also published as: CN112101018B

Abstract

本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***，该方法，主要步骤如下：S1、文本集的词频字典的计算；S2、词频矩阵的初始化；S3、基于主成分分析进行降维；S4、新词发现。该***，主要包括以下几个模块：文本集的词频字典的计算模块；词频矩阵的初始化模块；基于主成分分析的降维模块；新词发现模块。本发明一种基于词频矩阵特征向量计算文本中新词的方法及***，能够以较高的准确率和计算效率对文本中的新词进行挖掘。

Description

一种基于词频矩阵特征向量计算文本中新词的方法及***

技术领域

本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***，属于自然语言处理、数据挖掘、中文分词技术领域。

背景技术

在中文信息处理领域，中文自动分词是一项很重要的基础工作。但是随着社会的不断发展，新词语不断在日常生活中涌现。新词的出现，使得自动分词结果中出现过多的“散串”，从而影响了分词的准确率，例如魏/璎珞,子弹/短信。据研究显示，60％的分词错误是由存在新词导致的。因此，有效地识别新词，将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。

现有的新词发现算法，主要有基于互信息、基于信息熵、EM算法等方法。利用互信息和信息熵对新词进行挖掘的主要问题在于，这两种方法只能判断相邻的两个词是否能结合为一个新词，而且计算相邻两个词的左熵和右熵时，需要将词频统计存入Trie树，并将Trie树加载进内存中，在Trie树的构建和查询的过程中，会造成比较大的时间开销。EM算法比较依赖于初始条件。

因此，本发明主要采用基于词频矩阵的特征向量的方法来计算文本中的新词。

发明内容

本发明的目的在于提供一种基于词频矩阵特征向量计算文本中新词的方法及***，以解决现有技术中存在的开销大、效率低、准确性不高等问题。

本发明所提出的一种基于词频矩阵特征向量计算文本中新词的方法，主要步骤如下：

S1、文本集的词频字典的计算

S11、对于文本集

中的每一篇文章，首先进行预处理，主要包括去除标点符号等预处理方法。

S12、预处理后，对于文本中的每一句话进行分词，将每一句话分词后的结果表示为{w₁，w₂，…，w_i，…，w_n}，对于所述的分词后的结果，分别统计其1-gram，2-gram和3-gram的词频，例如1-gram为{w_i：1}，2-gram为{w_iw_i+1：1}，3-gram为{w_iw_i+1w_i+2：1}，其中，gram指分词后的“单词片段”；

S13、利用分布式计算程序，例如MapReduce等，对文本集

中的词频进行统计，将词和其词频的统计结果的映射关系记为Φ(·)。

S2、词频矩阵的初始化

S21、在对文本中的新词进行挖掘时，首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句，用{w₁，w₂，…，w_i，…，w_n}来表示预处理后的结果，

S22、基于该结果，可以对每一句话构造矩阵M＝{m_ij}_n×n，矩阵的计算方法为：

上式表述了如何初始化矩阵M，如果Φ(·)中存在词w_i和w_iw_i+1…w_j(i＜j)，则m_i，j的值为该词对应的词频，如果Φ(·)不存在该词，m_i，j初始化为0。

S23、矩阵初始化后，需要对矩阵进行归一化处理，具体的归一化方法为：

m_i，j＝2*m_i，j/(m_i，i+m_j，j)

如果m_i，j＞1，则将m_i，j的值初始化为0.5。

S3、基于主成分分析进行降维

在未识别出新词的情况下，基于已知的分词算法可将语句分为{w₁，w₂，…，w_i，…，w_n}共n个词，实际上，由于新词的存在，实际的分词结果应该小于n个词。因此，本发明利用主成分分析的方法，来确定每一条语句应该被分为多少个词。

首先计算矩阵M的特征值和特征向量，将矩阵M的特征值记为：

λ(M)＝{λ₁，λ₂，...，λ_n}

其中，λ₁≥λ₂≥…≥λ_n对应的矩阵的特征向量为：

{x₁，x₂，…，x_n}

取前k个特征值所对应的特征向量构成主成分矩阵

将矩阵

中的第i行向量作为该语句中第i个词的表示，向量为α_i，即

其中对于参数k的确定，本发明采用主成分分析(PCA)的方法来确定参数k，计算方法为：

其中，λ_i为矩阵M的特征值，阈值Threshold由n来决定，具体为：

S4、新词发现

利用余弦相似度的方法，来计算两个词w_i，w_j之间的相似度：

依次计算相邻两个词之间的余弦相似度，将这个n个词产生的n-1个余弦相似度的值从大到小排列，将最大的n-k个值所对应的新词组合输出。

作为优化的，本发明方法进一步包括：

S5、结果优化

在计算结果中，会出现很多常用词组等未登录词，例如“乡村振兴”、“高质量发展”等常用词组。这些常用词在每个文档集的计算结果中都以很高的频率出现。为了消除这些常用词和词组的影响，本发明采用建立常用词库的方法，将每个文档集

的结果增量地存入字典Dict中，并且在每个文档集

计算出结果后，字典Dict和计算结果两者取交集，在计算结果中去除交集的词。

本发明所提出的一种基于词频矩阵特征向量计算文本中新词的***，主要包括以下几个模块：

文本集的词频字典的计算模块；用于对文本进行预处理，对语句分词并进行词频统计，输出词及其词频统计结果的映射关系；

词频矩阵的初始化模块；用于对文本进行预处理结果中的每一句话构造矩阵，并进行归一化处理；

基于主成分分析的降维模块；用于通过主成分分析方法，确定每一条语句应该被分为多少个词；

新词发现模块；用于计算相邻两个词之间的余弦相似度，并将所对应的新词组合输出。

作为优化的，本发明***进一步包括：结果优化模块；用于将每个文档集的结果增量地存入字典Dict中，并在每个文档集计算出结果后，取字典Dict和计算结果的交集，在计算结果中去除交集的词。

本发明一种基于词频矩阵特征向量计算文本中新词的方法及***，其优点及功效在于能够以较高的准确率和计算效率对文本中的新词进行挖掘。

附图说明

图1所示为本发明方法流程框图。

图2所示为本发明实施例单篇文本样例。

图3所示为本发明实施例单篇文本去除标点符号后的样例。

图4所示为本发明实施例对文本中的1-gram、2-gram、3-gram进行统计。

图5所示为本发明实施例对每一句话构造矩阵M。

图6所示为本发明实施例新词挖掘结果。

具体实施方式

下面结合附图和实施例，对本发明的技术方案做进一步的说明。

由于本发明基于词频矩阵的特征向量计算文本中新词的方法，可以大规模分布式并行，可以在1小时内对100余万篇文档中的新词进行挖掘。下面以其中一篇文档为例，展示本发明的实施方式。

S1文本集的词频字典的计算

图2所示为一篇网络新闻的截图，该篇新闻中有一些网络流行语(新词)，以方框标出。

首先对其进行预处理，去除文章中的标点符号，统一将标点符号替换为“|”，如图3所示。

利用常规的分词方法，对文本仅分词，并分别统计每句话中的1-gram、2-gram、3-gram的词频，如图4所示。进一步地，将每篇文章中的统计结果进行合并，即相同的词的词频进行累加。最后，对文本集中所有的词的词频进行合并。

S2词频矩阵的初始化

在对文本中的新词进行挖掘时，首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句，用{w₁，w₂，…，w_i，…，w_n}来表示预处理后的结果。

基于该结果，可以对每一句话构造矩阵M＝{m_ij}_n×n，如图5所示。

之后对该矩阵进行归一化处理，具体过程如前文，不再赘述。

S3基于主成分分析进行降维，方法及过程如前文所述。

S4新词发现

依次计算相邻两个词之间的余弦相似度，将这个n个词产生的n-1个余弦相似度的值从大到小排列，将最大的n-k个值所对应的新词组合输出。如图6所示，可以对该文档中的新词进行挖掘(方框所示)。

Claims

1.一种基于词频矩阵特征向量计算文本中新词的方法，其特征在于：该方法主要步骤如下：

S1、文本集的词频字典的计算

S11、对于文本集

中的每一篇文章，首先进行预处理；

S12、预处理后，对于文本中的每一句话进行分词，将每一句话分词后的结果表示为{w₁，w₂，…，w_i，…，w_n}，对于所述的分词后的结果，分别统计其1-gram，2-gram和3-gram的词频；

S13、利用分布式计算程序，对文本集

中的词频进行统计，将词和其词频的统计结果的映射关系记为Φ(·)；

S2、词频矩阵的初始化

S21、在对文本中的新词进行挖掘时，首先还是要对文本进行预处理，对于每条文本中的每一条语句，用{w₁，w₂，…，w_i，…，w_n}来表示预处理后的结果；

上式表述了如何初始化矩阵M，如果Φ(·)中存在词w_i和w_iw_i+1…w_j(i＜j)，则m_i，j的值为该词对应的词频，如果Φ(·)不存在该词，m_i，j初始化为0；

m_i，j＝2*m_i，j/(m_i，i+m_j，j)

如果m_i，j＞1，则将m_i，j的值初始化为0.5；

S3、基于主成分分析进行降维

利用主成分分析的方法，来确定每一条语句应该被分为多少个词；

λ(M)＝{λ₁，λ₂，...，λ_n}

其中，λ₁≥λ₂≥…≥λ_n对应的矩阵的特征向量为：

{x₁，x₂，…，x_n}

取前k个特征值所对应的特征向量构成主成分矩阵

将矩阵

中的第i行向量作为该语句中第i个词的表示，向量为α_i，即

其中对于参数k的确定，采用主成分分析的方法来确定参数k，计算方法为：

S4、新词发现

2.根据权利要求1所述的一种基于词频矩阵特征向量计算文本中新词的方法，其特征在于：作为优化的，该方法进一步包括：

S5、结果优化

在计算结果中，采用建立常用词库的方法，将每个文档集

的结果增量地存入字典Dict中，并且在每个文档集

3.一种基于词频矩阵特征向量计算文本中新词的***，其特征在于：该***包括以下几个模块：

4.根据权利要求3所述的一种基于词频矩阵特征向量计算文本中新词的***，其特征在于：作为优化的，该***进一步包括：结果优化模块；用于将每个文档集的结果增量地存入字典Dict中，并在每个文档集计算出结果后，取字典Dict和计算结果的交集，在计算结果中去除交集的词。