CN112101018A - 一种基于词频矩阵特征向量计算文本中新词的方法及*** - Google Patents

一种基于词频矩阵特征向量计算文本中新词的方法及*** Download PDF

Info

Publication number
CN112101018A
CN112101018A CN202010776142.2A CN202010776142A CN112101018A CN 112101018 A CN112101018 A CN 112101018A CN 202010776142 A CN202010776142 A CN 202010776142A CN 112101018 A CN112101018 A CN 112101018A
Authority
CN
China
Prior art keywords
word
matrix
words
text
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010776142.2A
Other languages
English (en)
Other versions
CN112101018B (zh
Inventor
朱国伟
顾维玺
吕衎
马戈
王青春
黄启洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gonglian Technology Co ltd
Original Assignee
China Industrial Internet Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Industrial Internet Research Institute filed Critical China Industrial Internet Research Institute
Priority to CN202010776142.2A priority Critical patent/CN112101018B/zh
Publication of CN112101018A publication Critical patent/CN112101018A/zh
Application granted granted Critical
Publication of CN112101018B publication Critical patent/CN112101018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***,该方法,主要步骤如下:S1、文本集的词频字典的计算;S2、词频矩阵的初始化;S3、基于主成分分析进行降维;S4、新词发现。该***,主要包括以下几个模块:文本集的词频字典的计算模块;词频矩阵的初始化模块;基于主成分分析的降维模块;新词发现模块。本发明一种基于词频矩阵特征向量计算文本中新词的方法及***,能够以较高的准确率和计算效率对文本中的新词进行挖掘。

Description

一种基于词频矩阵特征向量计算文本中新词的方法及***
技术领域
本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***,属于自然语言处理、数据挖掘、中文分词技术领域。
背景技术
在中文信息处理领域,中文自动分词是一项很重要的基础工作。但是随着社会的不断发展,新词语不断在日常生活中涌现。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率,例如魏/璎珞,子弹/短信。据研究显示,60%的分词错误是由存在新词导致的。因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
现有的新词发现算法,主要有基于互信息、基于信息熵、EM算法等方法。利用互信息和信息熵对新词进行挖掘的主要问题在于,这两种方法只能判断相邻的两个词是否能结合为一个新词,而且计算相邻两个词的左熵和右熵时,需要将词频统计存入Trie树,并将Trie树加载进内存中,在Trie树的构建和查询的过程中,会造成比较大的时间开销。EM算法比较依赖于初始条件。
因此,本发明主要采用基于词频矩阵的特征向量的方法来计算文本中的新词。
发明内容
本发明的目的在于提供一种基于词频矩阵特征向量计算文本中新词的方法及***,以解决现有技术中存在的开销大、效率低、准确性不高等问题。
本发明所提出的一种基于词频矩阵特征向量计算文本中新词的方法,主要步骤如下:
S1、文本集的词频字典的计算
S11、对于文本集
Figure BDA0002618481110000021
中的每一篇文章,首先进行预处理,主要包括去除标点符号等预处理方法。
S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频,例如1-gram为{wi:1},2-gram为{wiwi+1:1},3-gram为{wiwi+1wi+2:1},其中,gram指分词后的“单词片段”;
S13、利用分布式计算程序,例如MapReduce等,对文本集
Figure BDA0002618481110000022
中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ(·)。
S2、词频矩阵的初始化
S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果,
S22、基于该结果,可以对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为:
Figure BDA0002618481110000031
上式表述了如何初始化矩阵M,如果Φ(·)中存在词wi和wiwi+1…wj(i<j),则mi,j的值为该词对应的词频,如果Φ(·)不存在该词,mi,j初始化为0。
S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:
mi,j=2*mi,j/(mi,i+mj,j)
如果mi,j>1,则将mi,j的值初始化为0.5。
S3、基于主成分分析进行降维
在未识别出新词的情况下,基于已知的分词算法可将语句分为{w1,w2,…,wi,…,wn}共n个词,实际上,由于新词的存在,实际的分词结果应该小于n个词。因此,本发明利用主成分分析的方法,来确定每一条语句应该被分为多少个词。
首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:
λ(M)={λ1,λ2,...,λn}
其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:
{x1,x2,…,xn}
取前k个特征值所对应的特征向量构成主成分矩阵
Figure BDA0002618481110000041
将矩阵
Figure BDA0002618481110000042
中的第i行向量作为该语句中第i个词的表示,向量为αi,即
Figure BDA0002618481110000043
其中对于参数k的确定,本发明采用主成分分析(PCA)的方法来确定参数k,计算方法为:
Figure BDA0002618481110000044
其中,λi为矩阵M的特征值,阈值Threshold由n来决定,具体为:
Figure BDA0002618481110000045
S4、新词发现
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
Figure BDA0002618481110000046
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。
作为优化的,本发明方法进一步包括:
S5、结果优化
在计算结果中,会出现很多常用词组等未登录词,例如“乡村振兴”、“高质量发展”等常用词组。这些常用词在每个文档集的计算结果中都以很高的频率出现。为了消除这些常用词和词组的影响,本发明采用建立常用词库的方法,将每个文档集
Figure BDA0002618481110000047
的结果增量地存入字典Dict中,并且在每个文档集
Figure BDA0002618481110000048
计算出结果后,字典Dict和计算结果两者取交集,在计算结果中去除交集的词。
本发明所提出的一种基于词频矩阵特征向量计算文本中新词的***,主要包括以下几个模块:
文本集的词频字典的计算模块;用于对文本进行预处理,对语句分词并进行词频统计,输出词及其词频统计结果的映射关系;
词频矩阵的初始化模块;用于对文本进行预处理结果中的每一句话构造矩阵,并进行归一化处理;
基于主成分分析的降维模块;用于通过主成分分析方法,确定每一条语句应该被分为多少个词;
新词发现模块;用于计算相邻两个词之间的余弦相似度,并将所对应的新词组合输出。
作为优化的,本发明***进一步包括:结果优化模块;用于将每个文档集的结果增量地存入字典Dict中,并在每个文档集计算出结果后,取字典Dict和计算结果的交集,在计算结果中去除交集的词。
本发明一种基于词频矩阵特征向量计算文本中新词的方法及***,其优点及功效在于能够以较高的准确率和计算效率对文本中的新词进行挖掘。
附图说明
图1所示为本发明方法流程框图。
图2所示为本发明实施例单篇文本样例。
图3所示为本发明实施例单篇文本去除标点符号后的样例。
图4所示为本发明实施例对文本中的1-gram、2-gram、3-gram进行统计。
图5所示为本发明实施例对每一句话构造矩阵M。
图6所示为本发明实施例新词挖掘结果。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。
由于本发明基于词频矩阵的特征向量计算文本中新词的方法,可以大规模分布式并行,可以在1小时内对100余万篇文档中的新词进行挖掘。下面以其中一篇文档为例,展示本发明的实施方式。
S1文本集的词频字典的计算
图2所示为一篇网络新闻的截图,该篇新闻中有一些网络流行语(新词),以方框标出。
首先对其进行预处理,去除文章中的标点符号,统一将标点符号替换为“|”,如图3所示。
利用常规的分词方法,对文本仅分词,并分别统计每句话中的1-gram、2-gram、3-gram的词频,如图4所示。进一步地,将每篇文章中的统计结果进行合并,即相同的词的词频进行累加。最后,对文本集中所有的词的词频进行合并。
S2词频矩阵的初始化
在对文本中的新词进行挖掘时,首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果。
基于该结果,可以对每一句话构造矩阵M={mij}n×n,如图5所示。
之后对该矩阵进行归一化处理,具体过程如前文,不再赘述。
S3基于主成分分析进行降维,方法及过程如前文所述。
S4新词发现
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
Figure BDA0002618481110000071
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。如图6所示,可以对该文档中的新词进行挖掘(方框所示)。

Claims (4)

1.一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:该方法主要步骤如下:
S1、文本集的词频字典的计算
S11、对于文本集
Figure FDA0002618481100000011
中的每一篇文章,首先进行预处理;
S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频;
S13、利用分布式计算程序,对文本集
Figure FDA0002618481100000012
中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ(·);
S2、词频矩阵的初始化
S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理,对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果;
S22、基于该结果,可以对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为:
Figure FDA0002618481100000013
上式表述了如何初始化矩阵M,如果Φ(·)中存在词wi和wiwi+1…wj(i<j),则mi,j的值为该词对应的词频,如果Φ(·)不存在该词,mi,j初始化为0;
S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:
mi,j=2*mi,j/(mi,i+mj,j)
如果mi,j>1,则将mi,j的值初始化为0.5;
S3、基于主成分分析进行降维
利用主成分分析的方法,来确定每一条语句应该被分为多少个词;
首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:
λ(M)={λ1,λ2,...,λn}
其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:
{x1,x2,…,xn}
取前k个特征值所对应的特征向量构成主成分矩阵
Figure FDA0002618481100000021
将矩阵
Figure FDA0002618481100000022
中的第i行向量作为该语句中第i个词的表示,向量为αi,即
Figure FDA0002618481100000023
其中对于参数k的确定,采用主成分分析的方法来确定参数k,计算方法为:
Figure FDA0002618481100000024
其中,λi为矩阵M的特征值,阈值Threshold由n来决定,具体为:
Figure FDA0002618481100000025
S4、新词发现
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
Figure FDA0002618481100000026
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。
2.根据权利要求1所述的一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:作为优化的,该方法进一步包括:
S5、结果优化
在计算结果中,采用建立常用词库的方法,将每个文档集
Figure FDA0002618481100000031
的结果增量地存入字典Dict中,并且在每个文档集
Figure FDA0002618481100000032
计算出结果后,字典Dict和计算结果两者取交集,在计算结果中去除交集的词。
3.一种基于词频矩阵特征向量计算文本中新词的***,其特征在于:该***包括以下几个模块:
文本集的词频字典的计算模块;用于对文本进行预处理,对语句分词并进行词频统计,输出词及其词频统计结果的映射关系;
词频矩阵的初始化模块;用于对文本进行预处理结果中的每一句话构造矩阵,并进行归一化处理;
基于主成分分析的降维模块;用于通过主成分分析方法,确定每一条语句应该被分为多少个词;
新词发现模块;用于计算相邻两个词之间的余弦相似度,并将所对应的新词组合输出。
4.根据权利要求3所述的一种基于词频矩阵特征向量计算文本中新词的***,其特征在于:作为优化的,该***进一步包括:结果优化模块;用于将每个文档集的结果增量地存入字典Dict中,并在每个文档集计算出结果后,取字典Dict和计算结果的交集,在计算结果中去除交集的词。
CN202010776142.2A 2020-08-05 2020-08-05 一种基于词频矩阵特征向量计算文本中新词的方法及*** Active CN112101018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010776142.2A CN112101018B (zh) 2020-08-05 2020-08-05 一种基于词频矩阵特征向量计算文本中新词的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010776142.2A CN112101018B (zh) 2020-08-05 2020-08-05 一种基于词频矩阵特征向量计算文本中新词的方法及***

Publications (2)

Publication Number Publication Date
CN112101018A true CN112101018A (zh) 2020-12-18
CN112101018B CN112101018B (zh) 2024-03-12

Family

ID=73749561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010776142.2A Active CN112101018B (zh) 2020-08-05 2020-08-05 一种基于词频矩阵特征向量计算文本中新词的方法及***

Country Status (1)

Country Link
CN (1) CN112101018B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和***及应用***
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
CN103699523A (zh) * 2013-12-16 2014-04-02 深圳先进技术研究院 产品分类方法和装置
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN109325019A (zh) * 2018-08-17 2019-02-12 国家电网有限公司客户服务中心 数据关联关系网络构建方法
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和***及应用***
CN102541935A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种新的基于特征向量的中文Web文档表示方法
CN103699523A (zh) * 2013-12-16 2014-04-02 深圳先进技术研究院 产品分类方法和装置
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
CN109325019A (zh) * 2018-08-17 2019-02-12 国家电网有限公司客户服务中心 数据关联关系网络构建方法
KR102128852B1 (ko) * 2020-03-30 2020-07-01 (주)위세아이텍 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법

Also Published As

Publication number Publication date
CN112101018B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及***
CN108573045B (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
Rangel et al. A low dimensionality representation for language variety identification
US20200081899A1 (en) Automated database schema matching
CN110162630A (zh) 一种文本去重的方法、装置及设备
Basile et al. Diachronic analysis of the italian language exploiting *** ngram
CN109858025B (zh) 一种地址标准化语料的分词方法及***
CN108846031B (zh) 一种面向电力行业的项目相似性对比方法
CN113407721A (zh) 检测日志序列异常的方法、装置及计算机存储介质
CN112732863B (zh) 电子病历标准化切分方法
EP4336405A1 (en) Feature vector dimension compression method and apparatus, and device and medium
CN110347827A (zh) 面向异构文本运维数据的事件提取方法
CN112579783A (zh) 基于拉普拉斯图谱的短文本聚类方法
CN111241812A (zh) 基于并行改进的K-means算法的大数据文本聚类试验方法及***
CN112101018B (zh) 一种基于词频矩阵特征向量计算文本中新词的方法及***
Sharma et al. LSMatch and LSMatch-multilingual results for OAEI
CN111708872B (zh) 对话方法、装置及电子设备
Jain et al. An extensible parsing pipeline for unstructured data processing
Li et al. Dsco: A language modeling approach for time series classification
Long et al. Multi-document summarization by information distance
CN110717015B (zh) 一种基于神经网络的多义词识别方法
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质
CN111488432A (zh) 基于用户评论的情感分析方法、设备、存储介质
Luo et al. A comparison of som based document categorization systems
US20240020642A1 (en) Patent valuation using artificial intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220425

Address after: Building 2, yard 6, Lize West Street, Chaoyang District, Beijing 100102

Applicant after: Beijing Gonglian Technology Co.,Ltd.

Address before: Building 2, yard 6, Lize West Street, Chaoyang District, Beijing 100102

Applicant before: China Industrial Internet Research Institute

GR01 Patent grant
GR01 Patent grant