CN112101018B - 一种基于词频矩阵特征向量计算文本中新词的方法及*** - Google Patents
一种基于词频矩阵特征向量计算文本中新词的方法及*** Download PDFInfo
- Publication number
- CN112101018B CN112101018B CN202010776142.2A CN202010776142A CN112101018B CN 112101018 B CN112101018 B CN 112101018B CN 202010776142 A CN202010776142 A CN 202010776142A CN 112101018 B CN112101018 B CN 112101018B
- Authority
- CN
- China
- Prior art keywords
- word
- matrix
- text
- words
- word frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 title claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000000513 principal component analysis Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012847 principal component analysis method Methods 0.000 claims description 4
- 230000018109 developmental process Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***,该方法,主要步骤如下:S1、文本集的词频字典的计算;S2、词频矩阵的初始化;S3、基于主成分分析进行降维;S4、新词发现。该***,主要包括以下几个模块:文本集的词频字典的计算模块;词频矩阵的初始化模块;基于主成分分析的降维模块;新词发现模块。本发明一种基于词频矩阵特征向量计算文本中新词的方法及***,能够以较高的准确率和计算效率对文本中的新词进行挖掘。
Description
技术领域
本发明涉及一种基于词频矩阵特征向量计算文本中新词的方法及***,属于自然语言处理、数据挖掘、中文分词技术领域。
背景技术
在中文信息处理领域,中文自动分词是一项很重要的基础工作。但是随着社会的不断发展,新词语不断在日常生活中涌现。新词的出现,使得自动分词结果中出现过多的“散串”,从而影响了分词的准确率,例如魏/璎珞,子弹/短信。据研究显示,60%的分词错误是由存在新词导致的。因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。
现有的新词发现算法,主要有基于互信息、基于信息熵、EM算法等方法。利用互信息和信息熵对新词进行挖掘的主要问题在于,这两种方法只能判断相邻的两个词是否能结合为一个新词,而且计算相邻两个词的左熵和右熵时,需要将词频统计存入Trie树,并将Trie树加载进内存中,在Trie树的构建和查询的过程中,会造成比较大的时间开销。EM算法比较依赖于初始条件。
因此,本发明主要采用基于词频矩阵的特征向量的方法来计算文本中的新词。
发明内容
本发明的目的在于提供一种基于词频矩阵特征向量计算文本中新词的方法及***,以解决现有技术中存在的开销大、效率低、准确性不高等问题。
本发明所提出的一种基于词频矩阵特征向量计算文本中新词的方法,主要步骤如下:
S1、文本集的词频字典的计算
S11、对于文本集中的每一篇文章,首先进行预处理,主要包括去除标点符号等预处理方法。
S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频,例如1-gram为{wi:1},2-gram为{wiwi+1:1},3-gram为{wiwi+1wi+2:1},其中,gram指分词后的“单词片段”;
S13、利用分布式计算程序,例如MapReduce等,对文本集中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ(·)。
S2、词频矩阵的初始化
S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果,
S22、基于该结果,可以对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为:
上式表述了如何初始化矩阵M,如果Φ(·)中存在词wi和wiwi+1…wj(i<j),则mi,j的值为该词对应的词频,如果Φ(·)不存在该词,mi,j初始化为0。
S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:
mi,j=2*mi,j/(mi,i+mj,j)
如果mi,j>1,则将mi,j的值初始化为0.5。
S3、基于主成分分析进行降维
在未识别出新词的情况下,基于已知的分词算法可将语句分为{w1,w2,…,wi,…,wn}共n个词,实际上,由于新词的存在,实际的分词结果应该小于n个词。因此,本发明利用主成分分析的方法,来确定每一条语句应该被分为多少个词。
首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:
λ(M)={λ1,λ2,...,λn}
其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:
{x1,x2,…,xn}
取前k个特征值所对应的特征向量构成主成分矩阵将矩阵/>中的第i行向量作为该语句中第i个词的表示,向量为αi,即
其中对于参数k的确定,本发明采用主成分分析(PCA)的方法来确定参数k,计算方法为:
其中,λi为矩阵M的特征值,阈值Threshold由n来决定,具体为:
S4、新词发现
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。
作为优化的,本发明方法进一步包括:
S5、结果优化
在计算结果中,会出现很多常用词组等未登录词,例如“乡村振兴”、“高质量发展”等常用词组。这些常用词在每个文档集的计算结果中都以很高的频率出现。为了消除这些常用词和词组的影响,本发明采用建立常用词库的方法,将每个文档集的结果增量地存入字典Dict中,并且在每个文档集/>计算出结果后,字典Dict和计算结果两者取交集,在计算结果中去除交集的词。
本发明所提出的一种基于词频矩阵特征向量计算文本中新词的***,主要包括以下几个模块:
文本集的词频字典的计算模块;用于对文本进行预处理,对语句分词并进行词频统计,输出词及其词频统计结果的映射关系;
词频矩阵的初始化模块;用于对文本进行预处理结果中的每一句话构造矩阵,并进行归一化处理;
基于主成分分析的降维模块;用于通过主成分分析方法,确定每一条语句应该被分为多少个词;
新词发现模块;用于计算相邻两个词之间的余弦相似度,并将所对应的新词组合输出。
作为优化的,本发明***进一步包括:结果优化模块;用于将每个文档集的结果增量地存入字典Dict中,并在每个文档集计算出结果后,取字典Dict和计算结果的交集,在计算结果中去除交集的词。
本发明一种基于词频矩阵特征向量计算文本中新词的方法及***,其优点及功效在于能够以较高的准确率和计算效率对文本中的新词进行挖掘。
附图说明
图1所示为本发明方法流程框图。
图2所示为本发明实施例单篇文本样例。
图3所示为本发明实施例单篇文本去除标点符号后的样例。
图4所示为本发明实施例对文本中的1-gram、2-gram、3-gram进行统计。
图5所示为本发明实施例对每一句话构造矩阵M。
图6所示为本发明实施例新词挖掘结果。
具体实施方式
下面结合附图和实施例,对本发明的技术方案做进一步的说明。
由于本发明基于词频矩阵的特征向量计算文本中新词的方法,可以大规模分布式并行,可以在1小时内对100余万篇文档中的新词进行挖掘。下面以其中一篇文档为例,展示本发明的实施方式。
S1文本集的词频字典的计算
图2所示为一篇网络新闻的截图,该篇新闻中有一些网络流行语(新词),以方框标出。
首先对其进行预处理,去除文章中的标点符号,统一将标点符号替换为“|”,如图3所示。
利用常规的分词方法,对文本仅分词,并分别统计每句话中的1-gram、2-gram、3-gram的词频,如图4所示。进一步地,将每篇文章中的统计结果进行合并,即相同的词的词频进行累加。最后,对文本集中所有的词的词频进行合并。
S2词频矩阵的初始化
在对文本中的新词进行挖掘时,首先还是要对文本进行预处理(去除标点符号、分词、去除停用词等)。对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果。
基于该结果,可以对每一句话构造矩阵M={mij}n×n,如图5所示。
之后对该矩阵进行归一化处理,具体过程如前文,不再赘述。
S3基于主成分分析进行降维,方法及过程如前文所述。
S4新词发现
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。如图6所示,可以对该文档中的新词进行挖掘(方框所示)。
Claims (4)
1.一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:该方法步骤如下:
S1、文本集的词频字典的计算:
S11、对于文本集中的每一篇文章,首先进行预处理;
S12、预处理后,对于文本中的每一句话进行分词,将每一句话分词后的结果表示为{w1,w2,…,wi,…,wn},对于所述的分词后的结果,分别统计其1-gram,2-gram和3-gram的词频;
S13、利用分布式计算程序,对文本集中的词频进行统计,将词和其词频的统计结果的映射关系记为Φ(·);
S2、词频矩阵的初始化:
S21、在对文本中的新词进行挖掘时,首先还是要对文本进行预处理,对于每条文本中的每一条语句,用{w1,w2,…,wi,…,wn}来表示预处理后的结果;
S22、基于该结果,对每一句话构造矩阵M={mij}n×n,矩阵的计算方法为:
上式表述了如何初始化矩阵M,如果Φ(·)中存在词wi和wiwi+i…wj(i<j),则mi,j的值为该词对应的词频,如果Φ(·)不存在该词,mi,j初始化为0;
S23、矩阵初始化后,需要对矩阵进行归一化处理,具体的归一化方法为:
mi,j=2*mi,j/(mi,i+mj,j)
如果mi,j>1,则将mi,j的值初始化为0.5;
S3、基于主成分分析进行降维:
利用主成分分析的方法,来确定每一条语句应该被分为多少个词;
首先计算矩阵M的特征值和特征向量,将矩阵M的特征值记为:
λ(M)={λ1,λ2,…,λn}
其中,λ1≥λ2≥…≥λn对应的矩阵的特征向量为:
{x1,x2,…,xn}
取前k个特征值所对应的特征向量构成主成分矩阵将矩阵/>中的第i行向量作为该语句中第i个词的表示,向量为αi,即
其中对于参数k的确定,采用主成分分析的方法来确定参数k,计算方法为:
其中,λi为矩阵M的特征值,阈值Threshold由n来决定,具体为:
S4、新词发现:
利用余弦相似度的方法,来计算两个词wi,wj之间的相似度:
依次计算相邻两个词之间的余弦相似度,将这个n个词产生的n-1个余弦相似度的值从大到小排列,将最大的n-k个值所对应的新词组合输出。
2.根据权利要求1所述的一种基于词频矩阵特征向量计算文本中新词的方法,其特征在于:作为优化的,该方法进一步包括:
S5、结果优化:
在计算结果中,采用建立常用词库的方法,将每个文档集的结果增量地存入字典Dict中,并且在每个文档集/>计算出结果后,字典Dict和计算结果两者取交集,在计算结果中去除交集的词。
3.一种如权利要求1所述的基于词频矩阵特征向量计算文本中新词的方法的***,其特征在于:该***包括以下几个模块:
文本集的词频字典的计算模块;用于对文本进行预处理,对语句分词并进行词频统计,输出词及其词频统计结果的映射关系;
词频矩阵的初始化模块;用于对文本进行预处理结果中的每一句话构造矩阵,并进行归一化处理;
基于主成分分析的降维模块;用于通过主成分分析方法,确定每一条语句应该被分为多少个词;
新词发现模块;用于计算相邻两个词之间的余弦相似度,并将所对应的新词组合输出。
4.根据权利要求3所述的一种基于词频矩阵特征向量计算文本中新词的***,其特征在于:作为优化的,该***进一步包括:结果优化模块;用于将每个文档集的结果增量地存入字典Dict中,并在每个文档集计算出结果后,取字典Dict和计算结果的交集,在计算结果中去除交集的词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776142.2A CN112101018B (zh) | 2020-08-05 | 2020-08-05 | 一种基于词频矩阵特征向量计算文本中新词的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010776142.2A CN112101018B (zh) | 2020-08-05 | 2020-08-05 | 一种基于词频矩阵特征向量计算文本中新词的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101018A CN112101018A (zh) | 2020-12-18 |
CN112101018B true CN112101018B (zh) | 2024-03-12 |
Family
ID=73749561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010776142.2A Active CN112101018B (zh) | 2020-08-05 | 2020-08-05 | 一种基于词频矩阵特征向量计算文本中新词的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101018B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN102541935A (zh) * | 2010-12-31 | 2012-07-04 | 北京安码科技有限公司 | 一种新的基于特征向量的中文Web文档表示方法 |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN109325019A (zh) * | 2018-08-17 | 2019-02-12 | 国家电网有限公司客户服务中心 | 数据关联关系网络构建方法 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
-
2020
- 2020-08-05 CN CN202010776142.2A patent/CN112101018B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079026A (zh) * | 2007-07-02 | 2007-11-28 | 北京百问百答网络技术有限公司 | 文本相似度、词义相似度计算方法和***及应用*** |
CN102541935A (zh) * | 2010-12-31 | 2012-07-04 | 北京安码科技有限公司 | 一种新的基于特征向量的中文Web文档表示方法 |
CN103699523A (zh) * | 2013-12-16 | 2014-04-02 | 深圳先进技术研究院 | 产品分类方法和装置 |
CN104750833A (zh) * | 2015-04-03 | 2015-07-01 | 浪潮集团有限公司 | 一种文本分类方法及装置 |
CN109325019A (zh) * | 2018-08-17 | 2019-02-12 | 国家电网有限公司客户服务中心 | 数据关联关系网络构建方法 |
KR102128852B1 (ko) * | 2020-03-30 | 2020-07-01 | (주)위세아이텍 | 텍스트 데이터에서 생성한 단어 벡터에 주성분 분석을 적용하여 추출한 피처의 주요 단어 시각화 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN112101018A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
Wang et al. | Common sense knowledge for handwritten chinese text recognition | |
CN110853625B (zh) | 语音识别模型分词训练方法、***、移动终端及存储介质 | |
Ritu et al. | Performance analysis of different word embedding models on bangla language | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN113407721A (zh) | 检测日志序列异常的方法、装置及计算机存储介质 | |
CN108846031B (zh) | 一种面向电力行业的项目相似性对比方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、***、介质和设备 | |
CN113282717B (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型***及摘要生成方法 | |
CN114547301A (zh) | 文档处理、识别模型训练方法、装置、设备及存储介质 | |
CN112732863B (zh) | 电子病历标准化切分方法 | |
Sundaram et al. | Bigram language models and reevaluation strategy for improved recognition of online handwritten Tamil words | |
CN116663536B (zh) | 一种临床诊断标准词的匹配方法及装置 | |
CN113515587A (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN112101018B (zh) | 一种基于词频矩阵特征向量计算文本中新词的方法及*** | |
CN110188340B (zh) | 一种研报文本实体名词自动识别方法 | |
Tahmasebi et al. | On the applicability of word sense discrimination on 201 years of modern english | |
CN115238696A (zh) | 中文命名实体识别方法、电子设备及存储介质 | |
Huang et al. | A pragmatic approach for classical Chinese word segmentation | |
CN110717015B (zh) | 一种基于神经网络的多义词识别方法 | |
Long et al. | Multi-document summarization by information distance | |
Li et al. | A hybrid post-processing system for offline handwritten Chinese script recognition | |
CN114266249A (zh) | 一种基于birch聚类的海量文本聚类方法 | |
Smirnova et al. | Context-sensitive mathematical character recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220425 Address after: Building 2, yard 6, Lize West Street, Chaoyang District, Beijing 100102 Applicant after: Beijing Gonglian Technology Co.,Ltd. Address before: Building 2, yard 6, Lize West Street, Chaoyang District, Beijing 100102 Applicant before: China Industrial Internet Research Institute |
|
GR01 | Patent grant | ||
GR01 | Patent grant |