CN105512110A

CN105512110A - 一种基于模糊匹配与统计的错字词知识库构建方法

Info

Publication number: CN105512110A
Application number: CN201510934356.7A
Authority: CN
Inventors: 刘海波; 刘亮亮; 吴健康; 顾德之; 张再跃; 张晓如
Original assignee: Jiangsu University of Science and Technology
Current assignee: China Southern Power Grid Internet Service Co ltd; Jingchuang United Beijing Intellectual Property Service Co ltd
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2016-04-20
Anticipated expiration: 2035-12-15
Also published as: CN105512110B

Abstract

本发明公开了一种基于模糊匹配与统计的错字词知识库构建方法，对语料句子进行分词得到词语散串，按照散串合并规则对词语散串进行合并得到合并词串，根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集；获取合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合；根据合并词串的每个邻接元集合元素在语料中共现频次判断某一合并词串是否为错字词串，若该合并词串是错字词串，则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。本发明的错字词知识库构建方法，解决了现有技术中数据稀疏且仅根据汉语词典的错词判断所带来的校正准确率低的问题，***响应快、精度符合实际应用需求，有效性和准确性高。

Description

一种基于模糊匹配与统计的错字词知识库构建方法

技术领域

本发明涉及人工智能计算机领域中的自然语言处理，特别涉及中文文本自动校对领域，具体涉及一种基于模糊匹配与统计的错字词知识库构建方法。

背景技术

随着信息处理技术和互联网的高速发展，传统的文本工作几乎全部被计算机所取代，电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分，然而文本中的错误也越来越多，这给校对工作带来了很大的挑战。传统的人工校对效率低、强度大、周期长显然不能满足文本校对的需求。

文本自动校对是自然语言处理的主要应用之一，也是自然语言理解的难题。汉语是通过输入法输入到计算机中，既有五笔输入法又有拼音输入法。因此在文本中既会出现音似错误又会出现形似错误，从而导致原本是词语的词串变成由多个字词组合的串。这种错误属于非词错误的范畴。随着大数据时代的来临，文本中出现越来越多的非词错误，因此需要利用方法获取文本中的非词错误，构成错字词知识库，将错字词知识应用到汉语文本校对***中，能快速有效的提高查错效率和查错的精度。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于模糊匹配与统计的错字词知识库构建方法，达到提高中文文本自动校对效率的效果。

技术方案：为了实现上述目的，本发明提供一种基于模糊匹配与统计的错字词知识库构建方法，其特征在于，包括以下步骤：

(1)对语料句子进行分词得到若干个词语散串，所述词语散串按其在所述语料句子中的顺序进行排列，按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串，根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集；

(2)对某一合并词，利用所述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合；

(3)根据合并词串的邻接元集合元素在语料中出现的频次判断某一合并词串是否为错字词串，若该合并词串是错字词串，则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。

其中，所述预先设置的散串合并规则为：从第二个词语散串开始，每次取一个词语散串与前面的词语散串进行合并，并且只有当相邻的两个词语散串中至少存在一个单字词才合并。

进一步地，利用模糊匹配算法获取某一合并词串的相似词候选集包括以下步骤：

1)根据汉字拼音、拼音相似度和字形相似度得到汉字相似度词典，所述汉字相似度词典存储有汉字和其相似字以及两者的相似度；

2)找出汉语词典中以该合并词中的首个字或其相似字为首字的词语作为该合并词串的相似词，计算合并词串与这些相似词的模糊相似度，若该合并词串与某一相似词的相似度小于预先设定的相似度阈值，则去掉该相似词，反之，保留该相似词，将保留的相似词组成的集合作为该合并词串的相似词候选集合。

其中，某一合并词串的邻接元集合包括外部左邻接二元、外部右邻接二元和内部邻接元；

所述外部左邻接二元，由排列在该合并词串之前的相邻词语散串与该合并词的第一个分词组成；

所述外部右邻接二元由排列在该合并词串之后的相邻词语散串与该合并词的最后一个分词组成；

所述内部邻接元与该合并词串的分词项长度相关：

若该合并词串的分词项长度为2，则其内部邻接元为自身二元；

若该合并词串的分词项长度为3，则其内部邻接元包括：该合并词串中任意两个相邻分词组成的内部邻接二元和自身三元；

若该合并词串的分词项长度大于3，则其内部邻接元包括：该合并词串中任意两个相邻分词组成的内部邻接二元、该合并词串中任意三个相邻分词组成的内部邻接三元。

其中，步骤(3)中判断某一合并词串是否为错字词串，包括以下步骤：

若该合并词串的分词项长度为2，若其自身二元在语料中出现频次大于第一阈值，则该合并词串不是错字词，否则为错字词；

若该合并词串的分词项长度为3，若其自身三元在语料中出现频次大于第二阈值，则该合并词串不是错字词；否则，若其每个内部邻接二元在语料中的共现频次均大于第三阈值，则该合并词串不是错字词，否则为错字词；

若该合并词串的分词项长度大于3，若其每个内部邻接二元在语料中的共现频次均大于所述第三阈值，则该合并词串不是错字词；否则，若其每个内部邻接三元在语料中的共现频次大于第二阈值，则该合并词串不是错字词，否则为错字词。

进一步地，某一合并词串的某一相似词的邻接元集合包括左邻接二元和右邻接二元；

所述左邻接二元由排列在该合并词串之前的相邻词语散串与该相似词组成；

所述相似词的右邻接二元由排列在该合并词串之后的相邻词语散串与该相似词组成。

其中，步骤(3)中建立某一合并词串的错词对包括以下步骤：

若该合并词串的外部左邻接二元在语料中的共现频次大于0且该相似词的左邻接二元在语料中的共现频次大于第一阈值，或者该合并词串的外部左邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文左连续；否则认为该相似词与语料的上下文不连续；

若该合并词串的外部右邻接二元在语料中的共现频次大于0且该相似词的右邻接二元在语料中的共现频次大于第一阈值，或者该合并词串的外部右邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文右连续；否则认为该相似词与语料的上下文不连续；

若该相似词与语料的上下文左连续且右连续，则将该合并词串与该相似词形成错词对。

有益效果：利用本发明的基于模糊匹配与统计的错字词知识库构建方法建立错字词知识库，由于利用了合并词串在语料中的出现频次统计，综合合并词串是否符合上、下文的语境，以及对应正确相似词是否符合上下文中的语境，解决了现有技术中数据稀疏且仅根据汉语词典的错词判断所带来的校正准确率低的问题。实验表明，本发明提供的汉语错字词知识库自动构建方法在确保召回率的情况下，精度达到86.1％，错字词知识中四字词准确率达到96％。***响应快、精度符合实际应用需求，有效性和准确性高，具有较高的实用性。

附图说明

图1是本发明中基于模糊匹配与统计的错字词知识库构建方法的流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

图1中，本发明的基于模糊匹配与统计的错字词知识库构建方法包括以下步骤：

(1)对语料句子进行分词得到若干个词语散串，这些词语散串按其在原语料句子中的顺序进行排列，按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串，根据汉语词典和模糊匹配算法获取合并词串的相似词候选集；

(2)对某一合并词，利用上述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合；

上述步骤(1)中对语料句子进行分词，如对句子L进行分词得到L＝W₁W₂…W_i-1W_iW_i+1…W_n，预设的散串合并的规则如下：

①以分词W₁为起始位置，从分词W₂开始向后，每次取一个词与前面的相邻分词合并；

②对任意位置i，只有当两相邻分词W_i和W_i+1中至少存在一个单字词才进行合并。

上述步骤(1)中利用模糊匹配算法获取某一合并词串的相似词候选集包括：

1)利用汉字拼音、拼音相似度、字形相似度求得汉字间的相似度，得到汉字相似度词典；如：

WS_A＝[A,WS_A ¹...WS_A ⁱ...WS_A ⁿ]

WS_A ⁱ＝[Z_i,sim_Z(A,Z_i)]

其中WS_A表示汉字A的相似字信息，表示A的第i个相似字信息，Z_i表示第i个相似字，Sim_Z(A,Z_i)表示Z_i相对于A的相似度。

合并词串与该词之间的相似度计算公式如下：

{Sim}_{C} (W_{1}, W_{2}) = \frac{Σ_{i = 0}^{m a x (n, m)} {Sim}_{Z} (c_{i}, d_{i})}{\max (n, m)}

其中Sim_C(W₁,W₂)表示词W₁＝c₁c₂…c_n与词W₂＝d₁d₂…d_m的相似度，Sim_Z(c_i,d_i)表示汉字c_i和汉字d_i的相似度，本实施例中，拼音相似度计算采用公开号为CN1514387，公开日为2004年7月12日的中国发明专利《语音查询中的辨音方法》中介绍的计算方法，字形相似度计算采用公开号为CN102393850A，公开日2012年3月28日的中国发明专利申请《一种汉字字形认知相似度计算方法》中介绍的计算方法。

如果相似度小于相似度阈值α，则去除该相似词，否则加入候选集中。本实施例中α的设定：相似词长度为2，α＝0.8；相似词长度大于2，α＝0.75。

针对上述步骤(2)，本实施例中，合并词串的邻接元集合(NGram模型)包括外部左邻接二元、外部右邻接二元和内部邻接元；外部左邻接二元，由排列在该合并词串之前的相邻词语散串与该合并词的第一个分词组成；外部右邻接二元由排列在该合并词串之后的相邻词语散串与该合并词的最后一个分词组成；内部邻接元与该合并词串的分词项长度相关：

本实施例中以句子L为例对上述内容进行介绍，对于分好词的句子L＝W₁W₂…W_i-2W_i-1W_iW_i+1W_i+2…W_n，设S为散串合并过后的合并词串，为S对应的相似词候选集，考虑S的多种情形：

情形一：S＝W_iW_i+1

合并词串的NGram模型：

①外部左邻接二元：OuterLeftBigram(S)＝W_i-1W_i；

②外部右邻接二元：OuterRightBigram(S)＝W_i+1W_i+2；

①自身二元：Bigram(S)＝W_iW_i+1。

相似词候选集中某一相似词的Ngram模型：

①左邻接二元：

L e f t B i g r a m ({sim}_{C}^{1}) = W_{i - 1} {sim}_{C}^{1};

②右邻接二元：

R i g h t B i g r a m ({sim}_{c}^{1}) = {sim}_{c}^{1} W_{i + 2} .

情形二：S＝W_i-1W_iW_i+1

合并词串的NGram模型：

①外部左邻接二元：OuterLeftBigram(S)＝W_i-2W_i-1；

②外部右邻接二元：OuterRightBigram(S)＝W_i+1W_i+2；

③内部左邻接二元：InnerLeftBigram(S)＝W_i-1W_i；

④内部右邻接二元：InnerRightBigram(S)＝W_iW_i+1；

⑤自身三元：Trigram(S)＝W_i-1W_iW_i+1。

相似词候选集中某一相似词的NGram模型：

①左邻接二元：

L e f t B i g r a m ({sim}_{c}^{1}) = W_{i - 2} {sim}_{c}^{1};

②右邻接二元：

R i g h t B i g r a m ({sim}_{c}^{1}) = {sim}_{c}^{1} W_{i + 2} .

情形三：S＝W_i…W_i+n(n>2)

合并词串的NGram模型：

①外部左邻接二元：OuterLeftBigram(S)＝W_i-1W_i；

②外部右邻接二元：OuterRightBigram(S)＝W_i+nW_i+n+1；

③内部邻接三元：InnerTrigram(S)＝W_jW_j+1W_j+2(i≤j≤n-2)；

④内部邻接二元：InnerBigram(S)＝W_jW_j+1(i≤j≤n-1)。

相似词候选集中某一相似词的NGram模型：

①左邻接二元：

L e f t B i g r a m ({sim}_{c}^{1}) = W_{i - 1} {sim}_{c}^{1};

②右邻接二元：

R i g h t B i g r a m ({sim}_{c}^{1}) = {sim}_{c}^{1} W_{i + n + 1} .

本实施中根据合并词串的每个邻接元集合元素在语料中的共现频次判断某一合并词串是否为错字词串，错字词串即认为该合并词串是无效的，不是错字词串则认为是有效的，具体如下：如图1所示，基于步骤3)构建的局部邻接NGram模型，以及规则组合判断方法，对候选词进行验证，最终自动生成错字词知识库。

步骤41)基于所述步骤3)中合并词串S的NGram模型，采用组合判断法分析合并词串S在上下文中的有效性。此处考虑合并词串S的多种情形。

情形一：S＝W_iW_i+1，计算合并词串的自身二元共现频次Freq_S，引入第一阈值γ。如果Freq_S>γ,则合并词串S有效。反之无效，进入步骤42)，本实施例中γ＝3。

情形二：S＝W_i-1W_iW_i+1，计算合并词串的自身三元共现频次Freq_S，引入第二阈值β。如果Freq_S>β,则合并词串S有效。否则再分别计算S的内部左邻接二元W_i-1W_i、内部右邻接二元W_iW_i+1的共现频次Inner_Freq_S ^Left、Inner_Freq_S ^Right，引入第三阈值γ_inner，如果Inner_Freq_S ^Left>γ_inner∩Inner_Freq_S ^Right>γ_inner，则认为合并词串S有效。反之无效，进入步骤42)，本实施例中β＝3，γ_inner＝20。

情形三：S＝W_i…W_i+n(n>2)，从i＝0开始，计算合并词串S中的每个内部二元共现频次，如果均大于第三阈值γ_inner，认为S有效。否则从i＝0开始，计算合并词串S中的每个内部三元共现频次，如果均大于第二阈值β，认为S有效。反之，认为S无效，直接进入步骤42)。

步骤42)如果S被判为无效，则采用组合判断法分析候选集中词串的有效性。具体步骤包括：

步骤42-1)计算S的外部左邻接二元共现频次Outer_Freq_S ^Left，以及候选集中每个词的左邻接二元共现频次Outer_Freq_Sim ^Left。引入LeftFalg反映候选词与上文的连续关系(LeftFalg＝true表示左连续，LeftFalg＝false表示不连续)。

如果Outer_Freq_S ^Left>0∩Outer_Freq_Sim ^Left>γ，LeftFalg＝true；或者Outer_Freq_S ^Left＝0，LeftFalg＝true。否则，LeftFalg＝false。

步骤42-2)计算S的外部右邻接二元共现频次Outer_Freq_S ^Right，以及候选集中每个词的左邻接二元共现频次Outer_Freq_Sim ^Right。引入RightFalg反映候选词与上文的连续关系(RightFalg＝true表示右连续，RightFalg＝false表示不连续)。

如果Outer_Freq_S ^Right>0∩Outer_Freq_Sim ^Right>γ，RightFalg＝true；或者Outer_Freq_S ^Right＝0，RightFalg＝true。否则，RightFalg＝false。

步骤42-3)如果左连续LeftFalg＝true并且右连续RightFalg＝true，则将该合并词串及其对应相似词候选集合中的相似词形成错词对。

实验：

经历过多次的测试，实验采用100万行百科语料作为测试语料，以实施例中给定的参数为实验参数。实验表明，本发明提供的汉语错字词知识库自动构建的方法在确保召回率的情况下，精度达到86.1％，错字词知识中四字词准确率达到96％。达到了实际应用的需求，具有较高的有效性和准确性。

以上实施例仅是本发明的较佳实施例，对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的任何修改、等同替换、改进等，均落在本发明的保护范围内。

Claims

1.一种基于模糊匹配与统计的错字词知识库构建方法，其特征在于，包括以下步骤：

（1）对语料句子进行分词得到若干个词语散串，所述词语散串按其在所述语料句子中的顺序进行排列，按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串，根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集；

（2）对某一合并词，利用所述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合；

（3）根据合并词串的每个邻接元集合元素在语料中的共现频次判断某一合并词串是否为错字词串，若该合并词串是错字词串，则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。

2.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，所述预先设置的散串合并规则为：从第二个词语散串开始，每次取一个词语散串与排列在其之前的相邻词语散串进行合并，并且只有当该相邻的两个词语散串中至少存在一个单字词才合并。

3.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，利用模糊匹配算法获取某一合并词串的相似词候选集包括以下步骤：

1）根据汉字拼音、拼音相似度和字形相似度得到汉字相似度词典，所述汉字相似度词典存储有汉字和其相似字以及两者的相似度；

2）找出汉语词典中以该合并词中的首个字或其相似字为首字的词语作为该合并词串的相似词，计算合并词串与这些相似词的模糊相似度，若该合并词串与某一相似词的相似度小于预先设定的相似度阈值，则去掉该相似词，反之，保留该相似词，将保留的相似词组成的集合作为该合并词串的相似词候选集合。

4.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，某一合并词串的邻接元集合包括外部左邻接二元、外部右邻接二元和内部邻接元；

所述内部邻接元与该合并词串的分词项长度相关：

5.根据权利要求5所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，步骤（3）中判断某一合并词串是否为错字词串，包括以下步骤：

6.根据权利要求5所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，某一合并词串的某一相似词的邻接元集合包括左邻接二元和右邻接二元；

7.根据权利要求7所述的基于模糊匹配与统计的错字词知识库构建方法，其特征在于，步骤（3）中建立某一合并词串的错词对包括以下步骤：