CN105512110A - 一种基于模糊匹配与统计的错字词知识库构建方法 - Google Patents

一种基于模糊匹配与统计的错字词知识库构建方法 Download PDF

Info

Publication number
CN105512110A
CN105512110A CN201510934356.7A CN201510934356A CN105512110A CN 105512110 A CN105512110 A CN 105512110A CN 201510934356 A CN201510934356 A CN 201510934356A CN 105512110 A CN105512110 A CN 105512110A
Authority
CN
China
Prior art keywords
word
string
combinatorial
word string
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510934356.7A
Other languages
English (en)
Other versions
CN105512110B (zh
Inventor
刘海波
刘亮亮
吴健康
顾德之
张再跃
张晓如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Jingchuang United Beijing Intellectual Property Service Co ltd
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN201510934356.7A priority Critical patent/CN105512110B/zh
Publication of CN105512110A publication Critical patent/CN105512110A/zh
Application granted granted Critical
Publication of CN105512110B publication Critical patent/CN105512110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于模糊匹配与统计的错字词知识库构建方法,对语料句子进行分词得到词语散串,按照散串合并规则对词语散串进行合并得到合并词串,根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集;获取合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;根据合并词串的每个邻接元集合元素在语料中共现频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。本发明的错字词知识库构建方法,解决了现有技术中数据稀疏且仅根据汉语词典的错词判断所带来的校正准确率低的问题,***响应快、精度符合实际应用需求,有效性和准确性高。

Description

一种基于模糊匹配与统计的错字词知识库构建方法
技术领域
本发明涉及人工智能计算机领域中的自然语言处理,特别涉及中文文本自动校对领域,具体涉及一种基于模糊匹配与统计的错字词知识库构建方法。
背景技术
随着信息处理技术和互联网的高速发展,传统的文本工作几乎全部被计算机所取代,电子书、电子报纸、电子邮件、办公文件等电子文本、博客、微博等都成为人们日常生活的一部分,然而文本中的错误也越来越多,这给校对工作带来了很大的挑战。传统的人工校对效率低、强度大、周期长显然不能满足文本校对的需求。
文本自动校对是自然语言处理的主要应用之一,也是自然语言理解的难题。汉语是通过输入法输入到计算机中,既有五笔输入法又有拼音输入法。因此在文本中既会出现音似错误又会出现形似错误,从而导致原本是词语的词串变成由多个字词组合的串。这种错误属于非词错误的范畴。随着大数据时代的来临,文本中出现越来越多的非词错误,因此需要利用方法获取文本中的非词错误,构成错字词知识库,将错字词知识应用到汉语文本校对***中,能快速有效的提高查错效率和查错的精度。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于模糊匹配与统计的错字词知识库构建方法,达到提高中文文本自动校对效率的效果。
技术方案:为了实现上述目的,本发明提供一种基于模糊匹配与统计的错字词知识库构建方法,其特征在于,包括以下步骤:
(1)对语料句子进行分词得到若干个词语散串,所述词语散串按其在所述语料句子中的顺序进行排列,按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串,根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集;
(2)对某一合并词,利用所述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;
(3)根据合并词串的邻接元集合元素在语料中出现的频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。
其中,所述预先设置的散串合并规则为:从第二个词语散串开始,每次取一个词语散串与前面的词语散串进行合并,并且只有当相邻的两个词语散串中至少存在一个单字词才合并。
进一步地,利用模糊匹配算法获取某一合并词串的相似词候选集包括以下步骤:
1)根据汉字拼音、拼音相似度和字形相似度得到汉字相似度词典,所述汉字相似度词典存储有汉字和其相似字以及两者的相似度;
2)找出汉语词典中以该合并词中的首个字或其相似字为首字的词语作为该合并词串的相似词,计算合并词串与这些相似词的模糊相似度,若该合并词串与某一相似词的相似度小于预先设定的相似度阈值,则去掉该相似词,反之,保留该相似词,将保留的相似词组成的集合作为该合并词串的相似词候选集合。
其中,某一合并词串的邻接元集合包括外部左邻接二元、外部右邻接二元和内部邻接元;
所述外部左邻接二元,由排列在该合并词串之前的相邻词语散串与该合并词的第一个分词组成;
所述外部右邻接二元由排列在该合并词串之后的相邻词语散串与该合并词的最后一个分词组成;
所述内部邻接元与该合并词串的分词项长度相关:
若该合并词串的分词项长度为2,则其内部邻接元为自身二元;
若该合并词串的分词项长度为3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元和自身三元;
若该合并词串的分词项长度大于3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元、该合并词串中任意三个相邻分词组成的内部邻接三元。
其中,步骤(3)中判断某一合并词串是否为错字词串,包括以下步骤:
若该合并词串的分词项长度为2,若其自身二元在语料中出现频次大于第一阈值,则该合并词串不是错字词,否则为错字词;
若该合并词串的分词项长度为3,若其自身三元在语料中出现频次大于第二阈值,则该合并词串不是错字词;否则,若其每个内部邻接二元在语料中的共现频次均大于第三阈值,则该合并词串不是错字词,否则为错字词;
若该合并词串的分词项长度大于3,若其每个内部邻接二元在语料中的共现频次均大于所述第三阈值,则该合并词串不是错字词;否则,若其每个内部邻接三元在语料中的共现频次大于第二阈值,则该合并词串不是错字词,否则为错字词。
进一步地,某一合并词串的某一相似词的邻接元集合包括左邻接二元和右邻接二元;
所述左邻接二元由排列在该合并词串之前的相邻词语散串与该相似词组成;
所述相似词的右邻接二元由排列在该合并词串之后的相邻词语散串与该相似词组成。
其中,步骤(3)中建立某一合并词串的错词对包括以下步骤:
若该合并词串的外部左邻接二元在语料中的共现频次大于0且该相似词的左邻接二元在语料中的共现频次大于第一阈值,或者该合并词串的外部左邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文左连续;否则认为该相似词与语料的上下文不连续;
若该合并词串的外部右邻接二元在语料中的共现频次大于0且该相似词的右邻接二元在语料中的共现频次大于第一阈值,或者该合并词串的外部右邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文右连续;否则认为该相似词与语料的上下文不连续;
若该相似词与语料的上下文左连续且右连续,则将该合并词串与该相似词形成错词对。
有益效果:利用本发明的基于模糊匹配与统计的错字词知识库构建方法建立错字词知识库,由于利用了合并词串在语料中的出现频次统计,综合合并词串是否符合上、下文的语境,以及对应正确相似词是否符合上下文中的语境,解决了现有技术中数据稀疏且仅根据汉语词典的错词判断所带来的校正准确率低的问题。实验表明,本发明提供的汉语错字词知识库自动构建方法在确保召回率的情况下,精度达到86.1%,错字词知识中四字词准确率达到96%。***响应快、精度符合实际应用需求,有效性和准确性高,具有较高的实用性。
附图说明
图1是本发明中基于模糊匹配与统计的错字词知识库构建方法的流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
图1中,本发明的基于模糊匹配与统计的错字词知识库构建方法包括以下步骤:
(1)对语料句子进行分词得到若干个词语散串,这些词语散串按其在原语料句子中的顺序进行排列,按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串,根据汉语词典和模糊匹配算法获取合并词串的相似词候选集;
(2)对某一合并词,利用上述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;
(3)根据合并词串的邻接元集合元素在语料中出现的频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。
上述步骤(1)中对语料句子进行分词,如对句子L进行分词得到L=W1W2…Wi-1WiWi+1…Wn,预设的散串合并的规则如下:
①以分词W1为起始位置,从分词W2开始向后,每次取一个词与前面的相邻分词合并;
②对任意位置i,只有当两相邻分词Wi和Wi+1中至少存在一个单字词才进行合并。
上述步骤(1)中利用模糊匹配算法获取某一合并词串的相似词候选集包括:
1)利用汉字拼音、拼音相似度、字形相似度求得汉字间的相似度,得到汉字相似度词典;如:
WSA=[A,WSA 1...WSA i...WSA n]
WSA i=[Zi,simZ(A,Zi)]
其中WSA表示汉字A的相似字信息,表示A的第i个相似字信息,Zi表示第i个相似字,SimZ(A,Zi)表示Zi相对于A的相似度。
2)找出汉语词典中以该合并词中的首个字或其相似字为首字的词语作为该合并词串的相似词,计算合并词串与这些相似词的模糊相似度,若该合并词串与某一相似词的相似度小于预先设定的相似度阈值,则去掉该相似词,反之,保留该相似词,将保留的相似词组成的集合作为该合并词串的相似词候选集合。
合并词串与该词之间的相似度计算公式如下:
Sim C ( W 1 , W 2 ) = Σ i = 0 m a x ( n , m ) Sim Z ( c i , d i ) max ( n , m )
其中SimC(W1,W2)表示词W1=c1c2…cn与词W2=d1d2…dm的相似度,SimZ(ci,di)表示汉字ci和汉字di的相似度,本实施例中,拼音相似度计算采用公开号为CN1514387,公开日为2004年7月12日的中国发明专利《语音查询中的辨音方法》中介绍的计算方法,字形相似度计算采用公开号为CN102393850A,公开日2012年3月28日的中国发明专利申请《一种汉字字形认知相似度计算方法》中介绍的计算方法。
如果相似度小于相似度阈值α,则去除该相似词,否则加入候选集中。本实施例中α的设定:相似词长度为2,α=0.8;相似词长度大于2,α=0.75。
针对上述步骤(2),本实施例中,合并词串的邻接元集合(NGram模型)包括外部左邻接二元、外部右邻接二元和内部邻接元;外部左邻接二元,由排列在该合并词串之前的相邻词语散串与该合并词的第一个分词组成;外部右邻接二元由排列在该合并词串之后的相邻词语散串与该合并词的最后一个分词组成;内部邻接元与该合并词串的分词项长度相关:
若该合并词串的分词项长度为2,则其内部邻接元为自身二元;
若该合并词串的分词项长度为3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元和自身三元;
若该合并词串的分词项长度大于3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元、该合并词串中任意三个相邻分词组成的内部邻接三元。
本实施例中以句子L为例对上述内容进行介绍,对于分好词的句子L=W1W2…Wi-2Wi-1WiWi+1Wi+2…Wn,设S为散串合并过后的合并词串, 为S对应的相似词候选集,考虑S的多种情形:
情形一:S=WiWi+1
合并词串的NGram模型:
①外部左邻接二元:OuterLeftBigram(S)=Wi-1Wi
②外部右邻接二元:OuterRightBigram(S)=Wi+1Wi+2
①自身二元:Bigram(S)=WiWi+1
相似词候选集中某一相似词的Ngram模型:
①左邻接二元: L e f t B i g r a m ( sim C 1 ) = W i - 1 sim C 1 ;
②右邻接二元: R i g h t B i g r a m ( sim c 1 ) = sim c 1 W i + 2 .
情形二:S=Wi-1WiWi+1
合并词串的NGram模型:
①外部左邻接二元:OuterLeftBigram(S)=Wi-2Wi-1
②外部右邻接二元:OuterRightBigram(S)=Wi+1Wi+2
③内部左邻接二元:InnerLeftBigram(S)=Wi-1Wi
④内部右邻接二元:InnerRightBigram(S)=WiWi+1
⑤自身三元:Trigram(S)=Wi-1WiWi+1
相似词候选集中某一相似词的NGram模型:
①左邻接二元: L e f t B i g r a m ( sim c 1 ) = W i - 2 sim c 1 ;
②右邻接二元: R i g h t B i g r a m ( sim c 1 ) = sim c 1 W i + 2 .
情形三:S=Wi…Wi+n(n>2)
合并词串的NGram模型:
①外部左邻接二元:OuterLeftBigram(S)=Wi-1Wi
②外部右邻接二元:OuterRightBigram(S)=Wi+nWi+n+1
③内部邻接三元:InnerTrigram(S)=WjWj+1Wj+2(i≤j≤n-2);
④内部邻接二元:InnerBigram(S)=WjWj+1(i≤j≤n-1)。
相似词候选集中某一相似词的NGram模型:
①左邻接二元: L e f t B i g r a m ( sim c 1 ) = W i - 1 sim c 1 ;
②右邻接二元: R i g h t B i g r a m ( sim c 1 ) = sim c 1 W i + n + 1 .
本实施中根据合并词串的每个邻接元集合元素在语料中的共现频次判断某一合并词串是否为错字词串,错字词串即认为该合并词串是无效的,不是错字词串则认为是有效的,具体如下:如图1所示,基于步骤3)构建的局部邻接NGram模型,以及规则组合判断方法,对候选词进行验证,最终自动生成错字词知识库。
步骤41)基于所述步骤3)中合并词串S的NGram模型,采用组合判断法分析合并词串S在上下文中的有效性。此处考虑合并词串S的多种情形。
情形一:S=WiWi+1,计算合并词串的自身二元共现频次FreqS,引入第一阈值γ。如果FreqS>γ,则合并词串S有效。反之无效,进入步骤42),本实施例中γ=3。
情形二:S=Wi-1WiWi+1,计算合并词串的自身三元共现频次FreqS,引入第二阈值β。如果FreqS>β,则合并词串S有效。否则再分别计算S的内部左邻接二元Wi-1Wi、内部右邻接二元WiWi+1的共现频次Inner_FreqS Left、Inner_FreqS Right,引入第三阈值γinner,如果Inner_FreqS Leftinner∩Inner_FreqS Rightinner,则认为合并词串S有效。反之无效,进入步骤42),本实施例中β=3,γinner=20。
情形三:S=Wi…Wi+n(n>2),从i=0开始,计算合并词串S中的每个内部二元共现频次,如果均大于第三阈值γinner,认为S有效。否则从i=0开始,计算合并词串S中的每个内部三元共现频次,如果均大于第二阈值β,认为S有效。反之,认为S无效,直接进入步骤42)。
步骤42)如果S被判为无效,则采用组合判断法分析候选集中词串的有效性。具体步骤包括:
步骤42-1)计算S的外部左邻接二元共现频次Outer_FreqS Left,以及候选集中每个词的左邻接二元共现频次Outer_FreqSim Left。引入LeftFalg反映候选词与上文的连续关系(LeftFalg=true表示左连续,LeftFalg=false表示不连续)。
如果Outer_FreqS Left>0∩Outer_FreqSim Left>γ,LeftFalg=true;或者Outer_FreqS Left=0,LeftFalg=true。否则,LeftFalg=false。
步骤42-2)计算S的外部右邻接二元共现频次Outer_FreqS Right,以及候选集中每个词的左邻接二元共现频次Outer_FreqSim Right。引入RightFalg反映候选词与上文的连续关系(RightFalg=true表示右连续,RightFalg=false表示不连续)。
如果Outer_FreqS Right>0∩Outer_FreqSim Right>γ,RightFalg=true;或者Outer_FreqS Right=0,RightFalg=true。否则,RightFalg=false。
步骤42-3)如果左连续LeftFalg=true并且右连续RightFalg=true,则将该合并词串及其对应相似词候选集合中的相似词形成错词对。
实验:
经历过多次的测试,实验采用100万行百科语料作为测试语料,以实施例中给定的参数为实验参数。实验表明,本发明提供的汉语错字词知识库自动构建的方法在确保召回率的情况下,精度达到86.1%,错字词知识中四字词准确率达到96%。达到了实际应用的需求,具有较高的有效性和准确性。
以上实施例仅是本发明的较佳实施例,对本发明不构成限定,相关工作人员在不偏离本发明技术思想的范围内,所进行的任何修改、等同替换、改进等,均落在本发明的保护范围内。

Claims (7)

1.一种基于模糊匹配与统计的错字词知识库构建方法,其特征在于,包括以下步骤:
(1)对语料句子进行分词得到若干个词语散串,所述词语散串按其在所述语料句子中的顺序进行排列,按照预先设置的散串合并规则对词语散串进行合并得到若干个合并词串,根据汉语词典利用模糊匹配算法获取合并词串的相似词候选集;
(2)对某一合并词,利用所述词语散串获取该合并词串的邻接元集合以及其相似词候选集中所有相似词的邻接元集合;
(3)根据合并词串的每个邻接元集合元素在语料中的共现频次判断某一合并词串是否为错字词串,若该合并词串是错字词串,则根据其相似词的邻接元集合元素在语料中出现的频次建立该合并词串的错词对。
2.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,所述预先设置的散串合并规则为:从第二个词语散串开始,每次取一个词语散串与排列在其之前的相邻词语散串进行合并,并且只有当该相邻的两个词语散串中至少存在一个单字词才合并。
3.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,利用模糊匹配算法获取某一合并词串的相似词候选集包括以下步骤:
1)根据汉字拼音、拼音相似度和字形相似度得到汉字相似度词典,所述汉字相似度词典存储有汉字和其相似字以及两者的相似度;
2)找出汉语词典中以该合并词中的首个字或其相似字为首字的词语作为该合并词串的相似词,计算合并词串与这些相似词的模糊相似度,若该合并词串与某一相似词的相似度小于预先设定的相似度阈值,则去掉该相似词,反之,保留该相似词,将保留的相似词组成的集合作为该合并词串的相似词候选集合。
4.根据权利要求1所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,某一合并词串的邻接元集合包括外部左邻接二元、外部右邻接二元和内部邻接元;
所述外部左邻接二元,由排列在该合并词串之前的相邻词语散串与该合并词的第一个分词组成;
所述外部右邻接二元由排列在该合并词串之后的相邻词语散串与该合并词的最后一个分词组成;
所述内部邻接元与该合并词串的分词项长度相关:
若该合并词串的分词项长度为2,则其内部邻接元为自身二元;
若该合并词串的分词项长度为3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元和自身三元;
若该合并词串的分词项长度大于3,则其内部邻接元包括:该合并词串中任意两个相邻分词组成的内部邻接二元、该合并词串中任意三个相邻分词组成的内部邻接三元。
5.根据权利要求5所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,步骤(3)中判断某一合并词串是否为错字词串,包括以下步骤:
若该合并词串的分词项长度为2,若其自身二元在语料中出现频次大于第一阈值,则该合并词串不是错字词,否则为错字词;
若该合并词串的分词项长度为3,若其自身三元在语料中出现频次大于第二阈值,则该合并词串不是错字词;否则,若其每个内部邻接二元在语料中的共现频次均大于第三阈值,则该合并词串不是错字词,否则为错字词;
若该合并词串的分词项长度大于3,若其每个内部邻接二元在语料中的共现频次均大于所述第三阈值,则该合并词串不是错字词;否则,若其每个内部邻接三元在语料中的共现频次大于第二阈值,则该合并词串不是错字词,否则为错字词。
6.根据权利要求5所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,某一合并词串的某一相似词的邻接元集合包括左邻接二元和右邻接二元;
所述左邻接二元由排列在该合并词串之前的相邻词语散串与该相似词组成;
所述相似词的右邻接二元由排列在该合并词串之后的相邻词语散串与该相似词组成。
7.根据权利要求7所述的基于模糊匹配与统计的错字词知识库构建方法,其特征在于,步骤(3)中建立某一合并词串的错词对包括以下步骤:
若该合并词串的外部左邻接二元在语料中的共现频次大于0且该相似词的左邻接二元在语料中的共现频次大于第一阈值,或者该合并词串的外部左邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文左连续;否则认为该相似词与语料的上下文不连续;
若该合并词串的外部右邻接二元在语料中的共现频次大于0且该相似词的右邻接二元在语料中的共现频次大于第一阈值,或者该合并词串的外部右邻接二元在语料中的共现频次等于0则认为该相似词与语料的上下文右连续;否则认为该相似词与语料的上下文不连续;
若该相似词与语料的上下文左连续且右连续,则将该合并词串与该相似词形成错词对。
CN201510934356.7A 2015-12-15 2015-12-15 一种基于模糊匹配与统计的错字词知识库构建方法 Active CN105512110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510934356.7A CN105512110B (zh) 2015-12-15 2015-12-15 一种基于模糊匹配与统计的错字词知识库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510934356.7A CN105512110B (zh) 2015-12-15 2015-12-15 一种基于模糊匹配与统计的错字词知识库构建方法

Publications (2)

Publication Number Publication Date
CN105512110A true CN105512110A (zh) 2016-04-20
CN105512110B CN105512110B (zh) 2018-04-06

Family

ID=55720103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510934356.7A Active CN105512110B (zh) 2015-12-15 2015-12-15 一种基于模糊匹配与统计的错字词知识库构建方法

Country Status (1)

Country Link
CN (1) CN105512110B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN108280051A (zh) * 2018-01-22 2018-07-13 清华大学 一种文本数据中错误字符的检测方法、装置和设备
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及***
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN108984515A (zh) * 2018-05-22 2018-12-11 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129381A1 (en) * 1998-06-04 2006-06-15 Yumi Wakita Language transference rule producing apparatus, language transferring apparatus method, and program recording medium
JP2007073054A (ja) * 2005-09-08 2007-03-22 Fujitsu Ltd 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN101655982A (zh) * 2009-09-04 2010-02-24 上海交通大学 基于改进Harris角点的图像配准方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060129381A1 (en) * 1998-06-04 2006-06-15 Yumi Wakita Language transference rule producing apparatus, language transferring apparatus method, and program recording medium
JP2007073054A (ja) * 2005-09-08 2007-03-22 Fujitsu Ltd 対訳語句提示プログラム、対訳語句提示方法および対訳語句提示装置
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN101655982A (zh) * 2009-09-04 2010-02-24 上海交通大学 基于改进Harris角点的图像配准方法
CN101950306A (zh) * 2010-09-29 2011-01-19 北京新媒传信科技有限公司 新词发现中的字符串过滤方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN104991889A (zh) * 2015-06-26 2015-10-21 江苏科技大学 一种基于模糊分词的非多字词错误自动校对方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANDREW PARGELLIS 等: "Metrics for Measuring Domain Independence of Semantic Classes", 《PROC. OF EUROPEAN SPEECH PROCESSING》 *
刘亮亮 等: "领域问答***中的文本错误自动发现方法", 《中文信息学报》 *
施恒利 等: "汉字种子混淆集的构建方法研究", 《计算机科学》 *
马金山 等: "利用三元模型及依存分析查找中文文本错误", 《情报学报》 *
骆卫华 等: "中文文本自动校对技术的研究", 《计算机研究与发展》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528532A (zh) * 2016-11-07 2017-03-22 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
CN106528532B (zh) * 2016-11-07 2019-03-12 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端
JP2018185601A (ja) * 2017-04-25 2018-11-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7027696B2 (ja) 2017-04-25 2022-03-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN107180084A (zh) * 2017-05-05 2017-09-19 上海木爷机器人技术有限公司 词库更新方法及装置
CN107180084B (zh) * 2017-05-05 2020-04-21 上海木木聚枞机器人科技有限公司 词库更新方法及装置
CN108280051A (zh) * 2018-01-22 2018-07-13 清华大学 一种文本数据中错误字符的检测方法、装置和设备
CN108564086A (zh) * 2018-03-17 2018-09-21 深圳市极客思索科技有限公司 一种字符串的识别校验方法及装置
CN108564086B (zh) * 2018-03-17 2024-05-10 上海柯渡医学科技股份有限公司 一种字符串的识别校验方法及装置
CN108984515A (zh) * 2018-05-22 2018-12-11 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108984515B (zh) * 2018-05-22 2022-09-06 广州视源电子科技股份有限公司 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108717412A (zh) * 2018-06-12 2018-10-30 北京览群智数据科技有限责任公司 基于中文分词的中文校对纠错方法及***

Also Published As

Publication number Publication date
CN105512110B (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN105045778B (zh) 一种汉语同音词错误自动校对方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
McCauley et al. Learning simple statistics for language comprehension and production: The CAPPUCCINO model
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Al Tamimi et al. AARI: automatic Arabic readability index.
CN110489760A (zh) 基于深度神经网络文本自动校对方法及装置
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN104991889A (zh) 一种基于模糊分词的非多字词错误自动校对方法
CN107039034A (zh) 一种韵律预测方法及***
CN103823794A (zh) 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN109918670A (zh) 一种文章查重方法及***
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN103631858A (zh) 一种科技项目相似度计算方法
CN107688630A (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
CN109213998A (zh) 中文错字检测方法及***
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN114969294A (zh) 一种音近敏感词的扩展方法
Cavalli-Sforza et al. Arabic readability research: current state and future directions
CN104881400A (zh) 基于联想网络的语义相关性计算方法
Forsyth Automatic readability prediction for modern standard Arabic
CN106202037A (zh) 基于组块的越南语短语树构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Liangliang

Inventor after: Liu Haibo

Inventor after: Wu Jiankang

Inventor after: Gu Dezhi

Inventor after: Zhang Zaiyue

Inventor after: Zhang Xiaoru

Inventor before: Liu Haibo

Inventor before: Liu Liangliang

Inventor before: Wu Jiankang

Inventor before: Gu Dezhi

Inventor before: Zhang Zaiyue

Inventor before: Zhang Xiaoru

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160420

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Denomination of invention: A method of building wrong word knowledge base based on fuzzy matching and statistics

Granted publication date: 20180406

License type: Common License

Record date: 20201029

EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: JIANGSU KEDA HUIFENG SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY

Contract record no.: X2020980007325

Date of cancellation: 20201223

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221230

Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

Address before: 212003, No. 2, Mengxi Road, Zhenjiang, Jiangsu

Patentee before: JIANGSU University OF SCIENCE AND TECHNOLOGY

Effective date of registration: 20221230

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.