CN1088011A - 多文种电子文稿的模板校对方法和装置 - Google Patents

多文种电子文稿的模板校对方法和装置 Download PDF

Info

Publication number
CN1088011A
CN1088011A CN 93120009 CN93120009A CN1088011A CN 1088011 A CN1088011 A CN 1088011A CN 93120009 CN93120009 CN 93120009 CN 93120009 A CN93120009 A CN 93120009A CN 1088011 A CN1088011 A CN 1088011A
Authority
CN
China
Prior art keywords
template
speech
parameter
manuscript
materialization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 93120009
Other languages
English (en)
Inventor
张节容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 93120009 priority Critical patent/CN1088011A/zh
Publication of CN1088011A publication Critical patent/CN1088011A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种多文种电子文稿的校对方法和 装置。该装置由分词器、判决模板产生器、模板匹配 器、参数提取器、判决器和建议产生器六个执行部件 和文稿存贮器、词典、模板库的参数库共四个存贮部 件组成。该方法是以词为处理单元,查找多文种电子 文稿中不符合模板或其相应参数的各种错误,并提出 建议。基于本发明校对方法实现的校对装置,可应用 于日常的电子写作和出版印刷部门的文稿校对。

Description

本发明涉及一种多文种电子文稿的校对方法和装置,属计算机识别技术领域。
电子文稿中的错别字是客观存在的。对汉字文稿而言,这主要表现在同音别字、同码别字、缺字、多字、二字前后换位等等。查核这些错误,并给出适当的改正是汉字文稿校对的主要任务。目前,汉字(包括其它文种)文稿电脑自动校对的方法有下列几种:一、人助机校。由人事先象英文那样在单词间加上分词的空格(这在以词为单位输入的***中是相当自然方便的),再由机器按与英文的拼写校对相同的方法自动校对;二、机助人校。由机器列出文稿中使用频率很低的汉字、特别长或特别短的句子以及一些容易出错的词汇等等,再由人来仔细阅读校对;三、语法分析。采用人工智能、自然语言理解和机器翻译中语法分析的各种现存技术,对汉字文稿中的每句话进行语法分析,找出所有不合语法的句子;四、语义分析。此与语法分析方法类似,用各种现有技术找出意思不通的句子;五、移花接木。利用别的***来校对汉字文稿。例如,现已分别有把汉字句子转成拼音句子(文语转换***或语音合成***)和把拼音句子转换成汉字句子(语句级拼音输入***或语音识别***)的装置。若先用前者把文稿转成拼音,再用后者把此拼音转回汉字,通过对比转换前后的二个汉字文稿即可找出同音别字及其它错误。以上方法的缺点是:人工干预过多很难有效地减轻校对的劳动强度。而实现语法分析或语义分析的方法则要求实施人员对语言规律有深刻的研究并要求计算机有极强的计算和存储能力。移花接木法则过份依赖其它技术和装置,局限性太大。总之,以上五类方法的实用性都很低。
本发明的目的是设计一种多文种电子文稿的模板校对方法和装置,它以词处理单位,采用在词类上的模板及其参数,查找存在于多文种电子文稿中不符合模板或其相应参数的各种错误,并给出相应处理建议。
本发明的内容是:
多文种电子文稿的模板校对方法,包括下列各步骤:
(1)根据校对的领域,设定模板,模板是定义在字符、词及词类上的正则表达式或具等价的有限状态自动机。
(2)用分词器对电子文稿加词间分隔标记。
(3)对文稿中的每一个词,从模板库中取出若干个相关的模板。
(4)将上述取出的模板,与文稿中待判断词的相关句子匹配,物化模板中可能有的形式变元。
(5)对于成功的匹配,从参数库中提取出所有与本模板相关的参数。参数是一个或一组数值,这些数值可以表示数量大小、正确和错误以及文字或模板公式的代码。包括有关字的参数、有关词的参数、有关字间关系的参数、有关词间关系的参数和模板本身的特殊参数。
(6)根据待判断词的已物化模板及其参数,和用户指定的控制参数,按一数学函数进行计算,以此计算结果作出判决。
(7)根据上述判决,进行不同的编辑、提取、比较和计算,以产生相应的建议。
多文种电子文稿的模板校对装置包括:
(1)用来存贮电子文稿的文稿存贮器。
(2)用于自动在电子文稿的词与词之间添加间隔标志的分词器。
(3)用于针对来自电子文稿中的一个待判断词,从模板库中取出一组相关模板作为判决模板的判决模板产生器。模板库是用来存贮校对装置中所有模板的装置。
(4)用于将一个词的判决模板与该词的句子相匹配并物化模板中相应变元的模板匹配器。
(5)用于从参数库中提取所有与物化模板有关的参数的参数提取器,参数库是存贮校对装置中各有关参数的装置。
(6)判决器,该判决器受模板匹配器和参数提取器的控制,按模板匹配器给定模板P所指定的数学函数fp(·),对由参数提取器所提供参数x进行计算,得到y=fp(x)。该判决器还受用户提供的控制参数T控制,用一个数学函数g(·,·),根据y和T计算出η=g(y,T),并将η作为判决结果送到建议产生器。这里的数学函数是一组由加、减、乘、除等算术运算,与或非等逻辑运算和大于、等于、小于等比较运算构成的数学公式。
(7)建议产生器,包括提取器、编辑器、比较器和计算器。建议产生器接受由判决器传来的判决结果η,选择进行下列动作的一种或全部:
-由提取器根据匹配成功的模板,从参数库中提取该模板的建议参数作为建议结果。
-如果没有成功匹配的模板,由比较器找出导致匹配失败的差别部分作为建议结果。
-***、删除、替换或交换成功匹配的模板P中的某些项,得到模板的一种新的物化k。由编辑器对这种新的物化,从参数库中取出参数xk。按由模板P确定的数学函数hp(·),由计算器计算yk=hp(xk),对各种不同的物化k,比较产生使yk最大或最小的n个物化,或使yk>T1,或使yk<T2的所有物化作为建议结果。这里的n、T1、T2是建议产生器的预设参数,或由用户调节。
附图说明:
图1是本发明的结构示意图。
下面结合附图,进一步详细介绍本发明的内容。根据图1,本装置由分词器、判决模板产生器、模板匹配器、参数提取器、判决器和建议产生器共六个执行部件和文稿存储器、词典、模板库和参数库共四个存储部件构成。图1同时给出了这些部件间的主要联接关系。
本发明的工作过程用如下实例说明:
对句子“他一就走”,经分词器产生分词后句子形式为“他/一/就/走”。设当前待判断词为“就”,在模板库中找到与“就”有关的模板“一x就y”,将句子中的“一”和“就”分别与模板中的“一”和“就”配对,得到模板中形式变元x,y的物化为x=φ(空)和y=“走”,与此模板有关的参数有“x中必须有一个动词”。据此判决器判决原句在词“就”附近可能有错,而建议产生器根据模板参数建议在“一”和“就”之间加个动词。
下面详细介绍本发明装置中的各组成部分及其相关概念。
1.分词器
分词器是自动在文稿中词与词之间添加词的间隔标志的装置。对英文等拼音文字,因已有空格等分词标志,分词器可以省略。通过采用分词器,任何语文都可以取得“词间加空格”这一标准的文本格式,这是本发明能适用于万国语文的主要保证之一。
有一种分词器是由前苏联科学家在五十年代发明并用于俄汉机器翻译的被称为“5-4-3-2-1”法的分词器。基本方法是对任一给定待分词的汉字句子,从左到右,先取前5个汉字,判别其是否是机器词典中的一个词,如果是,则在第5个汉字后加一个分隔标记,再从第6个汉字开始重复上述过程,如果这5个汉字不是词典中的词,则后退一个字,判别前4个字是否是词典中的词。依此类推。类似的分词器也被用于日文等。
2.判决模板产生器
判决模板产生器是对一个待判断词,从模板库取出一组相关模板作为判决模板的装置。
模板的概念,严格地,按计算机科学中的形式语言与自动机理论,模板是且仅是定义在字符、词及词类上的正则表达式或其等价的有限状态自动机。不太严格地,模板可以看成是一个由若干个字符、词或词类按一定的顺序关系和搭配构成的格式。如“x的”,“因为x,所以y”,“一x就y”等等。
模板可以设计成n词m元模板(其中n≥1,m≤n),模量名模板,动量模板,联词模板或标点符号模板等等。
如三词二元模板为xAy,其中A是当前词,x是A的前接词,y是x的后接词。模板参数共有5个:即x、A、y的相当字频(概率)P(x)、P(A)、P(y)及xA的共现相对频率P(xA)和Ay的共现相对频率P(Ay)。
又如数量模板,专门用于查核中文的量词与名词的搭配正确性。此校对器特别适用于以英文为母语的作者,从事中文写作。在汉语中,数量名形成了一种非常固定的搭配结构:“数目+量词+其它+名词”。例如:一张(大的)桌子,一把(漂亮的)椅子,这里,量词“张”与名词“桌子”是固定搭配,不能说“一把桌子”。在本校对器中,模板是“x张y桌子”,“x把y椅子”等。在模板库中存贮了汉语中所有可能的量词与名词的具体搭配,并根据搭配的使用频率为模板赋上不同的权重。数量名模板与一般的语法规则完全不同。语法规则侧重的是共性,表达“数词+量词+其它+名词”可以构成一类名词短语,对具体的量词与名词的搭配并不在意。相反地,数量名模板强调的是个性,一搿个量词与一个个名词的搭配,这样的模板数目一般在几万到十几万个之间。
类似地,还可以有“动数量”模板,如“跑一圈”,“打一拳”等,这里动词与量词的搭配也是相当固定的,在汉语里不能说“跑一拳”。
除了量词结构模板外,汉语中还有相当多的固定联词搭配,成为联词模板。例如“因为…所以…”,“正如…所说”,“或者…或者…”等等,这些作为模板都有相当强的查错能力。
最后,标点符号模板如“(…)”括号配对等也相当有用。
模板不同于语法规则。直观地,“句子=主语+谓语+宾语”之类不属于模板,因为“主语”不是一个词类(串)。在语法中,“主语”往往又是一个句子。严格地说,由于自然语言的扩展性和递归性,正则表达式不足以表达自然语言的语法规则,因此,尽管模板可以表达部分的语法规则,基于语法的***不可能只采用模板。
同理,模板法也不同于语义分析方法及其它方法。
与模板的概念相联系,词类是本发明中的又一重要概念。如果仅仅将模板定义在词的层次上,模板总数势必很多,这将进而限制模板法的实用性。将词分类和将类似的模板合并是提高模板法实用性的一个关键。
将词分类的方法很多,常用的是词的语法分类,如名词动词类,词的语义分类,如动物植物等。在本发明中,词的分类不局限于任一体系。一个词的分类体系被看成是词的一个属性,而词在此分类体系下的类别被看成是在此属性下词所具有的属性值。在本发明中,分类体系有二个来源,一是源于语言学如语法分类体系和语义分类体系,另一是源于统计。
在本发明中,模板的设计与选取有二大原则,一是模板的报错与纠错能力,二是模板的可理解性。前者很明显,不能报错的模板是没有用的,根据这一原则,一种有效的自动产生模板的方法就是收集大量错别字已被标出的电子文稿,通过统计分析选取在一定模板框架下报错纠错能力强的模板。
模板的可理解性及其校对报错的可理解性是本发明首次提出的概念,并是本发明及其实施的主导思想之一。对比英文的校对,无论是拼写校对还是文法校对都无法查核出所有错误。
3.模板匹配器
模板匹配器是将一个待判断词的判决模板与该词的句子匹配并物化模板中相应变元的装置。
例如,设对句子“他一来我就走”,当前待判断词是“就”,判决模板产生器产生判决模板“一x就y”。模板匹配器可以首先将模板中的固定参量“一”和“就”与句子中的“一”和“就”分别配对,再将句子中“一”与“就”之间的词串与模板中的变元x匹配,将变元x物化成“来我”,即x=“来我”。同理,模板中的变元y可物化成y=“走”。
有的模板与句子间不存在恰当的匹配,如对句子“他来就走”,和模板“一x就y”,模板匹配器将报告匹配失败。
因为模板是正则表达式,一般地,模板匹配器可以是一个标准的正则文法分析器,后者属于大学计算机专业本科的基本教学内容。
对于形态特殊的模板,有可能设计性能比标准的正则文法分析器性能更加优良的模板匹配器。
4.参数提取器
参数提取器是从参数库中提取所有物化的模板有关的参数的装置。这基本上是一个数据存取装置,它取决于参数库的结构和内容。
5.参数库
参数库是一个存贮模板法校对装置中所有有关参数的装置。
参数库中的参数可分为如下几类:
(1)有关字的参数,如字频,字的读音,字的输入编码如五笔字型,字的类别如金属名用字、姓氏用字等等。
(2)有关词的参数,如词频,词长,词的语法分类如名词动词等,词的语义分类如动物植物等,词的统计聚类,词类的频率,词的读音,词的输入编码等等。
(3)有关字间关系的参数,如二字的同现频率,三字的同现频率,二字间间隔字数的统计分布等等。
(4)有关词间关系的参数,如二词的同现频率,二词类的同现频率,二词间间隔字词数的统计分布等。
(5)模板本身的一些特殊参数,如模板的统计使用频率,模板的判决置信度,模板的使用优先级,模板的错误模式,附加于模板的建议模式等等。
以上所列参数有三个来源,一是字词典等工具书;二是对大量现实文本语料的统计分析;三是在***的设计使用过程中一些人为的经验设置和调整。在具体实施中,往往会因具体***造价规模的限制,只使用部分上列参数。
6.模板库
模板库是存贮校对装置中所有模板的装置。
模板库的组织常用的有二种方法,一是用模板中的关键字词作为索引存贮,如模板“一x就y”可分别索引在关键词“一”和“就”之下。在这种组织中,一个词往往可以有多个判决模板,但任何词至少有一个判决模板。
另一种模板库的组织方法是把所有模板合成一个大的模板网络,即有限状态自动机中的状态转移网络。采用这种方式可得到性能较高的模板匹配器,但不利用模板的增删修改。特殊结构的模板可有特殊的模板库结构。
7.判决器
判决器是根据给定的物化模板及其参数判决当前字词及其周围是否可能有错误的装置。
判决器可以是完全基于模板的规则型判断,例如,判决器中可以有一条判决规则:如果一个词无成功匹配的模板,则报告错误。根据这条规则,对句子“他来就走”,设当前词“就”只对应一个模板“一x就y”,则判决器会因找不到成功匹配而报告错误。
判决器判断的结果可以是简单的“正确”和“错误”,也可以是一个标志错误程度或怀疑程度的度量。
8.建议产生器
建议产生器是根据判决器的结果以及模板和参数作出适当建议的装置。
例如,对句子“他来就走”和唯一模板“一x就y”,建议产生器可建议“在‘来’附近添加‘一’字”。
建议产生器提供的建议可以是多层次的,如错误、警告、怀疑、正确等等。
9.词典
词典是存贮校对装置所用全部词条及其与字词有关属性的装置。
本发明的校对装置是以词为基本处理单元的。为使词典的存取查找具有较高的效率,词典一般以多层次索引结构组织。在本发明中,词典中的每一个词都被赋予一个唯一的编号即词号。采用词号是本发明能适用于多语种的重要保证之一。
本发明的校对装置以词为单元,在词的级别上的统一编码表达将比在字的级别上的统一编码有更高的性能。采用词号后,本发明校对装置几乎所有的模块都不涉及具体的语种(模板及参数自然是与语种有关的,但它们的表达和处理与语种无关)。
10.文稿存贮器
文稿存贮器是用来存贮电子文稿的装置。在计算机及文字处理机中,这是一个标准部件。

Claims (3)

1、一种多文种电子文稿的模板校对方法,其特征在于该校对方法包括下列各步骤:
(1)根据校对领对领域设定模板,所述的模板是定义在字符、词及词类上的正则表达式或具等价有限状态自动机;
(2)用分词器对电子文稿加词间分隔标记;
(3)对文稿中的每一个词,从模板库中取出若干个相关的模板;
(4)将上述取出的模板,与文稿中待判断词的相关句子匹配,物化模板中可能有的形式变元;
(5)对于成功的匹配,从参数库中提取出所有与本模板相关的参数,所述的参数是一个或一组数值,该数值表示数量大小、正确和错误以及文字或模板公式的代码;
(6)根据待判断词的已物化模板及其参数,和用户指定的控制系数,按一数学函数进行计算,以此计算结果作出判决;
(7)根据上述判决,进行不同的编辑、提取、比较和计算,以产生相应的建议。
2、如权利要求1所述的校对方法,其特征在于其中所述的模板是n词m元模板(其中n≥1,m≤n)、数量名模板、动数量模板、联词模板或标点符号模板。
3、一种多文种电子文稿的模板校对装置,其特征在于该校对装置包括:
(1)用来存贮电子文稿的文稿存贮器;
(2)用于自动在电子文稿的词与词之间添加间隔标志的分词器;
(3)用于针对来自电子文稿中的一个待判断词,从模板库中取出一组相关模板作为判决模板的判决模板产生器;所述的模板库是存贮校对装置中所有模板的装置;
(4)用于将一个词的判决模板与该词的句子相匹配并物化模板中的相应变元的模板匹配器;
(5)用于从参数库中提取所有与物化模板有关的参数的参数提取器,所述的参数库是存贮校对装置中所有有关参数的装置;
(6)判决器,该判决器受模板匹配器和参数提取器的控制,按模板匹配器给定模板P所指定的数学函数fp(·),对由参数提取器所提供参数x进行计算,得到y=fp(x);或受用户提供的控制参数T控制,用一个数学函数g(·,·),根据y和T计算出η=g(y,T),并将η作为判决结果送到建议产生器;所述的数学函数是一组由加、减、乘、除等算术运算、与或非等逻辑运算和大于、等于、小于等比较运算构成的数学公式;
(7)建议产生器,包括提取器、编辑器、比较器和计算器,建议产生器接受由判决器传来的判决结果η,选择进行下列动作的一种或全部:
-由提取器根据匹配成功的模板,从参数库中提取该模板的建议参数作为建议结果;
-如果没有成功匹配的模板,由比较器找出导致匹配失败的差别部分作为建议结果;
-***、删除、替换或交换成功匹配的模板P中的某些项,得到模板的一种新的物化k,由编辑器对这种新的物化,从参数库中取出参数xk,按由模板P确定的数学函数hp(·),由计算器计算yk=hp(Xk),对各种不同的物化k,比较产生使yk最大或最小的n个物化,或使yk>T1,或使yk<T2的所有物化作为建议结果,所述的n、T1、T2是建议产生器的预设参数,或由用户调节。
CN 93120009 1993-12-13 1993-12-13 多文种电子文稿的模板校对方法和装置 Pending CN1088011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 93120009 CN1088011A (zh) 1993-12-13 1993-12-13 多文种电子文稿的模板校对方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 93120009 CN1088011A (zh) 1993-12-13 1993-12-13 多文种电子文稿的模板校对方法和装置

Publications (1)

Publication Number Publication Date
CN1088011A true CN1088011A (zh) 1994-06-15

Family

ID=4993114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 93120009 Pending CN1088011A (zh) 1993-12-13 1993-12-13 多文种电子文稿的模板校对方法和装置

Country Status (1)

Country Link
CN (1) CN1088011A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100390815C (zh) * 2005-08-18 2008-05-28 北大方正集团有限公司 模板优化的字符识别方法和***
CN100511049C (zh) * 2003-01-09 2009-07-08 思科***公司 用于对任意大小的正则表达式估值的方法和装置
CN101430676B (zh) * 2007-11-05 2010-08-25 北大方正集团有限公司 一种电子校对方法、***及电子校对终端
CN101673256B (zh) * 2008-09-11 2012-10-31 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及***
CN102043763B (zh) * 2009-10-23 2015-12-02 北大方正集团有限公司 一种自动校对姓名的方法及装置
CN110309175A (zh) * 2018-03-02 2019-10-08 北大方正集团有限公司 工具书校验方法和工具书校验装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100511049C (zh) * 2003-01-09 2009-07-08 思科***公司 用于对任意大小的正则表达式估值的方法和装置
CN100390815C (zh) * 2005-08-18 2008-05-28 北大方正集团有限公司 模板优化的字符识别方法和***
CN101430676B (zh) * 2007-11-05 2010-08-25 北大方正集团有限公司 一种电子校对方法、***及电子校对终端
CN101673256B (zh) * 2008-09-11 2012-10-31 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及***
CN102043763B (zh) * 2009-10-23 2015-12-02 北大方正集团有限公司 一种自动校对姓名的方法及装置
CN110309175A (zh) * 2018-03-02 2019-10-08 北大方正集团有限公司 工具书校验方法和工具书校验装置
CN110309175B (zh) * 2018-03-02 2021-12-03 北大方正集团有限公司 工具书校验方法和工具书校验装置

Similar Documents

Publication Publication Date Title
Tiedemann Recycling translations: Extraction of lexical data from parallel corpora and their application in natural language processing
Oflazer et al. Building a Turkish treebank
CN103314369B (zh) 机器翻译装置和方法
CN1116342A (zh) 一种中文自动校对方法及其***
CN113609838A (zh) 文档信息抽取及图谱化方法和***
Khojasteh et al. LSCP: Enhanced large scale colloquial Persian language understanding
CN1088011A (zh) 多文种电子文稿的模板校对方法和装置
Gardent et al. Maurice gross' grammar lexicon and natural language processing
Petrova et al. Building and using a richly annotated interlinear diachronic corpus: The case of Old High German Tatian
Grønvik et al. What should the electronic dictionary do for you–and how?
Shi et al. Synonym-based query expansion and boosting-based re-ranking: A two-phase approach for genomic information retrieval
Vitkutė-Adžgauskienė et al. NLP infrastructure for the Lithuanian language
Pala et al. Automatic identification of legal terms in czech law texts
Malik et al. A Hierarchical Part of Speech Tag set for Saraiki Language
Miháltz Semantic resources and their applications in Hungarian natural language processing
Ghayoomi Training vs post-training cross-lingual word embedding approaches: A comparative study
Sanyala et al. A Study of aindra School of Sanskrit Grammar in the Light of Paninian Framework in Natural Language Processing
Osolsobe et al. A Procedure for Word Derivational Processes Concerning Lexicon Extension in Highly Inflected Languages.
Dozat Arc-factored Biaffine Dependency Parsing
Fischer Linguistically motivated ontology-based information retrieval
Loglo A Lexical Dependency Probability Model for Mongolian Based on Integration of Morphological and Syntactic Features
Chen et al. Question Classification using Multiple Kernel Learning and Semantic Information.
Fraj et al. Parsing Arabic Texts Using Real Patterns of Syntactic Trees
Fraj et al. Patterns of syntactic trees for parsing Arabic texts
Leech et al. Computers in English language research

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication