CN103324621B - 一种泰语文本拼写纠正方法及装置 - Google Patents

一种泰语文本拼写纠正方法及装置 Download PDF

Info

Publication number
CN103324621B
CN103324621B CN201210075190.4A CN201210075190A CN103324621B CN 103324621 B CN103324621 B CN 103324621B CN 201210075190 A CN201210075190 A CN 201210075190A CN 103324621 B CN103324621 B CN 103324621B
Authority
CN
China
Prior art keywords
text
thai
syllable
pronunciation
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210075190.4A
Other languages
English (en)
Other versions
CN103324621A (zh
Inventor
何径舟
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210075190.4A priority Critical patent/CN103324621B/zh
Publication of CN103324621A publication Critical patent/CN103324621A/zh
Application granted granted Critical
Publication of CN103324621B publication Critical patent/CN103324621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种泰语文本拼写纠正方法及装置。一种泰语文本拼写纠正方法包括:对待纠正文本进行音节切分;对切分出的音节进行读音泛化;在预置的词典中,查询与读音泛化结果相匹配的词条;将查询结果作为所述待纠正文本的纠正备选输出。本发明实施例所提供的技术方案,根据泰语中拼写不规范现象的实际产生原因,利用文本的读音特性对为用户的输入文本内容提供纠正备选,与现有技术中根据拼写相似性提供纠正备选的方案相比,更加适用于泰语的实际情况,能够在用户输入不规范拼写文本的情况下,更好地找到用户输入内容的规范形式,为用户提供纠正备选,提高纠正结果的可用性和准确性。

Description

一种泰语文本拼写纠正方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种泰语文本拼写纠正检查方法及装置。
背景技术
拼写检查,是指针对用户所输入的文本进行检查,找出其中可能存在错误的部分,或者进一步给出可能存在的纠错方案。拼写检查包括很多方面,对于不同的语言,拼写检查所包含的具体内容不同,例如,英文的拼写检查主要包括语法错误检查和单词拼写错误检查,中文的拼写检查则包括错别字、拼音词组输入错误等等。
对于泰语而言,语法相对简单,但是泰语中大量存在同一词条的不规范形式问题,即同一个词条,可能在实际书写时有多种拼写方法,这在外来语音译词上表现尤为明显。例如“电梯(英文lift)”,在泰语中都是同一意思;再如都是“邮件(email的意思)”。造成泰语这种不规范形式的原因主要是泰语用户习惯于根据音节发音来拼写单词,只要发音相同或近似,各种拼写方法都能被人阅读和理解。但对于计算机而言,由于在词典中很难覆盖同一单词的所有不规范写法,因此会给很多应用处理带来很***烦。
现有技术中,英文单词拼写检查及纠正的实现,主要是根据***自带词典的内容进行判断,如果用户输入的单词不属于词典词,则判断出错,并且将与用户输入内容拼写相似的单词提供给用户作为纠错备选。这种方法理论上可以用于泰语的拼写检查和纠正,然而根据前文所介绍的泰语实际情况,很多情况下并不是“拼写错误”,而是“不规范”的问题,根据拼写相似度提供纠错备选的方法,在实际应用中并不能很准确地找到用户输入内容的规范形式。
发明内容
为解决上述技术问题,本发明实施例提供一种泰语文本拼写纠正方法及装置,以实现将不规范的泰语拼写纠正为规范形式。技术方案如下:
一种泰语文本拼写纠正方法,包括:
对待纠正文本进行音节切分;
对切分出的音节进行读音泛化;
在预置的词典中,查询与读音泛化结果相匹配的词条;
将查询结果作为所述待纠正文本的纠正备选输出。
在本发明的一种实施方式中,所述对待纠正文本进行音节切分,包括:
利用预置的音节切分模型,对所述待纠正文本进行音节切分。
在本发明的一种实施方式中,所述音节切分模型的获得方法包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
根据字符训练语料,训练得到音节切分模型。
在本发明的一种实施方式中,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
在本发明的一种实施方式中,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
在本发明的一种实施方式中,所述对待纠正文本进行音节切分,包括:
利用预置的音节合并模板,对待纠正文本的字符进行合并后,得到音节切分结果。
在本发明的一种实施方式中,所述将查询结果作为所述待纠正文本的纠正备选输出,包括:
在查询到多个匹配词条的情况下,分别获取每个匹配词条的特征;
根据所获取的特征,分别计算每个匹配词条与待纠正文本的相似度;
根据相似度的大小,对多个匹配词条进行输出。
在本发明的一种实施方式中,所述匹配词条的特征包括:
匹配词条的独立特征、和/或匹配词条与待修正文本的联合特征。
在本发明的一种实施方式中,所述方法还包括:
在预置的词典中,对用户输入的文本进行查询,如果查询失败,则将用户输入文本确定为待纠正文本。
在本发明的一种实施方式中,所述方法还包括:
在对用户输入的文本进行查询之前,对用户输入的文本进行分词。
本发明还提供一种泰语文本拼写纠正装置,包括:
音节切分单元,用于对待纠正文本进行音节切分;
读音泛化单元,用于对切分出的音节进行读音泛化;
词典查询单元,用于在预置的词典中,查询与读音泛化结果相匹配的词条;
备选输出单元,用于将查询结果作为所述待纠正文本的纠正备选输出。
在本发明的一种实施方式中,所述音节切分单元,具体用于:
利用预置的音节切分模型,对所述待纠正文本进行音节切分。
在本发明的一种实施方式中,所述音节切分模型的获得方法包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
根据字符训练语料,训练得到音节切分模型。
在本发明的一种实施方式中,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
在本发明的一种实施方式中,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
在本发明的一种实施方式中,所述音节切分单元,具体用于:
利用预置的音节合并模板,对待纠正文本的字符进行合并后,得到音节切分结果。
在本发明的一种实施方式中,所述备选输出单元,包括:
特征获取子单元,用于在查询到多个匹配词条的情况下,分别提取每个匹配词条的特征;
相似度计算子单元,用于根据所获取的特征,分别计算每个匹配词条与待纠正文本的相似度;
输入子单元,用于根据相似度的大小,对多个匹配词条进行输出。
在本发明的一种实施方式中,所述匹配词条的特征包括:
匹配词条的独立特征、和/或匹配词条与待修正文本的联合特征。
在本发明的一种实施方式中,所述装置还包括:
拼写检查单元,用于在预置的词典中,对用户输入的文本进行查询,如果查询失败,则将用户输入文本确定为待纠正文本。
在本发明的一种实施方式中,所述装置还包括:
分词单元,用于在对用户输入的文本进行查询之前,对用户输入的文本进行分词。
本发明实施例所提供的技术方案,根据泰语中拼写不规范现象的实际产生原因,利用文本的读音特性对为用户的输入文本内容提供纠正备选,与现有技术中根据拼写相似性提供纠正备选的方案相比,更加适用于泰语的实际情况,能够在用户输入不规范拼写文本的情况下,更好地找到用户输入内容的规范形式,为用户提供纠正备选,提高纠正结果的可用性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例泰语文本拼写纠正方法的流程图;
图2为本发明实施例泰语文本拼写纠正装置的第一种结构示意图;
图3为本发明实施例泰语文本拼写纠正装置的第二种结构示意图;
图4为本发明实施例泰语文本拼写纠正装置的第三种结构示意图;
具体实施方式
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
在泰语中,同一个词条,可能在实际书写时有多种拼写方法,造成这种不规范形式的原因主要是泰语用户习惯于根据音节发音来拼写单词,只要发音相同或近似,各种拼写方法都能被人阅读和理解。但对于计算机而言,由于在词典中很难覆盖同一单词的所有不规范写法,因此会给很多应用处理带来很***烦。例如,对于(电话)一词,在实际应用中,可能漏掉音调写成也可能将最后一个辅音写错为这种情况会给实际应用带来很多麻烦。
针对泰语单词拼写不规范的实际情况,本发明提供一种泰语文本拼写纠正方法,从而实现将不规范的泰语拼写纠正为规范形式,该方法可以包括以下步骤:
对待纠正文本进行音节切分;
对切分出的音节进行读音泛化;
在预置的词典中,查询与读音泛化结果相匹配的词条;
将查询结果作为所述待纠正文本的纠正备选输出。
泰语中的音节,是指符合泰语音律规则的单独发音单元,一般由若干个辅音、元音、音调字符组成。而一个泰语单词则可能由一个或多个音节组成。由于泰语的不规范问题一般是相同或相似读音的不同拼写,因此,在本发明的方案中,以音节为单位对不规范拼写进行切分,然后利用读音泛化技术,在词典中查找与不规范拼写具有相同或相似读音的的规范词条,如果能够查找到相匹配的结果,则该结果有很大可能就是不规则拼写的规范形式,可以作为纠正备选供用户进行选择。
下面结合具体的实施例,对本发明所提供的方案进行详细说明:
图1所示,为本发明一种泰语文本拼写纠正方法的流程示意图,可以包括以下步骤:
S101,对待纠正文本进行音节切分;
泰语中的音节,是指符合泰语音律规则的单独发音单元,一般由若干个辅音、元音、音调字符组成。而一个泰语单词则可能由一个或多个音节组成,例如:
(查找)由一个音节组成;(地址)由两个音节组成;(电话)由两个音节组成;
……
根据泰语的词法规则,其字符类型包括以下3类:
辅音,例如等、
元音,例如等、
音调,例如
而在本发明中,根据字符在音节中的位置,将上述3类字符进一步细分为7类,如表1所示:
表1
在本步骤中,对泰语单词以音节为单位进行切分,由于在泰语中并不存在明显的针对音节的天然切分,本发明提供两种泰语音节切分方式,以下分别进行介绍:
1)利用模型方法对泰语词条进行切分:
本发明以CRF(Conditional Random Fields,条件随机场)方法建立音节切分模型,其中,根据泰语的特点,以字符作为标注单元,建立CRF模型,利用CRF的动态切分能力,可以解决泰语的不规范形式问题。
CRF模型在中文切词中已经广泛应用,具体来说,如果将字在词中的位置作为标签,可以将切词问题看作基于字的序列标注问题,例如:“喜羊羊与灰太狼”如果切分为“喜羊羊|与|灰太狼”的话,对应的标注序列就为:
“喜/B 羊/M 羊/E 与/S 灰/B 太/M 狼/E”,
其中B、M、E、S分别表示字在词的开头、中间、结尾、单独成词。
可见,中文直接采用汉字作为序列标注的单元,而在本发明中,根据泰语的特点,所采用的序列标注单元是泰语字符。
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;然后根据字符训练语料,训练得到音节切分模型。
首先人工或者半自动标注一批泰语句子,然后以字位(B、M、E分别表示字符位于音节开头、中间、结尾)作为标注标签,字符本身、字符类型标签作为特征,生成训练语料。之所以引入字符类别,是因为字符类别可以将原本稀疏的字符特征加以泛化,在少量训练语料的情况下获得较好的模型效果。
这样的音节切分为例,转换为序列标注训练语料格式如下:
其中,第一列是泰语字符;第二列是泰语字符类型,其中包括可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调共7类,具体定义可参见表1;第三列是分类标注。
经过CRF训练生成音节切分模型后,就可以对待纠正文本进行音节切分。
2)利用预置模板的方法对泰语词条进行音节切分。
通过统计发现,泰语音节的构成方式是存在一定规律的,将这些规律整理出来,可以得到多个音节合并模板。一个动态识别音节的模版规则子集示例如下:
BCons USara BCons Cons Tone
Cons DSara Cons Cons USara
Cons Cons DSara Tone Cons
Cons Cons USara Tone Cons
FSara Cons USara BCons
FSara Cons Tone TSara
FSara Cons Tone BCons
FSara Cons Cons USara
FSara Cons Cons BCons
Fara Cons BCons Tone
在本步骤中,对于待纠正的泰语词条,首先将其切分为单个字符。然后,对于零散的泰语字符串,就可以通过模板匹配的方式,判断其是否能够构成一个或多个音节单位,从而将零散的泰语字符以音节为单位进行重新组合。
S102,对切分出的音节进行读音泛化;
读音泛化的目的是将发音类似、不同写法的音节泛化为相同的读音,从而达到模糊匹配的目的,目前泰语已经存在一些较为成熟的泰语读音泛化技术,如Soundex算法等,在本发明中,对读音泛化的具体实现方式不需要进行限定。
S103,在预置的词典中,查询与读音泛化结果相匹配的词条;
为了实现读音泛化结果的匹配,可以先对现有的词典进行改造,为每个词典词添加读音泛化信息。
首先,可以使用S101中所提供的模型方法或模板方法对词典词进行切分,从而建立词典词的音节切分信息,当然,在实际应用中,也可以人工对词典词进行音节切分,或者以人工的方式对机器自动切分的结果进行校对。
然后,词典词的音节切分结果进行读音泛化,为词典词的每个音节添加读音泛化信息。
为了便于查询,还可以进一步根据读音泛化信息建立索引。
就建立了具有读音泛化信息的词典之后,对于待校正的泰语文本,就可以在词典中查询是否存在与其读音泛化信息相匹配的词。
S104,将查询结果作为所述待纠正文本的纠正备选输出。
如果在S103中查询到了与待校正的文本读音泛化信息相匹配的词典词,就可以将查询结果作为纠正备选输出。
在存在多个匹配词条的情况下,可能会涉及对多个词条进行决策的问题,例如自动纠正功能,或者对多个候选结果的排序。此时可以分别获取每个匹配词条的特征,根据这些特征计算每个候选结果与待纠正文本的相似度(分类置信度),然后根据相似度的大小输出纠正备选,例如对多个候选结果进行排序、或者直接选用相似度最高的候选结果进行自动纠正,等等。
在实际应用中,可以利用的匹配词条特征有很多种,具体可以分为两大类:
1)匹配词条的独立特征:
这类特征仅与匹配词条自身有关,例如,该词条的query检索频次、query返回结果数、SE检索频次、SE返回结果数等等。
2)匹配词条与待修正文本的联合特征:
这类特征同时与匹配词条与待纠正文本有关,例如,二者的编辑距离、字符长度差,字符长度比值、共现度、字符形相似度、检索频次比值、返回结果数比值等等。
以上任意一种特征,都可以单独用于确定相似度,也可以选取多维特征来确定字符相似度,在本发明的一个优选实施例中,可以采用采用可输出分类置信度的机器学习方法(如最大熵、Logistic回归等)预先训练模型,得到每种特征对于相似度的影响,然后将实际获取的特征代入模型计算匹配词条与待修正文本的相似度。
以上介绍了本发明所提供的泰语文本拼写纠正方法的完整方案,可以理解的是,以上方案是在已经确定待纠正文本的前提下进行。其中待纠正文本的确定方式,可以是先对用户输入内容进行错误检查,例如在预置的词典中,对用户输入的文本进行查询,如果查询失败,即发现某个泰语词条不是规范形式(不属于词典词),那么可以确定该词条为待纠正文本。
此外,由于泰语中没有空格这样的天然切分标志,甚至连标点符号也很少,因此,在本发明的优选实施方式中,还可以先对用户输入的文本进行切词处理,其中,泰语切词的具体实现可以采用词典匹配的方法,或者模型切词方法等等,在本发明中,对此并不需要进行限定。
下面将以一个实际的例子,对上述提供的泰语文本纠正方法进行说明:
1)词典处理:
假设泰语词典中有以下词条:
(互联网)
(体育)
(行进)
首先对每个词典词进行音节切分,得到词典词的音节切分信息:
然后对每个音节进行读音泛化,将每个单词以读音泛化标识表示(以下读音泛化标识仅作示例):
为了便于查询,还可以进一步根据读音泛化信息建立索引:
这样,就建立了具有读音泛化信息的词典。
2)纠正处理:
2.1)假设确定待纠正词条为(互联网的不规范形式),注意该词与词典中的规范形式不同。
通过音节切分和读音泛化,得到待纠正词条的读音泛化结果为:
通过查询词典中读音索引,得到具有相同读音泛化结果的候选由于只有一个候选,所以可直接作为纠正结果。
2.2)假设确定待纠正词条为
通过音节切分和读音泛化,得到待纠正词条的读音泛化结果为:
通过查询词典中读音索引,得到具有相同读音泛化结果的候选包括由于候选多于一个,因此可以进行相似度计算。对于识别候选分别提取特征,并根据模型计算分类置信度(相似度)。
本发明以Logistic回归模型为例进行说明:
Logistic回归是一种采用给定的一组特征参数,预测某个事件发生概率的模型。简单来说,Logistic回归就是一个计算概率的方程式:
其中z=β01x12x23x3+…+βkxk,x1,x2,x3即为抽取的特征,β1,β2,β3为各特征的回归系数。
预先选定一个或多个特征,并准备好一批训练语料,以最大似然估计训练出一个带参数值的Logistic模型(方程式)。将该模型用于后续分类计算,即对于给定实例,将特征值带入方程式,计算出z>0(对应f(z)>50%)是说明分类为正,否则分类为负;而z的具体值则可认为是分类置信度。
假设选定的特征包括:词长比(词典词/待纠正词)、编辑距离、检索结果数,经过训练得到对应的回归系数)如表2所示:
回归系数 特征 系数值
β0 -0.41
β1 词长比 -2.3395
β2 编辑距离 -0.3142
β3 检索结果数取自然对数 0.2981
表2
将候选的特征值分别代入公式:
z=β01x12x23x3+…+βkxk
得到二者的分类置信度:
x1:词长比 1.0
x2:编辑距离 1
x3:检索结果数取自然对数 log(3,210,000)
z:分类置信度 1.4
x1:词长比 1.0
x2:编辑距离 1
x3:检索结果数取自然对数 log(108,000)
z:分类置信度 0.39
可见,根据计算结果,认为待纠正词条与词典词更为相似,该结果可以用于自动纠正、或者候选结果的排序等功能。
相应于上面的方法实施例,本发明还提供一种泰语文本拼写纠正装置,参见图2所示,该装置可以包括:
音节切分单元210,用于对待纠正文本进行音节切分;
读音泛化单元220,用于对切分出的音节进行读音泛化;
词典查询单元230,用于在预置的词典中,查询与读音泛化结果相匹配的词条;
备选输出单元240,用于将查询结果作为所述待纠正文本的纠正备选输出。
在本发明的一种实施方式中,所述音节切分单元210,具体可以用于:
利用预置的音节切分模型,对所述待纠正文本进行音节切分。
其中,所述音节切分模型的获得方法包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料;
根据字符训练语料,训练得到音节切分模型。
所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
在本发明的一种实施方式中,所述音节切分单元210,还可以具体用于:
利用预置的音节合并模板,对待纠正文本的字符进行合并后,得到音节切分结果。
在本发明的一种实施方式中,所述备选输出单元240,可以包括:
特征获取子单元,用于在查询到多个匹配词条的情况下,分别提取每个匹配词条的特征;
相似度计算子单元,用于根据所获取的特征,分别计算每个匹配词条与待纠正文本的相似度;
输入子单元,用于根据相似度的大小,对多个匹配词条进行输出。
其中,所述匹配词条的特征可以包括:
匹配词条的独立特征、和/或匹配词条与待修正文本的联合特征。
参见图3所示,本发明所提供的泰语文本拼写纠正装置,还可以进一步包括:
拼写检查单元250,用于在预置的词典中,对用户输入的文本进行查询,如果查询失败,则将用户输入文本确定为待纠正文本。
参见图3所示,本发明所提供的泰语文本拼写纠正装置,还可以进一步包括:
分词单元260,用于在对用户输入的文本进行查询之前,对用户输入的文本进行分词。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种泰语文本拼写纠正方法,其特征在于,包括:
以音节为单位,对待纠正文本进行音节切分;
对切分出的音节进行读音泛化,包括:采用Soundex算法进行读音泛化;
在预置的词典中,查询与读音泛化结果相匹配的词条;
将查询结果作为所述待纠正文本的纠正备选输出;
其中,所述对待纠正文本进行音节切分,包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料,包括:人工或者半自动标注一批泰语句子,以字位作为标注标签,字符本身、字符类型标签作为特征,生成字符训练语料;
根据字符训练语料,训练得到音节切分模型;
利用音节切分模型,对所述待纠正文本进行音节切分。
2.根据权利要求1所述的方法,其特征在于,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
3.根据权利要求1所述的方法,其特征在于,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
4.根据权利要求1所述的方法,其特征在于,所述对待纠正文本进行音节切分,还包括:
利用预置的音节合并模板,对待纠正文本的字符进行合并后,得到音节切分结果。
5.根据权利要求1所述的方法,其特征在于,所述将查询结果作为所述待纠正文本的纠正备选输出,包括:
在查询到多个匹配词条的情况下,分别获取每个匹配词条的特征;
根据所获取的特征,分别计算每个匹配词条与待纠正文本的相似度;
根据相似度的大小,对多个匹配词条进行输出。
6.根据权利要求1所述的方法,其特征在于,所述匹配词条的特征包括:
匹配词条的独立特征、和/或匹配词条与待修正文本的联合特征。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预置的词典中,对用户输入的文本进行查询,如果查询失败,则将用户输入文本确定为待纠正文本。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在对用户输入的文本进行查询之前,对用户输入的文本进行分词。
9.一种泰语文本拼写纠正装置,其特征在于,包括:
音节切分单元,用于以音节为单位,对待纠正文本进行音节切分;
读音泛化单元,用于对切分出的音节进行读音泛化,包括:采用Soundex算法进行读音泛化;
词典查询单元,用于在预置的词典中,查询与读音泛化结果相匹配的词条;
备选输出单元,用于将查询结果作为所述待纠正文本的纠正备选输出;
所述音节切分单元,具体用于:
利用预置的音节切分模型,对所述待纠正文本进行音节切分;
所述音节切分模型的获得方法包括:
根据泰语字符在泰语音节中的位置及字符类型,对泰语语料进行标注,得到字符训练语料,包括:人工或者半自动标注一批泰语句子,以字位作为标注标签,字符本身、字符类型标签作为特征,生成字符训练语料;
根据字符训练语料,训练得到音节切分模型。
10.根据权利要求9所述的装置,其特征在于,所述泰语字符在泰语音节中的位置,包括:
位于开头、位于中间、和位于结尾。
11.根据权利要求9所述的装置,其特征在于,所述泰语字符的类型包括:
可做开头的辅音、一般辅音、前元音、上元音、下元音、尾元音、和声调。
12.根据权利要求9所述的装置,其特征在于,所述音节切分单元,具体用于:
利用预置的音节合并模板,对待纠正文本的字符进行合并后,得到音节切分结果。
13.根据权利要求9所述的装置,其特征在于,所述备选输出单元,包括:
特征获取子单元,用于在查询到多个匹配词条的情况下,分别提取每个匹配词条的特征;
相似度计算子单元,用于根据所获取的特征,分别计算每个匹配词条与待纠正文本的相似度;
输入子单元,用于根据相似度的大小,对多个匹配词条进行输出。
14.根据权利要求9所述的装置,其特征在于,所述匹配词条的特征包括:
匹配词条的独立特征、和/或匹配词条与待修正文本的联合特征。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
拼写检查单元,用于在预置的词典中,对用户输入的文本进行查询,如果查询失败,则将用户输入文本确定为待纠正文本。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
分词单元,用于在对用户输入的文本进行查询之前,对用户输入的文本进行分词。
CN201210075190.4A 2012-03-21 2012-03-21 一种泰语文本拼写纠正方法及装置 Active CN103324621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210075190.4A CN103324621B (zh) 2012-03-21 2012-03-21 一种泰语文本拼写纠正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210075190.4A CN103324621B (zh) 2012-03-21 2012-03-21 一种泰语文本拼写纠正方法及装置

Publications (2)

Publication Number Publication Date
CN103324621A CN103324621A (zh) 2013-09-25
CN103324621B true CN103324621B (zh) 2017-08-25

Family

ID=49193369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210075190.4A Active CN103324621B (zh) 2012-03-21 2012-03-21 一种泰语文本拼写纠正方法及装置

Country Status (1)

Country Link
CN (1) CN103324621B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050255B (zh) * 2014-06-13 2017-10-03 上海交通大学 基于联合图模型的纠错方法及***
CN105302793A (zh) * 2015-10-21 2016-02-03 南方电网科学研究院有限责任公司 一种利用计算机自动评价科技文献新颖性的方法
CN105824800B (zh) * 2016-03-15 2018-06-26 江苏科技大学 一种中文真词错误自动校对方法
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN107967259A (zh) * 2017-11-27 2018-04-27 传神语联网网络科技股份有限公司 泰语音节切分的方法及装置
CN108197625A (zh) * 2017-12-18 2018-06-22 北京云星宇交通科技股份有限公司 一种校正车牌识别的方法及***
CN108804414A (zh) * 2018-05-04 2018-11-13 科沃斯商用机器人有限公司 文本修正方法、装置、智能设备及可读存储介质
CN109145276A (zh) * 2018-08-14 2019-01-04 杭州智语网络科技有限公司 一种基于拼音的语音转文字后的文本校正方法
CN112329446B (zh) * 2019-07-17 2023-05-23 北方工业大学 一种中文拼写的检查方法
CN112000767A (zh) * 2020-07-31 2020-11-27 深思考人工智能科技(上海)有限公司 一种基于文本的信息抽取方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN101288046A (zh) * 2005-08-11 2008-10-15 亚马逊技术有限公司 通过分析用户的自校正搜索行为识别搜索字符串的备选拼写
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置
CN101288046A (zh) * 2005-08-11 2008-10-15 亚马逊技术有限公司 通过分析用户的自校正搜索行为识别搜索字符串的备选拼写

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chutima Pisarn等.《Thai spelling analysis for automatic spelling speech recognition》.《Information Sciences》.2008,第178卷(第1期),第122-136页. *

Also Published As

Publication number Publication date
CN103324621A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
US10120861B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和***
JP5356197B2 (ja) 単語意味関係抽出装置
US10496756B2 (en) Sentence creation system
US9646512B2 (en) System and method for automated teaching of languages based on frequency of syntactic models
CN108073565A (zh) 词语规范化的方法和设备及机器翻译方法和设备
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN107870901A (zh) 从翻译源原文生成相似文的方法、程序、装置以及***
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN105760359B (zh) 问句处理***及其方法
JP2011118689A (ja) 検索方法及びシステム
CN107247613A (zh) 语句解析方法及语句解析装置
CN110309513B (zh) 一种文本依存分析的方法和装置
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
KR20120042562A (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
CN106681982B (zh) 英文长篇小说摘要生成方法
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
Phyu et al. Domain adaptive information extraction using link grammar and wordnet
CN116226677B (zh) 平行语料构建方法及装置、存储介质及电子设备
CN114492415A (zh) 一种基于图模型的文本分词提取方法、***及应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant