CN111178009B

CN111178009B - 一种基于特征词加权的文本多语种识别方法

Info

Publication number: CN111178009B
Application number: CN201911324134.8A
Authority: CN
Inventors: 杜权; 毕东
Original assignee: Shenyang Yayi Network Technology Co ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-05-09
Anticipated expiration: 2039-12-20
Also published as: CN111178009A

Abstract

本发明公开一种基于特征词加权的文本多语种识别方法，步骤为：数据预处理，得到泛化语料；利用泛化语料进行N‑Gram语言模型训练；利用泛化语料进行分词处理得到分词数据，通过词频统计选取频次前5％的词并去重，生成各个语种的特征词表；特征词权重训练，在开发集数据上，采用随机梯度下降法对特征词表中的特征词进行权重训练；语种相似度计算，输入泛化后的待识别文本，计算待识别文本的字节长度比，选择语言模型进行语种相似度计算，相似度得分最高的语种即为最终识别结果。本发明能够准确高效的对文本所属语种进行识别，能够识别语种的数量也远超于大多数文本语种识别方法，在具备语种数据的前提下，可以对识别语种数量进行不断的扩充。

Description

一种基于特征词加权的文本多语种识别方法

技术领域

本发明涉及语种识别方法，具体为一种基于特征词加权的文本多语种识别方法。

背景技术

语言是人类最重要的交际工具，是人们进行沟通的主要表达方式。人们借助语言保存和传递人类文明的成果。而文字作为语言视觉化的表现，突破口语的时间和空间的限制，文字是人类可以在书面上完整地传承人类的智慧和精神财富，使人类能够完善教育体系，提高自己的智慧，发展科学技术，进入文明社会。

世界上的语言有5000余种，其中中文是世界上使用人口最多的语言，中文和英语是世界上使用最广泛的语言，但是还存在只有几千至几百人使用的语言，比如美洲的土著印第安语，中国的赫哲语。不同国家民族的人们使用语言的习惯有所不同，这些语言也具有不同的特征。正是因为语言具备差异性和复杂性的特点，有多种分类标准。其中，语言学家们按照世界上的语言相似程度将其分为语系、语族、语支和语种，在中国北京大学的语言分类法中，将世界语言分类为13个语系，45个语族。那么，在进行语种识别时，根据语言的特性进行相应的语言分析，不同语系的语种识别对相对容易，但是由于语种的复杂性，对于同语系内相似度程度高的语种进行语种识别可能非常困难。

在自然语言处理中，文本语种识别是根据给定文本内容判断是哪种语言。随着跨语言检索技术的发展，作为其核心技术的文本语种识别研究开始受到关注，文本多语种识别技术主要应用在机器翻译和多语言检索任务上。目前，文本多语种识别的研究主要是基于规则的方法和基于机器学习的方法。基于规则的方法需要人工总结归纳得到语言规则，然后进行字符串匹配，需要大量专业的语言学家对语言进行分析，并且准确率难以保障。

基于机器学习的方法大多基于N-Gram语言模型的文本多语种识别和基于神经网络的文本多语种识别，与基于规则的方法相比，基于机器学习的文本多语种识别方法具有较高的准确率且节省大量人力资源。但是该方法对于相同语系的不同语种的文本识别准确率还有进一步提高空间。例如：葡萄牙语和西班牙语同属“印欧语系-罗曼语族-西罗曼语支”，均由拉丁文构成，例句：“1.她用晚餐之前总是先关窗户。”和“2.文本语种识别是一项复杂的研究工作。”，翻译后为：

1.Ela fecha sempre a janela antes de jantar.(葡萄牙语)

1.Ella cierra siempre la ventana antes de cenar.(西班牙语)

2.O reconhecimento de linguagemtextualéum trabalho de pesquisacomplexo.(葡萄牙语)

2.El reconocimiento del lenguaje textual es un trabajo de investigación complejo.(西班牙语)

发现，葡萄牙语和西班牙语之间书写相近，其中很多的单词拼写方式都相同。语种之间的差异性越小，那么采用传统的机器学习方法进行文本语种识别会越差。

发明内容

针对现有的文本语种识别方法在实际使用中对同语系相似语种的识别准确率低、文本语种识别速度慢等问题，本发明要解决的问题是提供基于特征词加权的文本多语种识别方法，能够快速准确的对文本内容所属语种进行识别，并且具备实现简单、鲁棒性高等特点。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种基于特征词加权的文本多语种识别方法，包括以下步骤：

1)数据预处理，包括对多个语种的泛化预处理，得到泛化语料；

2)利用泛化语料进行N-Gram语言模型训练，其中单字节语种训练5-Gram语言模型，多字节语种训练3-Gram语言模型；

3)利用泛化语料进行分词处理得到分词数据，通过词频统计选取频次前5％的词并去重，生成各个语种的特征词表；

4)特征词权重训练，在开发集数据上，采用随机梯度下降法对特征词表中的特征词进行权重训练；

5)语种相似度计算，输入泛化后的待识别文本，计算待识别文本的字节长度比，选择语言模型进行语种相似度计算，相似度得分最高的语种即为最终识别结果。

步骤1)中，数据的预处理包括：

101)将各个语种数据按照8:1:1分为训练集、测试集和开发集数据，对训练集、测试集和开发集数据进行泛化预处理；

102)泛化预处理，包括大写字母小写化、数字替换和标点替换；

步骤2)中，N-Gram语言模型为：

假设当前字X_n+1出现的概率与其前n个字有关，而与过去的字无关，即为n+1阶语言模型模型；当前字X_n+1出现的概率P(X_n+1|X₁X₂...X_n)仅仅依赖于前面两个字X_n-1和X_n，公式为：

P(X_n+1|X₁X₂...X_n)＝P(X_n+1|X_nX_n-1)

在计算P(X_n+1|X₁X₂...X_n)转移概率时，采用极大似然估计法进行求解，公式如下，其中C(X₁X₂...X_n)表示X₁X₂...X_n出现次数：

N-Gram语言模型的输入数据获取采用滑动窗口方法,通过沿着句子拖动一个为n的窗口，然后建立用于训练N-Gram模型的字序列；

定义英语、法语和西班牙语等语种为单字节语种，中文、日语和韩语等语种为多字节语种。

步骤3)中，根据其语言特点选取不同的分词方法进行分词预处理，具体为：

中文、日语、韩语、泰语没有明显的词语标记，采用基于语言模型的词语切分方法进行词语切分；与英语同语系的语种本身包含空格，按照空格标点切分即可，同时注意关键词。

步骤3)中，词频是指某一个给定的词语在该数据中出现的次数，词频统计即为该数据中所有的词语出现次数的统计。

生成特征词表包括：

对数据进行泛化预处理和分词预处理后进行词频统计，选取每个语种频次前5％的词语生成该语种的初始化特征词表；在所有语种的初始化特征词表集合内对各个语种的初始化特征词表去重，最后得到具有唯一性的特征词表。

步骤5)中，语种相似度计算包括：

501)计算相似度前，泛化处理输入文本数据；

502)计算泛化处理后文本的字节长度比，确定待识别文本是单字节语种还是多字节语种；

503)特征词定位，根据各个语种特征词长度不同，采用反向最大长度匹配算法对待识别文本中特征词进行定位；

504)使用语种相似度算法计算各个语种的相似度得分，相似度得分取最大值，该值所对应语种即为最后识别结果。

步骤502)中，计算待识别文本的字节长度比，与英语同语系语种中一个字母占一个字节，中文、日语、韩语和泰语中一个字占多个字节，根据字节长度比判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度，通过计算字节长度比在进行语种相似度前进行剪枝处理，提高语种识别速度；字节长度比计算公式:

其中，len(str)为字符长度，len(str.encode())为字节长度，len_rate为字节长度比(len_rate≥1)。

步骤503)中，反向最大长度匹配算法根据特征词表，从后向前进行匹配，若匹配到特征词就返回当前词位置，若没有则减少最左面一个字继续匹配，直至待识别文本所有句子完成匹配，具体步骤如下：

50301)将待识别文本按照标点切分，作为句子集合；

50302)在句子未匹配部分的末尾截取特征词表中最长词长度的文本；

50303)将截取的文本在特征词表中进行匹配；

50304)若匹配成功，返回该词所在位置并返回50302)，直至全部句子匹配结束；

50305)若未匹配成功，去掉该句的最左面的一个字，返回50303)。

步骤504)中，文本语种相似度概率计算公式如下：

P(s)＝∑p(x_i)+∑λp(x_j)

其中，λ为特征词权重(λ>1)，p(x_i)为非特征词转移概率，p(x_j)为特征词转移概率，P(s)为语种相似度概率。

本发明具有以下有益效果及优点：

1.本发明提出的一种基于特征词加权的文本多语种识别方法，能够准确高效的对文本所属语种进行识别，并且本方法能够识别语种的数量也远超于大多数文本语种识别方法，在具备语种数据的前提下，可以对识别语种数量进行不断的扩充；

2.本发明方法生特征词表，基于特征词加权的文本语种识别方法对于同语系内相似程度高的语种识别准确度远超一般方法；

3.本发明方法中定义了单字节语种和多字节语种，使用字节长度比阈值对语种相似度计算进行剪枝，优化了文本语种相似度算法，大大提高了文本多语种识别的速度。

附图说明

图1为本发明方法涉及的滑动窗口方法获取N-Gram语言模型输入数据；

图2为本发明中语种相似度算法流程图。

具体实施方式

下面结合说明图对本发明进一步阐述。

本发明提出一种基于特征词加权的文本语种识别方法，在特征词的基础上进行语种相似度计算，实现了文本多语种快速准确的识别。同时，本发明中定义了单字节语种和多字节语种，使用字节长度比阈值对语种相似度计算进行剪枝，优化了文本语种相似度算法，提高了文本多语种识别的速度。

2)利用泛化语料进行N-Gram语言模型训练，其中单字节语种(英语、法语、西班牙语、葡萄牙语)训练5-Gram语言模型，多字节语种(中文、日语、韩语)训练3-Gram语言模型；

步骤1)中，数据的预处理包括：

102)为降低N-Gram语言模型的复杂度，对训练N-Gram语言模型的数据进行泛化预处理，包括大写字母小写化、数字替换和标点替换。

例如，英文数据：“A scientist took home$25,000from a national sciencecompetition for inventing a liquid bandage that could replace antibiotics.”

泛化后：“a scientist took home@punc@num from a national sciencecompetition for inventing a liquid bandage that could replace antibiotics@punc”

步骤2)中，N-Gram语言模型为：

P(X_n+1|X₁X₂...X_n)＝P(X_n+1|X_nX_n-1)

在计算P(X_n+1|X₁X₂...X_n)转移概率时，采用极大似然估计法进行求解，公式如下，其中C(X₁X₂…X_n)表示X₁X₂…X_n出现次数：

N-Gram语言模型的输入数据获取选用滑动窗口方法，如图1所示。通过沿着句子拖动一个为n的窗口，然后建立用于训练N-Gram模型的字序列，例如在中文字序列“文本语”中，“文本”为当前字的字序列，“语”为下一字的字序列，当前字和下一字的字序列共同作为N-Gram语言模型的输入。N-Gram语言模型特点是随着阶数的增大其计算数量级呈指数上升趋势，并且伴随着数据稀疏性程度增大和模型的复杂度增大。其中，单字节语种训练单字节语种训练5-Gram语言模型，即当前字长度为4个字，下一字长度为1个字；多字节语种训练3-Gram语言模型，即当前字长度为2个字，下一字长度为1个字。

步骤3)中，词频是指某一个给定的词语在该数据中出现的次数，词频统计即为该数据中所有的词语出现次数的统计，词频统计的数据需要经过泛化预处理和分词预处理。

根据其语言特点选取不同的分词方法进行分词预处理，具体为：

中文、日语、韩语、泰语等语言没有明显的词语标记，采用基于语言模型的词语切分方法进行词语切分；与英语同语系的语种等语言本身包含空格，按照空格标点切分即可，同时注意关键词等问题。

生成特征词表包括：

对数据进行词频统计后，选取每个语种频次前5％的词语生成该语种的初始化特征词表；为保证特征词表的有效性需要进行去重处理，初始化特征词表的去重要在所有语种的初始化特征词表集合内去重，最后得到特征词表，保证每个语种生成的特征词表内特征词的唯一性。

步骤4)中，特征词权重训练使用开发集数据进行训练。采用随机梯度下降法进行特征词权重的训练。在随机梯度下降参数训练中，设置迭代次数1000，步长为0.001。目标函数如下，其中，x_j代表特征词，x_i代表非特征词，θ代表特征词权重。

h(θ)＝x_i+θx_j

步骤5)中，计算语种相似度，最终输入识别文本所属语种，其具体流程如图2所示。

501)计算相似度前，泛化处理输入文本数据；

503)特征词定位，采用反向最大长度匹配算法对待识别文本中特征词进行定位；

504)使用语种相似度算法计算各个语种的相似度得分，相似度得分取Max后，该值所对应语种即为最后识别结果。

步骤502)中，计算待识别文本的字节长度比，英语、法语等语种中一个字母占一个字节，中文、日语等语种中一个字占多个字节，根据字节长度比可以判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度，通过计算字节长度比可以在进行语种相似度前进行剪枝处理，提高语种识别速度，字节长度比计算公式:

步骤503)中，反向最大长度匹配算法思想：根据特征词表，从句右到句左进行匹配，若匹配到特征词就返回当前词位置，若没有则减少最左面一个字继续匹配，直至待识别文本所有句子完成匹配。具体步骤如下：

50301)将待识别文本按照标点切分，作为句子集合；

50303)将截取的文本在特征词表中进行匹配；

步骤504)中，文本语种相似度计算公式如下：

P(s)＝∑p(x_i)+∑λp(x_j)

下面以中文、英语、日语等13个语种的文本语种识别示例进行说明，通过使用基于特征词加权的文本对语种识别方法对13个不同语种的测试文本进行验证，发现识别结果全部正确。

文本多语种识别结果示例

通过上述实验案例表明，本发明方法可对包括中文、日语、韩语、英语、法语、西班牙语、葡萄牙语、意大利语、***语、俄语、泰语、越南语等语种文本准确识别，其中在语种相似度非常高葡萄牙语文本和西班牙文本同样能够准确的识别；本方法能够识别语种的数量也远超于大多数文本语种识别方法，在具备语种数据的前提下，可以对识别语种数量进行不断的扩充；此外使用字节长度比阈值优化了文本语种相似度算法，使得文本多语种识别速度远超于一般方法，并且具备实现简单、鲁棒性高等特点。

Claims

1.一种基于特征词加权的文本多语种识别方法，其特征在于包括以下步骤：

5)语种相似度计算，输入泛化后的待识别文本，计算待识别文本的字节长度比，选择语言模型进行语种相似度计算，相似度得分最高的语种即为最终识别结果；

字节长度比计算公式：

2.根据权利要求1所述的基于特征词加权的文本多语种识别方法，其特征在于步骤1)中，数据的预处理包括：

102)泛化预处理，包括大写字母小写化、数字替换和标点替换。

3.根据权利要求1所述的基于特征词加权的文本多语种识别方法，其特征在于步骤2)中，N-Gram语言模型为：

P(X_n+1|X₁X₂...X_n)＝P(X_n+1|X_nX_n-1)

定义英语、法语和西班牙语语种为单字节语种，中文、日语和韩语语种为多字节语种。

4.根据权利要求1所述的基于特征词加权的文本多语种识别方法，其特征在于步骤3)中，根据其语言特点选取不同的分词方法进行分词预处理，具体为：

5.根据权利要求1所述的基于特征词加权的文本多语种识别方法，其特征在于步骤3)中，词频是指某一个给定的词语在该数据中出现的次数，词频统计即为该数据中所有的词语出现次数的统计；

生成特征词表包括：

6.根据权利要求1所述的基于特征词加权的文本多语种识别方法，其特征在于步骤5)中，语种相似度计算包括：

501)计算相似度前，泛化处理输入文本数据；

7.根据权利要求5所述的基于特征词加权的文本多语种识别方法，其特征在于步骤502)中，计算待识别文本的字节长度比，与英语同语系语种中一个字母占一个字节，中文、日语、韩语和泰语中一个字占多个字节，根据字节长度比判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度，通过计算字节长度比在进行语种相似度前进行剪枝处理，提高语种识别速度。

8.根据权利要求5所述的基于特征词加权的文本多语种识别方法，其特征在于步骤503)中，反向最大长度匹配算法根据特征词表，从后向前进行匹配，若匹配到特征词就返回当前词位置，若没有则减少最左面一个字继续匹配，直至待识别文本所有句子完成匹配，具体步骤如下：

50301)将待识别文本按照标点切分，作为句子集合；

50303)将截取的文本在特征词表中进行匹配；

9.根据权利要求5所述的基于特征词加权的文本多语种识别方法，其特征在于步骤504)中，文本语种相似度概率计算公式如下：

P(s)＝∑p(x_i)+∑λp(x_j)