CN111178009B - 一种基于特征词加权的文本多语种识别方法 - Google Patents

一种基于特征词加权的文本多语种识别方法 Download PDF

Info

Publication number
CN111178009B
CN111178009B CN201911324134.8A CN201911324134A CN111178009B CN 111178009 B CN111178009 B CN 111178009B CN 201911324134 A CN201911324134 A CN 201911324134A CN 111178009 B CN111178009 B CN 111178009B
Authority
CN
China
Prior art keywords
language
word
text
feature
languages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911324134.8A
Other languages
English (en)
Other versions
CN111178009A (zh
Inventor
杜权
毕东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yayi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yayi Network Technology Co ltd filed Critical Shenyang Yayi Network Technology Co ltd
Priority to CN201911324134.8A priority Critical patent/CN111178009B/zh
Publication of CN111178009A publication Critical patent/CN111178009A/zh
Application granted granted Critical
Publication of CN111178009B publication Critical patent/CN111178009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于特征词加权的文本多语种识别方法,步骤为:数据预处理,得到泛化语料;利用泛化语料进行N‑Gram语言模型训练;利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果。本发明能够准确高效的对文本所属语种进行识别,能够识别语种的数量也远超于大多数文本语种识别方法,在具备语种数据的前提下,可以对识别语种数量进行不断的扩充。

Description

一种基于特征词加权的文本多语种识别方法
技术领域
本发明涉及语种识别方法,具体为一种基于特征词加权的文本多语种识别方法。
背景技术
语言是人类最重要的交际工具,是人们进行沟通的主要表达方式。人们借助语言保存和传递人类文明的成果。而文字作为语言视觉化的表现,突破口语的时间和空间的限制,文字是人类可以在书面上完整地传承人类的智慧和精神财富,使人类能够完善教育体系,提高自己的智慧,发展科学技术,进入文明社会。
世界上的语言有5000余种,其中中文是世界上使用人口最多的语言,中文和英语是世界上使用最广泛的语言,但是还存在只有几千至几百人使用的语言,比如美洲的土著印第安语,中国的赫哲语。不同国家民族的人们使用语言的习惯有所不同,这些语言也具有不同的特征。正是因为语言具备差异性和复杂性的特点,有多种分类标准。其中,语言学家们按照世界上的语言相似程度将其分为语系、语族、语支和语种,在中国北京大学的语言分类法中,将世界语言分类为13个语系,45个语族。那么,在进行语种识别时,根据语言的特性进行相应的语言分析,不同语系的语种识别对相对容易,但是由于语种的复杂性,对于同语系内相似度程度高的语种进行语种识别可能非常困难。
在自然语言处理中,文本语种识别是根据给定文本内容判断是哪种语言。随着跨语言检索技术的发展,作为其核心技术的文本语种识别研究开始受到关注,文本多语种识别技术主要应用在机器翻译和多语言检索任务上。目前,文本多语种识别的研究主要是基于规则的方法和基于机器学习的方法。基于规则的方法需要人工总结归纳得到语言规则,然后进行字符串匹配,需要大量专业的语言学家对语言进行分析,并且准确率难以保障。
基于机器学习的方法大多基于N-Gram语言模型的文本多语种识别和基于神经网络的文本多语种识别,与基于规则的方法相比,基于机器学习的文本多语种识别方法具有较高的准确率且节省大量人力资源。但是该方法对于相同语系的不同语种的文本识别准确率还有进一步提高空间。例如:葡萄牙语和西班牙语同属“印欧语系-罗曼语族-西罗曼语支”,均由拉丁文构成,例句:“1.她用晚餐之前总是先关窗户。”和“2.文本语种识别是一项复杂的研究工作。”,翻译后为:
1.Ela fecha sempre a janela antes de jantar.(葡萄牙语)
1.Ella cierra siempre la ventana antes de cenar.(西班牙语)
2.O reconhecimento de linguagemtextualéum trabalho de pesquisacomplexo.(葡萄牙语)
2.El reconocimiento del lenguaje textual es un trabajo de investigación complejo.(西班牙语)
发现,葡萄牙语和西班牙语之间书写相近,其中很多的单词拼写方式都相同。语种之间的差异性越小,那么采用传统的机器学习方法进行文本语种识别会越差。
发明内容
针对现有的文本语种识别方法在实际使用中对同语系相似语种的识别准确率低、文本语种识别速度慢等问题,本发明要解决的问题是提供基于特征词加权的文本多语种识别方法,能够快速准确的对文本内容所属语种进行识别,并且具备实现简单、鲁棒性高等特点。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于特征词加权的文本多语种识别方法,包括以下步骤:
1)数据预处理,包括对多个语种的泛化预处理,得到泛化语料;
2)利用泛化语料进行N-Gram语言模型训练,其中单字节语种训练5-Gram语言模型,多字节语种训练3-Gram语言模型;
3)利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;
4)特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;
5)语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果。
步骤1)中,数据的预处理包括:
101)将各个语种数据按照8:1:1分为训练集、测试集和开发集数据,对训练集、测试集和开发集数据进行泛化预处理;
102)泛化预处理,包括大写字母小写化、数字替换和标点替换;
步骤2)中,N-Gram语言模型为:
假设当前字Xn+1出现的概率与其前n个字有关,而与过去的字无关,即为n+1阶语言模型模型;当前字Xn+1出现的概率P(Xn+1|X1X2...Xn)仅仅依赖于前面两个字Xn-1和Xn,公式为:
P(Xn+1|X1X2...Xn)=P(Xn+1|XnXn-1)
在计算P(Xn+1|X1X2...Xn)转移概率时,采用极大似然估计法进行求解,公式如下,其中C(X1X2...Xn)表示X1X2...Xn出现次数:
Figure BDA0002327914610000021
N-Gram语言模型的输入数据获取采用滑动窗口方法,通过沿着句子拖动一个为n的窗口,然后建立用于训练N-Gram模型的字序列;
定义英语、法语和西班牙语等语种为单字节语种,中文、日语和韩语等语种为多字节语种。
步骤3)中,根据其语言特点选取不同的分词方法进行分词预处理,具体为:
中文、日语、韩语、泰语没有明显的词语标记,采用基于语言模型的词语切分方法进行词语切分;与英语同语系的语种本身包含空格,按照空格标点切分即可,同时注意关键词。
步骤3)中,词频是指某一个给定的词语在该数据中出现的次数,词频统计即为该数据中所有的词语出现次数的统计。
生成特征词表包括:
对数据进行泛化预处理和分词预处理后进行词频统计,选取每个语种频次前5%的词语生成该语种的初始化特征词表;在所有语种的初始化特征词表集合内对各个语种的初始化特征词表去重,最后得到具有唯一性的特征词表。
步骤5)中,语种相似度计算包括:
501)计算相似度前,泛化处理输入文本数据;
502)计算泛化处理后文本的字节长度比,确定待识别文本是单字节语种还是多字节语种;
503)特征词定位,根据各个语种特征词长度不同,采用反向最大长度匹配算法对待识别文本中特征词进行定位;
504)使用语种相似度算法计算各个语种的相似度得分,相似度得分取最大值,该值所对应语种即为最后识别结果。
步骤502)中,计算待识别文本的字节长度比,与英语同语系语种中一个字母占一个字节,中文、日语、韩语和泰语中一个字占多个字节,根据字节长度比判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度,通过计算字节长度比在进行语种相似度前进行剪枝处理,提高语种识别速度;字节长度比计算公式:
Figure BDA0002327914610000031
其中,len(str)为字符长度,len(str.encode())为字节长度,len_rate为字节长度比(len_rate≥1)。
步骤503)中,反向最大长度匹配算法根据特征词表,从后向前进行匹配,若匹配到特征词就返回当前词位置,若没有则减少最左面一个字继续匹配,直至待识别文本所有句子完成匹配,具体步骤如下:
50301)将待识别文本按照标点切分,作为句子集合;
50302)在句子未匹配部分的末尾截取特征词表中最长词长度的文本;
50303)将截取的文本在特征词表中进行匹配;
50304)若匹配成功,返回该词所在位置并返回50302),直至全部句子匹配结束;
50305)若未匹配成功,去掉该句的最左面的一个字,返回50303)。
步骤504)中,文本语种相似度概率计算公式如下:
P(s)=∑p(xi)+∑λp(xj)
其中,λ为特征词权重(λ>1),p(xi)为非特征词转移概率,p(xj)为特征词转移概率,P(s)为语种相似度概率。
本发明具有以下有益效果及优点:
1.本发明提出的一种基于特征词加权的文本多语种识别方法,能够准确高效的对文本所属语种进行识别,并且本方法能够识别语种的数量也远超于大多数文本语种识别方法,在具备语种数据的前提下,可以对识别语种数量进行不断的扩充;
2.本发明方法生特征词表,基于特征词加权的文本语种识别方法对于同语系内相似程度高的语种识别准确度远超一般方法;
3.本发明方法中定义了单字节语种和多字节语种,使用字节长度比阈值对语种相似度计算进行剪枝,优化了文本语种相似度算法,大大提高了文本多语种识别的速度。
附图说明
图1为本发明方法涉及的滑动窗口方法获取N-Gram语言模型输入数据;
图2为本发明中语种相似度算法流程图。
具体实施方式
下面结合说明图对本发明进一步阐述。
本发明提出一种基于特征词加权的文本语种识别方法,在特征词的基础上进行语种相似度计算,实现了文本多语种快速准确的识别。同时,本发明中定义了单字节语种和多字节语种,使用字节长度比阈值对语种相似度计算进行剪枝,优化了文本语种相似度算法,提高了文本多语种识别的速度。
本发明一种基于特征词加权的文本多语种识别方法,包括以下步骤:
1)数据预处理,包括对多个语种的泛化预处理,得到泛化语料;
2)利用泛化语料进行N-Gram语言模型训练,其中单字节语种(英语、法语、西班牙语、葡萄牙语)训练5-Gram语言模型,多字节语种(中文、日语、韩语)训练3-Gram语言模型;
3)利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;
4)特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;
5)语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果。
步骤1)中,数据的预处理包括:
101)将各个语种数据按照8:1:1分为训练集、测试集和开发集数据,对训练集、测试集和开发集数据进行泛化预处理;
102)为降低N-Gram语言模型的复杂度,对训练N-Gram语言模型的数据进行泛化预处理,包括大写字母小写化、数字替换和标点替换。
例如,英文数据:“A scientist took home$25,000from a national sciencecompetition for inventing a liquid bandage that could replace antibiotics.”
泛化后:“a scientist took home@punc@num from a national sciencecompetition for inventing a liquid bandage that could replace antibiotics@punc”
步骤2)中,N-Gram语言模型为:
假设当前字Xn+1出现的概率与其前n个字有关,而与过去的字无关,即为n+1阶语言模型模型;当前字Xn+1出现的概率P(Xn+1|X1X2...Xn)仅仅依赖于前面两个字Xn-1和Xn,公式为:
P(Xn+1|X1X2...Xn)=P(Xn+1|XnXn-1)
在计算P(Xn+1|X1X2...Xn)转移概率时,采用极大似然估计法进行求解,公式如下,其中C(X1X2…Xn)表示X1X2…Xn出现次数:
Figure BDA0002327914610000051
N-Gram语言模型的输入数据获取采用滑动窗口方法,通过沿着句子拖动一个为n的窗口,然后建立用于训练N-Gram模型的字序列;
定义英语、法语和西班牙语等语种为单字节语种,中文、日语和韩语等语种为多字节语种。
N-Gram语言模型的输入数据获取选用滑动窗口方法,如图1所示。通过沿着句子拖动一个为n的窗口,然后建立用于训练N-Gram模型的字序列,例如在中文字序列“文本语”中,“文本”为当前字的字序列,“语”为下一字的字序列,当前字和下一字的字序列共同作为N-Gram语言模型的输入。N-Gram语言模型特点是随着阶数的增大其计算数量级呈指数上升趋势,并且伴随着数据稀疏性程度增大和模型的复杂度增大。其中,单字节语种训练单字节语种训练5-Gram语言模型,即当前字长度为4个字,下一字长度为1个字;多字节语种训练3-Gram语言模型,即当前字长度为2个字,下一字长度为1个字。
步骤3)中,词频是指某一个给定的词语在该数据中出现的次数,词频统计即为该数据中所有的词语出现次数的统计,词频统计的数据需要经过泛化预处理和分词预处理。
根据其语言特点选取不同的分词方法进行分词预处理,具体为:
中文、日语、韩语、泰语等语言没有明显的词语标记,采用基于语言模型的词语切分方法进行词语切分;与英语同语系的语种等语言本身包含空格,按照空格标点切分即可,同时注意关键词等问题。
生成特征词表包括:
对数据进行词频统计后,选取每个语种频次前5%的词语生成该语种的初始化特征词表;为保证特征词表的有效性需要进行去重处理,初始化特征词表的去重要在所有语种的初始化特征词表集合内去重,最后得到特征词表,保证每个语种生成的特征词表内特征词的唯一性。
步骤4)中,特征词权重训练使用开发集数据进行训练。采用随机梯度下降法进行特征词权重的训练。在随机梯度下降参数训练中,设置迭代次数1000,步长为0.001。目标函数如下,其中,xj代表特征词,xi代表非特征词,θ代表特征词权重。
h(θ)=xi+θxj
步骤5)中,计算语种相似度,最终输入识别文本所属语种,其具体流程如图2所示。
501)计算相似度前,泛化处理输入文本数据;
502)计算泛化处理后文本的字节长度比,确定待识别文本是单字节语种还是多字节语种;
503)特征词定位,采用反向最大长度匹配算法对待识别文本中特征词进行定位;
504)使用语种相似度算法计算各个语种的相似度得分,相似度得分取Max后,该值所对应语种即为最后识别结果。
步骤502)中,计算待识别文本的字节长度比,英语、法语等语种中一个字母占一个字节,中文、日语等语种中一个字占多个字节,根据字节长度比可以判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度,通过计算字节长度比可以在进行语种相似度前进行剪枝处理,提高语种识别速度,字节长度比计算公式:
Figure BDA0002327914610000061
其中,len(str)为字符长度,len(str.encode())为字节长度,len_rate为字节长度比(len_rate≥1)。
步骤503)中,反向最大长度匹配算法思想:根据特征词表,从句右到句左进行匹配,若匹配到特征词就返回当前词位置,若没有则减少最左面一个字继续匹配,直至待识别文本所有句子完成匹配。具体步骤如下:
50301)将待识别文本按照标点切分,作为句子集合;
50302)在句子未匹配部分的末尾截取特征词表中最长词长度的文本;
50303)将截取的文本在特征词表中进行匹配;
50304)若匹配成功,返回该词所在位置并返回50302),直至全部句子匹配结束;
50305)若未匹配成功,去掉该句的最左面的一个字,返回50303)。
步骤504)中,文本语种相似度计算公式如下:
P(s)=∑p(xi)+∑λp(xj)
其中,λ为特征词权重(λ>1),p(xi)为非特征词转移概率,p(xj)为特征词转移概率,P(s)为语种相似度概率。
下面以中文、英语、日语等13个语种的文本语种识别示例进行说明,通过使用基于特征词加权的文本对语种识别方法对13个不同语种的测试文本进行验证,发现识别结果全部正确。
文本多语种识别结果示例
Figure BDA0002327914610000071
Figure BDA0002327914610000081
通过上述实验案例表明,本发明方法可对包括中文、日语、韩语、英语、法语、西班牙语、葡萄牙语、意大利语、***语、俄语、泰语、越南语等语种文本准确识别,其中在语种相似度非常高葡萄牙语文本和西班牙文本同样能够准确的识别;本方法能够识别语种的数量也远超于大多数文本语种识别方法,在具备语种数据的前提下,可以对识别语种数量进行不断的扩充;此外使用字节长度比阈值优化了文本语种相似度算法,使得文本多语种识别速度远超于一般方法,并且具备实现简单、鲁棒性高等特点。

Claims (9)

1.一种基于特征词加权的文本多语种识别方法,其特征在于包括以下步骤:
1)数据预处理,包括对多个语种的泛化预处理,得到泛化语料;
2)利用泛化语料进行N-Gram语言模型训练,其中单字节语种训练5-Gram语言模型,多字节语种训练3-Gram语言模型;
3)利用泛化语料进行分词处理得到分词数据,通过词频统计选取频次前5%的词并去重,生成各个语种的特征词表;
4)特征词权重训练,在开发集数据上,采用随机梯度下降法对特征词表中的特征词进行权重训练;
5)语种相似度计算,输入泛化后的待识别文本,计算待识别文本的字节长度比,选择语言模型进行语种相似度计算,相似度得分最高的语种即为最终识别结果;
字节长度比计算公式:
其中,len(str)为字符长度,len(str.encode())为字节长度,len_rate为字节长度比(len_rate≥1)。
2.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤1)中,数据的预处理包括:
101)将各个语种数据按照8:1:1分为训练集、测试集和开发集数据,对训练集、测试集和开发集数据进行泛化预处理;
102)泛化预处理,包括大写字母小写化、数字替换和标点替换。
3.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤2)中,N-Gram语言模型为:
假设当前字Xn+1出现的概率与其前n个字有关,而与过去的字无关,即为n+1阶语言模型模型;当前字Xn+1出现的概率P(Xn+1|X1X2...Xn)仅仅依赖于前面两个字Xn-1和Xn,公式为:
P(Xn+1|X1X2...Xn)=P(Xn+1|XnXn-1)
在计算P(Xn+1|X1X2...Xn)转移概率时,采用极大似然估计法进行求解,公式如下,其中C(X1X2...Xn)表示X1X2...Xn出现次数:
N-Gram语言模型的输入数据获取采用滑动窗口方法,通过沿着句子拖动一个为n的窗口,然后建立用于训练N-Gram模型的字序列;
定义英语、法语和西班牙语语种为单字节语种,中文、日语和韩语语种为多字节语种。
4.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤3)中,根据其语言特点选取不同的分词方法进行分词预处理,具体为:
中文、日语、韩语、泰语没有明显的词语标记,采用基于语言模型的词语切分方法进行词语切分;与英语同语系的语种本身包含空格,按照空格标点切分即可,同时注意关键词。
5.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤3)中,词频是指某一个给定的词语在该数据中出现的次数,词频统计即为该数据中所有的词语出现次数的统计;
生成特征词表包括:
对数据进行泛化预处理和分词预处理后进行词频统计,选取每个语种频次前5%的词语生成该语种的初始化特征词表;在所有语种的初始化特征词表集合内对各个语种的初始化特征词表去重,最后得到具有唯一性的特征词表。
6.根据权利要求1所述的基于特征词加权的文本多语种识别方法,其特征在于步骤5)中,语种相似度计算包括:
501)计算相似度前,泛化处理输入文本数据;
502)计算泛化处理后文本的字节长度比,确定待识别文本是单字节语种还是多字节语种;
503)特征词定位,根据各个语种特征词长度不同,采用反向最大长度匹配算法对待识别文本中特征词进行定位;
504)使用语种相似度算法计算各个语种的相似度得分,相似度得分取最大值,该值所对应语种即为最后识别结果。
7.根据权利要求5所述的基于特征词加权的文本多语种识别方法,其特征在于步骤502)中,计算待识别文本的字节长度比,与英语同语系语种中一个字母占一个字节,中文、日语、韩语和泰语中一个字占多个字节,根据字节长度比判定待识别文本选择单字节语种语言模型或多字节语种语言模型进行计算语种相似度,通过计算字节长度比在进行语种相似度前进行剪枝处理,提高语种识别速度。
8.根据权利要求5所述的基于特征词加权的文本多语种识别方法,其特征在于步骤503)中,反向最大长度匹配算法根据特征词表,从后向前进行匹配,若匹配到特征词就返回当前词位置,若没有则减少最左面一个字继续匹配,直至待识别文本所有句子完成匹配,具体步骤如下:
50301)将待识别文本按照标点切分,作为句子集合;
50302)在句子未匹配部分的末尾截取特征词表中最长词长度的文本;
50303)将截取的文本在特征词表中进行匹配;
50304)若匹配成功,返回该词所在位置并返回50302),直至全部句子匹配结束;
50305)若未匹配成功,去掉该句的最左面的一个字,返回50303)。
9.根据权利要求5所述的基于特征词加权的文本多语种识别方法,其特征在于步骤504)中,文本语种相似度概率计算公式如下:
P(s)=∑p(xi)+∑λp(xj)
其中,λ为特征词权重(λ>1),p(xi)为非特征词转移概率,p(xj)为特征词转移概率,P(s)为语种相似度概率。
CN201911324134.8A 2019-12-20 2019-12-20 一种基于特征词加权的文本多语种识别方法 Active CN111178009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911324134.8A CN111178009B (zh) 2019-12-20 2019-12-20 一种基于特征词加权的文本多语种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911324134.8A CN111178009B (zh) 2019-12-20 2019-12-20 一种基于特征词加权的文本多语种识别方法

Publications (2)

Publication Number Publication Date
CN111178009A CN111178009A (zh) 2020-05-19
CN111178009B true CN111178009B (zh) 2023-05-09

Family

ID=70650260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911324134.8A Active CN111178009B (zh) 2019-12-20 2019-12-20 一种基于特征词加权的文本多语种识别方法

Country Status (1)

Country Link
CN (1) CN111178009B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329454A (zh) * 2020-11-03 2021-02-05 腾讯科技(深圳)有限公司 语种识别方法、装置、电子设备及可读存储介质
CN117236347B (zh) * 2023-11-10 2024-03-05 腾讯科技(深圳)有限公司 交互文本翻译的方法、交互文本的显示方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740687B2 (en) * 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106598937A (zh) * 2015-10-16 2017-04-26 阿里巴巴集团控股有限公司 用于文本的语种识别方法、装置和电子设备
CN106528535A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于编码和机器学习的多语种识别方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王昊 ; 李思舒 ; 邓三鸿 ; .基于N-Gram的文本语种识别研究.现代图书情报技术.2013,(第04期),全文. *

Also Published As

Publication number Publication date
CN111178009A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
Cotterell et al. Labeled morphological segmentation with semi-markov models
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN107102983B (zh) 一种基于网络知识源的中文概念的词向量表示方法
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN105068997B (zh) 平行语料的构建方法及装置
Chanlekha et al. Thai named entity extraction by incorporating maximum entropy model with simple heuristic information
CN106611041A (zh) 一种新的文本相似度求解方法
CN106202065B (zh) 一种跨语言话题检测方法及***
CN112948543A (zh) 基于加权TextRank的多语言多文档摘要抽取方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
US20200311345A1 (en) System and method for language-independent contextual embedding
US20230103728A1 (en) Method for sample augmentation
CN111178009B (zh) 一种基于特征词加权的文本多语种识别方法
CN103744837B (zh) 基于关键词抽取的多文本对照方法
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
Patil et al. Issues and challenges in marathi named entity recognition
Bedrick et al. Robust kaomoji detection in Twitter
Nehar et al. Rational kernels for Arabic root extraction and text classification
CN109325237B (zh) 用于机器翻译的完整句识别方法与***
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN111310452A (zh) 一种分词方法和装置
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
Mukund et al. NE tagging for Urdu based on bootstrap POS learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Quan

Inventor after: Bi Dong

Inventor before: Du Quan

Inventor before: Bi Dong

Inventor before: Zhu Jingbo

Inventor before: Xiao Tong

Inventor before: Zhang Chunliang

GR01 Patent grant
GR01 Patent grant