CN106598937A - 用于文本的语种识别方法、装置和电子设备 - Google Patents

用于文本的语种识别方法、装置和电子设备 Download PDF

Info

Publication number
CN106598937A
CN106598937A CN201510672933.XA CN201510672933A CN106598937A CN 106598937 A CN106598937 A CN 106598937A CN 201510672933 A CN201510672933 A CN 201510672933A CN 106598937 A CN106598937 A CN 106598937A
Authority
CN
China
Prior art keywords
languages
text
feature
identified
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510672933.XA
Other languages
English (en)
Other versions
CN106598937B (zh
Inventor
蒋宏飞
骆卫华
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510672933.XA priority Critical patent/CN106598937B/zh
Publication of CN106598937A publication Critical patent/CN106598937A/zh
Application granted granted Critical
Publication of CN106598937B publication Critical patent/CN106598937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种用于文本的语种识别方法、装置和电子设备。其中所述用于文本的语种识别方法包括:从待识别文本中抽取出语种特征;将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。采用本申请提供的方法,能够提高语种识别的正确识别率和鲁棒性,同时由于训练语料集仅需为已标注正确语种的历史查询集,而无需标注更多内容,从而能够达到实用性高的效果。

Description

用于文本的语种识别方法、装置和电子设备
技术领域
本申请涉及语种识别技术领域,具体涉及一种用于文本的语种识别方法、装置和电子设备。
背景技术
国际电子商务网站一般包含英文主站以及多语言分站,不论主站还是分站都面向全球用户开放。当用户登陆任何一个站点进行产品检索时,所使用的文字可以是任何一种语言。为了准确理解用户意图,首先需要解决的问题是自动识别出用户输入的查询文本所属的语种,即:文本语种识别。只有准确知道要处理的文本是什么语种,才能进行正确的后续处理,例如,翻译或搜索等处理。
目前,常用的文本语种识别方法包括以下几种:
1)2000年施乐公司获得的一个名称为《AUTOMATIC LANGUAGE IDENTIFICATIONUSING BOTH N-GRAM AND WORD INFORMATION》的美国专利,该专利的公开号为US6167369A。该专利提出的文本语种识别方法包括如下步骤:
第一步、对待识别文本中每个词进行预处理;
第二步、针对每个词,先判断该词是否为短词(此方案中限定为小于等于5个字符),如果为短词,则直接计算该短词在每个语种下的出现概率;如果为长词,则获取该词所有的3元字符串,并对每个3元字符串计算其在每个语种下的出现概率;
第三步、针对各个语种,综合该语种下的所有概率得分,从中选出待识别文本最可能属于的语种。
综上所述,该方法主要是综合考虑词相对频度以及3元字符串的相对频度以进行语种识别,从理论上说,该方法属于最基本的N-Gram语言模型,非常朴素。
2)2009年发表在计算语言学顶级会议ACL上的一篇yahoo的文章:《LanguageIdentification of Search Engine Queries》。该文章提出的文本语种识别方法,通过决策树模型将待识别文本在各个语种下的词频概率得分、N元连续字符串概率得分、词缀得分三个分值加以综合,进行待识别文本的语种识别。
该方法有如下优点:实现简单,计算量小。然而,由于该方法依据的三种得分都是简单概率得分,因此存在识别率不高且覆盖度以及灵活性都较差的问题。此外,该方法应用的决策树模型在综合三个分值时,需要基于训练数据进行训练,而这种训练数据很难获得,因此,存在工程实用性差的问题。
3)2011年Google公司申请的一个名称为《Query Language Identification》的美国专利申请,该专利的公开为US2011231423A1。该专利提出的文本语种识别方法包括如下步骤:
第一步、从界面中接收一个查询(待识别文本);
第二步、生成一个基于界面语种信息的分类向量;
第三步、针对查询中的每个词,根据其在训练语料中的每种语种的相对频度,生成一个分类向量;
第四步、对界面分类向量以及所有的查询词分类向量进行综合;
第五步、生成一个语种分类向量,其中每一维度的值即为对应语种的得分。
该方法也较为简单,实际使用的信息就是查询词在各个语种训练语料中的相对频度信息,然后结合界面语种信息,得出最终的分类结果。因此,该方法仍存在覆盖度以及灵活性都较差的问题。
综上所述,现有文本语种识别方法一般基于语言模型技术,即:对于待识别文本,利用线下训练好的各个语种的语言模型进行各个语种的评分,然后取高分者作为最终判别的语种。由于现有技术的设计思想均基于简单的相对频度统计信息来计算概率得分,因而,现有技术存在正确识别率以及鲁棒性低的问题。
发明内容
本申请提供一种用于文本的语种识别方法、装置和电子设备,以解决现有技术存在正确识别率以及鲁棒性低的问题。
本申请提供一种用于文本的语种识别方法,包括:
从待识别文本中抽取出语种特征;
将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
可选的,所述通过所述文本语种分类器计算获取所述待识别文本所属语种,包括:
以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重;
根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分;
将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
可选的,所述特征权重基于判别式模型计算获取。
可选的,所述预先生成的语种、语种特征及其权重的对应关系,采用如下步骤生成:
获取已标注所属语种的文本集;
从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数;
根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
可选的,所述语种、语种特征及其权重的对应关系,采用如下方式存储:
采用字典树的数据结构存储所述N元连续词特征和所述N元连续字符特征。
可选的,所述语种、语种特征及其权重的对应关系,采用如下方式存储:
针对所述语种、语种特征及其权重的对应关系中的各个语种特征,将所述语种特征及其权重不为零的所有候选语种对应存储。
可选的,所述文本语种分类器为单语种的文本语种分类器;所述根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,采用如下公式进行计算:
其中,Y为所述待识别文本所属语种的随机变量;P为所述待识别文本属于特定语种的得分;x为由从所述待识别文本中抽取出的所述语种特征组成的特征向量;w为由与x中的各个语种特征对应的特征权重组成的权重向量。
可选的,所述文本语种分类器为多语种的文本语种分类器;所述根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,采用如下公式进行计算:
其中,xi为所述待识别文本,pj为所述待识别文本属于特定候选语种j的得分;f(xi)为从所述待识别文本中抽取出的所述语种特征,λ1j到λmj为f(xi)在所述特定候选语种j中的特征权重;Z为所述各个候选语种的得分之和,采用如下公式计算:
其中,n为所述候选语种的数量。
可选的,所述语种特征还包括:所述待识别文本包括的词数量和平均词长度、预设品牌词特征、预设型号词特征、各个语种特有字符特征、各个语种特有词缀特征和业务特征的至少一者。
可选的,所述N元连续字符特征包括N元连续字符及其在词中的位置信息。
可选的,所述预先生成的文本语种分类器包括至少一个面向特定候选语种的文本语种分类器;各个面向特定候选语种的文本语种分类器以预设执行顺序逐个运行;
所述通过所述文本语种分类器计算获取所述待识别文本所属语种,采用如下方式:
若通过当前面向特定候选语种的文本语种分类器判定所述待识别文本所属语种不属于所述当前面向特定候选语种的文本语种分类器的候选语种时,则根据所述预设执行顺序,通过位于所述当前面向特定候选语种的文本语种分类器之后的、下一个文本语种分类器计算获取所述待识别文本所属语种;
若通过当前面向特定候选语种的文本语种分类器判定所述待识别文本所属语种属于所述当前面向特定候选语种的文本语种分类器的候选语种时,则结束语种识别;
其中,所述面向特定候选语种的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
可选的,在所述从待识别文本中抽取出语种特征之前,还包括:
以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
可选的,所述干预词表采用如下步骤生成:
获取被错误识别的文本;
将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。
可选的,在所述从待识别文本中抽取出语种特征之前,还包括:
以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,在所述从待识别文本中抽取出语种特征之前,还包括:
根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
可选的,执行所述用于文本的语种识别方法的装置部署在分布式***中。
相应的,本申请还提供一种用于文本的语种识别装置,包括:
抽取单元,用于从待识别文本中抽取出语种特征;
预测单元,用于将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;
其中,所述语种特征是指千万数量级的语种特征,包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
可选的,所述预测单元包括:
检索子单元,用于以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重;
计算子单元,用于根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分;
设定子单元,用于将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
可选的,还包括:
生成单元,用于生成所述预先生成的语种、语种特征及其权重的对应关系;
所述生成单元包括:
获取子单元,用于获取已标注所属语种的文本集;
抽取子单元,用于从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数;
计算子单元,用于根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
设定子单元,用于将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
可选的,所述预测单元包括至少一个面向特定候选语种的预测子单元;以预设执行顺序逐个采用各个面向特定候选语种的预测子单元,判断所述待识别文本所属语种是否属于当前面向特定候选语种的预测子单元的候选语种;若是,则结束语种识别;若否,则通过位于所述当前面向特定候选语种的预测子单元之后的、下一个面向特定候选语种的预测子单元计算获取所述待识别文本所属语种;
所述面向特定候选语种的预测子单元,用于通过面向特定候选语种的文本语种分类器计算获取所述待识别文本所属语种;
其中,所述面向特定候选语种的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
可选的,还包括:
干预单元,用于以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种;
其中,所述干预词表包括文本及其所属语种的对应记录集。
可选的,还包括:
字符识别单元,用于以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
去除噪音单元,用于根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
相应的,本申请还提供一种电子设备,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储用于文本的语种识别装置,所述用于文本的语种识别装置被所述处理器执行时,包括如下步骤:从待识别文本中抽取出语种特征;将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
此外,本申请还提供又一种用于文本的语种识别方法,包括:
以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
可选的,所述干预词表采用如下步骤生成:
获取被错误识别的文本;
将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。
可选的,还包括:
若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
相应的,本申请还一种用于文本的语种识别装置,包括:
检索单元,用于以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
判断单元,用于若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
此外,本申请还提供又一种用于文本的语种识别方法,包括:
以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
相应的,本申请还提供一种用于文本的语种识别装置,包括:
检索单元,用于以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
判断单元,用于若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
此外,本申请还提供又一种用于文本的语种识别方法,包括:
根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;
通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
相应的,本申请还提供一种用于文本的语种识别装置,包括:
过滤单元,用于根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;
预测单元,用于通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
此外,本申请还提供又一种用于文本的语种识别方法,包括:
从待识别文本中抽取出语种特征;
以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
可选的,所述文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
相应的,本申请还提供一种用于文本的语种识别装置,包括:
抽取单元,用于从待识别文本中抽取出语种特征;
预测单元,用于以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
与现有技术相比,本申请具有以下优点:
本申请提供一种用于文本的语种识别方法、装置和电子设备,通过从待识别文本中抽取出语种特征,并将抽取出的语种特征作为预先生成的文本语种分类器的输入,通过文本语种分类器计算获取待识别文本所属语种,其中所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。由于本申请提供的方法所依据的语种特征是千万数量级的特征,因此,能够提高语种识别的正确识别率和鲁棒性,同时由于训练语料集仅需为已标注正确语种的历史查询集,而无需标注更多内容,从而能够达到实用性高的效果。
附图说明
图1是本申请的用于文本的语种识别方法实施例的流程图;
图2是本申请的用于文本的语种识别方法实施例步骤S103的具体流程图;
图3是本申请的用于文本的语种识别方法实施例生成语种、语种特征及其权重的对应关系的具体流程图;
图4是本申请的用于文本的语种识别方法实施例生成的语种、语种特征及其权重的对应关系的存储示意图;
图5是本申请的用于文本的语种识别方法实施例分布式部署的***示意图;
图6是本申请的用于文本的语种识别方法实施例多层识别构架的示意图;
图7是本申请的用于文本的语种识别装置实施例的示意图;
图8是本申请的用于文本的语种识别装置实施例预测单元103的示意图;
图9是本申请的用于文本的语种识别装置实施例生成单元201的示意图;
图10是本申请的用于文本的语种识别装置实施例的又一示意图;
图11是本申请的电子设备实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了一种用于文本的语种识别方法、装置及电子设备。在下面的实施例中逐一进行详细说明。
本申请实施例提供的用于文本的语种识别方法,其核心的基本思想是:通过设计千万级的语种特征并采用机器学习模型,以辨识待识别文本所属的语种。由于本申请提供的方法基于千万级的语种特征进行语种识别,因而能够提高文本语种识别的正确识别率和鲁棒性。
请参考图1,其为本申请的用于文本的语种识别方法实施例的流程图。所述方法包括如下步骤:
步骤S101:从待识别文本中抽取出语种特征。
在通过机器学***均词长;品牌词特征和型号词特征;语种特有字符特征和语种特有词缀特征;业务特征,例如,IP地址,国别,站点,区域设置等。下面分别对上述各类语种特征进行简要说明。
1)N元连续词特征
N元连续词特征是基于N-Gram理论设计的一类语种特征。例如,待识别文本为:iphone 6s case从中能够抽取出的连续词特征包括:
4个1元连续词特征:iphone、6s、case、
3个2元连续词特征:iphone 6s、6s case、case
2个3元连续词特征:iphone 6s case、6s case
1个4元连续词特征:iphone 6s case
基于N-Gram理论构建待识别文本的语种特征,并在此基础上实现本申请实施例提供的用于文本的语种识别方法,能够对各种在互联网中广泛使用的文本语种进行语种自动识别。实验结果表明,基于N元连续词特征的文本语种识别方法有较高且稳定的正确识别率。
2)N元连续字符特征
在实际应用中,文本语种识别方法的一个主要应用场景是搜索场景。在搜索场景中,用户输入的查询词一般都比较短,通常一个查询只包含1至3个单词,而且词汇之间的顺序也没有限制。由于现有技术对短文本的语言模型得分的稳定性不够好,因此现在技术存在识别短文本的语种时正确识别率较低的问题。因此,一般自然语言处理技术中常用的基于词的N元语言模型技术便不适用。
本申请实施例提出了基于字符的N-Gram技术,即:采用N元连续词特征。N元连续字符特征是基于N-Gram理论设计的又一类语种特征,与上述N元连续词特征的不同之处在于:N元连续字符特征的单位是一个字符。例如,从上例的待识别文本iphone 6s case中抽取出的3元连续字符特征包括:iph、pho和one等。
此外,为了能够体现出N元连续字符在单词的位置,例如,首尾位置或者中间连接位置,本申请实施例所述的N元连续字符特征还包括N元连续字符在单词的位置。在本实施中,采用“HEAD_”词缀表示词首,“TAIL_”表示词尾,“_HYP_”表示连接。例如,从上例的待识别文本iphone 6s case中抽取出的3元连续字符特征为:HEAD_iph、HEAD_cas、HEAD_for、TAIL_one、TAIL_ase、和e_HYP_6s等。通过在N元连续字符特征中加入位置信息,能够基于更细粒度的N元连续字符特征进行语种识别,从而达到提高正确识别率的效果。
特别的,考虑到较短的连续字符特征(例如,1元连续字符特征或2元连续字符特征)对于语种的区分度很低,发明人还提出采用高阶连续字符特征(3元以上连续字符特征)作为N元连续字符特征。实验结果表明,基于高阶N元连续字符特征的文本语种识别方法有较高且稳定的正确识别率。
3)词缀特征
本申请实施例所述的词缀特征是指各语种中常见的词缀所形成的特征,包括前缀特征和后缀特征,例如,英语中pre等字符串属于前缀特征,ing等字符串属于后缀特征。在实现过程中,可以根据预先存储的词缀表从待识别文本中抽取出词缀特征。
4)统计特征
本申请实施例所述的统计特征是指通过各种统计方法获取的语种特征。由于不同语种的文本在组成文本的词数量上或平均词长度方面均有各自的特征,也可以问题回复作为语种识别的依据,因此,本申请实施例所述的统计特征包括从待识别文本包括的词的总数量或各个词的平均词长度等统计特征。
5)品牌词特征及型号词特征
在实际应用中,待识别文本中可能混杂一些品牌词、型号词或一般的描述词信息,因而加大了语种识别难度。特别的,对于包括品牌词、型号词或一般的描述词信息的短文本(例如,查询词),其语种识别难度非常大。本申请实施例提供的方法,通过设计品牌词特征及型号词特征,能够在识别文本语种时考虑到待识别文本是否混杂品牌词、型号词或一般的描述词信息,由此也能够起到提高正确识别率的作用。在实现过程中,可以根据预先存储的品牌词及型号词表从待识别文本中抽取出品牌词特征及型号词特征。
6)语种特有字符特征和语种特有词缀特征
现有技术基于的语言模型是从大量语料中训练获得的,而相似度高的语种所对应的训练语料的相似度也极高。此外,有些语种之间本身就存在极大的相似度。因此,现有技术对于相似度高的语种存在识别性能较差的问题。
为了解决这个问题,本申请技术方案的发明人设计了语种特有字符特征和语种特有词缀特征等新的语种特征。本申请实施例所述的语种特有字符特征和语种特有词缀是指,能够将一种语种与其它语种区分开的该语种独有的字符特征和词缀特征。例如,字符是葡萄牙语特有的一个字符特征,可以将其设计为这个特征来表达。
实验结果表明,基于语种特有字符特征和语种特有词缀的文本语种识别方法,可以很好地解决相似度高的语种存在识别性能较差的问题,从而达到提高相似语种的辨识度的效果。
7)业务特征
目前,国际电子商务网站一般都有很多实时的线上业务特征,例如,查询对应的cookie信息、locale信息以及IP地址信息等。本申请实施例所述的业务特征对语种识别可以提供很好的信息,例如,来自中国地区IP地址的查询词,该查询词为中文的可能性更大。实验结果表明,通过采用业务特征的机制,可以在不同业务场景下,特定地优化语种识别的准确度。
需要说明的是,考虑到英文语种识别的重要性以及英文查询在各个站点的普遍性,通常在仅识别英文文本的文本语种分类器中无需采用业务特征。
以上部分对本申请实施例所述的各类语种特征进行了说明。由于本申请实施例提供的方法是基于千万数量级语种特征的语种识别方法,因此能够有效提高文本语种的正确识别率。
步骤S103:将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种。
通过步骤S101抽取出待识别文本的各个语种特征之后,就可以通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例所述的文本语种分类器是指基于机器学习方法构建的文本语种分类器。请参考图2,其为本申请的用于文本的语种识别方法实施例步骤S103的具体流程图。在本实施例中,步骤S103包括以下步骤:
步骤S1031:以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重。
本申请实施例所述的语种、语种特征及其权重的对应关系是指,基于给定语料库训练得到的文本语种分类器的参数模型。所述的语种、语种特征及其权重的对应关系包括各个候选语种、各个语种特征及其特征权重的三元组集合。要实施本申请提供的用于文本的语种识别方法,首先需要生成所述语种、语种特征及其权重的对应关系,即:通过对多语种语料库进行训练以获取文本语种分类器的参数模型。
请参考图3,其为本申请的用于文本的语种识别方法实施例生成语种、语种特征及其权重的对应关系的具体流程图。在本实施例中,生成所述语种、语种特征及其权重的对应关系包括如下步骤:
步骤S301:获取已标注所属语种的文本集。
本申请实施例提供的用于文本的语种识别方法是一种基于机器学习算法的语种识别方法,并且是利用一组已知类别的训练语料调整分类器的参数,即:特征权重,因此属于监督学习。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。因此,训练语料库包括已标注所属语种的文本集。
本申请实施例所述的已标注所属语种的文本集包括文本语种分类器能够识别的各个候选语种的文本。例如,训练语料文本1为:en|||iphone 4s case plastic、训练语料文本2为:es|||iphone 4s caso plástico、训练语料文本3为:en|||iphone6s screen等。
步骤S303:从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数。
当获取到已标注所属语种的文本集后,需要从每一个训练语料中抽取出语种特征,这些语种特征与步骤S101中说明的语种特征为相同概念。在从训练语料中抽取语种特征的同时,还需要统计各个语种特征在每一个候选语种中的出现次数。例如,1元连续词iphone在英语语料中出现了500次,或者1元连续词caso在西班牙语中出现了300次等。
步骤S305:根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重。
在对所有的训练语料抽取完成语种特征、且统计完成各个语种特征在各个候选语种中分别出现的次数后,还需要计算每一个语种特征在所有训练语料中出现的总次数。最后,将各个语种特征在每一个候选语种中出现的次数、与其在所有候选语种中出现的总次数的比值,作为各个语种特征在每一个候选语种中的特征权重。例如,训练语料库中涉及3种语言(英语、西班牙语和葡萄牙语)的文本,其中,1元连续词iphone在英语语料中出现了500次,在西班牙语料中出现了200次,在葡萄牙语料中出现了260次,因此iphone在该语料库中共出现了960次,则iphone这个语种特征在英语中的特征权重为500/960,在西班牙语中的特征权重为200/960,在葡萄牙语中的特征权重为260/960。由此可见,本申请实施例所述的特征权重是基于判别式的方法计算获取的,而现有技术仅计算每个词在其所属语种中出现的词相对频度,即现有技术基于产生式的方法计算获取词频度。由于本申请实施例采用判别式方法计算特征权重,因而能够达到提高正确识别率的效果。
步骤S307:将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
通过上述步骤S301至步骤S305,获取到在各个候选语种下各个语种特征的特征权重,将各个候选语种、各个语种特征和特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
请参见表1,其为本申请的用于文本的语种识别方法实施例生成的语种、语种特征及其权重的对应关系的示例表。
语种 特征字符串 特征权重
en iphone 0.1
Es iphone 0.05
en case 0.3
es plástico 1
表1、语种、语种特征及其权重的对应关系的示例表
在训练生成上述语种、语种特征及其权重的对应关系后,就能够以从待识别文本中抽取出的语种特征为检索条件,在上述语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重。例如,待识别文本为:iphone 5s plásticomodel,从中抽取出的语种特征包括(下面只列举1元连续词特征):iphone、5s、plástico和model,那么,在上述表1所述的模型中进行检索后,被激活的语种特征如表2所示:
语种 特征字符串 特征权重
En iphone 0.1
Es iphone 0.05
Es plástico 1
表2、激活特征示例表
通过表2可见,由于词5s是一个型号词,在预处理阶段被过滤掉,词model代表有些语种特征在参数模型中是检索不到的,对语种判别不起作用。
需要注意的是,在实际应用中,由于训练获取的所述语种、语种特征及其权重的对应关系包含千万级以上的语种特征,因此步骤S1031的语种特征搜索步骤的速度将对整个语种识别的性能造成较大影响。为了提高特征检索的速度,本申请实施例提出从两个方面优化存储所述语种、语种特征及其权重的对应关系,下面对这两种存储方式进行说明。
1)存储方式一:采用字典树的数据结构存储所述N元连续词特征和所述N元连续字符特征。
本申请实施例所述的字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。
本申请实施例提出利用字典树对N元连续词特征和N元连续字符特征进行存储,使得当某个语种特征x没有得到匹配时,就可以直接放弃x+a(a表示任意串)特征的搜索。实验结果表明,这种存储策略对于N元连续词特征和N元连续字符特征的效果非常明显。
2)存储方式二:针对所述语种、语种特征及其权重的对应关系中的各个语种特征,将所述语种特征及其权重不为零的所有候选语种对应存储。
一般在多语种的文本语种分类器的特征搜索中,对于每个语种特征x,会对每个候选语种y,进行组合(x+y)的搜索。因此,每个语种特征都需要进行L次特征集搜索(L为候选语种个数)。本申请实施例提出对文本语种分类器的参数模型中的语种特征及其对应的所有候选语种进行类似倒排索引的方式进行存储。
请参考图4,其为本申请的用于文本的语种识别方法实施例生成的语种、语种特征及其权重的对应关系的存储示意图。通过图4所示的存储方式,每个语种特征只需要检索一遍,就可以返回所有可能匹配的候选语种,整体检索效率能够提高L倍。
步骤S1033:根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分。
通过上述步骤S1031获取到待识别文件的各个语种特征在各个候选语种中的特征权重后,就可以根据这些特征权重计算待识别文本分别属于各个候选语种的得分。
本申请实施例所述的文本语种分类器即可以为单语种的文本语种分类器,,还可以是多语种的文本语种分类器。例如,单语种的文本语种分类器可以是英文语种分类器等判别单一语种的分类器;多语种的文本语种分类器可以包括多个候选语种,取决于训练语料库中包括的文本语种数量。下面分别对单语种的文本语种分类器和多语种的文本语种分类器进行说明。
1)单语种的文本语种分类器
当本申请实施例所述的文本语种分类器为单语种的文本语种分类器时,步骤S1033所述的根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,可以采用如下公式进行计算:
其中,Y为所述待识别文本所属语种的随机变量;P为所述待识别文本属于特定语种的得分;x为由从所述待识别文本中抽取出的所述语种特征组成的特征向量;w为由与x中的各个语种特征对应的特征权重组成的权重向量。
在本实施例中,单语种的文本语种分类器为英语判别器,P(Y=1)表示待识别文本是英语的概率。本申请实施例提供的单语种的文本语种分类器采用逻辑回归模型。在实际应用中,还可以采用其它机器学习模型,例如:支持向量机,CRF,决策树等。上述各种不同的机器学习模型都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
2)多语种的文本语种分类器
当本申请实施例所述的文本语种分类器为多语种的文本语种分类器时,步骤S1033所述的根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,可以采用如下公式进行计算:
其中,xi为所述待识别文本,pj为所述待识别文本属于特定候选语种j的得分;f(xi)为从所述待识别文本中抽取出的所述语种特征,λ1j到λmj为f(xi)在所述特定候选语种j中的特征权重;Z为所述各个候选语种的得分之和,采用如下公式计算:
在上述公式中,n为多语种的文本语种分类器能够识别的语种数量。
本申请实施例提供的多语种的文本语种分类器采用最大熵模型(MaximumEntropy Model)。最大熵模型是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果。实验结果表明基于最大熵模型的语种识别方法是行之有效的。它不但能得到最一致的分布,而且保证了语种识别的查准率和查全率。同样的,在实际应用中,还可以采用其它机器学习模型,例如:支持向量机,CRF,决策树等。上述各种不同的机器学习模型都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
步骤S1035:将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
通过步骤S1033获取到待识别文本分别属于各个候选语种的得分,在此基础上,将得分大于预设阈值的候选语种作为待识别文本所属的语种。在实际应用中,通常将得分最高的候选语种作为待识别文本所属的语种。例如,根据上述表2中被激活的特征计算获取不同候选语种的得分,其结果如下所示:es语种得分为:0.05+1=1.05,en语种得分为:0.1,由于es语种得分大于en语种得分,因此判定待识别文本属于es语种。
通过上述步骤S101和步骤S103实现的用于文本的语种识别方法是一种基于机器学习的语种识别方法。在实际应用中,在上述基于机器学习的语种识别方法基础上,还可以采用一些优化策略,以提高文本语种的正确识别率。下面对本申请实施例采用的一些优化策略分别进行说明。
1)优化策略一
在实际应用中,对语料库进行训练以获取所述语种、语种特征及其权重的对应关系是一个非常耗时的操作,可见实时对语料库进行训练并不具有实用性。然而,这种非实时训练的方法可能带来的问题是:无法及时从较新的历史识别结果中学习到更准确的文本语种分类器参数模型。
一个实用的在线语种识别服务,需要对线上错误现象具备快速反应机制。为了解决上述问题,对突发的错误现象达到快速干预的效果,本申请实施例通过预先生成的干预词表对具体线上应用***中突发的错误现象进行快速干预,以提高文本语种的正确识别率。
本申请实施例所述的干预词表记录了一批已标注过正确语种的历史上被错误识别的文本数据。举例说明本申请实施例所述的被错误识别的文本,例如,在一次查询搜索中,对查询词的语种识别结果是错误的,将这样的文本称为被错误识别的文本。
优化策略一的方案是在步骤S101从待识别文本中抽取出语种特征之前,还包括:以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
本申请实施例提供的用于文本的语种识别方法设计了干预词表机制,待识别文本首先要经过干预词表识别模块,如果干预词表中包括待识别文本,则能够直接判定待识别文本所属语种,无需通过文本语种分类器进行判定。具体的,干预词表识别可以采用精确整体匹配、部分匹配、加权匹配等匹配策略,从多个角度对线上突发的错误现象进行快速干预。
本申请实施例所述的干预词表采用如下步骤生成:1)获取被错误识别的文本;2)将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。即:在获取到被错误识别的文本后,将被错误识别的文本及其所属的正确语种直接添加到干预词表中,以供查询检索用。
2)优化策略二
一般大型国际电子商务网站所支持的语种在10个以上。因此,语种识别技术至少要支持10种以上类别的语种识别需求。由于大部分语言都存在和其它语种共用字符的现象,因此,大部分的语种识别需要用本申请实施例提供的基于机器学习的语种识别方法进行识别。然而,有些语言的字符表在Unicode编码表中具有独自的码段,对这样的语言可以直接凭借Unicode编码来进行判断,例如,俄语,俄文字符一般在:0x0400~0x052F码段。
优化策略二的方案是在步骤S101从待识别文本中抽取出语种特征之前,还包括:以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
优化策略二通过结合字符编码识别方法和基于机器学习的语种识别方法,对待识别文本进行语种识别。字符编码识别方法可以处理的语种包括:俄语、希伯来语、韩语、泰语、***语等,实验结果表明,其正确识别率在99%以上。基于机器学习的语种识别方法可以处理的语种包括:英语、葡语、西班牙语、德语、法语、意大利语、土耳其语、越南语、印尼语、荷兰语。实验结果表明,除葡语和西班牙语外,F1测度均在90%以上,其中英文98%。
3)优化策略三
在实际应用中,由于用户输入的查询一般比较自由,因此可能包含品牌词、型号词以及各种描述性词汇,例如,iPhone 5S,Cannon D70等。品牌词、型号词一般是国际通用的英文写法。而且,英文查询在国际电子商务网站的流量中站较大比重,即使是非英语国家的用户,输入英文查询的情况也很常见。这些特殊词汇对语种识别会产生很大的噪音,因而对语种识别的准确度影响很大。例如,“Cannon D70盒子”这个文本串,其本身是一个中文文本,但是其中含有品牌词、型号词,因此很容易被识别成英文。然而,现有技术并没有针对这些特殊词汇进行特殊设计。
优化策略三是在步骤S101从待识别文本中抽取出语种特征之前,还包括:根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
优化策略三通过对品牌词、型号词等特殊词汇进行特殊处理,特别是对英文查询做出特殊的考虑,从而达到提高正确识别率的效果。
4)优化策略四
在大型国际电子商务网站中国,每秒钟收到的查询请求(QPS)高达上千甚至上万,而且用户对查询的结果等待时间(latency)是非常敏感的。因此,对语种识别的性能进行优化至关重要。
优化策略四是将执行本申请实施例提供的用于文本的语种识别方法的装置(语种识别装置)部署在分布式***中,从多线程并发角度对语种识别的性能进行了优化设计。在本实施例中,语种识别装置采用Blender/Searcher分布式构架方案,以提高语种识别的并发服务能力。请参考图5,其为本申请的用于文本的语种识别方法实施例分布式部署的***示意图。
5)优化策略五
现有技术通常基于单层构架进行语种识别,即:对所有候选语种统一考虑,并没有针对特定语种进行特殊优化的考虑。在实际应用中,英语等语种是常见查询文本,为了能够优化常见语种文本的语种识别,本申请实施例提出的优化策略五是:采用多层次的语种识别架构,其中专门设计了常见语种的单语种识别层,例如:专门针对英语的语种识别层。通过采用多层次的语种识别构架,能够提供特定语种的特殊优化能力。
在实际应用中,可以针对实际需要优化的语种进行类似的分层设计,甚至扩展为多层的逐级判别模型,每个层次还可以实现两类或三类的语种判别。上述各种不同的多层次的语种识别架构都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
请参考图6,其为本申请的用于文本的语种识别方法实施例多层识别构架的示意图。图6中前面几层(A-X)是针对特定语种的单语种的文本语种分类器,仅仅给出“是”或者“不是”某类特定语种;如果待识别文本不属于前面几种特定语种,则可以再通过最后的多语种的文本语种分类器,从多个候选语种中给出最优的语种类别。需要注意的是,在多语种的文本语种分类器的输出结果中,仍然可以指定是否输出前面已经判别过的“A-X”这些类别。
在上述的实施例中,提供了一种用于文本的语种识别方法,与之相对应的,本申请还提供一种用于文本的语种识别装置。该装置是与上述方法的实施例相对应。
请参看图7,其为本申请的用于文本的语种识别装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种用于文本的语种识别装置,包括:
抽取单元101,用于从待识别文本中抽取出语种特征;
预测单元103,用于将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
请参看图8,其为本申请的用于文本的语种识别装置实施例预测单元103的示意图。可选的,所述预测单元103包括:
检索子单元1031,用于以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重;
计算子单元1033,用于根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分;
设定子单元1035,用于将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
可选的,所述预测单元103包括至少一个面向特定候选语种的预测子单元;以预设执行顺序逐个采用各个面向特定候选语种的预测子单元,判断所述待识别文本所属语种是否属于当前面向特定候选语种的预测子单元的候选语种;若是,则结束语种识别;若否,则通过位于所述当前面向特定候选语种的预测子单元之后的、下一个面向特定候选语种的预测子单元计算获取所述待识别文本所属语种;
所述面向特定候选语种的预测子单元,用于通过面向特定候选语种的文本语种分类器计算获取所述待识别文本所属语种;
其中,所述面向特定候选语种的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
请参看图9,其为本申请的用于文本的语种识别装置实施例生成单元201的示意图。可选的,还包括:
生成单元201,用于生成所述预先生成的语种、语种特征及其权重的对应关系;
所述生成单元201包括:
获取子单元2011,用于获取已标注所属语种的文本集;
抽取子单元2013,用于从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数;
计算子单元2015,用于根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
设定子单元2017,用于将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
请参看图10,其为本申请的用于文本的语种识别装置实施例的又一示意图。可选的,还包括:
干预单元203,用于以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种;
其中,所述干预词表包括文本及其所属语种的对应记录集。
可选的,还包括:
字符识别单元205,用于以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
去除噪音单元207,用于根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
请参考图11,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:显示器1101;处理器1102;以及存储器1103,所述存储器1103被配置成存储用于文本的语种识别装置,所述用于文本的语种识别装置被所述处理器1102执行时,包括如下步骤:从待识别文本中抽取出语种特征;将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
本申请提供一种用于文本的语种识别方法、装置和电子设备,通过从待识别文本中抽取出语种特征,并将抽取出的语种特征作为预先生成的文本语种分类器的输入,通过文本语种分类器计算获取待识别文本所属语种,其中所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。由于本申请提供的方法所依据的语种特征是千万数量级的特征,因此,能够提高语种识别的正确识别率和鲁棒性,同时由于训练语料集仅需为已标注正确语种的历史查询集,而无需标注更多内容,从而能够达到实用性高的效果。
此外,本申请实施例提供另几种用于文本的语种识别方法,由于这些方法实施例在上述方法实施例中均已给出说明,所以描述得比较简单,相关之处参见上述方法实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请实施例提供又一种用于文本的语种识别方法,该方法包括如下步骤:1)以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;2)若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
关于干预词表及其应用方法的相关说明,请参见上述实施例一中优化策略一的相关描述,此处不再赘述。
优选的,所述干预词表采用如下步骤生成:1)获取被错误识别的文本;2)将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。
所述方法还包括如下步骤:若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例所述的文本语种分类器,即包括现有技术的文本语种分类器,还包括上述方法实施例一中给出的基于机器学习的文本语种分类器。
在上述的实施例中,提供了一种用于文本的语种识别方法,与之相对应的,本申请还提供一种用于文本的语种识别装置。该装置是与上述方法的实施例相对应。
本申请实施例提供的一种用于文本的语种识别装置,包括:
检索单元,用于以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
判断单元,用于若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例提供又一种用于文本的语种识别方法,该方法包括如下步骤:1)以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;2)若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
关于字符码表及其应用方法的相关说明,请参见上述实施例一中优化策略二的相关描述,此处不再赘述。
所述方法还包括如下步骤:若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例所述的文本语种分类器,即包括现有技术的文本语种分类器,还包括上述方法实施例一中给出的基于机器学习的文本语种分类器。
在上述的实施例中,提供了一种用于文本的语种识别方法,与之相对应的,本申请还提供一种用于文本的语种识别装置。该装置是与上述方法的实施例相对应。
本申请实施例提供的一种用于文本的语种识别装置,包括:
检索单元,用于以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
判断单元,用于若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
可选的,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例提供又一种用于文本的语种识别方法,该方法包括如下步骤:1)根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;2)通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例所述的文本语种分类器,即包括现有技术的文本语种分类器,还包括上述方法实施例一中给出的基于机器学习的文本语种分类器。关于品牌词表、型号词表及过滤方法的相关说明,请参见上述实施例一中优化策略三的相关描述,此处不再赘述。
在上述的实施例中,提供了一种用于文本的语种识别方法,与之相对应的,本申请还提供一种用于文本的语种识别装置。该装置是与上述方法的实施例相对应。
本申请实施例提供的一种用于文本的语种识别装置,包括:
过滤单元,用于根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;
预测单元,用于通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
本申请实施例提供又一种用于文本的语种识别方法,该方法包括如下步骤:1)从待识别文本中抽取出语种特征;2)以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
本申请实施例所述的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。关于多层次的语种识别架构的相关说明,请参见上述实施例一中优化策略五的相关描述,此处不再赘述。
在上述的实施例中,提供了一种用于文本的语种识别方法,与之相对应的,本申请还提供一种用于文本的语种识别装置。该装置是与上述方法的实施例相对应。
本申请实施例提供的一种用于文本的语种识别装置,包括:
抽取单元,用于从待识别文本中抽取出语种特征;
预测单元,用于以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (38)

1.一种用于文本的语种识别方法,其特征在于,包括:
从待识别文本中抽取出语种特征;
将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
2.根据权利要求1所述的用于文本的语种识别方法,其特征在于,所述通过所述文本语种分类器计算获取所述待识别文本所属语种,包括:
以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重;
根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分;
将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
3.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述特征权重基于判别式模型计算获取。
4.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述预先生成的语种、语种特征及其权重的对应关系,采用如下步骤生成:
获取已标注所属语种的文本集;
从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数;
根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
5.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述语种、语种特征及其权重的对应关系,采用如下方式存储:
采用字典树的数据结构存储所述N元连续词特征和所述N元连续字符特征。
6.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述语种、语种特征及其权重的对应关系,采用如下方式存储:
针对所述语种、语种特征及其权重的对应关系中的各个语种特征,将所述语种特征及其权重不为零的所有候选语种对应存储。
7.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述文本语种分类器为单语种的文本语种分类器;所述根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,采用如下公式进行计算:
P ( Y = 1 | x ) = exp ( w · x ) 1 + exp ( w · x ) = 1 1 + exp ( - w · x )
其中,Y为所述待识别文本所属语种的随机变量;P为所述待识别文本属于特定语种的得分;x为由从所述待识别文本中抽取出的所述语种特征组成的特征向量;w为由与x中的各个语种特征对应的特征权重组成的权重向量。
8.根据权利要求2所述的用于文本的语种识别方法,其特征在于,所述文本语种分类器为多语种的文本语种分类器;所述根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分,采用如下公式进行计算:
p j ( x i ) = 1 z ( λ 1 , ... , λ m ) exp [ λ 1 j f 1 ( x i ) + ... + λ m j f m ( x i ) ]
其中,xi为所述待识别文本,pj为所述待识别文本属于特定候选语种j的得分;f(xi)为从所述待识别文本中抽取出的所述语种特征,λ1j到λmj为f(xi)在所述特定候选语种j中的特征权重;Z为所述各个候选语种的得分之和,采用如下公式计算:
Z ( λ 1 , ... , λ m ) = Σ j = 1 n exp [ λ 1 j f 1 ( x i ) + ... + λ m j f m ( x i ) ]
其中,n为所述候选语种的数量。
9.根据权利要求1-8任意一项所述的用于文本的语种识别方法,其特征在于,所述语种特征还包括:所述待识别文本包括的词数量和平均词长度、预设品牌词特征、预设型号词特征、各个语种特有字符特征、各个语种特有词缀特征和业务特征的至少一者。
10.根据权利要求1-8任意一项所述的用于文本的语种识别方法,其特征在于,所述N元连续字符特征包括N元连续字符及其在词中的位置信息。
11.根据权利要求1-8任意一项所述的用于文本的语种识别方法,其特征在于,所述预先生成的文本语种分类器包括至少一个面向特定候选语种的文本语种分类器;各个面向特定候选语种的文本语种分类器以预设执行顺序逐个运行;
所述通过所述文本语种分类器计算获取所述待识别文本所属语种,采用如下方式:
若通过当前面向特定候选语种的文本语种分类器判定所述待识别文本所属语种不属于所述当前面向特定候选语种的文本语种分类器的候选语种时,则根据所述预设执行顺序,通过位于所述当前面向特定候选语种的文本语种分类器之后的、下一个文本语种分类器计算获取所述待识别文本所属语种;
若通过当前面向特定候选语种的文本语种分类器判定所述待识别文本所属语种属于所述当前面向特定候选语种的文本语种分类器的候选语种时,则结束语种识别;
其中,所述面向特定候选语种的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
12.根据权利要求1所述的用于文本的语种识别方法,其特征在于,在所述从待识别文本中抽取出语种特征之前,还包括:
以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
13.根据权利要求12所述的用于文本的语种识别方法,其特征在于,所述干预词表采用如下步骤生成:
获取被错误识别的文本;
将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。
14.根据权利要求1所述的用于文本的语种识别方法,其特征在于,在所述从待识别文本中抽取出语种特征之前,还包括:
以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
15.根据权利要求1所述的用于文本的语种识别方法,其特征在于,在所述从待识别文本中抽取出语种特征之前,还包括:
根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
16.根据权利要求1所述的用于文本的语种识别方法,其特征在于,执行所述用于文本的语种识别方法的装置部署在分布式***中。
17.一种用于文本的语种识别装置,其特征在于,包括:
抽取单元,用于从待识别文本中抽取出语种特征;
预测单元,用于将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;
其中,所述语种特征是指千万数量级的语种特征,包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
18.根据权利要求17所述的用于文本的语种识别装置,其特征在于,所述预测单元包括:
检索子单元,用于以抽取出的所述语种特征为检索条件,在预先生成的语种、语种特征及其权重的对应关系中检索获取所述语种特征在各个候选语种中的特征权重;
计算子单元,用于根据检索获取的所述语种特征在各个候选语种中的特征权重,计算所述待识别文本分别属于所述各个候选语种的得分;
设定子单元,用于将所述得分大于预设阈值的候选语种作为所述待识别文本所属的语种。
19.根据权利要求18所述的用于文本的语种识别装置,其特征在于,还包括:
生成单元,用于生成所述预先生成的语种、语种特征及其权重的对应关系;
所述生成单元包括:
获取子单元,用于获取已标注所属语种的文本集;
抽取子单元,用于从各个已标注所属语种的文本中抽取出所述语种特征,并统计所述语种特征在各个候选语种中分别出现的次数;
计算子单元,用于根据抽取出的所述各个已标注所属语种的文本的语种特征及统计出的所述语种特征在各个候选语种中分别出现的次数,计算获取各个语种特征在各个候选语种中分别出现的次数、与在所有候选语种中出现总次数的比值,作为各个语种特征在各个候选语种中的特征权重;
设定子单元,用于将所述各个候选语种、各个语种特征和所述特征权重的三元组集合,作为所述语种、语种特征及其权重的对应关系。
20.根据权利要求17所述的用于文本的语种识别装置,其特征在于,所述预测单元包括至少一个面向特定候选语种的预测子单元;以预设执行顺序逐个采用各个面向特定候选语种的预测子单元,判断所述待识别文本所属语种是否属于当前面向特定候选语种的预测子单元的候选语种;若是,则结束语种识别;若否,则通过位于所述当前面向特定候选语种的预测子单元之后的、下一个面向特定候选语种的预测子单元计算获取所述待识别文本所属语种;
所述面向特定候选语种的预测子单元,用于通过面向特定候选语种的文本语种分类器计算获取所述待识别文本所属语种;
其中,所述面向特定候选语种的文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
21.根据权利要求17所述的用于文本的语种识别装置,其特征在于,还包括:
干预单元,用于以所述待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种;
其中,所述干预词表包括文本及其所属语种的对应记录集。
22.根据权利要求17所述的用于文本的语种识别装置,其特征在于,还包括:
字符识别单元,用于以所述待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
23.根据权利要求17所述的用于文本的语种识别装置,其特征在于,还包括:
去除噪音单元,用于根据预先生成的品牌词表和型号词表的至少一者,从所述待识别文本去除预设品牌词或预设型号词。
24.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器被配置成存储用于文本的语种识别装置,所述用于文本的语种识别装置被所述处理器执行时,包括如下步骤:从待识别文本中抽取出语种特征;将抽取出的所述语种特征作为预先生成的文本语种分类器的输入,通过所述文本语种分类器计算获取所述待识别文本所属语种;其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
25.一种用于文本的语种识别方法,其特征在于,包括:
以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
26.根据权利要求25所述的用于文本的语种识别方法,其特征在于,所述干预词表采用如下步骤生成:
获取被错误识别的文本;
将所述被错误识别的文本及其所属的正确语种作为所述干预词表的记录。
27.根据权利要求25所述的用于文本的语种识别方法,其特征在于,还包括:
若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
28.一种用于文本的语种识别装置,其特征在于,包括:
检索单元,用于以待识别文本为检索条件,在预先生成的干预词表中检索是否存在所述待识别文本;所述干预词表包括文本及其所属语种的对应记录集;
判断单元,用于若上述判断结果为是,则将所述待识别文本在所述干预词表中对应的所属语种作为所述待识别文本所属语种。
29.根据权利要求28所述的用于文本的语种识别装置,其特征在于,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
30.一种用于文本的语种识别方法,其特征在于,包括:
以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
31.根据权利要求30所述的用于文本的语种识别方法,其特征在于,还包括:
若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
32.一种用于文本的语种识别装置,其特征在于,包括:
检索单元,用于以待识别文本包括的字符为检索条件,在预先生成的特定语种字符码表中检索是否存在所述待识别文本包括的字符;
判断单元,用于若上述判断结果为是,则将所述待识别文本包括的字符在所述特定语种字符码表中对应的所属语种作为所述待识别文本所属语种。
33.根据权利要求32所述的用于文本的语种识别装置,其特征在于,还包括:
预测单元,用于若上述判断结果为否,则通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
34.一种用于文本的语种识别方法,其特征在于,包括:
根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;
通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
35.一种用于文本的语种识别装置,其特征在于,包括:
过滤单元,用于根据预先生成的品牌词表和型号词表的至少一者,从待识别文本去除预设品牌词或预设型号词;
预测单元,用于通过预先生成的文本语种分类器计算获取所述待识别文本所属语种。
36.一种用于文本的语种识别方法,其特征在于,包括:
从待识别文本中抽取出语种特征;
以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
37.根据权利要求37所述的用于文本的语种识别方法,其特征在于,所述文本语种分类器包括单语种的文本语种分类器或多语种的文本语种分类器。
38.一种用于文本的语种识别装置,其特征在于,包括:
抽取单元,用于从待识别文本中抽取出语种特征;
预测单元,用于以预设执行顺序逐个运行预设数量的各个文本语种分类器,通过所述文本语种分类器判断所述待识别文本所属语种是否属于所述文本语种分类器的候选语种;若是,则结束语种识别;
其中,所述语种特征包括N元连续词特征、N元连续字符特征和词缀特征的至少一者。
CN201510672933.XA 2015-10-16 2015-10-16 用于文本的语种识别方法、装置和电子设备 Active CN106598937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510672933.XA CN106598937B (zh) 2015-10-16 2015-10-16 用于文本的语种识别方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510672933.XA CN106598937B (zh) 2015-10-16 2015-10-16 用于文本的语种识别方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN106598937A true CN106598937A (zh) 2017-04-26
CN106598937B CN106598937B (zh) 2019-10-18

Family

ID=58553877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510672933.XA Active CN106598937B (zh) 2015-10-16 2015-10-16 用于文本的语种识别方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN106598937B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959943A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 语种识别更新方法及装置
CN107957994A (zh) * 2017-10-30 2018-04-24 努比亚技术有限公司 一种翻译方法、终端及计算机可读存储介质
CN108038189A (zh) * 2017-12-11 2018-05-15 南京茂毓通软件科技有限公司 一种电子邮件的信息提取***
CN108172212A (zh) * 2017-12-25 2018-06-15 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及***
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和***
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN108682417A (zh) * 2018-05-14 2018-10-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN108932069A (zh) * 2018-07-11 2018-12-04 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN110019821A (zh) * 2019-04-09 2019-07-16 深圳大学 文本类标训练方法和识别方法、相关装置及存储介质
CN110110299A (zh) * 2019-04-28 2019-08-09 腾讯科技(上海)有限公司 文本变换方法、装置以及服务器
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN110970018A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 语音识别方法和装置
CN111079408A (zh) * 2019-12-26 2020-04-28 北京锐安科技有限公司 一种语种识别方法、装置、设备及存储介质
CN111178009A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于特征词加权的文本多语种识别方法
CN111539207A (zh) * 2020-04-29 2020-08-14 北京大米未来科技有限公司 文本识别方法、文本识别装置、存储介质和电子设备
CN111832657A (zh) * 2020-07-20 2020-10-27 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN112528682A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 语种检测方法、装置、电子设备和存储介质
CN112883966A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883968A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883967A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN113255398A (zh) * 2020-02-10 2021-08-13 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、设备和存储介质
US11977545B2 (en) * 2018-10-15 2024-05-07 Oclient Inc. Generation of an optimized query plan in a database system

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2124986A1 (en) * 1994-06-16 1995-12-17 Mitsuhiro Aida Text input method
CN1276077A (zh) * 1997-09-15 2000-12-06 卡艾尔公司 用于多种语言光字符识别的自动语言识别***
US20010041978A1 (en) * 1997-12-24 2001-11-15 Jean-Francois Crespo Search optimization for continuous speech recognition
US20050086046A1 (en) * 1999-11-12 2005-04-21 Bennett Ian M. System & method for natural language processing of sentence based queries
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别***及方法
CN101930430A (zh) * 2009-06-19 2010-12-29 株式会社日立制作所 一种语言文本的处理装置及语言学习装置
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及***
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN104572767A (zh) * 2013-10-25 2015-04-29 北大方正集团有限公司 一种站点语种分类的方法和***
CN105760901A (zh) * 2016-01-27 2016-07-13 南开大学 一种多语种倾斜文档图像的自动语言判别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2124986A1 (en) * 1994-06-16 1995-12-17 Mitsuhiro Aida Text input method
CN1276077A (zh) * 1997-09-15 2000-12-06 卡艾尔公司 用于多种语言光字符识别的自动语言识别***
US20010041978A1 (en) * 1997-12-24 2001-11-15 Jean-Francois Crespo Search optimization for continuous speech recognition
US20050086046A1 (en) * 1999-11-12 2005-04-21 Bennett Ian M. System & method for natural language processing of sentence based queries
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别***及方法
CN101930430A (zh) * 2009-06-19 2010-12-29 株式会社日立制作所 一种语言文本的处理装置及语言学习装置
CN102779135A (zh) * 2011-05-13 2012-11-14 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN103065622A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 一种用于语种识别的语种模型的训练方法及***
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN104572767A (zh) * 2013-10-25 2015-04-29 北大方正集团有限公司 一种站点语种分类的方法和***
CN105760901A (zh) * 2016-01-27 2016-07-13 南开大学 一种多语种倾斜文档图像的自动语言判别方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959943A (zh) * 2016-01-11 2017-07-18 阿里巴巴集团控股有限公司 语种识别更新方法及装置
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
US11183171B2 (en) 2017-05-17 2021-11-23 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
CN107957994A (zh) * 2017-10-30 2018-04-24 努比亚技术有限公司 一种翻译方法、终端及计算机可读存储介质
CN108038189A (zh) * 2017-12-11 2018-05-15 南京茂毓通软件科技有限公司 一种电子邮件的信息提取***
CN108172212A (zh) * 2017-12-25 2018-06-15 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及***
CN108172212B (zh) * 2017-12-25 2020-09-11 横琴国际知识产权交易中心有限公司 一种基于置信度的语音语种识别方法及***
CN108417205A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语义理解训练方法和***
CN108595443A (zh) * 2018-03-30 2018-09-28 浙江吉利控股集团有限公司 同声翻译方法、装置、智能车载终端及存储介质
CN108682417A (zh) * 2018-05-14 2018-10-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
CN108932069A (zh) * 2018-07-11 2018-12-04 科大讯飞股份有限公司 输入法候选词条确定方法、装置、设备及可读存储介质
CN110888967B (zh) * 2018-09-11 2023-04-28 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN110888967A (zh) * 2018-09-11 2020-03-17 阿里巴巴集团控股有限公司 搜索方法、装置及设备
CN110970018A (zh) * 2018-09-28 2020-04-07 珠海格力电器股份有限公司 语音识别方法和装置
US11977545B2 (en) * 2018-10-15 2024-05-07 Oclient Inc. Generation of an optimized query plan in a database system
CN109934251A (zh) * 2018-12-27 2019-06-25 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN109934251B (zh) * 2018-12-27 2021-08-06 国家计算机网络与信息安全管理中心广东分中心 一种用于小语种文本识别的方法、识别***及存储介质
CN110019821A (zh) * 2019-04-09 2019-07-16 深圳大学 文本类标训练方法和识别方法、相关装置及存储介质
CN110110299A (zh) * 2019-04-28 2019-08-09 腾讯科技(上海)有限公司 文本变换方法、装置以及服务器
CN110297888B (zh) * 2019-06-27 2022-05-03 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110297888A (zh) * 2019-06-27 2019-10-01 四川长虹电器股份有限公司 一种基于前缀树与循环神经网络的领域分类方法
CN110347934A (zh) * 2019-07-18 2019-10-18 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN110347934B (zh) * 2019-07-18 2023-12-08 腾讯科技(成都)有限公司 一种文本数据过滤方法、装置及介质
CN111178009A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于特征词加权的文本多语种识别方法
CN111178009B (zh) * 2019-12-20 2023-05-09 沈阳雅译网络技术有限公司 一种基于特征词加权的文本多语种识别方法
CN111079408A (zh) * 2019-12-26 2020-04-28 北京锐安科技有限公司 一种语种识别方法、装置、设备及存储介质
CN111079408B (zh) * 2019-12-26 2023-05-30 北京锐安科技有限公司 一种语种识别方法、装置、设备及存储介质
CN113255398A (zh) * 2020-02-10 2021-08-13 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、设备和存储介质
CN113255398B (zh) * 2020-02-10 2023-08-18 百度在线网络技术(北京)有限公司 兴趣点判重方法、装置、设备和存储介质
CN111539207A (zh) * 2020-04-29 2020-08-14 北京大米未来科技有限公司 文本识别方法、文本识别装置、存储介质和电子设备
CN111832657A (zh) * 2020-07-20 2020-10-27 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质
CN112528682A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 语种检测方法、装置、电子设备和存储介质
CN112883967B (zh) * 2021-02-24 2023-02-28 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883968B (zh) * 2021-02-24 2023-02-28 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883966B (zh) * 2021-02-24 2023-02-24 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883967A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883968A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
CN112883966A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN106598937B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN106598937B (zh) 用于文本的语种识别方法、装置和电子设备
Ravichandran et al. Learning surface text patterns for a question answering system
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及***
Tiun et al. Automatic topic identification using ontology hierarchy
CN106557462A (zh) 命名实体识别方法和***
CN106649282A (zh) 基于统计的机器翻译方法、装置及电子设备
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
JP2004139553A (ja) 文書検索システムおよび質問応答システム
CN101599071A (zh) 对话文本主题的自动提取方法
Sun et al. Mining dependency relations for query expansion in passage retrieval
CN104991891A (zh) 一种短文本特征提取方法
Toselli et al. Making two vast historical manuscript collections searchable and extracting meaningful textual features through large-scale probabilistic indexing
CN109299221A (zh) 实体抽取和排序方法与装置
Ranjan et al. Question answering system for factoid based question
CN102929962A (zh) 一种搜索引擎的评测方法
Overell et al. Geographic Co-occurrence as a tool for GIR.
Belz et al. Extracting parallel fragments from comparable corpora for data-to-text generation
Kešelj et al. A SUFFIX SUBSUMPTION-BASED APPROACH TO BUILDING STEMMERS AND LEMMATIZERS FOR HIGHLY INFLECTIONAL LANGUAGES WITH SPARSE RESOURCES.
Corrada-Emmanuel et al. Answer passage retrieval for question answering
Arab et al. A graph-based approach to word sense disambiguation. An unsupervised method based on semantic relatedness
Zheng et al. A novel hierarchical convolutional neural network for question answering over paragraphs
Chali et al. Do automatic annotation techniques have any impact on supervised complex question answering?
Palta Word Sense Disambiguation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211115

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited