CN114548049A - 一种数字正则化方法、装置、设备及存储介质 - Google Patents
一种数字正则化方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114548049A CN114548049A CN202210202517.3A CN202210202517A CN114548049A CN 114548049 A CN114548049 A CN 114548049A CN 202210202517 A CN202210202517 A CN 202210202517A CN 114548049 A CN114548049 A CN 114548049A
- Authority
- CN
- China
- Prior art keywords
- regularization
- numbers
- text
- original text
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种数字正则化方法、装置、设备及存储介质,本申请对于包含待正则化处理的数字的原始文本,确定其中数字的属性标签,数字的属性可以是影响数字正则化结果的相关属性,在此基础上,基于数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。本申请方案不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,进一步,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度。
Description
技术领域
本申请涉及文本分析技术领域,更具体的说,是涉及一种数字正则化方法、装置、设备及存储介质。
背景技术
随着语音合成声学建模能力的飞速发展,前端文本分析技术的瓶颈越来越凸显,含数字相关文本的语音合成可懂度高度依赖数字的正则化能力。语音合成应用中银行、保险等领域对数字的转写要求很高,这些领域中用户对数字读音的正确性也更加敏感,错误的数字正则化会严重影响用户的体验,因此数字正则化对于语音合成的推广普及是非常关键的一环。
目前语音合成中数字正则化通用的做法是采用规则进行数字到文本的正则化转写。由于不同语种的数字正则化规则不同,现有方法需要归纳各种不同语种的数字正则化规则。并且,有些规则不够全面例外情况较多,以俄语为例,这种斯拉夫语系涉及丰富的格位变化,不同格位变化会导致数字正则化结果不同,因此采用规则方式进行数字正则化处理的结果准确度不高。
发明内容
鉴于上述问题,提出了本申请以便提供一种数字正则化方法、装置、设备及存储介质,以简化数字正则化处理过程,且提升数字正则化处理结果的准确度。具体方案如下:
本申请的第一方面,提供了一种数字正则化方法,包括:
获取包含数字的原始文本;
确定所述原始文本中包含的数字的属性,得到数字的属性标签;
基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
优选地,所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,包括:
将标注有数字的属性标签的原始文本输入预置的第一正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第一正则化模块被配置为,结合输入的原始文本中数字的属性标签及数字的上下文信息,预测输出数字的正则化结果的内部状态表示。
优选地,在所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示之前,该方法还包括:
将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,包括:
基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示。
优选地,所述将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串,包括:
确定所述原始文本的语种类别;
获取预设的与所述原始文本的语种类别对应的数字划分位数,作为设定位数;
按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串。
优选地,所述按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串,包括:
对于所述原始文本中的连续数字,按照从低位到高位的顺序,每隔所述设定位数划分一个数字串;
若对一连续数字所划分的最后一个数字串不足所述设定位数,则在最高位用0补齐至所述设定位数。
优选地,所述基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示,包括:
将标注有数字的属性标签,且按照设定位数对连续数字进行数字串划分后的原始文本输入预训练的第二正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第二正则化模块被配置为,结合输入的原始文本中数字的属性标签、数字串及数字串在原始文本中的上下文信息,预测输出数字的正则化结果的内部状态表示。
优选地,所述第二正则化模块为神经网络模型,该神经网络模型的训练过程,包括:
获取训练文本,及将所述训练文本中的数字正则化为同语种单词表示的目标文本;
将所述训练文本中的数字添加属性标签;
将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
将标注有数字的属性标神经网络模型中,得到模型输出的预测正则化文本;
以所述预测正则化文本趋近于所述目标文本为训练目标,训练所述神经网络模型直至收敛。
优选地,所述将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串,包括:
确定所述训练文本的语种类别;
获取预设的与所述训练文本的语种类别对应的数字划分位数,作为设定位数;
按照所述设定位数为单位,将所述训练文本中的连续数字划分为至少一个数字串。
优选地,所述确定所述原始文本中包含的数字的属性,得到数字的属性标签,包括:
将所述原始文本输入预训练的数字属性预测模型中,得到模型输出的所述原始文本中数字的属性标签;
其中,所述数字属性预测模型以包含数字的训练文本作为训练样本,以所述训练文本中标注的数字的属性标签为样本标签训练得到。
优选地,所述训练文本包括多种不同语种的文本。
优选地,所述数字的属性标签包括以下至少一种:
数字所在文本的语种标签、基数词或序数词标签、阴阳性标签、格位标签。
优选地,所述神经网络模型为序列到序列模型结构。
本申请的第二方面,提供了一种数字正则化装置,包括:
文本获取单元,用于获取包含数字的原始文本;
属性标签确定单元,用于确定所述原始文本中包含的数字的属性,得到数字的属性标签;
正则化单元,用于基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
本申请的第三方面,提供了一种数字正则化设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的数字正则化方法的各个步骤。
本申请的第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的数字正则化方法的各个步骤。
借由上述技术方案,本申请的数字正则化方法对于包含待正则化处理的数字的原始文本,确定其中包含的数字的属性,得到数字的属性标签,数字的属性可以是影响数字正则化结果的相关属性,例如数字的阴阳性、基数词/序数词、格位等,在此基础上,基于数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。采用本申请的方案不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,在此基础上,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的数字正则化方法的一流程示意图;
图2示例了俄语中数字1在不同格位下的正则化表示;
图3为本申请实施例提供的一种训练语料获取过程示意图;
图4为本申请实施例提供的数字正则化方法的另一流程示意图
图5为本申请实施例提供的数字正则化方法的再一流程示意图;
图6为本申请实施例提供的一种数字正则化装置结构示意图;
图7为本申请实施例提供的数字正则化设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供了一种数字正则化方案,可以适用于解决各语种下的数字的正则化任务,示例如将中文句子中包含的数字正则化为中文词语,或将英文句子中包含的数字正则化为英文单词等。以中文语境下数字正则化任务为例,原始文本为:这件衬衣价值125圆。对原始文本中的数字正则化之后的文本为:这件衬衣价值一百二十五圆。也即,将数字“125”正则化为“一百二十五”。
数字正则化可以应用于各种任务场景,示例如,在语音合成任务中,对于待合成语音的原始文本,若其中包含数字,则需要首先将数字正则化为同语种的单词表示,进一步利用正则化后的文本进行语音合成。数字正则化结果的准确度,对于后续语音合成的可懂度影响至关重要。
而传统的基于规则的数字正则化方案,普遍存在规则覆盖不全面,导致数字正则化结果准确度不高的问题。为此,本案提供了一种优化的数字正则化方案,以提升数字正则化结果的准确度。
本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
接下来,结合图1所述,本申请的数字正则化方法可以包括如下步骤:
步骤S100、获取包含数字的原始文本。
具体地,本申请的数字正则化方法,为了解决采用规则方式对数字进行正则化处理时,无法充分利用数字的上下文信息,而不同语境下数字的正则化结果可能不同,为此,本申请在对数字进行正则化处理时,获取的是包含待正则化的数字的原始文本。能够在对数字进行正则化处理时,充分利用原始文本中数字的上下文信息,以消除一些正则化结果上的歧义问题。
原始文本中包含数字及非数字文本,其中,数字即为待正则化的数字,原始文本中可以包括一组或多组待正则化的数字,其中一组数字是指一个连续的数字串。
以如下例子进行说明:
我在2021年共计消费了12340圆。
上述原始文本中包含两个数字串,分别为“2021”和“12340”,该两个数字串可以均作为待正则化的数字,当然,也可以根据实际需要,选择其中一个或多个作为待正则化的数字。
进一步地,原始文本的语种(也即非数字文本的语种)可以是多种不同的语种,示例如可以是中文、英文、俄语等。
示例如,原始文本可以是中文语种,如:
这件衬衣价值125圆。
原始文本还可以是英语语种,如:
This shirt costs 125 dollar。
步骤S110、确定所述原始文本中包含的数字的属性,得到数字的属性标签。
具体地,不同语种的原始文本中,不同语境下数字的属性有多种不同的变化,并且数字的属性会影响数字正则化结果的表示,为了便于后续更加准确的对数字正则化处理,本步骤中确定出原始文本中数字的属性,得到数字的属性标签。
可选的,数字的属性标签可以有多种,本实施例中示例几种可选的情况,如:数字所在文本的语种标签、基数词或序数词标签、阴阳性标签、格位标签等。
接下来,分别对上述几种属性标签进行说明:
(1)数字所在文本的语种标签(后文简称语种标签),即包含数字的原始文本的语种。
(2)基数词标签:
基数词是指描述事物数量多少的数词。在数学上的理解是可以比较大小的数。基数词在句子中可以作为主语、宾语、定语、表语、同位语。基数词主要表示事物或人物的个数。
日常使用的***数字书写大多数都是基数词。
以下例子数字均作为基数词(中文为例)使用:
3.1415926(小数)
6+7+8=21(数学等式)
¥1000.00(货币)
21:12(比分)
(3)序数词标签:
序数词是指表示顺序的数词。序数词在句中可作主语、宾语、定语和表语。基数词与序数词存在一定的对应关系,在中文中序数词的表示比较简单,只要在数字前加上‘第’即可表示数字为序数词。英文中也存在一些比较明显的规律,如:一般在序数词上加th。但是也有些语种中,基数词与序数词的对应上并不存在这种良好的规律现象,这也正是导致现有基于规则的数字正则化方法不足的一部分原因。
以下例子数字均作为序数词使用:
5/6(在意大利语中,分数的分母部分作为序数词)
30/08/2020(在德语中,日期的几号部分作为序数词)
09:23(在藏语中,时间的小时部分作为序数词)
第1名(在中文中,1为序数词,在中文中基础词与序数词读法一致)
6th(在英文中,序数词上一般添加有th)。
(4)阴阳性标签:
名词存在性别之分:阴性、阳性或中性。对于一些语言,性别的不同也会造成单词书写额不一致。
以俄语为例,1作为基数词对于不同性别的情况下存在以下3种不同的书写形式:
表1:
俄语基数词(***数字) | 阳性 | 中性 | 阴性 |
1 | один | одно | однa |
(5)格位标签:
格是语种中单词表示与其他词的关系。一个名词变格后就带了语法功能,比如一个名词变为宾格后无论放在句中什么地方它就成了宾语。当然,不是所有语言均有格位语法,例如中文。有格位语法的不同语言,其格的分类也不完全对应,例如俄语有6个格,***语种有3个格。
不同的格位变化对应的数字正则化也会导致不同,仍以俄语1为例,其不同格位下的正则化表示参见图2所示。
俄语中6格的解释:
一格:用于主语。我看书,我就是主语,用一格。
二格:与名词连用的时候,表示事物的持有者或表示事物的从属关系。如老师的电脑,这里老师是二格。
三格:给格。比如说:给我一本书。被给的人是我,那么我就是第三格。
四格:与及物动词连用,表示动作的直接客体。如:我们热爱祖国。热爱是动词,直接要求的是祖国,那么祖国是四格。
五格:工具格表示用什么。如:我用钢笔写字。钢笔是第五格。
六格:只能与要求六格的前置词连用。
步骤S120、基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
具体地,本步骤中在对数字正则化处理过程,同时参考前文确定的数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。
采用本申请实施例提供的数字正则化方法,不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,在此基础上,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度,有效解决了现有技术中多语种数字正则化所存在的问题。
在本申请的一些实施例中,介绍了上述步骤S110,确定所述原始文本中包含的数字的属性,得到数字的属性标签的一种可选实现方式。
本实施例中,可以基于神经网络模型来实现数字属性标签的预测任务。具体地,本申请可以预先训练数字属性预测模型。数字属性预测模型可以采用多种不同的网络结构,示例如可以采用Conv&BiLstm&Attention的组合结构,当然,除此之外还可以采用其他可选的神经网络结构。
在训练数字属性预测模型时,可以以包含数字的训练文本作为训练样本,以训练文本中标注的数字的属性标签作为样本标签。
可以理解的是,为了保证数字属性预测模型能够针对不同语种的文本中的数字进行属性预测,本实施例对模型进行训练的训练文本可以包括多种不同语种的文本,也即让模型充分学习不同语种的文本中数字的属性标签与数字的上下文信息间的关系。
在完成模型的训练之后,将包含待正则化的数字的原始文本输入训练后的数字属性预测模型,得到模型输出的原始文本中数字的属性标签。
在本申请的一些实施例中,对上述步骤S120,基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果的过程进行介绍。
一种可选的实现方式中,可以基于预先配置的第一正则化模块来实现数字的正则化处理过程。
具体地,该第一正则化模块可以被配置为,结合输入的原始文本中数字的属性标签及数字的上下文信息,预测输出数字的正则化结果的内部状态表示。在此基础上,本申请实施例中可以将标注有数字的属性标签的原始文本输入第一正则化模块中,得到输出的正则化文本。该正则化文本中包含数字的正则化结果,正则化结果为数字正则化为与原始文本同语种的单词表示。
其中,第一正则化模块的实现方式可以有多种形式,如按照用户设置的数字正则化规则所配置的功能模块,或者是基于神经网络模型的形式来实现。
以第一正则化模块采用神经网络模型为例进行说明,该第一正则化模块可以定义为第一正则化模型。
具体地,可以预先训练第一正则化模型,该第一正则化模型可以采用序列到序列Seq2Seq模型结构,以此能够提升模型的稳定性,尤其对于语料匮乏的语种。Seq2Seq模型结构中可以采用Conv&BiLstm&Attention&Lstm的组合结构,当然,除此之外还可以采用其他可选的神经网络结构。
通过预训练第一正则化模型,可以将其配置为,结合输入的原始文本中数字的属性标签及数字的上下文信息,预测输出数字的正则化结果的内部状态表示。
具体地,第一正则化模型的训练数据可以包括:
由标注有数字的属性标签的训练文本及目标文本组成的训练语料。其中,目标文本为将所述训练文本中的数字正则化为同语种单词表示的文本。
可以理解的是,为了保证第一正则化模型能够针对不同语种的文本中的数字进行正则化处理,本实施例对模型进行训练的训练文本可以包括多种不同语种的文本,也即让模型充分学习不同语种的文本中数字的正则化结果与数字的属性标签及上下文信息间的关系。
在训练得到第一正则化模型之后,可以将标注有数字的属性标签的原始文本输入第一正则化模型中,得到模型输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示。
本实施例中介绍了一种获取训练语料的可选实现方式,结合图3所示:
首先获取训练文本集合,训练文本集合中包含不同语种的训练文本,每条训练文本中均包含待正则化的数字。
对于每条训练文本,首先经过语种判别,确定训练文本的语种。进而在预先设定的各语种与数字正则化规则间的匹配关系中,查找与所述训练文本的语种匹配的数字正则化规则,进而按照查找到的数字正则化规则,对训练文本中的数字进行正则化转换处理。
需要说明的是,本申请可以预先整理不同语种下数字正则化转换处理的基本规则。当然,整理的规则可能无法覆盖全部的数字正则化处理情况,也即,数字正则化转换后的结果可能存在不准确的情况。基于此,本申请可以进一步引入人工校对确认的过程,也即,由人工对基于规则转换后的数字正则化结果进一步确认校对。
对于人工确认校对后的文本,进一步可以经过数字属性预测模型来预测其中数字的属性标签。当然,为了确保属性标签预测的准确性,也可以进一步引入人工校对确认属性标签的过程,经过人工确认校对后,得到目标文本。基于此,由训练文本和处理后的目标文本组成训练语料。
在本申请的一些实施例中,考虑到在对文本中的数字进行正则化处理时,如果文本中连续的数字串作为一个整体考虑,其数字大小可以是无穷大,导致模型的输入空间会非常大,存在大量的非登录数字。
此外,本案申请人通过研究发现,连续的数字串在正则化处理时有个规律,一般以固定位数作为一个基本单位进行处理,之后加上一些单位词。以英文为例,123可以正则化为one hundred twenty-three,123000可以正则化为One hundred twenty threethousand,其中thousand为单位,类似的还有million等数词相关的单位词。
进一步地,本案申请人还研究发现,对于不同的语种,其对连续数字串进行划分处理时的划分长度(也即位数)可能也存在变化,基于此可以整理出每种语种对应的数字划分位数。
基于上述研究可知,将文本中的连续数字串按照设定位数为单位进行划分,能够保持划分后数字串在文本句意上的强相关性,更有利于准确得到数字的正则化结果,且缩小了模型的输入词表空间,更加有利于训练数字正则化模型。
本实施例中提供了另一种数字正则化方法,参照图4可知,方法可以包括如下步骤:
步骤S200、获取包含数字的原始文本。
步骤S210、确定所述原始文本中包含的数字的属性,得到数字的属性标签。
本实施例中的步骤S200-S210与前述实施例中的步骤S100-S110一一对应,详细参照前文介绍,此处不再赘述。
步骤S220、将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串。
相比于前述实施例,本实施例中增加了对原始文本中的连续数字按照设定位数为单位进行数字串划分的过程。
可选的,该划分过程可以包括:
S1、确定所述原始文本的语种类别。
S2、获取预设的与所述原始文本的语种类别对应的数字划分位数,作为设定位数。
本申请实施例示例几种类型语种与数字划分位数间的对应关系,如:中文对应的数字划分位数可以是4位,英语、法语对应的数字划分位数可以是3位等。
S3、按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串。
具体地,在按照设定位数为单元,对连续数字进行划分时,可以是按照从低位到高位的顺序,每隔所述设定位数划分一个数字串。
若对一连续数字所划分的最后一个数字串不足所述设定位数,则在最高位用0补齐至所述设定位数。
举例说明如下:
对于原始文本为英语语种,设定位数为3位,连续数字为“123000”:
在划分时从连续数字的低位开始选取连续的3位“000”,划分为一个数字串,进一步向高位方向选取连续的3位“123”,最终将连续数字划分为两个数字串,分别为“123”和“000”。
步骤S230、基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示。
具体地,相比于前述实施例,本实施例中在对数字正则化处理过程,以原始文本中连续数字划分后的数字串为单位进行数字正则化处理,同时考虑数字的属性标签和数字串在原始文本中上下文相关信息,得到数字的正则化结果。通过对原始文本中连续数字进行数字串划分,能够保持划分后数字串在文本句意上的强相关性,更有利于准确得到数字的正则化结果。
在本申请的一些实施例中,介绍了上述步骤S230,基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示的一种可选实现方式。
一种可选的实现方式中,可以基于预先配置的第二正则化模块来实现数字的正则化处理过程。
具体地,该第二正则化模块可以被配置为,结合输入的原始文本中数字的属性标签、数字串及数字串在原始文本中的上下文信息,预测输出数字的正则化结果的内部状态表示。在此基础上,本申请实施例中将标注有数字的属性标签,且按照设定位数对连续数字进行数字串划分后的原始文本输入预置的第二正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示。
其中,第二正则化模块的实现方式可以有多种形式,如按照用户设置的数字正则化规则所配置的功能模块,或者是基于神经网络模型的形式来实现。
以第二正则化模块采用神经网络模型为例进行说明,该第二正则化模块可以定义为第二正则化模型。
具体地,可以预先训练第二正则化模型,该第二正则化模型可以采用序列到序列Seq2Seq模型结构,以此能够提升模型的稳定性,尤其对于语料匮乏的语种。Seq2Seq模型结构中可以采用Conv&BiLstm&Attention&Lstm的组合结构,当然,除此之外还可以采用其他可选的神经网络结构。
通过预训练第二正则化模型,可以将其配置为,结合输入的原始文本中数字的属性标签、数字串及数字串在原始文本中的上下文信息,预测输出数字的正则化结果的内部状态表示。
具体地,第二正则化模型的训练数据可以包括:
由标注有数字的属性标签,且按照设定位数对数字进行数字串划分后的训练文本及目标文本组成的训练语料。其中,目标文本为将所述训练文本中的数字正则化为同语种单词表示的文本。
可以理解的是,为了保证第二正则化模型能够针对不同语种的文本中的数字进行正则化处理,本实施例对模型进行训练的训练文本可以包括多种不同语种的文本,也即让模型充分学习不同语种的文本中数字的正则化结果与数字的属性标签及上下文信息间的关系。
本申请实施例提供了一种第二正则化模型的可选训练方式,具体可以包括如下步骤:
S1、获取训练文本,及将所述训练文本中的数字正则化为同语种单词表示的目标文本。
其中,训练文本可以是多种不同语种的文本。训练文本中可以包括待正则化处理的数字。
训练文本对应的目标文本的获取过程可以参考图3及对应的文字介绍。
S2、将所述训练文本中的数字添加属性标签。
具体地,可以通过数字属性预测模型来预测训练文本中的属性标签。当然,如果考虑到精准度的问题,还可以加入人工对属性标签进行校验的过程。在确定了数字的属性标签之后,为训练文本中的数字添加属性标签。属性标签的类型可以有多种,详细可以参照前文相关介绍。
S3、将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串。
具体地,可以按照训练文本的语种类别,确定对训练文本中的连续数字进行划分时的设定位数,进而按照确定的设定位数为单位,将训练文本中的连续数字划分为至少一个数字串。
S4、将标注有数字的属性标签,且按照设定位数对数字进行数字串划分后的训练文本输入第二正则化模型中,得到模型输出的预测正则化文本。
S5、以所述预测正则化文本趋近于所述目标文本为训练目标,训练所述第二正则化模型直至收敛。
本实施例提供的第二正则化模型的训练方式,通过对训练文本增加数字串划分的操作,相比于将连续数字串作为一个整体输入至模型,划分为数字串后大大缩小了模型的输入词表空间,更加有利于训练第二正则化模型。
在训练得到第二正则化模型之后,可以将标注有数字的属性标签,且按照设定位数对连续数字进行数字串划分后的原始文本输入预训练的第二正则化模型中,得到模型输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示。
本实施例中采用第二正则化模型对数字进行正则化处理,对于第二正则化模型的输入,预先进行了数字串划分处理,也即按照原始文本的类型对应的设定位数,将原始文本中的连续数字串进行了划分,能够建保持划分后数字串在文本句意上的强相关性,更有利于准确得到数字的正则化结果。
接下来,结合图5介绍一种对包含数字的原始文本进行数字正则化的处理流程:
对于原始文本经过数字属性预测模型,预测其中包含的数字的属性标签,包括数字所在的原始文本的语种标签、基数词/序数词标签、阴阳性标签及格位标签。
其中,数字属性预测模型可以采用Conv&BiLstm&Attention的组合结构。
进一步地,对于原始文本,可以按照设定位数将其中连续的数字划分为数字串,作为分词单元。原始文本中除数字外的文本内容也进行分词划分,进而对数字对应的分词单元及非数字对应的分词单元进行编码,得到原始文本的向量表示:w1n2w3…ni-1wi。
其中,原始文本被划分为i个单元,w表示非数字的分词单元,n表示数字的分词单元。
进一步地,将原始文本中的数字属性标签也编码为向量形式,得到属性标签的向量表示。将属性标签的向量表示与原始文本的向量表示进行合并,得到合并后向量NewInput:w1n2 *w3…ni-1 *wi。
n*表示原始文本中数字的分词单元的向量表示,与数字的分词单元的属性标签的向量表示进行合并,如向量表示之间进行相加、相乘或拼接等。
合并后向量NewInput输入预训练的第二正则化模型,得到第二正则化模型输出的包含数字正则化表示的文本。
其中,第二正则化模型可以采用Seq2Seq模型结构,如采用Conv&BiLstm&Attention&Lstm的组合结构。
采用本实施例提供的数字正则化方案,可以适用于对多语种文本中的数字进行正则化处理。并且,通过统一的正则化模型进行数字正则化的转写,弥补了现有基于规则的数字正则化方法所存在的,上下文信息利用不充分以及规则可能引起的歧义冲突问题,提升了数字正则化结果的准确度。
并且,在利用模型进行数字正则化处理时,考虑了数字属性标签,可以解决现有基于规则的数字正则化方法所存在的,由于格位属性变化所导致的正则化错误的问题。
其中,在对原始文本中的联系数字进行划分时,划分长度可以根据原始文本的语种而调整,通过数字串的划分,能够保持划分后数字串在文本句意上的强相关性,更有利于准确得到数字的正则化结果,且缩小了正则化模型的输入词表空间,更加有利于训练正则化模型。
下面对本申请实施例提供的数字正则化装置进行描述,下文描述的数字正则化装置与上文描述的数字正则化方法可相互对应参照。
参见图6,图6为本申请实施例公开的一种数字正则化装置结构示意图。
如图6所示,该装置可以包括:
文本获取单元11,用于获取包含数字的原始文本;
属性标签确定单元12,用于确定所述原始文本中包含的数字的属性,得到数字的属性标签;
正则化单元13,用于基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
本申请的数字正则化装置,对于包含待正则化处理的数字的原始文本,确定其中包含的各数字的属性,得到数字的属性标签,数字的属性可以是影响数字正则化结果的相关属性,例如数字的阴阳性、基数词/序数词、格位等,在此基础上,基于数字的属性标签及数字在原始文本中的上下文信息,将数字正则化为与原始文本同语种的单词表示,得到数字的正则化结果。采用本申请的装置不需要针对不同语种总结数字正则化规则,流程更加简洁,并且在数字正则化时可以充分利用原始文本中数字的上下文信息,能够消除一些正则化结果上的歧义问题,提升正则化结果的准确度,在此基础上,数字正则化过程还参考数字的属性标签,也即考虑了数字的不同属性对正则化的影响,有助于进一步提升正则化结果的准确度。
可选的,上述属性标签确定单元确定所述原始文本中包含的数字的属性,得到数字的属性标签的过程可以包括:
将所述原始文本输入预训练的数字属性预测模型中,得到模型输出的所述原始文本中数字的属性标签;
其中,所述数字属性预测模型以包含数字的训练文本作为训练样本,以所述训练文本中标注的数字的属性标签为样本标签训练得到。
可选的,上述训练文本可以包括多种不同语种的文本。
可选的,上述数字的属性标签可以包括以下至少一种:数字所在文本的语种标签、基数词或序数词标签、阴阳性标签、格位标签。
可选的,上述正则化单元基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示的过程,可以包括:
将标注有数字的属性标签的原始文本输入预训练的第一正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第一正则化模块被配置为,结合输入的原始文本中数字的属性标签及数字的上下文信息,预测输出数字的正则化结果的内部状态表示。
可选的,第一正则化模块可以采用神经网络模型的形式。
可选的,本申请的装置还可以包括:
数字串划分单元,用于在正则化单元执行之前,将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
基于此,上述正则化单元基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示的过程,可以包括:
基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示。
可选的,上述数字串划分单元将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串的过程,可以包括:
确定所述原始文本的语种类别;
获取预设的与所述原始文本的语种类别对应的数字划分位数,作为设定位数;
按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串。
可选的,上述数字串划分单元按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串的过程,可以包括:
对于所述原始文本中的连续数字,按照从低位到高位的顺序,每隔所述设定位数划分一个数字串;
若对一连续数字所划分的最后一个数字串不足所述设定位数,则在最高位用0补齐至所述设定位数。
可选的,上述正则化单元基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示的过程,可以包括:
将标注有数字的属性标签,且按照设定位数对连续数字进行数字串划分后的原始文本输入预训练的第二正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第二正则化模块被配置为,结合输入的原始文本中数字的属性标签、数字串及数字串在原始文本中的上下文信息,预测输出数字的正则化结果的内部状态表示。
可选的,第二正则化模块可以采用神经网络模型的形式,如第二正则化模块可以采用第二正则化模型。
可选的,本申请的装置还可以包括:
第二正则化模型训练单元,用于训练第二正则化模型,该训练过程包括:
获取训练文本,及将所述训练文本中的数字正则化为同语种单词表示的目标文本;
将所述训练文本中的数字添加属性标签;
将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
将标注有数字的属性标签,且按照设定位数对数字进行数字串划分后的训练文本输入第二正则化模型中,得到模型输出的预测正则化文本;
以所述预测正则化文本趋近于所述目标文本为训练目标,训练所述第二正则化模型直至收敛。
其中,上述训练文本可以包括多种不同语种的文本。
可选的,上述第二正则化模型可以是序列到序列模型结构。
本申请实施例提供的数字正则化装置可应用于数字正则化设备,如终端:手机、电脑等。可选的,图7示出了数字正则化设备的硬件结构框图,参照图7,数字正则化设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取包含数字的原始文本;
确定所述原始文本中包含的数字的属性,得到数字的属性标签;
基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取包含数字的原始文本;
确定所述原始文本中包含的数字的属性,得到数字的属性标签;
基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种数字正则化方法,其特征在于,包括:
获取包含数字的原始文本;
确定所述原始文本中包含的数字的属性,得到数字的属性标签;
基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,包括:
将标注有数字的属性标签的原始文本输入预置的第一正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第一正则化模块被配置为,结合输入的原始文本中数字的属性标签及数字的上下文信息,预测输出数字的正则化结果的内部状态表示。
3.根据权利要求1所述的方法,其特征在于,在所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示之前,该方法还包括:
将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
所述基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,包括:
基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示。
4.根据权利要求3所述的方法,其特征在于,所述将所述原始文本中的连续数字按照设定位数为单位,划分为至少一个数字串,包括:
确定所述原始文本的语种类别;
获取预设的与所述原始文本的语种类别对应的数字划分位数,作为设定位数;
按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串。
5.根据权利要求4所述的方法,其特征在于,所述按照所述设定位数为单位,将所述原始文本中的连续数字划分为至少一个数字串,包括:
对于所述原始文本中的连续数字,按照从低位到高位的顺序,每隔所述设定位数划分一个数字串;
若对一连续数字所划分的最后一个数字串不足所述设定位数,则在最高位用0补齐至所述设定位数。
6.根据权利要求3所述的方法,其特征在于,所述基于所述数字串中数字的属性标签、所述数字串及数字串在所述原始文本中的上下文信息,将原始文本中各数字正则化为与所述原始文本同语种的单词表示,包括:
将标注有数字的属性标签,且按照设定位数对连续数字进行数字串划分后的原始文本输入预置的第二正则化模块中,得到输出的正则化文本,所述正则化文本中包含数字的正则化结果,所述正则化结果为数字正则化为与所述原始文本同语种的单词表示;
其中,所述第二正则化模块被配置为,结合输入的原始文本中数字的属性标签、数字串及数字串在原始文本中的上下文信息,预测输出数字的正则化结果的内部状态表示。
7.根据权利要求6所述的方法,其特征在于,所述第二正则化模块为神经网络模型,该神经网络模型的训练过程,包括:
获取训练文本,及将所述训练文本中的数字正则化为同语种单词表示的目标文本;
将所述训练文本中的数字添加属性标签;
将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串;
将标注有数字的属性标签,且按照设定位数对数字进行数字串划分后的训练文本输入神经网络模型中,得到模型输出的预测正则化文本;
以所述预测正则化文本趋近于所述目标文本为训练目标,训练所述神经网络模型直至收敛。
8.根据权利要求7所述的方法,其特征在于,所述将所述训练文本中的连续数字按照设定位数为单位,划分为至少一个数字串,包括:
确定所述训练文本的语种类别;
获取预设的与所述训练文本的语种类别对应的数字划分位数,作为设定位数;
按照所述设定位数为单位,将所述训练文本中的连续数字划分为至少一个数字串。
9.根据权利要求1所述的方法,其特征在于,所述确定所述原始文本中包含的数字的属性,得到数字的属性标签,包括:
将所述原始文本输入预训练的数字属性预测模型中,得到模型输出的所述原始文本中数字的属性标签;
其中,所述数字属性预测模型以包含数字的训练文本作为训练样本,以所述训练文本中标注的数字的属性标签为样本标签训练得到。
10.根据权利要求7或9所述的方法,其特征在于,所述训练文本包括多种不同语种的文本。
11.根据权利要求1-9任一项所述的方法,其特征在于,所述数字的属性标签包括以下至少一种:
数字所在文本的语种标签、基数词或序数词标签、阴阳性标签、格位标签。
12.根据权利要求7所述的方法,其特征在于,所述神经网络模型为序列到序列模型结构。
13.一种数字正则化装置,其特征在于,包括:
文本获取单元,用于获取包含数字的原始文本;
属性标签确定单元,用于确定所述原始文本中包含的数字的属性,得到数字的属性标签;
正则化单元,用于基于所述数字的属性标签,及所述数字在所述原始文本中的上下文信息,将所述数字正则化为与所述原始文本同语种的单词表示,得到数字的正则化结果。
14.一种数字正则化设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~12中任一项所述的数字正则化方法的各个步骤。
15.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~12中任一项所述的数字正则化方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202517.3A CN114548049A (zh) | 2022-03-02 | 2022-03-02 | 一种数字正则化方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210202517.3A CN114548049A (zh) | 2022-03-02 | 2022-03-02 | 一种数字正则化方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114548049A true CN114548049A (zh) | 2022-05-27 |
Family
ID=81662301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210202517.3A Pending CN114548049A (zh) | 2022-03-02 | 2022-03-02 | 一种数字正则化方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114548049A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136955A (zh) * | 2023-04-21 | 2023-05-19 | 合肥智能语音创新发展有限公司 | 文本转写方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-02 CN CN202210202517.3A patent/CN114548049A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136955A (zh) * | 2023-04-21 | 2023-05-19 | 合肥智能语音创新发展有限公司 | 文本转写方法、装置、电子设备及存储介质 |
CN116136955B (zh) * | 2023-04-21 | 2023-08-04 | 合肥智能语音创新发展有限公司 | 文本转写方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及*** | |
CN107305768A (zh) | 语音交互中的易错字校准方法 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其*** | |
CN102214238A (zh) | 一种汉语词语相近性匹配装置及方法 | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
CN114036950A (zh) | 一种医疗文本命名实体识别方法及*** | |
Singh et al. | Systematic review of spell-checkers for highly inflectional languages | |
Hládek et al. | Learning string distance with smoothing for OCR spelling correction | |
Al-Thubaity et al. | Arabic diacritization using bidirectional long short-term memory neural networks with conditional random fields | |
CN101667099B (zh) | 一种连笔键盘文字输入的方法和设备 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
CN112183060B (zh) | 多轮对话***的指代消解方法 | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
Kim et al. | Effective integration of automatic word spacing and morphological analysis in Korean | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
Younes et al. | A deep learning approach for the Romanized Tunisian dialect identification. | |
Aichaoui et al. | Automatic Building of a Large Arabic Spelling Error Corpus | |
CN114896382A (zh) | 人工智能问答模型生成方法、问答方法、装置及存储介质 | |
CN114970541A (zh) | 文本语义理解方法、装置、设备及存储介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN114444492A (zh) | 一种非标准词类判别方法及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |