CN112257420A - 文本处理方法及装置 - Google Patents
文本处理方法及装置 Download PDFInfo
- Publication number
- CN112257420A CN112257420A CN202011133952.2A CN202011133952A CN112257420A CN 112257420 A CN112257420 A CN 112257420A CN 202011133952 A CN202011133952 A CN 202011133952A CN 112257420 A CN112257420 A CN 112257420A
- Authority
- CN
- China
- Prior art keywords
- text
- pinyin
- phrase
- polyphone
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 48
- 238000010606 normalization Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 35
- 238000012795 verification Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 2
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 2
- 235000009120 camo Nutrition 0.000 description 2
- 235000005607 chanvre indien Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011487 hemp Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 101100495769 Caenorhabditis elegans che-1 gene Proteins 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本说明书提供文本处理方法及装置,其中所述文本处理方法包括:获取携带有多音字标识的初始文本,初始文本中包含至少一个多音字;确定初始文本对应的第i个拼音序列,并根据多音字标识和初始文本构建至少一个包含多音字的元词组,其中i从1取值且i为正整数;根据第i个拼音序列确定元词组的词组拼音序列,并将词组拼音序列输入至文本生成模块处理,获得词组拼音序列对应的参考词组;在元词组和参考词组不一致的情况下,i自增1,并执行确定初始文本对应的第i个拼音序列步骤;在元词组和参考词组一致的情况下,基于多音字标识、初始文本和第i个拼音序列创建文本拼音组,并写入多音字文本库。
Description
技术领域
本说明书涉及文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
随着互联网技术的发展,更多的应用场景对数据的数量和质量要求变得越来越高,并且不同的场景所使用数据也是不同的,在机器学习领域中,不同的使用需求将构建不同的模型,而不同的模型也需要使用不同的样本数据进行训练,如图像处理场景,就需要使用图像数据训练该场景中应用的模型;如音频处理场景,就需要使用音频数据训练该场景中应用的模型;如文本处理场景,就需要使用文本数据训练该场景中应用的模型等;而为了能够训练出满足使用需求的模型,需要在数据准备阶段对样本数据进行预处理,如打标,构建样本对等等,都是满足模型训练需求的准备操作,该过程直接影响着训练出的模型的精准度,现有技术在对样本数据进行打标时,都是通过人工标注的方式实现,不仅效率低下,而且人工标注的方式无法保证准度率,进而容易在训练模型时造成误差,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
可选地,所述获取携带有多音字标识的初始文本步骤执行之前,还包括:
采集待处理文本,并对所述待处理文本进行归一化处理获得标准文本;
基于预设的多音字字典确定所述标准文本中的标准多音字,并对所述标准多音字进行打标;
根据打标结果获得携带有多音字标识的标准文本,并将携带有多音字标识的标准文本写入规范文本库。
可选地,所述获取携带有多音字标识的初始文本,包括:
在接收到更新所述多音字文本库的更新请求的情况下,基于所述更新请求在所述规范文本库中提取携带有多音字标识的所述初始文本,其中,所述多音字标识用于标注所述初始文本中包含的至少一个所述多音字的字符位置。
可选地,所述确定所述初始文本对应的第i个拼音序列,包括:
将所述初始文本输入至拼音生成模块进行处理,获得所述拼音生成模块输出的所述初始文本对应的第i个拼音序列,其中i从1取值且i为正整数。
可选地,根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,包括:
基于所述多音字标识确定所述多音字在所述初始文本中的字符位置;
通过预设的选择策略确定与所述字符位置相邻的相邻字符位置,并根据所述初始文本确定所述相邻字符位置对应的相邻字;
按照所述相邻字和所述多音字在所述初始文本中的排列顺序,构建至少一个由所述相邻字和所述多音字组成的所述元词组。
可选地,所述根据所述第i个拼音序列确定所述元词组的词组拼音序列,包括:
对所述初始文本进行预处理获得多个初始字符,以及对所述元词组进行预处理获得多个元字符;
根据所述第i个拼音序列确定所述多个初始字符中的各个初始字符的拼音;
基于所述多个初始字符中的各个初始字符的拼音确定所述多个元字符中的各个元字符的拼音;
根据所述多个元字符中的各个元字符的拼音生成所述词组拼音序列。
可选地,所述在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤之后,还包括:
检测第i+1个拼音序列与所述第i个拼音序列是否一致;
若不一致,则执行所述根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组步骤;
若一致,则将所述初始文本写入非规范文本库。
可选地,所述基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,包括:
基于所述多音字标识确定所述多音字对应的拼音在所述第i个拼音序列中的拼音位置;
按照所述拼音位置在所述第i个拼音序列中提取所述多音字对应的拼音;
将所述初始文本、所述多音字标识和所述多音字对应的拼音进行整合,获得所述文本拼音组。
可选地,所述基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库步骤执行之后,还包括:
在接收到针对所述多音字文本库提交的读取请求的情况下,根据所述读取请求在所述多音字文本库中读取训练文本;
在接收到针对所述多音字文本库提交的读取请求的情况下,根据所述读取请求在所述多音字文本库中读取训练文本拼音组;
对所述训练文本拼音组进行解析,获得训练初始文本和训练拼音序列;
基于所述训练初始文本和所述训练拼音序列对初始拼音标注模型进行训练,获得目标拼音标注模型。
可选地,所述初始文本为初始中文文本,所述第i个拼音序列中包含的拼音具有声调。
根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
获取模块,被配置为获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定模块,被配置为确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
处理模块,被配置为根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并运行所述确定模块;
在所述元词组和所述参考词组一致的情况下,运行写入模块,所述写入模块,被配置为基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
本说明书提供的文本处理方法,在获取到包含多音字的初始文本之后,将确定该初始文本的拼音序列,同时基于初始文本携带的多音字标识构建至少一个包含多音字的元词组,之后根据上述获得的拼音序列确定元词组的词组拼音序列,同时基于词组拼音序列生成参考词组,之后通过将参考词组和元词组比对的方式对拼音序列的正确度进行校验,若校验结果不一致,再重新确定初始文本新的拼音序列,再执行上述过程,直至确定校验结果一致后,即可确定初始文本中多音字的正确拼音,之后将校验结果一致情况下的拼音序列、多音字标识和初始文本整合为文本拼音组,并写入多音字文本库,实现了在对初始文本中的多音字进行拼音标注时,可以通过校验的方式确定多音字的正确拼音,不仅节省人力物力,还能够有效的保证最后创建的文本拼音组的正确率,实现高效且快捷的完成多音字文本库的构建,以使得下游业务在使用多音字文本库时不会因为库中数据质量和数量的问题影响相应业务的开展,进一步提高了下游业务的业务完成效率。
附图说明
图1是本说明书一实施例提供的一种文本处理方法的流程图;
图2是本说明书一实施例提供的一种文本处理方法的示意图;
图3是本说明书一实施例提供的一种文本处理方法中多音字字典的示意图;
图4是本说明书一实施例提供的一种文本处理方法中待处理文本的示意图;
图5是本说明书一实施例提供的一种文本处理方法中的归一化处理过程的示意图;
图6是本说明书一实施例提供的一种模型训练过程的处理流程图;
图7是本说明书一实施例提供的一种文本处理装置的结构示意图;
图8是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
声调:是指声音的高低升降的变化。在现代汉语语音学中,声调是指汉语音节中所固有的,可以区别意义的声音的高低和升降;在汉语中声调包含五种,分别对应阴平(-),阳平(/),上声(v),去声(\)和轻声。如妈的拼音是mā,对应的声调是阴平;麻的拼音是má,对应的声调是阳平;马的拼音是mǎ,对应的声调是上声,骂的拼音是mà,对应的声调是去声;吗的拼音是ma,对应的声调是轻声。
在本说明书中,提供了一种文本处理方法,本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,由于多音字的特性,不同的文字在不同的文本中所发出的读音不同,而涉及到对多音字的拼音进行标注时,就需要按照上下文语义才能够确定,现有技术在对文本中的多音字进行拼音标注时,通常都是采用人工标注的方式实现,即通过人工审核的方式确定该多音字在文本中正确的发音,之后再进行拼音的标注,该过程不仅耗时耗力,而且需要确保审核人员的语言功底要较高,才能够对多音字的正确拼音进行标注,从而使得写入多音字文本库中的数据无法保证质量和数量,因此提高多音字文本库的更新或构建效率是亟需解决的问题。
本说明书提供的文本处理方法,为了能够在保证多音字拼音标注精准度的同时提高标注效率,将在获取到包含多音字的初始文本之后,确定该初始文本的拼音序列,同时基于初始文本携带的多音字标识构建至少一个包含多音字的元词组,之后根据上述获得的拼音序列确定元词组的词组拼音序列,同时基于词组拼音序列生成参考词组,之后通过将参考词组和元词组比对的方式对拼音序列的正确度进行校验,若校验结果不一致,再重新确定初始文本新的拼音序列,再执行上述过程,直至确定校验结果一致后,即可确定初始文本中多音字的正确拼音,之后将校验结果一致情况下的拼音序列、多音字标识和初始文本整合为文本拼音组,并写入多音字文本库,实现了在对初始文本中的多音字进行拼音标注时,可以通过校验的方式确定多音字的正确拼音,不仅节省人力物力,还能够有效的保证最后创建的文本拼音组的正确率,实现高效且快捷的完成多音字文本库的构建,以使得下游业务在使用多音字文本库时不会因为库中数据质量和数量的问题影响相应业务的开展,进一步提高了下游业务的业务完成效率。
图1示出了根据本说明书一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S102,获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字。
具体实施时,所述多音字具体是指具有多个读音的汉字,如“了”,在词组“了解”中读liǎo(声调为3-上声),也在词组“好了”中读le(声调为5-轻声);相应的,所述初始文本具体是指包含至少一个多音字的文本,所述多音字标识具体是指标注所述多音字在所述初始文本中位置的标识;此外,由于在进行拼音标注时,无法对拼音的声调进行标注,为了能够正确的标识每个多音字的正确读音,将通过数字组合拼音的方式标注多音字的正确读音,如“了”的正确读音是liǎo,此时将通过数字结合拼音的方式进行表达即:liao3(表示声调为3-上声);本实施例中,为了能够方便描述,将以声调为阴平的拼音与数字1组合后进行表达,如妈的拼音是mā,表达形式为ma1;声调为阳平的拼音与数字2组合后进行表达,如麻的拼音是má,表达形式为ma2;声调为上声的拼音与数字3组合后进行表达,如马的拼音是mǎ,表达形式为ma3;声调为去声的拼音与数字4组合后进行表达,如骂的拼音是mà,表达形式为ma4;声调为轻声的拼音与数字5组合进行表达,如吗的拼音是ma,表达形式为ma5。需要说明的是,实际应用中,为了详尽表达各个拼音的正确声调,还可以选择其他的组合方式实现,如将拼音与符号(#¥%......)结合表达,具体结合表达方式本实施例在此不作任何限定。
本实施例提供的文本处理方法,将以所述初始文本为初始中文文本,所述初始文本中包含一个多音字为例,对所述文本处理方法进行描述,相应的初始文本中包含两个或两个以上的多音字时,均可参见本实施例相应的描述内容,在此不作过多赘述,需要说明的是,在所述初始文本中包含两个或两个以上多音字时,也是按照逐个多音字的拼音进行校验的方式确定,直至确定各个多音字的拼音都校验正确后,再创建文本拼音组以写入所述多音字文本库中,以满足下游业务使用。
参见图2所示的文本处理方法的示意图,当从规范文本库中得到携带有多音字标识的初始文本(表达为(1,2)*ab**…,其中1和2表示多音字标识,用于表示多音字在文本中的位置,即从左往右第二个汉字和第三个汉字是多音字,为了方便表达,用a表示第二个汉字是多音字,b表示第三个汉字是多音字)后,确定初始文本对应的多个拼音序列,之后使用文本生成模块基于多个拼音序列中的一条拼音序列生成参考文本,通过将参考文本和初始文本核对的方式,校验该条拼音序列是否正确的标注了初始文本中的各个汉字的拼音,如果二者一致,则说明拼音标注正确,直接创建文本拼音组写入多音字文本库即可;如果二者不一致,则选择下一条拼音序列生成新的参考文本,再执行校验的过程直至得到二者一致的拼音序列后,再组成文本拼音组写入多音字文本库即可。
实际应用中,还可能存在多个拼音序列中包含的多个拼音序列生成的参考文本与初始文本均不一致的情况,此时说明无法正确的对初始文本进行拼音标注,则可以从规范文本库中删除该初始文本,以减少无用的数据占用存储空间,造成存储资源的浪费。
基于此,为了能够得到携带有多音字和多音字标识的初始文本,需要采集大量的待处理文本,以用于优先构建出规范文本库,以用于后续的完善所述多音字文本库,本实施例中,具体实现方式如下所述:
采集待处理文本,并对所述待处理文本进行归一化处理获得标准文本;
基于预设的多音字字典确定所述标准文本中的标准多音字,并对所述标准多音字进行打标;
根据打标结果获得携带有多音字标识的标准文本,并将携带有多音字标识的标准文本写入规范文本库。
具体的,所述待处理文本具体是指通过大数据抓取到的中文文本,所述标准文本具体是指对所述待处理文本进行处理后得到的文本,所述多音字字典具体是指存储有大量多音字及其对应拼音的字典,参见图3所示的多音字字典的示意图,在多音字字典中,通过汉字和拼音映射的关系表达各个多音字对应的拼音,如着对应的拼音有zhao2,zhuo2,zhao1和zhe5,需要说明的是,图3所示的多音字字典为一小部分,实际应用中,可以根据实际需求向多音字字典中写入需要使用的多音字和多音字对应的拼音。所述标准多音字具体是指所述标准文本中包含的多音字。
基于此,由于多音字字典只能够确定文本中的多音字,无法正确的标注该多音字的正确拼音,因此可以在采集到所述待处理文本之后,通过所述多音字字典对所述标准文本进行多音字打标,从而获得携带有多音字标识的标准文本并写入所述规范文本库,以满足后续更新或构建多音字文本库时,可以从该规范文本库中提取满足拼音标注需求的初始文本。
而在此过程中,由于不同的文本无法直接应用于多音字的打标,参见图4中的文本,如第二个文本和第三个文本,如果直接进行多音字的打标,在后续进行校验时,就无法正确的将参考词组和元词组进行比对,也就无法完成多音字文本库的更新或构建,因此为了能够有效的应用于后续处理过程,在获得待处理文本之后,可以对所述待处理文本进行归一化处理获得所述标准文本,再对所述标准文本进行后续的多音字打标即可。
在归一化处理的过程中,实则是将所述待处理文本中的非中文字或符号都转换为汉字,即进行数字归一化处理,符号归一化处理,单位归一化处理和翻译归一化处理,如将待处理文本中的“1”转换为“一”;将待处理文本中的英文标点符号“.”转换为中文标点符号“。”;将待处理文本中的单位“kg”转换为中文单位“千克”;将待处理文本中的英语“hi”转换为中文汉字“你好”等等,从而得到满足标注需求的中文文本,再进行多音字的标注即可。
基于此,参见图5所示的归一化处理过程的示意图,在采集到所述待处理文本之后,此时将对所述待处理文本进行归一化处理以获得待处理文本对应的标准文本,之后基于预设的多音字字典对确定所述标准文本中的标准多音字,同时对所述标准多音字进行打标,即标注多音字在所述待处理文本中的位置,根据打标结果即可得到携带有所述多音字标识的标准文本,最后将携带有多音字标识的标准文本写入规范文本库即可,实现创建出满足使用需求的规范文本库,方便后续进行多音字文本库更新或构建时使用。
进一步的,在需要进行多音字文本库更新时,将根据接收到的更新请求,在所述规范文本库中提取携带有多音字标识的所述初始文本;以用于后续的文本处理过程,从而更新得到满足下游使用需求的多音字文本库,其中,所述多音字标识用于标注所述初始文本中包含的至少一个所述多音字的字符位置。
例如,采集到的待处理文本如图4所示的内容,分别为“迎着朝阳坐车”,“要求一个O的周长必须要知道什么”,“0有倒数么”……;此时确定需要对“要求一个O的周长必须要知道什么”和“0有倒数么”进行归一化处理,得到相应的标注文本为“要求一个圆的周长必须要知道什么”和“零有倒数么”,之后使用预设的多音字字典对各个标准文本中的多音字进行打标,根据打标结果即可获得如图5中所示写入规范文本库的文本;即“迎着朝阳坐车”对应的携带有多音字标识的初始文本为[(1,2,5)-迎着朝阳坐车]……。
综上,为了能够方便后续进行多音字文本库的更新或构建,将在进行文本处理之前构建所述规范文本库,将采集到的待处理文本归一化处理后进行多音字的打标,将打标的标准文本写入所述规范文本库,使得后续进行多音字文本库的更新或构建时,可以使用较为规范的初始文本完成,不仅可以保证多音字文本库的数据质量,还能够提高更新或构建所述多音字文本库的效率,进一步提高下游业务的完成效率。
步骤S104,确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数。
具体的,在上述获得携带有多音字标识的初始文本的基础上进一步的,此时将初步生成所述初始文本对应的第i个拼音序列,所述第i个拼音序列具体是指根据所述初始文本中多音字的一个读音生成的一个拼音序列,之后将通过该拼音序列进行后续的校验过程,当校验结果满足创建文本拼音组的情况下即可写入多音字文本库,当校验结果不满足创建文本拼音组的情况下即可根据所述初始文本中多音字的下一个读音生成下一个拼音序列,再进行后续的校验流程即可,直至得到满足创建条件或者无新的读音可生成新得拼音序列结束;需要说明的是,所述第i个拼音序列中包含的拼音具有声调。
基于此,当针对所述初始文本生成第i个拼音序列后(其中i从1开始取值且i为正整数,并且i的最大值即为多音字读音的个数),此时说明需要校验生成的第i个拼音序列是否正确,即校验生成的第i个拼音序列中多音字对应的拼音是否为多音字在初始文本中的正确读音,而为了能够提高校验精准度,可以根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,用于后续生成所述参考词组,通过将参考词组和元词组比对的方式实现对多音字的拼音正确率进行校验,其中,所述元词组具体是指包含所述多音字的词组,并且组成该词组的文字都存在于所述初始文本中,且与所述多音字相邻,以实现能够生成语义和表达意图较为通顺的元词组,进一步提高后续校验的精准度。
进一步的,在确定所述初始文本对应的第i个拼音序列的过程中,可以使用预设的拼音生成模块实现,所述拼音生成模块可以是拼音生成模型或拼音生成工具(可以通过查询字典生成各个汉字的拼音),即将所述初始文本输入至拼音生成模块进行处理,即可获得所述拼音生成模块输出的所述初始文本对应的第i个拼音序列,需要说明的是,所述拼音生成模块的输出结果可以是一个或多个拼音序列,之后从一个或多个拼音序列中选择一个作为所述初始文本对应的第i个拼音序列即可。
更进一步的,在确定所述第i个拼音序列之后,此时即可通过结合所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,以实现提高校验多音字拼音的正确率,本实施例中,具体实现方式如下所述:
基于所述多音字标识确定所述多音字在所述初始文本中的字符位置;
通过预设的选择策略确定与所述字符位置相邻的相邻字符位置,并根据所述初始文本确定所述相邻字符位置对应的相邻字;
按照所述相邻字和所述多音字在所述初始文本中的排列顺序,构建至少一个由所述相邻字和所述多音字组成的所述元词组。
具体的,所述字符位置具体是指所述多音字在所述初始文本中的位置,所述选择策略具体是指生成所述元词组的规则,所述相邻字符位置具体是指与所述度多音字前后相邻的字符对应的位置,所述相邻字即为所述多音字相邻的字符。
基于此,首先根据所述多音字标识确定所述多音字在所述初始文本中的字符位置,之后按照预设的选择策略确定与所述字符位置相邻的相邻字符位置,如选择与多音字前后相邻5个字的位置作为相邻字符位置,此时即可根据所述相邻字符位置在所述初始文本中确定与所述多音字对应的相邻字,最后按照所述相邻字和所述多音字在所述初始文本中的排列顺序,即可构建出至少一个由所述相邻字和所述多音字组成的所述元词组。
需要说明的是,由于多音字在不同的词组中所对应的读音可能不同,因此为了能够准确的分析出当前第i个拼音序列的正确性,可以创建多个元词组,之后对各个元词组逐个进行校验,只要有任意一个元词组与参考词组一致,就可以认为第i个拼音序列是正确的,即多音字的拼音是正确的,即可进行后续的文本处理;此外,还可以按照占比分析的方式进行第i个拼音序列的校验,即如果元词组与参考词组一致率的占比高于一定的占比阈值,就可以认为第i个拼音序列是正确的;实际应用中,具体的校验策略可以根据实际需求进行设定,本实施例在此不作任何限定。本实施例提到的元词组和参考词组一致可以是各个词组与参考词组均一致,也可以是之后部分一致或一个一致。
沿用上例,当获取到从规范文本库中提取的初始文本[(1,2,5)-迎着朝阳坐车]的情况下,此时通过初始文本中携带的多音字标识可以确定“着”和“朝”是多音字,本举例说明中将以对“着”多音字进行处理校验的过程进行描述,“朝”多音字的处理过程可以参见本实施例中举例说明相应的描述内容,在此不作任何限定。
基于此,此时可以确定初始文本为[(1)-迎着朝阳坐车],之后将初始文本输入至拼音生成模块进行处理,获得多个拼音序列,分别为第一拼音序列{ying2-zhao2-chao1-yang2-zuo4-che1}和第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1},此时选择第一拼音序列{ying2-zhao2-chao1-yang2-zuo4-che1}进行多音字“着”拼音正确性的校验,则根据多音字标识确定多音字“着”在初始文本中的位置是第二个汉字,则此时选择“着”前后各一个字组成第一元词组{迎着朝},选择“着”前后各两个字组成第二元词组{迎着朝阳}(由于初始文本中多音字“着”前面就一个汉字,因此选择两个字或两个以上的汉字时,将以空集代替前两个或两个以上的汉字),选择“着”前后各三个字组成第三元词组{迎着朝阳坐},以及选择“着”前后各四个字组成第四元词组{迎着朝阳坐车},以用于后续进行多音字正确性的校验。
综上,为了能够精准的多所述多音字的拼音进行校验,将结合初始文本生成至少一个元词组用于后续分析处理过程,不仅可以保证校验的精准度,还能够保证构建的元词组不会偏离初始文本所表达的含义,进一步提高了校验的精准度。
步骤S106,根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组。
具体的,在上述确定所述初始文本对应的第i个拼音序列和所述元词组的基础上,进一步的,将根据所述第i个拼音序列创建用于校验所述多音字拼音正确性的参考词组,所述参考词组具体是指与所述元词组进行比对的词组,如果所述参考词组中的多音字字符与所述元词组中的多音字字符相同,则说明第i个拼音序列中多音字的拼音是正确的,反之则说明第i个拼音序列中多音字的拼音是不正确的,即所述参考词组是用于校验所述多音字的拼音错与对的标准;而在生成所述参考词组之前,需要确定所述元词组的词组拼音序列,再通过所述词组拼音序列生成所述参考词组,从而才能够分析元词组和所述参考词组的具体比对情况。
基于此,由于需要对所述元词组中的多音字进行拼音正确性的校验,因此可以采用元词组的词组拼音序列生成参考词组的方式,对元词组中多音字的拼音进行校验,即将元词组和参考词组进行比对,之后如果二者一致,就说明词组拼音序列中多音字的拼音表达是正确的,进一步说明初始文本的第i个拼音序列是正确的,用于后续生成所述文本拼音组即可。
而在此过程中,只有保证所述文本生成模块基于所述词组拼音序列生成的参考词组是正确的,才能够实现对初始文本中的多音字的拼音校验,因此本实施例提供的文本生成模块将采用云输入法创建,由于云输入法是依托云计算基数实现的输入法,因此可以有效的利用服务器的无限量的存储和计算能力,提高通过词组拼音序列生成所述参考词组精准度,以实现对所述第i个拼音序列进行精准的校验。
此外,实际应用中,所述文本生成模块还可以使用机器学习领域中的文本处理模型实现,需要说明的是,只有保证所述文本生成模块通过所述词组拼音序列生成所述参考词组准确性的情况下,才能够进行应用,以满足精准对初始文本中的多音字的拼音正确性进行校验。
进一步的,在生成所述词组拼音序列的过程中,由于所述元词组是基于所述初始文本中的字符构建的,因此可以根据所述第i个拼音序列确定所述元词组的词组拼音序列,本实施例中,具体实现方式如下所述:
对所述初始文本进行预处理获得多个初始字符,以及对所述元词组进行预处理获得多个元字符;
根据所述第i个拼音序列确定所述多个初始字符中的各个初始字符的拼音;
基于所述多个初始字符中的各个初始字符的拼音确定所述多个元字符中的各个元字符的拼音;
根据所述多个元字符中的各个元字符的拼音生成所述词组拼音序列。
具体的,预处理具体是指对所述初始文本和所述元词组进行分字处理;基于此,首先对所述初始文本进行分字处理获得多个初始字符,同时也对元词组进行分字处理获得多个元字符,其次根据述第i个拼音序列确定所述多个初始字符中的各个初始字符的拼音,再次基于所述多个初始字符中的各个初始字符的拼音确定所述多个元字符中的各个元字符的拼音,最后即可根据所述多个元字符中的各个元字符的拼音生成所述词组拼音序列。
沿用上例,在获得第一拼音序列{ying2-zhao2-chao1-yang2-zuo4-che1}和第一元词组{迎着朝},第二元词组{迎着朝阳},第三元词组{迎着朝阳坐}和第四元词组{迎着朝阳坐车}的情况下,首先对初始文本“迎着朝阳坐车”进行分字处理获得多个初始字符(迎、着、朝、阳、坐、车),同时也对第一元词组{迎着朝}进行分字处理获得多个元字符(迎、着、朝),对第二元词组{迎着朝阳}进行分字处理获得多个元字符(迎、着、朝、阳),对第三元词组{迎着朝阳坐}进行分字处理获得多个元字符(迎、着、朝、阳、坐),以及对第四元词组{迎着朝阳坐车}进行分字处理获得多个元字符(迎、着、朝、阳、坐、车)。
之后根据第一拼音序列{ying2-zhao2-chao1-yang2-zuo4-che1}确定多个初始字符中各个初始字符的拼音是(“迎”-“ying2”,“着”-“zhao2”,“朝”-“chao1”,“阳”-“yang2”,“坐”-“zuo4”,“车”-“che1”),根据多个初始字符中各个初始字符的拼音即可确定各个元词组中的各个元字符的拼音,即第一元词组中的各个元字符的拼音是(“迎”-“ying2”,“着”-“zhao2”,“朝”-“chao1”),第二元词组中的各个元字符的拼音是(“迎”-“ying2”,“着”-“zhao2”,“朝”-“chao1”,“阳”-“yang2”),第三元词组中的各个元字符的拼音是(“迎”-“ying2”,“着”-“zhao2”,“朝”-“chao1”,“阳”-“yang2”,“坐”-“zuo4”),第四元词组中的各个元字符的拼音是(“迎”-“ying2”,“着”-“zhao2”,“朝”-“chao1”,“阳”-“yang2”,“坐”-“zuo4”,“车”-“che1”)。
最后基于各个元词组中各个元字符的拼音即可确定第一元词组的第一词组拼音序列为{ying2-zhao2-chao1},第二元词组的第二词组拼音序列为{ying2-zhao2-chao1-yang2},第三词组的第三词组拼音序列为{ying2-zhao2-chao1-yang2-zuo4},第四词组的第四词组拼音序列为{ying2-zhao2-chao1-yang2-zuo4-che1},之后将各个词组拼音序列输入至云输入法进行参考文本的生成,需要说明的是,在输入至云输入法进行处理时,将取出声调标识,以满足云输入法的输入条件,即获得第一词组拼音序列对应的第一参考词组是“映照超”,第二词组拼音序列对应的第二参考词组是“映照超杨”,第三词组拼音序列对应的第三参考词组是“映照超杨做”,第四词组拼音序列对应的第四参考词组是“映照超杨坐车”,在得到各个词组拼音序列对应的参考词组后,再进行后续的校验处理即可。
综上,通过元词组的词组拼音序列结合所述生成处理模块生成所述参考词组,不仅可以提高参考词组的精准度,还能够对元词组中多音字的拼音正确性进行校验,有效的提高了校验的精准度,进而促进后续更新或构建所述多音字文本库的效率。
更进一步的,在得到所述参考词之后,将对所述参考词组和元词组进行比对,若所述参考词组和所述元词组不一致,则执行步骤S108,若所述参考词组和所述元词组一致,则执行步骤S110。
需要说明的是,在对所述参考词组和元词组进行比对的过程中,实则是比对所述元词组中的多音字是否在所述参考词组中出现,并且二者的位置是否相同,进而协助分析第i个拼音序列中的多音字的拼音是否正确。
步骤S108,在所述元词组和所述参考词组不一致的情况下,i自增1,并返回执行步骤S104。
具体的,在所述元词组和所述参考词组不一致的情况下,说明所述元词组中多音字和所述参考词组中的字符不相同,进一步说明所述第i个拼音序列中多音字的拼音是错误的,此时即可将i增加1,确定所述初始文本的下一拼音序列(基于多音字的另一个读音生成的拼音序列),再返回执行步骤S104,重新进行多音字的拼音校验过程。
沿用上例,在获得第一参考词组“映照超”,第二参考词组“映照超杨”,第三参考词组“映照超杨做”和第四参考词组是“映照超杨坐车”的情况下,此时将第一参考词组和第一元词组进行比对,第二参考词组和第二元词组进行比对,第三参考词组和第三元词组进行比对,以及第四参考词组和第四元词组进行比对,确定四次比对结果均为不一致,则认为第一拼音序列{ying2-zhao2-chao1-yang2-zuo4-che1}中针对多音字“着”生成的拼音“zhao”是不正确的,此时再选择第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1}进行校验处理,具体处理过程可参见上述基于第一拼音序列处理过程相应的描述内容,在此不作过多赘述。
此外,在i自增1后,可能发生初始文本对应的全部拼音序列都被校验过的问题,即i自增1后的数值大于多音字对应的读音个数的数值,此时就无法再进行校验处理了,也进一步说明所述初始文本可能不存在正确的读音,此时可以将所述初始文本从规范文本库中删除,并将其写入非规范文本库,以用于其他业务处理时使用,本实施例中,具体实现方式如下所述:
检测第i+1个拼音序列与所述第i个拼音序列是否一致;
若不一致,则执行所述根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组步骤;
若一致,则将所述初始文本写入非规范文本库。
具体的,所述非规范文本库具体是指临时存储无法使用的初始文本的文本库,基于此,在检测到第i+1个拼音序列与所述第i个拼音序列不一致的情况下,说明当前的第i+1个拼音序列中的多音字的拼音还未被校验过,则再次执行校验过程即可;在检测到第i+1个拼音序列与所述第i个拼音序列一致的情况下,说明初始文本对应的全部拼音序列都被校验过了,并没有发现初始文本中多音字的正确拼音,则可以将该初始文本从规范文本库中删除,并将其加入非规范文本库或清除即可,从而实现及时释放规范文本库的存储资源,避免存储资源的浪费。
步骤S110,在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
具体的,在所述元词组和所述参考词组一致的情况下,说明所述元词组中多音字和所述参考词组中的字符相同,进一步说明所述第i个拼音序列中多音字的拼音是正确的,此时即可根据所述多音字标识、所述初始文本和所述第i个拼音序列创建所述文本拼音组,并将其写入所述多音字文本库即可;其中,所述文本拼音组具体是指包含多音字标识,初始文本和多音字拼音的组合表达,如图2中多音字文本库中的文本拼音组。
进一步的,生成所述文本拼音组的具体过程如下所述:
基于所述多音字标识确定所述多音字对应的拼音在所述第i个拼音序列中的拼音位置;
按照所述拼音位置在所述第i个拼音序列中提取所述多音字对应的拼音;
将所述初始文本、所述多音字标识和所述多音字对应的拼音进行整合,获得所述文本拼音组。
具体的,由于所述第i个拼音序列中包含的拼音是对应初始文本中各个字符的,因此可以通过多音字标识确定所述多音字对应的拼音在所述第i个拼音序列中的拼音位置,之后按照所述拼音位置在所述第i个拼音序列中提取所述多音字对应的拼音,最后将初始文本、所述多音字标识和所述多音字对应的拼音进行整合,即可获得所述文本拼音组。
沿用上例,当选择第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1}进行校验处理后,此时确定基于第二拼音序列生成的多个元词组与其对应的参考词组均一致,则确定第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1}中针对多音字“着”生成的拼音“zhe”是正确的,即可用于后续结合多音字标识和初始文本生成文本拼音组,即根据多音字标识“1”确定多音字“着”对应的拼音“zhe”在第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1}中的拼音位置是第二位,按照该拼音位置在第二拼音序列{ying2-zhe5-chao1-yang2-zuo4-che1}中确定“着”的拼音为“zhe5”,之后将多音字标识“1”,“迎着朝阳坐车”和“zhe5”进行整合,即可得到文本拼音组{(1)-迎着朝阳坐车-(zhe5)},并将其写入多音字文本库,用于下游业务使用。
综上,通过将初始文本、所述多音字标识和所述多音字对应的拼音进行整合的方式创建所述文本拼音组,可以保证所述文本拼音组的规范性,进而保证所述多音字文本库的数据的规律性,从而方便下游业务使用时可以快速的调用和使用,有效的提高下游业务的业务完成效率。
此外,在完成所述规范文本库的更新或构建之后,此时即可根据所述规范文本库中包含的文本拼音组促进下游业务的业务完成效率,本实施例以下游业务为模型训练业务为例进行描述,具体实现过程参见如图6所示的模型训练过程的处理流程图:
步骤S1102,在接收到针对所述多音字文本库提交的读取请求的情况下,根据所述读取请求在所述多音字文本库中读取训练文本拼音组;
步骤S1104,对所述训练文本拼音组进行解析,获得训练初始文本和训练拼音序列;
步骤S1106,基于所述训练初始文本和所述训练拼音序列对初始拼音标注模型进行训练,获得目标拼音标注模型。
具体的,在接收到针对所述多音字文本库提交的读取请求的情况下,说明此时需要使用所述多音字文本库中的文本拼音组进行模型的训练,则可以解析所述读取请求,确定需要读取文本拼音组的数量,即根据所述读取请求在所述多音字文本库中读取用于训练初始拼音标注模型的训练文本拼音组,其中,所述初始拼音标注模型用于对文本中的字符进行拼音翻译,并且为了提高拼音翻译的精准度,将会按照语义分析的方式实现,从而保证标注的拼音是文本对应的正确拼音。
基于此,在得到所述训练文本拼音组之后,再对所述训练文本拼音组进行解析,即可得到所述训练文本拼音组中包含的训练初始文本,训练拼音序列和多音字标识,最后将所述训练初始文本作为所述初始拼音标注模型的输入,将所述训练拼音序列作为所述初始拼音标注模型的输出,训练所述初始拼音标注模型,最后得到满足使用需求的目标拼音标注模型即可。
实际应用中,在通过训练初始文本和训练拼音序列对初始拼音标注模型进行训练时,可以通过监控损失函数值的方式决定是否停止训练,或者通过监控模型输出准确度的方式决定是否停止训练,以得到满足使用需求的目标拼音标注模型。
本说明书提供的文本处理方法,在获取到包含多音字的初始文本之后,将确定该初始文本的拼音序列,同时基于初始文本携带的多音字标识构建至少一个包含多音字的元词组,之后根据上述获得的拼音序列确定元词组的词组拼音序列,同时基于词组拼音序列生成参考词组,之后通过将参考词组和元词组比对的方式对拼音序列的正确度进行校验,若校验结果不一致,再重新确定初始文本新的拼音序列,再执行上述过程,直至确定校验结果一致后,即可确定初始文本中多音字的正确拼音,之后将校验结果一致情况下的拼音序列、多音字标识和初始文本整合为文本拼音组,并写入多音字文本库,实现了在对初始文本中的多音字进行拼音标注时,可以通过校验的方式确定多音字的正确拼音,不仅节省人力物力,还能够有效的保证最后创建的文本拼音组的正确率,实现高效且快捷的完成多音字文本库的构建,以使得下游业务在使用多音字文本库时不会因为库中数据质量和数量的问题影响相应业务的开展,进一步提高了下游业务的业务完成效率。
与上述方法实施例相对应,本说明书还提供了文本处理装置实施例,图7示出了本说明书一实施例提供的一种文本处理装置的结构示意图。如图7所示,该装置包括:
获取模块702,被配置为获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定模块704,被配置为确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
处理模块706,被配置为根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并运行所述确定模块704;
在所述元词组和所述参考词组一致的情况下,运行写入模块708,所述写入模块708,被配置为基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
一个可选的实施例中,所述文本处理装置,还包括:
采集模块,被配置为采集待处理文本,并对所述待处理文本进行归一化处理获得标准文本;
打标模块,被配置为基于预设的多音字字典确定所述标准文本中的标准多音字,并对所述标准多音字进行打标;
写入规范文本库模块,被配置为根据打标结果获得携带有多音字标识的标准文本,并将携带有多音字标识的标准文本写入规范文本库。
一个可选的实施例中,所述获取模块702进一步被配置为:
在接收到更新所述多音字文本库的更新请求的情况下,基于所述更新请求在所述规范文本库中提取携带有多音字标识的所述初始文本,其中,所述多音字标识用于标注所述初始文本中包含的至少一个所述多音字的字符位置。
一个可选的实施例中,所述确定模块704进一步被配置为:
将所述初始文本输入至拼音生成模块进行处理,获得所述拼音生成模块输出的所述初始文本对应的第i个拼音序列,其中i从1取值且i为正整数。
一个可选的实施例中,所述确定模块704,包括:
确定字符位置单元,被配置为基于所述多音字标识确定所述多音字在所述初始文本中的字符位置;
确定相邻字单元,被配置为通过预设的选择策略确定与所述字符位置相邻的相邻字符位置,并根据所述初始文本确定所述相邻字符位置对应的相邻字;
组成元词组单元,被配置为按照所述相邻字和所述多音字在所述初始文本中的排列顺序,构建至少一个由所述相邻字和所述多音字组成的所述元词组。
一个可选的实施例中,所述处理模块706,包括:
预处理单元,被配置为对所述初始文本进行预处理获得多个初始字符,以及对所述元词组进行预处理获得多个元字符;
第一确定拼音单元,被配置为根据所述第i个拼音序列确定所述多个初始字符中的各个初始字符的拼音;
第二确定拼音单元,被配置为基于所述多个初始字符中的各个初始字符的拼音确定所述多个元字符中的各个元字符的拼音;
组成词组拼音序列单元,被配置为根据所述多个元字符中的各个元字符的拼音生成所述词组拼音序列。
一个可选的实施例中,所述文本处理装置,还包括:
检测模块,被配置为检测第i+1个拼音序列与所述第i个拼音序列是否一致;
若不一致,则运行所述确定模块704;
若一致,则运行写入文本库模块,所述写入文本库模块,被配置为将所述初始文本写入非规范文本库。
一个可选的实施例中,所述写入模块708,包括:
确定拼音位置单元,被配置为基于所述多音字标识确定所述多音字对应的拼音在所述第i个拼音序列中的拼音位置;
提取拼音单元,被配置为按照所述拼音位置在所述第i个拼音序列中提取所述多音字对应的拼音;
整合单元,被配置为将所述初始文本、所述多音字标识和所述多音字对应的拼音进行整合,获得所述文本拼音组。
一个可选的实施例中,所述文本处理装置,还包括:
读取模块,被配置为在接收到针对所述多音字文本库提交的读取请求的情况下,根据所述读取请求在所述多音字文本库中读取训练文本拼音组;
解析模块,被配置为对所述训练文本拼音组进行解析,获得训练初始文本和训练拼音序列;
训练模块,被配置为基于所述训练初始文本和所述训练拼音序列对初始拼音标注模型进行训练,获得目标拼音标注模型。
一个可选的实施例中,所述初始文本为初始中文文本,所述第i个拼音序列中包含的拼音具有声调。
本实施例提供的文本处理装置,在获取到包含多音字的初始文本之后,将确定该初始文本的拼音序列,同时基于初始文本携带的多音字标识构建至少一个包含多音字的元词组,之后根据上述获得的拼音序列确定元词组的词组拼音序列,同时基于词组拼音序列生成参考词组,之后通过将参考词组和元词组比对的方式对拼音序列的正确度进行校验,若校验结果不一致,再重新确定初始文本新的拼音序列,再执行上述过程,直至确定校验结果一致后,即可确定初始文本中多音字的正确拼音,之后将校验结果一致情况下的拼音序列、多音字标识和初始文本整合为文本拼音组,并写入多音字文本库,实现了在对初始文本中的多音字进行拼音标注时,可以通过校验的方式确定多音字的正确拼音,不仅节省人力物力,还能够有效的保证最后创建的文本拼音组的正确率,实现高效且快捷的完成多音字文本库的构建,以使得下游业务在使用多音字文本库时不会因为库中数据质量和数量的问题影响相应业务的开展,进一步提高了下游业务的业务完成效率。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
图8示出了根据本说明书一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (13)
1.一种文本处理方法,其特征在于,包括:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
2.根据权利要求1所述的文本处理方法,其特征在于,所述获取携带有多音字标识的初始文本步骤执行之前,还包括:
采集待处理文本,并对所述待处理文本进行归一化处理获得标准文本;
基于预设的多音字字典确定所述标准文本中的标准多音字,并对所述标准多音字进行打标;
根据打标结果获得携带有多音字标识的标准文本,并将携带有多音字标识的标准文本写入规范文本库。
3.根据权利要求2所述的文本处理方法,其特征在于,所述获取携带有多音字标识的初始文本,包括:
在接收到更新所述多音字文本库的更新请求的情况下,基于所述更新请求在所述规范文本库中提取携带有多音字标识的所述初始文本,其中,所述多音字标识用于标注所述初始文本中包含的至少一个所述多音字的字符位置。
4.根据权利要求1所述的文本处理方法,其特征在于,所述确定所述初始文本对应的第i个拼音序列,包括:
将所述初始文本输入至拼音生成模块进行处理,获得所述拼音生成模块输出的所述初始文本对应的第i个拼音序列,其中i从1取值且i为正整数。
5.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,包括:
基于所述多音字标识确定所述多音字在所述初始文本中的字符位置;
通过预设的选择策略确定与所述字符位置相邻的相邻字符位置,并根据所述初始文本确定所述相邻字符位置对应的相邻字;
按照所述相邻字和所述多音字在所述初始文本中的排列顺序,构建至少一个由所述相邻字和所述多音字组成的所述元词组。
6.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述第i个拼音序列确定所述元词组的词组拼音序列,包括:
对所述初始文本进行预处理获得多个初始字符,以及对所述元词组进行预处理获得多个元字符;
根据所述第i个拼音序列确定所述多个初始字符中的各个初始字符的拼音;
基于所述多个初始字符中的各个初始字符的拼音确定所述多个元字符中的各个元字符的拼音;
根据所述多个元字符中的各个元字符的拼音生成所述词组拼音序列。
7.根据权利要求1所述的文本处理方法,其特征在于,所述在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤之后,还包括:
检测第i+1个拼音序列与所述第i个拼音序列是否一致;
若不一致,则执行所述根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组步骤;
若一致,则将所述初始文本写入非规范文本库。
8.根据权利要求1所述的文本处理方法,其特征在于,所述基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,包括:
基于所述多音字标识确定所述多音字对应的拼音在所述第i个拼音序列中的拼音位置;
按照所述拼音位置在所述第i个拼音序列中提取所述多音字对应的拼音;
将所述初始文本、所述多音字标识和所述多音字对应的拼音进行整合,获得所述文本拼音组。
9.根据权利要求1所述的文本处理方法,其特征在于,所述基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库步骤执行之后,还包括:
在接收到针对所述多音字文本库提交的读取请求的情况下,根据所述读取请求在所述多音字文本库中读取训练文本拼音组;
对所述训练文本拼音组进行解析,获得训练初始文本和训练拼音序列;
基于所述训练初始文本和所述训练拼音序列对初始拼音标注模型进行训练,获得目标拼音标注模型。
10.根据权利要求1所述的文本处理方法,其特征在于,所述初始文本为初始中文文本,所述第i个拼音序列中包含的拼音具有声调。
11.一种文本处理装置,其特征在于,包括:
获取模块,被配置为获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定模块,被配置为确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
处理模块,被配置为根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并运行所述确定模块;
在所述元词组和所述参考词组一致的情况下,运行写入模块,所述写入模块,被配置为基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
12.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取携带有多音字标识的初始文本,所述初始文本中包含至少一个多音字;
确定所述初始文本对应的第i个拼音序列,并根据所述多音字标识和所述初始文本构建至少一个包含所述多音字的元词组,其中i从1取值且i为正整数;
根据所述第i个拼音序列确定所述元词组的词组拼音序列,并将所述词组拼音序列输入至文本生成模块处理,获得所述词组拼音序列对应的参考词组;
在所述元词组和所述参考词组不一致的情况下,i自增1,并执行所述确定所述初始文本对应的第i个拼音序列步骤;
在所述元词组和所述参考词组一致的情况下,基于所述多音字标识、所述初始文本和所述第i个拼音序列创建文本拼音组,并写入多音字文本库。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10任意一项所述文本处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011133952.2A CN112257420B (zh) | 2020-10-21 | 2020-10-21 | 文本处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011133952.2A CN112257420B (zh) | 2020-10-21 | 2020-10-21 | 文本处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257420A true CN112257420A (zh) | 2021-01-22 |
CN112257420B CN112257420B (zh) | 2024-06-18 |
Family
ID=74264493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011133952.2A Active CN112257420B (zh) | 2020-10-21 | 2020-10-21 | 文本处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257420B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010964A (ja) * | 1998-06-17 | 2000-01-14 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
US20050209844A1 (en) * | 2004-03-16 | 2005-09-22 | Google Inc., A Delaware Corporation | Systems and methods for translating chinese pinyin to chinese characters |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN105404621A (zh) * | 2015-09-25 | 2016-03-16 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的方法及*** |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN111798834A (zh) * | 2020-07-03 | 2020-10-20 | 北京字节跳动网络技术有限公司 | 多音字的识别方法、装置、可读介质和电子设备 |
-
2020
- 2020-10-21 CN CN202011133952.2A patent/CN112257420B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000010964A (ja) * | 1998-06-17 | 2000-01-14 | Toshiba Corp | 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 |
US20050209844A1 (en) * | 2004-03-16 | 2005-09-22 | Google Inc., A Delaware Corporation | Systems and methods for translating chinese pinyin to chinese characters |
CN105404621A (zh) * | 2015-09-25 | 2016-03-16 | 中国科学院计算技术研究所 | 一种用于盲人读取汉字的方法及*** |
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
CN109977361A (zh) * | 2019-03-01 | 2019-07-05 | 广州多益网络股份有限公司 | 一种基于相似词的汉语拼音标注方法、装置及存储介质 |
CN111667810A (zh) * | 2020-06-08 | 2020-09-15 | 北京有竹居网络技术有限公司 | 多音字语料的获取方法、装置、可读介质和电子设备 |
CN111798834A (zh) * | 2020-07-03 | 2020-10-20 | 北京字节跳动网络技术有限公司 | 多音字的识别方法、装置、可读介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
张丽青;寿永熙;马志强;: "最大熵算法在汉语拼音标注中的研究与实现", 微电子学与计算机, no. 08, 5 August 2012 (2012-08-05) * |
Also Published As
Publication number | Publication date |
---|---|
CN112257420B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
US20210027788A1 (en) | Conversation interaction method, apparatus and computer readable storage medium | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN106776544B (zh) | 人物关系识别方法及装置和分词方法 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN102982021B (zh) | 用于消除语言转换中的多个读法的歧义的方法 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN111292751B (zh) | 语义解析方法及装置、语音交互方法及装置、电子设备 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN110209802B (zh) | 一种提取摘要文本的方法及装置 | |
CN112259083A (zh) | 音频处理方法及装置 | |
CN112784009A (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN117217315A (zh) | 一种利用大语言模型生成高质量问答数据的方法及装置 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN109065015B (zh) | 一种数据采集方法、装置、设备及可读存储介质 | |
CN110516125A (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN113051384B (zh) | 基于对话的用户画像抽取方法及相关装置 | |
CN113436614A (zh) | 语音识别方法、装置、设备、***及存储介质 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN112257420A (zh) | 文本处理方法及装置 | |
CN115019788A (zh) | 语音交互方法、***、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |