CN112668324A

CN112668324A - 语料数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN112668324A
Application number: CN202011406813.2A
Authority: CN
Inventors: 郝泽宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-16
Anticipated expiration: 2040-12-04
Also published as: CN112668324B

Abstract

本公开关于一种语料数据处理方法、装置、电子设备及存储介质，该方法包括获取语料数据；基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息；利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果；基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果。利用本公开实施例可以多维度的语料分词处理，大大提高分词结果的精准性，有效避免了分词结果散乱错误，语言模型的语料不完善的问题。

Description

语料数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语料数据处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断普及和完善，语音识别技术受到了越来越多的瞩目。语料，即语言材料，是构建语言模型的原料。语言模型的建模单位是词，因此会对语料进行分词处理，而分词结果的不同，会对语言模型性能产生不同影响。相关技术中，对语料数据进行分词时，会根据词表的最大匹配来进行分词，但语言的***，词表常常无法对语料进行完善的覆盖，存在分词结果散乱错误，语言模型的语料不完善等问题，导致后续构建语言模型性能差，语言识别准率低。

发明内容

本公开提供一种语料数据处理方法、装置、电子设备及存储介质，以至少解决相关技术中分词结果散乱错误，语言模型的语料不完善的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语料数据处理方法，包括：

获取语料数据；

基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息；

利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果；

基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果。

可选的，所述利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果包括：

将所述第一分词结果对应的词性信息与预设词性信息进行匹配；

当所述第一分词结果中任一词的词性信息与所述预设词性信息相匹配时，将与所述预设词性信息相匹配的词性信息对应的词作为扩展词；

将所述第一分词结果中包括所述扩展词的分词结果作为待扩展分词结果；

基于所述待扩展分词结果和所述扩展词进行语料扩展，得到目标扩展分词结果；

将所述目标扩展分词结果和所述第一分词结果作为所述第二分词结果。

可选的，所述预设词性信息包括多个预设词性；所述基于所述待扩展分词结果和所述扩展词进行语料扩展，得到目标扩展分词结果包括：

将词性信息与同一预设词性相匹配的扩展词，划分为同一目标扩展词组；

遍历每个目标扩展词组中的扩展词，在遍历到每个扩展词时，基于当前遍历到的扩展词的同组扩展词，对包括所述当前遍历到的扩展词的待扩展分词结果进行扩展词替换处理，得到扩展分词结果；

在遍历结束时，将遍历过程中得到的扩展分词结果，作为所述目标扩展分词结果；

其中，所述当前遍历到的扩展词的同组扩展词为所述当前遍历到的扩展词所在目标扩展词组中除所述当前遍历到的扩展词以外的扩展词。

可选的，所述语料数据包括多个句子，所述基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息包括：

基于前缀词典对每个句子进行切分，得到所述每个句子的初始分词结果；

对所述每个句子的初始分词结果进行词性分析，得到所述每个句子的初始分词结果对应的词性信息；

将所述每个句子的初始分词结果和对应的词性信息输入句子切分分析模型，对所述初始分词结果切分分析，得到所述每个句子的初始分词结果的切分分析数据，所述切分分析数据表征按照初始分词结果对对应的句子进行切分的合理程度；

基于所述每个句子的初始分词结果的切分分析数据确定所述每个句子的第一分词结果。

可选的，所述基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果包括：

遍历所述第二分词结果中每个词，在遍历到每个词时，将当前遍历到的词与预设词典中的词进行匹配；

当所述预设词典中存在与所述当前遍历到的词相匹配的词时，遍历所述当前遍历到的词的下一词；

当所述预设词典中不存在与所述当前遍历到的词相匹配的词时，根据所述词典分词算法对所述当前遍历到的词进行分词，得到分词结果；

在遍历结束时，基于遍历过程中得到的分词结果更新所述第二分词结果，得到所述第三分词结果。

可选的，所述方法还包括：

基于词典分词算法对所述语料数据进行分词处理，得到第四分词结果；

将所述第三分词结果和所述第四分词结果作为所述语料数据的目标分词结果。

可选的，所述方法还包括：

将所述第三分词结果输入第一待训练语言模型，对所述第一待训练语言模型进行训练，得到第一语言模型；

将所述第四分词结果输入第二待训练语言模型，对所述第二待训练语言模型进行训练，得到第二语言模型；

根据所述第三分词结果和所述第四分词结果生成词条集合；

对所述词条集合中每一词条在所述第一语言模型上的序列指标和在所述第二语言模型上的序列指标进行插值运算，生成目标语言模型。

可选的，所述将所述第三分词结果输入第一待训练语言模型，对所述第一待训练语言模型进行训练，得到第一语言模型包括：

利用所述第一待训练语言模型，计算所述第三分词结果中词条的频次；

基于预设平滑算法和所述词条的频次，调整所述第三分词结果对应的句子序列指标，至所述第三分词结果对应的句子困惑度满足预设条件，得到所述第一语言模型；

所述将所述第四分词结果输入第二待训练语言模型，对所述第二待训练语言模型进行训练，得到第二语言模型包括：

利用所述第二待训练语言模型，计算所述第四分词结果中词条的频次；

基于预设平滑算法和所述词条的频次，调整所述第四分词结果对应的句子序列指标，至所述第四分词结果对应的句子困惑度满足所述预设条件，得到所述第二语言模型。

可选的，在所述利用所述第一待训练语言模型，计算所述第三分词结果中词条的频次之后，所述方法还包括：

比较所述第三分词结果中词条的频次与预设频次阈值间数值大小，得到第一比较结果；

根据所述第一比较结果，对所述第三分词结果中词条进行过滤；

所述基于预设平滑算法和所述词条的频次，调整所述第三分词结果对应的句子序列指标，至所述第三分词结果对应的句子困惑度满足预设条件，得到所述第一语言模型包括：基于预设平滑算法和过滤后的第三分词结果中词条的频次，调整所述第三分词结果对应的句子序列指标，至所述第三分词结果对应的句子困惑度满足预设条件，得到所述第一语言模型；

在所述利用所述第二待训练语言模型，计算所述第四分词结果中词条的频次之后，所述方法还包括：

比较所述第四分词结果中词条的频次与所述预设频次阈值间数值大小，得到第二比较结果；

根据所述第二比较结果，对所述第四分词结果中词条进行过滤；

所述基于预设平滑算法和所述词条的频次，调整所述第四分词结果对应的句子序列指标，至所述第四分词结果对应的句子困惑度满足所述预设条件，得到所述第二语言模型包括：基于预设平滑算法和过滤后的第四分词结果中词条的频次，调整所述第四分词结果对应的句子序列指标，至所述第四分词结果对应的句子困惑度满足所述预设条件，得到所述第二语言模型。

根据本公开实施例的第二方面，提供一种语料数据处理装置，包括：

语料数据获取模块，被配置为执行获取语料数据；

第一分词模块模块，被配置为执行基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息；

扩展处理模块，被配置为执行利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果；

第二分词模块模块，被配置为执行基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果。

可选的，所述扩展处理模块包括：

词性匹配单元，被配置为执行将所述第一分词结果对应的词性信息与预设词性信息进行匹配；

扩展词确定单元，被配置为执行当所述第一分词结果中任一词的词性信息与所述预设词性信息相匹配时，将与所述预设词性信息相匹配的词性信息对应的词作为扩展词；

待扩展分词结果确定单元，被配置为执行将所述第一分词结果中包括所述扩展词的分词结果作为待扩展分词结果；

语料扩展单元，被配置为执行基于所述待扩展分词结果和所述扩展词进行语料扩展，得到目标扩展分词结果；

第二分词结果确定单元，被配置为执行将所述目标扩展分词结果和所述第一分词结果作为所述第二分词结果。

可选的，所述预设词性信息包括多个预设词性；所述语料扩展单元包括：

扩展词划分单元，被配置为执行将词性信息与同一预设词性相匹配的扩展词，划分为同一目标扩展词组；

扩展词替换处理单元，被配置为执行遍历每个目标扩展词组中的扩展词，在遍历到每个扩展词时，基于当前遍历到的扩展词的同组扩展词，对包括所述当前遍历到的扩展词的待扩展分词结果进行扩展词替换处理，得到扩展分词结果；

目标扩展分词结果确定单元，被配置为执行在遍历结束时，将遍历过程中得到的扩展分词结果，作为所述目标扩展分词结果；

可选的，所述语料数据包括多个句子，所述第一分词处理模块包括：

句子切分单元，被配置为执行基于前缀词典对每个句子进行切分，得到所述每个句子的初始分词结果；

词性分析单元，被配置为执行对所述每个句子的初始分词结果进行词性分析，得到所述每个句子的初始分词结果对应的词性信息；

句子分析单元，被配置为执行将所述每个句子的初始分词结果和对应的词性信息输入句子切分分析模型，对所述初始分词结果切分分析，得到所述每个句子的初始分词结果的切分分析数据，所述切分分析数据表征按照初始分词结果对对应的句子进行切分的合理程度；

第一分词结果确定单元，被配置为执行基于所述每个句子的初始分词结果的切分分析数据确定所述每个句子的第一分词结果。

可选的，所述第二分词处理模块包括：

词匹配单元，被配置为执行遍历所述第二分词结果中每个词，在遍历到每个词时，将当前遍历到的词与预设词典中的词进行匹配；

遍历循环单元，被配置为执行当所述预设词典中存在与所述当前遍历到的词相匹配的词时，遍历所述当前遍历到的词的下一词；

分词处理单元，被配置为执行当所述预设词典中不存在与所述当前遍历到的词相匹配的词时，根据所述词典分词算法对所述当前遍历到的词进行分词，得到分词结果；

第三分词结果确定单元，被配置为执行在遍历结束时，基于遍历过程中得到的分词结果更新所述第二分词结果，得到所述第三分词结果。

可选的，所述装置还包括：

第三分词处理模块，被配置为执行基于词典分词算法对所述语料数据进行分词处理，得到第四分词结果；

目标分词结果确定模块，被配置为执行将所述第三分词结果和所述第四分词结果作为所述语料数据的目标分词结果。

可选的，所述装置还包括：

第一语言模型训练模块，被配置为执行将所述第三分词结果输入第一待训练语言模型，对所述第一待训练语言模型进行训练，得到第一语言模型；

第二语言模型训练模块，被配置为执行将所述第四分词结果输入第二待训练语言模型，对所述第二待训练语言模型进行训练，得到第二语言模型；

词条集合生成模块，被配置为执行根据所述第三分词结果和所述第四分词结果生成词条集合；

目标语言模型生成模块，被配置为执行对所述词条集合中每一词条在所述第一语言模型上的序列指标和在所述第二语言模型上的序列指标进行插值运算，生成目标语言模型。

可选的，所述第一语言模型训练模块包括：

第一频次计算单元，被配置为执行利用所述第一待训练语言模型，计算所述第三分词结果中词条的频次；

第一语言模型确定单元，被配置为执行基于预设平滑算法和所述词条的频次，调整所述第三分词结果对应的句子序列指标，至所述第三分词结果对应的句子困惑度满足预设条件，得到所述第一语言模型；

所述第二语言模型训练模块包括：

第二频次计算单元，被配置为执行利用所述第二待训练语言模型，计算所述第四分词结果中词条的频次；

第二语言模型确定单元，被配置为执行基于预设平滑算法和所述词条的频次，调整所述第四分词结果对应的句子序列指标，至所述第四分词结果对应的句子困惑度满足所述预设条件，得到所述第二语言模型。

可选的，所述第一语言模型训练模块还包括：

第一比较单元，被配置为执行比较所述第三分词结果中词条的频次与预设频次阈值间数值大小，得到第一比较结果；

第一词条过滤单元，被配置为执行根据所述第一比较结果，对所述第三分词结果中词条进行过滤；

所述第一语言模型确定单元还被配置为执行基于预设平滑算法和过滤后的第三分词结果中词条的频次，调整所述第三分词结果对应的句子序列指标，至所述第三分词结果对应的句子困惑度满足预设条件，得到所述第一语言模型；

所述第二语言模型训练模块还包括：

第二比较单元，被配置为执行比较所述第四分词结果中词条的频次与所述预设频次阈值间数值大小，得到第二比较结果；

第二词条过滤单元，被配置为执行根据所述第二比较结果，对所述第四分词结果中词条进行过滤；

所述第二语言模型确定单元还被配置为执行基于预设平滑算法和过滤后的第四分词结果中词条的频次，调整所述第四分词结果对应的句子序列指标，至所述第四分词结果对应的句子困惑度满足所述预设条件，得到所述第二语言模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

结合词性标注对语料数据进行分词处理，可以保留准确的词边界，大大提高分词结果的精准性，有效避免了分词结果散乱的问题，且结合词性标注得到的第一分词结果对应的词性信息对第一分词结果进行扩展处理，可以得到更完善的分词结果，提升了语料丰富性；接着，结合词典分词算法对扩展处理后的第二分词结果进行二次分词，可以有效避免非库词的出现，实现多维度的语料分词处理，解决相关技术中词表不完备带来的分词效果差，进而导致语言模型性能差、语言识别准确率低的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语料数据处理方法的流程图；

图2是根据一示例性实施例示出的一种基于词性标注对语料数据进行分词处理，得到第一分词结果和第一分词结果对应的词性信息的流程图；

图3是根据一示例性实施例示出的一种利用第一分词结果对应的词性信息对第一分词结果进行扩展处理，得到第二分词结果的流程图；

图4是根据一示例性实施例示出的一种基于词典分词算法对第二分词结果中的词进行分词处理，得到第三分词结果的流程图；

图5是根据一示例性实施例示出的另一种语料数据处理方法的流程图；

图6是根据一示例性实施例示出的另一种语料数据处理方法的流程图；

图7是根据一示例性实施例示出的一种语料数据处理装置框图；

图8是根据一示例性实施例示出的一种用于语料数据处理的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语料数据处理方法的流程图，如图1所示，该语料数据处理方法可以用于终端、服务器等电子设备中，包括以下步骤。

在步骤S101中，获取语料数据。

本说明书实施例中，语料数据可以包括多个句子，这里的多个可以为至少两个；可选的，每个句子可以由至少一个词组成；可选的，每个词可以为单个字、也可以为由至少两个字组成的合成词。

在一个可选的实施例中，可以获取大量文本信息，以得到语料数据。在另一个可选的实施例中，可以结合后续语言模型的实际应用领域，获取相应领域的文本信息，以得到该相应领域的语料数据。

在步骤S103中，基于词性标注对语料数据进行分词处理，得到第一分词结果和第一分词结果对应的词性信息。

在一个可选的实施例中，基于词性标注对语料数据进行分词处理，得到第一分词结果和第一分词结果对应的词性信息可以结合结巴分词工具、HanLP(Han LanguageProcessing汉语言处理包)等结合词性标注的分词工具。

在一个可选的实施例中，如图2所示，图2是根据一示例性实施例示出的一种基于词性标注对语料数据进行分词处理，得到第一分词结果和第一分词结果对应的词性信息的流程图，具体可以包括如下步骤：

在步骤S201中，基于前缀词典对每个句子进行切分，得到每个句子的初始分词结果。

在一个可选的实施例中，可以通过解析预设的统计词典文本文件(统计词典文本文件中的每个行可以对应着词和词频)，生成前缀词典；在生成前缀词典后，基于前缀词典对每个句子进行切分，得到每个句子的所有可能的分词结果(即初始分词结果)一般的，每个句子的所有可能的分词结果(即初始分词结果)可以为至少两个分词结果，也可以为一个分词结果。

在一个具体的实施例中，通过解析预设的统计词典文本文件，生成前缀词典可以包括：将统计词典文本文件中的词和词频提取出来，以词为key，以词频为value，加入到前缀词典中。对于每个词，再分别获取它的前缀词(例如“北”是“京”的前缀词)，如果前缀词已经存在于前缀词典中，则不处理；如果该前缀词不在前缀词典中，则将其词频置为0。

在步骤S203中，对每个句子的初始分词结果进行词性分析，得到所述每个句子的初始分词结果对应的词性信息。

在一个可选的实施例中，对初始分词结果中的词进行词性分析可以包括但不限于结合最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional random fields,CRFs)等广义上的马尔可夫模型，以及循环神经网络(Recurrent Neural Network,RNN)等深度学习算法。

在一个具体的实施例中，假设句子为“李白露菲选一个”，且其中的“李白”和“露菲”是某一游戏中的游戏人物名；该句子对应的初始分词结果为两个分词结果，依次为“李白/露菲/选/一/个”、“李/白露/菲/选/一/个”，通过对“李白/露菲/选/一/个”、“李/白露/菲/选/一/个”分别进行词性分析，得到“李白/露菲/选/一/个”、“李/白露/菲/选/一/个”对应的词性信息：[nr,nr,v,m,u]、[n,n,v,v,m,u]。

具体的，nr表示普通人名，n表示普通名词，v表示普通动词，m表示数量词，u表示助词。

在步骤S205中，将每个句子的初始分词结果和对应的词性信息输入句子切分分析模型，对初始分词结果切分分析，得到每个句子的初始分词结果的切分分析数据。

本说明书实施例中，初始分词结果的切分分析数据可以表征按照该初始分词结果对对应的句子进行切分的合理程度。当一个句子的初始分词结果中包括至少两个分词结果时，每个句子的初始分词结果的切分分析数据可以包括每个句子的初始分词结果中每个分词结果的切分分析数据；相应的，该分词结果的切分分析数据可以表征按照该分词结果对该句子进行切分的合理程度。

在一个可选的实施例中，句子切分分析模型可以为预先结合大量标注有切分分析数据的分词结果和分词结果对应的词性信息对神经网络进行训练得到的，具体的，在训练过程中，可以结合神经网络输出的预测切分分析数据与标注的切分分析数据间的损失信息调整神经网络的参数，至神经网络输出的预测切分分析数据与标注的切分分析数据间的损失信息满足预设收敛条件，具体的，损失信息满足预设收敛条件可以包括但不限于输入神经网络的分词结果和分词结果对应的词性信息中预设百分比的分词结果对应的损失信息小于等于指定阈值，或前后两次训练过程中对应的损失信息总量(即损失值总和)与上一次训练学习后对应的损失信息总量间的差值小于一定阈值。本说明书实施例中，预设百分比和指定阈值可以为结合实际训练需求进行设置。相应的，训练好的句子切分分析模型可以用于对句子的分词结果的合理性进行分析。

在一个具体的实施例中，以上述“李白露菲选一个”的句子为例，输入句子切分分析模型的初始分词结果和对应的词性信息可以包括：[李白/nr,露菲/nr,选/v,一/m,个/u]和[李/n,白露/n,菲/n,选/v,一/m,个/u]。

在步骤S207中，基于每个句子的初始分词结果的切分分析数据确定每个句子的第一分词结果。

在一些情况下，切分分析数据可能不是数值，而是切分合理程度的字符化表征，这种情况下，可以通过预设的规则使得该字符化表征的内容量化为一特定值。可选的，量化后的切分分析数据的数值大小与切分合理程度成正比。在一个具体的实施例中，例如，切分分析数据可以为字符“中”，可选的，可以量化该字符为其ASCII码的二进制值或十六进制值等。

在一个可选的实施例中，可以结合每个句子的初始分词结果中至少两个分词结果的切分分析数据的数值大小，将最大的切分分析数据(数值)的分词结果作为该句子的第一分词结果。

在另一个可选的实施例中，当句子的初始分词结果中只有一个分词结果，可以直接将该分词结果作为该句子的第一分词结果。

上述实施例中，结合词性对句子进行分词，可以保留更准确的词边界，避免分词结果散乱问题，大大提高分词结果的精准性，且在结合词性对句子进行分词过程中，利用句子切分模型对具有词性的每一句子的各种分词结果进行切分分析，得到可以表征按照分词结果对该句子进行切分的合理程度的切分分析数据，并基于该切分分析数据选取分词结果(第一分词结果)，可以大大提高选取的分词结果的合理性。

在步骤S105中，利用第一分词结果对应的词性信息对第一分词结果进行扩展处理，得到第二分词结果。

在一个可选的实施例中，如图3所示，图3是根据一示例性实施例示出的一种利用第一分词结果对应的词性信息对第一分词结果进行扩展处理，得到第二分词结果的流程图，具体可以包括以下步骤：

在步骤S301中，将第一分词结果对应的词性信息与预设词性信息进行匹配。

本说明书实施例中，预设词性信息可以包括预先设置可以进行扩展的词性。在一个具体的实施例中，例如预设词性信息可以为歌手名、游戏人物名等。

在步骤S303中，当第一分词结果中任一词的词性信息与预设词性信息相匹配时，将与预设词性信息相匹配的词性信息对应的词作为扩展词；

在步骤S305中，将第一分词结果中包括扩展词的分词结果作为待扩展分词结果。

在一个具体的实施例中，假设语料数据中的句子包括“喜欢XXX十年了”、“YYY新专辑我买爆！”其中，XXX和YYY是两个歌手名。且“喜欢XXX十年了”、“YYY新专辑我买爆！”的第一分词结果为：“喜欢/XXX/十/年/了”和“YYY/新专辑/我/买/爆”。第一分词结果对应的词性信息：[v,ng,m,qt,u]和[ng,nz,r,v,v,w]。

其中，ng表示歌手名，nz表示专有名词，v表示普通动词，m表示数量词，u表示助词，qt表示量词，w表示标点符号。

在一个具体的实施例中，例如预设词性信息包括歌手名，相应的，“喜欢/XXX/十/年/了”和“YYY/新专辑/我/买/爆”中“XXX”和“YYY”的词性信息：歌手名与预设词性信息相匹配，可以将“XXX”和“YYY”作为扩展词。相应的，包括扩展词“XXX”的“喜欢/XXX/十/年/了”，以及包括扩展词“YYY”的“YYY/新专辑/我/买/爆”可以作为待扩展结果。

在步骤S307中，基于待扩展分词结果和扩展词进行语料扩展，得到目标扩展分词结果；

在一个可选的实施例中，基于待扩展分词结果和扩展词进行语料扩展，得到目标扩展分词结果可以包括：将词性信息与同一预设词性相匹配的扩展词，划分为同一目标扩展词组；遍历每个目标扩展词组中的扩展词，在遍历到每个扩展词时，基于当前遍历到的扩展词的同组扩展词，对包括当前遍历到的扩展词的待扩展分词结果进行扩展词替换处理，得到扩展分词结果；在遍历结束时，将遍历过程中得到的扩展分词结果，作为目标扩展分词结果；

其中，上述当前遍历到的扩展词的同组扩展词可以为当前遍历到的扩展词所在目标扩展词组中除该当前遍历到的扩展词以外的扩展词。

在一个具体的实施例中，以上述扩展词：“XXX”和“YYY”，待扩展分词结果：“喜欢/XXX/十/年/了”和“YYY/新专辑/我/买/爆”为例，可以将“喜欢/XXX/十/年/了”中的“XXX”替换成“YYY”，得到扩展分词结果“喜欢/YYY/十/年/了”。以及将“YYY/新专辑/我/买/爆”中的“YYY”替换成“XXX”，得到扩展分词结果“XXX/新专辑/我/买/爆”。

在步骤S309中，将目标扩展分词结果和第一分词结果作为第二分词结果。

本说明书实施例中，结合分词结果对应的词性信息对分词结果进行扩展处理，可以得到更完善的分词结果，有效丰富了后续语言模型构建时的语料。

在步骤S107中，基于词典分词算法对第二分词结果中的词进行分词处理，得到第三分词结果。

本说明书实施例中，词典分词算法可以包括但不限于正向最大匹配算法、逆向最大匹配算法和双向匹配算法等。

在一个可选的实施例中，如图4所示，图4是根据一示例性实施例示出的一种基于词典分词算法对第二分词结果中的词进行分词处理，得到第三分词结果的流程图，具体可以包括以下步骤：

在步骤S401中，遍历第二分词结果中每个词，在遍历到每个词时，将当前遍历到的词与预设词典中的词进行匹配；

本说明书实施例中，预设词典可以为预先设置包括大量词的词库。

在步骤S403中，当预设词典中存在与当前遍历到的词相匹配的词时，遍历当前遍历到的词的下一词；

在步骤S405中，当预设词典中不存在与当前遍历到的词相匹配的词时，根据词典分词算法对当前遍历到的词进行分词，得到分词结果。

在一个可选的实施例中，以词典分词算法为正向最大匹配算法为例，假定预设词典中的最长词有i个字符串(若语料数据为汉字的语料数据，i个字符串相当于i个字)，则用当前遍历到的词中的前i个字作为匹配字段，与预设词典中的词进行匹配。若此时预设词典中存在这样一个匹配字段，则匹配成功，将该匹配字段切分出来。如果匹配失败，将该匹配字段中的最后一个字去掉，对此时剩下字段重新与预设词典进行匹配，至切分出一个词或剩余字串的长度为零为止，这个过程中，将对当前遍历到的词切分后的词作为该当前遍历到的词的分词结果；

在步骤S407中，在遍历结束时，基于遍历过程中得到的分词结果更新第二分词结果，得到第三分词结果。

本说明书实施例中，遍历过程中得到的分词结果为第二分词结果中被重新分词的词的分词结果。相应的，基于遍历过程中得到的分词结果更新第二分词结果，得到第三分词结果可以包括将第二分词结果中被重新分词的词替换成该被重新分词的词的分词结果，得到第三分词结果。

上述实施例中，结合词典分词算法对扩展处理后的第二分词结果进行二次分词，可以有效避免非库词的出现，提升分词的合理性，实现多维度的语料分词处理。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，先结合词性标注对语料数据进行分词处理，可以保留准确的词边界，大大提高分词结果的精准性，有效避免了分词结果散乱的问题，且结合词性标注得到的第一分词结果对应的词性信息对第一分词结果进行扩展处理，可以得到更完善的分词结果，提升了语料丰富性；接着，结合词典分词算法对扩展处理后的第二分词结果进行二次分词，可以有效避免非库词的出现，实现多维度的语料分词处理，解决相关技术中词表不完备带来的分词效果差，进而导致语言模型性能差、语言识别准确率低的问题。

在一个可选的实施例中，如图5所示，上述方法还可以包括：

在步骤S109中，基于词典分词算法对语料数据进行分词处理，得到第四分词结果；

本说明书实施例中，基于词典分词算法对语料数据进行分词处理，得到第四分词结果可以参见上述根据词典分词算法对当前遍历到的词进行分词，得到分词结果的具体步骤，在此不再赘述。

在步骤S111中，将第三分词结果和第四分词结果作为语料数据的目标分词结果。

本说明书实施例中，通过多种角度对语料数据进行分词处理，可以解决分词方式单一导致的不均衡问题，且后续可以结合不同角度获取的分词结果进行语言模型的构建，可以更全面覆盖建模语料，以提升语言模型的性能。

在一个可选的实施例中，如图6所示，上述方法还可以包括：

在步骤S113中，将第三分词结果输入第一待训练语言模型，对第一待训练语言模型进行训练，得到第一语言模型；

本说明书实施例中，第一待训练语言模型可以包括但不限于n-gram(n元模型)。

在一个可选的实施例中，将第三分词结果输入第一待训练语言模型，对第一待训练语言模型进行训练，得到第一语言模型包括：

1)利用第一待训练语言模型，计算第三分词结果中词条的频次；

2)基于预设平滑算法和词条的频次，调整第三分词结果对应的句子序列指标，至第三分词结果对应的句子困惑度满足预设条件，得到第一语言模型；

本说明书实施例中，分词结果对应的句子序列指标可以为表征该分词结果对应的句子是否合理的句子概率。从统计语言模型的角度讲，判断一个句子是否合理，就是看它出现的可能性大小如何。对于一个句子S，假设它是由词汇[w1,w2,…,wn]组成，对于S语句是否合理，就是看S出现的可能性大小，也就是数学上S出现的概率P(S)(即句子序列指标)。P(S)＝P(w1,w2,…,wn)由条件概率可知，P(S)＝p(w1)p(w2|w1)p(w3|w2,w1)…p(wn|w1,w2,…,wn-1)，其中，p(w1)表示w1出现的概率，p(w2|w1)表示出现w1后出现w2的概率，依次类推。

本说明书实施例中，句子困惑度可以用于反映语言模型的性能好坏，具体的，句子困惑度与句子概率成反比，句子困惑度与语言模型的性能好坏也成反比；即句子概率越大，语言模型的性能越好，句子困惑度越小。

在另一个可选的实施例中，为了节约***开销，将第三分词结果输入第一待训练语言模型，对第一待训练语言模型进行训练，得到第一语言模型可以包括：

2)比较第三分词结果中词条的频次与预设频次阈值间数值大小，得到第一比较结果；

3)根据第一比较结果，对第三分词结果中词条进行过滤；

4)基于预设平滑算法和过滤后的第三分词结果中词条的频次，调整第三分词结果对应的句子序列指标，至第三分词结果对应的句子困惑度满足预设条件，得到第一语言模型；

本说明书实施例中，预设频次阈值可以结合实际应用需求预先设置，具体的实施例中，可以过滤掉频次小于该预设频次阈值的词条，进而达到减少模型训练过程中的语料数据，降低***开销的技术效果。

在步骤S115中，将第四分词结果输入第二待训练语言模型，对第二待训练语言模型进行训练，得到第二语言模型；

在一个可选的实施例中，将第四分词结果输入第二待训练语言模型，对第二待训练语言模型进行训练，得到第二语言模型包括：

利用第二待训练语言模型，计算第四分词结果中词条的频次；

基于预设平滑算法和词条的频次，调整第四分词结果对应的句子序列指标，至第四分词结果对应的句子困惑度满足预设条件，得到第二语言模型。

在另一个可选的实施例中，将第四分词结果输入第二待训练语言模型，对第二待训练语言模型进行训练，得到第二语言模型包括：

比较第四分词结果中词条的频次与预设频次阈值间数值大小，得到第二比较结果；

根据第二比较结果，对第四分词结果中词条进行过滤；

基于预设平滑算法和过滤后的第四分词结果中词条的频次，调整第四分词结果对应的句子序列指标，至第四分词结果对应的句子困惑度满足预设条件，得到第二语言模型。

本说明书实施例中，将第四分词结果输入第二待训练语言模型，对第二待训练语言模型进行训练，得到第二语言模型的相关细化步骤可以参见上述将第三分词结果输入第一待训练语言模型，对第一待训练语言模型进行训练，得到第一语言模型的具体细化步骤，在此不再赘述。

在步骤S117中，根据第三分词结果和第四分词结果生成词条集合。

本说明书实施例中，可以将第三分词结果和第四分词结果中的词条作为上述词条集合中的词条。可选的，词条可以包括单个词，也可以包括某一个词与其前面的词组成的词对。在一个具体的实施例中，以分词结果“喜欢/XXX/十/年/了”为例，其对应的词条可以包括：

喜欢

喜欢XXX

喜欢XXX十

喜欢XXX十年

喜欢XXX十年了

在步骤S119中，对词条集合中每一词条在第一语言模型上的序列指标和在第二语言模型上的序列指标进行插值运算，生成目标语言模型。

在一个可选的实施例中，当词条集合中的任一词条即包含在第三分词结果中，也包含在第四分词结果中，可以将该词条在第一语言模型上的序列指标与其在第二语言模型上的序列指标进行线性插值，得到该词条插值后的序列指标。

在另一个可选的实施例中，当词条集合中的任一词条仅包含在第三分词结果或仅包含在第四分词结果中，可以将仅包含在第三分词结果中的词条在第二语言模型上的序列指标设置为0；相应的，将仅包含在第死分词结果中的词条在第一语言模型上的序列指标设置为0。

具体的，将上述词条集合中各个词条插值后的序列指标作为在第一语言模型上或在第二语言模型上的序列指标，就可以形成目标语言模型。

在一个具体的实施例中，一个词条在一个语言模型上的序列指标，即结合该语言模型计算出的该词条的是否合理的概率(也即该词条出现的可能性大小)。

在一个具体的实施例中，假设词条A在第一语言模型上的序列指标为p_α(A)，在第二语言模型上的序列指标为p_β(A)，插值后的序列指标可以为k*p_α(A)+(1-k)*p_β(A)，其中,k为插值系数，可以结合实际场景的需求进行进行调整，例如为0.5。

此外，在实际应用中，可以结合第三分词结果和第四分词结果训练更多的语言模型，以实现从更多角度训练出语言模型，提升了语言模型的性能。

本说明书实施例，通过多种角度分词处理后的分词处理结果构建语言模型，并对构建好的语言模型进行插值运行，生成性能更好的语言模型，且可以通过插值系数的调整，可将语言模型适用于各种不同场景，大大提升了模型训练的效率。

图7是根据一示例性实施例示出的一种语料数据处理装置框图。参照图7，该装置包括：

语料数据获取模块710，被配置为执行获取语料数据；

第一分词模块模块720，被配置为执行基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息；

扩展处理模块730，被配置为执行利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果；

第二分词模块模块740，被配置为执行基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果。

可选的，所述扩展处理模块包括：

可选的，所述第二分词处理模块包括：

可选的，所述装置还包括：

可选的，所述第一语言模型训练模块包括：

所述第二语言模型训练模块包括：

可选的，所述第一语言模型训练模块还包括：

所述第二语言模型训练模块还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于语料数据处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图8所示。该电子设备包括通过***总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语料数据处理方法或语音识别方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的语料数据处理方法。

在示例性实施例中，还提供了一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的语料数据处理方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的语料数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语料数据处理方法，其特征在于，包括：

获取语料数据；

2.根据权利要求1所述的语料数据处理方法，其特征在于，所述利用所述第一分词结果对应的词性信息对所述第一分词结果进行扩展处理，得到第二分词结果包括：

3.根据权利要求2所述的语料数据处理方法，其特征在于，所述预设词性信息包括多个预设词性；所述基于所述待扩展分词结果和所述扩展词进行语料扩展，得到目标扩展分词结果包括：

4.根据权利要求1所述的语料数据处理方法，其特征在于，所述语料数据包括多个句子，所述基于词性标注对所述语料数据进行分词处理，得到第一分词结果和所述第一分词结果对应的词性信息包括：

5.根据权利要求1所述的语料数据处理方法，其特征在于，所述基于词典分词算法对所述第二分词结果中的词进行分词处理，得到第三分词结果包括：

6.根据权利要求1至5任一所述的语料数据处理方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的语料数据处理方法，其特征在于，所述方法还包括：

根据所述第三分词结果和所述第四分词结果生成词条集合；

8.一种语料数据处理装置，其特征在于，包括：

语料数据获取模块，被配置为执行获取语料数据；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的语料数据处理方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的语料数据处理方法。