CN115547333A - 语言识别模型的生成方法、生成装置、***、设备及介质 - Google Patents
语言识别模型的生成方法、生成装置、***、设备及介质 Download PDFInfo
- Publication number
- CN115547333A CN115547333A CN202211216345.1A CN202211216345A CN115547333A CN 115547333 A CN115547333 A CN 115547333A CN 202211216345 A CN202211216345 A CN 202211216345A CN 115547333 A CN115547333 A CN 115547333A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- vertical domain
- generating
- target vertical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012937 correction Methods 0.000 claims description 37
- 238000013499 data model Methods 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种语言识别模型的生成方法、生成装置、***、设备及介质。方法包括:根据第一文本语料,生成第一基础模型;确定第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;将文本数量最大的预设数量个垂域类别确定为目标垂域类别;针对每一目标垂域类别,根据目标垂域类别对应的标注文本,生成目标垂域类别对应的目标垂域类别模型;根据第一基础模型和每一目标垂域类别模型,生成语言识别模型。如此,可以实现快速迭代和更新的目的,提高语言识别模型迭代和更新的效率,进而提升语音识别***对用户语音识别的精准度。
Description
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语言识别模型的生成方法、生成装置、***、设备及介质。
背景技术
语音识别技术是一种将人类语音转换为计算机可读输入的技术。语音识别技术在语音拨号、语音导航、自动设备控制等领域都有广泛的应用。目前,多是通过语音识别***将人类语音转换为文本。示例地,语音识别***多是使用语言识别模型和声学模型的方式,语言识别模型为用来计算一个句子的概率的模型,也就是判断一句话是否符合人类语言的概率。随着统计学模型的发展,语音识别***中的语言识别模型多为N-gram语言识别模型。
发明内容
为克服相关技术中存在的问题,本公开提供一种语言识别模型的生成方法、生成装置、***、设备及介质。
根据本公开实施例的第一方面,提供一种语言识别模型的生成方法,包括:
根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
可选地,根据第一文本语料,生成第一基础模型,包括:
根据所述第一文本语料,生成线上数据模型;以及
在所述第一文本语料中确定识别错误的用户语音对应的标注文本,并根据所述识别错误的用户语音对应的标注文本,生成第一纠错模型;
根据所述线上数据模型和所述第一纠错模型,生成第一基础模型。
可选地,所述根据第一文本语料,生成第一基础模型,还包括:
确定所述第一文本语料中每一标注文本的句式,并将出现次数大于预设阈值的句式确定为目标句式;
获取用户按照所述目标句式构造的第二文本语料,并根据所述第二文本语料,生成新增数据模型;
所述根据所述线上数据模型和所述第一纠错模型,生成第一基础模型,包括:
将所述线上数据模型、所述第一纠错模型和所述新增数据模型进行插值合并,生成第一基础模型。
可选地,所述方法还包括:
根据除所述目标垂域类别之外的其他垂域类别对应的标注文本,生成多垂域类别模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成所述语言识别模型,包括:
根据所述第一基础模型和所述多垂域类别模型,生成第二基础模型;
根据所述第二基础模型和每一所述目标垂域类别模型,生成语言识别模型。
可选地,所述方法还包括:
获取预设时段内的热点资源文本,并根据所述热点资源文本,生成资源模型;以及
获取当前时段内识别错误的用户语音对应的标注文本,并根据所述当前时段内识别错误的用户语音对应的标注文本,生成第二纠错模型;
将所述资源模型和所述第二纠错模型进行插值合并,生成动态模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型,包括:
根据所述第一基础模型、每一所述目标垂域类别模型和所述动态模型,生成语言识别模型。
可选地,所述动态模型的更新频率大于所述第二基础模型的更新频率。
可选地,所述方法还包括:
获取用户输入的与需求业务相关的需求文本语料,并根据所述需求文本语料,生成业务需求模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型,包括:
根据所述第一基础模型、每一所述目标垂域类别模型和所述业务需求模型,生成语言识别模型。
根据本公开实施例的第二方面,提供一种语言识别模型的生成装置,包括:
第一生成模块,被配置为根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
第一确定模块,被配置为确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
第二确定模块,被配置为将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
第二生成模块,被配置为针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
第三生成模块,被配置为根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
根据本公开实施例的第三方面,提供一种语音识别***,所述语音识别***包括特征提取模型、声学模型、语言识别模型、语音解码和搜索模型,其中,所述语言识别模型是根据本公开第一方面所述的方法生成的。
根据本公开实施例的第四方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
首先,利用第一文本语料,生成第一基础模型,接着,确定第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量,并将文本数量最大的预设数量个垂域类别确定为目标垂域类别,针对每一目标垂域类别,根据目标垂域类别对应的标注文本,生成目标垂域类别对应的目标垂域类别模型,最后,根据第一基础模型和目标垂域类别模型,生成语言识别模型。这样,利用多层模型叠加来生成语言识别模型,在后续更新语言识别模型时,仅需更新第一基础模型和目标垂域类别模型即可实现对语言识别模型的更新,如此,可以实现快速迭代和更新的目的,提高语言识别模型迭代和更新的效率,进而提升语音识别***对用户语音识别的精准度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语音识别***的示意图。
图2是根据一示例性实施例示出的一种语言识别模型的生成方法的流程图。
图3是根据一示例性实施例示出的一种语言识别模型的示意图。
图4是根据一示例性实施例示出的一种语言识别模型的生成装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本申请中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
在语音识别***中,相对于声学模型,语言识别模型能够在较短的时间内扩大模型的泛化能力。因此,为了提高语音识别***对用户语音识别精准度,需提高语言识别模型迭代或更新的效率。
有鉴于此,本公开提供一种语言识别模型的生成方法、生成装置、***、设备及介质,以提高语言识别模型迭代或更新的效率,从而提高语音识别***的识别精准度。
首先,对语音识别***进行说明。
通常语音识别***可以包括特征提取模型、声学模型、语言识别模型、语音解码和搜索模型这四部分。图1是根据一示例性实施例示出的一种语音识别***的示意图。如图1所示,首先,将用户语音输入至特征提取模型进行特征,将用户语音信号从时域转换到频域,为声学模型提供合适的特征向量。接着,将该特征向量输入声学模型中,声学模型根据声学特性计算每一个特征向量在声学特征上的得分。语言识别模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率,最后根据已有的字典、声学模型计算的每一个特征向量在声学特征上的得分和语言识别模型计算的可能词组序列的概率,利用语音解码和搜索算法,得到最后可能的文本。
如图1所示,声学模型的训练过程如下:首先,对语音数据库中的语音样本进行特征提取,利用特征提取结果对声学模型训练,得到训练后的声学模型。类似地,语言识别模型的训练过程如下:利用文本数据库中的文本样本对语言识别模型进行训练,得到训练后的语言识别模型。
此外,为了使特征提取模型能够提取到有效的特征,可以对所采集的声音信号进行滤波、分帧等音频数据的预处理,将需要分析的音频信号从原始音频信号中提取出来,之后,再利用特征提取模型对需要分析的音频信号进行特征提取。
图2是根据一示例性实施例示出的一种语言识别模型的生成方法的流程图,该语言识别模型应用于如图1所示的语音识别***中。如图2所示,该方法可以包括以下步骤。
在步骤S21中,根据第一文本语料,生成第一基础模型。其中,第一文本语料是预先收集的用户语音对应的标注文本。
应当理解的是,在已存在语言识别模型但需要生成新的语言识别模型的情况下,该第一文本语料可以是已存在的语言识别模型所在的语音识别***对应的用户语音对应的标注文本。示例地,可以是语音识别***历史输入的用户语音对应的标注文本。本公开对此不做具体限定。
在本公开中,第一基础模型可以为N-gram模型。第一文本语料可以是在预设时间段内用户与语音识别***对话的用户语音的标注文本,还可以是用户语音的标注文本和每一用户语音的在该预设时间段内出现的次数,等等。因此,利用第一文本语料所生成的第一基础模型能够贴合用户真实请求,从而确保语言识别模型能够识别出大部分的用户语音。
在步骤S22中,确定第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量。
在实际应用中,语音识别***应用在不同场景下,其对应的线上用户语音所属类别不同。示例地,若语音识别***应用到飞机票预定场景下,其线上用户语音所属类别通常为航班班次查询类别、航班价格查询类别、机票改签类别等。若语音识别***应用到休闲娱乐场景下,比如,具有语音识别***的智能音响,该线上用户语音所属类别通常为音乐类别、影视类别、有声电台类别、诗歌类别、百科类别、闲聊类别等等。因此,在本公开中,还可以针对不同垂域类别文本生成不同的模型,以实现快速定位识别异常问题得目的。
在步骤S23中,将文本数量最大的预设数量个垂域类别确定为目标垂域类别。
在步骤S24中,针对每一目标垂域类别,根据目标垂域类别对应的标注文本,生成目标垂域类别对应的目标垂域类别模型。
考虑到通常语音识别***对应的线上用户语音所属类别较多,若针对每一类别均生成一模型,则会增加生成语言识别模型的工作量,并且,针对使用频率较高的类别的文本,语音识别***出现识别错误的概率较高,因此,在本公开中,仅对语音识别***对应的常用垂域类别单独生成模型。
示例地,对第一文本语料进行数据分析,可以确定出每一标注文本所属的垂域类别,并分别确定每一垂域类别对应为文本数量,之后,按照文本数量大小对垂域类别进行排序得到排序列表,并将排序列表中的前N个垂域类别确定为目标垂域类别,针对每一目标垂域类别,根据目标垂域类别对应的标注文本,生成目标垂域类别对应的目标垂域类别模型。
例如,对第一文本语料进行数据分析,确定文本数量最大的三个垂域类别分别为音乐类别、影视类别和有声电台类别,即,音乐类别、影视类别和有声电台类别均为目标垂域类别。将属于音乐类别的标注文本作为音乐类别模型的训练样本进行训练,生成音乐类别模型,将属于影视类别的标注文本作为影视类别模型的训练样本进行训练,生成影视类别模型,以及,将属于有声电台类别的标注文本作为有声电台类别模型的训练样本进行训练,生成有声电台类别模型。
在步骤S25中,根据第一基础模型和每一目标垂域类别模型,生成语言识别模型。
示例地,对第一基础模型和每一目标垂域类别模型进行插值合并,生成语言识别模型。
应当理解的是,语音识别***每天接收到超亿次的用户请求,为了确保语音识别***的识别准确度,需要频繁对语音识别***进行更新,即,需要对语言识别模型进行更新。在本公开中,当需要对语言识别模型进行更新时,首先,统计在一段时间内用户在该语音识别***中输入的用户语音以及每一用户语音的次数,之后,获取每一用户语音对应的标注文本,并将用户语音对应的标注文本和用户语音的次数,确定为用于更新第一基础模型和目标垂域类别模型的第一文本语料,并利用第一文本语料对第一基础模型和目标垂域类别模型进行更新,得到新的第一基础模型和目标垂域类别模型。
采用上述技术方案,利用第一文本语料,生成第一基础模型,接着,确定第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量,并将文本数量最大的预设数量个垂域类别确定为目标垂域类别,针对每一目标垂域类别,根据目标垂域类别对应的标注文本,生成目标垂域类别对应的目标垂域类别模型,最后,根据第一基础模型和目标垂域类别模型,生成语言识别模型。这样,利用多层模型叠加来生成语言识别模型,在后续更新语言识别模型时,仅需更新第一基础模型和目标垂域类别模型即可实现对语言识别模型的更新,如此,可以实现快速迭代和更新的目的,提高语言识别模型迭代和更新的效率,进而提升语音识别***对用户语音识别的精准度。
此外,针对非目标垂域类别对应的其他垂域类别,由于不是常用的类别,使用频率较低,即,出现识别错误的概率较低,因此,可以针对其他垂域类别的标注文本生成一个模型,即,多垂域类别模型,以简化语言识别模型的结构。在一种实施例中,该方法还可以包括:根据除所述目标垂域类别之外的其他垂域类别对应的标注文本,生成多垂域类别模型,相应地,上述步骤S25根据第一基础模型和目标垂域类别模型,生成语言识别模型,包括:根据第一基础模型和多垂域类别模型,生成第二基础模型;根据第二基础模型和目标垂域类别模型,生成语言识别模型。
示例地,将除目标垂域类别之外的其他垂域类别对应的标注文本作为多垂域类别模型的训练样本进行训练,得到语言识别模型的多垂域类别模型。例如,将诗歌、百科、闲聊的垂域类别对应的标注文本作为训练样本,训练得到多垂域类别模型。其中,该多垂域模型可以为N-gram模型。
在得到多垂域类别模型之后,根据第一基础模型和该多垂域类别模型,生成第二基础模型。示例地,对第一基础模型和多垂域类别模型进行插值合并,得到语言识别模型的第二基础模型。其中,多垂域类别模型能够增加模型泛化能力,因此,根据第一基础模型和多垂域类别模型确定的第二基础模型能够确保语言识别模型识别出大部分的用户语音的基础上具有较好的泛化能力。
应当理解的是,其他垂域类别对应的文本数量较少,文本较杂,利用这生成第二基础模型,部分文本训练的多垂域类别模型,能够对目标垂域类别模型进行补充,提高了语言识别模型的泛化能力。
采用上述技术方案,针对使用频率较高的目标垂域类别的文本进行单独建模,针对使用频率较低的其他垂域类别的文本生成多垂域类别模型,如此,一方面,使得语言识别模型能够覆盖全域文本,提高语言识别模型识别准确率,另一方面,还能实现快速定位识别异常问题的目的。
在一种实施例中,图2中步骤S21根据第一文本语料,生成第一基础模型可以包括以下步骤。
(1)根据第一文本语料,生成线上数据模型。
由于第一文本语料为在预设时间段内用户与语音识别***对话的用户语音的标注文本,因此,利用待第一文本语料生成的线上数据模型能够完全符合用户请求的正态分布,可以覆盖大部分用户请求。
(2)在第一文本语料中确定识别错误的用户语音对应的标注文本,并根据识别错误的用户语音对应的标注文本,生成第一纠错模型。
在实际应用中,语音识别***中通常会出现识别错误的用户语句,为了提高语音识别***的识别精度,在该实施例中,语言识别模型还可以包括第一纠错模型,用于对历史识别错误的用户语句进行修正。
示例地,根据用户上报的语音识别***识别错误的语音对应的标注文本,在第一文本语料中确定识别错误的用户语音对应的标注文本。例如,用户语音为“雨林类型”,语音识别***回复的是关于“鱼鳞”的相关内容,如此,用户可以上报语音识别***识别错误的用户语音为“雨林类型”。又示例地,当语音识别***未准确识别出用户语音时,用户会再次输出与该用户语音相关的另一语音,因此,语音识别***可以根据输入的下一句语音确定是否准确识别用户语音。例如,用户语音为“雨林类型”,语音识别***回复的是关于“鱼鳞”的内容,通常,用户会再次输入用户语音“气候雨林的类型”,如此,语音识别***在接收到与用户语音“雨林类型”相关的另一用户语音“气候雨林的类型”时,确定该语音识别***未能准确识别用户语音“雨林类型”,进而将用户语音“雨林类型”确定为识别错误的用户语音。
(3)根据线上数据模型和第一纠错模型,生成第一基础模型。
示例地,将线上数据模型和第一纠错模型进行插值合并,得到语言识别模型的第一基础模型。
如此,利用线上数据模型和第一纠错模型,得到语言识别模型的第一基础模型,一方面使得所生成的语言识别模型包括更多层次的模型,利用多层模型中上层模型可以快速迭代和更新的特点,提高语言识别模型迭代和更新的效率,另一方面,利用第一纠错模型对一定时间积累的识别错误的用户数据进行纠正,进一步提高了语言识别模型的识别精度。
此外,考虑到在用户与语音识别***对话的用户语音的数量较少的情况下,用户语句所属的场景较为单一,若仅利用用户与语音识别***对话的用户语音的标注文本生成语言识别模型,则会导致所生成的语言识别模型仅在某些场景下识别的精度较高,在其他场景下识别的精度较低,因此,在另一种实施例中,图2中步骤S21根据第一文本语料,生成第一基础模型还可以包括:确定第一文本语料中每一标注文本的句式,并将出现次数大于预设阈值的句式确定为目标句式;获取用户按照目标句式构造的第二文本语料,并根据第二文本语料,生成新增数据模型。
为了丰富文本语料补全用户语音所属的场景,可以利用线上使用频率较高的句式进行造句。示例地,设置预设阈值,并确定第一文本语料中每一标注文本的句式,将出现次数大于该预设阈值的句式确定为目标句式,即,确定为线上使用频率较高的句式。之后,输出该目标句式,便于用户根据该目标句式构造第二文本语料,并利用该第二文本语料训练得到新增数据模型。
相应地,根据线上数据模型和第一纠错模型,生成第一基础模型可以包括:将线上数据模型、第一纠错模型和新增数据模型进行插值合并,生成第一基础模型。
采用上述技术方案,由线上数据模型、第一纠错模型和新增数据模型插值合并得到语言识别模型的第一基础模型,使得第一基础模型能够覆盖更大的场景范围,提高了第一基础模型的泛化能力,进而提高了语言识别模型的泛化能力。
此外,考虑到在实际应用中,通常会出现突发的高热资源文本,其中,该高热资源文本可以为最近一段时间较为热门的影视资源文本、音乐资源文本或者新闻资源文本等,为了确保语音识别***能够识别出用户针对这些高热资源的请求,在一种实施例中,该方法还可以包括:获取预设时段内的热点资源文本,并根据热点资源文本,生成资源模型。
在本公开中,预设时段内的热点资源文本可以包括用户已在该语音识别***中请求的线上用户语音对应的文本,和/或,用户提报的还未在语音识别***中请求的线下用户语音对应的文本。本公开对此不作具体限定。应当理解的是,语音识别***应用在不同的业务下,其对应的热点资源也不同。例如,针对智能音箱中的语音识别***,其对应的热点资源文本通常为最近一段时间较为热门的影视资源文本、音乐资源文本或者新闻资源文本等。
此外,应当理解的是,语言识别模型作为语音识别***中的核心模型,它可以快速迭代,在最短时间内提升模型的泛化能力,但是迭代的稳定性也是生成语言识别模型时需考虑的因素,因此,在生成语言识别模型时需要一个稳定的模型结构,来确保语言识别模型迭代的稳定性。第二基础模型在这个语言识别模型中权重较大,为了确保语言识别模型的稳定性,通常第二基础模型的更新周期较长、更新频率较小。因此,第一纠错模型的更新周期较长。
然而,为了确保语音识别***的识别准确度,通常针对语音识别错误的问题需要频繁更新,以纠正语音识别***的识别错误,因此,在一种实施例,该方法还可以包括:获取当前时段内识别错误的用户语音对应的标注文本,并并根据当前时段内识别错误的用户语音对应的标注文本,生成第二纠错模型。示例地,若第二纠错模型的更新周期为一天,则获取的是当天识别错误的语音对应的文本语料。例如,在第T+1天生成第二纠错模型时获取的是第T天识别错误的用户语音对应的标注文本。
由于资源模型和第二纠错模型需要频繁更新,因此,可以根据资源模型和第二纠错模型得到语言识别模型的动态模型,其中,该动态模型是指需要频繁更新的模型。示例地,将资源模型和第二纠错模型进行插值合并,生成动态模型。其中,动态模型的更新频率大于第二基础模型的更新频率。如此,可以确保语言识别模型的稳定性。
相应地,图2中步骤S25根据第一基础模型和目标垂域类别模型,生成语言识别模型的具体实施方式为:根据第一基础模型、每一目标垂域类别模型和动态模型,生成语言识别模型。
采用上述技术方案,利用热点资源文本生成资源模型,以及,利用的当前时段内识别错误的语音对应的标注文本生成第二纠错模型,并基于资源模型和第二纠错模型得到动态模型,如此,使语言识别模型能够识别出高热资源文本,进一步提升语言识别模型的泛化能力,并且,还能够快速修复语音识别错误的问题,进一步提升语音识别***的识别准确度。
此外,随着技术发展,语音识别***的业务也在不同扩展,为了使语音识别***满足新增业务需求,在一种实施例中,该语言识别模型还可以包括业务需求模型,该业务需求模型用于对需求文本进行覆盖。示例地,该方法还可以包括:获取用户输入的与需求业务相关的需求文本语料,并根据需求文本语料,生成业务需求模型。示例地,假设新增业务为利用语音识别***控制空调工作,则需求文本语料即为用于控制空调工作的相关文本语料。
相应地,图2中步骤S25根据第一基础模型和目标垂域类别模型,生成语言识别模型的具体实施方式为:根据第一基础模型、每一目标垂域类别模型和业务需求模型,生成语言识别模型。
采用上述技术方案,需要增加语音识别***的业务时,可以利用业务需求模型使语言识别模型快速学习到新增业务对应的文本,进而使语音识别***能够识别出该业务对应的请求,满足用户需求。
示例地,图3是根据一示例性实施例示出的一种语言识别模型的示意图。如图3所示,首先,对线上数据模型、第一纠错模型和新增数据模型进行插值合并得到第一基础模型,以及,将资源模型和第二纠错模型进行插值合并得到动态模型,接着,对第一基础模型和多垂域类别模型进行插值合并得到第二基础模型。最后,对第二基础模型、每一目标垂域类别模型、动态模型和业务需求模型进行插值合并得到语言识别模型。其中,在图3中,以目标垂域模型为音乐类别模型、影视类别模型和有声电台类别模型为例进行说明。即,如图3所示,对第二基础模型、音乐类别模型、影视类别模型、有声电台类别模型、动态模型和业务需求模型进行插值合并得到语言识别模型。
考虑到语音识别***中的声学模型、特征提取模型等出现错误时也会导致语音识别***出现语音识别错误的问题。因此,在迭代和更新语言识别模型之前,还可以确定语音识别***出现语音识别错误的原因是否为语言识别模型识别错误,若为语言识别模型识别错误,则确定需要迭代和更新语言识别模型,否则确定不需要迭代和更新语言识别模型。
示例地,确定是否需要迭代和更新语言识别模型的具体实施方式为:首先,在接收用户提报的识别错误的语音对应的错误文本(该错误文本为语音识别***识别出的文本)和该语音对应的标注文本,分别确定错误文本的困惑度和正确文本的困惑度;接着,若正确文本的困惑度小于错误文本的困惑度,则确定因声学模型不准确而导致语音识别***识别错误,进而无需迭代和更新语言识别模型,以及若正确文本的困惑度大于错误文本的困惑度,则确定需要迭代和更新语言识别模型。之后,在迭代和更新语言识别模型的训练样本即第一文本语料中,确定该错误文本是否存在于第一文本语料中,若存在则将第一文本语料中的错误文本改成正确文本,若不存在则将该正确文本添加至第一文本语料中。同时,还对语音识别***的词典进行查询,确定词典中的该错误文本对应的拼音是否准确,若不准确还可以对词典中的该错误文本对应的拼音进行改正。
如此,利用困惑度对比、训练文本索引、词典查询等方式建立问题修复工具,有效减少人工作业,多维度定位识别错误问题。
基于同一发明构思,本公开还提供一种语言识别模型的生成装置。图4是根据一示例性实施例示出的一种语言识别模型的生成装置的框图。如图4所示,所述语言识别模型的生成装置400可以包括:
第一生成模块401,被配置为根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
第一确定模块402,被配置为确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
第二确定模块403,被配置为将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
第二生成模块404,被配置为针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
第三生成模块405,被配置为根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
可选地,所述第一生成模块401包括:
第一生成子模块,被配置为根据所述第一文本语料,生成线上数据模型;以及
第二生成子模块,被配置为在所述第一文本语料中确定识别错误的用户语音对应的标注文本,并根据所述识别错误的用户语音对应的标注文本,生成第一纠错模型;
第三生成子模块,被配置为根据所述线上数据模型和所述第一纠错模型,生成第一基础模型。
可选地,所述第一生成模块401还包括:
第一确定子模块,被配置为确定所述第一文本语料中每一标注文本的句式,并将出现次数大于预设阈值的句式确定为目标句式;
第四生成子模块,被配置为获取用户按照所述目标句式构造的第二文本语料,并根据所述第二文本语料,生成新增数据模型;
所述第三生成子模块被配置为:将所述线上数据模型、所述第一纠错模型和所述新增数据模型进行插值合并,生成第一基础模型。
可选地,所述装置还包括:
第四生成模块,被配置为根据除所述目标垂域类别之外的其他垂域类别对应的标注文本,生成多垂域类别模型;
所述第三生成模块405被配置为:根据所述第一基础模型和所述多垂域类别模型,生成第二基础模型;根据所述第二基础模型和每一所述目标垂域类别模型,生成语言识别模型。
可选地,所述装置还包括:
第五生成模块,被配置为获取预设时段内的热点资源文本,并根据所述热点资源文本,生成资源模型;以及
第六生成模块,被配置为获取当前时段内识别错误的用户语音对应的标注文本,并根据所述当前时段内识别错误的用户语音对应的标注文本,生成第二纠错模型;
第七生成模块,被配置为将所述资源模型和所述第二纠错模型进行插值合并,生成动态模型;
所述第三生成模块405被配置为:根据所述第一基础模型、每一所述目标垂域类别模型和所述动态模型,生成语言识别模型。
可选地,所述动态模型的更新频率大于所述第二基础模型的更新频率。
可选地,所述装置还包括:
第八生成模块,被配置为获取用户输入的与需求业务相关的需求文本语料,并根据所述需求文本语料,生成业务需求模型;
所述第三生成模块405被配置为:根据所述第一基础模型、每一所述目标垂域类别模型和所述业务需求模型,生成语言识别模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语言识别模型的生成方法的步骤。
图5是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,电子设备500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出接口512,传感器组件514,以及通信组件516。
处理组件502通常控制电子设备500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在电子设备500的操作。这些数据的示例包括用于在电子设备500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件506为电子设备500的各种组件提供电力。电源组件506可以包括电源管理***,一个或多个电源,及其他与为电子设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述电子设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当电子设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当电子设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
输入/输出接口512为处理组件502和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为电子设备500提供各个方面的状态评估。例如,传感器组件514可以检测到电子设备500的打开/关闭状态,组件的相对定位,例如所述组件为电子设备500的显示器和小键盘,传感器组件514还可以检测电子设备500或电子设备500一个组件的位置改变,用户与电子设备500接触的存在或不存在,电子设备500方位或加速/减速和电子设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于电子设备500和其他设备之间有线或无线方式的通信。电子设备500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由电子设备500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种语言识别模型的生成方法,其特征在于,包括:
根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
2.根据权利要求1所述的方法,其特征在于,根据第一文本语料,生成第一基础模型,包括:
根据所述第一文本语料,生成线上数据模型;以及
在所述第一文本语料中确定识别错误的用户语音对应的标注文本,并根据所述识别错误的用户语音对应的标注文本,生成第一纠错模型;
根据所述线上数据模型和所述第一纠错模型,生成第一基础模型。
3.根据权利要求2所述的方法,其特征在于,所述根据第一文本语料,生成第一基础模型,还包括:
确定所述第一文本语料中每一标注文本的句式,并将出现次数大于预设阈值的句式确定为目标句式;
获取用户按照所述目标句式构造的第二文本语料,并根据所述第二文本语料,生成新增数据模型;
所述根据所述线上数据模型和所述第一纠错模型,生成第一基础模型,包括:
将所述线上数据模型、所述第一纠错模型和所述新增数据模型进行插值合并,生成第一基础模型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据除所述目标垂域类别之外的其他垂域类别对应的标注文本,生成多垂域类别模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成所述语言识别模型,包括:
根据所述第一基础模型和所述多垂域类别模型,生成第二基础模型;
根据所述第二基础模型和每一所述目标垂域类别模型,生成语言识别模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取预设时段内的热点资源文本,并根据所述热点资源文本,生成资源模型;以及
获取当前时段内识别错误的用户语音对应的标注文本,并根据所述当前时段内识别错误的用户语音对应的标注文本,生成第二纠错模型;
将所述资源模型和所述第二纠错模型进行插值合并,生成动态模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型,包括:
根据所述第一基础模型、每一所述目标垂域类别模型和所述动态模型,生成语言识别模型。
6.根据权利要求5所述的方法,其特征在于,所述动态模型的更新频率大于所述第二基础模型的更新频率。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户输入的与需求业务相关的需求文本语料,并根据所述需求文本语料,生成业务需求模型;
所述根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型,包括:
根据所述第一基础模型、每一所述目标垂域类别模型和所述业务需求模型,生成语言识别模型。
8.一种语言识别模型的生成装置,其特征在于,包括:
第一生成模块,被配置为根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
第一确定模块,被配置为确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
第二确定模块,被配置为将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
第二生成模块,被配置为针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
第三生成模块,被配置为根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
9.一种语音识别***,其特征在于,所述语音识别***包括特征提取模型、声学模型、语言识别模型、语音解码和搜索模型,其中,所述语言识别模型是根据权利要求1-7中任一项所述的方法生成的。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据第一文本语料,生成第一基础模型,其中,所述第一文本语料是预先收集的用户语音对应的标注文本;
确定所述第一文本语料中每一标注文本所属的垂域类别,并统计每一垂域类别对应的文本数量;
将文本数量最大的预设数量个垂域类别确定为目标垂域类别;
针对每一目标垂域类别,根据所述目标垂域类别对应的标注文本,生成所述目标垂域类别对应的目标垂域类别模型;
根据所述第一基础模型和每一所述目标垂域类别模型,生成语言识别模型。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216345.1A CN115547333A (zh) | 2022-09-30 | 2022-09-30 | 语言识别模型的生成方法、生成装置、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211216345.1A CN115547333A (zh) | 2022-09-30 | 2022-09-30 | 语言识别模型的生成方法、生成装置、***、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115547333A true CN115547333A (zh) | 2022-12-30 |
Family
ID=84730974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211216345.1A Pending CN115547333A (zh) | 2022-09-30 | 2022-09-30 | 语言识别模型的生成方法、生成装置、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115547333A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964498A (zh) * | 2023-03-08 | 2023-04-14 | 小米汽车科技有限公司 | 车载语义解析模型生成方法、装置、电子设备及存储介质 |
-
2022
- 2022-09-30 CN CN202211216345.1A patent/CN115547333A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964498A (zh) * | 2023-03-08 | 2023-04-14 | 小米汽车科技有限公司 | 车载语义解析模型生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580290B (zh) | 用于文本分类的训练集的优化方法及装置 | |
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN111368541B (zh) | 命名实体识别方法及装置 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN109255128B (zh) | 多层级标签的生成方法、装置和存储介质 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN111160448A (zh) | 一种图像分类模型的训练方法及装置 | |
CN111832315B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN110674246A (zh) | 问答模型训练方法、自动问答方法及装置 | |
CN111199730B (zh) | 语音识别方法、装置、终端及存储介质 | |
CN111209354A (zh) | 一种地图兴趣点判重的方法、装置及电子设备 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN115547333A (zh) | 语言识别模型的生成方法、生成装置、***、设备及介质 | |
CN113609380B (zh) | 标签体系更新方法、搜索方法、装置以及电子设备 | |
CN111832297A (zh) | 词性标注方法、装置及计算机可读存储介质 | |
CN112331194A (zh) | 一种输入方法、装置和电子设备 | |
CN114462410A (zh) | 实体识别方法、装置、终端及存储介质 | |
CN114154485A (zh) | 一种文本纠错方法和装置 | |
CN112579767B (zh) | 搜索处理方法、装置和用于搜索处理的装置 | |
CN110471538B (zh) | 一种输入预测方法及装置 | |
CN110147426B (zh) | 一种查询文本的分类标签确定方法及相关装置 | |
CN113589954A (zh) | 一种数据处理方法、装置和电子设备 | |
CN112612442A (zh) | 一种输入方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |