CN109213996A

CN109213996A - 一种语料库的训练方法及***

Info

Publication number: CN109213996A
Application number: CN201810896693.5A
Authority: CN
Inventors: 刘翔鹏; 肖龙源; 李稀敏; ***; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2019-01-15

Abstract

本发明公开了一种语料库的训练方法及***，其通过网络爬虫获取文本语料，并对所述文本语料进行类型筛选；对筛选后的文本语料进行分词处理和分句处理；对分词分句后的文本语料进行拼音注音；将分词分句后的文本语料及其对应的拼音输入语言模型中进行训练，得到分类语料池或分类语料库；无需配置专用的录音室，无需大量人工花费大量时间进行语料录制，而是直接通过网络爬虫获取文本语料以及对文本语料进行分词分句处理和拼音注音处理等，即可训练得到所需的语料池或者语料库，成本更低，通用性更好。

Description

一种语料库的训练方法及***

技术领域

本发明涉及人工智能技术领域，特别是一种语料库的训练***及对应的方法。

背景技术

语音识别属于人工智能和机器学习任务的一种应用，其中，机器学习任务一般分为训练和预测两个过程：训练过程对已知样本进行总结归纳，形成模型；预测过程则利用该模型对未知样本进行预测。那么预测的结果将取决于模型的完善性和准确性。机器学习任务符合贝叶斯原则，贝叶斯公式如下:P(h|D)＝P(D|h)*p(h)/P(D)，其中D为样本集合，h为假设空间即模型，P(h|D)为在已出现D的情况出现h的条件概率也成为h的后验概率。贝叶斯公式的基本含义是观察到已知样本的情况下，使得模型的后验概率最大化。从上述公式可以看出如果P(D)越大，得到模型也越接近于真实情况，也就是说我们需要收集足够多的样本才能保证模型的完善性。其中的已知样本指语音样本即语料，多个语音样本的集合就构成语料库。根据上述机器学习理论原理，在采集质量一定的情况下，语料库数量与语音识别的准确率成正向关系。

为保证后期获取比较纯正的语音语料，现有语音语料库的采集通常采用如下方式：准备专用的录音室，招募数量庞大的志愿者进行语料录制并组建一批经过训练的工作人员用以采集、标注和后期的维护工作。进而导致数据采集的成本过高，进而导致语音语料的成本过高，限制了语音语料库的使用。

发明内容

本发明为解决上述问题，提供了一种语料库的训练方法及***，直接通过网络爬虫获取文本语料以及对文本语料进行分词分句处理和拼音注音处理等，即可训练得到所需的语料池或者语料库，成本更低，通用性更好。

为实现上述目的，本发明采用的技术方案为：

一种语料库的训练方法，其包括以下步骤：

a.通过网络爬虫获取文本语料，并对所述文本语料进行类型筛选；

b.对筛选后的文本语料进行分词处理和分句处理；

c.对分词分句后的文本语料进行拼音注音；

d.将分词分句后的文本语料及其对应的拼音输入语言模型中进行训练，得到分类语料池或分类语料库。

优选的，所述的步骤a中，所述获取的文本语料包括问答型语料和提示型语料；并且，进一步对爬取下来的文本语料按照题材类型进行分类和筛选；所述题材类型包括财经、体育、医美、健康、教育，并去除有歧义的、敏感题材的其他语料。

优选的，所述的步骤b中，对筛选后的文本语料进行分词处理，是采用IKAnalyzer分词器、ICTCLAS分词算法、Ansj中文分词或结巴分词的方法进行分词。

优选的，所述的步骤b中，对筛选后的文本语料进行分句处理，是根据标点符号对所述文本语料进行句子划分；并进一步判断划分后的句子的长度，若句子太长，则对句子进一步划分；若句子太短，则将该句子与上一句和/或下一句进行拼接处理。

进一步的，所述根据标点符号对所述文本语料进行句子划分，是先以句号、感叹号、问号对所述文本语料进行一级分句处理；若一级分句处理后的句子太长，则进一步以分号、逗号进行二级分句处理；若二级分句处理后的句子太短，则将逗号隔开的上一句和下一句进行拼接处理；若一级分句处理后的句子太短，则将该句子与上一句和/或下一句进行拼接处理。

优选的，所述的步骤c中，对分词分句后的文本语料进行拼音注音，是采用三音子注音；所述的步骤d中，所述的语言模型是采用三音子声学模型。

进一步的，所述三音子注音是采用:(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)……以此类推。

进一步的，所述的步骤d中，训练得到的分类语料池或分类语料库中，每个不包含声调的音节的出现次数为20次以上，每个三音子的出现次数为3次以上。

优选的，还包括语料库合成步骤，用于将各个分类语料池或分类语料库导入总语料库中。

对应的，本发明还提供一种语料库的训练***，其包括：

语料采集模块，其通过网络爬虫获取文本语料，并对所述文本语料进行类型筛选；

分词分句模块，用于对筛选后的文本语料进行分词处理和分句处理；

拼音注音模块，用于对分词分句后的文本语料进行拼音注音；

语料池训练模块，用于将分词分句后的文本语料及其对应的拼音输入语言模型中进行训练，得到分类语料池或分类语料库。

本发明的有益效果是：

(1)本发明通过网络爬虫获取文本语料以及对文本语料进行分词分句处理和拼音注音处理等，即可训练得到所需的语料池或者语料库，成本更低，通用性更好；

(2)本发明的语料采集和训练过程中，输入和输出都是文本语料，无需录音，使用更方便；

(3)本发明的输入语料池的训练数据是爬虫爬来的，比如针对不同主题、自由说或者不同题材的问答，都可以自定义添加，或者从豆瓣、知乎、微博等各个网站上爬下来，或者采用在线客服里面的一些聊天记录的文本，语料更丰富，适用范围更广，不仅能够用来做语音识别和语音合成的训练数据，也可以做声纹识别的训练数据；

(4)本发明对文本语料进行分词分句处理时，还进一步判断划分后的句子的长度，若太长则进一步划分，若太短则重新拼接，从而控制句子的长度，使得训练结果更准确；

(5)本发明将总语料库根据题材分类，对每个题材类型分别生成最小集合语料池，可根据需要进行灵活选用，使用更方便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种语料库的训练方法的流程示意图；

图2为本发明一种语料库的训练***的框架结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种语料库的训练方法，其包括以下步骤：

b.对筛选后的文本语料进行分词处理和分句处理；

c.对分词分句后的文本语料进行拼音注音；

所述的步骤a中，所述获取的文本语料包括问答型语料和提示型语料；并且，进一步对爬取下来的文本语料按照题材类型进行分类和筛选；所述题材类型包括财经、体育、医美、健康、教育，并去除有歧义的、敏感题材的其他语料。本实施例中，所述文本语料分为问答型语料和提示型语料，语料来源于互联网，可以是从豆瓣、知乎、微博或在线客服产品的聊天记录等通过网络爬虫获取。并且，还进一步对爬取下来的文本语料做清洗、分类，分类方式可针对题材类型对语料数据进行筛选，对于很多有歧义的、敏感的语料需要人工来对这部分语料进行去除。

所述的步骤b中，对筛选后的文本语料进行分词处理，是采用IKAnalyzer分词器、ICTCLAS分词算法、Ansj中文分词或结巴分词的方法进行分词。本实施例中，对筛选后的文本语料进行分句处理，是根据标点符号对所述文本语料进行句子划分；并进一步判断划分后的句子的长度，若句子太长，则对句子进一步划分；若句子太短，则将该句子与上一句和/或下一句进行拼接处理。具体的，所述根据标点符号对所述文本语料进行句子划分，是先以句号、感叹号、问号对所述文本语料进行一级分句处理；若一级分句处理后的句子太长，则进一步以分号、逗号进行二级分句处理；若二级分句处理后的句子太短，则将逗号隔开的上一句和下一句进行拼接处理；若一级分句处理后的句子太短，则将该句子与上一句和/或下一句进行拼接处理。

所述的步骤c中，对分词分句后的文本语料进行拼音注音，是采用三音子注音；所述的步骤d中，所述的语言模型是采用三音子声学模型。进一步的，所述三音子注音是采用(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)……以此类推。三音子总的有两万多种，常出现的有3000多种。比如“我在开会”的拼音是“wo zai kai hui”，三音字就是(w-o+z)(o-z+ai)(z-ai+k)...

所述的步骤d中，训练得到的分类语料池或分类语料库中，一般不包含声调的音节有400多个，每个不包含声调的音节的出现次数为20次以上，每个三音子的出现次数为3次以上。最终训练得到的分类语料池能够包含所有音节和3000多个音子。

本实施例中，还包括语料库合成步骤，用于将各个分类语料池或分类语料库导入总语料库中。并且，总语料库可不断添加更新新的分类和文本语料，分类语料池或分类语料库也将从总语料库中重新筛选和定时更新它的文本语料，以丰富语料语法结构的多样性。

本发明的语料库，不仅能够用来做语音识别和语音合成的训练数据，也可以做声纹识别的训练数据；本实施例以语音识别为例，对训练后的上述的文本的语料库进行进一步的语音训练；具体的，所述语音训练中语音采集方法可采用以下任一种：

1、自由录制：基于语料库的主题，给定一个主题，让说话人自由说，采集说话人的语音，说话时长在60s-120s，然后录音用于语音识别；

2、问答型语料：针对不同题材的语料库，以问答的形式采集语音，题材类型可包括财经、体育、医美等，根据不同的类型设置题设问句，说话人根据问题进行说话，说话时长在30s-60s，然后录音用于语音识别；

3、文本提示型语料：给出具体文本，让说话人照着念，然后录音用于语音识别。

最终可获得跟题材相关的语音数据，方便为针对垂直领域的语音识别、语音合成提供更优数据集。

本实施例的语音训练阶段的语音采集，主要是采用多信道语音采集***，其包括两个以上的用户端，所述用户端与服务端采用B/S架构部署，服务端为用户端提供登录界面，所述两个以上的用户端通过所述登录界面登录服务端；所述两个以上的用户端的其中之一创建录音任务；所述两个以上的用户端根据所述录音任务进入同一语音录制房间；控制所述两个以上的用户端执行语音录制；从而使得多个用户端同时进行语音录制，实现多信道语音采集；并且，本发明直接多个信道一起录制，不需要模拟信道，所以没有后处理，成本较低，并且方便简洁。

所述B/S结构(Browser/Server，浏览器/服务器模式)，是WEB兴起后的一种网络结构模式，WEB浏览器是用户端最主要的应用软件，这种模式统一了用户端，将***功能实现的核心部分集中到服务器上，简化了***的开发、维护和使用。客户机上只要安装一个浏览器，如Netscape Navigator或Internet Explorer，服务器安装SQL Server、Oracle、MYSQL等数据库。浏览器通过Web Server同数据库进行数据交互，用户端通过浏览器登录服务端提供的登录界面。

所述用户端包括电脑PC端、安卓移动端、ios移动端，并且，所述电脑PC端、安卓移动端及ios移动端分别安装有web浏览器；通过在所述电脑PC端上创建录音任务，所述安卓移动端和所述ios移动端根据所述录音任务与所述电脑PC端进入同一语音录制房间。例如，所述电脑PC端根据所述录音任务生成二维码，所述安卓移动端和所述ios移动端通过扫描所述二维码与所述电脑PC端进入同一语音录制房间。并进一步在所述语音录制房间显示各个用户端的连接状态。例如，所述电脑PC端上创建录音任务，自动默认为所述电脑PC端为在线状态，所述安卓移动端和所述ios移动端此时为离线状态；所述安卓移动端和所述ios移动端通过扫描所述二维码后，连接状态由离线状态切换为在线状态。各个用户端全部为在线状态后，即可启动语音录制。最后，通过websocket技术由所述电脑PC端同时统一控制所述的电脑PC端、安卓移动端及ios移动端进行语音录制；使用方便快捷。

如图2所示，本发明还提供一种语料库的训练***，其包括：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见***实施例的部分说明即可。

并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种语料库的训练方法，其特征在于，包括以下步骤：

b.对筛选后的文本语料进行分词处理和分句处理；

c.对分词分句后的文本语料进行拼音注音；

2.根据权利要求1所述的一种语料库的训练方法，其特征在于：所述的步骤a中，所述获取的文本语料包括问答型语料和提示型语料；并且，进一步对爬取下来的文本语料按照题材类型进行分类和筛选；所述题材类型包括财经、体育、医美、健康、教育，并去除有歧义的、敏感题材的其他语料。

3.根据权利要求1所述的一种语料库的训练方法，其特征在于：所述的步骤b中，对筛选后的文本语料进行分词处理，是采用IKAnalyzer分词器、ICTCLAS分词算法、Ansj中文分词或结巴分词的方法进行分词。

4.根据权利要求1所述的一种语料库的训练方法，其特征在于：所述的步骤b中，对筛选后的文本语料进行分句处理，是根据标点符号对所述文本语料进行句子划分；并进一步判断划分后的句子的长度，若句子太长，则对句子进一步划分；若句子太短，则将该句子与上一句和/或下一句进行拼接处理。

5.根据权利要求4所述的一种语料库的训练方法，其特征在于：所述根据标点符号对所述文本语料进行句子划分，是先以句号、感叹号、问号对所述文本语料进行一级分句处理；若一级分句处理后的句子太长，则进一步以分号、逗号进行二级分句处理；若二级分句处理后的句子太短，则将逗号隔开的上一句和下一句进行拼接处理；若一级分句处理后的句子太短，则将该句子与上一句和/或下一句进行拼接处理。

6.根据权利要求1所述的一种语料库的训练方法，其特征在于：所述的步骤c中，对分词分句后的文本语料进行拼音注音，是采用三音子注音；所述的步骤d中，所述的语言模型是采用三音子声学模型。

7.根据权利要求6所述的一种语料库的训练方法，其特征在于：所述三音子注音是采用:(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)(声母-韵母+下一个音节的声母)(上一个韵母-声母+韵母)……以此类推。

8.根据权利要求6所述的一种语料库的训练方法，其特征在于：所述的步骤d中，训练得到的分类语料池或分类语料库中，每个不包含声调的音节的出现次数为20次以上，每个三音子的出现次数为3次以上。

9.根据权利要求1至8任一项所述的一种语料库的训练方法，其特征在于：还包括语料库合成步骤，用于将各个分类语料池或分类语料库导入总语料库中。

10.一种语料库的训练***，其特征在于，包括：