CN110364147A

CN110364147A - 一种唤醒训练词采集***及方法

Info

Publication number: CN110364147A
Application number: CN201910810723.0A
Authority: CN
Inventors: 鲁霖; 曾宗云
Original assignee: Xiamen Sixin Micro Technology Co Ltd
Current assignee: Xiamen Sixin Micro Technology Co Ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2019-10-22
Anticipated expiration: 2039-08-29
Also published as: CN110364147B

Abstract

本发明属于语音交换设备和技术领域，尤其涉及一种唤醒训练词采集***及方法，具体包括移动数据终端、云端存储设备和语音识别云端平台；移动数据终端对采集到的特定唤醒训练词语音数据进行初步判断；若初步判断有效，移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本；文本返回移动数据终端；移动数据终端将文本与特定唤醒训练词语音数据进行匹配；若判断特定有效，移动数据终端将特定唤醒词语音数据作为样本唤醒词。有益效果：通过开放性采集模式，克服现有唤醒训练词采集过程中存在采集不方便及语音质量不稳定等问题，不断强化唤醒词训练效果，提升***对唤醒词识别精度。

Description

一种唤醒训练词采集***及方法

技术领域

本发明属于语音交换设备和技术领域，尤其涉及一种唤醒训练词采集***及方法。

背景技术

随着人工智能和大数据技术发展，语音识别技术凭借成本与算法复杂程度低、算力强等优势，在车载***、机器人、家庭服务、银行、医疗、工业控制等领域得到越来越广泛的应用。

语音唤醒词是触发交互设备唤醒功能的语音口令，语音唤醒是指用户通过说出预设唤醒词实现设备从待机状态恢复到正常工作状态的过程。用户发出准确语音唤醒词是交互过程中关键环节之一。

语音唤醒技术中的唤醒训练词的采集对训练效果尤为重要，直接决定***对唤醒词识别的精确度。但现有技术方案中至少存在以下缺陷：

一是对具有方言及带有方言口音的普通话识别精度不高；

二是由于我国方言众多，部分使用人群较少的方言目前仍无法识别；

三是语料采集若单纯依靠实验室采集进度将十分缓慢且词汇量有限；若开放权限允许给各自营语音平台进行采集，虽可广泛采集数据，但可能涉及用户隐私的侵犯；

四是通过与现有自营语音平台对接获取语料，其中免费资源的准确率有限，付费资源虽然效果较好但成本昂。

发明内容

为解决上述技术问题，本发明提供了一种唤醒训练词采集***及方法，通过优化***结构和方法步骤流程，克服了唤醒训练词采集不方便，及采集到的音频质量不稳定等情况，通过开放性的采集，提高唤醒训练词语音数据采集流程的便捷性，满足用户的个性化需求，且利于获取具有深层价值的音频数据。

具体技术方案为：一种唤醒训练词采集***，包括移动数据终端、云端存储设备和语音识别云端平台；

移动数据终端对采集到的特定唤醒训练词语音数据进行初步判断；

若初步判断有效，移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本；文本返回移动数据终端；

移动数据终端将文本与特定唤醒训练词语音数据进行匹配，根据匹配程度判断特定唤醒训练词语音数据是否有效；

若判断特定唤醒训练词语音数据有效，移动数据终端将特定唤醒训练词语音数据发送云端存储设备保持为样本唤醒词。

优选的，基于唤醒训练词采集***的一种唤醒训练词采集方法，包括以下步骤：

步骤一（S101）、用户启动1个或1个以上移动数据终端并初始化***参数；***参数包括录音权限、地理位置权限；

步骤二（S102）、1个或1个以上移动数据终端从云端存储设备下载唤醒训练词语料；

步骤三（S103）、移动数据终端在采集唤醒训练词语音数据前，先行采集环境噪声音频并提交云端存储设备；

步骤四（S104）、1个或1个以上移动数据终端采集唤醒训练词语音数据；

步骤五（S105）、移动数据终端对已采集唤醒训练词语音数据作初步分析处理，初步判断是否可作为样本唤醒词；若初步判断可作为样本唤醒词，移动数据终端将采集到的特定唤醒训练词语音数据提交到语音识别云端平台进行解析获得相应文本；文本返回移动数据终端；移动数据终端将文本与特定唤醒训练词语音数据进行匹配，根据匹配程度判断可作为样本唤醒词；

步骤六（S106）、若判断可作为样本唤醒词，移动数据终端将唤醒训练词语音数据发送云端存储设备保持为样本唤醒词；

步骤七（S107）、移动数据终端按预设置次数对样本唤醒词进行反复采集，并提交云端存储设备；

步骤八（S108）、移动数据终端结束唤醒训练词语音数据采集。

优选的，本唤醒训练词采集***及方法中，步骤一具体为：录音权限用于启动移动数据终端录音功能采集语音录音数据；地理位置权限用于启动移动数据终端GPS功能模块记录语音录音数据的地理位置信息。

优选的，本唤醒训练词采集***及方法中，步骤二具体为：移动数据终端从云端存储设备下载唤醒训练词语料及语料编码、语料录音次数。

优选的，本唤醒训练词采集***及方法中，步骤三具体为：在每次唤醒训练词语音数据采集之前，移动数据终端提示用户在10秒内勿发声，先采集一段10秒环境噪音；采集完成后，保存文件并将环境噪音录音数据上传云端存储设备；

噪音文件名定义：

语料编码 +“_” + 移动数据终端DeviceID +“_” + NOISE +“_” +时间戳。

优选的，本唤醒训练词采集***及方法中，步骤四具体为：移动数据终端在监听到采集唤醒训练词语音数据指令后，初始化录音参数；录音参数包括音频采样频率、声道设置、编码制式和采样大小；在用户录入语料后，移动数据终端根据VAD计算及时停止音频采集，再根据声音能量截取有效音频，然后保存文件；

唤醒训练词语音数据文件名定义：

语料编码 +“_” + 移动数据终端DeviceID +“_” + 轮号 +“_” +时间戳。

优选的，本唤醒训练词采集***及方法中，步骤五具体为：移动数据终端对唤醒训练词语音数据有效性进行判断，即排除无效语音数据；若初步分析为有效，移动数据终端将采集到的唤醒训练词语音数据提交到语音识别云端平台进行解析；语音识别云端平台对语音数据进行解析获得相应文本，并返回移动数据终端分析结果；移动数据终端根据返回文本与语料作匹配，相似度超过70%，则认为有效，否则无效。

优选的，本唤醒训练词采集***及方法中，步骤六具体为：移动数据终端在判断特定唤醒训练词语音数据有效的情况下，将特定唤醒训练词语音数据提交云端存储设备保存为样本。

优选的，本唤醒训练词采集***及方法中，步骤七具体为：移动数据终端按预设置次数采集唤醒训练词语音数据，即为重复执行步骤四（S104）至步骤六（S106）。

优选的，本唤醒训练词采集***及方法中，步骤八具体为：用户移动数据终端结束特定唤醒训练词语音数据采集，从步骤四（S104）起重新启动其他特定唤醒训练词语音数据的采集。

优选的，本唤醒训练词采集***及方法中，移动数据终端为智能手机、平板电脑、笔记本电脑、智能穿戴设备。

优选的，本唤醒训练词采集***及方法中，用户通过操控APP来控制智能手机。

采用了上述技术方案后，本发明的有益效果是：

相对于已披露的技术方案，本技术方案提供一种唤醒训练词采集***及方法，优化***及方法步骤，通过开放性采集模式，克服现有唤醒训练词采集过程中存在采集不方便及采集语音质量不稳定等问题，且将确定为样本唤醒词的唤醒词多次进行采集，不断强化唤醒词训练效果，提升***对唤醒词识别精度，可满足用户的个性化需求，也有利于获取具有深层价值的音频数据。

附图说明

图1是一种唤醒训练词采集***的结构示意图；

图2是一种唤醒训练词采集方法步骤的流程示意图。

具体实施方式

如图1所示的***，包括移动数据终端、云端存储设备和语音识别云端平台；

其中，移动数据终端可以是智能手机、平板电脑、笔记本电脑、智能穿戴设备等；本实施例移动数据终端以一部智能手机为例。

请参阅图2，为一种唤醒训练词采集方法，其主要包括以下步骤：

步骤一（S101）、用户启动1个或1个以上智能手机APP并初始化***参数；***参数包括录音权限、地理位置权限；录音权限用于启动智能手机录音功能采集语音录音数据；地理位置权限用于启动智能手机GPS功能模块记录语音录音数据的地理位置信息。

步骤二（S102）、1个或1个以上智能手机从云端存储设备下载唤醒训练词语料及语料编码、语料录音次数。

步骤三（S103）、智能手机在采集唤醒训练词语音数据前，先行采集环境噪声音频并提交云端存储设备；在每次唤醒训练词语音数据采集之前，智能手机提示用户在10秒内勿发声，先采集一段10秒环境噪音；采集完成后，保存文件并将环境噪音录音数据上传云端存储设备；

噪音文件名定义：

语料编码 +“_” + 智能手机DeviceID +“_” + NOISE +“_” +时间戳。

步骤四（S104）、1个或1个以上智能手机采集唤醒训练词语音数据；智能手机在监听到采集唤醒训练词语音数据指令后，初始化录音参数；所述录音参数包括音频采样频率、声道设置、编码制式和采样大小；在用户录入语料后，智能手机根据VAD计算及时停止音频采集，再根据声音能量截取有效音频，然后保存文件；

唤醒训练词语音数据文件名定义：

语料编码 +“_” + 智能手机DeviceID +“_” + 轮号 +“_” +时间戳。

步骤五（S105）、智能手机APP对已采集唤醒训练词语音数据作初步分析处理，智能手机APP对唤醒训练词语音数据有效性进行判断，即排除无效语音数据；若初步分析为有效，智能手机将采集到的唤醒训练词语音数据提交到语音识别云端平台进行解析；语音识别云端平台对语音数据进行解析获得相应文本，并返回智能手机分析结果；智能手机根据返回文本与语料作匹配，相似度超过70%，则认为有效，否则无效。

步骤六（S106）、智能手机APP在判断特定唤醒训练词语音数据有效的情况下，将特定唤醒训练词语音数据提交云端存储设备保存为样本。

步骤七（S107）、智能手机APP按预设置次数对样本唤醒词进行反复采集，并提交云端存储设备；智能手机APP按预设置次数采集唤醒训练词语音数据，即为重复执行步骤四（S104）至步骤六（S106）。

步骤八（S108）、智能手机结束唤醒训练词语音数据采集。用户智能手机结束特定唤醒训练词语音数据采集，从步骤四（S104）起重新启动其他特定唤醒训练词语音数据的采集。

由技术常识可知，本技术方案可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种唤醒训练词采集***，包括移动数据终端、云端存储设备和语音识别云端平台；其特征在于：

2.基于权利要求1所述的唤醒训练词采集***的一种唤醒训练词采集方法，其特征在于包括以下步骤：

步骤一（S101）、用户启动1个或1个以上移动数据终端并初始化***参数；所述***参数包括录音权限、地理位置权限；

3.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤一具体为：所述录音权限用于启动移动数据终端录音功能采集语音录音数据；所述地理位置权限用于启动移动数据终端GPS功能模块记录语音录音数据的地理位置信息。

4.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤二具体为：移动数据终端从云端存储设备下载唤醒训练词语料及语料编码、语料录音次数。

5.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤三具体为：在每次唤醒训练词语音数据采集之前，移动数据终端提示用户在10秒内勿发声，先采集一段10秒环境噪音；采集完成后，保存文件并将环境噪音录音数据上传云端存储设备；

噪音文件名定义：

6.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤四具体为：移动数据终端在监听到采集唤醒训练词语音数据指令后，初始化录音参数；所述录音参数包括音频采样频率、声道设置、编码制式和采样大小；在用户录入语料后，移动数据终端根据VAD计算及时停止音频采集，再根据声音能量截取有效音频，然后保存文件；

唤醒训练词语音数据文件名定义：

7.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤五具体为：移动数据终端对唤醒训练词语音数据有效性进行判断，即排除无效语音数据；若初步分析为有效，移动数据终端将采集到的唤醒训练词语音数据提交到语音识别云端平台进行解析；语音识别云端平台对语音数据进行解析获得相应文本，并返回移动数据终端分析结果；移动数据终端根据返回文本与语料作匹配，相似度超过70%，则认为有效，否则无效。

8.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤六具体为：移动数据终端在判断特定唤醒训练词语音数据有效的情况下，将特定唤醒训练词语音数据提交云端存储设备保存为样本。

9.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤七具体为：移动数据终端按预设置次数采集唤醒训练词语音数据，即为重复执行步骤四（S104）至步骤六（S106）。

10.根据权利要求2所述的一种唤醒训练词采集方法，其特征在于步骤八具体为：用户移动数据终端结束特定唤醒训练词语音数据采集，从步骤四（S104）起重新启动其他特定唤醒训练词语音数据的采集。