CN108491517A

CN108491517A - 一种地域性农业信息服务语音查询终端

Info

Publication number: CN108491517A
Application number: CN201810252376.XA
Authority: CN
Inventors: 许金普
Original assignee: Qingdao Agricultural University
Current assignee: Qingdao Agricultural University
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-09-04

Abstract

本发明涉及一种地域性农业信息服务语音查询终端，该终端由三部分组成：自动语音识别ASR部分，交互式语音应答部分IVRS，农业信息数据库部分。本发明利用语音识别技术开发一种面向农业信息服务的移动终端，使广大农民和涉农用户能够将查询要求通过语音输入自动语音识别***（ASR），ASR将识别的结果与用户进行确认，将确认后的结果再送入搜索引擎，搜索引擎将对农业信息数据库进行搜索，搜索到的结果再通过交互式应答***IVRS返回给用户。

Description

一种地域性农业信息服务语音查询终端

技术领域

本发明涉及一种地域性农业信息服务语音查询终端。

背景技术

随着智能手机的普及和4G移动网络的覆盖，广大农民对农业信息服务的需求越来越强，希望通过手机来方便、快捷的解决信息服务“最后一公里问题”，目前相关部门、科研机构、企业等也开发了各类的解决方案和技术，但有如下问题：

现有的智能农业信息服务智能问答多数基于文本和关键词方式来实现，考虑到农民的认知能力和对手机操作的水平，此类问答***较难推广；基于桌面端的问答***不便携带，移动性较差；问答***需要连接互联网，农村互联网普及率较低，使用不便；对农民的普通话识别有地域性口音特点，通用的识别模型效果不佳。

原因：1、农民对手机操作能力差，大部分不会使用***；2、农村互联网普及率低，且费用较高，农民承担不起；3、目前缺少面向农业领域的语音识别语料库和模型。

发明内容

本发明所要解决的技术问题是，提供一种地域性农业信息服务语音查询终端，本发明为农民和涉农人员提供地域性农业信息服务，解决农民“用不起，不会用，用不好”互联网获取信息的问题，利用语音识别作为人机交互接口，通过识别语音输入，将识别的结果进行语义分析，按照分析得到的结果进行知识库的查询，并将查询结果排序后返回给用户，回答用户提出的问题。

为了解决上述技术问题，本发明采用以下技术方案：

一种地域性农业信息服务语音查询终端，

由自动语音识别ASR部分，交互式语音应答部分IVRS，农业信息数据库部分三部分组成；

自动语音识别ASR部分由构建声学识别模型模块、信号预处理模块、语言模块组成；

交互式语音应答部分：基于用户输入的上下文信息不是孤立存在的认识，将上下文感知作为输入的一部分参与交互，形成的结果既能体现用户的主观交互意图，又能充分考虑当时的客观因素；

农业信息数据库部分：利用开源的Nutch全文搜索引擎，面向农业站点资源进行无数据源的抓取网页并进行索引，建立面向农业信息服务的特数据库，该引擎对硬件资源要求很少，可分布式配置在任何硬件平台，每月抓取几十亿网页，提供高质量的搜索结果，满足农业信息服务的要求。

构建声学识别模型模块：以农业信息服务领域文本为语料库进行分词，构造识别词典和相关句法，基于隐马尔可夫模型，训练了声学模型，该模型与通用领域的模型相比具有更佳的识别效果；声学识别模块考虑到农业信息服务具有地域性的特点，而普通话也因地域性不同具有一定的方言和口音特征，因此本识别模型在训练时充分考虑方言和口音问题，支持方言识别；

信号预处理模块：采用前端信号增强并联合后端特征补偿的方法进行，即前端先采用基于最小均方误差的谱减算法SS-MMSE，考虑到由此带来的信号失真，后端采用了倒谱均值方差归一化CMVN进行补偿；

语言模块：根据农业语料的特点和农业信息服务领域的具体约束，对句法、语义的统计模型进行更新以满足的需要，解决特征选择、声学层模型适应及语言模型适应的关键问题。

优选地,自动语音识别ASR中的信号预处理模块，按照以下步骤进行：

1)降噪处理，利用如下公式从初始语音信号中估计纯净语音信号，该估计器满足如下条件：

其中是估计谱在频率ω_k的幅度，X_k是纯净信号谱在该频率的幅度，最终得到的估计器表达式为：

其中I₀(·)和I₁(·)分别表示零阶和第一阶的修正贝塞尔函数，

v_k定义为：γ_k和ξ_k定义为:

这里λ_d(k)＝E[|D(ω_k)|²]是噪声频谱第k个频谱分量的方差，λ_x(k)＝E{|X(ω_k)|²}是纯净信号谱第k个分量的方差；γ_k和ξ_k分别是指后验信噪比和先验信噪比，先验信噪比ξ_k表示第k个频谱分量的实际信噪比，而后验信噪比γ_k表示加入噪声后的第k个频谱分量测得的信噪比；

先验信噪比无法直接计算得到，通常采用下式估计得到：

其中，0＜η＜1是权重因子，是上一个分析帧中得到增强后的幅度估计；max(·)用以保证估计值是非负值，ξ_min是ξ_k允许的最小值；本发明中所述η＝0.98，并限定ξ_min＝-15dB；对公式(3)中设定第一帧初始条件，也就是当m＝0是，本发明采用如下公式：

2)再提取其特征值，再提取其特征值采用12阶Mel倒谱特征及短时能量谱共13位作为基本特征，再加上其一阶差分和二阶差分共39位作为最终特征；其作用为补偿步骤1)中所采用降噪处理带来的信号失真，对所述特征值进行倒谱均值方差归一化(CMVN)补偿进一步包括，对第t帧的特征值进行倒谱均值归一化(CMN)：

并进行倒谱方差归一化(Cepstral Variance Normalization，CVN)：

其中，o_t为第t帧的特征值，μ_t为第t帧的均值，σ_t为第t帧的方差；

将经过步骤1)、2)处理后的特征向量送入HMM进行训练，最终得到本发明中的自动语音识别ASR的模块的识别器。

发明具有以下有益技术效果：

1.是利用语音技术进行人机交互，让农民的问题输入变得简单，解决了广大农民的认知能力差，在农业生产过程中操作手机等便携式设备或PC终端不便的问题，更有利于推广与示范。

2.是在上述语音识别的基础上，再结合面向农业领域的垂直搜索引擎，将获得更为准确的搜索结果。其特色在于将语音技术和垂直搜索引擎进行了结合，面向农业信息服务领域，借助互联网和人工智能技术，利用广泛普及的手机等移动终端解决农民信息获取的“最后一公里问题”。

3.本发明采用降噪方法的优势在于，其衰减主要决定于平滑的先验SNR值，得到的衰减帧与帧之间的差别不会很大，因此音乐噪声会被有效的弱化或者消除。

附图说明

下面结合附图和具体实施例对本发明做进一步详细描述。

图1是本发明的语音查询终端方框图。

图2是本发明声学模型建立的完整过程框图。

图3是本发明联合前端增强和后端补偿的方法框架图。

图4是在针对表1做出的大型农场品批发市场下的识别率曲线。

具体实施方式

以某地区的农产品价格信息查询服务为例，在大型农产品批发市场、社区农贸市场、超市、农产品加工车间等环境下采集训练语音，其中包括男性20人，女性20人，录制的短句包括200多种农产品的名称、价格、产地、等级等，说话人的发音为略带地方口音的普通话，共采集到短句8400句，时长约2个小时，作为训练集。测试集录制了3男3女每人50句话，共计300句，采用手机在相对安静的环境下录制作为近似纯净语音，且说话人不在训练集中。然后采用人工加噪的方式加入大型农产品批发市场环境下的噪声，最终得到信噪比分别为-5dB，0dB，5dB，10dB，15dB，20dB，25dB的带噪语音，每种不同信噪比的测试语音300句，共计2100句。对基线***，单独采用各种谱减算法，以及联合CMVN后的各种算法进行对比试验，得到如表1所示的识别率。其中本算法是MMSE+CMVN，其识别率曲线如附图4所示。

表1在大型农产品批发市场环境下的识别率

上述结果的识别效果很大程度上决定了本发明的结果，通过将识别结果的文本输入搜索引擎，完成对农业信息的检索被排序后呈现给用户。

Claims

1.一种地域性农业信息服务语音查询终端，其特征在于：

由自动语音识别ASR部分，交互式语音应答部分IVRS，农业信息数据库部分三部分组成；自动语音识别ASR部分由构建声学识别模型模块、信号预处理模块、语言模块组成；

2.如权利要求1所述的地域性农业信息服务语音查询终端，其特征在于：构建声学识别模型模块：以农业信息服务领域文本为语料库进行分词，构造识别词典和相关句法，基于隐马尔可夫模型，训练了声学模型，该模型与通用领域的模型相比具有更佳的识别效果；声学识别模块考虑到农业信息服务具有地域性的特点，而普通话也因地域性不同具有一定的方言和口音特征，因此本识别模型在训练时充分考虑方言和口音问题，支持方言识别；

3.如权利要求1所述的地域性农业信息服务语音查询终端，其特征在于：自动语音识别ASR中的信号预处理模块，按照以下步骤进行：

v_k定义为：γ_k和ξ_k定义为:

先验信噪比无法直接计算得到，通常采用下式估计得到：

并进行倒谱方差归一化(Cepstral Variance Normalization，CVN)：