CN108491517A - 一种地域性农业信息服务语音查询终端 - Google Patents

一种地域性农业信息服务语音查询终端 Download PDF

Info

Publication number
CN108491517A
CN108491517A CN201810252376.XA CN201810252376A CN108491517A CN 108491517 A CN108491517 A CN 108491517A CN 201810252376 A CN201810252376 A CN 201810252376A CN 108491517 A CN108491517 A CN 108491517A
Authority
CN
China
Prior art keywords
agricultural information
information service
signal
mean
asr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810252376.XA
Other languages
English (en)
Inventor
许金普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Agricultural University
Original Assignee
Qingdao Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Agricultural University filed Critical Qingdao Agricultural University
Priority to CN201810252376.XA priority Critical patent/CN108491517A/zh
Publication of CN108491517A publication Critical patent/CN108491517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种地域性农业信息服务语音查询终端,该终端由三部分组成:自动语音识别ASR部分,交互式语音应答部分IVRS,农业信息数据库部分。本发明利用语音识别技术开发一种面向农业信息服务的移动终端,使广大农民和涉农用户能够将查询要求通过语音输入自动语音识别***(ASR),ASR将识别的结果与用户进行确认,将确认后的结果再送入搜索引擎,搜索引擎将对农业信息数据库进行搜索,搜索到的结果再通过交互式应答***IVRS返回给用户。

Description

一种地域性农业信息服务语音查询终端
技术领域
本发明涉及一种地域性农业信息服务语音查询终端。
背景技术
随着智能手机的普及和4G移动网络的覆盖,广大农民对农业信息服务的需求越来越强,希望通过手机来方便、快捷的解决信息服务“最后一公里问题”,目前相关部门、科研机构、企业等也开发了各类的解决方案和技术,但有如下问题:
现有的智能农业信息服务智能问答多数基于文本和关键词方式来实现,考虑到农民的认知能力和对手机操作的水平,此类问答***较难推广;基于桌面端的问答***不便携带,移动性较差;问答***需要连接互联网,农村互联网普及率较低,使用不便;对农民的普通话识别有地域性口音特点,通用的识别模型效果不佳。
原因:1、农民对手机操作能力差,大部分不会使用***;2、农村互联网普及率低,且费用较高,农民承担不起;3、目前缺少面向农业领域的语音识别语料库和模型。
发明内容
本发明所要解决的技术问题是,提供一种地域性农业信息服务语音查询终端,本发明为农民和涉农人员提供地域性农业信息服务,解决农民“用不起,不会用,用不好”互联网获取信息的问题,利用语音识别作为人机交互接口,通过识别语音输入,将识别的结果进行语义分析,按照分析得到的结果进行知识库的查询,并将查询结果排序后返回给用户,回答用户提出的问题。
为了解决上述技术问题,本发明采用以下技术方案:
一种地域性农业信息服务语音查询终端,
由自动语音识别ASR部分,交互式语音应答部分IVRS,农业信息数据库部分三部分组成;
自动语音识别ASR部分由构建声学识别模型模块、信号预处理模块、语言模块组成;
交互式语音应答部分:基于用户输入的上下文信息不是孤立存在的认识,将上下文感知作为输入的一部分参与交互,形成的结果既能体现用户的主观交互意图,又能充分考虑当时的客观因素;
农业信息数据库部分:利用开源的Nutch全文搜索引擎,面向农业站点资源进行无数据源的抓取网页并进行索引,建立面向农业信息服务的特数据库,该引擎对硬件资源要求很少,可分布式配置在任何硬件平台,每月抓取几十亿网页,提供高质量的搜索结果,满足农业信息服务的要求。
构建声学识别模型模块:以农业信息服务领域文本为语料库进行分词,构造识别词典和相关句法,基于隐马尔可夫模型,训练了声学模型,该模型与通用领域的模型相比具有更佳的识别效果;声学识别模块考虑到农业信息服务具有地域性的特点,而普通话也因地域性不同具有一定的方言和口音特征,因此本识别模型在训练时充分考虑方言和口音问题,支持方言识别;
信号预处理模块:采用前端信号增强并联合后端特征补偿的方法进行,即前端先采用基于最小均方误差的谱减算法SS-MMSE,考虑到由此带来的信号失真,后端采用了倒谱均值方差归一化CMVN进行补偿;
语言模块:根据农业语料的特点和农业信息服务领域的具体约束,对句法、语义的统计模型进行更新以满足的需要,解决特征选择、声学层模型适应及语言模型适应的关键问题。
优选地,自动语音识别ASR中的信号预处理模块,按照以下步骤进行:
1)降噪处理,利用如下公式从初始语音信号中估计纯净语音信号,该估计器满足如下条件:
其中是估计谱在频率ωk的幅度,Xk是纯净信号谱在该频率的幅度,最终得到的估计器表达式为:
其中I0(·)和I1(·)分别表示零阶和第一阶的修正贝塞尔函数,
vk定义为:γk和ξk定义为:
这里λd(k)=E[|D(ωk)|2]是噪声频谱第k个频谱分量的方差,λx(k)=E{|X(ωk)|2}是纯净信号谱第k个分量的方差;γk和ξk分别是指后验信噪比和先验信噪比,先验信噪比ξk表示第k个频谱分量的实际信噪比,而后验信噪比γk表示加入噪声后的第k个频谱分量测得的信噪比;
先验信噪比无法直接计算得到,通常采用下式估计得到:
其中,0<η<1是权重因子,是上一个分析帧中得到增强后的幅度估计;max(·)用以保证估计值是非负值,ξmin是ξk允许的最小值;本发明中所述η=0.98,并限定ξmin=-15dB;对公式(3)中设定第一帧初始条件,也就是当m=0是,本发明采用如下公式:
2)再提取其特征值,再提取其特征值采用12阶Mel倒谱特征及短时能量谱共13位作为基本特征,再加上其一阶差分和二阶差分共39位作为最终特征;其作用为补偿步骤1)中所采用降噪处理带来的信号失真,对所述特征值进行倒谱均值方差归一化(CMVN)补偿进一步包括,对第t帧的特征值进行倒谱均值归一化(CMN):
并进行倒谱方差归一化(Cepstral Variance Normalization,CVN):
其中,ot为第t帧的特征值,μt为第t帧的均值,σt为第t帧的方差;
将经过步骤1)、2)处理后的特征向量送入HMM进行训练,最终得到本发明中的自动语音识别ASR的模块的识别器。
发明具有以下有益技术效果:
1.是利用语音技术进行人机交互,让农民的问题输入变得简单,解决了广大农民的认知能力差,在农业生产过程中操作手机等便携式设备或PC终端不便的问题,更有利于推广与示范。
2.是在上述语音识别的基础上,再结合面向农业领域的垂直搜索引擎,将获得更为准确的搜索结果。其特色在于将语音技术和垂直搜索引擎进行了结合,面向农业信息服务领域,借助互联网和人工智能技术,利用广泛普及的手机等移动终端解决农民信息获取的“最后一公里问题”。
3.本发明采用降噪方法的优势在于,其衰减主要决定于平滑的先验SNR值,得到的衰减帧与帧之间的差别不会很大,因此音乐噪声会被有效的弱化或者消除。
附图说明
下面结合附图和具体实施例对本发明做进一步详细描述。
图1是本发明的语音查询终端方框图。
图2是本发明声学模型建立的完整过程框图。
图3是本发明联合前端增强和后端补偿的方法框架图。
图4是在针对表1做出的大型农场品批发市场下的识别率曲线。
具体实施方式
以某地区的农产品价格信息查询服务为例,在大型农产品批发市场、社区农贸市场、超市、农产品加工车间等环境下采集训练语音,其中包括男性20人,女性20人,录制的短句包括200多种农产品的名称、价格、产地、等级等,说话人的发音为略带地方口音的普通话,共采集到短句8400句,时长约2个小时,作为训练集。测试集录制了3男3女每人50句话,共计300句,采用手机在相对安静的环境下录制作为近似纯净语音,且说话人不在训练集中。然后采用人工加噪的方式加入大型农产品批发市场环境下的噪声,最终得到信噪比分别为-5dB,0dB,5dB,10dB,15dB,20dB,25dB的带噪语音,每种不同信噪比的测试语音300句,共计2100句。对基线***,单独采用各种谱减算法,以及联合CMVN后的各种算法进行对比试验,得到如表1所示的识别率。其中本算法是MMSE+CMVN,其识别率曲线如附图4所示。
表1在大型农产品批发市场环境下的识别率
上述结果的识别效果很大程度上决定了本发明的结果,通过将识别结果的文本输入搜索引擎,完成对农业信息的检索被排序后呈现给用户。

Claims (3)

1.一种地域性农业信息服务语音查询终端,其特征在于:
由自动语音识别ASR部分,交互式语音应答部分IVRS,农业信息数据库部分三部分组成;自动语音识别ASR部分由构建声学识别模型模块、信号预处理模块、语言模块组成;
交互式语音应答部分:基于用户输入的上下文信息不是孤立存在的认识,将上下文感知作为输入的一部分参与交互,形成的结果既能体现用户的主观交互意图,又能充分考虑当时的客观因素;
农业信息数据库部分:利用开源的Nutch全文搜索引擎,面向农业站点资源进行无数据源的抓取网页并进行索引,建立面向农业信息服务的特数据库,该引擎对硬件资源要求很少,可分布式配置在任何硬件平台,每月抓取几十亿网页,提供高质量的搜索结果,满足农业信息服务的要求。
2.如权利要求1所述的地域性农业信息服务语音查询终端,其特征在于:构建声学识别模型模块:以农业信息服务领域文本为语料库进行分词,构造识别词典和相关句法,基于隐马尔可夫模型,训练了声学模型,该模型与通用领域的模型相比具有更佳的识别效果;声学识别模块考虑到农业信息服务具有地域性的特点,而普通话也因地域性不同具有一定的方言和口音特征,因此本识别模型在训练时充分考虑方言和口音问题,支持方言识别;
信号预处理模块:采用前端信号增强并联合后端特征补偿的方法进行,即前端先采用基于最小均方误差的谱减算法SS-MMSE,考虑到由此带来的信号失真,后端采用了倒谱均值方差归一化CMVN进行补偿;
语言模块:根据农业语料的特点和农业信息服务领域的具体约束,对句法、语义的统计模型进行更新以满足的需要,解决特征选择、声学层模型适应及语言模型适应的关键问题。
3.如权利要求1所述的地域性农业信息服务语音查询终端,其特征在于:自动语音识别ASR中的信号预处理模块,按照以下步骤进行:
1)降噪处理,利用如下公式从初始语音信号中估计纯净语音信号,该估计器满足如下条件:
其中是估计谱在频率ωk的幅度,Xk是纯净信号谱在该频率的幅度,最终得到的估计器表达式为:
其中I0(·)和I1(·)分别表示零阶和第一阶的修正贝塞尔函数,
vk定义为:γk和ξk定义为:
这里λd(k)=E[|D(ωk)|2]是噪声频谱第k个频谱分量的方差,λx(k)=E{|X(ωk)|2}是纯净信号谱第k个分量的方差;γk和ξk分别是指后验信噪比和先验信噪比,先验信噪比ξk表示第k个频谱分量的实际信噪比,而后验信噪比γk表示加入噪声后的第k个频谱分量测得的信噪比;
先验信噪比无法直接计算得到,通常采用下式估计得到:
其中,0<η<1是权重因子,是上一个分析帧中得到增强后的幅度估计;max(·)用以保证估计值是非负值,ξmin是ξk允许的最小值;本发明中所述η=0.98,并限定ξmin=-15dB;对公式(3)中设定第一帧初始条件,也就是当m=0是,本发明采用如下公式:
2)再提取其特征值,再提取其特征值采用12阶Mel倒谱特征及短时能量谱共13位作为基本特征,再加上其一阶差分和二阶差分共39位作为最终特征;其作用为补偿步骤1)中所采用降噪处理带来的信号失真,对所述特征值进行倒谱均值方差归一化(CMVN)补偿进一步包括,对第t帧的特征值进行倒谱均值归一化(CMN):
并进行倒谱方差归一化(Cepstral Variance Normalization,CVN):
其中,ot为第t帧的特征值,μt为第t帧的均值,σt为第t帧的方差;
将经过步骤1)、2)处理后的特征向量送入HMM进行训练,最终得到本发明中的自动语音识别ASR的模块的识别器。
CN201810252376.XA 2018-03-22 2018-03-22 一种地域性农业信息服务语音查询终端 Pending CN108491517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810252376.XA CN108491517A (zh) 2018-03-22 2018-03-22 一种地域性农业信息服务语音查询终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810252376.XA CN108491517A (zh) 2018-03-22 2018-03-22 一种地域性农业信息服务语音查询终端

Publications (1)

Publication Number Publication Date
CN108491517A true CN108491517A (zh) 2018-09-04

Family

ID=63337818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810252376.XA Pending CN108491517A (zh) 2018-03-22 2018-03-22 一种地域性农业信息服务语音查询终端

Country Status (1)

Country Link
CN (1) CN108491517A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670166A (zh) * 2018-09-26 2019-04-23 平安科技(深圳)有限公司 基于语音识别的催收辅助方法、装置、设备和存储介质
CN110245282A (zh) * 2019-06-03 2019-09-17 重庆邮电大学 在途快件信息实时查询更改方法及***
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答***
CN111090726A (zh) * 2019-12-04 2020-05-01 中国南方电网有限责任公司 一种基于nlp的电力行业文字客服交互方法
CN111666476A (zh) * 2020-05-08 2020-09-15 江苏南皇阳农业科技有限公司 一种基于农业技术的网络宣传引流***
CN112269956A (zh) * 2020-11-11 2021-01-26 北大荒浪潮信息有限公司 一种基于机器学习引擎的农业大数据搜索结果呈现的方法和装置
CN116578667A (zh) * 2023-07-13 2023-08-11 湖南惠农科技有限公司 一种基于农业大数据管理的农业信息服务终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488342A (zh) * 2008-12-31 2009-07-22 广东协联科贸发展有限公司 人机语言交互演绎***及人机语言交互需求应答的智能化实现方法
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、***以及交互终端
CN104021186A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 基于语音识别的航班动态智能查询***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488342A (zh) * 2008-12-31 2009-07-22 广东协联科贸发展有限公司 人机语言交互演绎***及人机语言交互需求应答的智能化实现方法
CN103413549A (zh) * 2013-07-31 2013-11-27 深圳创维-Rgb电子有限公司 语音交互的方法、***以及交互终端
CN104021186A (zh) * 2014-06-13 2014-09-03 中国民航信息网络股份有限公司 基于语音识别的航班动态智能查询***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李雷: "基于Nutch的农业信息搜索引擎实现和优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
许金普等: "农产品市场信息采集的语音识别鲁棒性方法", 《中国农业科技导报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670166A (zh) * 2018-09-26 2019-04-23 平安科技(深圳)有限公司 基于语音识别的催收辅助方法、装置、设备和存储介质
CN110717018A (zh) * 2019-04-15 2020-01-21 中国石油大学(华东) 一种基于知识图谱的工业设备故障维修问答***
CN110245282A (zh) * 2019-06-03 2019-09-17 重庆邮电大学 在途快件信息实时查询更改方法及***
CN111090726A (zh) * 2019-12-04 2020-05-01 中国南方电网有限责任公司 一种基于nlp的电力行业文字客服交互方法
CN111666476A (zh) * 2020-05-08 2020-09-15 江苏南皇阳农业科技有限公司 一种基于农业技术的网络宣传引流***
CN112269956A (zh) * 2020-11-11 2021-01-26 北大荒浪潮信息有限公司 一种基于机器学习引擎的农业大数据搜索结果呈现的方法和装置
CN116578667A (zh) * 2023-07-13 2023-08-11 湖南惠农科技有限公司 一种基于农业大数据管理的农业信息服务终端

Similar Documents

Publication Publication Date Title
CN108491517A (zh) 一种地域性农业信息服务语音查询终端
CN109767791B (zh) 一种针对呼叫中心通话的语音情绪识别及应用***
US10032454B2 (en) Speaker and call characteristic sensitive open voice search
CA2311439C (en) Conversational data mining
US8793127B2 (en) Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
CN102623011B (zh) 信息处理装置、信息处理方法及信息处理***
Maity et al. IITKGP-MLILSC speech database for language identification
WO2020228173A1 (zh) 违规话术检测方法、装置、设备及计算机可读存储介质
CN103531198B (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
Morgan et al. Meetings about meetings: research at ICSI on speech in multiparty conversations
CN112581964B (zh) 一种面向多领域的智能语音交互方法
CN109313892A (zh) 稳健的语言识别方法和***
Ajili et al. Fabiole, a speech database for forensic speaker comparison
CN106776832A (zh) 用于问答交互日志的处理方法、装置及***
Nandwana et al. Analysis of Critical Metadata Factors for the Calibration of Speaker Recognition Systems.
CN114449105A (zh) 基于语音的电力客户服务话务质检***
CN110458599A (zh) 测试方法、测试装置及相关产品
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN112087726B (zh) 彩铃识别的方法及***、电子设备及存储介质
US7340398B2 (en) Selective sampling for sound signal classification
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN115168563B (zh) 一种基于意图识别的机场服务引导方法、***及装置
Pérez-Espinosa et al. Automatic individual dog recognition based on the acoustic properties of its barks
KR102407055B1 (ko) 음성인식 후 자연어 처리를 통한 대화 품질지수 측정장치 및 그 방법
CN115691500A (zh) 一种基于时延神经网络的电力客服语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination