CN102760436B

CN102760436B - 一种语音词库筛选方法

Info

Publication number: CN102760436B
Application number: CN201210281686.7A
Authority: CN
Inventors: 白晓东; 李天印; 强锋刚; 薛万疆
Original assignee: KAIFENG Co OF HENAN TOBACCO Co
Current assignee: KAIFENG Co OF HENAN TOBACCO Co
Priority date: 2012-08-09
Filing date: 2012-08-09
Publication date: 2014-06-11
Anticipated expiration: 2032-08-09
Also published as: CN102760436A

Abstract

本发明涉及语音词库筛选方法，可有效解决不能满足对语音文件内容和基于关键词信息的内容监测需求的问题，解决的技术方案是，通过构建一个企业电话订货管理的关键词库，应用批量自动语音识别技术、语音文件内容检测技术及分组关键词对比筛选技术，实现对批量电话录音文件基于分组关键词的筛选、自动提取、智能分析，应用语音识别技术通过计算机实现批量语音到文本的转换，应用语音文件内容检测技术通过计算机实现对语音文件中涉及到关键词库中关键词语的语音文件，均通过标记、信息提取、展示的方法将该类文件信息进行过滤，以实现对企业电话订货录音文件中特定或敏感信息的自动捕捉、智能分析展示，本发明是语音识别技术上的创新。

Description

一种语音词库筛选方法

技术领域

本发明涉及多人语音自动识别技术、连续语音识别技术、非特定人语音识别技术、语音词库人工智能筛选技术及语音文件内容检测技术等，特别是一种语音词库筛选方法。

背景技术

（一）语音识别技术的研究历史及现状

在国外，语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry***，它是第一个可以识别十个英文数字的语音识别***。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（LPC）技术和动态时间规整（DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别***；同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个***中，比较典型的是***梅隆大学(CarnegieMellonUniversity)的Sphinx***，它是第一个高性能的非特定人、大词汇量连续语音识别***。这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别***。在声学模型方面，以Markov链为基础的语音序列建模方法HMM（隐式Markov链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别***的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的***有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别***，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别***ViaVoice'98。它带有一个32,000词的基本词汇表，可以扩展到65,000词,还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该***对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别***。

我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别***的识别精度，达到94.8%（不定长数字串）和96.8%（定长数字串）。在有5%的拒识率情况下，***识别率可以达到96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别***的识别率达到98.73%，前三选识别率达99.96%；并且可以识别普通话与四川话两种语言，达到实用要求。中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

（二）国内语音文件内容监测技术应用现状

语音文件内容监测如果采用传统依靠人工方式开展将面临着大量的困难。由于人的耳力无法辨别以倍速播放的声音内容，因此，在人工方式语音文件内容监测过程中，只能是常速播放语音文件，一个语音文件内容监测人员若要真实可信地处理一个约6个小时的语音文件，就必须花6～8个小时的时间。因此，对于一个约6小时的语音文件数据处理，需要1个人工来完成（按每人每天工作8小时计算），然后还需要人员录入、校对、最后生成报告，这样，则至少需要1至2个人工来完成。如果依靠传统的工作方式，要实现对20个人员每人6小时通话录音的语音文件内容监测，需要的人力将超过20人。显然，这样规模的人力消耗对任何一个监测机构来说，都是很难负担的，也是不现实的。因此，虽然国内很多行业已经认识到语音文件内容监测的重要性，但如果没有行之有效的监测技术和监测手段作为保障，实施难度仍然很高。

相比于采用语音文件内容人工监测方式，计算机自动处理有着速度快、效率高、漏检率低等特点，尤其是需要同时对批量语音文件进行内容监测时，语音文件内容自动监测和处理技术更是具有不可替代的作用。近年来，国内已经出现了利用计算机音频快速匹配技术进行广播电视广告监播，以及利用计算机语种识别技术进行短波广播的自动监测，但这些自动监测技术和成果不能满足对语音文件内容和基于关键词信息的内容监测需求，因此，语音识别技术的改进和创新是目前亟需解决的问题。

发明内容

针对上述情况，为解决现有技术之缺陷，本发明之目的就是提供一种语音词库筛选方法，可有效解决不能满足对语音文件内容和基于关键词信息的内容监测需求的问题。

本发明解决的技术方案是：该发明是通过构建一个针对企业电话订货管理的关键词库，应用批量自动语音识别技术、语音文件内容检测技术及分组关键词对比筛选技术，实现对批量电话录音文件基于分组关键词的筛选、自动提取、智能分析的一种方法，即基于本发明构建的语音词库和筛选方法，应用语音识别技术通过计算机实现批量语音到文本的转换，应用语音文件内容检测技术通过计算机实现对语音文件中涉及到关键词库中关键词语的语音文件，均通过标记、信息提取、展示等方法将该类文件信息进行过滤，以实现对企业电话订货录音文件中特定或敏感信息的自动捕捉、智能分析展示，具体步骤如下：

第一步、关键词库建立及维护

根据企业对电话订货管理的要求，应用Oracle数据库***建立关键词库及关键词库管理模块，关键词库内容包括针对电话订货服务人员的服务质量、标准用语、服务禁语等大类，每个大类包括若干关键词，每个关键词都包括所在大类、是否被选取、被选取日期、出现次数及与之对应的HMM编号等信息；应用JAVA编程技术建立关键词库管理模块，该模块具有关键词的录入、修改、保存、删除、查询及关键词选取、导入、导出等功能，应用该管理模块管理人员能够根据实际需要录入、编辑、删除和选取电话订货服务用语关键词，能够选择特定的一组关键词用于语音识别筛选；

第二步、语音识别***建模

应用隐马尔可夫模型HMM构建语音识别***的声学模型，应用隐马尔可夫Trigram模型构建汉语语音识别***的语言模型，其内容包括以下三个部分：一是基于HMM模型应用向前向后算法解决关键词的评估问题，即为关键词库中的每个关键生成一个对应的HMM，每个观测序列由一个关键词的语音构成，关键词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现；二是基于HMM模型应用Viterbi算法解决语音识别解码问题，即解决一个中文句子如何划分其构成才合适的问题，用隐马尔科夫模型，把中文句子的分词方法看成是隐含状态，而句子则可以看成是给定的可观测状态，从而通过建HMM来寻找出最可能正确的分词方法，解决正确识别汉语单词和连续汉语语句的难题；三是基于HMM模型应用Baum-Welch算法以及Reversed Viterbi算法，解决语音识别过程中的识别速度、准确率、***自适应、汉语单语语料库收集与整理、模型选择、训练、平滑、压缩问题；

第三步、语音识别处理分析

应用JAVA编程技术构建语音识别处理分析模块，该模块具有语音文件导入、关键词导入、关键词对比提取、关键词出现次数计数及保存、特定语音文件导出及与嵌入式非特定人语音识别芯片SR160X的设备相互通信等功能，即应用该模块，根据企业考核管理人员从关键词库中选择若干关键词，应用含有嵌入式非特定人语音识别芯片SR160X的设备对指定电话订货人员的电话订货录音文件进行基于关键词的批量对比分析，选取电话订货录音文件中与指定关键词相匹配的录音文件，记录指定关键词出现的次数，并把相对应的录音文件导出到指定的文件夹内；

第四步、智能处理分析结果

应用JAVA编程技术构建信息处理分析模块，实现分人员、分关键词的统计分析，导出语音文件监听及分时间段出现频率分析等功能，即，根据从Oracle数据库表中提取第三步语音识别处理分析中筛选得到的数据信息，在信息处理分析界面中统计分析录音文件所对应电话订货人员工作情况，其内容包括电话订货服务质量是否合格、服务标准用语是否达标、服务禁语出现频率是否超标等相关考核信息，实现分析结果的查询、存储、打印及保存快照等功能，以方便管理人员对分析处理结果的管理和应用。

本发明有效解决了对语音文件内容和基于关键词信息的内容监测需求的问题，使用效果好，是语音识别技术上的创新。

附图说明

图1为本发明的操作步骤流程图。

具体实施方式

以下结合附图对本发明的具体实施方式作进一步详细说明。

第一步、关键词库建立及维护

根据企业对电话订货管理的要求，应用Oracle数据库***建立关键词库及对应的表，关键词库内容包括针对电话订货服务人员的服务质量、标准用语、服务禁语等大类，每个大类包括若干关键词，每个关键词都包括所在大类、是否被选取、被选取日期、出现次数及与之对应的HMM编号等信息；应用JAVA编程技术建立关键词库维护模块，该模块具有关键词的录入、修改、保存、删除、查询及关键词选取、导入、导出等功能，应用该维护模块管理人员能够根据实际需要录入、编辑、删除和选取电话订货服务用语关键词，能够选择特定的一组关键词用于语音识别筛选；

第二步、语音识别***建模

应用隐马尔可夫模型HMM模型构建语音识别***的声学模型，应用隐马尔可夫Trigram模型构建汉语语音识别***的语言模型，其内容包括以下三个部分：一是基于HMM模型应用向前向后算法解决关键词的评估问题，即为关键词库中的每个关键生成一个对应的HMM，每个观测序列由一个关键词的语音构成，关键词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现；二是基于HMM模型应用Viterbi算法解决语音识别解码问题，即解决一个中文句子如何划分其构成才合适的问题。例如，句子“发展中国家”是划分成“发展-中-国家”，还是“发展-中国-家”，还是“发展中-国家”。用隐马尔科夫模型，把中文句子的分词方法看成是隐含状态，而句子则可以看成是给定的可观测状态，从而通过建HMM来寻找出最可能正确的分词方法，解决正确识别汉语单词和连续汉语语句的难题；三是基于HMM模型应用Baum-Welch算法以及Reversed Viterbi算法，解决语音识别过程中的识别速度、准确率、***自适应、汉语单语语料库收集与整理、模型选择、训练、平滑、压缩问题；

第三步、语音识别处理分析

应用JAVA编程技术构建语音识别处理分析模块，该模块具有语音文件导入、关键词导入、关键词对比提取、关键词出现次数计数及保存、特定语音文件导出及与嵌入式非特定人语音识别芯片SR160X的设备相互通信等功能。即应用该模块，根据企业考核管理人员从关键词库中选择若干关键词，应用含有嵌入式非特定人语音识别芯片SR160X的设备对指定电话订货人员的电话订货录音文件进行基于关键词的批量对比分析，选取电话订货录音文件中与指定关键词相匹配的录音文件，记录指定关键词出现的次数，并把相对应的录音文件导出到指定的文件夹内；

第四步、智能处理分析结果

应用JAVA编程技术构建信息处理分析模块，实现分人员、分关键词的统计分析，导出语音文件监听及分时间段出现频率分析等功能。即，根据从Oracle数据库表中提取第三步语音识别处理分析中筛选得到的数据信息，在信息处理分析界面中统计分析录音文件所对应电话订货人员工作情况，其内容包括电话订货服务质量是否合格、服务标准用语是否达标、服务禁语出现频率是否超标等相关考核信息，实现分析结果的查询、存储、打印及保存快照等功能，以方便管理人员对分析处理结果的管理和应用。

图1中，从录音文件库中提取需要的录音文件，通过语音识别企业电话订货录音文件，然后通过关键词库对关键词（如：服务禁语）进行提取和筛选，符合条件的关键词被标记、提取及展示，不符合条件的进行另一关键词重新通过关键词库对关键词再次进行提取和筛选。

应用实例：

例如：应用该方法分析某号至某号电话订货员在一定时间内所有电话录音文件中存在“不知道”、“不清楚”两个服务禁语出现的次数、频率，并根据分析结果对某号至某号电话订货员按服务禁语出现的频率进行从低到高排序。其操作如下：

一、应用该方法构建的关键词库管理模块进行关键词的选择。具体方法为：在任意一台能连接到关键词数据库服务器的计算机上运行关键词库管理模块界面，在界面中设置查询条件为“不知道”或“不清楚”，在查询结果中勾选“不知道”和“不清楚”这两个词语；

二、应用该方法构建的语音识别处理分析模块进行关键词的对比识别和统计分析。具体方法为：在PC机上，调用安装在应用服务器上的语音识别处理分析模块管理界面，选择人员为某号至某号电话订货员（如：一号至十号电话订货员，选择时间为7月2日至6日），在“应用已选择确定的关键词”前打勾，确认应用已选择的关键词进行对比识别，点击“对比识别”，则***模块自动根据确定的条件，对指定时间段内的录音文件进行“不知道”、“不清楚”两个关键词的对比识别，在对比识别结果中点“保存对比识别结果”，即可实现对比识别结果中包含“不知道”、“不清楚”这两个关键词的录音文件记录、关键词出现的个数、频率计数等信息的保存；

三、应用该方法构建的信息处理分析模块进行对比识别结果信息的分析处理。具体方法为：在PC计算机上，根据使用人员的统计分析需要，选择对应的统计条件，当在某号至某号电话订货员的电话订货服务录音中出现“不知道”、“不清楚”两条服务禁语按出现次数、所占比例等数据进行正序或逆序排序并记录到指定的数据库表中，供用户查询、打印应用。

本发明考虑到语音文件录制过程中环境、口音、语速等因素的复杂性，特定内容或敏感信息一般是以一组关键词作为特征的，为实现对批量语音文件内容进行监测，建立了一个由大量特征关键词组成的关键词库，在对语音文件内容进行自动智能检测时，直接根据指定的规则调用***关键词库中的一组或多组关键词，即可应用计算机***实现自动对特定内容或敏感信息做准确定位，有效解决了对语音文件内容和基于关键词信息的内容监测需求的问题，是语音识别技术上的创新，具有良好的经济和社会效益。

Claims

1.一种语音词库筛选方法，其特征在于，包括以下步骤：

第一步、关键词库建立及维护，根据企业对电话订货管理的要求，应用Oracle数据库***建立关键词库及关键词库管理模块，关键词库内容包括针对电话订货服务人员的服务质量、标准用语、服务禁语几大类，每个大类包括若干关键词，每个关键词都包括所在大类、是否被选取、被选取日期、出现次数及与之对应的HMM编号信息；应用JAVA编程技术建立关键词库管理模块，该模块具有关键词的录入、修改、保存、删除、查询及关键词选取、导入、导出的功能，应用该管理模块管理人员能够根据实际需要录入、编辑、删除和选取电话订货服务用语关键词，能够选择用于语音识别筛选的一组关键词；

第二步、语音识别***建模，应用隐马尔可夫模型HMM构建语音识别***的声学模型，应用隐马尔可夫Trigram模型构建汉语语音识别***的语言模型，其内容包括以下三个部分：一是基于HMM模型应用向前向后算法解决关键词的评估问题，即为关键词库中的每个关键词生成一个对应的HMM，每个观测序列由一个关键词的语音构成，关键词的识别是通过评估进而选出最有可能产生观测序列所代表的读音的HMM而实现；二是基于HMM模型应用Viterbi算法解决语音识别解码问题，即解决一个中文句子如何划分其构成才合适的问题，用隐马尔科夫模型，把中文句子的分词方法看成是隐含状态，而句子则可以看成是给定的可观测状态，从而通过建HMM来寻找出最可能正确的分词方法，解决正确识别汉语单词和连续汉语语句的难题；三是基于HMM模型应用Baum-Welch算法以及Reversed Viterbi算法，解决语音识别过程中的识别速度、准确率、***自适应、汉语单语语料库收集与整理、模型选择、训练、平滑、压缩问题；

第三步、语音识别处理分析，应用JAVA编程技术构建语音识别处理分析模块，该模块具有语音文件导入、关键词导入、关键词对比提取、关键词出现次数计数及保存、特定语音文件导出及与嵌入式非特定人语音识别芯片SR160X的设备相互通信功能，即应用该模块，根据企业考核管理人员从关键词库中选择若干关键词，应用含有嵌入式非特定人语音识别芯片SR160X的设备对指定电话订货人员的电话订货录音文件进行基于关键词的批量对比分析，选取电话订货录音文件中与指定关键词相匹配的录音文件，记录指定关键词出现的次数，并把相对应的录音文件导出到指定的文件夹内；

第四步、智能处理分析结果，应用JAVA编程技术构建信息处理分析模块，实现分人员、分关键词的统计分析，导出语音文件监听及分时间段出现频率分析功能，即，根据从Oracle数据库表中提取第三步语音识别处理分析中筛选得到的数据信息，在信息处理分析界面中统计分析录音文件所对应电话订货人员工作情况，其内容包括电话订货服务质量是否合格、服务标准用语是否达标、服务禁语出现频率是否超标相关考核信息，实现分析结果的查询、存储、打印及保存快照功能，以方便管理人员对分析处理结果的管理和应用。

2.根据权利要求1所述的语音词库筛选方法，其特征在于，所述的关键词库管理模块进行关键词的选择，是在任意一台能连接到关键词数据库服务器的计算机上运行关键词库管理模块界面，在界面中设置查询条件为 “不知道”或“不清楚”，在查询结果中勾选“不知道”和“不清楚”这两个词语。

3.根据权利要求1所述的语音词库筛选方法，其特征在于，所述的语音识别处理分析模块进行关键词的对比识别和统计分析，是在PC机上，调用安装在应用服务器上的语音识别处理分析模块管理界面，选择人员为某号至某号电话订货员，在“应用已选择确定的关键词”前打勾，确认应用已选择的关键词进行对比识别，点击“对比识别”，则***模块自动根据确定的条件，对指定时间段内的录音文件进行“不知道”、“不清楚”两个关键词的对比识别，在对比识别结果中点“保存对比识别结果”，即可实现对比识别结果中包含“不知道”、“不清楚”这两个关键词的录音文件记录、关键词出现的个数、频率计数信息的保存。

4.根据权利要求1所述的语音词库筛选方法，其特征在于，所述的信息处理分析模块进行对比识别结果信息的分析处理，是在PC计算机上，根据使用人员的统计分析需要，选择对应的统计条件，把某号至某号电话订货员的电话订货服务录音中出现“不知道”、“不清楚”的两条服务禁语，按出现次数、所占比例数据进行正序或逆序排序，并记录到指定的数据库表中，供用户查询、打印应用。