CN115101051A - 一种多通道语音识别装置及其语音转文字方法 - Google Patents

一种多通道语音识别装置及其语音转文字方法 Download PDF

Info

Publication number
CN115101051A
CN115101051A CN202210695916.8A CN202210695916A CN115101051A CN 115101051 A CN115101051 A CN 115101051A CN 202210695916 A CN202210695916 A CN 202210695916A CN 115101051 A CN115101051 A CN 115101051A
Authority
CN
China
Prior art keywords
voice
word
vocabulary
module
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210695916.8A
Other languages
English (en)
Inventor
胡劲松
冯思铭
杨皓晖
连泽涛
贺映玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202210695916.8A priority Critical patent/CN115101051A/zh
Publication of CN115101051A publication Critical patent/CN115101051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种多通道语音识别装置及其语音转文字方法,用于识别电力调度过程中的语音指令和对话。电力智能化调度需要3个语音识别功能:调度员通话语音识别、现场人员通话语音识别、调度员语音指令操作,因此有3个语音源输入,目前的做法是用多个语音识别装置,为避免装置之间的干扰,还需要人工频繁开关切换,本发明设计了一种单声卡三音源装置,用一个普通内置声卡的Mic接口和Line in接口,解决了上述三个语音源的识别,同时,本发明提出差频原理,自动建立本地电力差频专用词库,能识别本地电力部门的专用词汇。

Description

一种多通道语音识别装置及其语音转文字方法
技术领域
本发明涉及语音识别的技术领域,尤其是指一种多通道语音识别装置及其语音转文字方法。
背景技术
在电力调度过程中,使用语音识别技术,可以提高效率,进一步实现调度自动化和智能化。除了识别调度员发出的语音指令外,还需要识别调度员和现场人员之间的电话通话,把这些通话变为文本后存储起来可以实现调度日志的快速查询,进一步还可以实现更为高级的智能操作票功能。所以,电力调度***需要实现三个语音识别功能:调度员指令识别、调度员通话识别、现场人员通话识别。当然,一个调度员不可能同时发出语音指令和打电话。目前普遍使用的方法是在一台电脑上用一个麦克风实现一个语音源的识别,通过开关进行切换语音指令和通话识别功能,这种方案有比较明显的缺点:
1、三个音源输入,都要麦克风,用开关切换极为不便;
2、因为只有一个语音识别装置和麦克风,为了识别电话对话,只能用免提外放,通过麦克风再输入识别,环境噪声太大,严重影响识别率;
3、因为只有一个语音识别装置,调度员和现场人员通话时必须保证:当一人说话时,另一人静默,否则无法语音识别;
以上方案也是目前智能音箱的语音识别方案,显然不适合电力调度***。
此外,还有一个重要的技术问题要解决。电力调度中通常涉及大量的电力专业术语以及各个电力部门特有的地名、线路、电站、特定编号的设备名乃至人名,由于语言中大量同音词的存在,目前的语音识别技术往往把这些平时比较生僻的专用词汇识别成其它常见的普通词汇,因而错误率比较高,难以满足电力专业的需要。因此,造成以上问题的主要原因在于:目前的语音识别技术是基于频率优先匹配,当语音变为拼音之后,会优先匹配那些平时出现频率较高的通用词汇、热门词汇。
有些文献提出加入专用的词汇,但还是存在3个问题:
1、本地电力部门的专用词汇不会在通用的词汇库中出现,需要各个地区的电力部门根据自己部门的需要手工建立,要调度员在大量本地文本资料中逐个筛选专用词汇,此外,这些专用词汇还要不断更新、替换和统计刷新频率,费时费力,而调度部门平时责任重大,任务繁重,难以分身。
2、在词库中加入专用词汇和通用的热门词汇合一起,专用词汇出现频率较低,在拼音相同的情况下,仍然会优先热门词汇。
3、目前的匹配都是以一个拼音串的首字母为起点,向后逐个开始转换为文字,因为噪声的干扰和同音字的存在,后面重要的专用词汇的某些拼音可能和前面的拼音提前组合转换成了其它词组,导致错误。例如本来要XXX线路的刀闸合闸,结果变成了其它线路合闸,造成严重的后果。相反,普通词汇的错误相对可以接受。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供了一种多通道语音识别装置,可以准确识别电力调度语音指令、调度员和现场人员通话语音,其关键是如何用较小的代价实现三个语音源的识别,此外还需要解决电力调度中的专用词汇的识别,尤其是本地电力部门的专用词汇,例如本地特有的地名、线路、电站、特定设备名乃至人名。
本发明的第二目的在于提供一种多通道语音识别装置的语音转文字方法。
为规范化,本发明的有关名词定义如下:所述的词汇指中文词组,一个中文词组包括至少2个中文字,本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,本地专用词汇和专业术语统称专用词汇,其它称为通用词汇;所述词频指一个词汇出现的频率;所述差频指词汇的频率差异;所述匹配即求拼音串A的一部分拼音和某个中文词组或字的正确拼音之间的相似度,在本发明中也简称为拼音与文字或词汇的匹配。
本发明的第一目的通过下述技术方案实现:一种多通道语音识别装置,包括:***听器、声卡、语音功能切换单元、第一语音转文字单元和第二语音转文字单元;
所述***听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号;
所述声卡包含第一Line in接口、第二Line in接口、Mic接口,此三个输入接口分别对应接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟语音信号,通过声卡的模/数电路转换为数字信号,调度员通话语音的数字信号和调度员语音指令的数字信号输出到语音功能切换单元,现场人员通话语音的数字信号输出到第二语音转文字单元;
所述语音功能切换单元负责在所述调度员通话或调度员语音指令两个数字信号进行切换,使得所述第一语音转文字单元同一时间只识别一个数字信号;
所述第一语音转文字单元接收调度员通话的数字信号或调度员语音指令的数字信号,将其识别为相应的文字;
所述第二语音转文字单元接收现场人员通话语音的数字信号,将其识别为相应的文字。
优选的,所述声卡、语音功能切换单元、第一语音转文字单元、第二语音转文字单元都内置在同一台电脑内,所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个CPU的两个核心并行实现。
优选的,所述多通道语音识别装置,还包括:
差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到最低级子库,存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇。
优选的,所述差频专用词库单元包括:一、二、三、四级子库模块,用于存储一、二、三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面;
所述一、二、三、四级子库模块由构建单元得到并更新,所述构建单元包括:
文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块;
专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数×该词长度/全部资料总字数;
通用词频词典模块,用于对包括***语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数×该词长度/全部资料总字数;
差频操作模块,用于对专用词频词典的每个词汇做差频操作,所述差频操作即:
差频值=一个词汇的专用词频-k×其通用词频,此处k为固定的系数;
差频分配模块,用于将差频值排名前25%的词汇存入一级子库模块,26%至50%的词汇存入二级子库模块,51%至75%的词汇存入三级子库模块,其它大于0的词汇存入四级,差频值小于或等于0的舍去。
优选的,所述第一语音转文字单元与第二语音转文字单元相同,都包括以下模块:
级别优先匹配模块:语音转拼音后得到字母和音调组成的一个拼音串,设其名为A,A变成文字的过程中,优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一级,直到最后一级子库模块;
频率优先匹配模块:在级别优先匹配模块完成匹配之后,对A余下的拼音与通用词汇的拼音进行匹配,通用资料中出现的频率高的非专用词汇优先匹配,最后余下的拼音与单个中文字的拼音匹配。
优选的,所述级别优先匹配模块包括:
逆向取词模块:在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为B,如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块;
任意位置转换拼音模块:在A中搜索类似于B的子串C,如B与C匹配成功,则将C转换为相应的中文词组。如A中有多个类似于B的子串,则都要重复上面操作;所述子串C能够位于A的任意位置。
优选的,所述多通道语音识别装置,还包括:主题词共享单元,用于提取调度员与现场工作人员已有对话文本中的主题词,提供给第一语音转文字单元和第二语音转文字单元查询,以提高后续对话识别率,包括以下模块:
主题词确定模块:统计前文重复的词汇及其重复次数;如果该重复词汇是差频专用词汇,则将该词汇加入主题词队列,否则舍去,所述前文为第一语音转文字单元和第二语音转文字单元转化已有对话语音得到的文字;
主题词队列排序模块:设从开始本次语音识别启动至当前待识别句子为止,已有n个对话句子被识别,当前待识别句子编号为第n+1句,则一个重复词汇的主题值为:
Figure BDA0003702507480000061
其中i、j为该词汇在第i、j句时重复,省略号表示其它重复句子,i,j<n,G为该词汇所属的差频专用词库的子库的级别,其取值为1至4整数。计算前n个句子中所有主题词的主题值,再按主题值从大至小排队,得到主题词队列。
优选的,所述第一语音转文字单元与第二语音转文字单元,还包括:主题词匹配模块,用于在级别优先匹配模块之前先进行主题词匹配,将A与主题词队列进行匹配,从队列第一个主题词汇开始,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一主题词,直到队列最后一个主题词;本模块只有在识别调度员与现场人员的电话对话时才启用。
优选的,所述匹配由以下两个模块实现,包括:
计算音素编辑距离模块:音素编辑距离指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数,所述音素指拼音的声母或韵母,许可的编辑操作包括:***一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次,以上操作不包含音调;
判断输出模块:如果匹配的是专用词汇,则当音素编辑距离小于给定阈值时,输出音素编辑距离和匹配成功信号,否则给出匹配失败信号;如果匹配的是通用词汇,则输出音素编辑距离。
本发明的第二目的通过下述技术方案实现:一种多通道语音识别装置的语音转文字方法,包含以下步骤:
S1、语音转拼音:对语音的数字化信号进行分析、识别,并获得语音对应的整句拼音A;
S2、对话判断:判断当前是语音指令还是电话对话输入;如果是电话对话输入,则进入S3,否则进入S4;
S3、主题词匹配;
S4、级别优先匹配;
S5、频率优先匹配;
S6、余下的拼音匹配单个汉字,得到整句文本;
S7、输出整句文字,并将由匹配得到的各种词汇分类输出到主题词共享单元、差频专用词库、通用词频词典,以刷新主题词队列、词汇频率、差频值及排序;
S8、若继续输入语音,则转S1,否则下一步;
S9、结束。
本发明与现有技术相比,具有如下优点与有益效果:
1、可在一台普通的台式电脑上实现电力智能化调度需要的3个语音识别功能:调度员通话语音识别、现场人员通话语音识别、调度员语音指令操作,不需要多个语音识别装置,节约了成本。
2、避免了调度员通话语音和现场人员通话语音之间的噪声干扰,因而提高了识别率。
3、三个语音识别功能之间不需要人工频繁开关切换。
4、本发明可自动地区分通用词汇和电力调度领域专用词汇,尤其是那些本地电力部门的专用词汇,从而不需要各个地区的电力部门手工建库,***将把这些专用词汇存入一个分级的差频专用词库中并不断刷新、更新和替换,从而节约了调度员们大量的时间和精力。
5、本发明的级别优先匹配法以电力调度专用词汇为重点优先匹配,减少了现有语音识别方法因为优先热门通用词汇造成的错误,从而提高了电力调度中的语音识别准确率,减少了调度指令识别的错误,可减少电力调度事故,提高调度效率,更好的实现调度智能化。
附图说明
图1是多通道语音识别装置的结构框图。
图2是语音转文字过程流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
参见图1所示,本实施例公开了一种多通道语音识别装置,包括:
***听器、第一阻抗匹配装置K1、第二阻抗匹配装置K2、声卡、语音功能切换单元、第一语音转文字单元M1、第二语音转文字单元M2、差频专用词库单元、构建单元、主题词共享单元。
***听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号,分别对应输出到第一阻抗匹配装置K1、第二阻抗匹配装置K2。
第一阻抗匹配装置K1和第二阻抗匹配装置K2,其阻抗可以调节,使得输入的模拟语音信号的强度发生变化,以适应声卡的Line in接口的信号强度要求,第一阻抗匹配装置K1和第二阻抗匹配装置K2分别对应输出到声卡的第一Line in接口1、第二Line in接口2。当然,如果模拟语音信号的强度刚好在声卡的适应范围之内,可以不用阻抗匹配装置。
声卡包含第一Line in接口1、第二Line in接口2、Mic接口,此三个输入接口分别接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟信号,通过声卡的3个模/数电路转换为3个数字语音信号,其中现场人员语音的数字信号输出到第二语音转文字单元M2,其余两个输出到语音功能切换单元。
语音功能切换单元负责在调度员通话或调度员语音指令两个数字语音信号进行切换,使得第一语音转文字单元M1同一时间只识别一个语音信号;正常情况下,语音功能切换单元默认接通Mic接口后的模/数电路,使其输出的指令语音数字信号到第一语音转文字单元M1;当调度专用电话机响铃,该特定铃声作为触发声音信号被麦克风收到,经过Mic接口输入声卡,语音功能切换单元比对预留的铃声频谱波形,确认是该专用电话特定铃声后,则切换到接通第一Line in接口1后的模/数电路,使得调度员通话语音数字信号输入第一语音转文字单元M1;当挂断电话时,电话挂断信号触发语音功能切换单元,则又切换到接通Mic接口后的模/数电路。
第一语音转文字单元M1接收调度员通话的数字语音信号或调度员语音指令的数字语音信号,将其识别为相应的文字并输出,这些文字同时会作为构建单元的输入,用于更新差频词汇及差频值;这些文字同时还会作为构主题词共享单元的输入,用于提取调度员与现场人员电话通话的主题词。
第二语音转文字单元M2接收现场人员通话语音的数字化信号,将其识别为相应的文字并输出;这些文字同时会作为构建单元的输入,用于更新差频词汇及差频值;这些文字同时还会作为构主题词共享单元的输入,用于提取调度员与现场人员电话通话文本中的主题词,同时因为M1和M2共享了差频专用词库单元、主题词共享单元,所以M1和M2不是两个独立的进程,而是相互作用且互补,共同促进,从而可以提高识别的准确率。在后文中会进一步详述M1和M2的细节。
上述声卡、语音功能切换单元、第一语音转文字单元M1、第二语音转文字单元M2都在同一台电脑内,由该电脑的硬件和软件实现,所述第一语音转文字单元M1、第二语音转文字单元M2分别由所述电脑的一个CPU的两个核心并行执行两个进程实现。
电力调度中的专用词汇的重要性高于普通词汇,因此要优先保证其识别率,因而要建立专用词汇库,进一步,有噪声的环境影响匹配的相似度,因此匹配相似度相差不大的情况下,要优先匹配高级别的专用词汇。
差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其差频值决定,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到四级子库,用于存储一、二、三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面。
此外,装置可通过程序自动建差频专用词汇库。要自动地将专用词汇与普通词汇区别出来,必须利用其差异。专用词汇,特别是本地专用词汇,例如:当用户的命令语音为:“投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸”时,其中专用词汇“岳钢湘石线”,一般不会出现在普通的新闻或文章中,而会出现在本地电力调度日志、工作票、设备记录及本地通话文本记录,相反,上文的通用词汇如“投入”在普通的文章或网文中会频繁出现,此外词汇“刀闸”则在本地文本、电力学术文章和新闻报道中都可能出现,因此本专利提出:词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低。
构建单元,用于自动建差频专用词汇库并更新差频专用词库单元中的词汇和差频值,包括:
1)文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元M1和第二语音转文字单元M2得到并持续地提供给文字资料采集模块;
2)专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数×该词长度/全部资料总字数;
3)通用词频词典模块,用于对包括***语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数×该词长度/全部资料总字数;
4)差频操作模块,用于对专用词频词典的每个词汇做差频操作,所述差频操作即:
差频值=一个词汇的专用词频-k×其通用词频,此处k为固定的系数;
5)差频分配模块,用于将差频值排名前25%的词汇存入一级子库模块,26%至50%的词汇存入二级子库模块,51%至75%的词汇存入三级子库模块,其它大于0的词汇存入四级,差频值小于或等于0的舍去。
调度员与现场检修人员进行语音对话交流时,往往有较大的施工背景噪声,使得语音识别的准确率下降严重。在有噪声的环境中,有些词句可能听不太清楚,人们往往可以由对话的上下文猜测出某些没有听清楚的词句,但目前的语音识别算法仅仅考虑对单句语音进行识别,不能利用对话上下文中连贯的主题语义,这也是目前语音识别算法的弱点。一种优选的方案是在级别优先匹配之前加入主题词匹配,明确了对话的主题,可以提高整段对话的识别率。
主题词共享单元,用于提取调度员与现场工作人员已有对话文本中的主题词,提供给第一语音转文字单元M1和第二语音转文字单元M2查询,以提高后续对话识别率,包括以下模块:
1)主题词确定模块:统计前文重复的词汇及其重复次数;如果该重复词汇是差频专用词汇,则将该词汇加入主题词队列,否则舍去,所述前文为第一语音转文字单元M1和第二语音转文字单元M2转化已有对话语音得到的文字;
2)主题词队列排序模块:设从开始本次语音识别启动至当前待识句子为止,已有n个对话句子被识别,当前待识别句子编号为第n+1句,则一个重复词汇的主题值为:
Figure BDA0003702507480000121
其中i、j为该词汇在第i、j句时重复,省略号表示其它重复句子,i,j<n,G为该词汇所属的差频专用词库的子库的级别,其取值为1至4整数。计算前n个句子中所有主题词的主题值,再按主题值从大至小排队,得到主题词队列;
第一语音转文字单元M1与第二语音转文字单元M2相同,都包括以下模块:
1)主题词匹配模块:语音转拼音后得到字母和音调组成的一个拼音串,设其名为A,A变成文字的过程中,先进行主题词匹配,将A与主题词队列进行匹配,从队列第一个主题词汇开始,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一主题词,直到队列最后一个主题词;本模块只有在识别调度员与现场人员的电话对话时才启用,否则直接进入级别优先匹配模块。
2)级别优先匹配模块:主题词匹配之后,A余下的拼音优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一级,直到最后四级子库模块;级别优先匹配模块包括两个子模块:逆向取词模块:在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为B,如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块;任意位置转换拼音模块:在A中搜索类似于B的子串C,如B与C匹配成功,则将C转换为相应的中文词组。如A中有多个类似于B的子串,则都要重复上面操作;所述子串C能够位于A的任意位置。
3)频率优先匹配模块:在级别优先匹配模块完成匹配之后,对A余下的拼音与通用词汇的拼音进行匹配,通用资料中出现的频率高的非专用词汇优先匹配,最后余下的拼音与单个中文字的拼音匹配。
语音转文字单元中所用的匹配由匹配模块实现,拼音和词汇及文字的匹配可以按照公知的方法,本发明提供一种优选的匹配方案包括以下两个模块实现:
1)计算音素编辑距离模块:指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数,所述音素指拼音的声母或韵母,许可的编辑操作包括:***一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次;例:假定由于说话人的普通话不标准,岳塘站“yue4 tang2 zhan4”说成了“yue4tan2 zhan4”,则通过替换一个韵母ang就可以得到正确的拼音,此处an和ang是互为模糊音,因此音素编辑距离为0.5。
2)判断输出模块:如果匹配的是专用词汇,则当音素编辑距离小于给定阈值时,输出音素编辑距离和匹配成功信号,否则给出匹配失败信号;如果匹配的是通用词汇,则输出音素编辑距离。
此处不考虑拼音的音调,因为中国方言众多,各地发音相差较大,很多人难以区分音调,加上语调和语气的变化也影响音调。
如图2所示,本实施例上述多通道语音识别装置的的语音转文字方法,包括以下步骤:
S1、语音转拼音。采用公知的深度学习语音识别算法对语音的数字化信号进行分析、识别,并获得语音对应的整句拼音。例如:当用户的命令语音为:“投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸”时,通过S3步骤的转化,会得到[tou2 ru4 yue4 tang2 zhan4yue4 gang1 xiang1 shi2 xian4 san1 wu3 jie1 di4 dao1 zha2 he2 san1 liu4 jie1di4 dao1 zha2],称之为拼音串A;
S2、对话判断。根据语音功能切换单元的状态可以判断:当前是语音指令还是电话对话输入;如果是调度员与现场人员的电话对话,则进入S3,否则进入S4;
S3、主题词匹配模块:查询主题词共享单元,将A与主题词共享单元中的主题词队列进行匹配,从队列第一个主题词汇开始,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一主题词,直到队列最后一个主题词;
S4、利用级别优先匹配模块对所述整句拼音进行中文文本匹配,需要查询差频专用词汇库。例如,岳塘站、岳钢湘石线、接地刀闸这些都是专用词汇,差频值排序:岳塘站(1级)>岳钢湘石线(2级)>接地刀闸(3级)。1)逆向取词:从一级子库按差频值从大至小逐一取词,每取一个词就到拼音串A中查找是否有匹配的子串。目前的匹配方法是从串A取拼音,到词汇库查找,本专利的方法与其相反,所以称之为逆向取词;2)任意位置转换:目前的方法都是从第一个字母开始转换文字,本方法则不同,子串可以在串A的任意位置转换,如匹配差距大于给定阈值就放弃,再取后一个词,直到岳塘站拼音“yue4 tang2 zhan4”,可以匹配拼音串A中的相应部分,从而拼音串A变为[tou2 ru4岳塘站yue4 gang1 xiang1 shi2xian4 san1 wu3 jie1 di4 dao1 zha2 he2 san1 liu4 jie1 di4 dao1 zha2]。此处逆向取词和任意位置转换是专门针对差频专用词汇设计的,与目前公知的方法不同。同理,之后会将串A余下的专用词汇转化:[tou2 ru4岳塘站岳钢湘石线san1 wu3接地刀闸he2 san1liu4接地刀闸];
S5、频率优先匹配模块匹配拼音与通用词汇。当串A中的全部专用词汇都转换完,就按照公知的频率优先方法匹配通用词汇:按照从前至后的顺序,取tou2 ru4,查通用字典,得到“投入”,串A变为:[投入岳塘站岳钢湘石线san1 wu3接地刀闸he2 san1 liu4接地刀闸];
S6、余下的拼音匹配单个汉字,得到整句文本[投入岳塘站岳钢湘石线35接地刀闸和36接地刀闸];
S7、输出整句文字;并将由匹配得到的各种词汇分类输出到主题词共享模块、差频专用词库、通用词频词典,以刷新主题词队列、词汇频率、差频值及排序;例:刷新差频词汇岳塘站、岳钢湘石线的差频值并更新其在差频词汇库中的排序,未出现的差频词汇无需频繁刷新;如果这些词汇还在以前的句子中出现,还要刷新主题词队列,如果以前的句子没有,则新加入队列,放在最后。
S8、如继续输入语音,则转S1,否则下一步;
S9、结束。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种多通道语音识别装置,其特征在于,包括:***听器、声卡、语音功能切换单元、第一语音转文字单元和第二语音转文字单元;
所述***听器和调度员的电话机并联在同一根电话线,获取调度员和现场人员通话的2路模拟语音信号;
所述声卡包含第一Line in接口、第二Line in接口、Mic接口,此三个输入接口分别对应接收调度员通话语音、现场人员通话语音、调度员语音指令三个模拟语音信号,通过声卡的模/数电路转换为数字信号,调度员通话语音的数字信号和调度员语音指令的数字信号输出到语音功能切换单元,现场人员通话语音的数字信号输出到第二语音转文字单元;
所述语音功能切换单元负责在所述调度员通话或调度员语音指令两个数字信号进行切换,使得所述第一语音转文字单元同一时间只识别一个数字信号;
所述第一语音转文字单元接收调度员通话的数字信号或调度员语音指令的数字信号,将其识别为相应的文字;
所述第二语音转文字单元接收现场人员通话语音的数字信号,将其识别为相应的文字。
2.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述声卡、语音功能切换单元、第一语音转文字单元、第二语音转文字单元都内置在同一台电脑内,所述第一语音转文字单元、第二语音转文字单元分别由所述电脑的一个CPU的两个核心并行实现。
3.根据权利要求1所述的一种多通道语音识别装置,其特征在于,还包括:
差频专用词库单元,用于存储分级的专用词汇及其拼音,以供两个语音转文字单元查询,从而提高专用词汇匹配的准确率,词汇的级别由其两个频率的差异决定,即在专用资料中出现的频率越高该词汇级别越高,而在通用资料中出现的频率越高该词汇级别越低,所述词汇指中文词组,一个中文词组包括至少2个中文字,所述专用词汇包括本地专用词汇和专业术语,所述本地专用词汇指仅在本机、本地局域网、一个特定的地域、群体或部门中使用的词汇,同级别的专用词汇存储在同一个子库内,最高级子库为一级子库,以下依次为二级到最低级子库,存储在差频专用词汇库单元中的词汇称之为差频专用词汇或差频词汇。
4.根据权利要求3所述的一种多通道语音识别装置,其特征在于,所述差频专用词库单元包括:一、二、三、四级子库模块,用于存储一、二、三、四级差频词汇及其差频值,同一级子库中差频值越高的词汇在子库排队越前面;
所述一、二、三、四级子库模块由构建单元得到并更新,所述构建单元包括:
文字资料采集模块,用于采集包括本地电力调度日志、工作票、设备记录和通话文本的文字资料,并搜索网络上的电力专业学术文章,所述通话文本由第一语音转文字单元和第二语音转文字单元得到并持续地提供给文字资料采集模块;
专用词频词典模块,用于对采集的文字资料进行清理、分词操作,获得词汇列表,接着对词汇列表进行专用词频统计并保存;其中,专用词频=该词重复的次数×该词长度/全部资料总字数;
通用词频词典模块,用于对包括***语料库及新浪、搜狐、网易三大网站的新闻进行分词操作,获得词汇列表,接着对词汇列表进行通用词频统计并保存,其中,通用词频=该词重复的次数×该词长度/全部资料总字数;
差频操作模块,用于对专用词频词典的每个词汇做差频操作,所述差频操作即:
差频值=一个词汇的专用词频-k×其通用词频,此处k为固定的系数;
差频分配模块,用于将差频值排名前25%的词汇存入一级子库模块,26%至50%的词汇存入二级子库模块,51%至75%的词汇存入三级子库模块,其它大于0的词汇存入四级,差频值小于或等于0的舍去。
5.根据权利要求1所述的一种多通道语音识别装置,其特征在于,所述第一语音转文字单元与第二语音转文字单元相同,都包括以下模块:
级别优先匹配模块:语音转拼音后得到字母和音调组成的一个拼音串,设其名为A,A变成文字的过程中,优先与差频专用词库单元的一级子库模块存储词汇的拼音匹配,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一级,直到最后一级子库模块;
频率优先匹配模块:在级别优先匹配模块完成匹配之后,对A余下的拼音与通用词汇的拼音进行匹配,通用资料中出现的频率高的非专用词汇优先匹配,最后余下的拼音与单个中文字的拼音匹配。
6.根据权利要求5所述的一种多通道语音识别装置,其特征在于,所述级别优先匹配模块包括:
逆向取词模块:在一级子库模块内未匹配过的词汇中取差频值最高词汇的拼音,设其名称为B,如果一级子库模块中的词汇都已经进行过匹配操作则顺延到下一级子库模块;
任意位置转换拼音模块:在A中搜索类似于B的子串C,如B与C匹配成功,则将C转换为相应的中文词组。如A中有多个类似于B的子串,则都要重复上面操作;所述子串C能够位于A的任意位置。
7.根据权利要求1所述的一种多通道语音识别装置,其特征在于,还包括:主题词共享单元,用于提取调度员与现场工作人员已有对话文本中的主题词,提供给第一语音转文字单元和第二语音转文字单元查询,以提高后续对话识别率,包括以下模块:
主题词确定模块:统计前文重复的词汇及其重复次数;如果该重复词汇是差频专用词汇,则将该词汇加入主题词队列,否则舍去,所述前文为第一语音转文字单元和第二语音转文字单元转化已有对话语音得到的文字;
主题词队列排序模块:设从开始本次语音识别启动至当前待识别句子为止,已有n个对话句子被识别,当前待识别句子编号为第n+1句,则一个重复词汇的主题值为:
Figure FDA0003702507470000041
其中,i、j为该词汇在第i、j句时重复,省略号表示其它重复句子,i,j<n,G为该词汇所属的差频专用词库的子库的级别,其取值为1至4整数。计算前n个句子中所有主题词的主题值,再按主题值从大至小排队,得到主题词队列。
8.根据权利要求5所述的一种多通道语音识别装置,其特征在于,还包括:主题词匹配模块,用于在级别优先匹配模块之前先进行主题词匹配,将A与主题词队列进行匹配,从队列第一个主题词汇开始,匹配成功则A的部分拼音变成文字,匹配不成功再考虑下一主题词,直到队列最后一个主题词;本模块只有在识别调度员与现场人员的电话对话时才启用。
9.根据权利要求8所述的一种多通道语音识别装置,其特征在于,所述匹配由以下两个模块实现,包括:
计算音素编辑距离模块:音素编辑距离指两个拼音串之间,由一个转换成另一个所需的最少音素编辑操作次数,所述音素指拼音的声母或韵母,许可的编辑操作包括:***一个声母/韵母、删除一个声母/韵母、将一个声母/韵母替换成另一个,一次模糊音之间的替换只算0.5次,以上操作不包含音调;
判断输出模块:如果匹配的是专用词汇,则当音素编辑距离小于给定阈值时,输出音素编辑距离和匹配成功信号,否则给出匹配失败信号;如果匹配的是通用词汇,则输出音素编辑距离。
10.权利要求1-9任意一项所述的一种多通道语音识别装置的语音转文字方法,其特征在于,包含以下步骤:
S1、语音转拼音:对语音的数字化信号进行分析、识别,并获得语音对应的整句拼音A;
S2、对话判断:判断当前是语音指令还是电话对话输入;如果是电话对话输入,则进入S3,否则进入S4;
S3、主题词匹配;
S4、级别优先匹配;
S5、频率优先匹配;
S6、余下的拼音匹配单个汉字,得到整句文本;
S7、输出整句文字,并将由匹配得到的各种词汇分类输出到主题词共享单元、差频专用词库、通用词频词典,以刷新主题词队列、词汇频率、差频值及排序;
S8、若继续输入语音,则转S1,否则下一步;
S9、结束。
CN202210695916.8A 2022-06-20 2022-06-20 一种多通道语音识别装置及其语音转文字方法 Pending CN115101051A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210695916.8A CN115101051A (zh) 2022-06-20 2022-06-20 一种多通道语音识别装置及其语音转文字方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210695916.8A CN115101051A (zh) 2022-06-20 2022-06-20 一种多通道语音识别装置及其语音转文字方法

Publications (1)

Publication Number Publication Date
CN115101051A true CN115101051A (zh) 2022-09-23

Family

ID=83289978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210695916.8A Pending CN115101051A (zh) 2022-06-20 2022-06-20 一种多通道语音识别装置及其语音转文字方法

Country Status (1)

Country Link
CN (1) CN115101051A (zh)

Similar Documents

Publication Publication Date Title
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US8244540B2 (en) System and method for providing a textual representation of an audio message to a mobile device
US20150348542A1 (en) Speech recognition method and system based on user personalized information
US6990445B2 (en) System and method for speech recognition and transcription
CN102903361A (zh) 一种通话即时翻译***和方法
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
US7406408B1 (en) Method of recognizing phones in speech of any language
CN111489743A (zh) 一种基于智能语音技术的运营管理分析***
CN114822545A (zh) 一种提高专业领域语音识别率的方法
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
Ramabhadran et al. Acoustics-only based automatic phonetic baseform generation
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
JP2000200273A (ja) 発話意図認識装置
Ronzhin et al. Russian voice interface
CN111341300A (zh) 一种获取语音比对音素的方法、装置和设备
CN115101051A (zh) 一种多通道语音识别装置及其语音转文字方法
CN114818663B (zh) 一种分级的智能拼音与文字匹配方法
WO2001015140A1 (en) Speech recognition system for data entry
CN111652005B (zh) 汉语与乌尔都语同步互译***及方法
CN112487804B (zh) 一种基于语义上下文场景的中文小说语音合成***
CN113160804A (zh) 混合语音的识别方法及装置、存储介质、电子装置
CN107342080B (zh) 一种会议现场同步速记的***和方法
CN115019777B (zh) 一种在线学习语音识别应答装置及方法
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination