CN112735394A - 一种语音的语义解析方法及装置 - Google Patents
一种语音的语义解析方法及装置 Download PDFInfo
- Publication number
- CN112735394A CN112735394A CN202011488961.3A CN202011488961A CN112735394A CN 112735394 A CN112735394 A CN 112735394A CN 202011488961 A CN202011488961 A CN 202011488961A CN 112735394 A CN112735394 A CN 112735394A
- Authority
- CN
- China
- Prior art keywords
- recognition results
- text
- target
- text recognition
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 abstract description 23
- 238000012937 correction Methods 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 240000005373 Panax quinquefolius Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音的语义解析方法及装置,其中,该方法包括:获取语音数据的多个文本识别结果,以及该多个文本识别结果对应的音素识别结果;从该多个文本识别结果中获取置信度最高的目标识别结果;根据该目标识别结果确定该语音数据所属的领域分类结果;在该语音数据所属的预设文本领域中,根据该多个文本识别结果,以及该多个文本识别结果对应的音素识别结果确定该语音数据的音乐名称,可以解决相关技术中由于同音字只能通过纠错发送处理,语音交互***在音乐名称识别准确性低,使得交互成功率较低的问题,提高了音乐名称识别的准确性,也提升用户在音乐领域交互时的交互成功率。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种语音的语义解析方法及装置。
背景技术
在现代日常生活中,用户通常喜欢通过智能语音对话***调用终端设备,如音箱、手机等进行歌曲的播放,但由于部分歌曲的名字本身不存在上下文的相关性,在识别准确率及交互成功率上的表现都不尽人意。该发明针对音乐领域歌曲名称在智能对话***中交互成功率较差的技术问题,提出利用语音识别解码器中Lattice搜索路径输出最高置信度打分的音素级N-Best识别结果后,调用语义解析、音素的编辑距离算法筛选得到最终的解析结果,以提高音乐领域的交互成功率。
现有的语音对话***中,通过语义交互***从输入设备中获取来自用户的自然语音音频数据,将该音频数据输入至云端进行识别引擎调用,返回文本形式识别结果,将该识别结果进行语义解析,即:通过一个拒识模块进行识别结果的文本过滤,识别文本是否在识别语法之内,通过分类器得到分类结果;继而使用BNF(巴科斯范式)进行正则匹配,返回匹配结果。
上述技术方案中,调用流程和方法过于依赖识别引擎的识别结果,同音字等常见形式的错误只能通过纠错等其他方式处理,导致语音交互***在音乐领域中的交互成功率较低,不能满足用户的使用需求。比如,歌曲名称为“三生石上”,识别结果可能为“三生十上”。这种识别结果导致的交互失败是音乐领域语义解析导致交互失败的常见原因。
针对相关技术中由于同音字只能通过纠错发送处理,语音交互***在音乐名称识别准确性低,使得交互成功率较低的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种语音的语义解析方法及装置,以至少解决相关技术中由于同音字只能通过纠错发送处理,使得音乐领域语义解析准确性低的问题。
根据本发明的一个实施例,提供一种语音的语义解析方法,包括:
获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
从所述多个文本识别结果中获取置信度最高的目标识别结果;
根据所述目标识别结果确定所述语音数据所属的领域分类结果;
在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
可选地,根据所述目标识别结果确定所述语音数据所属的领域分类结果包括:
对所述文本识别结果进行槽位提取,得到槽位信息;
根据所述槽位信息获取所述语音数据的文本信息;
根据所述文本信息确定所述语音数据所属的领域分类结果。
可选地,根据所述文本信息确定所述语音数据所属的领域分类结果包括:
将所述文本信息输入预先训练好的深度神经网络模型中,得到所述深度神经网络模型输出的所述文本信息对应的领域分类结果。
可选地,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称包括:
对所述多个文本识别结果进行槽位提取,得到所述多个文本识别结果对应的槽位信息;
分别根据所述多个文本识别结果对应的槽位信息获取所述多个文本识别结果的名称文本信息;
分别从所述多个文本识别结果对应的音素识别结果中获取所述槽位信息对应的目标音素,得到多个目标音素识别结果;
根据所述多个目标音素识别结果确定所述语音数据的音乐名称。
可选地,根据所述多个目标音素识别结果确定所述语音数据的音乐名称包括:
分别确定所述多个目标音素识别结果与音乐清单列表中音乐名称对应音素的编辑距离,其中,所述音乐清单列表中存储有多个音乐名称与音素的对应关系;
获取最小所述编辑距离对应的目标音素识别结果;
根据所述目标音素识别结果、以及所述目标音素识别结果对应的一个或多个文本识别结果确定所述语音数据的音乐名称。
可选地,根据所述目标音素识别结果、以及所述目标音素识别结果对应的一个或多个文本识别结果确定所述语音数据的音乐名称包括:
若所述目标音素识别结果对应一个文本识别结果,确定所述目标音素识别结果对应的音乐名称为所述语音数据的音乐名称;
若所述目标音素识别结果对应多个文本识别结果,分别确定所述目标音素识别结果对应的多个文本识别结果与所述音乐清单列表中音乐名称的编辑距离;获取最小所述编辑距离对应的目标文本识别结果,确定所述目标文本识别结果对应的音乐名称为所述语音数据的音乐名称。
可选地,获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果包括:
对所述语音数据进行语音识别,得到所述多个文本识别结果;
将所述多个文本识别结果进行音素转换,得到所述多个文本识别结果对应的音素识别结果。
根据本发明的另一个实施例,还提供一种语音的语义解析装置,包括:
第一获取模块,用于获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
第二获取模块,用于从所述多个文本识别结果中获取置信度最高的目标识别结果;
第一确定模块,用于根据所述目标识别结果确定所述语音数据所属的领域分类结果;
第二确定模块,用于在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
可选地,所述第一确定模块包括:
第一提取子模块,用于对所述文本识别结果进行槽位提取,得到槽位信息;
第一获取子模块,用于根据所述槽位信息获取所述语音数据的文本信息;
第一确定子模块,用于根据所述文本信息确定所述语音数据所属的领域分类结果。
可选地,所述第一确定子模块,还用于
将所述文本信息输入预先训练好的深度神经网络模型中,得到所述深度神经网络模型输出的所述文本信息对应的领域分类结果。
可选地,所述第二确定模块包括:
第二提取子模块,用于对所述多个文本识别结果进行槽位提取,得到所述多个文本识别结果对应的槽位信息;
第二获取子模块,用于分别根据所述多个文本识别结果对应的槽位信息获取所述多个文本识别结果的名称文本信息;
第三获取子模块,用于分别从所述多个文本识别结果对应的音素识别结果中获取所述槽位信息对应的目标音素,得到多个目标音素识别结果;
第二确定子模块,用于根据所述多个目标音素识别结果确定所述语音数据的音乐名称。
可选地,所述第二确定子模块,还用于
分别确定所述多个目标音素识别结果与音乐清单列表中音乐名称对应音素的编辑距离,其中,所述音乐清单列表中存储有多个音乐名称与音素的对应关系;
获取最小所述编辑距离对应的目标音素识别结果;
根据所述目标音素识别结果、以及所述目标音素识别结果对应的一个或多个文本识别结果确定所述语音数据的音乐名称。
可选地,所述第二确定子模块,还用于
若所述目标音素识别结果对应一个文本识别结果,确定所述目标音素识别结果对应的音乐名称为所述语音数据的音乐名称;
若所述目标音素识别结果对应多个文本识别结果,分别确定所述目标音素识别结果对应的多个文本识别结果与所述音乐清单列表中音乐名称的编辑距离;获取最小所述编辑距离对应的目标文本识别结果,确定所述目标文本识别结果对应的音乐名称为所述语音数据的音乐名称。
可选地,所述第一获取模块包括:
语音识别子模块,用于对所述语音数据进行语音识别,得到所述多个文本识别结果;
转换子模块,用于将所述多个文本识别结果进行音素转换,得到所述多个文本识别结果对应的音素识别结果。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果;从所述多个文本识别结果中获取置信度最高的目标识别结果;根据所述目标文本识别结果确定所述语音数据所属的领域分类结果;在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称,可以解决相关技术中由于同音字只能通过纠错发送处理,语音交互***在音乐名称识别准确性低,使得交互成功率较低的问题,提高了音乐名称识别的准确性,也提升用户在音乐领域交互时的交互成功率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的语音的语义解析方法的移动终端的硬件结构框图;
图2是根据本发明实施例的语音的语义解析方法的流程图;
图3是根据本发明实施例的基于多音素识别结果的语义解析方法的流程图;
图4是根据本发明实施例的语音的语义解析装置的框图;
图5是根据本发明优选实施例的语音的语义解析装置的框图一;
图6是根据本发明优选实施例的语音的语义解析装置的框图二。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的语音的语义解析方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音的语义解析方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network INterface CoNtroller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio FrequeNcy,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于上述的移动终端或网络架构,在本实施例中提供了一种语音的语义解析方法,图2是根据本发明实施例的语音的语义解析方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取语音数据的多个文本识别结果,以及该多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
本发明实施例中,上述步骤S202具体可以包括:对该语音数据进行语音识别,得到该多个文本识别结果,在进行语音识别时,可以得到多个识别结果与对应的置信度,根据置信度大于可以将多个识别结果进行排序,选取预先设置的预定数量的识别结果,即可得到多个文本识别结果,预定数据可以根据实际情况设置,例如,设置为5、10、15等;
从该多个文本识别结果中获取置信度最高的该目标文本识别结果,并将该多个文本识别结果进行音素转换,得到该多个文本识别结果对应的音素识别结果,即将置信度最高的识别结果确定为目标文本识别结果,可以默认为识别准确率最高的。
步骤S204,从该多个文本识别结果中获取置信度最高的目标识别结果;
步骤S206,根据该目标识别结果确定该语音数据所属的领域分类结果;
本发明实施例中,上述步骤S206具体可以包括:
对该文本识别结果进行槽位提取,得到槽位信息;
根据该槽位信息获取该语音数据的文本信息;
根据该文本信息确定该语音数据所属的领域分类结果,进一步的,将该文本信息输入预先训练好的深度神经网络模型中,得到该深度神经网络模型输出的该文本信息对应的领域分类结果,领域分类结果具体可以的音乐领域,非音乐领域,也可以是音乐领域,文学领域等,主要是区分出是否为预设文本领域,其中,预设文本领域可以设置为音乐领域。
步骤S208,在该语音数据所属的预设文本领域中,根据该多个文本识别结果,以及该多个文本识别结果对应的音素识别结果确定该语音数据的音乐名称。
本发明实施例中,上述步骤S208具体可以包括:
S2081,对该多个文本识别结果进行槽位提取,得到该多个文本识别结果对应的槽位信息;
S2082,分别根据该多个文本识别结果对应的槽位信息获取该多个文本识别结果的名称文本信息;
S2083,分别从该多个文本识别结果对应的音素识别结果中获取该槽位信息对应的目标音素,得到多个目标音素识别结果;
S2084,根据该多个目标音素识别结果确定该语音数据的音乐名称。
在一可选的实施例中,上述步骤S2084具体可以包括:
分别确定该多个目标音素识别结果与音乐清单列表中音乐名称对应音素的编辑距离,其中,该音乐清单列表中存储有多个音乐名称与音素的对应关系,需要说明的是音乐清单列表中音乐名称转换为音素的音素转换方式与多个文本识别结果转换为多个音素识别结果的方式是相同的;
获取最小该编辑距离对应的目标音素识别结果;
根据该目标音素识别结果、以及该目标音素识别结果对应的一个或多个文本识别结果确定该语音数据的音乐名称,进一步的,若该目标音素识别结果对应一个文本识别结果,确定该目标音素识别结果对应的音乐名称为该语音数据的音乐名称;若该目标音素识别结果对应多个文本识别结果,分别确定该目标音素识别结果对应的多个文本识别结果与该音乐清单列表中音乐名称的编辑距离;获取最小该编辑距离对应的目标文本识别结果,确定该目标文本识别结果对应的音乐名称为该语音数据的音乐名称。
通过上述步骤S202至S208,可以解决相关技术中由于同音字只能通过纠错发送处理,语音交互***在音乐名称识别准确性低,使得交互成功率较低的问题,提高了音乐名称识别的准确性,也提升用户在音乐领域交互时的交互成功率。
本发明实施例,对音频数据(即语音数据)进行语音识别,得到OneBest文本识别结果(对应上述的目标文本识别结果)及NBest的音素识别结果(对应上述的多个文本识别结果对应的音素识别结果),将OneBest文本形式识别结果进行语义解析,通过语言模型及二分类器得到领域分类结果,判断是否是音乐领域,若为音乐领域,则将NBest的音素级识别结果逐一与音乐清单进行音素的编辑距离计算,(这里也需要将音乐清单列表以相同的字典进行音素转换,确保音素一致);以得到更正确的音乐名称。
智能语音对话***开启后,将用户音频数据输入至云端进行语音识别,将识别的结果分成两个部分,一个是识别解码器的Lattice返回的最优文本结果即:OneBest结果,一个是解码器Lattice网络根据置信度结果输出的top N的NBest识别结果,包括文本及对应的音素序列;将最优的文本识别结果进行领域分析,通过语言模型及二分类器得到领域分类结果,以判断领域是否为音乐领域,若是音乐领域,则可以调用音乐列表的音素序列以便进行编辑距离计算。将NBest结果逐一与音乐列表的音素序列做编辑距离计算,最小的结果则为最优的结果。返回该结果给终端设备,完成一次交互。
图3是根据本发明实施例的基于多音素识别结果的语义解析方法的流程图,如图3所示,主要包括以下步骤:
步骤S301,终端设备获取用户音频数据,以帧为单位;
步骤S302,将音频数据输入至云端识别引擎,进行语音识别,得到OneBest文本识别结果及NBest的音素识别结果;
将该语音识别结果保存为map<string,vector<string>>,first保存解码器Lattice中的OneBest识别结果的文本,second保存解码器Lattice的置信度降序排列的topN的识别结果(本方案在试验中N取10)及对应的音素序列,表现形式同字典,例如:“三生石上s Aa N sh ea NG sh Ib sh ad NG”。语义解析时将数据库中的音乐列表保存为上述的字典形式,以便计算;同时准备好常用字典,以便去掉语义指令部分,保留歌曲名称部分。
步骤S303,将OneBest结果输入至语义解析,对文本进行领域识别,得到领域识别结果;
步骤S304,判断领域识别结果是否为音乐领域,在判断结果为是的情况下,执行步骤S305,在判断结果为否的情况下,执行步骤S307;
步骤S305,将NBest的多个文本识别结果提取槽位信息,获取多个文本识别结果对应的音素识别结果中的音乐名称(即上述的目标音素),得到多个目标音素识别结果;
若为音乐领域,则通过音乐解析器将用户意图及槽位提取出来,使用字典将意图从识别结果中删除,同时删除对应音素序列;
步骤S306,将获得的音乐名称对应的多个目标音素序列逐一与音乐列表中的音乐名称做音素的编辑距离计算,统计最小的编辑距离结果,并以最小编辑距离结果的返回值作为最终的返回值;
步骤S307,将结果返回给终端,以完成交互任务。
本发明实施例,根据OneBest识别结果做语义解析,经分类判断是否为音乐领域,提取音乐名称槽位信息;保留引擎的NBest识别结果,保存形式为:包括名称与对应音素,其中,音素为根据与音乐列表的音素集一致的字典生成的对应文本音素序列。将识别NBest结果分别与音乐库列表进行音素编辑距离计算,获得最小编辑距离的识别结果文本。
由于歌曲名称上下文的相关性较差,本身的语音识别效果不尽如人意,同时,同音字等常见的错误形式,也导致用户使用时经常交互失败,该方案可以提升用户在音乐领域交互时的交互成功率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例该的方法。
实施例2
在本实施例中还提供了一种语音的语义解析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的语音的语义解析装置的框图,如图4所示,包括:
第一获取模块42,用于获取语音数据的多个文本识别结果,以及该多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
第二获取模块44,用于从该多个文本识别结果中获取置信度最高的目标识别结果;
第一确定模块46,用于根据该目标识别结果确定该语音数据所属的领域分类结果;
第二确定模块48,用于在该语音数据所属的预设文本领域中,根据该多个文本识别结果,以及该多个文本识别结果对应的音素识别结果确定该语音数据的音乐名称。
图5是根据本发明实施例的语音的语义解析装置的框图一,如图5所示,该第一确定模块46包括:
第一提取子模块52,用于对该文本识别结果进行槽位提取,得到槽位信息;
第一获取子模块54,用于根据该槽位信息获取该语音数据的文本信息;
第一确定子模块56,用于根据该文本信息确定该语音数据所属的领域分类结果。
可选地,该第一确定子模块56,还用于
将该文本信息输入预先训练好的深度神经网络模型中,得到该深度神经网络模型输出的该文本信息对应的领域分类结果。
图6是根据本发明实施例的语音的语义解析装置的框图二,如图6所示,该第二确定模块48包括:
第二提取子模块62,用于对该多个文本识别结果进行槽位提取,得到该多个文本识别结果对应的槽位信息;
第二获取子模块64,用于分别根据该多个文本识别结果对应的槽位信息获取该多个文本识别结果的名称文本信息;
第三获取子模块66,用于分别从该多个文本识别结果对应的音素识别结果中获取该槽位信息对应的目标音素,得到多个目标音素识别结果;
第二确定子模块68,用于根据该多个目标音素识别结果确定该语音数据的音乐名称。
可选地,该第二确定子模块68,还用于
分别确定该多个目标音素识别结果与音乐清单列表中音乐名称对应音素的编辑距离,其中,该音乐清单列表中存储有多个音乐名称与音素的对应关系;
获取最小该编辑距离对应的目标音素识别结果;
根据该目标音素识别结果、以及该目标音素识别结果对应的一个或多个文本识别结果确定该语音数据的音乐名称。
可选地,该第二确定子模块68,还用于
若该目标音素识别结果对应一个文本识别结果,确定该目标音素识别结果对应的音乐名称为该语音数据的音乐名称;
若该目标音素识别结果对应多个文本识别结果,分别确定该目标音素识别结果对应的多个文本识别结果与该音乐清单列表中音乐名称的编辑距离;获取最小该编辑距离对应的目标文本识别结果,确定该目标文本识别结果对应的音乐名称为该语音数据的音乐名称。
可选地,该第一获取模块42包括:
语音识别子模块,用于对该语音数据进行语音识别,得到该多个文本识别结果;
转换子模块,用于将该多个文本识别结果进行音素转换,得到该多个文本识别结果对应的音素识别结果。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
S2,从所述多个文本识别结果中获取置信度最高的目标识别结果;
S3,根据所述目标识别结果确定所述语音数据所属的领域分类结果;
S4,在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-ONly Memory,简称为ROM)、随机存取存储器(RaNdom Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
S2,从所述多个文本识别结果中获取置信度最高的目标识别结果;
S3,根据所述目标识别结果确定所述语音数据所属的领域分类结果;
S4,在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音的语义解析方法,其特征在于,包括:
获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
从所述多个文本识别结果中获取置信度最高的目标识别结果;
根据所述目标识别结果确定所述语音数据所属的领域分类结果;
在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
2.根据权利要求1所述的方法,其特征在于,根据所述目标识别结果确定所述语音数据所属的领域分类结果包括:
对所述文本识别结果进行槽位提取,得到槽位信息;
根据所述槽位信息获取所述语音数据的文本信息;
根据所述文本信息确定所述语音数据所属的领域分类结果。
3.根据权利要求2所述的方法,其特征在于,根据所述文本信息确定所述语音数据所属的领域分类结果包括:
将所述文本信息输入预先训练好的深度神经网络模型中,得到所述深度神经网络模型输出的所述文本信息对应的领域分类结果。
4.根据权利要求1所述的方法,其特征在于,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称包括:
对所述多个文本识别结果进行槽位提取,得到所述多个文本识别结果对应的槽位信息;
分别根据所述多个文本识别结果对应的槽位信息获取所述多个文本识别结果的名称文本信息;
分别从所述多个文本识别结果对应的音素识别结果中获取所述槽位信息对应的目标音素,得到多个目标音素识别结果;
根据所述多个目标音素识别结果确定所述语音数据的音乐名称。
5.根据权利要求4所述的方法,其特征在于,根据所述多个目标音素识别结果确定所述语音数据的音乐名称包括:
分别确定所述多个目标音素识别结果与音乐清单列表中音乐名称对应音素的编辑距离,其中,所述音乐清单列表中存储有多个音乐名称与音素的对应关系;
获取最小所述编辑距离对应的目标音素识别结果;
根据所述目标音素识别结果、以及所述目标音素识别结果对应的一个或多个文本识别结果确定所述语音数据的音乐名称。
6.根据权利要求5所述的方法,其特征在于,根据所述目标音素识别结果、以及所述目标音素识别结果对应的一个或多个文本识别结果确定所述语音数据的音乐名称包括:
若所述目标音素识别结果对应一个文本识别结果,确定所述目标音素识别结果对应的音乐名称为所述语音数据的音乐名称;
若所述目标音素识别结果对应多个文本识别结果,分别确定所述目标音素识别结果对应的多个文本识别结果与所述音乐清单列表中音乐名称的编辑距离;获取最小所述编辑距离对应的目标文本识别结果,确定所述目标文本识别结果对应的音乐名称为所述语音数据的音乐名称。
7.根据权利要求1至6中任一项所述的方法,其特征在于,获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果包括:
对所述语音数据进行语音识别,得到所述多个文本识别结果;
将所述多个文本识别结果进行音素转换,得到所述多个文本识别结果对应的音素识别结果。
8.一种语音的语义解析装置,其特征在于,包括:
第一获取模块,用于获取语音数据的多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果,其中,一个文本识别结果对应一个音素识别结果;
第二获取模块,用于从所述多个文本识别结果中获取置信度最高的目标识别结果;
第一确定模块,用于根据所述目标识别结果确定所述语音数据所属的领域分类结果;
第二确定模块,用于在所述语音数据所属的预设文本领域中,根据所述多个文本识别结果,以及所述多个文本识别结果对应的音素识别结果确定所述语音数据的音乐名称。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011488961.3A CN112735394B (zh) | 2020-12-16 | 2020-12-16 | 一种语音的语义解析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011488961.3A CN112735394B (zh) | 2020-12-16 | 2020-12-16 | 一种语音的语义解析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112735394A true CN112735394A (zh) | 2021-04-30 |
CN112735394B CN112735394B (zh) | 2022-12-30 |
Family
ID=75603733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011488961.3A Active CN112735394B (zh) | 2020-12-16 | 2020-12-16 | 一种语音的语义解析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735394B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345442A (zh) * | 2021-06-30 | 2021-09-03 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010233019A (ja) * | 2009-03-27 | 2010-10-14 | Kddi Corp | 字幕ずれ補正装置、再生装置および放送装置 |
CN103077714A (zh) * | 2013-01-29 | 2013-05-01 | 华为终端有限公司 | 信息的识别方法和装置 |
US20170004824A1 (en) * | 2015-06-30 | 2017-01-05 | Samsung Electronics Co., Ltd. | Speech recognition apparatus, speech recognition method, and electronic device |
CN108986790A (zh) * | 2018-09-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音识别联系人的方法和装置 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
CN110060662A (zh) * | 2019-04-12 | 2019-07-26 | 北京百度网讯科技有限公司 | 语音识别方法及装置 |
US10395640B1 (en) * | 2014-07-23 | 2019-08-27 | Nvoq Incorporated | Systems and methods evaluating user audio profiles for continuous speech recognition |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN111916088A (zh) * | 2020-08-12 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 一种语音语料的生成方法、设备及计算机可读存储介质 |
-
2020
- 2020-12-16 CN CN202011488961.3A patent/CN112735394B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010233019A (ja) * | 2009-03-27 | 2010-10-14 | Kddi Corp | 字幕ずれ補正装置、再生装置および放送装置 |
CN103077714A (zh) * | 2013-01-29 | 2013-05-01 | 华为终端有限公司 | 信息的识别方法和装置 |
US10395640B1 (en) * | 2014-07-23 | 2019-08-27 | Nvoq Incorporated | Systems and methods evaluating user audio profiles for continuous speech recognition |
US20170004824A1 (en) * | 2015-06-30 | 2017-01-05 | Samsung Electronics Co., Ltd. | Speech recognition apparatus, speech recognition method, and electronic device |
CN108986790A (zh) * | 2018-09-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音识别联系人的方法和装置 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
CN110060662A (zh) * | 2019-04-12 | 2019-07-26 | 北京百度网讯科技有限公司 | 语音识别方法及装置 |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN111916088A (zh) * | 2020-08-12 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 一种语音语料的生成方法、设备及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345442A (zh) * | 2021-06-30 | 2021-09-03 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN113345442B (zh) * | 2021-06-30 | 2024-06-04 | 西安乾阳电子科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112735394B (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9564127B2 (en) | Speech recognition method and system based on user personalized information | |
CN101326572B (zh) | 具有巨大词汇量的语音识别*** | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
EP2700071B1 (en) | Speech recognition using multiple language models | |
CN110223673B (zh) | 语音的处理方法及装置、存储介质、电子设备 | |
CN109949071A (zh) | 基于语音情绪分析的产品推荐方法、装置、设备和介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN101567189A (zh) | 声音识别结果修正装置、方法以及*** | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
CN110942765B (zh) | 一种构建语料库的方法、设备、服务器和存储介质 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 | |
CN107112007A (zh) | 语音识别装置及语音识别方法 | |
US11410685B1 (en) | Method for detecting voice splicing points and storage medium | |
CN112735394B (zh) | 一种语音的语义解析方法及装置 | |
CN113112992A (zh) | 一种语音识别方法、装置、存储介质和服务器 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
JP2010032865A (ja) | 音声認識装置、音声認識システムおよびプログラム | |
CN111128127A (zh) | 一种语音识别处理方法及装置 | |
CN110570838B (zh) | 语音流处理方法和装置 | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN111063337A (zh) | 可快速更新语言模型的大规模语音识别方法及*** | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |