CN111192572A - 语义识别的方法、装置及*** - Google Patents
语义识别的方法、装置及*** Download PDFInfo
- Publication number
- CN111192572A CN111192572A CN201911421165.5A CN201911421165A CN111192572A CN 111192572 A CN111192572 A CN 111192572A CN 201911421165 A CN201911421165 A CN 201911421165A CN 111192572 A CN111192572 A CN 111192572A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- semantic
- voice
- information
- semantic recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 23
- 238000013461 design Methods 0.000 description 18
- 238000009826 distribution Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种语义识别的方法、装置及***,该方法包括:获取语音信息并根据所述语音信息,提取语音状态;将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。以实现专业的语义提取,提高语义理解的精确率,降低由于同音文字的识别错误导致的语义理解误差,且具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。
Description
技术领域
本发明涉及计算机自然语言处理的技术领域,尤其涉及一种语义识别的方法、装置及***。
背景技术
随着ASR(automatic speech recognition自动语音识别)的快速发展,基于ASR识别出的文字的语义理解技术也因此获得了广阔的应用发展。
虽然ASR发展成熟,但在具体落地领域时ASR的识别效果并不理想。比如医学,生物,化学这些领域,虽然ASR可以进行识别,但是ASR的识别准确率不高,且在每个领域的使用要求不同,需针对每个领域进行开发,开发成本高,造成ASR语音识别在专业领域效果不好。
由于语义的理解需要使用ASR识别出的文字,当ASR识别出的文字有偏差时,会严重影响语义的理解。
发明内容
本发明提供一种语义识别的方法、装置及***,以实现专业的语义识别,提高识别的精确率,降低由于ASR的同音文字识别错误导致的语义理解错误,且具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。
第一方面,本发明实施例提供的一种语义识别的方法,包括:
获取语音信息并根据所述语音信息,提取语音状态;
将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。
在一种可能的设计中,在将所述语音状态输入所述目标语义识别模型之前,还包括:
获取训练数据集;
将所述训练数据集输入至初始语义识别模型中,其中,所述初始语义识别模型包括拼音转换支路和匹配支路,所述拼音转换支路用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,所述匹配支路用于根据所述拼音特征得到对应的语义信息,得到所述目标语义识别模型。
在一种可能的设计中,
根据所述语音状态获得拼音特征、或者拼音特征和文字特征,包括:
根据多个依次排列的语音状态,依次得到每个语音状态对应的文字特征,并根据所述文字特征依次得到对应的拼音特征;
或者,根据多个依次排列的语音状态得到对应的文字特征,其中包括第一语音状态对应的文字特征,并从所述第一语音状态对应的文字特征开始向前端和后端的文字特征依次得到对应的拼音特征,直到获得所有文字特征对应的拼音特征。
在一种可能的设计中,还包括:
对所述拼音特征标注对应的音调特征,所述音调特征用于结合所述拼音特征得到对应的语义信息。
在一种可能的设计中,还包括:
在多个拼音特征之间设置空格标识,将所述拼音特征连接成拼音特征串。
在一种可能的设计中,根据所述拼音特征得到对应的语义信息,包括:
根据所述拼音特征串,获取所述拼音特征串对应的最高语义信息概率;
若所述最高语义信息概率不小于概率阈值,则确定所述拼音特征对应的语义信息。
在一种可能的设计中,在得到与所述语音信息对应的语义信息之后,还包括:
显示所述语义信息。
第二方面,本发明实施例提供一种语义识别的方法,包括:
获取语音信息,提取语音状态;
将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于对所述语音状态进行识别,得到与所述语音信息对应的语义信息。
第二方面,本发明实施例提供的一种语义识别的装置,包括:
获取模块,用于获取语音信息并根据所述语音信息,提取语音状态;
识别模块,用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。
在一种可能的设计中,在将所述语音状态输入所述目标语义识别模型之前,还包括:
获取训练数据集;
将所述训练数据集输入至初始语义识别模型中,其中,所述初始语义识别模型包括拼音转换支路和匹配支路,所述拼音转换支路用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,所述匹配支路用于根据所述拼音特征得到对应的语义信息,得到所述目标语义识别模型。在一种可能的设计中,
根据所述语音状态获得拼音特征、或者拼音特征和文字特征,包括:
根据多个依次排列的语音状态,依次得到每个语音状态对应的文字特征,并根据所述文字特征依次得到对应的拼音特征;
或者,根据多个依次排列的语音状态得到对应的文字特征,其中包括第一语音状态对应的文字特征,并从所述第一语音状态对应的文字特征开始向前端和后端的文字特征依次得到对应的拼音特征,直到获得所有文字特征对应的拼音特征。
在一种可能的设计中,还包括:
对所述拼音特征标注对应的音调特征,所述音调特征用于结合所述拼音特征得到对应的语义信息。
在一种可能的设计中,还包括:
在多个拼音特征之间设置空格标识,将所述拼音特征连接成拼音特征串。
在一种可能的设计中,根据所述拼音特征得到对应的语义信息,包括:
根据所述拼音特征串,获取所述拼音特征串对应的最高语义信息概率;
若所述最高语义信息概率不小于概率阈值,则确定所述拼音特征对应的语义信息。
在一种可能的设计中,在得到与所述语音信息对应的语义信息之后,还包括:
显示所述语义信息。
第三方面,本发明实施例提供的一种语义识别的装置,包括:
获取模块,用于获取语音信息,提取语音状态;
识别模块,用于将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于对所述语音状态进行识别,得到与所述语音信息对应的语义信息。
第四方面,本发明实施例提供的一种语义识别的***,包括:存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面中任一项所述的语义识别的方法。
第五方面,本发明实施例提供的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的语义识别的方法。
本发明提供一种语义识别的方法、装置和***,该方法包括:获取语音信息并根据所述语音信息,提取语音状态;将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。以实现专业的语义提取,提高语义理解的精确率,降低由于同音文字的识别错误导致的语义理解误差,且具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一典型场景示意图;
图2为本发明实施例一提供的语义识别的方法的流程图;
图3为本发明实施例一提供的语义识别的方法中目标语义识别模型的示意图;
图4为本发明实施例一提供的语义识别的方法中目标语义识别模型的示意图一;
图5为本发明实施例二提供的语义识别的方法中目标语义识别模型的示意图二;
图6为本发明实施例三提供的语义识别的方法的流程图;
图7为本发明实施例三提供的语义识别的方法中目标语义识别模型的示意图;
图8为本发明实施例四提供的语义识别的方法的流程图;
图9为本发明实施例四提供的语义识别的方法中部分效果示意图;
图10为本发明实施例五提供的语义识别的装置的结构示意图;
图11为本发明实施例六提供的语义识别的***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图1为本发明一典型场景示意图,如图1通过语音获取设备11获取语音信息,进而可以通过本发明的语义识别***将语音信息识别输出为对应的语义信息。其中语义信息可以包括语音文字,可以采用json格式显示等等,提高了识别的精确率,降低同音文字识别的错误率,且具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。图2为本发明实施例一提供的语义识别的方法的流程图,如图2所示,本实施例中的方法可以包括:
S201、获取语音信息,并根据语音信息,提取语音状态。
本实施例中通过采集连续音频流的语音信息,常见mp3、wmv等压缩格式,在一种可选的实施例中,需转换为非压缩的波形文件来处理,例如Windows PCM文件,其中包括文件头以及声音波形。在一种可选的实施例中,对获取的语音信息进行预处理,例如将首尾段的静音切除,以降低对后续处理的干扰,其中利用声音分析对声音分帧,即将声音切成一小段,每一小段为一帧,分帧操作不是简单的却开,帧与帧一般有交叠,使用移动窗口来实现。
分帧后提取语音状态,即提取声学特征,例如MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数),以便后续将提取的语音状态输入目标语义识别模型中,得到与语音信息对应的语义信息。其中语音状态可以根据语音信息中每个基础音节被拆成的3个status(状态)来表示,这种被表示的音节叫做tri-phone(声调三音)。因此一段音可以用一系列status表示,且每3个status表示一个音节。
S202、将语音状态输入目标语义识别模型,其中目标语义识别模型用于根据语音状态获得拼音特征、或者拼音特征和文字特征,得到与语音信息对应的语义信息。
结合上例,将提取的语音状态输入目标语义识别模型,参考图3,图3为本发明实施例一提供的语义识别的方法中目标语义识别模型的示意图,如图3所示,该目标语义识别模型可以包括拼音转换支路和匹配支路,拼音转换支路根据语音状态获得拼音特征和文字特征,匹配支路用于根据拼音特征得到对应的语义信息,得到目标语义识别模型。
在一种可选的实施例中,基于语义规则建立的目标语义识别模型,其中对于文法的每个产生式都配备了一组属性的规则,表示汉语句子内各成分之间的结合关系,则成为语义规则。且使用该语义规则,可以将理解语义信息的句子全部使用语义规则归纳起来,并输出一个标签即代表语义信息,表示为某一类语义的意思,这些规则一般为grammar,比如:<ac_down>:[请]把空调(打|调)低{intent=airconditioner_down};这句grammar表示归纳了,请把空调打低,把空调打低,请把空调调低,把空调调低等这样的四句话,当用户说了这四句语音之一时,会送出一个语义intent=airconditioner_down。Grammar表达成一种树状的状态图数据结构。其中这个状态图由输入的字符驱动按照箭头方向走,当能够走到endNode时,表示输入的句子能匹配这个语义规则,此时会输出这个状态图代表的语义airconditioner_down。
由于现有的ASR语言模型不够准确,会输出一些错误,尤其针对同音字,比如“把空调打低”识别为“把空调打的”。这时采用现有的基于文字的规则,在走到节点“打”后,就无法继续走下去,导致不能理解这句话。
但本实施例中基于ASR建立语义规则的目标语义识别模型在输出文字时,还会把对应的拼音特征也输出来,拼音特征是ba3 kong1 tiao2 da3 di1(包含音调特征)。在基于现有文字的规则基础上,通过编译器设置为拼音的规则就可以适配拼音特征以建立语义规则,比如把<ac_down>修改为:<ac_down>:[qing]ba kong tiao(da|tiao)di{intent=airconditioner_down}(不考虑音调特征)。
优选的,还可以考虑音调特征,简化为:<ac_down>:[qing3]ba3 kong1tiao2(da3|tiao2)di1{intent=airconditioner_down}。
优选的,如果有两个及两个以上字的拼音特征连在一起时需要***空格。进而在匹配支路使用ba3 kong1 tiao2 da3 di1这个拼音特征(结合音调特征)序列去驱动状态图往前走,当走到endNode就表示可以匹配成功,并输出语义信息。
本实施例中基于语义规则可以解决现有技术asr识别出的同音但是不同字的问题。在一种可选的实施例中,拼音转换支路可以直接获得拼音特征,技术原理及实现过程类似上述过程,此处不再赘述。
在一种可选的实施例中,建立神经网络模型的目标语义识别模型,通过拼音特征和标签,经过神经网络模型的目标语义识别模型输出语义信息,具体的拼音特征和标签举例如下表1。
表1
具体的参考图4,图4为本发明实施例一提供的语义识别的方法中目标语义识别模型的示意图一,如图4所示,例如将拼音特征送入CNN/DNN等各种模型,经过多次卷积,输出一个预测label,通过比较预测label和标注label的分布得到分布距离(loss),再通过loss修改CNN/DNN的权重,通过多次迭代使得预测label和标注label的分布最接近即为最高语义信息概率,且得到这个label对应的预测概率P(label),使用时会设置一个概率阈值T,当P(label)大于T时,则确定这个预测label,输出对应的语义信息。其中,通过拼音转换支路将语音状态转化为对应的拼音特征,进而在CNN/DNN等匹配支路中根据拼音特征得到对应的语义信息。在一种可选的实施例中拼音转换支路可以采用基于语义规则建立的拼音转换支路,其具体实现过程和技术原理如上述示例的描述过程,此处不再赘述。
在一种可选的实施例中,基于***开发的预训练语言模型在自然语言理解中的重要成果,本实施例中建立基于***开发的预训练语言模型得到目标语义识别模型,参考图5,图5为本发明实施例二提供的语义识别的方法中目标语义识别模型的示意图二,如图5所示,通过拼音转换支路将语音状态转化为对应的拼音特征,进而经过Bert等预训练模型、CNN/DNN等各种模型通过多次迭代得到与标注label的分布最接近的预测label即为最高语义信息概率,且这个预测label对应的预测概率P(label),若P(label)大于T(预设阈值)时,则确定这个预测label,输出对应的语义信息。其中,通过拼音转换支路将语音状态转化为对应的拼音特征,进而在Bert、CNN/DNN等匹配支路中根据拼音特征得到对应的语义信息。在一种可选的实施例中拼音转换支路可以采用基于语义规则建立的拼音转换支路,其具体实现过程和技术原理如上述示例的描述过程,此处不再赘述。
本实施例中,将语音状态转化为拼音特征,减少了同音文字识别的错误率,提高语义识别的准确率。
图6为本发明实施例三提供的语义识别的方法的流程图,如图6所示,本实施例中语义识别的方法可以包括:
S301、获取语音信息,提取语音状态。
本实施例中,通过采集连续音频流的语音信息,常见mp3、wmv等压缩格式,可以为实时采集,也可以预先采集。在一种可选的实施例中,需转换为非压缩的波形文件来处理,例如Windows PCM文件,其中包括文件头以及声音波形。
S302、将语音信息输入目标语义识别模型,其中,目标语义识别模型用于将语音状态输入目标语义识别模型,其中,目标语义识别模型用于根据语音状态获得拼音特征、或者拼音特征和文字特征,得到与语音信息对应的语义信息。
具体参考图7,图7为本发明实施例三提供的语义识别的方法中目标语义识别模型的示意图,如图7所示,通过将采集的语音信息输入该目标语义模型,并在声学模型中对语音信息进行识别,进而输入语言模型得到与语音信息对应的语义信息。在一种可选的实施例中,匹配支路也可以采用Bert、CNN/DNN等等语言模型通过多次迭代得到与标注label的分布最接近的预测label,且这个预测label对应的预测概率P(label),若P(label)大于T(预设阈值)时,则确定这个预测label,输出对应的语义信息。其中P(label)基于声音特征获得,在一种可选的实施例中,获取最大P(label)且对应T(预设阈值)时,则确定这个预测label,输出对应的语义信息。
在一种可选的实施例中,还可以在提取语音状态的过程中,若检测存在语音信息对应的关键特征(例如环境声音“买东西”),则可以结合关键特征进行语义识别(例如通过环境声音识别出语义对应的环境:商场,进而结合该环境来进行语义识别),以提高识别的准确性。本实施例可以实现专业的语义提取,提高语义理解的精确率,降低由于同音文字的识别错误导致的语义理解误差。
图8为本发明实施例四提供的语义识别的方法的流程图,如图8所示,本实施例中语义识别的方法可以在图2的基础上在将语音状态输入目标语义识别模型之前增加步骤S200,具体的,
S200:获取训练数据集;将训练数据集输入至初始语义识别模型中,其中,初始语义识别模型包括拼音转换支路和匹配支路,拼音转换支路用于根据语音状态获得拼音特征、或者拼音特征和文字特征,匹配支路用于根据拼音特征得到对应的语义信息,得到目标语义识别模型。
本实施例中,通过抓取网络上的大量文字,然后得到拼音特征,不仅可以得到单个拼音对应中文文字、词组的概率,最重要还可以得到不同长度拼音特征对应语义信息的概率。现有技术语义识别的方法中训练数据集可以得到P(打开空|例如声音“da kai kong”)=2/3,P(打开控|例如声音“da kai kong”)=1/3,p(打开病|例如声音“da kai bing”)=1/2,P(打开冰|da kai bing)=1/2。只要经过统计同样的声音下不同中文文字出现的概率就可以得到文字概率。类似的本实施例中经过统计同样的拼音特征下不同语义lable出现的概率以得到语义概率,从而在最高概率lable出现时输出语义信息。
进而将训练数据集输入至初始语义识别模型,通过初始语义识别模型的拼音转换支路根据语音状态获得对应的拼音特征,通过匹配支路用于根据拼音特征得到对应的语义信息,训练得到目标语义识别模型。
在一种可选的实施例中,根据语音状态获得拼音特征、或者拼音特征和文字特征,包括:
根据多个依次排列的语音状态,依次得到每个语音状态对应的文字特征,并根据文字特征依次得到对应的拼音特征;
或者,根据多个依次排列的语音状态得到对应的文字特征,其中包括第一语音状态对应的文字特征,并从第一语音状态对应的文字特征开始向前端和后端的文字特征依次得到对应的拼音特征,直到获得所有文字特征对应的拼音特征。
本实施例中,基于ASR建立语义规则的目标语义识别模型中拼音转换支路内部通过表达一种树状图的数据结构来根据语音状态获得拼音特征,可以按照语音状态的时间次序,依次获得排列的文字特征,进而将每个文字特征转化为拼音特征,例如语音状态“请把空调打低即intent=airconditioner_down”参考图9,图9为本发明实施例四提供的语义识别的方法中部分效果示意图,参考图9由语音状态按照箭头方向驱动,当驱动到endNode时,即依次将每个语音状态转化为拼音特征。
或者,语音状态为了提高转化的速度和效率,在一种可选的实施例中,可以将语音状态得到对应的文字特征,并从这些语音状态对应的文字特征中选取第一语音状态对应的文字特征,并该第一语音状态对应的文字特征开始转化,从第一语音状态的文字特征开始向前端和后端的文字特征依次得到拼音特征,直到获得所有文字特征对应的拼音特征。例如,从第一语音状态的文字特征开始按照箭头方向驱动,向前端和后端的文字特征进行拼音特征的获得,进而得到拼音特征,直到所有的文字特征转化为拼音特征。本实施例中不对第一语音状态及其对应的文字特征作限定。根据语音状态得到拼音特征可以基于中文文字规则,例如利用词典等将语音状态转化为文字特征,进而根据文字特征得到拼音特征。
在一种可选的实施例,还包括:
对拼音特征标注对应的音调特征,音调特征用于结合拼音特征得到对应的语义信息。
具体的,在语音状态转化的过程中还可以对拼音特征标注对应的音调特征,通过结合拼音特征进而得到对应的语义信息,该音调特征有助于将语音信息识别出更加精准的语义信息。结合上例,在拼音特征标注对应的音调特征为ba3 kong1 tiao2 da3 di1。
在一种可选的实施例中,还包括:
在多个拼音特征之间设置空格标识,将拼音特征连接成拼音特征串。
结合上例,可以将拼音特征连接成拼音特征串,在多个拼音特征之间设置空格标识,用于间隔每个拼音特征,避免混淆,以提高识别的准确率。
其中,根据拼音特征得到对应的语义信息,包括:
根据拼音特征串,获取拼音特征串对应的最高语义信息概率;
若最高语义信息概率不小于概率阈值,则确定拼音特征对应的语义信息。
具体的,基于ASR建立语义规则的初始语义识别模型中通过匹配支路,将拼音特征得到对应的语义信息。在一种可选的实施中,根据拼音特征串,获取拼音特征串对应的最高语义信息概率,例如通过匹配支路输出p(label|s1,s2..),若max(p(label|s1,s2…)*p(s1,s2,..)的概率大于概率阈值T时,确定拼音特征对应的语义信息,确定输入的语音信息对应语义的label。其中label为语义信息,S1、S2等等为语音状态,且本实施例不对概率阈值T进行限定。其中,S1、S2等语音状态可以根据语音信息中每个基础音节被拆成的3个status(状态)表示,这种被表示的音节叫做tri-phone(声调三音)。因此一段音可以用一系列status表示,且每3个status表示一个音节。
在一种可选的实施例中,基于神经网络模型的初始语义识别模型,例如包含CNN/DNN等各种模型,通过其中的匹配支路中输出预测label,通过比较预测label和标注label的分布得到分布距离(loss),再通过loss修改CNN/DNN的权重,通过多次迭代使得预测label和标注label的分布最接近,则确定拼音特征对应的语义信息。
在一种可选的实施例中,建立基于***开发的预训练语言模型得到初始语义识别模型,同样通过其中的匹配支路,例如经过Bert等预训练模型以及CNN/DNN等各种模型,输出预测label,通过比较预测label和标注label的分布得到分布距离(loss),再通过loss修改CNN/DNN的权重,通过多次迭代使得预测label和标注label的分布最接近,则确定拼音特征对应的语义信息。
在一种可选的实施例中,建立不基于现有技术中与训练模型的初始语义识别模型,以及基于***开发的预训练语言模型得到初始语义识别模型,通过训练数据集将语音状态输入至上述任意一种初始语义识别模型,根据语音状态转化为对应的拼音特征,进而通过匹配支路根据拼音特征得到对应的语义信息,以训练得到目标语义识别模型。例如可以基于***开发的预训练拼音bert模型实现得到目标语义识别模型。
在一种可选的实施例中,在得到与语音信息对应的语义信息之后,还包括:
显示语义信息。
例如,通过目标语义识别模型得到语音信息对应的语义信息,则显示该语义信息,例如将“把空调打低”的语音信息对应的语义信息显示出来。
在语音识别过程中由于中文文字可能对应有同音字,即一个拼音特征可以对应多个中文文字,本实施例通过将语音状态转化为拼音特征,进而通过确定的拼音特征获得最高语义信息概率,若最高语义信息概率不小于概率阈值,则确定拼音特征对应的语义信息。不仅提高识别的精确率,降低同音文字识别的错误率,还具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。
在一种可选的实施例中,本实施例中语义识别的方法可以在图6的基础上在将语音信息输入目标语义识别模型之前增加步骤S300(未示出),具体的,
S300:获取训练数据集;将训练数据集输入至初始语义识别模型中,其中,初始语义识别模型通过对大量预存语音信息进行声音特征的识别,进而通过声音特征得到语音信息对应的语义信息,从而得到目标语义识别模型。在一种可选的实施例中,该初始语义识别模型可以包括匹配支路,且用于根据声音特征得到对应的语义信息。在一种可选的实施例中,匹配支路也可以采用Bert、CNN/DNN等等语言模型通过多次迭代得到与标注label的分布最接近的预测label,且这个预测label对应的预测概率P(label),若P(label)大于T(预设阈值)时,则确定这个预测label,输出对应的语义信息。其中P(label)基于声音特征获得,在一种可选的实施例中,获取最大P(label)且对应T(预设阈值)时,则确定这个预测label,输出对应的语义信息。
在一种可选的实施例中,在得到与语音信息对应的语义信息之后,还包括:显示语义信息。
本实施例不仅提高识别的精确率,降低同音文字识别的错误率,还具有广泛的通用性,适用于汽车、家居等控制类语音识别场景。
图10为本发明实施例五提供的语义识别的装置的结构示意图,如图10所示,本实施例的语义识别装置可以包括:
获取模块31,用于获取语音信息并根据语音信息,提取语音状态;
识别模块32,用于
将语音状态输入目标语义识别模型,其中,目标语义识别模型用于根据语音状态获得拼音特征、或者拼音特征和文字特征,得到与语音信息对应的语义信息。
在一种可能的设计中,在将语音状态输入目标语义识别模型之前,还包括:
获取训练数据集;
将训练数据集输入至初始语义识别模型中,其中,初始语义识别模型包括拼音转换支路和匹配支路,拼音转换支路用于
根据语音状态获得拼音特征、或者拼音特征和文字特征,匹配支路用于根据拼音特征得到对应的语义信息,得到目标语义识别模型。
在一种可能的设计中,
根据语音状态获得拼音特征、或者拼音特征和文字特征,包括:
根据多个依次排列的语音状态,依次得到每个语音状态对应的文字特征,并根据文字特征依次得到对应的拼音特征;
或者,根据多个依次排列的语音状态得到对应的文字特征,其中包括第一语音状态对应的文字特征,并从第一语音状态对应的文字特征开始向前端和后端的文字特征依次得到对应的拼音特征,直到获得所有文字特征对应的拼音特征。
在一种可能的设计中,还包括:
对拼音特征标注对应的音调特征,音调特征用于结合拼音特征得到对应的语义信息。
在一种可能的设计中,还包括:
在多个拼音特征之间设置空格标识,将拼音特征连接成拼音特征串。
在一种可能的设计中,根据拼音特征得到对应的语义信息,包括:
根据拼音特征串,获取拼音特征串对应的最高语义信息概率;
若最高语义信息概率不小于概率阈值,则确定拼音特征对应的语义信息。
在一种可能的设计中,在得到与语音信息对应的语义信息之后,还包括:
显示语义信息。
本实施例的语义识别的装置,可以执行图2、图8所示方法中的技术方案,其具体实现过程和技术原理参见图2、图8所示方法中的相关描述,此处不再赘述。
图11为本发明实施例六提供的语义识别的***的结构示意图,如图11所示,本实施例的语义识别的***40可以包括:处理器41和存储器42。
存储器42,用于存储计算机程序(如实现上述语义识别的方法的应用程序、功能模块等)、计算机指令等;
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。
处理器41,用于执行存储器42存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。
具体可以参见前面方法实施例中的相关描述。
处理器41和存储器42可以是独立结构,也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时,存储器42、处理器41可以通过总线43耦合连接。
本实施例的服务器可以执行图2、图8所示方法中的技术方案,其具体实现过程和技术原理参见图2、图8所示方法中的相关描述,此处不再赘述。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (12)
1.一种语义识别的方法,其特征在于,包括:
获取语音信息并根据所述语音信息,提取语音状态;
将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。
2.根据权利要求1所述的方法,其特征在于,在将所述语音状态输入所述目标语义识别模型之前,还包括:
获取训练数据集;
将所述训练数据集输入至初始语义识别模型中,其中,所述初始语义识别模型包括拼音转换支路和匹配支路,所述拼音转换支路用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,所述匹配支路用于根据所述拼音特征得到对应的语义信息,得到所述目标语义识别模型。
3.根据权利要求2所述的方法,其特征在于,根据所述语音状态获得拼音特征、或者拼音特征和文字特征,包括:
根据多个依次排列的语音状态,依次得到每个语音状态对应的文字特征,并根据所述文字特征依次得到对应的拼音特征;
或者,根据多个依次排列的语音状态得到对应的文字特征,其中包括第一语音状态对应的文字特征,并从所述第一语音状态对应的文字特征开始向前端和后端的文字特征依次得到对应的拼音特征,直到获得所有文字特征对应的拼音特征。
4.根据权利要求3所述的方法,其特征在于,所述方法,还包括:
对所述拼音特征标注对应的音调特征,所述音调特征用于结合所述拼音特征得到对应的语义信息。
5.根据权利要求3所述的方法,其特征在于,所述方法,还包括:
在多个拼音特征之间设置空格标识,将所述拼音特征连接成拼音特征串。
6.根据权利要求5所述的方法,其特征在于,根据所述拼音特征得到对应的语义信息,包括:
根据所述拼音特征串,获取所述拼音特征串对应的最高语义信息概率;
若所述最高语义信息概率不小于概率阈值,则确定所述拼音特征对应的语义信息。
7.根据权利要求1-6任一项所述的方法,其特征在于,在得到与所述语音信息对应的语义信息之后,还包括:
显示所述语义信息。
8.一种语义识别的方法,其特征在于,包括:
获取语音信息,提取语音状态;
将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于对所述语音状态进行识别,得到与所述语音信息对应的语义信息。
9.一种语义识别的装置,其特征在于,包括:
获取模块,用于获取语音信息并根据所述语音信息,提取语音状态;
识别模块,用于将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于根据所述语音状态获得拼音特征、或者拼音特征和文字特征,得到与所述语音信息对应的语义信息。
10.一种语义识别的装置,其特征在于,包括:
获取模块,用于获取语音信息,提取语音状态;
识别模块,用于将所述语音状态输入目标语义识别模型,其中,所述目标语义识别模型用于对所述语音状态进行识别,得到与所述语音信息对应的语义信息。
11.一种语义识别的***,其特征在于,包括:存储器和处理器,存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的语义识别的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的语义识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421165.5A CN111192572A (zh) | 2019-12-31 | 2019-12-31 | 语义识别的方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911421165.5A CN111192572A (zh) | 2019-12-31 | 2019-12-31 | 语义识别的方法、装置及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111192572A true CN111192572A (zh) | 2020-05-22 |
Family
ID=70709799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911421165.5A Pending CN111192572A (zh) | 2019-12-31 | 2019-12-31 | 语义识别的方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192572A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112017647A (zh) * | 2020-09-04 | 2020-12-01 | 北京蓦然认知科技有限公司 | 一种结合语义的语音识别方法、装置和*** |
CN112185356A (zh) * | 2020-09-29 | 2021-01-05 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN115148189A (zh) * | 2022-07-27 | 2022-10-04 | 中国第一汽车股份有限公司 | 一种驾驶员自定义语音命令多功能同步实现***及方法 |
US11862143B2 (en) | 2020-07-27 | 2024-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for processing speech dialogues |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1499484A (zh) * | 2002-11-06 | 2004-05-26 | 北京天朗语音科技有限公司 | 汉语连续语音识别*** |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
CN107644642A (zh) * | 2017-09-20 | 2018-01-30 | 广东欧珀移动通信有限公司 | 语义识别方法、装置、存储介质及电子设备 |
CN108446278A (zh) * | 2018-07-17 | 2018-08-24 | 弗徕威智能机器人科技(上海)有限公司 | 一种基于自然语言的语义理解***及方法 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话*** |
CN109192202A (zh) * | 2018-09-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 语音安全识别方法、装置、计算机设备及存储介质 |
CN109326285A (zh) * | 2018-10-23 | 2019-02-12 | 出门问问信息科技有限公司 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
CN109410918A (zh) * | 2018-10-15 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于获取信息的方法及装置 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
CN110060677A (zh) * | 2019-04-04 | 2019-07-26 | 平安科技(深圳)有限公司 | 语音遥控器控制方法、装置及计算机可读存储介质 |
-
2019
- 2019-12-31 CN CN201911421165.5A patent/CN111192572A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1499484A (zh) * | 2002-11-06 | 2004-05-26 | 北京天朗语音科技有限公司 | 汉语连续语音识别*** |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103578464A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
CN107644642A (zh) * | 2017-09-20 | 2018-01-30 | 广东欧珀移动通信有限公司 | 语义识别方法、装置、存储介质及电子设备 |
CN108549637A (zh) * | 2018-04-19 | 2018-09-18 | 京东方科技集团股份有限公司 | 基于拼音的语义识别方法、装置以及人机对话*** |
CN108446278A (zh) * | 2018-07-17 | 2018-08-24 | 弗徕威智能机器人科技(上海)有限公司 | 一种基于自然语言的语义理解***及方法 |
CN109192202A (zh) * | 2018-09-21 | 2019-01-11 | 平安科技(深圳)有限公司 | 语音安全识别方法、装置、计算机设备及存储介质 |
CN109410918A (zh) * | 2018-10-15 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 用于获取信息的方法及装置 |
CN109326285A (zh) * | 2018-10-23 | 2019-02-12 | 出门问问信息科技有限公司 | 语音信息处理方法、装置及非暂态计算机可读存储介质 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
CN110008471A (zh) * | 2019-03-26 | 2019-07-12 | 北京博瑞彤芸文化传播股份有限公司 | 一种基于拼音转换的智能语义匹配方法 |
CN110060677A (zh) * | 2019-04-04 | 2019-07-26 | 平安科技(深圳)有限公司 | 语音遥控器控制方法、装置及计算机可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11862143B2 (en) | 2020-07-27 | 2024-01-02 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for processing speech dialogues |
CN112017647A (zh) * | 2020-09-04 | 2020-12-01 | 北京蓦然认知科技有限公司 | 一种结合语义的语音识别方法、装置和*** |
CN112017647B (zh) * | 2020-09-04 | 2024-05-03 | 深圳海冰科技有限公司 | 一种结合语义的语音识别方法、装置和*** |
CN112185356A (zh) * | 2020-09-29 | 2021-01-05 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN115148189A (zh) * | 2022-07-27 | 2022-10-04 | 中国第一汽车股份有限公司 | 一种驾驶员自定义语音命令多功能同步实现***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364171B (zh) | 一种语音识别方法、语音识别***及存储介质 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
CN109065032B (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN108829894B (zh) | 口语词识别和语义识别方法及其装置 | |
CN111192572A (zh) | 语义识别的方法、装置及*** | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN111090727B (zh) | 语言转换处理方法、装置及方言语音交互*** | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
CN110675855A (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
CN110503956B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN112071310B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN110870004A (zh) | 基于音节的自动语音识别 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
KR102192678B1 (ko) | 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치 | |
JP4499389B2 (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
CN113393830B (zh) | 混合声学模型训练及歌词时间戳生成方法、设备、介质 | |
CN111933116B (zh) | 语音识别模型训练方法、***、移动终端及存储介质 | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
Avram et al. | Romanian speech recognition experiments from the robin project | |
CN113889115A (zh) | 一种基于语音模型的方言转述方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |
|
RJ01 | Rejection of invention patent application after publication |