CN111326140A - 语音识别结果判别方法、纠正方法、装置、设备及存储介质 - Google Patents

语音识别结果判别方法、纠正方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111326140A
CN111326140A CN202010170991.3A CN202010170991A CN111326140A CN 111326140 A CN111326140 A CN 111326140A CN 202010170991 A CN202010170991 A CN 202010170991A CN 111326140 A CN111326140 A CN 111326140A
Authority
CN
China
Prior art keywords
voice
recognition result
speech
probability
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010170991.3A
Other languages
English (en)
Other versions
CN111326140B (zh
Inventor
王容基
舒翔
陈韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202010170991.3A priority Critical patent/CN111326140B/zh
Publication of CN111326140A publication Critical patent/CN111326140A/zh
Application granted granted Critical
Publication of CN111326140B publication Critical patent/CN111326140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种语音识别结果判别方法、纠正方法、装置、设备及存储介质,其中,判别方法包括:获取第二语音对应的用户行为表征信息,其中,用户行为表征信息能够反映第二语音与第一语音所表达内容的相关性,第一语音为第二语音的前一次输入语音;根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果。纠正方法包括语音识别结果的判别方法判别第二语音的目标识别结果是否为错误识别结果,若是,则根据第二语音的候选识别结果集和预先构建的结构化数据库,从第二语音的候选识别结果集中确定出第二语音的正确识别结果。本申请实现简单、不依赖人力,且能够兼容用户的各种需求,通用性较强,用户体验较好。

Description

语音识别结果判别方法、纠正方法、装置、设备及存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音识别结果判别方法、纠正方法、装置、设备及存储介质。
背景技术
随着人工智能技术的飞速发展,智能终端在人们的生活中扮演着越来越重要的角色,而语音识别技术的成熟使得语音交互成为深受用户喜爱的人机交互方式。
在一些用户有明确需求的应用场景中,用户通常会输入语音以表达自己的具体需求,从而让终端响应其需求,而让终端能够响应用户的需求通常需要进行两个过程,即语音识别和语义理解,具体的,先对用户输入的语音进行识别,以获得语音识别结果,然后对语音识别结果进行语义理解,以获知用户的需求进而进行响应。
可以理解的是,若要使终端能够正确做出响应,首先需要获得正确的语音识别结果,然而,目前的语音识别方案并不能保证针对每条输入语音均给出正确的识别结果,识别结果错误会影响后续的语义理解,进而导致终端做出错误的响应。为了避免终端做出错误的响应,首先需要发现错误的识别结果,然后进行纠正,而如何发现错误的识别结果进而进行纠正是目前亟需解决的问题。
发明内容
有鉴于此,本申请提供了一种语音识别结果判别方法、纠正方法、装置、设备及存储介质,用于发现错误的识别结果,进而确定出正确的识别结果,从而使终端针对用户的输入语音能够给出正确的响应,其技术方案如下:
一种语音识别结果判别方法,包括:
获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
可选的,所述第二语音对应的用户行为表征信息包括以下三种信息中的任一种或多种的组合:
所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息、所述第一语音和所述第二语音分别对应的识别信息。
可选的,所述第二语音对应的用户行为表征信息包括:所述第一语音和所述第二语音分别对应的识别信息;
相应的,所述根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率;
根据所述第一语音和所述第二语音所表达的内容为同一内容的概率,判别所述第二语音的目标识别结果是否为错误识别结果。
可选的,所述第二语音对应的用户行为表征信息包括:所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息,以及所述第一语音和所述第二语音分别对应的识别信息;
相应的,所述根据所述判别特征,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
若所述输入时间间隔小于预设时间阈值,则根据所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第一概率;
根据所述第一语音和所述第二语音分别对应的识别信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第二概率;
根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果。
可选的,所述根据所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据表征所述第一语音对应的目标识别结果为错误识别结果的概率,以及所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率;
其中,表征所述第一语音对应的目标识别结果为错误识别结果的概率,根据所述第一语音的前一语音输入之后到所述第一语音输入之前的用户行为信息确定。
可选的,所述根据表征所述第一语音对应的目标识别结果为错误识别结果的概率,以及所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据预先设定的行为类别,确定所述用户行为信息对应的行为类别;
根据预先设定的行为类别与得分的对应关系,确定所述用户行为信息所对应的行为类别的得分,作为目标得分;
根据表征所述第一语音对应的识别结果为错误识别结果的概率以及所述目标得分,确定表征所述第二语音的目标识别结果为错误识别结果的概率。
可选的,所述根据所述第一语音和所述第二语音分别对应的识别信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率,作为表征所述第二语音的目标识别结果为错误识别结果的概率。
可选的,所述识别信息包括对应语音的候选识别结果集和/或从所述候选识别结果集中确定的目标识别结果;
所述根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率,包括:
按以下四种计算方式中的任一种计算相似度:计算所述第二语音的目标识别结果与所述第一语音的目标识别结果的相似度;计算所述第二语音的目标识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第二语音的候选识别结果集中的每个候选识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第一语音的目标识别结果与所述第二语音的候选识别结果集中的每个候选识别结果的相似度;
根据所述四种计算方式中的任一种计算得到的相似度,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率。
可选的,计算两个识别结果的相似度的过程包括:
对于所述两个识别结果中的每个识别结果:
对该识别结果进行分词处理,并从分词处理得到词中去除非关键词,以得到该识别结果中的关键词;
确定所述关键词的词向量,并根据所述关键词的词性、所述关键词在预先构建的结构化数据库中出现的情况确定所述关键词的权重,其中,所述结构化数据库根据应用场景构建,所述结构化数据库中包括多条数据记录,每条数据记录中包括至少一个关键词;
根据所述关键词的词向量和权重,确定该识别结果的句向量;
根据所述两个识别结果的句向量,确定所述两个识别结果的相似度。
可选的,所述根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
根据所述第一概率和所述第二概率,确定所述第二语音的目标识别结果的置信度;
若所述第二语音的目标识别结果的置信度小于预设的置信度阈值,则判定所述第二语音的目标识别结果为错误识别结果。
一种语音识别结果纠正方法,包括:
采用上述任一项所述的语音识别结果的判别方法,判别第二语音的目标识别结果是否为错误识别结果;
若所述第二语音的目标识别结果为错误识别结果,则根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
可选的,所述根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果,包括:
对于所述第二语音的候选识别结果集中的每个候选识别结果:
从该候选识别结果中提取关键词;
在所述结构化数据库中检索包含所述关键词的数据记录;
若检索到包含所述关键词的数据记录,则将该候选识别结果确定为所述第二语音的正确识别结果。
一种语音识别结果判别装置,包括:信息获取模块和识别结果判别模块;
所述信息获取模块,用于获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所要表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
所述识别结果判别模块,用于根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
一种语音识别结果纠正装置,包括上述的语音识别结果判别装置和识别结果纠正模块;
所述语音识别结果判别装置,用于判别第二语音的目标识别结果是否为错误识别结果;
所述识别结果纠正模块,用于当所述第二语音的目标识别结果为错误识别结果时,根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
一种语音识别结果判别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的语音识别结果判别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的语音识别结果判别方法的各个步骤。
一种语音识别结果纠正设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的语音识别结果纠正方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的语音识别结果纠正方法的各个步骤。
考虑到用户针对终端的错误响应会做出一些特定的行为,本申请提出获取第二语音对应的、能够反映第二语音与其前一输入语音所要表达的内容相关性的用户行为表征信息,然后根据第二语音对应的用户行为表征信息判别第二语音的目标识别结果是否为错误识别结果。本申请实施例提供的语音识别结果的判别方法能够判别出输入语音的识别结果是否错误,该方法实现简单,能够兼容用户的各种需求,通用性较强,且不依赖人力。本申请在语音识别结果判别方法的基础上还提供了语音识别结果纠正方法,该方法不但可以判别第二语音的目标识别结果是否为错误识别结果,还能在第二语音的目标识别结果为错误识别结果时,从第二语音的候选识别结果中确定出正确的识别结果,这使得后续能够对正确的识别结果进行语义理解,从而使得终端能够给出正确的响应,用户体验较好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的语音识别结果判别方法的流程示意图;
图2为本申请实施例提供的根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果的一种实现方式的流程示意图;
图3为本申请实施例提供的根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果的另一种实现方式的流程示意图;
图4为本申请实施例提供的语音识别结果纠正方法的流程示意图;
图5为本申请实施例提供的语音识别结果判别装置的结构示意图;
图6为本申请实施例提供的语音识别结果纠正装置的结构示意图;
图7为本申请实施例提供的语音识别结果判别设备的结构示意图;
图8为本申请实施例提供的语音识别结果纠正设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决因输入语音的识别结果错误,导致语义理解错误,进而导致终端给出错误响应的问题,本案发明人进行了研究,起初的思路是:收集大量错误的识别结果,并对错误的语音识别结果标注出正确的识别结果,用标注的识别结果训练语音识别模型,从而使得语音识别模型能够给出正确的识别结果。
发明人通过研究发现,上述方案存在一些缺陷:其一,错误的识别结果较难收集,且收集大量错误的识别结果需要耗费较长的时间;其二,需要对大量错误的识别结果进行人工标注,时间成本和人工成本较高;其三,响应不及时,从收集数据到标注数据再到训练模型,需要很长的时间周期,很难及时解决终端对于用户的某个需求给出错误响应的问题;其四,用户的需求可能经常发生变化,因此,需要经常对模型进行优化训练,即该方案无法兼容用户的需求。
鉴于上述方案存在的问题,本案发明人进一步进行研究,最终提供了一种不需要收集大量训练数据、不依赖于人工、响应及时、能够兼容各种用户需求的语音识别结果判别方法和语音识别结果纠正方法,其中,语音识别结果的判别方法能够判别输入语音的识别结果是否为错误的识别结果,语音识别结果的纠正方法不但能判别输入语音的识别结果是否为错误的识别结果,还能在输入语音的识别结果为错误的识别结果时,确定出输入语音的正确识别结果,从而使得后续能够基于输入语音的正确识别结果进行语义理解,以获知用户的需求,进而使得终端能够针对输入语音做出正确的响应。
本申请提供的语音识别结果判别方法和语音识别结果纠正方法可以应用于具有数据处理能力的终端(该终端可以为有屏终端,比如,智能手机、笔记本电脑、PC、PAD、智能电视等,也可以为无屏终端,比如智能音箱等),终端能够接收用户输入的语音,进行语音识别,判别语音识别结果是否错误,若语音识别结果错误,则确定出正确的语音识别结果,然后对正确的语音识别结果进行语义理解,进而基于语义理解结果做出正确响应,上述的两个方法还可应用于服务器(可以是一个服务器,也可是多个服务器,还可以是服务器集群),服务器可与终端通过网络连接,且可从终端获取用户的输入语音,进而进行语音识别,判别语音识别结果是否错误,若语音识别结果错误,则确定出正确的语音识别结果,然后对正确的语音识别结果进行语义理解,进而将语义理解结果反馈给终端,以使终端基于语义理解结果做出正确响应。
接下来通过下述实施例对本申请提供的语音识别结果判别方法和语音识别结果纠正方法进行介绍。
请参阅图1,示出了本申请实施例提供的语音识别结果判别方法的流程示意图,可以包括:
步骤S101:获取第二语音对应的用户行为表征信息。
其中,用户行为表征信息为能够表征用户行为的信息,并且,用户行为表征信息能够反映第二语音与第一语音所要表达内容的相关性,需要说明的是,第一语音为第二语音的前一次输入语音。
本案发明人通过大量用户针对终端的错误响应所做出的行为发现,对于终端用户来说,虽然需求十分分散且变化频率极快,但是对于一类特定场景的产品,会受限于产品的使用场景而使得用户的使用行为呈现一定的特征。以电视大屏场景的用户为例,当电视针对用户的输入语音做出错误的响应时,用户通常会出现“连续快速表达”、“重复表达同一内容”、“进行特定遥控器按键行为”等显著特征,比如,用户针对电视输入内容为“我想看A的电视剧”的语音,若因语音识别错误导致电视播放的不是“A”的电视剧,那么用户会迅速再次输入相同内容的语音,另外,对于电视对某一输入语音所做出的响应而言,若其为正确响应,则用户通常按下遥控器的确认键,若其为错误响应,则用户通常会按下返回键、主页键或者用于浏览节目的键(比如上下键、左右键)等。
基于上述发现,本申请提出,可获取根据用户行为抽象出来的、能够表征用户行为的信息,即用户行为表征信息,用于对输入语音的目标识别结果进行判别。
在一种可能的实现方式中,第二语音对应的用户行为表征信息可以但不限定为包括以下三种信息中的任一种或多种的组合:第一语音与第二语音的输入时间间隔、第一语音输入之后到第二语音输入之前的用户行为信息、第一语音和第二语音分别对应的识别信息。其中,识别信息包括对应语音的候选识别结果集,和/或从候选识别结果集中确定出的目标识别结果,需要说明的是,在语音识别阶段,会针对输入语音给出多个候选识别结果,每个候选识别结果均有一个得分(该得分为声学得分与语言得分的和),而目标识别结果为多个候选识别结果中得分最高的候选识别结果。
需要说明的是,第一语音与第二语音的输入时间间隔、第一语音输入之后到第二语音输入之前的用户行为信息、第一语音和第二语音分别对应的识别信息均能够表征用户行为,其中,第一语音与第二语音的输入时间间隔能够表征用户是否进行了连续快速表达,第一语音输入之后到第二语音输入之前的用户行为信息能够表征用户针对终端对第一语音的响应做出了什么样的反馈行为,第一语音和第二语音分别对应的识别信息能够表征用户是否重复表达了同一内容。
从判决准确度考虑,第二语音对应的用户行为表征信息优选为包括第一语音和第二语音分别对应的识别信息,更为优选的,同时包括第一语音与第二语音的输入时间间隔、第一语音输入之后到第二语音输入之前的用户行为信息,以及第一语音和第二语音分别对应的识别信息。
步骤S102:根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果。
需要说的是的,本申请中提及的“第二语音的目标识别结果”指的是对第二语音进行语音识别所得到的识别结果,该识别结果可能为第二语音的正确识别结果,也可能为错误的识别结果,后续提到的“第一语音的目标识别结果”类似。
从用户针对终端的错误响应所做出的行为出发,本申请实施例首先获取第二语音对应的用户行为表征信息,比如,第一语音与第二语音的输入时间间隔(表征用户是否进行了连续快速输入)、第一输入语音和第二输入语音分别对应的识别信息(表征用户是否重复表达了同一内容),然后根据第二语音对应的用户行为表征信息判别第二语音的目标识别结果是否为错误识别结果。本申请实施例提供的语音识别结果的判别方法能够判别出输入语音的识别结果是否正确,该方法实现简单,能够兼容用户的需求,通用性较强,且不依赖人力。
在本申请的另一实施例中,对上述实施例中的“步骤S102:根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果”进行介绍。
上述实施例提到,第二语音对应的用户行为表征信息可以包括第一语音与第二语音的输入时间间隔(表征用户是否进行了连续快速表达)、第一语音输入之后到第二语音输入之前的用户行为信息(表征用户针对终端对第一语音的响应做出了什么样的反馈行为)、第一语音和第二语音分别对应的识别信息(表征用户是否重复表达了同一内容)中的一种或多种的组合,考虑到以“重复表达同一内容”这一行为作为判别依据的置信度相对较高,那么,若以上述三种信息中的一种信息作为判别依据,则优选第一语音和第二语音分别对应的识别信息(表征用户是否“重复表达同一内容”)。
接下来以第二语音对应的用户行为表征信息包括第一语音和第二语音分别对应的识别信息为例,对上述实施例中的步骤S102进行介绍。
请参阅图2,示出了根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果的一种实现方式的流程示意图,可以包括:
步骤S201:根据第一语音和第二语音分别对应的识别信息,确定第一语音和第二语音所表达的内容为同一内容的概率。
其中,第一语音和第二语音所表达的内容为同一内容的概率为用户“重复表达同一内容”的概率。
步骤S202:根据第一语音和第二语音所表达的内容为同一内容的概率,判别第二语音的目标识别结果是否为错误识别结果。
上述实施例提到,用户针对终端的错误响应通常会做出“重复表达同一内容”这一行为,基于此,本实施例可根据第一语音和第二语音所表达的内容为同一内容的概率,判别第二语音的目标识别结果是否为错误识别结果。需要说明的是,第一语音和第二语音所表达的内容为同一内容的概率越大,第二语音的目标识别结果为错误识别结果的可能性越大,反之,第一语音和第二语音所表达的内容为同一内容的概率越小,第二语音的目标识别结果为错误识别结果的可能性越小。
在某些时候,仅以上述三种信息中的一种为依据对识别结果进行判别是不够的,即,仅以上述三种信息中的一种为依据进行判别的准确度可能不够高,为了获得较高的判别准确度,可同时以上述的三种信息作为依据,即,第二语音对应的用户行为表征信息同时包括第一语音与第二语音的输入时间间隔、第一语音输入之后到第二语音输入之前的用户行为信息、第一语音和第二语音分别对应的识别信息,基于此,请参阅图3,示出了根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果的另一种实现方式的流程示意图,可以包括:
步骤S301:判断第一语音与第二语音的输入时间间隔小于预设时间阈值,若是,则执行步骤S302a和步骤S302b,否则执行其它操作(对第二语音的目标识别结果进行语义理解,进而使终端进行响应)。
需要说明的是,第一语音与第二语音的输入时间间隔小于预设时间阈值表明用户进行了连续快速输入。
步骤S302a:根据第一语音输入之后到第二语音输入之前的用户行为信息,确定表征第二语音的目标识别结果为错误识别结果的概率,作为第一概率P1。
步骤S302b:根据第一语音和第二语音分别对应的识别信息,确定表征第二语音的目标识别结果为错误识别结果的概率,作为第二概率P2。
具体的,可根据第一语音和第二语音分别对应的识别信息,确定第一语音和第二语音所表达的内容为同一内容的概率,作为表征第二语音的目标识别结果为错误识别结果的概率。
需要说明的是,本实施例并不限定步骤S302a和步骤S302b的执行顺序,可先执行步骤S302a,再执行步骤S302b,也可先执行步骤S302b,再执行步骤S302a,还可并行执行步骤S302a和步骤S302b。
步骤S303:根据第一概率P1和第二概率P2,判别第二语音的目标识别结果是否为错误识别结果。
具体的,可根据第一概率P1和第二概率P2,确定第二语音的目标识别结果的置信度P;若第二语音的目标识别结果的置信度P小于预设的置信度阈值Pth,则判定第二语音的目标识别结果为错误识别结果,否则,判定第二语音的目标识别结果为正确识别结果。
需要说明的是,由于第一概率P1和第二概率P2是从两个不同维度确定的概率,即,第一概率是从用户反馈行为这一维度确定的概率,第二概率是从用户两次表达内容的相似性这一维度确定的概率,因此,在根据第一概率P1和第二概率P2确定第二语音的目标识别结果的置信度P时,首先需要对第一概率P1和第二概率P2进行归一化处理,可选的,可按下式对第一概率P1和第二概率P2进行归一化处理:
Figure BDA0002409169450000121
其中,Mean代表均值,Standard deviation代表方差,假设用户进行了连续3轮输入(第3轮输入的语音为本申请中的“第二语音”,第2轮输入的语音为本申请中的“第一语音”),则Mean1为第3轮输入语音对应的第一概率(即根据第2轮输入之后到第三轮输入之前的用户行为信息确定的第一概率)与第2轮输入语音对应的第一概率(即根据第1轮输入之后到第2轮输入之前的用户行为信息确定的第一概率)的平均值,Standard deviation1为第3轮输入语音对应的第一概率与第2轮输入语音对应的第一概率的方差,Mean2为第3轮输入语音对应的第二概率(根据第3轮输入语音的识别信息和第2轮输入语音的识别信息确定的第二概率)与第2轮输入语音对应的第二概率(根据第2轮输入语音的识别信息和第1轮输入语音的识别信息确定的第二概率)的平均值,Standard deviation1为第3轮输入语音对应的第二概率与第2轮输入语音对应的第二概率的方差。
在获得归一化后的第一概率
Figure BDA0002409169450000131
和归一化后的第二概率
Figure BDA0002409169450000132
后,根据
Figure BDA0002409169450000133
Figure BDA0002409169450000134
确定第二语音的目标识别结果的置信度P,根据
Figure BDA0002409169450000135
Figure BDA0002409169450000136
确定第二语音的目标识别结果的置信度P的实现方式有多种,比如,可将两个概率
Figure BDA0002409169450000137
Figure BDA0002409169450000138
相乘,得到的概率作为第二语音的目标识别结果的置信度P,还可将两个概率作为两个变量,采用对二元变量求最优解的方法(比如,可采用梯度下降法求最优解)求得最优解,作为第二语音的目标识别结果的置信度P。
在本申请的另一实施例中,对上述实施例中的步骤S301中“根据第一语音输入之后到第二语音输入之前的用户行为信息,确定表征第二语音的目标识别结果为错误识别结果的概率”进行介绍。
根据第一语音输入之后到第二语音输入之前的用户行为信息,确定表征第二语音的目标识别结果为错误识别结果的概率,可以包括:根据表征第一语音对应的目标识别结果为错误识别结果的概率,以及用户行为信息,确定表征第二语音的目标识别结果为错误识别结果的概率。
其中,表征第一语音对应的目标识别结果为错误识别结果的概率,根据第一语音的前一语音输入之后到第一语音输入之前的用户行为信息确定,具体的,第一语音对应的目标识别结果为错误识别结果的概率根据第一语音的前一语音输入之后到第一语音输入之前的用户行为信息,以及第一语音的前一语音对应的目标识别结果为错误识别结果的概率确定。
进一步的,根据表征第一语音对应的目标识别结果为错误识别结果的概率,以及用户行为信息,确定表征第二语音的目标识别结果为错误识别结果的概率的过程可以包括:
步骤a1、根据预先设定的行为类别,确定用户行为信息对应的行为类别。
在一种可能的实现方式中,可预先设定如下行为类别:“显性正向”、“显性负向”、“隐性正向”、“隐性负向”。
假设终端对一输入语音进行响应后,用户按下了确认键,或者发出了指示确认的语音指令,则认为用户的这个行为为“显性正向”行为;假设终端对一输入语音进行响应后,用户按键退出当前页面(比如按下“返回键”、“主页键”等)或者发出指示退出当前页面的语音指令,则认为用户的这个行为为“显性负向”行为;假设终端对一输入语音进行响应后,用户做出了浏览型行为,比如按上下左右键、通过语音翻页等,则认为用户的这个行为为“隐性正向”行为;假设终端对一输入语音进行响应后,用户出现跳出意向或者不满足的行为,比如,极短时间(通常<5s)就再次表达、表达内容中出现否定词等,则认为用户的这个行为为“隐性负向”行为。
需要说明的是,用户行为信息能够指示用户针对终端的响应做出了什么样的反馈行为,因此,根据用户行为信息能够确定其指示的用户行为属于上述四种类型中的哪种类型。示例性的,用户行为信息指示用户进行了语音翻页,则可确定用户行为信息对应的行为类别为“隐性正向”。
步骤a2、根据预先设定的行为类别与得分的对应关系,确定用户行为信息所对应的行为类别的得分,作为目标得分。
在设定行为类别时,可同时设定每个行为类别对应的得分,即预先设定了行为类别与得分的对应关系,示例性的,可设定“显性正向”对应的得分为0.5,“显性负向”对应的得分为-0.5,“隐性正向”对应的得分为0.05,“隐性负向”对应的得分为-0.05,假设用户行为信息指示用户进行了语音翻页,则可确定用户行为信息对应的行为类别为“隐性正向”,根据行为类别与得分的对应关系可确定“隐性正向”对应的得分为0.05,即用户行为信息所对应的行为类别的得分为0.05。
步骤a3、根据表征第一语音对应的识别结果为错误识别结果的概率以及目标得分,确定表征第二语音的目标识别结果为错误识别结果的概率。
具体的,可根据表征第一语音对应的识别结果为错误识别结果的概率以及目标得分,利用下式确定表征第二语音的目标识别结果为错误识别结果的概率:
P(xi)=|P(xi-1)*∑iγi| (2)
其中,P(xi)为表征第二语音的目标识别结果为错误识别结果的概率,P(xi-1)为表征第一语音(即第二语音的前一输入语音)的目标识别结果为错误识别结果的概率,γi为第一语音输入之后到第二语音输入之前的用户行为信息所对应的行为类别的得分,需要说明的是,第一语音输入之后到第二语音输入之前可能出现多个用户行为,比如,用户先做出了“隐性正向”行为,又做出了“显性负向”行为,则需要将“隐性正向”对应的得分与“显性负向”对应的得分求和,上式中的∑iγi即表示将多个用户行为分别对应的行为类别的得分求和。
需要说明的是,假设用户进行了连续三轮输入,则第二语音为第三轮输入的语音,第一语音为第二轮输入的语音,上述的P(xi)即为P(x3),P(x3)即为表征第三轮输入的语音的目标识别结果为错误识别结果的概率,上述的P(xi-1)即为P(x2),P(x2)即为表征第二轮输入的语音的目标识别结果为错误识别结果的概率,P(x2)根据第一轮语音输入之后到第二轮语音输入之前的用户行为所对应的行为类别的得分以及P(x1)确定。
上述实施例提供了“根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果”的两种可能实现方式,这两种实现方式中均有“根据第一语音和第二语音分别对应的识别信息,确定第一语音和第二语音所表达的内容为同一内容的概率”,接下来对“根据第一语音和第二语音分别对应的识别信息,确定第一语音和第二语音所表达的内容为同一内容的概率”的实现过程进行介绍。
根据第一语音和第二语音分别对应的识别信息,确定第一语音和第二语音所表达的内容为同一内容的概率的过程可以包括:
步骤b1、按以下四种计算方式中的任一种计算相似度:
第一种计算方式:计算第二语音的目标识别结果与第一语音的目标识别结果的相似度。
第二种计算方式:计算第二语音的目标识别结果与第一语音的候选识别结果集中的每个候选识别结果的相似度。
第二种计算方式:计算第二语音的候选识别结果集中的每个候选识别结果与第一语音的候选识别结果集中的每个候选识别结果的相似度。
第四种计算方式:计算第一语音的目标识别结果与第二语音的候选识别结果集中的每个候选识别结果的相似度。
假设第二语音的候选识别结果集包括{e1,e2,e3,e4},第二语音的目标识别结果为e2,第一语音的候选识别结果集包括{f1,f2,f3,f4},第一语音的目标识别结果为f3,则第一种计算方式为:计算e2和f3的相似度,第二种计算方式为:计算e2分别与f1、f2、f3、f4的相似度,第三种计算方式为计算e1分别与f1、f2、f3、f4的相似度、e2分别与f1、f2、f3、f4的相似度、e3分别与f1、f2、f3、f4的相似度、e4分别与f1、f2、f3、f4的相似度,第四种计算方式为:计算f3分别与e1、e2、e3、e4的相似度。
需要说明的是,上述四种计算方式中,优选第三种计算方式。
上述四种计算方式中,均需要计算两个识别结果的相似度,以下给出计算两个识别结果的相似度的过程:
步骤c1、按如下方式分别确定两个识别结果的句向量:
步骤c11、对识别结果进行分词处理,并从分词处理得到词中去除非关键词,以得到识别结果中的关键词。
需要说明的是,在一些应用场景中,用户进行语音输入时,通常具有典型的句式,比如“我想看…”、“播放…”等,基于此,可将典型句式中的词作为非关键词去除,即,将“我/想/看”、“播放”去除。
示例性的,电视场景中的一识别结果为“我想看张三的综艺节目”,对该识别结果进行分词后,可得到“我/想/看/张三/的/综艺/节目”,由于“我想看…”是电视场景的典型句式,因此,将“我/想/看”去除,剩余“张三/的/综艺/节目”。
步骤c12、确定关键词的词向量,并根据关键词的词性和关键词在预先构建的结构化数据库中出现的情况确定关键词的权重。
对于上述“我想看张三的综艺节目”这一识别结果而言,经步骤c11可获得关键词“张三”、“的”、“综艺”、“节目”,本步骤的目的在于,确定这四个关键词的词向量,具体的,可利用word2vec分别确定这四个词的词向量,通常情况,利用word2vec确定出词向量后,还需要对确定出的词向量进行降维处理,比如,利用word2vec确定“综艺”的词向量为{0 0 11…},对其进行降维处理后可得到{0.72 -0.43…},降维处理后得到的词向量作为最终的词向量。
本步骤除了需要确定关键词的词向量外,还需要确定关键词的权重,本步骤在确定权重时,同时考虑了关键词的词性和关键词在预先构建的结构化数据库中出现的情况。
具体的,预先设定各种词性对应的权重,在获得关键词后,确定关键词的词性,将关键词的词性对应的权重作为关键词的初始权重,并确定关键词在结构化数据库中出现的词频,根据关键词的初始权重和关键词在结构化数据库中出现的词频确定关键词的最终权重。具体的,可将关键词的初始权重与关键词在结构化数据库中出现的词频相乘,相乘得到的结果作为关键词的最终权重。
示例性的,可设定名词对应的权重为0.8,代词对应的权重为0.05,动词对应的权重为0.2,形容词对应的权重为0.4,助词对应的权重为0,对于上述的四个关键词“张三”、“的”、“综艺”、“节目”而言,“张三”为名词,“的”为助词,“综艺”为名词,“节目”也为名词,将关键词的词性对应的权重作为关键词的初始权重,即将0.8作为“张三”、“综艺”、“节目”的初始权重,将0作为“的”的初始权重,同时还要确定“张三”、“的”、“综艺”、“节目”这四个关键词分别在结构化数据库中出现的词频,假设这四个词分别在结构化数据库中出现的词频为cf1、cf2、cf3、cf4,那么,这四个关键词最终的权重分别为0.8cf1、0、0.8cf3、0.8cf4
需要说明的是,结构化数据库根据应用场景设定,结构化数据库中可包括多条数据记录,每条数据记录中包括至少一个关键词,下表示出了电视场景的结构化数据库的一示例,从表1可以看出,电视场景的结构化数据库中的每条数据记录对应一个电视节目,每条数据记录中的关键词为对应节目的关键信息,比如节目的类型、节目中的演员等。
表1电视场景的结构化数据库示例
Figure BDA0002409169450000171
Figure BDA0002409169450000181
可选的,关键词在结构化数据库出现的词频可按下式确定:
其中,cf(y)为关键词y在结构化数据库出现的词频,n为结构化数据库中所包含的数据记录的总条数,n(y)为结构化数据库中出现关键词y的数据记录的总条数,u为平滑系数,通常设定为1,u(y)为关键词y的平滑系数。
步骤c13、根据关键词的词向量和权重,确定识别结果的句向量。
具体的,将关键词的词向量与权重相乘,得到关键词对应的赋予权重后的词向量,将所有关键词对应的赋予权重后的词向量拼接,拼接后得到的向量作为识别结果的句向量。
对于上述的识别结果“我想看张三的综艺节目”而言,通过步骤c12,可获得关键词“张三”、“的”、“综艺”、“节目”的词向量和权重,假设四个关键词的词向量分别为v1、v2、v3、v4,四个关键词的权重分别为w1、w2、w3、w4,则将v1w1、v2w2、v3w3、v4w4进行拼接,拼接后得到的向量作为识别结果“我想看张三的综艺节目”的句向量。
步骤c2、根据两个识别结果的句向量,确定两个识别结果的相似度。
经上述步骤c1,便可获得两个识别结果的句向量,由于句向量为对应识别结果的表征向量,因此,可计算两个识别结果的句向量的相似度,作为两个识别结果的相似度。
步骤b2、根据四种计算方式中的任一种计算得到的相似度,确定第一语音和第二语音所表达的内容为同一内容的概率。
对于上述的第一种计算方式,由于只得到一个相似度,因此,可直接将该相似度作为第一语音和第二语音所表达的内容为同一内容的概率,对于上述的其它三种计算方式,由于可得到多个相似度,因此,将多个相似度相乘,得到的结果作为第一语音和第二语音所表达的内容为同一内容的概率。
上述各个实施例提供了本申请提出的语音识别结果判别方法的具体实现过程,由上述实施例可知,本申请提出的语音识别结果判别方法不需要收集大量训练数据,也不需要人工对数据进行分析标注,因此,不依赖于人力,并且,本申请能够兼容用户的各种需求,通用性较强。
本申请实施例还提供了一种语音识别结果纠正方法,请参阅图4,示出了该方法的流程示意图,该方法可以包括:
步骤S401:获取第二语音对应的用户行为表征信息。
其中,用户行为表征信息能够反映第二语音与第一语音所要表达内容的相关性,第一语音为第二语音的前一次输入语音。
步骤S402:根据第二语音对应的用户行为表征信息,判别第二语音的目标识别结果是否为错误识别结果。
需要说明的是,步骤S401~步骤S402的具体实现过程与上述实施例提供的语音识别结果判别方法中的步骤S101~步骤S102的具体实现过程相同,具体可参见上述实施例,本实施例在此不做赘述。
步骤S403:若第二语音的目标识别结果为错误识别结果,则根据第二语音的候选识别结果集和预先构建的结构化数据库,从第二语音的候选识别结果集中确定出第二语音的正确识别结果。
具体的,根据第二语音的候选识别结果集和预先构建的结构化数据库,从第二语音的候选识别结果集中确定出第二语音的正确识别结果的实现过程可以包括:对于第二语音的候选识别结果集中的每个候选识别结果,首先从该候选识别结果中提取关键词,然后在结构化数据库中检索包含提取出的关键词的数据记录,若检索到包含提取出的关键词的数据记录,则将该候选识别结果确定为第二语音的正确识别结果。需要说明的是,本实施例中的结构化数据库即为上述实施例提及的结构化数据库。
示例性的,第二语音的候选识别结果集中包括三个候选识别结果,分别为“我想看李四的综艺节目”、“我想看李寺的综艺节目”、“我想看李似的综艺节目”,对于“我想看李四的综艺节目”这一候选识别结果而言,从中提取出关键词“李四”和“综艺”,在结构化数据库中检索包含关键词“李四”和“综艺”的数据记录,同样的,从候选识别结果“我想看李寺的综艺节目”中提取关键词“李寺”和“综艺”,在结构化数据库中检索包含关键词“李寺”和“综艺”的数据记录,从候选识别结果“我想看李似的综艺节目”中提取关键词“李似”和“综艺”,在结构化数据库中检索包含关键词“李似”和“综艺”的数据记录,假设在结构化数据库中检索到包含“李四”和“综艺”的数据记录,但未检索到包含“李寺”和“综艺”的数据记录,也未检索到包含“李似”和“综艺”的数据记录,则将候选识别结果“我想看李四的综艺节目”确定为第二语音的正确识别结果。
需要说明的是,在某些时候,按上述确定正确识别结果的方式确定的正确识别结果可能不止一个,若出现这种情况,可获取按上述方式确定出的各个识别结果的得分,将得分最高的识别结果作为第二语音最终的正确识别结果。示例性的,按上述确定正确识别结果的方式确定出3个正确的识别结果,分别为识别结果a、识别结果b和识别结果c,此时,获取这三个识别结果的得分(该得分即为语音识别阶段获得的声学得分与语言得分的和),假设识别结果b的得分最高,则将识别结果b作为最终的正确识别结果。
本申请实施例提供的语音识别结果纠正方法,可根据第二语音对应的用户行为表征信息判别第二语音的目标识别结果是否为错误识别结果,并在判定出第二语音的目标识别结果为错误识别结果时,可从第二语音的候选识别结果中确定出正确的识别结果,这使得后续能够对正确的识别结果进行语义理解,从而使得终端能够给出正确的响应,用户体验较好。申请实施例提供的语音识别结果纠正方法实现简单、不依赖人力,且能够兼容用户的各种需求,通用性较强。
本申请实施例还提供了一种语音识别结果判别装置,下面对本申请实施例提供的语音识别结果判别装置进行描述,下文描述的语音识别结果判别装置与语音识别结果判别方法可相互对应参照。
请参阅图5,示出了本申请实施例提供的语音识别结果判别装置50的结构示意图,可以包括:信息获取模块501和识别结果判别模块502。
信息获取模块501,用于获取第二语音对应的用户行为表征信息。
其中,所述用户行为表征信息能够反映所述第二语音与第一语音所要表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音。
识别结果判别模块502,用于根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
本申请实施例提供的语音识别结果判别装置,能够根据第二语音对应的用户行为表征信息判别第二语音的目标识别结果是否为错误识别结果,判别过程实现简单,能够兼容用户的需求,通用性较强,且不依赖人力。
在一种可能的实现方式中,上述实施例提供的中语音识别结果判别装置中,信息获取模块501获取的第二语音对应的用户行为表征信息包括以下三种信息中的任一种或多种的组合:所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息、所述第一语音和所述第二语音分别对应的识别信息。
在一种可能的实现方式中,上述实施例提供的中语音识别结果判别装置中,信息获取模块501获取的第二语音对应的用户行为表征信息包括所述第一语音和所述第二语音分别对应的识别信息。
相应的,识别结果判别模块502可以包括:概率确定子模块和识别结果判别子模块。
概率确定子模块,用于根据第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率。
识别结果判别子模块,用于根据所述第一语音和所述第二语音所表达的内容为同一内容的概率,判别所述第二语音的目标识别结果是否为错误识别结果。
在一种可能的实现方式中,上述实施例提供的中语音识别结果判别装置中,信息获取模块501获取的第二语音对应的用户行为表征信息包括:所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息,以及所述第一语音和所述第二语音分别对应的识别信息。
相应的,识别结果判别模块502可以包括:所述根据所述判别特征,判别所述第二语音的目标识别结果是否为错误识别结果,包括:第一概率确定子模块、第二概率确定子模块和识别结果判别子模块。
第一概率确定子模块,用于若所述输入时间间隔小于预设时间阈值,则根据所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第一概率。
第二概率确定子模块,用于根据所述第一语音和所述第二语音分别对应的识别信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第二概率。
识别结果判别子模块,用于根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果。
在一种可能的实现方式中,上述的第一概率确定子模块,具体用于根据表征所述第一语音对应的目标识别结果为错误识别结果的概率,以及所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率。
其中,表征所述第一语音对应的目标识别结果为错误识别结果的概率,根据所述第一语音的前一语音输入之后到所述第一语音输入之前的用户行为信息确定。
在一种可能的实现方式中,上述的第一概率确定子模块可以包括:行为类别确定子模块、得分确定子模块和错误概率确定子模块。
行为类别确定子模块,用于根据预先设定的行为类别,确定所述用户行为信息对应的行为类别。
得分确定子模块,用于根据预先设定的行为类别与得分的对应关系,确定所述用户行为信息所对应的行为类别的得分,作为目标得分。
错误概率确定子模块,用于根据表征所述第一语音对应的识别结果为错误识别结果的概率以及所述目标得分,确定表征所述第二语音的目标识别结果为错误识别结果的概率。
在一种可能的实现方式中,上述的第二概率确定子模块,具体用于根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率,作为表征所述第二语音的目标识别结果为错误识别结果的概率。
在一种可能的实现方式中,上述的识别信息包括对应语音的候选识别结果集和/或从所述候选识别结果集中确定的目标识别结果。
上述的概率确定子模块和第二概率确定子模块在根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率时,具体用于:
按以下四种计算方式中的任一种计算相似度:计算所述第二语音的目标识别结果与所述第一语音的目标识别结果的相似度;计算所述第二语音的目标识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第二语音的候选识别结果集中的每个候选识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第一语音的目标识别结果与所述第二语音的候选识别结果集中的每个候选识别结果的相似度;
根据所述四种计算方式中的任一种计算得到的相似度,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率。
在一种可能的实现方式中,上述的概率确定子模块和第二概率确定子模块在计算两个识别结果的相似度时,具体用于对于所述两个识别结果中的每个识别结果:
对该识别结果进行分词处理,并从分词处理得到词中去除非关键词,以得到该识别结果中的关键词;确定所述关键词的词向量,并根据所述关键词的词性、所述关键词在预先构建的结构化数据库中出现的情况确定所述关键词的权重,其中,所述结构化数据库根据应用场景构建,所述结构化数据库中包括多条数据记录,每条数据记录中包括至少一个关键词;根据所述关键词的词向量和权重,确定该识别结果的句向量;根据所述两个识别结果的句向量,确定所述两个识别结果的相似度。
在一种可能的实现方式中,上述的识别结果判别子模块在根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果时,具体用于根据所述第一概率和所述第二概率,确定所述第二语音的目标识别结果的置信度;若所述第二语音的目标识别结果的置信度小于预设的置信度阈值,则判定所述第二语音的目标识别结果为错误识别结果。
本申请实施例还提供了一种语音识别结果纠正装置,请参阅图6,示出了该语音识别结果纠正装置60的结构示意图,该装置60可以包括上述实施例提供的语音识别结果判别装置50,还包括识别结果纠正模块601。
语音识别结果判别装置50,用于判别第二语音的目标识别结果是否为错误识别结果。
识别结果纠正模块601,用于当所述第二语音的目标识别结果为错误识别结果时,根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
本申请实施例提供的语音识别结果纠正装置,可根据第二语音对应的用户行为表征信息判别第二语音的目标识别结果是否为错误识别结果,并在判定出第二语音的目标识别结果为错误识别结果时,可从第二语音的候选识别结果中确定出正确的识别结果,这使得后续能够对正确的识别结果进行语义理解,从而使得终端能够给出正确的响应,用户体验较好。
在一种可能的实现方式中,上述实施例提供的语音识别结果纠正装置中的识别结果纠正模块601可以包括:关键词提取子模块、检索子模块和正确识别结果确定子模块。
关键词提取子模块,用于对于第二语音的候选识别结果集中的每个候选识别结果,从该候选识别结果中提取关键词。
检索子模块,用于在所述结构化数据库中检索包含关键词提取子模块提取的关键词的数据记录。
确识别结果确定子模块,用于当检索子模块检索到包含关键词提取子模块提取的关键词的数据记录时,将该候选识别结果确定为第二语音的正确识别结果。
本申请实施例还提供了一种语音识别结果判别设备,请参阅图7,示出了该语音识别结果判别设备的结构示意图,该设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
本申请实施例还提供了一种语音识别结果纠正设备,请参阅图8,示出了该语音识别结果纠正设备的结构示意图,该设备可以包括:至少一个处理器801,至少一个通信接口802,至少一个存储器803和至少一个通信总线804;
在本申请实施例中,处理器801、通信接口802、存储器803、通信总线804的数量为至少一个,且处理器801、通信接口802、存储器803通过通信总线804完成相互间的通信;
处理器801可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器803可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
采用上述实施例提供的语音识别结果的判别方法,判别第二语音的目标识别结果是否为错误识别结果;
若所述第二语音的目标识别结果为错误识别结果,则根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
采用上述实施例提供的语音识别结果的判别方法,判别第二语音的目标识别结果是否为错误识别结果;
若所述第二语音的目标识别结果为错误识别结果,则根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (18)

1.一种语音识别结果判别方法,其特征在于,包括:
获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
2.根据权利要求1所述的语音识别结果判别方法,其特征在于,所述第二语音对应的用户行为表征信息包括以下三种信息中的任一种或多种的组合:
所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息、所述第一语音和所述第二语音分别对应的识别信息。
3.根据权利要求2所述的语音识别结果判别方法,其特征在于,所述第二语音对应的用户行为表征信息包括:所述第一语音和所述第二语音分别对应的识别信息;
相应的,所述根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率;
根据所述第一语音和所述第二语音所表达的内容为同一内容的概率,判别所述第二语音的目标识别结果是否为错误识别结果。
4.根据权利要求2所述的语音识别结果判别方法,其特征在于,所述第二语音对应的用户行为表征信息包括:所述第一语音与所述第二语音的输入时间间隔、所述第一语音输入之后到所述第二语音输入之前的用户行为信息,以及所述第一语音和所述第二语音分别对应的识别信息;
相应的,所述根据所述判别特征,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
若所述输入时间间隔小于预设时间阈值,则根据所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第一概率;
根据所述第一语音和所述第二语音分别对应的识别信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,作为第二概率;
根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果。
5.根据权利要求4所述的语音识别结果判别方法,其特征在于,所述根据所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据表征所述第一语音对应的目标识别结果为错误识别结果的概率,以及所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率;
其中,表征所述第一语音对应的目标识别结果为错误识别结果的概率,根据所述第一语音的前一语音输入之后到所述第一语音输入之前的用户行为信息确定。
6.根据权利要求5所述的语音识别结果判别方法,其特征在于,所述根据表征所述第一语音对应的目标识别结果为错误识别结果的概率,以及所述用户行为信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据预先设定的行为类别,确定所述用户行为信息对应的行为类别;
根据预先设定的行为类别与得分的对应关系,确定所述用户行为信息所对应的行为类别的得分,作为目标得分;
根据表征所述第一语音对应的识别结果为错误识别结果的概率以及所述目标得分,确定表征所述第二语音的目标识别结果为错误识别结果的概率。
7.根据权利要求6所述的语音识别结果判别方法,其特征在于,所述根据所述第一语音和所述第二语音分别对应的识别信息,确定表征所述第二语音的目标识别结果为错误识别结果的概率,包括:
根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率,作为表征所述第二语音的目标识别结果为错误识别结果的概率。
8.根据权利要求3或7所述的语音识别结果判别方法,其特征在于,所述识别信息包括对应语音的候选识别结果集和/或从所述候选识别结果集中确定的目标识别结果;
所述根据所述第一语音和所述第二语音分别对应的识别信息,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率,包括:
按以下四种计算方式中的任一种计算相似度:计算所述第二语音的目标识别结果与所述第一语音的目标识别结果的相似度;计算所述第二语音的目标识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第二语音的候选识别结果集中的每个候选识别结果与所述第一语音的候选识别结果集中的每个候选识别结果的相似度;计算所述第一语音的目标识别结果与所述第二语音的候选识别结果集中的每个候选识别结果的相似度;
根据所述四种计算方式中的任一种计算得到的相似度,确定所述第一语音和所述第二语音所表达的内容为同一内容的概率。
9.根据权利要求8所述的语音识别结果判别方法,其特征在于,计算两个识别结果的相似度的过程包括:
对于所述两个识别结果中的每个识别结果:
对该识别结果进行分词处理,并从分词处理得到词中去除非关键词,以得到该识别结果中的关键词;
确定所述关键词的词向量,并根据所述关键词的词性、所述关键词在预先构建的结构化数据库中出现的情况确定所述关键词的权重,其中,所述结构化数据库根据应用场景构建,所述结构化数据库中包括多条数据记录,每条数据记录中包括至少一个关键词;
根据所述关键词的词向量和权重,确定该识别结果的句向量;
根据所述两个识别结果的句向量,确定所述两个识别结果的相似度。
10.根据权利要求4所述的语音识别结果判别方法,其特征在于,所述根据所述第一概率和所述第二概率,判别所述第二语音的目标识别结果是否为错误识别结果,包括:
根据所述第一概率和所述第二概率,确定所述第二语音的目标识别结果的置信度;
若所述第二语音的目标识别结果的置信度小于预设的置信度阈值,则判定所述第二语音的目标识别结果为错误识别结果。
11.一种语音识别结果纠正方法,其特征在于,包括:
采用如权利要求1~10中任一项所述的语音识别结果的判别方法,判别第二语音的目标识别结果是否为错误识别结果;
若所述第二语音的目标识别结果为错误识别结果,则根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
12.根据权利要求11所述的语音识别结果纠正方法,其特征在于,所述根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果,包括:
对于所述第二语音的候选识别结果集中的每个候选识别结果:
从该候选识别结果中提取关键词;
在所述结构化数据库中检索包含所述关键词的数据记录;
若检索到包含所述关键词的数据记录,则将该候选识别结果确定为所述第二语音的正确识别结果。
13.一种语音识别结果判别装置,其特征在于,包括:信息获取模块和识别结果判别模块;
所述信息获取模块,用于获取第二语音对应的用户行为表征信息,其中,所述用户行为表征信息能够反映所述第二语音与第一语音所要表达内容的相关性,所述第一语音为所述第二语音的前一次输入语音;
所述识别结果判别模块,用于根据所述第二语音对应的用户行为表征信息,判别所述第二语音的目标识别结果是否为错误识别结果。
14.一种语音识别结果纠正装置,其特征在于,包括如权利要求13所述的语音识别结果判别装置和识别结果纠正模块;
所述语音识别结果判别装置,用于判别第二语音的目标识别结果是否为错误识别结果;
所述识别结果纠正模块,用于当所述第二语音的目标识别结果为错误识别结果时,根据所述第二语音的候选识别结果集和预先构建的结构化数据库,从所述第二语音的候选识别结果集中确定出所述第二语音的正确识别结果。
15.一种语音识别结果判别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的语音识别结果判别方法的各个步骤。
16.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的语音识别结果判别方法的各个步骤。
17.一种语音识别结果纠正设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求11~12中任一项所述的语音识别结果纠正方法的各个步骤。
18.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求11~12中任一项所述的语音识别结果纠正方法的各个步骤。
CN202010170991.3A 2020-03-12 2020-03-12 语音识别结果判别方法、纠正方法、装置、设备及存储介质 Active CN111326140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010170991.3A CN111326140B (zh) 2020-03-12 2020-03-12 语音识别结果判别方法、纠正方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010170991.3A CN111326140B (zh) 2020-03-12 2020-03-12 语音识别结果判别方法、纠正方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111326140A true CN111326140A (zh) 2020-06-23
CN111326140B CN111326140B (zh) 2023-05-30

Family

ID=71171633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010170991.3A Active CN111326140B (zh) 2020-03-12 2020-03-12 语音识别结果判别方法、纠正方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111326140B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435512A (zh) * 2020-11-12 2021-03-02 郑州大学 一种轨道交通运输仿真培训的语音行为考核评价方法
CN113223500A (zh) * 2021-04-12 2021-08-06 北京百度网讯科技有限公司 语音识别方法、训练语音识别模型的方法及对应装置
CN113378530A (zh) * 2021-06-28 2021-09-10 北京七维视觉传媒科技有限公司 语音编辑方法及装置、设备和介质
CN115798465A (zh) * 2023-02-07 2023-03-14 天创光电工程有限公司 一种语音输入方法、***及可读存储介质
CN116662764A (zh) * 2023-07-28 2023-08-29 中国电子科技集团公司第十五研究所 误识别纠正的数据识别方法、模型训练方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0389514A1 (en) * 1987-10-19 1990-10-03 Motorola Inc METHOD FOR ENTERING NUMBER SEQUENCES BY VOICE CONTROL.
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
JP2018045123A (ja) * 2016-09-15 2018-03-22 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN110520925A (zh) * 2017-06-06 2019-11-29 谷歌有限责任公司 询问结束检测
CN110663079A (zh) * 2017-05-24 2020-01-07 乐威指南公司 基于语音纠正使用自动语音识别生成的输入的方法和***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0389514A1 (en) * 1987-10-19 1990-10-03 Motorola Inc METHOD FOR ENTERING NUMBER SEQUENCES BY VOICE CONTROL.
CN105810188A (zh) * 2014-12-30 2016-07-27 联想(北京)有限公司 一种信息处理方法和电子设备
JP2016180917A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
JP2018045123A (ja) * 2016-09-15 2018-03-22 東芝テック株式会社 音声認識装置、音声認識方法及び音声認識プログラム
CN106486126A (zh) * 2016-12-19 2017-03-08 北京云知声信息技术有限公司 语音识别纠错方法及装置
CN110663079A (zh) * 2017-05-24 2020-01-07 乐威指南公司 基于语音纠正使用自动语音识别生成的输入的方法和***
CN110520925A (zh) * 2017-06-06 2019-11-29 谷歌有限责任公司 询问结束检测
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANKIT DASH ET AL.: "Speech Recognition and Correction of a Stuttered Speech", 《ICACCI》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435512A (zh) * 2020-11-12 2021-03-02 郑州大学 一种轨道交通运输仿真培训的语音行为考核评价方法
CN113223500A (zh) * 2021-04-12 2021-08-06 北京百度网讯科技有限公司 语音识别方法、训练语音识别模型的方法及对应装置
CN113223500B (zh) * 2021-04-12 2022-02-25 北京百度网讯科技有限公司 语音识别方法、训练语音识别模型的方法及对应装置
CN113378530A (zh) * 2021-06-28 2021-09-10 北京七维视觉传媒科技有限公司 语音编辑方法及装置、设备和介质
CN115798465A (zh) * 2023-02-07 2023-03-14 天创光电工程有限公司 一种语音输入方法、***及可读存储介质
CN115798465B (zh) * 2023-02-07 2023-04-07 天创光电工程有限公司 一种语音输入方法、***及可读存储介质
CN116662764A (zh) * 2023-07-28 2023-08-29 中国电子科技集团公司第十五研究所 误识别纠正的数据识别方法、模型训练方法、装置和设备
CN116662764B (zh) * 2023-07-28 2023-09-29 中国电子科技集团公司第十五研究所 误识别纠正的数据识别方法、模型训练方法、装置和设备

Also Published As

Publication number Publication date
CN111326140B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111326140B (zh) 语音识别结果判别方法、纠正方法、装置、设备及存储介质
KR102315732B1 (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US11194448B2 (en) Apparatus for vision and language-assisted smartphone task automation and method thereof
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN108027814B (zh) 停用词识别方法与装置
CN111522909B (zh) 一种语音交互方法及服务器
WO2019156103A1 (ja) Faq整備支援装置、faq整備支援方法、及びプログラム
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN111400513A (zh) 数据处理方法、装置、计算机设备和存储介质
CN108710653B (zh) 一种绘本朗读点播方法、装置及***
CN110738061A (zh) 古诗词生成方法、装置、设备及存储介质
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
CN114860992A (zh) 视频的标题生成方法、装置、设备及存储介质
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质
CN117496984A (zh) 目标对象的交互方法、装置、设备及可读存储介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
CN115878849B (zh) 一种视频标签关联方法、装置和电子设备
CN113312541B (zh) 语音搜索方法、装置及存储介质
CN116521133B (zh) 软件功能安全需求分析方法、装置、设备及可读存储介质
CN112328793B (zh) 评论文本数据的处理方法、装置及存储介质
CN114330963A (zh) 基于视频的对象评估方法、***、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant