CN110880318A - 语音识别方法及装置 - Google Patents

语音识别方法及装置 Download PDF

Info

Publication number
CN110880318A
CN110880318A CN201911179312.2A CN201911179312A CN110880318A CN 110880318 A CN110880318 A CN 110880318A CN 201911179312 A CN201911179312 A CN 201911179312A CN 110880318 A CN110880318 A CN 110880318A
Authority
CN
China
Prior art keywords
voice
recognition result
confidence
trainable
confidence level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911179312.2A
Other languages
English (en)
Other versions
CN110880318B (zh
Inventor
赵东阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911179312.2A priority Critical patent/CN110880318B/zh
Publication of CN110880318A publication Critical patent/CN110880318A/zh
Application granted granted Critical
Publication of CN110880318B publication Critical patent/CN110880318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是关于语音识别方法及装置。该方法包括:接收输入的第一语音;识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;获取所述第一语音对应的可训练置信度;基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。通过本发明的技术方案,可提高第一语音识别结果有效性的判断准确性,也能够降低对第一语音识别结果的误判率,同时也可避免手动设置置信度。

Description

语音识别方法及装置
技术领域
本发明涉及语音技术领域,尤其涉及语音识别方法及装置。
背景技术
目前,在对语音进行识别时,通常会使用到语音识别结果的置信度,但相关技术中的置信度是预先设置好固定的,这样不仅增加了用户的操作负担,而且由于置信度是固定的,因而,一旦置信度设置不合理,就会影响识别结果的有效性,比如,如果置信度设置的较低,就会造成误识别。
发明内容
本发明实施例提供了语音识别方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种语音识别方法,包括:
接收输入的第一语音;
识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
获取所述第一语音对应的可训练置信度;
基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
在一个实施例中,所述基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效,包括:
当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
在一个实施例中,所述方法还包括:
当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
在一个实施例中,所述方法还包括:
当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
接收输入的与所述待训练语音内容相同的第二语音;
对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
在一个实施例中,所述获取所述第一语音对应的可训练置信度,包括:
将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
根据本发明实施例的第二方面,提供一种语音识别装置,包括:
第一接收模块,用于接收输入的第一语音;
处理模块,用于识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
获取模块,用于获取所述第一语音对应的可训练置信度;
判断模块,用于基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
在一个实施例中,所述判断模块包括:
第一判定子模块,用于当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
第二判定子模块,用于当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
在一个实施例中,所述装置还包括:
提示模块,用于当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
在一个实施例中,所述装置还包括:
确定模块,用于当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
第二接收模块,用于接收输入的与所述待训练语音内容相同的第二语音;
训练模块,用于对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
更新模块,用于根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
在一个实施例中,所述获取模块包括:
存储子模块,用于将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
确定子模块,用于根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
获取子模块,用于根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
本发明的实施例提供的技术方案可以包括以下有益效果:
通过获取第一语音对应的可训练置信度,并将第一语音的第一置信度与可训练置信度进行比较,可提高第一语音识别结果有效性的判断准确性,也能够降低对第一语音识别结果的误判率,同时也可避免手动设置置信度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别方法的流程图。
图2是根据一示例性实施例示出的另一种语音识别方法的流程图。
图3是根据一示例性实施例示出的一种置信度的训练界面。
图4是根据一示例性实施例示出的一种语音识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前,在对语音进行识别时,通常会使用到语音识别结果的置信度,但相关技术中的置信度是预先设置好固定的,这样不仅增加了用户的操作负担,而且由于置信度是固定的,因而,一旦置信度设置不合理,就会影响识别结果的有效性,比如,如果置信度设置的较低,就会造成误识别。
具体地,置信度阈值设置难度大。引擎对不同口述内容输出的置信度不相同,假设口述清楚流利的情况下,即理想状况,识别“你好”的置信度为-4,识别“彩超”的置信度为-6。如果设置***置信度为-5,则会造成“彩超”无法识别。但是如果设置信度为-12,则会增加误识别的概率,例如口述“彩蛋”,可能会被识别为“彩超”,同时给出一个较低的置信度,如-11,通常表明没有识别正确,但是因为设置了较低的阈值,造成误识别输出。
而如果进行优化,即将置信度大幅度提高,则需要录制大量的语音进行训练,提高部分条目的输出阈值,例如把“彩超”的置信度提高到-4,一方面是大量的录音、训练工作,另一方面当识别***的使用人群发生变化,例如地方口音的变化,还需要投入大量的人力重新进行训练。
为了解决上述技术问题,本发明实施例提供了一种语音识别方法,该方法可用于语音识别程序、***或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S103:
在步骤S101中,接收输入的第一语音;
在步骤S102中,识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
在步骤S103中,获取所述第一语音对应的可训练置信度;
在步骤S104中,基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
语音的可训练置信度相比于固定的置信度而言,会动态变化、更加合理、准确,因而,通过获取第一语音对应的可训练置信度,并将第一语音的第一置信度与可训练置信度进行比较,可提高第一语音识别结果有效性的判断准确性,也能够降低对第一语音识别结果的误判率,同时也可避免手动设置置信度。
在一个实施例中,所述基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效,包括:
当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
当第一语音的第一语音识别结果的第一置信度低于所述可训练置信度时,说明第一语音识别结果不太可信,有可能识别错误了,因而,可判定第一语音识别结果无效。
而当所述第一置信度高于所述可训练置信度时,说明第一语音识别结果可信性比较高,正确率比较高,因而,可判定所述第一语音识别结果有效。
在一个实施例中,所述方法还包括:
当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
当所述第一置信度低于所述可训练置信度时,说明该第一语音识别结果不太可信,有可能识别错误了,因而,可对第一语音重新进行识别训练,进而及时更新该可训练置信度。
在一个实施例中,所述方法还包括:
当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
接收输入的与所述待训练语音内容相同的第二语音;
对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
当判定所述第一语音识别结果无效时,由于第一语音识别效率低,基本错误,因而,可将该第一语音确定为待训练语音,然后接收用户输入的与第一语音内容相同的第二语音,进入对第二语音反复进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度,从而根据第二置信度不断更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效,也即第一语音的内容被准确无误的识别出或者说第一语音的可训练置信度比较高。
另外,不断动态调整置信度,可使得可训练置信度更加合理、准确,这样也可平衡训练量,避免误识别。
在一个实施例中,所述获取所述第一语音对应的可训练置信度,包括:
将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
语音识别结果的有效性即语音识别结果是有效的还是无效的。
例如,对应关系格式可以是[‘彩超’,-5,true],彩超为“caicao”这个语音的内容;-5是“caicao”这个语音的可训练置信度,true是“caicao”这个语音的识别结果的有效性,true代表有效,false代表无效。
根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
根据第一语音的第一语音识别结果可从多个语音的内容中自动选择最匹配的目标内容,然后基于目标内容和上述对应关系,获取该第一语音对应的可训练置信度,以便于利用可动态调整的语音置信度判断语音识别结果的有效性,提高有效性的判断准确率。
下面将结合实施例进一步详细说明本发明的技术方案:
本专利从另一个角度出发,引入置信度阈值数据库,针对部门条目设置不同的置信度阈值,同时增加用户主动反馈训练阈值的模块,在不优化离线识别引擎的前提下,解决原有问题。本方案由以下几个部分组成,置信度阈值数据库,置信度阈值训练模块,原有离线识别模块。
置信度阈值数据库:
用于存储语法文件中条目的置信度阈值,其存储单元为[条目,置信度阈值,是否可识别],如[‘彩超’,-5,true]。同时设定一个阈值下限的经验值,min_thread,如果置信度值低于min_thread,理论上置信度已经不可信,设置存储单元中的“是否可识别”为false,表明此条目存在识别问题。
在使用过程中,配合原有离线识别引擎,用户口述内容,输出一个识别结果+置信度数值,在数据库中查找对应的条目,获得相应的置信度阈值,如果识别的置信度大于阈值,则判定结果有效。
阈值训练模块:
引入一个自动训练阈值的模块,该模块是一个人机交互模块,具有交互界面,界面中罗列所有的语法条目,用户通过模糊搜索的方式,快速定位到需要训练的条目,如在使用中识别准确率低或者不识别的,如“彩超”。通过点击“阈值训练”按钮,进入针对“彩超”的训练模式,***提示用户在安静的环境中,清楚的朗读训练条目。模块如下图3所示:
用户口述一次“彩超”,语音通过离线引擎返回识别结果result和置信度confidence,模块内部缓存置信度队列c=[],模块内部从数据库下载对应存储单元u=[‘彩超’,-5,true]
Figure BDA0002290825740000081
Figure BDA0002290825740000091
整体处理逻辑:
步骤1
***部署之后,置信度阈值数据库初始化,置信度阈值默认为-5,是否可识别设置为true,其形式为[[item0,-5,true],…,[‘彩超’,-5,true],…,[item1,-5,true]]。
步骤2
用户使用离线识别***进行工作,从数据库检索置信度阈值,通过判断逻辑对结果是否输出进行判定。
当发现部分条目识别不准确、无法识别时,用户使用训练模块对该条目进行针对性训练,训练完成获得更新的置信度阈值,***将此更新值上传到数据库,获得新的数据库[[item0,-5,true],…,[‘彩超’,-7,true],…,[item1,-5,true]]***下载此更新的阈值数据库,继续工作。
步骤3
***维护人员,可以整理数据库,对数据库中的“不可识别条目”,即存储单元中为false的数据进行收集,后续可以对离线识别引擎做针对性的改进。
通过上述步骤解决了统一置信度阈值带来的识别率低的问题;
自动完善阈值数据,解决大量训练带来的人力和时间成本问题;
为进一步完善离线识别引擎提供数据。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述语音识别方法,本发明实施例还提供一种语音识别装置,如图4所示,该装置包括:
第一接收模块401,用于接收输入的第一语音;
处理模块402,用于识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
获取模块403,用于获取所述第一语音对应的可训练置信度;
判断模块404,用于基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
在一个实施例中,所述判断模块包括:
第一判定子模块,用于当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
第二判定子模块,用于当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
在一个实施例中,所述装置还包括:
提示模块,用于当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
在一个实施例中,所述装置还包括:
确定模块,用于当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
第二接收模块,用于接收输入的与所述待训练语音内容相同的第二语音;
训练模块,用于对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
更新模块,用于根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
在一个实施例中,所述获取模块包括:
存储子模块,用于将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
确定子模块,用于根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
获取子模块,用于根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
接收输入的第一语音;
识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
获取所述第一语音对应的可训练置信度;
基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效,包括:
当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
接收输入的与所述待训练语音内容相同的第二语音;
对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
5.根据权利要求1至4中任一项所述的方法,其特征在于,
所述获取所述第一语音对应的可训练置信度,包括:
将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
6.一种语音识别装置,其特征在于,包括:
第一接收模块,用于接收输入的第一语音;
处理模块,用于识别所述第一语音,获得第一语音识别结果以及所述第一语音识别结果当前的第一置信度;
获取模块,用于获取所述第一语音对应的可训练置信度;
判断模块,用于基于所述第一置信度和所述可训练置信度,判断所述第一语音识别结果是否有效。
7.根据权利要求6所述的装置,其特征在于,所述判断模块包括:
第一判定子模块,用于当所述第一置信度低于所述可训练置信度时,判定所述第一语音识别结果无效;
第二判定子模块,用于当所述第一置信度高于所述可训练置信度时,判定所述第一语音识别结果有效。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
提示模块,用于当所述第一置信度低于所述可训练置信度时,提示对所述第一语音进行识别训练,以更新所述可训练置信度。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
确定模块,用于当判定所述第一语音识别结果无效时,将所述第一语音确定为待训练语音;
第二接收模块,用于接收输入的与所述待训练语音内容相同的第二语音;
训练模块,用于对所述第二语音进行识别训练,获得第二语音识别结果以及所述第二语音识别结果当前的第二置信度;
更新模块,用于根据所述第二置信度更新所述语音对应的所述可训练置信度以及所述第二语音识别结果的有效性,直至所述第二语音识别结果被判定为有效。
10.根据权利要求6至9中任一项所述的装置,其特征在于,
所述获取模块包括:
存储子模块,用于将多个语音的内容、所述多个语音中各语音对应的可训练置信度以及所述各语音的语音识别结果的有效性进行对应存储,获得对应关系;
确定子模块,用于根据所述第一语音识别结果从所述多个语音的内容中确定出相匹配的目标内容;
获取子模块,用于根据所述目标内容和所述对应关系,获取所述第一语音对应的可训练置信度。
CN201911179312.2A 2019-11-27 2019-11-27 语音识别方法及装置 Active CN110880318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911179312.2A CN110880318B (zh) 2019-11-27 2019-11-27 语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179312.2A CN110880318B (zh) 2019-11-27 2019-11-27 语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN110880318A true CN110880318A (zh) 2020-03-13
CN110880318B CN110880318B (zh) 2023-04-18

Family

ID=69729746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179312.2A Active CN110880318B (zh) 2019-11-27 2019-11-27 语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN110880318B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885370A (zh) * 2021-01-11 2021-06-01 广州欢城文化传媒有限公司 一种声音卡片有效性检测方法及装置
CN114374921A (zh) * 2020-10-15 2022-04-19 西万拓私人有限公司 用于运行听力辅助设备的方法和听力辅助设备
CN115376491A (zh) * 2022-07-06 2022-11-22 北京数美时代科技有限公司 一种语音置信度计算方法、***、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259466A1 (en) * 2008-04-15 2009-10-15 Nuance Communications, Inc. Adaptive Confidence Thresholds for Speech Recognition
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US20150039305A1 (en) * 2013-08-02 2015-02-05 Mstar Semiconductor, Inc. Controller for voice-controlled device and associated method
CN105654949A (zh) * 2016-01-07 2016-06-08 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN110060693A (zh) * 2019-04-16 2019-07-26 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备及存储介质
CN110111775A (zh) * 2019-05-17 2019-08-09 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090259466A1 (en) * 2008-04-15 2009-10-15 Nuance Communications, Inc. Adaptive Confidence Thresholds for Speech Recognition
CN103578468A (zh) * 2012-08-01 2014-02-12 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US20150039305A1 (en) * 2013-08-02 2015-02-05 Mstar Semiconductor, Inc. Controller for voice-controlled device and associated method
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN105654949A (zh) * 2016-01-07 2016-06-08 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN110060693A (zh) * 2019-04-16 2019-07-26 Oppo广东移动通信有限公司 模型训练方法、装置、电子设备及存储介质
CN110111775A (zh) * 2019-05-17 2019-08-09 腾讯科技(深圳)有限公司 一种流式语音识别方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114374921A (zh) * 2020-10-15 2022-04-19 西万拓私人有限公司 用于运行听力辅助设备的方法和听力辅助设备
CN112885370A (zh) * 2021-01-11 2021-06-01 广州欢城文化传媒有限公司 一种声音卡片有效性检测方法及装置
CN112885370B (zh) * 2021-01-11 2024-05-31 广州欢城文化传媒有限公司 一种声音卡片有效性检测方法及装置
CN115376491A (zh) * 2022-07-06 2022-11-22 北京数美时代科技有限公司 一种语音置信度计算方法、***、电子设备及介质
CN115376491B (zh) * 2022-07-06 2023-08-18 北京数美时代科技有限公司 一种语音置信度计算方法、***、电子设备及介质

Also Published As

Publication number Publication date
CN110880318B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110880318B (zh) 语音识别方法及装置
CN109151218B (zh) 通话语音质检方法、装置、计算机设备及存储介质
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
EP1679694B1 (en) Confidence score for a spoken dialog system
CN107240398B (zh) 智能语音交互方法及装置
USRE38101E1 (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
EP0757868B1 (en) Methods and apparatus for automating telephone directory assistance functions
US8121838B2 (en) Method and system for automatic transcription prioritization
Litman et al. Automatic detection of poor speech recognition at the dialogue level
US20060178886A1 (en) Methods and systems for considering information about an expected response when performing speech recognition
US8886532B2 (en) Leveraging interaction context to improve recognition confidence scores
US20070038445A1 (en) Incorporation of external knowledge in multimodal dialog systems
CN104143326A (zh) 一种语音命令识别方法和装置
CN110047467B (zh) 语音识别方法、装置、存储介质及控制终端
CN112925945A (zh) 会议纪要生成方法、装置、设备及存储介质
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
US10630680B2 (en) System and method for optimizing matched voice biometric passphrases
CN111797632A (zh) 信息处理方法、装置及电子设备
CN112925888B (zh) 一种问答响应及小样本文本匹配模型的训练方法和装置
CN110516083B (zh) 相册管理方法、存储介质及电子设备
US20210104235A1 (en) Arbitration of Natural Language Understanding Applications
CN111179939A (zh) 语音转写方法、语音转写装置及计算机存储介质
CN109065026B (zh) 一种录音控制方法及装置
CN114360522A (zh) 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备
CN114360521A (zh) 语音识别模型的训练方法、语音误识别的检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant