CN112435657B - 语音识别方法、装置、计算机设备及存储介质 - Google Patents

语音识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112435657B
CN112435657B CN201910790051.1A CN201910790051A CN112435657B CN 112435657 B CN112435657 B CN 112435657B CN 201910790051 A CN201910790051 A CN 201910790051A CN 112435657 B CN112435657 B CN 112435657B
Authority
CN
China
Prior art keywords
entity
recognition
corpus
probability
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910790051.1A
Other languages
English (en)
Other versions
CN112435657A (zh
Inventor
黄日星
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youbixuan Intelligent Robot Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN201910790051.1A priority Critical patent/CN112435657B/zh
Publication of CN112435657A publication Critical patent/CN112435657A/zh
Application granted granted Critical
Publication of CN112435657B publication Critical patent/CN112435657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法、装置、计算机设备及存储介质,其中,该语音识别方法包括:获取待处理语音数据;采用实体识别算法对待处理语音数据进行实体识别,获取至少两个原始实体识别语料;对每一原始实体识别语料进行实体识别过滤,获取识别实体和实体概率;对每一原始实体识别语料进行意图识别,获取识别意图和意图概率;基于每一原始实体识别语料对应的实体概率和意图概率,获取实体概率权重;提取最大的实体概率权重作为目标概率权重,获取目标识别结果。该方法可有效提高实体识别的准确性,将待处理语音数据中识别到的不准确实体过滤掉,提高智能语音交互的整体交互效率。

Description

语音识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及智能交互技术领域,尤其涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
语音助手相当于“个人助理”,即用户有需求的时候,直接对部署有语音助手的设备进行语音呼出,语音助手即会应答用户的需求,帮助用户解决问题,NLP((NaturalLanguage Processing,自然语音处理)的一个重要的发展方向。语音助手算法包括两大步骤:实体识别与意图识别,也即先实体识别,后意图识别。很明显,意图识别的结果依赖于实体识别的结果。如果实体识别错误,之后的意图识别结果很可能不准确。当前也不存在判断实体识别是否准确的机制。如何在语音交互中提高实体识别的准确性成为亟待解决的问题。
发明内容
本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质,以解决在语音交互中提高实体识别的准确性问题。
一种语音识别方法,包括:
获取待处理语音数据;
采用实体识别算法对待处理语音数据进行实体识别,获取待处理语音数据对应的至少两个原始实体识别语料;
对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率;
对每一原始实体识别语料进行意图识别,获取原始实体识别语料对应的识别意图和意图概率;
基于每一原始实体识别语料对应的实体概率和意图概率,获取原始实体识别语料对应的实体概率权重;
提取最大的实体概率权重作为目标概率权重,获取目标概率权重对应的识别实体和识别意图,获取目标识别结果。
一种语音识别装置,包括:
获取语音数据模块,用于获取待处理语音数据;
获取实体语料模块,用于采用实体识别算法对待处理语音数据进行实体识别,获取待处理语音数据对应的至少两个原始实体识别语料;
获取实体概率模块,用于对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率;
获取意图概率模块,用于对每一原始实体识别语料进行意图识别,获取原始实体识别语料对应的识别意图和意图概率;
获取概率权重模块,用于基于每一原始实体识别语料对应的实体概率和意图概率,获取原始实体识别语料对应的实体概率权重;
获取识别结果模块,用于提取最大的实体概率权重作为目标概率权重,获取目标概率权重对应的识别实体和识别意图,获取目标识别结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音识别方法。
上述语音识别方法、装置、计算机设备及存储介质,通过将待处理语音数据进行实体识别后形成至少两个原始实体识别语料,并对所有原始实体识别语料进行实体识别过滤,基于过滤结果可获得实体概率权重为最大的目标概率权重,基于该目标概率权重可获取目标识别结果,有效提高实体识别的准确性,将待处理语音数据中识别到的不准确实体过滤掉,提高智能语音交互的整体交互效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别方法的应用环境示意图;
图2是本发明一实施例中语音识别方法的流程图;
图3是本发明一实施例中语音识别方法的另一流程图;
图4是本发明一实施例中语音识别方法的另一流程图;
图5是本发明一实施例中语音识别方法的另一流程图;
图6是本发明一实施例中语音识别方法的另一流程图;
图7是本发明中语音识别方法的整体流程示意图;
图8是本发明一实施例中语音识别装置的示意图;
图9是本发明一实施例中计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音识别方法,可应用在如图1的应用环境中,该语音识别方法应用在实体识别过滤***中,该实体识别过滤***包括客户端和服务器,其中,客户端通过网络与服务器进行通信。客户端又称为用户端,是指与服务器相对应,为客户端提供本地服务的程序。该客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等计算机设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音识别方法,以该方法应用在图1中的服务器为例进行说明,具体包括如下步骤:
S10.获取待处理语音数据。
其中,待处理语音数据是客户端输入的表示用户意图的语音数据,服务器应将待处理语音数据中真实的实体和意图准确地提取出来。
具体地,服务器可接收客户端发送的语音信息,将语音信息经过语音识别算法形成语音信息对应的文字信息,也即待处理语音数据,便于服务器基于待处理语音数据提取语音信息对应的真实的实体和意图。
步骤S10中,服务器可接收待处理语音数据并对其进行进一步的意图提取,以基于待处理语音数据对应的真实意图获取对应的回复内容,达到准确智能交互的目的。
S20.采用实体识别算法对待处理语音数据进行实体识别,获取待处理语音数据对应的至少两个原始实体识别语料。
其中,实体识别算法也即命名实体识别(Named Entity Recognition,简称NER)算法,又称作“专名识别”,是指识别待处理语音数据中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是自然语言处理中的经典问题,其应用极为广泛。比如从电商的搜索中识别出产品的名字,识别药物名称等等。
原始实体识别语料是将实体识别后得到至少一个待过滤实体,提取该待过滤实体对应的词槽,并将该词槽在待处理语音数据中进行替换后得到的语料。其中,词槽为待过滤实体对应的上位概念,比如,今天对应的上位概念为日期等。举例说明原始实体识别语料的获得过程:
待处理语音数据:“今天天气怎么样”。
步骤1.对待处理语音数据“今天天气怎么样”进行实体识别后得到的待过滤实体包括:
a.待过滤实体:天天(词槽:歌名song);
b.待过滤实体:今天(词槽:日期date);
c.待过滤实体:今天(词槽:日期date)+天气(词槽:歌名song)。
步骤2.将待处理语音数据中的待过滤实体替换为词槽:
a.原始实体识别语料:“今song气怎么样”;
b.原始实体识别语料:“date天气怎么样”;
c.原始实体识别语料:“date song怎么样”。
结果:获取待处理语音数据“今天天气怎么样”对应的三个原始实体识别语料。
步骤S20中,服务器可将待处理语音数据经实体识别后获得的待过滤实体,再将识别后得到的待过滤实体对应的词槽在待处理语音数据中进行替换后可得到原始实体识别语料,为后续服务器对每一原始实体识别语料进行实体过滤准备数据基础。
S30.对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率。
其中,识别实体为服务器对原始实体识别语料进行实体识别后得到的具有特定意义的实体,一般为名词形式。实体概率为将识别得到的实体对应的词槽内的所有待替换实体放置到原始实体识别语料中进行替换后语法正确的概率。
于本实施例中,实体识别过滤的过程具体为:将每一原始实体识别语料中包括的待替换实体分别输入到CNN卷积神经网络模型,获取CNN卷积神经网络模型的输出值,具体地,该CNN卷积神经网络模型的输出值为正确和错误两种。
具体地,原始实体识别语料也可看为由待处理语音数据形成的多个待过滤语音模板。每个模板都带有至少一个词槽,每个词槽中包括至少一个待替换实体。举例说明如何获取原始实体识别语料对应的识别实体和实体概率的过程:
A.,待处理语音数据为“我想听周杰伦的七里香”通过实体识别,得出原始实体识别语料(也即待过滤语音模板)为:
待过滤语音模板:“我想听singer的song”。
上述待过滤语音模板中的词槽为:singer和song。
B.词槽singer中包括的待替换实体:周杰伦、刘德华和王菲等;
词槽song中包括的待替换实体:七里香、忘情水和风吹麦浪等;
词槽date中包括的待替换实体:今天、明天和后天等;
词槽time中包括的待替换实体:零点至24点等;
词槽album中包括的待替换实体:依然范特西等;
词槽people中包括的待替换实体:外公、妈妈和老师等。
C.将词槽中不同的待替换实体放置到待过滤语音模板中替换掉词槽,出现正确替换和错误替换的结果:
正确替换的结果(模型输出值为正确):
a.“date天气怎么样”-》“今天/明天/后天天气怎么样”
b.“小点声音”(“小点声音”的实体识别,由于没有任何实体,所以不需要替换);
c.“提醒我到了time听音乐”-》“提醒我到了19:20:11听音乐”;
d.“接通people的电话”-》“接通外公/妈妈/老师的电话”。
错误替换的结果(模型输出值为错误):
a.“今song气怎么样”-》“今七里香/忘情水/风吹麦浪气怎么样”;
b.“小点song”-》“小点七里香/忘情水/风吹麦浪”;
c.“提醒我到了19:20:volume听音乐”-》“提醒我到了19:20:40分贝听音乐”
d.“接通外公的album”-》“接通外公的依然范特西”。
由上述举例可明显看出:正确的待过滤实体词槽附近的待替换实体放置到原始实体识别语料中大都是对的,错误的待过滤实体词槽附近的待替换实体放置到原始实体识别语料中大都是错误的。比如:date天气(即今天天气,明天天气);到了time(即到了九点,到了10点)等都是对的;今song气(今忘情水气),外公的album(外公的依然范特西)等都是错误的。
经实际应用证明,两至三个词槽中的代替换实体即可判定实体识别是否正确,因此可将卷积神经网络模型中的卷积核大小设定为(2*embed_size)和(3*embed_size)其中,embed_size为词向量的大小也即词槽中的待替换实体的个数。当卷积核检测到错误语句片段时被激活,经线性层分类后输入为错误的结果,反之则输出结果为正确。
D.统计每一原始实体识别语料中每一实体对应的词槽中每一待替换实体经替换后为正确的正确输出次数M,对比该词槽中的待替换实体的总体替换次数N,可获取该原始实体识别语料对应的实体概率M/N*%(或者为0至1之间的分值),比如:
a.“今song气怎么样”进行实体识别过滤后,得到0.11分;
b.“date天气怎么样”进行实体识别过滤后,得到0.92分;
c.“date song怎么样”进行实体识别过滤后,得到0.32分。
步骤S30中,服务器可对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率,首先对原始实体识别语料进行实体概率的初步判定,便于后续基于该实体概率获取待处理语音数据对应的真实目标实体。
S40.对每一原始实体识别语料进行意图识别,获取原始实体识别语料对应的识别意图和意图概率。
其中,识别意图是基于步骤S30中的每一识别实体对应的意图,意图概率为该识别意图为真实意图的可能性。
具体地,本实施例可采用市面现有多种意图识别算法,比如词表穷举法、规则解析法或机器学习方法等获取每一识别意图对应的意图概率,举例说明服务器获取原始实体识别语料对应的意图概率(或者为0至1之间的分值)过程:
a.“今song气怎么样”输入到“意图识别算法”,若识别的意图为“音乐”,得到0.72分;
b.“date天气怎么样”输入到“意图识别算法”,若识别的意图为“天气”,得到0.81分;
c.“date song怎么样”输入到“意图识别算法”,若识别的意图为“天气”,得到0.82分。
步骤S40中,服务器可对每一原始实体识别语料进行意图识别,获取原始实体识别语料对应的识别意图和意图概率,对原始实体识别语料进行意图概率的初步判定,便于后续基于该意图概率获取待处理语音数据对应的真实目标意图。
S50.基于每一原始实体识别语料对应的实体概率和意图概率,获取原始实体识别语料对应的实体概率权重。
其中,实体概率权重即为每一原始实体识别语料对应的实体概率和意图概率的乘积,举例如下:
a.“今song气怎么样”对应的实体概率为0.11分,意图概率为0.72分;
b.“date天气怎么样”对应的实体概率为0.92分,意图概率为0.91分;
c.“date song怎么样”对应的实体概率为0.32分,意图概率为0.82分;
对应概率相乘:
a.“今song气怎么样”得到最后的实体概率权重为0.11*0.72=0.0792;
b.“date天气怎么样”得到最后的实体概率权重为0.92*0.81=0.7452;
c.“date song怎么样”得到最后的实体概率权重为0.32*0.82=0.2624。
步骤S50中,服务器可获取每一原始实体识别语料对应的实体概率权重,便于后续快速基于每一实体概率权获取目标概率权重以及目标识别结果。
优选地,在步骤S50中,即基于每一原始实体识别语料对应的实体概率和意图概率,获取原始实体识别语料对应的实体概率权重具体包括如下步骤:
S51.获取每一原始实体识别语料对应的实体概率与意图概率的乘积,形成原始实体识别语料对应的实体概率权重。
步骤S51中,服务器综合考虑每一原始实体识别语料对应的实体概率与意图概率的乘积,以获取实体概率权重,使得实体过滤的过程更为合理,避免通过单一判定因素即对待过滤实体进行过滤。
S60.提取最大的实体概率权重作为目标概率权重,获取目标概率权重对应的识别实体和识别意图,获取目标识别结果。
其中,目标识别结果是由目标概率权重对应的原始实体识别语料中的识别实体和识别意图构成的,比如,目标概率权重对应的原始实体识别语料为:“date天气怎么样”,该原始实体识别语料中的识别实体为今天,识别意图为:天气,则目标识别结果为:今天+天气。
具体地,本步骤可在步骤S50中得到的所有实体概率权重中提取分值最大的作为目标概率权重。继续以步骤S50中的举例进行说明,举例中三个分值中0.7452为最大分值,也即0.7452对应的“date天气怎么样”是经实体过滤后保留的原始实体识别语料。该原始实体识别语料中的实体和意图即为待处理语音数据对应的真实实体(目标识别实体)和真实意图(目标识别意图)。服务器结合该目标识别实体和目标识别意图即可得到待处理语音数据对应的目标识别结果。
步骤S60中,服务器提取最大的实体概率权重作为目标概率权重,综合考虑实体概率和意图概率,以使实体过滤的结果更为合理和准确。
本实施例中提供的语音识别方法,服务器通过将待处理语音数据进行实体识别后形成至少两个原始实体识别语料,并对所有原始实体识别语料进行实体识别过滤,基于过滤结果可获得实体概率权重为最大的目标概率权重,基于该目标概率权重可获取目标识别结果,有效提高实体识别的准确性,将待处理语音数据中识别到的不准确实体过滤掉,提高智能语音交互的整体交互效率。
在一实施例中,如图3所示,在步骤S20中,即采用实体识别算法对待处理语音数据进行实体识别,获取待处理语音数据对应的至少两个原始实体识别语料,具体包括如下步骤:
S21.采用实体识别算法对待处理语音数据进行识别,获取至少两种待过滤实体。
具体地,本实施例的目的在于过滤掉错误的实体,因此采用实体识别算法对待处理语音数据进行识别应获取至少两种待过滤实体,从而服务器基于基于至少两种待过滤实体进行实体过滤,保留正确的待过滤实体。
服务器可采用现有市面成熟的实体识别算法对待处理语音数据进行识别,获取至少两种待过滤实体。
步骤S21中,服务器可采用实体识别算法快速获取至少两种待过滤实体,为后续进行实体过滤准备数据基础。
S22.获取每一待过滤实体对应的词槽,采用词槽替换待处理语音数据中的待过滤实体,形成待处理语音数据对应的至少两个原始实体识别语料。
步骤S22中,服务器获取该待处理语音数据对应的至少两个原始实体识别语料,明确实体过滤的范围,利于后续基于该范围迅速过滤出错误的待过滤实体。
步骤S21至S22中,服务器可采用实体识别算法快速获取至少两种待过滤实体,为后续进行实体过滤准备数据基础。服务器获取该待处理语音数据对应的至少两个原始实体识别语料,明确实体过滤的范围,利于后续基于该范围迅速过滤出错误的待过滤实体。
在一实施例中,每一词槽包括至少一个待替换实体。如图4所示,在步骤S30中,即对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料的识别实体和实体概率,具体包括如下步骤:
S31.采用每一待替换实体替换原始实体识别语料中的词槽,形成与原始实体识别语料相对应的至少一个正误识别语料。
其中,正误识别语料是将待替换实体替换原始实体识别语料中的词槽后得到的语料统称,因替换后的语料在语法上可能正确也可能错误,因此,将替换后的所有语料统称为正误识别语料。
步骤S31中,服务器可获取与原始实体识别语料对应的至少一个正误识别语料,作为后续输入识别过滤模型的输入值。
S32.将正误识别语料输入识别过滤模型,获取识别过滤模型的识别输出结果。
具体地,本实施例中的识别过滤模型即为CNN卷积神经网络模型。服务器可将正误识别语料输入到CNN卷积神经网络模型,获取正确或错误的输入结果。
S33.统计识别输出结果为正确的正确输出次数,基于正确输出次数,获取原始实体识别语料对应的实体概率。
步骤S33与步骤S30的分析过程相同,为了避免重复,此处不再赘述。
步骤S31至S33中,服务器可对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率,首先对原始实体识别语料进行实体概率的初步判定,便于后续基于该实体概率获取待处理语音数据对应的真实目标实体。
在一实施例中,如图5所示,在步骤S31之前,即在采用每一待替换实体替换原始实体识别语料中的词槽之前,语音识别方法还具体包括如下步骤:
S311.获取词槽更新请求,词槽更新请求包括词槽ID、更新实体和更新类型。
其中,词槽更新请求是对每一词槽中的待替换实体进行更新的请求,比如添加待替换实体或删除待替换实体等。
词槽ID也即每一词槽对应的用以服务器进行区分的唯一标识。更新实体即为待添加或待删除的实体。
更新类型是用以说明更新请求的类型,比如添加或删除等。
步骤S311中,服务器可接收词槽更新请求对词槽中的待替换实体进行更新,提高词槽的更新灵活性和可适用性。
S312.若更新类型为增添实体,则基于词槽数据库,将更新实体添加到词槽ID对应的词槽中。
其中,词槽数据库是用以存储每一词槽和每一词槽中对应的待替换实体的数据库。
具体地,当更新类型为增添实体时,服务器可词槽ID从词槽数据库中查询到对应的词槽,并将更新实体添加到该词槽中。
步骤S312中,服务器可通过增添实体及时扩充每一词槽,提高词槽的适用性和实时性。
S313.若更新类型为删除实体,则基于词槽数据库,将更新实体从词槽ID对应的词槽中删除。
具体地,当更新类型为删除实体时,服务器可词槽ID从词槽数据库中查询到对应的词槽,并将更新实体从该词槽中删除。
步骤S313中,服务器可通过删除实体及时清理每一词槽,提高词槽的适用性,同时节省存储空间。
步骤S311至S313中,服务器可接收词槽更新请求对词槽中的待替换实体进行更新,提高词槽的更新灵活性和可适用性。服务器可通过增添实体及时扩充每一词槽,提高词槽的适用性和实时性。服务器可通过删除实体及时清理每一词槽,提高词槽的适用性,同时节省存储空间。
在一实施例中,如图6所示,在步骤S60,即获取目标概率权重对应的识别实体和识别意图,获取目标识别结果,具体包括如下步骤:
S61.获取目标概率权重对应的识别实体作为目标识别实体。
具体地,服务器首先获取目标概率权重对应的原始实体识别语料,然后提取该原始实体识别语料中对应的识别实体作为目标识别实体。
步骤S61中,服务器经目标概率权重即可定位到目标识别实体,快速获取待处理语音识别数据对应的真实的实体(目标识别实体),提高智能语音交互的效率。
S62.获取目标概率权重对应的识别意图作为目标识别意图。
具体地,服务器首先获取目标概率权重对应的原始实体识别语料,然后提取该原始实体识别语料中对应的识别意图作为目标识别意图。
步骤S62中,服务器经目标概率权重即可定位到目标识别意图,快速获取待处理语音识别数据对应的真实的意图(目标识别意图),提高智能语音交互的效率。
S63.结合目标识别实体和目标识别实体,形成目标识别结果。
步骤S63中,服务器可迅速结合目标识别实体和目标实体意图,形成待处理语音数据对应的目标识别结果,利于服务器基于该目标识别结果获取准确的语音回复内容。
步骤S61至S63中,服务器经目标概率权重即可定位到目标识别实体,快速获取待处理语音识别数据对应的真实的实体(目标识别实体),提高智能语音交互的效率。服务器经目标概率权重即可定位到目标识别意图,快速获取待处理语音识别数据对应的真实的意图(目标识别意图),提高智能语音交互的效率。服务器可迅速结合目标识别实体和目标实体意图,形成待处理语音数据对应的目标识别结果,利于服务器基于该目标识别结果获取准确的语音回复内容。
本实施例中提供的语音识别方法,如图7所示,服务器通过将待处理语音数据进行实体识别后形成至少两个原始实体识别语料,并对所有原始实体识别语料进行实体识别过滤,基于过滤结果可获得实体概率权重为最大的目标概率权重,基于该目标概率权重可获取目标识别结果,有效提高实体识别的准确性,将待处理语音数据中识别到的不准确实体过滤掉,提高智能语音交互的整体交互效率。
进一步地,服务器可采用实体识别算法快速获取至少两种待过滤实体,为后续进行实体过滤准备数据基础。服务器获取该待处理语音数据对应的至少两个原始实体识别语料,明确实体过滤的范围,利于后续基于该范围迅速过滤出错误的待过滤实体。
进一步地,服务器可接收词槽更新请求对词槽中的待替换实体进行更新,提高词槽的更新灵活性和可适用性。服务器可通过增添实体及时扩充每一词槽,提高词槽的适用性和实时性。服务器可通过删除实体及时清理每一词槽,提高词槽的适用性,同时节省存储空间。
进一步地,服务器经目标概率权重即可定位到目标识别实体,快速获取待处理语音识别数据对应的真实的实体(目标识别实体),提高智能语音交互的效率。服务器经目标概率权重即可定位到目标识别意图,快速获取待处理语音识别数据对应的真实的意图(目标识别意图),提高智能语音交互的效率。服务器可迅速结合目标识别实体和目标实体意图,形成待处理语音数据对应的目标识别结果,利于服务器基于该目标识别结果获取准确的语音回复内容。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音识别装置,该语音识别装置与上述实施例中语音识别方法一一对应。如图8所示,该语音识别装置包括获取语音数据模块10、获取实体语料模块20、获取实体概率模块30、获取意图概率模块40、获取概率权重模块50和获取识别结果模块60。各功能模块详细说明如下:
获取语音数据模块10,用于获取待处理语音数据。
获取实体语料模块20,用于采用实体识别算法对待处理语音数据进行实体识别,获取待处理语音数据对应的至少两个原始实体识别语料。
获取实体概率模块30,用于对每一原始实体识别语料进行实体识别过滤,获取原始实体识别语料对应的识别实体和实体概率。
获取意图概率模块40,用于对每一原始实体识别语料进行意图识别,获取原始实体识别语料对应的识别意图和意图概率。
获取概率权重模块50,用于基于每一原始实体识别语料对应的实体概率和意图概率,获取原始实体识别语料对应的实体概率权重。
获取识别结果模块60,用于提取最大的实体概率权重作为目标概率权重,获取目标概率权重对应的识别实体和识别意图,获取目标识别结果。
优选地,该获取实体语料模块20,包括获取实体单元21和形成识别语料单元22。
获取实体单元21,用于采用实体识别算法对待处理语音数据进行识别,获取至少两种待过滤实体。
形成识别语料单元22,用于获取每一待过滤实体对应的词槽,采用词槽替换待处理语音数据中的待过滤实体,形成待处理语音数据对应的至少两个原始实体识别语料。
优选地,该获取实体概率模块包括形成正误语料单元、获取输出结果单元和获取实体概率单元。
形成正误语料单元,用于采用每一待替换实体替换原始实体识别语料中的词槽,形成与原始实体识别语料相对应的至少一个正误识别语料。
获取输出结果单元,用于将正误识别语料输入识别过滤模型,获取识别过滤模型的识别输出结果。
获取实体概率单元,用于统计识别输出结果为正确的正确输出次数,基于正确输出次数,获取原始实体识别语料对应的实体概率。
优选地,该语音识别装置还包括获取更新请求模块、添加词槽模块和删除词槽模块。
获取更新请求模块,用于获取词槽更新请求,词槽更新请求包括词槽ID、更新实体和更新类型。
添加词槽模块,用于若更新类型为增添实体,则基于词槽数据库,将更新实体添加到词槽ID对应的词槽中。
删除词槽模块,用于若更新类型为删除实体,则基于词槽数据库,将更新实体从词槽ID对应的词槽中删除。
优选地,该获取概率权重模块包括形成概率权重单元。
形成概率权重单元,用于获取每一原始实体识别语料对应的实体概率与意图概率的乘积,形成原始实体识别语料对应的实体概率权重。
优选地,该获取识别结果模块包括获取目标实体单元、获取目标意图单元和形成识别结果单元。
获取目标实体单元,用于获取目标概率权重对应的识别实体作为目标识别实体。
获取目标意图单元,用于获取目标概率权重对应的识别意图作为目标识别意图。
形成识别结果单元,用于结合目标识别实体和目标识别实体,形成目标识别结果。
关于语音识别装置的具体限定可以参见上文中对于语音识别方法的限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于语音识别方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例语音识别方法,例如图2所示S10至步骤S60。或者,处理器执行计算机程序时实现上述实施例中语音识别装置的各模块/单元的功能,例如图8所示模块10至模块60的功能。为避免重复,此处不再赘述。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例语音识别方法,例如图2所示S10至步骤S60。或者,该计算机程序被处理器执行时实现上述装置实施例中语音识别装置中各模块/单元的功能,例如图8所示模块10至模块60的功能。为避免重复,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种语音识别方法,其特征在于,包括:
获取待处理语音数据;
采用实体识别算法对所述待处理语音数据进行实体识别,获取至少两种待过滤实体;
获取每一所述待过滤实体对应的词槽,每一所述词槽包括至少一个待替换实体;
采用所述词槽替换所述待处理语音数据中的所述待过滤实体,形成所述待处理语音数据对应的至少两个原始实体识别语料;
采用每一所述待替换实体替换所述原始实体识别语料中的所述词槽,形成与所述所述原始实体识别语料相对应的至少一个正误识别语料;
将所述正误识别语料输入识别过滤模型,获取所述识别过滤模型的识别输出结果;
统计所述识别输出结果为正确的正确输出次数,基于所述正确输出次数,获取所述原始实体识别语料对应的实体概率;
对每一所述原始实体识别语料进行意图识别,获取所述原始实体识别语料对应的识别意图和意图概率;
获取每一所述原始实体识别语料对应的实体概率与所述意图概率的乘积,形成所述原始实体识别语料对应的实体概率权重;
提取最大的所述实体概率权重作为目标概率权重,获取所述目标概率权重对应的所述识别实体和所述识别意图,获取目标识别结果。
2.如权利要求1所述的语音识别方法,其特征在于,在所述采用每一所述待替换实体替换所述原始实体识别语料中的所述词槽之前,所述语音识别方法还包括:
获取词槽更新请求,所述词槽更新请求包括词槽ID、更新实体和更新类型;
若所述更新类型为增添实体,则基于词槽数据库,将所述更新实体添加到所述词槽ID对应的词槽中;
若所述更新类型为删除实体,则基于所述词槽数据库,将所述更新实体从所述词槽ID对应的词槽中删除。
3.如权利要求1所述的语音识别方法,其特征在于,所述获取所述目标概率权重对应的所述识别实体和所述识别意图,获取目标识别结果,包括:
获取所述目标概率权重对应的所述识别实体作为目标识别实体;
获取所述目标概率权重对应的所述识别意图作为目标识别意图;
结合所述目标识别实体和所述目标识别实体,形成所述目标识别结果。
4.一种语音识别装置,其特征在于,包括:
获取语音数据模块,用于获取待处理语音数据;
获取实体单元,用于采用实体识别算法对所述待处理语音数据进行识别,获取至少两种待过滤实体;
形成识别语料单元,用于获取每一所述待过滤实体对应的词槽,每一所述词槽包括至少一个待替换实体,采用所述词槽替换所述待处理语音数据中的所述待过滤实体,形成所述待处理语音数据对应的至少两个原始实体识别语料;
获取实体概率模块,用于对每一所述原始实体识别语料进行实体识别过滤,获取所述原始实体识别语料对应的识别实体和实体概率;
获取意图概率模块,用于采用每一所述待替换实体替换所述原始实体识别语料中的所述词槽,形成与所述所述原始实体识别语料相对应的至少一个正误识别语料;将所述正误识别语料输入识别过滤模型,获取所述识别过滤模型的识别输出结果;统计所述识别输出结果为正确的正确输出次数,基于所述正确输出次数,获取所述原始实体识别语料对应的实体概率;
获取概率权重模块,用于获取每一所述原始实体识别语料对应的实体概率与所述意图概率的乘积,形成所述原始实体识别语料对应的实体概率权重;
获取识别结果模块,用于提取最大的所述实体概率权重作为目标概率权重,获取所述目标概率权重对应的所述识别实体和所述识别意图,获取目标识别结果。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述语音识别方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述语音识别方法。
CN201910790051.1A 2019-08-26 2019-08-26 语音识别方法、装置、计算机设备及存储介质 Active CN112435657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910790051.1A CN112435657B (zh) 2019-08-26 2019-08-26 语音识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910790051.1A CN112435657B (zh) 2019-08-26 2019-08-26 语音识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112435657A CN112435657A (zh) 2021-03-02
CN112435657B true CN112435657B (zh) 2023-08-04

Family

ID=74689628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910790051.1A Active CN112435657B (zh) 2019-08-26 2019-08-26 语音识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112435657B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158680B (zh) * 2021-03-23 2024-05-07 北京新方通信技术有限公司 一种语料处理及意图识别的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9454957B1 (en) * 2013-03-05 2016-09-27 Amazon Technologies, Inc. Named entity resolution in spoken language processing
CN108304375A (zh) * 2017-11-13 2018-07-20 广州腾讯科技有限公司 一种信息识别方法及其设备、存储介质、终端
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备

Also Published As

Publication number Publication date
CN112435657A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN106649694B (zh) 语音交互中确定用户意图的方法及装置
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
WO2020220539A1 (zh) 数据增量方法、装置、计算机设备及存储介质
WO2021174717A1 (zh) 文本意图识别方法、装置、计算机设备和存储介质
US20190279622A1 (en) Method for speech recognition dictation and correction, and system
CN110442710B (zh) 一种基于知识图谱的短文本语义理解与精准匹配方法及装置
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN108682420A (zh) 一种音视频通话方言识别方法及终端设备
CN105469789A (zh) 一种语音信息的处理方法及终端
CN111310440A (zh) 文本的纠错方法、装置和***
CN110347810B (zh) 对话式检索回答方法、装置、计算机设备及存储介质
CN109522397B (zh) 信息处理方法及装置
CN108121455B (zh) 识别纠正方法及装置
CN111046653B (zh) 一种语句识别方法、语句识别装置及智能设备
CN105791446A (zh) 一种民间借贷处理方法、装置及***
CN111382570B (zh) 文本实体识别方法、装置、计算机设备及存储介质
WO2020233381A1 (zh) 基于语音识别的服务请求方法、装置及计算机设备
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN112686051A (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN115509485A (zh) 一种业务表单的填写方法、装置、电子设备和存储介质
CN112435657B (zh) 语音识别方法、装置、计算机设备及存储介质
CN110020429B (zh) 语义识别方法及设备
CN110609618A (zh) 一种人机对话方法、装置、计算机设备及存储介质
CN113436614A (zh) 语音识别方法、装置、设备、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231206

Address after: Room 601, 6th Floor, Building 13, No. 3 Jinghai Fifth Road, Beijing Economic and Technological Development Zone (Tongzhou), Tongzhou District, Beijing, 100176

Patentee after: Beijing Youbixuan Intelligent Robot Co.,Ltd.

Address before: 518000 16th and 22nd Floors, C1 Building, Nanshan Zhiyuan, 1001 Xueyuan Avenue, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen UBTECH Technology Co.,Ltd.