CN112259084A - 语音识别方法、装置和存储介质 - Google Patents

语音识别方法、装置和存储介质 Download PDF

Info

Publication number
CN112259084A
CN112259084A CN202010597703.2A CN202010597703A CN112259084A CN 112259084 A CN112259084 A CN 112259084A CN 202010597703 A CN202010597703 A CN 202010597703A CN 112259084 A CN112259084 A CN 112259084A
Authority
CN
China
Prior art keywords
sentence
text
current
lattice
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010597703.2A
Other languages
English (en)
Other versions
CN112259084B (zh
Inventor
吴川隆
邓丽萍
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huijun Technology Co ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202010597703.2A priority Critical patent/CN112259084B/zh
Publication of CN112259084A publication Critical patent/CN112259084A/zh
Application granted granted Critical
Publication of CN112259084B publication Critical patent/CN112259084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本公开提出一种语音识别方法、装置和存储介质,涉及语音识别技术领域。本公开的一种语音识别方法,包括:根据当前语句的语音信号获取候选lattice;根据当前语句对应的上文文本重置神经网络模型,其中,上文文本为当前语句的前一句或多句的识别文本;通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice;根据重打分lattice确定当前语句的识别文本。通过这样的方法,对当前语句的语音识别能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。

Description

语音识别方法、装置和存储介质
技术领域
本公开涉及语音识别技术领域,特别是一种语音识别方法、装置和存储介质。
背景技术
语音识别是语音质检、人机对话等***中的关键技术,广泛应用于物流、金融及工业等领域。准确的识别率是所有语音***的关键,比如在对话机器人中,若语音识别准确率较差,那么将无法准确理解说话人的真实意图,进而下达错误的指令。
发明内容
本公开的一个目的在于提高语音识别的准确度。
根据本公开的一些实施例的一个方面,提出一种语音识别方法,包括:根据当前语句的语音信号获取候选晶格lattice;根据当前语句对应的上文文本重置神经网络模型,其中,上文文本为当前语句的前一句或多句的识别文本,神经网络模型为基于带上文文本的语料样本训练生成;通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice;根据重打分lattice确定当前语句的识别文本。
在一些实施例中,语音识别方法还包括:将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。
在一些实施例中,语音识别方法还包括:从缓存区获取当前语句对应的已识别的上文文本。
在一些实施例中,根据将当前语句的语音信号获取候选lattice包括:基于声学模型和语言模型,对语音信号进行一遍解码,获取候选lattice。
在一些实施例中,根据重打分lattice确定当前语句的识别文本包括:对重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
在一些实施例中,神经网络模型包括LSTM(Long-Short Term Memory,长短期记忆)模型或GRU(Gate Recurrent Unit,门控循环单元)模型。
在一些实施例中,在语音信号为对话的语音信号的情况下,当前语句对应的已识别的上文文本包括当前语句的前一个发言者的最接近当前语句的发言的语音信号。
在一些实施例中,语音识别方法还包括:利用带上文的样本训练神经网络模型,直至损失函数的输出收敛,包括:根据当前样本语句的语音信号获取样本候选lattice;根据当前样本语句对应的上文样本文本重置待训练的神经网络模型,其中,上文样本文本为当前样本语句的前一句或多句的样本文本;通过重置后的待训练的神经网络模型对样本候选lattice重打分,获取重打分样本lattice,确定当前样本语句的识别文本;根据当前样本语句的识别文本和当前样本语句的样本文本确定损失函数的输出。
通过这样的方法,对当前语句的语音识别能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
根据本公开的另一些实施例的一个方面,提出一种语音识别装置,包括:解码单元,被配置为根据当前语句的语音信号获取候选lattice;重置单元,被配置为根据当前语句对应的已识别的上文文本重置神经网络模型,其中,上文文本为当前语句的前一句或多句的识别文本,神经网络模型为基于带上文文本的语料样本训练生成;重打分单元,被配置为通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice;识别单元,被配置为根据重打分lattice确定当前语句的识别文本。
在一些实施例中,语音识别装置还包括:缓存单元,被配置为将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。
在一些实施例中,重置单元还被配置为从缓存区获取当前语句对应的已识别的上文文本。
在一些实施例中,解码单元被配置为基于声学模型和语言模型,对语音信号进行一遍解码,获取候选lattice。
在一些实施例中,识别单元被配置为对重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
在一些实施例中,神经网络模型包括LSTM模型或GRU模型。
在一些实施例中,在语音信号为对话的语音信号的情况下,当前语句对应的已识别的上文文本包括当前语句的前一个发言者的最接近当前语句的发言的语音信号。
在一些实施例中,语音识别装置还包括:训练单元,被配置为利用带上文的样本训练神经网络模型,直至损失函数的输出收敛。
根据本公开的一些实施例的一个方面,提出一种语音识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提到的任意一种语音识别方法。
这样的装置在对当前语句的语音识别中,能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提到的任意一种语音识别方法的步骤。
通过执行这样的计算机可读存储介质上的指令,在对当前语句的语音识别中能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的语音识别方法的一些实施例的流程图。
图2为本公开的语音识别方法的另一些实施例的流程图。
图3为本公开的语音识别装置的一些实施例的示意图。
图4为本公开的语音识别装置的另一些实施例的示意图。
图5为本公开的语音识别装置的又一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
语音识别***首先利用简单的语言模型进行快速解码生成lattice网络,然后利用复杂的语言模型对生成的lattice网络重打分以获取更高的识别精度。采用一遍解码得到的语音识别率往往较低,利用大语料训练得到的复杂语言模型重打分后可以进一步提升准确率。重打分所采用的语言模型最先采用高阶n-gram语言模型,后来,神经网络凭借其优越的建模能力,使得采用n-gram语言模型进行lattice重打分的方案被神经网络模型替代。
发明人发现,虽然神经网络性能优越,但相关技术中往往是根据前后词之间的关系进行重打分,并未考虑到前后语句之间的逻辑。
本公开的语音识别方法的一些实施例的流程图如图1所示。
在步骤101中,根据当前语句的语音信号获取候选lattice。
在一些实施例中,可以基于声学模型和语言模型,对语音信号进行一遍解码,获取候选lattice。在一些实施例中,可以采用相关技术中任一方式进行一遍解码,获得原始的lattice网络,即作为候选lattice。
在步骤102中,根据当前语句对应的已识别的上文文本重置神经网络模型。上文文本可以为当前语句的前一句或多句的识别文本,例如紧邻当前语句的预定数量的语句,或前一段语句。在一些实施例中,段落可以通过语音间隔时间划分,或通过关键词区分。
在一些实施例中,步骤101、102的执行顺序可以不分先后。
在步骤103中,通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice。在一些实施例中,可以对重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
在步骤104中,根据重打分lattice确定当前语句的识别文本。
通过这样的方法,对当前语句的语音识别能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
在一些实施例中,在语音信号为对话的语音信号的情况下,当前语句对应的已识别的上文文本包括当前语句的前一个发言者的最接近当前语句的发言的语音信号。在一些实施例中,可以根据音色判断发言者发生变化。
通过这样的方法,能够充分利用交流过程中的问答逻辑,进一步提高语音识别的准确度。
本公开的语音识别方法的另一些实施例的流程图如图2所示。
在步骤201中,基于声学模型和低阶语言模型,对语音信号进行一遍解码,获取候选lattice。
在步骤202中,从缓存区获取当前语句对应的已识别的上文文本。在一些实施例中,可以在缓存区中按照预定的策略检索对应的上文文本,预定的策略可以包括确定上一个发言者邻近发言的识别文本,或上一句、上一段的识别文本。
在步骤203中,根据从缓存区中得到的上文文本重置神经网络模型。
在步骤204中,通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice。在一些实施例中,神经网络模型包括LSTM模型或GRU模型。
在步骤205中,对重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
在步骤206中,将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。
通过这样的方法,能够及时缓存和管理已识别的文本,以作为对后续语句进行识别的基础;及时的对神经网络模型进行重置,利用上文信息对当前语句进行分析估计,提升语言模型的预测准确性。
在一些实施例中,在通过上文中任意一种方法进行语音识别之前,需要对神经网络模型进行训练。训练语料样本需要具备上文。在一些实施例中,可以根据相应的应用场景获取具有上文的训练文本进行训练,当损失函数的结果收敛至稳定时(例如输出的变化小于预定值),神经网络训练结束。在测试阶段,可以根据当前样本语句的语音信号获取样本候选lattice,并通过当前样本语句对应的上文样本文本重置神经网络模型。在一些实施例中,上文样本文本为当前样本语句的前一句或多句的样本文本。通过重置后的待训练的神经网络模型对样本候选lattice重打分,确定最优的识别文本。
通过这样的方法,能够基于带上文的语料样本训练神经网络模型,使得生成的神经网络模型具备利用了前后语句之间的逻辑性进行重打分的能力,进一步提高了语音识别的准确度。
在利用语音测试数据集测试后发现。通过本公开实施例中的方法,单层LSTM神经语言模型的PPL(Perplexity,困惑度)由43.2下降至40.05;同时,Lattice重打分使得语音识别的准确率绝对提升了0.7%,提升效果明显。
本公开的语音识别装置的一些实施例的示意图如图3所示。
解码单元301能够根据当前语句的语音信号获取候选lattice。在一些实施例中,可以基于声学模型和语言模型,对语音信号进行一遍解码,获取候选lattice。
重置单元302能够根据当前语句对应的已识别的上文文本重置神经网络模型。上文文本可以为当前语句的前一句或多句的识别文本,例如紧邻当前语句的预定数量的语句,或前一段语句。在一些实施例中,段落可以通过语音间隔时间划分,或通过关键词区分。
重打分单元303能够通过重置后的神经网络模型对候选lattice重打分,获取重打分lattice。在一些实施例中,可以对重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
识别单元304能够根据重打分lattice确定当前语句的识别文本。
这样的装置在对当前语句的语音识别中,能够考虑到上文一句或多句的信息,从而更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
在一些实施例中,如图3所示,语音识别装置还可以包括缓存单元305,能够将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。重置单元302能够从缓存区获取当前语句对应的已识别的上文文本,并根据得到的上文文本重置神经网络模型。在一些实施例中,可以在缓存区中按照预定的策略检索对应的上文文本,预定的策略可以包括确定上一个发言者邻近发言的识别文本,或上一句、上一段的识别文本。
这样的装置能够及时缓存和管理已识别的文本,以作为对后续语句进行识别的基础;及时的对神经网络模型进行重置,利用上文信息对当前语句进行分析估计,提升语言模型的预测准确性。
在一些实施例中,如图3所示,语音识别装置还可以包括训练单元306,能够对神经网络模型进行训练,直至损失函数的输出收敛,生成重打分单元303。训练基于的语料样本需要具备上文。在一些实施例中,可以基于初始的如图3所示的语音识别装置进行训练,训练单元306将语料样本输入解码单元301,根据当前样本语句的语音信号获取样本候选lattice;重置单元通过当前样本语句对应的上文样本文本重置待训练的神经网络模型,重打分单元通过重置后的待训练的神经网络模型对样本候选lattice重打分,获取重打分样本lattice,识别单元确定当前样本语句的识别文本;训练单元306根据当前样本语句的识别文本和当前样本语句的样本文本确定损失函数的输出,训练单元306确定输出的变化小于预定值,则确定输出收敛,神经网络模型的训练完成。
这样的装置能够基于带上文的语料样本训练神经网络模型,使得生成的神经网络模型具备利用了前后语句之间的逻辑性进行重打分的能力,进一步提高了语音识别的准确度。
本公开语音识别装置的一个实施例的结构示意图如图4所示。语音识别装置包括存储器401和处理器402。其中:存储器401可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中语音识别方法的对应实施例中的指令。处理器402耦接至存储器401,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器402用于执行存储器中存储的指令,能够更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
在一个实施例中,还可以如图5所示,语音识别装置500包括存储器501和处理器502。处理器502通过BUS总线503耦合至存储器501。该语音识别装置500还可以通过存储接口504连接至外部存储装置505以便调用外部数据,还可以通过网络接口506连接至网络或者另外一台计算机***(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够更加充分的利用先验信息,使重打分更加准确,提高语音识别的准确率。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现语音识别方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。

Claims (13)

1.一种语音识别方法,包括:
根据当前语句的语音信号获取候选晶格lattice;
根据当前语句对应的上文文本重置神经网络模型,其中,所述上文文本为当前语句的前一句或多句的识别文本,所述神经网络模型为基于带上文文本的语料样本训练生成;
通过重置后的所述神经网络模型对所述候选lattice重打分,获取重打分lattice;
根据所述重打分lattice确定所述当前语句的识别文本。
2.根据权利要求1所述的方法,还包括:
将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。
3.根据权利要求2所述的方法,还包括:
从所述缓存区获取当前语句对应的上文文本。
4.根据权利要求1所述的方法,其中,所述根据当前语句的语音信号获取候选lattice包括:
基于声学模型和语言模型对所述语音信号进行一遍解码,获取所述候选lattice。
5.根据权利要求1所述的方法,其中,所述根据所述重打分lattice确定所述当前语句的识别文本包括:
对所述重打分lattice做声学权重和语言权重分析,获得得分最高的路径的解码结果,作为当前语句的识别文本。
6.根据权利要求1所述的方法,其中,所述神经网络模型包括LSTM模型或GRU模型。
7.根据权利要求1所述的方法,其中,在所述语音信号为对话的语音信号的情况下,
所述当前语句对应的上文文本包括当前语句的前一个发言者的最接近当前语句的发言的语音信号。
8.根据权利要求1~7任意一项所述的方法,还包括:
利用带上文的样本训练所述神经网络模型,直至损失函数的输出收敛,包括:
根据当前样本语句的语音信号获取样本候选lattice;
根据当前样本语句对应的上文样本文本重置待训练的神经网络模型,其中,所述上文样本文本为当前样本语句的前一句或多句的样本文本;
通过重置后的待训练的神经网络模型对所述样本候选lattice重打分,获取重打分样本lattice,确定所述当前样本语句的识别文本;
根据当前样本语句的识别文本和当前样本语句的样本文本确定损失函数的输出。
9.一种语音识别装置,包括:
解码单元,被配置为根据当前语句的语音信号获取候选晶格lattice;
重置单元,被配置为根据当前语句对应的上文文本重置神经网络模型,其中,所述上文文本为当前语句的前一句或多句的识别文本,所述神经网络模型为基于带上文文本的语料样本训练生成;
重打分单元,被配置为通过重置后的所述神经网络模型对所述候选lattice重打分,获取重打分lattice;
识别单元,被配置为根据所述重打分lattice确定所述当前语句的识别文本。
10.根据权利要求9所述的装置,还包括:
缓存单元,被配置为将当前语句的识别文本存入缓存区,以便作为后续语句的上文文本。
11.根据权利要求9或10所述的装置,还包括:
训练单元,被配置为利用带上文的样本训练所述神经网络模型,直至损失函数的输出收敛。
12.一种语音识别装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任意一项所述的方法的步骤。
CN202010597703.2A 2020-06-28 2020-06-28 语音识别方法、装置和存储介质 Active CN112259084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010597703.2A CN112259084B (zh) 2020-06-28 2020-06-28 语音识别方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010597703.2A CN112259084B (zh) 2020-06-28 2020-06-28 语音识别方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112259084A true CN112259084A (zh) 2021-01-22
CN112259084B CN112259084B (zh) 2024-07-16

Family

ID=74224197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010597703.2A Active CN112259084B (zh) 2020-06-28 2020-06-28 语音识别方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112259084B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885338A (zh) * 2021-01-29 2021-06-01 深圳前海微众银行股份有限公司 语音识别方法、设备、计算机可读存储介质及程序产品
CN113838456A (zh) * 2021-09-28 2021-12-24 科大讯飞股份有限公司 音素提取方法、语音识别方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069558A1 (en) * 2004-09-10 2006-03-30 Beattie Valerie L Sentence level analysis
US20070100618A1 (en) * 2005-11-02 2007-05-03 Samsung Electronics Co., Ltd. Apparatus, method, and medium for dialogue speech recognition using topic domain detection
JP2008181537A (ja) * 2008-02-18 2008-08-07 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
KR20160060335A (ko) * 2014-11-20 2016-05-30 에스케이텔레콤 주식회사 대화 분리 장치 및 이에서의 대화 분리 방법
US20170357636A1 (en) * 2016-06-13 2017-12-14 Sap Se Real time animation generator for voice content representation
CN108711422A (zh) * 2018-05-14 2018-10-26 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110517693A (zh) * 2019-08-01 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111145733A (zh) * 2020-01-03 2020-05-12 深圳追一科技有限公司 语音识别方法、装置、计算机设备和计算机可读存储介质
US20200184959A1 (en) * 2018-12-10 2020-06-11 Amazon Technologies, Inc. Generating input alternatives

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069558A1 (en) * 2004-09-10 2006-03-30 Beattie Valerie L Sentence level analysis
US20070100618A1 (en) * 2005-11-02 2007-05-03 Samsung Electronics Co., Ltd. Apparatus, method, and medium for dialogue speech recognition using topic domain detection
JP2008181537A (ja) * 2008-02-18 2008-08-07 Sony Corp 情報処理装置および方法、プログラム、並びに記録媒体
KR20160060335A (ko) * 2014-11-20 2016-05-30 에스케이텔레콤 주식회사 대화 분리 장치 및 이에서의 대화 분리 방법
US20170357636A1 (en) * 2016-06-13 2017-12-14 Sap Se Real time animation generator for voice content representation
CN108711422A (zh) * 2018-05-14 2018-10-26 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
US20200184959A1 (en) * 2018-12-10 2020-06-11 Amazon Technologies, Inc. Generating input alternatives
CN110517693A (zh) * 2019-08-01 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN111145733A (zh) * 2020-01-03 2020-05-12 深圳追一科技有限公司 语音识别方法、装置、计算机设备和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张剑: "连续语音识别中的循环神经网络语言模型技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 7, pages 136 - 95 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885338A (zh) * 2021-01-29 2021-06-01 深圳前海微众银行股份有限公司 语音识别方法、设备、计算机可读存储介质及程序产品
CN112885338B (zh) * 2021-01-29 2024-05-14 深圳前海微众银行股份有限公司 语音识别方法、设备、计算机可读存储介质及程序产品
CN113838456A (zh) * 2021-09-28 2021-12-24 科大讯飞股份有限公司 音素提取方法、语音识别方法、装置、设备及存储介质
WO2023050541A1 (zh) * 2021-09-28 2023-04-06 科大讯飞股份有限公司 音素提取方法、语音识别方法、装置、设备及存储介质
CN113838456B (zh) * 2021-09-28 2024-05-31 中国科学技术大学 音素提取方法、语音识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112259084B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
US10741170B2 (en) Speech recognition method and apparatus
CN107301860B (zh) 基于中英文混合词典的语音识别方法及装置
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN109887497B (zh) 语音识别的建模方法、装置及设备
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US8818813B2 (en) Methods and system for grammar fitness evaluation as speech recognition error predictor
WO2018192186A1 (zh) 语音识别方法及装置
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
CN110473527B (zh) 一种语音识别的方法和***
CN114038447A (zh) 语音合成模型的训练方法、语音合成方法、装置及介质
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
CN112259084B (zh) 语音识别方法、装置和存储介质
JP2020042257A (ja) 音声認識方法及び装置
CN112331229A (zh) 语音检测方法、装置、介质和计算设备
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN113744727A (zh) 模型训练方法、***、终端设备及存储介质
CN110223674B (zh) 语音语料训练方法、装置、计算机设备和存储介质
US20220270637A1 (en) Utterance section detection device, utterance section detection method, and program
EP3953928A1 (en) Automated speech recognition confidence classifier
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210526

Address after: 100176 room 1004, 10th floor, building 1, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Beijing Huijun Technology Co.,Ltd.

Address before: Room A402, 4th floor, building 2, No.18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: BEIJING WODONG TIANJUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: BEIJING JINGDONG CENTURY TRADING Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant