CN110491383A - 一种语音交互方法、装置、***、存储介质及处理器 - Google Patents
一种语音交互方法、装置、***、存储介质及处理器 Download PDFInfo
- Publication number
- CN110491383A CN110491383A CN201910910484.6A CN201910910484A CN110491383A CN 110491383 A CN110491383 A CN 110491383A CN 201910910484 A CN201910910484 A CN 201910910484A CN 110491383 A CN110491383 A CN 110491383A
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- result
- speech recognition
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 130
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 claims abstract description 73
- 238000003058 natural language processing Methods 0.000 claims abstract description 56
- 230000003993 interaction Effects 0.000 claims description 7
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000004378 air conditioning Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音交互方法、装置、***、存储介质及处理器,该方法包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述方法中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。
Description
技术领域
本发明涉及人机交互技术领域,尤其涉及一种语音交互方法、装置、***、存储介质及处理器。
背景技术
在语音交互过程中,智能音箱采集输入的语音数据,经过语音识别ASR(AutomaticSpeech Recognition)后将识别到的文字发送给自然语言处理NLP(NaturalLanguageProcessing),采用语音合成技术TTS(Text To Speech)将语义理解后语音返回端侧进行播放。
现有的语音交互过程是采用单一的ASR、NLP、TTS对输入语音流进行处理,局限性比较大,若前期ASR识别不准,同时会影响到NLP的理解或者ASR识别准确,NLP理解不够,会影响到整个语音交互过程。
发明内容
有鉴于此,本发明提供一种基于区块链的基础设施服务方法及装置,用以解决现有的语音交互过程大都是单一的ASR、NLP、TTS的处理,局限性比较大,譬如前期ASR识别不准,同时会影响到NLP的理解或者ASR识别准确,如果NLP理解不够,同样会影响到整个语音交互过程的问题,具体方案如下:
一种语音交互方法,包括:
获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
在所述各个语音识别结果中选取目标语音识别结果;
将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
在所述各个语义处理结果中选取目标语义处理结果;
依据所述目标语义处理结果对所述输入语音流进行回复。
上述的方法,可选的,在所述各个语音识别结果中选取目标语音识别结果,包括:
获取每一个语音识别结果的识别率;
将各个识别率中识别率最高的识别结果作为目标识别结果。
上述的方法,可选的,在所述各个语义处理结果中选取目标语义处理结果,包括:
获取每一个语义处理结果的置信度;
将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。
上述的方法,可选的,依据所述目标语义处理结果对所述输入语音流进行回复,包括:
获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
依据所述用户群体,确定目标语音合成引擎;
将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
上述的方法,可选的,所述确定产生所述输入语音流的用户群体,包括:
获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;
依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。
一种语音交互装置,包括:
获取和识别模块,用于获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
语音识别结果选取模块,用于在所述各个语音识别结果中选取目标语音识别结果;
处理模块,用于将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
处理结果选取模块,用于在所述各个语义处理结果中选取目标语义处理结果;
回复模块,用于依据所述目标语义处理结果对所述输入语音流进行回复。
上述的装置,可选的,所述回复模块包括:
获取和确定单元,用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
确定单元,用于依据所述用户群体,确定目标语音合成引擎;
转换单元,用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
一种语音交互***,包括:云服务器、语音识别模块、语义处理模块、技能模块、语音合成模块和智能语音终端,其中,
所述云服务器用于获取所述智能语音终端采集的输入语音流,将所述输入语音流派发给所述语音识别模块进行语音识别,得到目标语音识别结果;
所述语音识别模块将所述目标语音识别结果发送给所述云服务器,所述云服务器将所述目标语音识别结果所述语义处理模块,得到目标语义处理结果;
所述语义处理模块将所述目标语义处理结果发送给所述云服务器,所述云服务器将所述目标语义处理结果发送给所述技能模块,得到目标回复;
所述技能模块将所述目标回复发送给所述云服务器,所述云服务器将所述目标回复发送给所述语音合成模块,得到输出语音流;
所述语音合成模块将所述输出语音流发送给所述云服务器,所述云服务器将所述输出语音流发送给所述智能语音终端进行播放。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述的一种语音交互方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的一种语音交互方法。
与现有技术相比,本发明包括以下优点:
本发明公开了一种语音交互方法、装置、***、存储介质及处理器,该方法包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述方法中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种语音交互方法流程图;
图2为本申请实施例公开的一种语音交互方法又一流程图;
图3为本申请实施例公开的一种语音交互***结构框图;
图4为本申请实施例公开的一种语音交互装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种语音交互方法及装置,应用在语音交互过程中,现有的语音交互过程中通过单一的ASR、NLP、TTS对输入语音流进行处理,若ASR的语音识别结果和/或NLP的自然语言处理结果与对应的实际结果的偏差较大,会出现答非所问的情况影响语音交互的过程,本发明提供了一种语音交互方法用于解决上述问题,所述交互方法的执行流程如图1所示,包括步骤:
S101、获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
本发明实施例中,所述输入语音流是从智能语音设备中获取,所述智能语音设备可以为智能音箱、智能语音机器人,智能手机等等,所述智能语音设备采集用户发出的语音,将其转换为输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行识别,得到各个语音识别结果。
其中,针对派发过程进行举例说明,若***中包含10个语音识别引擎,所述目标语音识别引擎的数量可以小于等于10个,例如:可以将上述10个语音识别引擎全部作为目标语音识别引擎,即所述语音识别引擎的数量与所述目标语音识别阴影的数量相等,将所述输入语音流派发给上述10个目标语音识别引擎进行语音识别,但是这种处理方式对处理器的要求较高,当处理器的配置不能满足要求时,会导致语音识别的速度缓慢,进而影响语音交互的过程,导致语音交互过程中用户体验不好,因此,为了提高语音识别的速度,可以在派发给语音识别引擎之前,获取所述输入语音流的类型,依据所述类型对上述的10个语音识别引擎进行筛选,得到不少于两个的目标语音识别引擎,此时目标语音识别引擎的数量可以小于等于10个。其中,所述类型可以根据实际场景、垂直细分领域,例如:所述分类可以按语言进行分类、也可以按专业领域进行分类或者其它场景进行分类,其中,按语言进行分类可以细分为中文和外文,中文又可以细分为普通话和方言,依据具体的情况还可以针对方言继续细分,外文可以为英语、日语、韩语等,也可以按专业领域进行分类,例如:计算机领域、通信领域或者机械领域等等,针对计算机领域、通信领域或者机械领域等等还可以依据具体情况继续进行细分,在此不再赘述,当然也还可以包含其它的划分形式,本发明实施例中,对所述类型的具体形式不进行限定。
S102、在所述各个语音识别结果中选取目标语音识别结果;
本发明实施例中,针对每一个目标语音识别引擎,其在输出与所述输入语音流对应的识别结果的同时还会输出该识别结果的识别率,识别率会因信噪比、在线/离线识别等会产生差异,因此,需要获取所述输入语音流的信噪比和目标语音识别引擎是否在线等影响识别率的因素后,在确定所述输入语音流在对应的目标语音识别引擎下的识别率。
实际工作中,一般识别率的直接指标是词错误率WER(Word Error Rate)其定义如下:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除或者***某些词,这些***、替换或删除的词的总个数,除以标准的词序列中词的总个数的百分比,即为WER。
公式为:
Accuracy=100-WER% (2)
其中:S-被替换的词的数目;
D-被删除词的数目;
I-***词的数目;
N-词总数目;
WER-词错误率;
Accuracy-识别率;
其中:WER可以分男女、快慢、口音、数字/英文/中文等情况,分别来看,因为有***词,所以理论上WER有可能大于100%,但实际中、特别是大样本量的时候,是不可能的,否则就太差了,不可能被商用。
进一步的,可以采用句错误率SER(Sentence Error Rate),即“句子识别错误的个数/总的句子个数”。不过在实际工作中,一般句错误率是字错误率的2~3倍,所以通常不采用句错误率对识别过程进行衡量。
本发明实施例中以识别率作为参考,首先计算每一个语音识别结果的识别率,将各个识别率中识别率最高的语音识别结果作为目标语音识别结果。
S103、将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
本发明实施例中,将所述目标语音识别结果派发给各个目标自然处理引擎,其中,针对派发过程进行举例说明,若***中包含10个自然语言处理引擎,所述目标自然语言处理引擎的数量小于等于10个,例如:可以将上述10个自然语言处理引擎全部作为目标自然语言处理引擎,即所述目标自然语言处理引擎的数量等于所述自然语言处理引擎的数量,但是这种处理方式对处理器的要求较高,当处理器的配置不能满足要求时,会导致语音识别的速度缓慢,进而影响语音交互的过程,导致语音交互过程中用户体验不好,因此,语音交互的速度,可以在将所述目标识别结果派发给各个目标自然语言处理引擎之前,确定所述目标识别结果的类别,其中,所述类别可以根据实际场景、垂直细分领域来确定,例如:所述分类可以按语言进行分类、也可以按专业领域进行分类或者其它场景进行分类,其中,按语言进行分类可以细分为中文和外文,中文又可以细分为普通话和方言,依据具体的情况还可以针对方言继续细分,外文可以为英语、日语、韩语等,也可以按专业领域进行分类,例如:计算机领域、通信领域或者机械领域等等,针对计算机领域、通信领域或者机械领域等等还可以依据具体情况继续进行细分,在此不再赘述,当然也还可以包含其它的划分形式,本发明实施例中,对分类的具体形式不进行限定,优选的,针对所述目标语音识别引擎和所述目标自然语言处理引擎的分类存在对应关系。例如,若所述目标语音识别结果是通过针对方言的目标语音识别引擎得到的,可以直接将其派发给方言的目标自然语言处理引擎即可。
S104、在所述各个语义处理结果中选取目标语义处理结果;
本发明实施例中,针对每一个目标自然语言处理引擎,其在输出与所述目标语音识别结果对应的目标语义处理结果的同时还会输出该目标语义处理结果的置信度,以所述目标自然语言处理引擎为百度NLP语义计算整体框架为例,其主要分三大部分,底层依托于大数据、网页数据和用户行为数据,以及高性能集群(GPU、CPU和FPGA),打造了基于DNN和概率图模型的目标自然语言处理引擎,通过将所述目标语音识别结果入到目标自然语言处理引擎,可以得到目标语义处理结果,其中,所述目标语义处理结果为针对所述输入语音流的文本回复,进而基于所述语义处理结果,进行语义层面的计算,包括语义匹配、语义检索、文本分类、序列生成以及序列标注等,从而确定语义处理结果的置信度,由于不同目标自然语言处理引擎的对置信度的确定方法不同,可能导致各个置信度之间不具备参考性,将所述各个置信度进行归一化或者其它处理后进行比较,将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。
S105、依据所述目标语义处理结果对所述输入语音流进行回复。
本发明实施例中,采用语音合成TTS(Text-To-Speech)技术,是将文字所述目标语义处理结果转化为输出语音流,并通过所述智能语音设备朗读出来,类比于人类的嘴巴。例如:Siri等各种语音助手中听到的声音,都是由TTS来生成的。
本发明公开了一种语音交互方法,包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述方法中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。
本发明实施例中,依据所述目标语义处理结果对所述输入语音流进行回复的处理流程如图2所示,包括步骤:
S201、获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
本发明实施例中,获取所述目标语义处理结果中的关键词,依据所述关键词确定与所述目标语义处理结果对应的技能单元,接收该技能单元反馈的针对所述目标语音处理结果目标回复。获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果,依据所述类型和/或所述人脸语音识别结果,确定产生所述输入语音流的用户群体,所述用户群体可以为男女老少,家庭成员或者采用某种方言或者语种的语音发出者等。
S202、依据所述用户群体,确定目标语音合成引擎;
本发明实施例中,所述语音合成引擎选择也可以结合实际场景、垂直细分领域进行划分,依据所述目标群体,确定目标语音合成引擎,例如:所述目标语音合成引擎可以按语言进行分类可以细分为中文和外文,中文又可以细分为普通话和方言,依据具体的情况还可以针对方言继续细分,外文可以为英语、日语、韩语等,本发明实施例中,对分类的具体形式不进行限定。例如:如果所述用户群体为方言的发出者,因此目标语音识别引擎可以采用与方言类型对应的目标语音识别引擎,则可以直接根据方言类型选择语音合成引擎作为目标语音合成引擎。
S203、将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
本发明实施例中,将所述目标回复通过所述目标语音合成引擎转换为输出语音流,所述目标语音合成引擎的类型不同,回复的方式不同。所述目标语音合成引擎也可以依据人脸识别技术按用户人像进行识别,例如:所述智能语音终端依据人脸识别技术,识别到接收的是输入语音流是妈妈说的话,而通过历史记录或者设定的回复规则进行分析得到妈妈最想听见儿子的声音,此时,目标语音合成引擎可以采用儿子的声音将所述目标回复发送到所述智能语音终端,当然也还可以依据具体的情况将所述目标回复通过英语、方言或者其它的方式发送到所述智能语音终端。
基于上述的一种语音交互方法,本发明实施例中提供了一种语音交互***,所述交互***的结构框图如图3所示,包括:云服务器301、语音识别模块302、语义处理模块303、技能模块304、语音合成模块305和智能语音终端306,其中,
所述云服务器301用于获取所述智能语音终端306采集的输入语音流,将所述输入语音流派发给所述语音识别模块302进行语音识别,得到目标语音识别结果;
本发明实施例中,所述语音识别模块302包含多个语音识别引擎,优选的,为了提高识别效率,在语音识别过程中可以优先对多个语音识别引擎进行筛选,得到多个目标语音识别引擎,依据多个目标语音识别引擎进行语音识别,在得到的各个语音识别结果中选取识别率最高的语音识别结果作为目标语音识别结果。
所述语音识别模块302将所述目标语音识别结果发送给所述云服务器301,所述云服务器301将所述目标语音识别结果所述语义处理模块303,得到目标语义处理结果;
本发明实施例中,所述语音识别模块303包含多个自然语言处理引擎,优选的,为例提高处理效率,在自然语言处理过程中可以对多个自然语言处理引擎进行筛选,得到多个目标自然语言处理引擎,将所述目标语音识别结果发送给多个目标自然语言处理处理引擎,在得到的多个语义处理结果中选取置信度最高的语义处理结果作为目标语义处理结果。
所述语义处理模块303将所述目标语义处理结果发送给所述云服务器301,所述云服务器301将所述目标语义处理结果发送给所述技能模块304,得到目标回复。
本发明实施例中,所述技能模块304根据所述目标语义处理结果依据具体情况进行处理,如果需要所述智能语音终端306进行回复,则返回的结果为目标回复,如果是控制指令,则继续在所述技能模块304中进行处理。本发明实施中针对返回结果为目标回复的情况进行举例说明。例如:用户说“打开客厅的空调”,目标语音识别结果就是“打开客厅的空调”,经过自然语言理解后就转化为“领域是空调,指令是打开,具***置是客厅”,云服务器304会根据领域将结果派发到所述技能模块304中与空调对应的技能中,空调的技能根据指令和位置,则会通过控制将客厅的空调打开,成功后返回目标回复,例如所述目标回复可以为“好的,客厅空调已经打开”。
所述技能模块304将所述目标回复发送给所述云服务器301,所述云服务器301将所述目标回复发送给所述语音合成模块305,得到输出语音流;
所述语音合成模块305将所述输出语音流发送给所述云服务器301,所述云服务器将所述输出语音流发送给所述智能语音终端306进行播放。
基于上述的一种语音交互方法,本发明实施例中提供了一种语音交互装置,所述交互装置的结构框图如图4所示,包括:
获取和识别模块401、语音识别结果选取模402、处理模块403、处理结果选取模404和回复模块405。
其中,
所述获取和识别模块401,用于获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
所述语音识别结果选取模块402,用于在所述各个语音识别结果中选取目标语音识别结果;
所述处理模块403,用于将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
所述处理结果选取模块404,用于在所述各个语义处理结果中选取目标语义处理结果;
所述回复模块405,用于依据所述目标语义处理结果对所述输入语音流进行回复。
本发明公开了一种语音交互装置,包括:获取输入语音流,将输入语音流派发给各个语音识别引擎进行语音识别,在得到各个语音识别结果选取目标语音识别结果;将目标语音识别结果派发给各个自然语言处理引擎,在得到各个语义处理结果中选取目标语义处理结果;依据目标语义处理结果对输入语音流进行回复。上述装置中,在各个语音识别结果中筛选出目标语音识别结果,将其派发给多个自然语言处理引擎,在得到的各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,影响语音交互的问题。
本发明实施例中,所述回复模块405包括:
获取和确定单元406、确定单元407和转换单元408。
其中,
所述获取和确定单元406,用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
所述确定单元407,用于依据所述用户群体,确定目标语音合成引擎;
所述转换单元408,用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
所述语音交互装置包括处理器和存储器,上述获取和识别模块、语音识别结果选取模、处理模块、处理结果选取模和回复模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,在所述各个语音识别结果中筛选出目标语音识别结果,将所述目标语音识别结果派发给多个自然语言处理引擎,在所述各个语义处理结果中选取目标语义处理结果,避免了语音交互过程采用单一的ASR、NLP、TTS进行处理,局限性比较大,若ASR和/或NLP识别不准,会影响到整个语音交互过程的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述语音交互方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语音交互方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
在所述各个语音识别结果中选取目标语音识别结果;
将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
在所述各个语义处理结果中选取目标语义处理结果;
依据所述目标语义处理结果对所述输入语音流进行回复。
上述的方法,可选的,在所述各个语音识别结果中选取目标语音识别结果,包括:
获取每一个语音识别结果的识别率;
将各个识别率中识别率最高的识别结果作为目标识别结果。
上述的方法,可选的,在所述各个语义处理结果中选取目标语义处理结果,包括:
获取每一个语义处理结果的置信度;
将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。
上述的方法,可选的,依据所述目标语义处理结果对所述输入语音流进行回复,包括:
获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
依据所述用户群体,确定目标语音合成引擎;
将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
上述的方法,可选的,所述确定产生所述输入语音流的用户群体,包括:
获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;
依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行有如下方法步骤的程序:
获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
在所述各个语音识别结果中选取目标语音识别结果;
将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
在所述各个语义处理结果中选取目标语义处理结果;
依据所述目标语义处理结果对所述输入语音流进行回复。
上述的方法,可选的,在所述各个语音识别结果中选取目标语音识别结果,包括:
获取每一个语音识别结果的识别率;
将各个识别率中识别率最高的识别结果作为目标识别结果。
上述的方法,可选的,在所述各个语义处理结果中选取目标语义处理结果,包括:
获取每一个语义处理结果的置信度;
将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。
上述的方法,可选的,依据所述目标语义处理结果对所述输入语音流进行回复,包括:
获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
依据所述用户群体,确定目标语音合成引擎;
将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
上述的方法,可选的,所述确定产生所述输入语音流的用户群体,包括:
获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;
依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种语音交互方法、装置、***、存储介质及处理器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
在所述各个语音识别结果中选取目标语音识别结果;
将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
在所述各个语义处理结果中选取目标语义处理结果;
依据所述目标语义处理结果对所述输入语音流进行回复。
2.根据权利要求1所述的方法,其特征在于,在所述各个语音识别结果中选取目标语音识别结果,包括:
获取每一个语音识别结果的识别率;
将各个识别率中识别率最高的识别结果作为目标识别结果。
3.根据权利要求1所述的方法,其特征在于,在所述各个语义处理结果中选取目标语义处理结果,包括:
获取每一个语义处理结果的置信度;
将各个置信度中置信度最高的语义处理结果作为目标语义处理结果。
4.根据权利要求1所述的方法,其特征在于,依据所述目标语义处理结果对所述输入语音流进行回复,包括:
获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
依据所述用户群体,确定目标语音合成引擎;
将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
5.根据权利要求4所述的方法,其特征在于,所述确定产生所述输入语音流的用户群体,包括:
获取识别所述目标语音识别结果的目标语音识别引擎的类型和/或人脸语音识别结果;
依据所述类型和/或所述人脸语音识别结果,确定所述用户群体。
6.一种语音交互装置,其特征在于,包括:
获取和识别模块,用于获取输入语音流,将所述输入语音流派发给各个目标语音识别引擎进行语音识别,得到各个语音识别结果;
语音识别结果选取模块,用于在所述各个语音识别结果中选取目标语音识别结果;
处理模块,用于将所述目标语音识别结果派发给各个目标自然语言处理引擎,得到各个语义处理结果;
处理结果选取模块,用于在所述各个语义处理结果中选取目标语义处理结果;
回复模块,用于依据所述目标语义处理结果对所述输入语音流进行回复。
7.根据权利要求6所述的装置,其特征在于,所述回复模块包括:
获取和确定单元,用于获取与所述目标语义处理结果匹配的目标回复和确定产生所述输入语音流的用户群体;
确定单元,用于依据所述用户群体,确定目标语音合成引擎;
转换单元,用于将所述目标回复通过所述目标语音合成引擎转换为输出语音流。
8.一种语音交互***,其特征在于,包括:云服务器、语音识别模块、语义处理模块、技能模块、语音合成模块和智能语音终端,其中,
所述云服务器用于获取所述智能语音终端采集的输入语音流,将所述输入语音流派发给所述语音识别模块进行语音识别,得到目标语音识别结果;
所述语音识别模块将所述目标语音识别结果发送给所述云服务器,所述云服务器将所述目标语音识别结果所述语义处理模块,得到目标语义处理结果;
所述语义处理模块将所述目标语义处理结果发送给所述云服务器,所述云服务器将所述目标语义处理结果发送给所述技能模块,得到目标回复;
所述技能模块将所述目标回复发送给所述云服务器,所述云服务器将所述目标回复发送给所述语音合成模块,得到输出语音流;
所述语音合成模块将所述输出语音流发送给所述云服务器,所述云服务器将所述输出语音流发送给所述智能语音终端进行播放。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至5中任意一项所述的一种语音交互方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的一种语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910484.6A CN110491383B (zh) | 2019-09-25 | 2019-09-25 | 一种语音交互方法、装置、***、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910484.6A CN110491383B (zh) | 2019-09-25 | 2019-09-25 | 一种语音交互方法、装置、***、存储介质及处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491383A true CN110491383A (zh) | 2019-11-22 |
CN110491383B CN110491383B (zh) | 2022-02-18 |
Family
ID=68544152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910910484.6A Active CN110491383B (zh) | 2019-09-25 | 2019-09-25 | 一种语音交互方法、装置、***、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491383B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798848A (zh) * | 2020-06-30 | 2020-10-20 | 联想(北京)有限公司 | 语音同步输出方法、装置及电子设备 |
CN111862949A (zh) * | 2020-07-30 | 2020-10-30 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN112003991A (zh) * | 2020-09-02 | 2020-11-27 | 深圳壹账通智能科技有限公司 | 一种外呼方法及相关设备 |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112614490A (zh) * | 2020-12-09 | 2021-04-06 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、***及车辆 |
CN112820295A (zh) * | 2020-12-29 | 2021-05-18 | 华人运通(上海)云计算科技有限公司 | 语音处理装置和***以及云端服务器和车辆 |
CN112861542A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 限定场景语音交互方法和装置 |
CN112992151A (zh) * | 2021-03-15 | 2021-06-18 | 中国平安财产保险股份有限公司 | 语音识别方法、***、设备和可读存储介质 |
CN113077793A (zh) * | 2021-03-24 | 2021-07-06 | 北京儒博科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
WO2021135548A1 (zh) * | 2020-06-05 | 2021-07-08 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN113506565A (zh) * | 2021-07-12 | 2021-10-15 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN114446279A (zh) * | 2022-02-18 | 2022-05-06 | 青岛海尔科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN114464179A (zh) * | 2022-01-28 | 2022-05-10 | 达闼机器人股份有限公司 | 语音交互方法、***、装置、设备及存储介质 |
WO2022262542A1 (zh) * | 2021-06-15 | 2022-12-22 | 南京硅基智能科技有限公司 | 文本输出方法及***、存储介质、电子装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991719A (en) * | 1998-04-27 | 1999-11-23 | Fujistu Limited | Semantic recognition system |
CN101354886A (zh) * | 2007-07-27 | 2009-01-28 | 陈修志 | 语音识别装置 |
US20090258333A1 (en) * | 2008-03-17 | 2009-10-15 | Kai Yu | Spoken language learning systems |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别***和方法 |
CN105096953A (zh) * | 2015-08-11 | 2015-11-25 | 东莞市凡豆信息科技有限公司 | 实现多语种混合使用的语音识别方法 |
CN106373569A (zh) * | 2016-09-06 | 2017-02-01 | 北京地平线机器人技术研发有限公司 | 语音交互装置和方法 |
CN106648082A (zh) * | 2016-12-09 | 2017-05-10 | 厦门快商通科技股份有限公司 | 一种模拟真人互动的智能服务设备及方法 |
CN107093425A (zh) * | 2017-03-30 | 2017-08-25 | 安徽继远软件有限公司 | 电力***的语音导航***、语音识别方法和语音交互方法 |
CN107170446A (zh) * | 2017-05-19 | 2017-09-15 | 深圳市优必选科技有限公司 | 语义处理服务器及用于语义处理的方法 |
US10049656B1 (en) * | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
CN208284230U (zh) * | 2018-04-20 | 2018-12-25 | 贵州小爱机器人科技有限公司 | 一种语音识别装置、语音识别***及智能设备 |
CN109545197A (zh) * | 2019-01-02 | 2019-03-29 | 珠海格力电器股份有限公司 | 语音指令的识别方法、装置和智能终端 |
US20190102378A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Rule-based natural language processing |
CN109727597A (zh) * | 2019-01-08 | 2019-05-07 | 未来电视有限公司 | 语音信息的交互辅助方法和装置 |
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的***和方法 |
-
2019
- 2019-09-25 CN CN201910910484.6A patent/CN110491383B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5991719A (en) * | 1998-04-27 | 1999-11-23 | Fujistu Limited | Semantic recognition system |
CN101354886A (zh) * | 2007-07-27 | 2009-01-28 | 陈修志 | 语音识别装置 |
US20090258333A1 (en) * | 2008-03-17 | 2009-10-15 | Kai Yu | Spoken language learning systems |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别***和方法 |
US10049656B1 (en) * | 2013-09-20 | 2018-08-14 | Amazon Technologies, Inc. | Generation of predictive natural language processing models |
CN105096953A (zh) * | 2015-08-11 | 2015-11-25 | 东莞市凡豆信息科技有限公司 | 实现多语种混合使用的语音识别方法 |
CN106373569A (zh) * | 2016-09-06 | 2017-02-01 | 北京地平线机器人技术研发有限公司 | 语音交互装置和方法 |
CN109791767A (zh) * | 2016-09-30 | 2019-05-21 | 罗伯特·博世有限公司 | 用于语音识别的***和方法 |
CN106648082A (zh) * | 2016-12-09 | 2017-05-10 | 厦门快商通科技股份有限公司 | 一种模拟真人互动的智能服务设备及方法 |
CN107093425A (zh) * | 2017-03-30 | 2017-08-25 | 安徽继远软件有限公司 | 电力***的语音导航***、语音识别方法和语音交互方法 |
CN107170446A (zh) * | 2017-05-19 | 2017-09-15 | 深圳市优必选科技有限公司 | 语义处理服务器及用于语义处理的方法 |
US20190102378A1 (en) * | 2017-09-29 | 2019-04-04 | Apple Inc. | Rule-based natural language processing |
CN208284230U (zh) * | 2018-04-20 | 2018-12-25 | 贵州小爱机器人科技有限公司 | 一种语音识别装置、语音识别***及智能设备 |
CN109545197A (zh) * | 2019-01-02 | 2019-03-29 | 珠海格力电器股份有限公司 | 语音指令的识别方法、装置和智能终端 |
CN109727597A (zh) * | 2019-01-08 | 2019-05-07 | 未来电视有限公司 | 语音信息的交互辅助方法和装置 |
Non-Patent Citations (2)
Title |
---|
P VANAJAKSHI ET AL.: "A Detailed Survey on Large Vocabulary Continuous Speech Recognition Techniques", 《ICCCI 2017》 * |
刘悦等: "语音识别技术在车载领域的应用及发展", 《控制与信息技术》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021135548A1 (zh) * | 2020-06-05 | 2021-07-08 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN111798848B (zh) * | 2020-06-30 | 2024-05-31 | 联想(北京)有限公司 | 语音同步输出方法、装置及电子设备 |
CN111798848A (zh) * | 2020-06-30 | 2020-10-20 | 联想(北京)有限公司 | 语音同步输出方法、装置及电子设备 |
CN111883122A (zh) * | 2020-07-22 | 2020-11-03 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN111883122B (zh) * | 2020-07-22 | 2023-10-27 | 海尔优家智能科技(北京)有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN111862949A (zh) * | 2020-07-30 | 2020-10-30 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN111862949B (zh) * | 2020-07-30 | 2024-04-02 | 北京小米松果电子有限公司 | 自然语言的处理方法及装置、电子设备及存储介质 |
CN112003991A (zh) * | 2020-09-02 | 2020-11-27 | 深圳壹账通智能科技有限公司 | 一种外呼方法及相关设备 |
CN112509565A (zh) * | 2020-11-13 | 2021-03-16 | 中信银行股份有限公司 | 语音识别方法、装置、电子设备及可读存储介质 |
CN112614490B (zh) * | 2020-12-09 | 2024-04-16 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、***及车辆 |
CN112614490A (zh) * | 2020-12-09 | 2021-04-06 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、***及车辆 |
CN112820295A (zh) * | 2020-12-29 | 2021-05-18 | 华人运通(上海)云计算科技有限公司 | 语音处理装置和***以及云端服务器和车辆 |
CN112820295B (zh) * | 2020-12-29 | 2022-12-23 | 华人运通(上海)云计算科技有限公司 | 语音处理装置和***以及云端服务器和车辆 |
CN112861542A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 限定场景语音交互方法和装置 |
CN112861542B (zh) * | 2020-12-31 | 2023-05-26 | 思必驰科技股份有限公司 | 限定场景语音交互方法和装置 |
CN112992151A (zh) * | 2021-03-15 | 2021-06-18 | 中国平安财产保险股份有限公司 | 语音识别方法、***、设备和可读存储介质 |
CN112992151B (zh) * | 2021-03-15 | 2023-11-07 | 中国平安财产保险股份有限公司 | 语音识别方法、***、设备和可读存储介质 |
CN113077793B (zh) * | 2021-03-24 | 2023-06-13 | 北京如布科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN113077793A (zh) * | 2021-03-24 | 2021-07-06 | 北京儒博科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
US11651139B2 (en) | 2021-06-15 | 2023-05-16 | Nanjing Silicon Intelligence Technology Co., Ltd. | Text output method and system, storage medium, and electronic device |
WO2022262542A1 (zh) * | 2021-06-15 | 2022-12-22 | 南京硅基智能科技有限公司 | 文本输出方法及***、存储介质、电子装置 |
CN113506565A (zh) * | 2021-07-12 | 2021-10-15 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
WO2023143439A1 (zh) * | 2022-01-28 | 2023-08-03 | 达闼机器人股份有限公司 | 语音交互方法、***、装置、设备及存储介质 |
CN114464179A (zh) * | 2022-01-28 | 2022-05-10 | 达闼机器人股份有限公司 | 语音交互方法、***、装置、设备及存储介质 |
CN114464179B (zh) * | 2022-01-28 | 2024-03-19 | 达闼机器人股份有限公司 | 语音交互方法、***、装置、设备及存储介质 |
CN114446279A (zh) * | 2022-02-18 | 2022-05-06 | 青岛海尔科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110491383B (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491383A (zh) | 一种语音交互方法、装置、***、存储介质及处理器 | |
CN106776936B (zh) | 智能交互方法和*** | |
CN103345467B (zh) | 语音翻译*** | |
JP2021018797A (ja) | 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム | |
CN103456314B (zh) | 一种情感识别方法以及装置 | |
CN110148416A (zh) | 语音识别方法、装置、设备和存储介质 | |
WO2019084810A1 (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN112799747A (zh) | 智能助理评价、推荐方法、***、终端及可读存储介质 | |
CN107591155A (zh) | 语音识别方法及装置、终端及计算机可读存储介质 | |
US10108707B1 (en) | Data ingestion pipeline | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
CN108804609A (zh) | 歌曲推荐方法和装置 | |
CN113051362B (zh) | 数据的查询方法、装置和服务器 | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN108959531A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN110162780A (zh) | 用户意图的识别方法和装置 | |
CN105893351B (zh) | 语音识别方法及装置 | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
CN110297893A (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN108804525A (zh) | 一种智能回答方法及装置 | |
CN110211592A (zh) | 智能语音数据处理装置及方法 | |
CN109739968A (zh) | 一种数据处理方法及装置 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN108763202A (zh) | 识别敏感文本的方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |