CN114822532A - 语音交互方法、电子设备和存储介质 - Google Patents
语音交互方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114822532A CN114822532A CN202210378062.0A CN202210378062A CN114822532A CN 114822532 A CN114822532 A CN 114822532A CN 202210378062 A CN202210378062 A CN 202210378062A CN 114822532 A CN114822532 A CN 114822532A
- Authority
- CN
- China
- Prior art keywords
- user voice
- request
- voice
- voice request
- prefix tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000004590 computer program Methods 0.000 claims description 16
- 230000000295 complement effect Effects 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003203 everyday effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音交互方法、电子设备和存储介质。语音交互方法包括:获取用户语音数据以实时进行语音识别得到用户语音请求;在未接收到完整的用户语音请求的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果;对补全结果进行处理得到预测语音指令;在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求相同,则根据预测语音指令完成语音交互。本发明能够对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关联的话语自动补全,实现对不同用户的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
Description
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音交互方法、电子设备和存储介质。
背景技术
对于文本补全,类似的业务有输入法的提示词、搜索框的输入提示、代码的补全提示、文本的自动生成等。第一,可以使用常规的搜索算法,但这需要提前存储大量数据,且在巨大的数据库中进行搜索,利用空间换时间方法提高效率与准度。第二,还可以使用近些年热门的预训练文本生成模型,虽然准确率高且多样性丰富,但是模型参数量巨大,对于特定领域文本还需再花较长时间训练,生成文本的时间也较长,对于设备的要求较高,时间的花费也较大。
但在语音识别处理这一场景下,想要在用户正常说话时间内利用***用户意图从而抢到时间收益,同时不影响***的正常使用,就需要模型的生成速度快、准确度高、吞吐量低,因此模型要求不能太大、不追求多样性,且为了节约成本,存储空间要尽可能小。
同时,用户每个人都有自己的说话习惯,用一个大的模型来预测每个人的话语是不科学的,强行让模型记忆学习反而可能适得其反,导致常见话语的预测效果变差,不能实现识别不同用户的个性化话语,用户体验不佳。
发明内容
本发明实施方式提供一种语音交互方法、电子设备和存储介质。
本发明实施方式提供一种语音交互方法。所述语音交互方法包括:获取用户语音数据以实时进行语音识别得到用户语音请求;在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果;对所述补全结果进行处理得到预测语音指令;在接收到完整的所述用户语音请求后,若所述补全结果与接收到完整的所述用户语音请求相同,则根据所述预测语音指令完成语音交互。
如此,本发明的语音交互方法能够对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关领的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
所述在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果,包括:通过数据分析确定补全条件;在实时获取的所述用户语音请求满足所述补全条件的情况下,基于所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果。
如此,本发明的语音交互方法及装置能够对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关联的话语自动补全,得到补全结果,从而实现对不同用户的个性化话语均能进行识别的千人千面的技术效果。
所述在实时获取的所述用户语音请求满足所述补全条件的情况下,基于所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果,包括:在实时获取的所述用户语音请求满足所述补全条件的情况下,根据实时获取的所述用户语音请求确定所述用户语音请求的语音类型;根据所述语音类型选择对应的所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果。
如此,本发明的语音交互方法可以根据实时获取的用户语音请求识别该用户语音请求属于哪一类个性化语音类型,从而根据所属语音类型对应的前缀树对该用户语音请求进行自动补全,能够实现对不同用户的个性化话语均能进行识别的千人千面的技术效果。
所述语音交互方法包括:在接收到完整的所述用户语音请求后,若所述补全结果与接收到完整的所述用户语音请求不相同,对接收到完整的所述用户语音请求进行处理得到用户语音指令;根据所述用户语音指令完成语音交互。
如此,可以确认补全结果是否为与完整的用户语音请求相同的结果,不相同则可以直接根据接收到的完整的用户语音请求生成用户语音指令并完成语音交互。
所述语音交互方法包括:在对接收到完整的所述用户语音请求进行处理得到用户语音指令后,将完整的所述用户语音请求添加到所述前缀树。
如此,本发明的语音交互方法可以通过记录每天的语句来更新前缀树,保证前缀树的实时性。
所述语音交互方法包括:获取预设时间段内的历史用户语音请求;根据所述历史用户语音请求构建所述前缀树。
如此,可以根据预设时间段内的历史用户语音请求构建初始的前缀树,为后续查找前缀树进行补全用户语音请求奠定了基础。
所述语音交互方法包括:为所述前缀树中的所述用户语音请求设置遗忘时长;在所述前缀树中的所述用户语音请求未使用时长达到所述遗忘时长的情况下,在所述前缀树中删除对应的所述用户语音请求。
如此,设立了遗忘时长,将较长时间以前的历史语音请求从前缀树中除去,从而降低了存储成本,也保证了前缀树的实时性。
所述语音交互方法包括:统计所述历史用户语音请求的使用频次、请求长度和/或请求占比;根据所述使用频次、所述请求长度和/或所述请求占比确定所述前缀树中对应所述用户语音请求的权重。
如此,可以将较长时间以前的、使用频次不高的历史语音请求的权重降低,保证前缀树的实时性。
本发明还提供一种电子设备。所述电子设备包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述实施方式任一项所述的语音交互方法。
如此,本发明的电子设备应用语音交互方法对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关领的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述实施方式任一项所述的语音交互方法。
如此,本发明的存储介质应用语音交互方法对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关领的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本发明的语音交互方法的流程示意图;
图2是本发明的语音交互装置的结构示意图;
图3是本发明的语音交互方法的前缀树的结构示意图;
图4是现有的流式ASR技术框架的处理机制的流程示意图;
图5是本发明的语音交互方法的ASR技术框架的处理机制的流程示意图;
图6是本发明的语音交互方法的流程示意图;
图7是本发明的语音交互方法的流程示意图;
图8是本发明的语音交互方法的流程示意图;
图9是本发明的语音交互方法的流程示意图;
图10是本发明的语音交互装置的结构示意图;
图11是本发明的语音交互方法的流程示意图;
图12是本发明的语音交互装置的结构示意图;
图13是本发明的语音交互方法的流程示意图;
图14是本发明的语音交互方法的流程示意图;
图15是本发明的电子设备的结构示意图;
图16是本发明的计算机可读存储介质的结构示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,本发明提供了一种语音交互方法。语音交互方法包括:
01:获取用户语音数据以实时进行语音识别得到用户语音请求;
02:在未接收到完整的用户语音请求的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果;
03:对补全结果进行处理得到预测语音指令;
04:在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求相同,则根据预测语音指令完成语音交互。
请参阅图2,本发明还提供一种语音交互装置10。语音交互装置10包括:获取模块11、补全模块12、指令生成模块13和比较模块14。
步骤01可以由获取模块11实现,步骤02可以由补全模块12实现,步骤03可以由指令生成模块13实现,步骤04可以由比较模块14实现。也即是说,获取模块11用于获取用户语音数据以实时进行语音识别得到用户语音请求;补全模块12用于在未接收到完整的用户语音请求的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果;指令生成模块13用于对补全结果进行处理得到预测语音指令;比较模块14用于在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求相同,则根据预测语音指令完成语音交互。
具体地,请结合表1,个性化的用户语音请求可以分为两种,一种是封闭式的用户语音数据实时识别得到相应的用户语音请求如“打开车辆状态”。另一种是开放式的用户语音数据实时识别得到相应的用户语音请求,如“导航到益田假日广场”,开放性用户语音请求体现在槽位是开放式的。
表1
首先,先获取用户语音数据以实时进行语音识别得到用户语音请求,从而识别出满足上述条件的个性化的用户语音请求,满足对不同用户的个性化语音需求。其中,用户输入的语音请求是需要先获取用户语音数据,用户语音数据即为用户直接输入的音频流,然后对用户语音数据利用自动语音识别(Automatic Speech Recognition,ASR)技术进行实时语音识别得到的用户语音请求。可以理解地,自动语音识别(Automatic SpeechRecognition,ASR)技术目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
然后,在未接收到完整的用户语音请求的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果。也即是,在实时获取用户语音请求且未接收到完整的用户语音请求时,一旦识别到该不完整的用户语音请求符合上述任意一个方面的个性化用户语音请求,便可以在前缀树中寻找符合的语句进行补全得到补全结果,并可以对补全结果进行处理得到预测语音指令。
本发明的前缀树算法,简单易实现,通过树形结构,以每个语句前缀作为节点存储语句,搜索查找语句快捷、方便。前缀树可以为如图3所示,图3的前缀树中的节点为“日”和“歌”。
可以理解地,由于前缀树可以对实时获取的用户语音请求进行补全,也即是,本发明通过记录用户每天输入的语句对前缀树进行实时更新,可以保证前缀树的实时性。
在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求相同,则根据预测语音指令完成语音交互。也即是,当接收到完整用户语音请求时,可以将补全结果与完整的用户语音请求进行比对,若两者的语音请求的语句完全相同或语句若有偏差但两者所表达的意思一样,则可以认为补全结果与接收到完整的用户语音请求相同。
因此,在补全结果与接收到完整的用户语音请求相同时,可以直接根据预测语音指令完成语音交互,从而达到在用户正常说话时间内利用***用户意图,从时间层面上加快了语音交互进程,且预测语音指令生成速度快且准确度高的技术效果。
可以理解地,请参阅图4,当前的流式ASR技术框架的处理机制是逐帧识别用户传入的语音信息,并实时返回识别的结果,最后会有一段持续倾听的等待超时机制,尽可能保证用户话语的完整性。如图4所示,当前的流式ASR技术框架的处理机制的可利用的时间是用户语音请求获得的时间到ASR超时等待结束的这段原本应耗时间,而最大可抢跑的收益时间是NLU+DM+BOT的原语音请求应处理的时间。
请参阅图5,而本申请的语音交互方法在ASR返回完整句子前,基于前缀树对已获得的用户语音请求进行补全,提前发送到后续模块处理,可以有效减少对话***处理用户指令所需的总时长。也即是,本申请的语音交互方法使用完整度低的用户语音指令,准确预测用户的表达结果,预测的表达结果或用户完整语音请求的语义完全相同则视为预测正确,可以有效减少对话***处理用户指令所需的总时长。
如此,本发明的语音交互方法及装置能够对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关联的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
请参阅图6,步骤02包括:
021:通过数据分析确定补全条件;
022:在实时获取的用户语音请求满足补全条件的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果。
请结合图2,步骤021和步骤022可以由补全模块12实现。也即是说,补全模块12用于通过数据分析确定补全条件;在实时获取的用户语音请求满足补全条件的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果。
具体地,通过数据分析确定补全条件。补全条件可以为:已获取的字数范围达到2~10,则可以进行补全。该字数的范围是根据线上数据分析确定的范围。
在实时获取的用户语音请求满足补全条件的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果。也即是,在实时获取的用户语音请求的字数达到2个或3个、4个、5个、6个、7个、8个、9个或10个时,可以基于前缀树对该不完整的用户语音请求进行补全得到补全结果。
例如,请结合图3,当实时获取的用户语音请求的字数为2个,且用户语音请求为“日不”,则可以基于图3中的前缀树,对该用户语音请求进行补全得到补全结果为“日不落”。
如此,本发明的语音交互方法及装置能够对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关联的话语自动补全,从而得到补全结果,从而实现对不同用户的个性化话语均能进行识别的千人千面的技术效果。
请参阅图7,步骤022包括:
0221:在实时获取的用户语音请求满足补全条件的情况下,根据实时获取的用户语音请求确定用户语音请求的语音类型;
0222:根据语音类型选择对应的前缀树对实时获取的用户语音请求进行补全得到补全结果。
请结合图2,步骤0221和步骤0222可以由补全模块12实现。也即是说,补全模块12用于在实时获取的用户语音请求满足补全条件的情况下,根据实时获取的用户语音请求确定用户语音请求的语音类型;根据语音类型选择对应的前缀树对实时获取的用户语音请求进行补全得到补全结果。
具体地,用户语音请求的个性化的语音类型可以包括如下4类分别为导航类语音、音乐类语音、电话类语音和高频类语音。
上述4类语音类型的每个语音类型对应的语句前缀树的构成例如可以为:
导航类:我(要|想)(去|到)(周围的|周边的|身边的|附近的)(#POI#)。也即是,导航类的语句前缀可以为“我要”、“我想”、“我要去”、“我要到”、“我要去周围的”、“我要到周围的”、“我要去周边的”、“我要去身边的”、“我要去附近的”、“我要去周围的#POI#”。
音乐类:(我要听|我想听|播放|播|放|搜索)[一下|下|那个](slot value)[的]歌单。也即是,音乐类的语句前缀可以为“我要听”、“我想听”、“我要播放”、“我要播”、“我要放”、“我要搜索”、“我要听一下”、“我要听下”、“我要听那个”、“我要听一下slotvalue”、“我要听一下slotvalue的歌单”。
电话类:(帮我给|替我给|我想给|给)(#指定#)(门店|体验店)(打一个电话|打电话)。也即是,电话类的语句前缀可以为“帮我给”、“替我给”、“我想给”、“给#指定#门店”、“帮我给#指定#门店打一个电话”、“帮我给#指定#门店打电话”。
高频类:在一段时间内出现频率较高的语句中的前缀,例如,“第一个”,“打开空调”。
例如,当获取到用户语音数据实时语音识别得到用户语音请求为“我要听”,则可以根据该实时获取的用户语音请求“我要听”为音乐类型的语音类型。根据音乐类型选择对应的前缀树对实时获取的用户语音请求“我要听”进行自动补全得到补全结果可以为“我要听一下slotvalue的歌单”。
如此,本发明的语音交互方法可以根据实时获取的用户语音请求识别该用户语音请求属于哪一类个性化语音类型,从而根据所属语音类型对应的前缀树对该用户语音请求进行自动补全,能够实现对不同用户的个性化话语均能进行识别的千人千面的技术效果。
请参阅图8,语音交互方法包括:
05:在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求不相同,对接收到完整的用户语音请求进行处理得到用户语音指令;
06:根据用户语音指令完成语音交互。
请结合图2,步骤05和06可以由比较模块14实现。也即是说,比较模块14用于在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求不相同,对接收到完整的用户语音请求进行处理得到用户语音指令;根据用户语音指令完成语音交互。
具体地,在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求不相同,则对接收到完整的用户语音请求进行处理得到用户语音指令,并根据该用户语音指令完成语音交互,也即是,但根据目前的前缀树获得的补全结果与接收到的完整的用户语音请求的内容不相同或表达的意思不一致,则此时,可以根据接收到的完整的用户语音请求处理得到用户语音指令,然后根据用户语音指令完成语音交互。
如此,可以确认补全结果是否为与完整的用户语音请求相同的结果,不相同则可以直接根据接收到的完整的用户语音请求生成用户语音指令并完成语音交互。
请参阅图9,语音交互方法包括:
07:在对接收到完整的用户语音请求进行处理得到用户语音指令后,将完整的用户语音请求添加到前缀树。
请参阅图10,语音交互装置10还包括更新模块17。
步骤07可以由更新模块17实现。也即是说,更新模块17用于在对接收到完整的用户语音请求进行处理得到用户语音指令后,将完整的用户语音请求添加到前缀树。
具体地,当接收到完整的用户语音请求,且该完整的用户语音请求与补全结果不相同,在对接收到完整的用户语音请求进行处理得到用户语音指令后,可以将完整的用户语音请求添加到前缀树中,从而实现对前缀树的实时更新。
如此,本发明的语音交互方法可以通过记录每天的语句来更新前缀树,保证前缀树的实时性。
请参阅图11,语音交互方法包括:
001:获取预设时间段内的历史用户语音请求;
002:根据历史用户语音请求构建前缀树。
请参阅图12,语音交互装置10包括前缀树构建模块111。
步骤001和步骤002可以由前缀树构建模块111实现。也即是说,前缀树构建模块111用于获取预设时间段内的历史用户语音请求;根据历史用户语音请求构建前缀树。其中,步骤001和步骤002可以在步骤01或步骤02之前发生,在此不作限制。
具体地,首先,可以按天(或其他时间单位)记录历史用户语音请求。然后,获取预设时间段内的历史用户语音请求,预设时间段可以为在当前时间的前7天~30天的时间段范围,即获取前7-30天历史用户语音请求,可以保证用户语音请求构建的前缀树的实时性。
因此,可以根据前7-30天历史用户语音请求作为基础,通过策略匹配记录每个人在四个类型的历史语音请求(音乐、导航、电话、高频),进而分别构建初始的前缀树。
如此,可以根据预设时间段内的历史用户语音请求构建初始的前缀树,为后续查找前缀树进行补全用户语音请求奠定了基础。
请参阅图13,语音交互方法包括:
003:为前缀树中的用户语音请求设置遗忘时长;
004:在前缀树中的用户语音请求未使用时长达到遗忘时长的情况下,在前缀树中删除对应的用户语音请求。
请参阅图12,步骤003和步骤004可以由前缀树构建模块111实现。也即是说,前缀树构建模块111用于为前缀树中的用户语音请求设置遗忘时长;在前缀树中的用户语音请求未使用时长达到遗忘时长的情况下,在前缀树中删除对应的用户语音请求。步骤003和步骤004可以步骤01或步骤02之前且在步骤002之后发生。
具体地,遗忘时长例如可以为24h、48h、3天、5天、7天、10天、11天、12天或30天,在此不作限制。遗忘时长可以根据用户需求用户自行设定。
如此,设立了遗忘时长,将较长时间以前的历史语音请求从前缀树中除去,从而降低了存储成本,也保证了前缀树的实时性。
请参阅图14,语音交互方法包括:
005:统计历史用户语音请求的使用频次、请求长度和/或请求占比;
006:根据使用频次、请求长度和/或请求占比确定前缀树中对应用户语音请求的权重。
请参阅图12,步骤005和步骤006可以由前缀树构建模块111实现。也即是说,前缀树构建模块111用于统计历史用户语音请求的使用频次、请求长度和/或请求占比;根据使用频次、请求长度和/或请求占比确定前缀树中对应用户语音请求的权重。步骤005和步骤006可以步骤01或步骤02之前且在步骤002之后发生。
具体地,统计历史用户语音请求的使用频次、请求长度和/或请求占比,并根据使用频次、请求长度和/或请求占比确定前缀树中对应用户语音请求的权重。即,可以统计用户语音请求的使用频次、用户语音请求的请求长度或用户语音请求的请求占比中的其中一个或多个确定前缀树中对应用户语音请求的权重。
换言之,可以利用历史语音请求的统计信息如频次、长度、占比等可以对用户语音请求的顺序进行重排或改变用户语音请求的权重。
如此,可以将较长时间以前的、使用频次不高的历史语音请求的权重降低,保证前缀树的实时性。
请参阅图15,本发明还提供一种电子设备30。电子设备30包括处理器31和存储器32,存储器32上存储有计算机程序321,当计算机程序321被处理器31执行时,实现上述任意实施例所述的语音交互方法。电子设备30包括但不限于车辆、手机、ipad等设备,在此不作限制。
如此,本发明的电子设备30应用语音交互方法对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关领的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
请参阅图16,本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质40。当计算机程序41被一个或多个处理器50执行时,实现上述任意实施例所述的语音交互方法。
例如,计算机程序41被处理器50执行时实现以下语音交互方法的步骤:
01:获取用户语音数据以实时进行语音识别得到用户语音请求;
02:在未接收到完整的用户语音请求的情况下,基于前缀树对实时获取的用户语音请求进行补全得到补全结果;
03:对补全结果进行处理得到预测语音指令;
04:在接收到完整的用户语音请求后,若补全结果与接收到完整的用户语音请求相同,则根据预测语音指令完成语音交互。
可以理解,计算机程序41包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本发明的计算机可读存储介质40应用语音交互方法对接收到的不完整的用户语音请求基于前缀树构建与个人紧密关联的指令预测,实现与个人强相关领的话语自动补全,实现对不同人的个性化话语均能进行识别的千人千面的技术效果,且方案可操控性强,所需设备要求低,易于实现。
Claims (10)
1.一种语音交互方法,其特征在于,包括:
获取用户语音数据以实时进行语音识别得到用户语音请求;
在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果;
对所述补全结果进行处理得到预测语音指令;
在接收到完整的所述用户语音请求后,若所述补全结果与接收到完整的所述用户语音请求相同,则根据所述预测语音指令完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果,包括:
通过数据分析确定补全条件;
在实时获取的所述用户语音请求满足所述补全条件的情况下,基于所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果。
3.根据权利要求2所述的语音交互方法,其特征在于,所述在实时获取的所述用户语音请求满足所述补全条件的情况下,基于所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果,包括:
在实时获取的所述用户语音请求满足所述补全条件的情况下,根据实时获取的所述用户语音请求确定所述用户语音请求的语音类型;
根据所述语音类型选择对应的所述前缀树对实时获取的所述用户语音请求进行补全得到所述补全结果。
4.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
在接收到完整的所述用户语音请求后,若所述补全结果与接收到完整的所述用户语音请求不相同,对接收到完整的所述用户语音请求进行处理得到用户语音指令;
根据所述用户语音指令完成语音交互。
5.根据权利要求4所述的语音交互方法,其特征在于,所述语音交互方法包括:
在对接收到完整的所述用户语音请求进行处理得到用户语音指令后,将完整的所述用户语音请求添加到所述前缀树。
6.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:
获取预设时间段内的历史用户语音请求;
根据所述历史用户语音请求构建所述前缀树。
7.根据权利要求6所述的语音交互方法,其特征在于,所述语音交互方法包括:
为所述前缀树中的所述用户语音请求设置遗忘时长;
在所述前缀树中的所述用户语音请求未使用时长达到所述遗忘时长的情况下,在所述前缀树中删除对应的所述用户语音请求。
8.根据权利要求6所述的语音交互方法,其特征在于,所述语音交互方法包括:
统计所述历史用户语音请求的使用频次、请求长度和/或请求占比;
根据所述使用频次、所述请求长度和/或所述请求占比确定所述前缀树中对应所述用户语音请求的权重。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-8任一项所述的语音交互方法。
10.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-8任一项所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378062.0A CN114822532A (zh) | 2022-04-12 | 2022-04-12 | 语音交互方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210378062.0A CN114822532A (zh) | 2022-04-12 | 2022-04-12 | 语音交互方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114822532A true CN114822532A (zh) | 2022-07-29 |
Family
ID=82533855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210378062.0A Pending CN114822532A (zh) | 2022-04-12 | 2022-04-12 | 语音交互方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114822532A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083413A (zh) * | 2022-08-17 | 2022-09-20 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN116110396A (zh) * | 2023-04-07 | 2023-05-12 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357911A (zh) * | 2017-07-18 | 2017-11-17 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
US20200042613A1 (en) * | 2018-08-03 | 2020-02-06 | Asapp, Inc. | Processing an incomplete message with a neural network to generate suggested messages |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113342848A (zh) * | 2021-05-25 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 信息搜索方法、装置、终端设备及计算机可读存储介质 |
CN113571064A (zh) * | 2021-07-07 | 2021-10-29 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
CN113625884A (zh) * | 2020-05-07 | 2021-11-09 | 顺丰科技有限公司 | 一种输入词推荐方法、装置、服务器及存储介质 |
CN113779176A (zh) * | 2020-12-14 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 查询请求补全方法、装置、电子设备和存储介质 |
CN113792659A (zh) * | 2021-09-15 | 2021-12-14 | 上海金仕达软件科技有限公司 | 文档识别方法、装置及电子设备 |
CN113946719A (zh) * | 2020-07-15 | 2022-01-18 | 华为技术有限公司 | 词补全方法和装置 |
CN114171016A (zh) * | 2021-11-12 | 2022-03-11 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-12 CN CN202210378062.0A patent/CN114822532A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357911A (zh) * | 2017-07-18 | 2017-11-17 | 北京新美互通科技有限公司 | 一种文本输入方法及装置 |
US20200042613A1 (en) * | 2018-08-03 | 2020-02-06 | Asapp, Inc. | Processing an incomplete message with a neural network to generate suggested messages |
CN109740165A (zh) * | 2019-01-09 | 2019-05-10 | 网易(杭州)网络有限公司 | 字典树构建方法、语句搜索方法、装置、设备及存储介质 |
CN113625884A (zh) * | 2020-05-07 | 2021-11-09 | 顺丰科技有限公司 | 一种输入词推荐方法、装置、服务器及存储介质 |
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113946719A (zh) * | 2020-07-15 | 2022-01-18 | 华为技术有限公司 | 词补全方法和装置 |
CN113779176A (zh) * | 2020-12-14 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 查询请求补全方法、装置、电子设备和存储介质 |
CN113342848A (zh) * | 2021-05-25 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 信息搜索方法、装置、终端设备及计算机可读存储介质 |
CN113571064A (zh) * | 2021-07-07 | 2021-10-29 | 肇庆小鹏新能源投资有限公司 | 自然语言理解方法及装置、交通工具及介质 |
CN113792659A (zh) * | 2021-09-15 | 2021-12-14 | 上海金仕达软件科技有限公司 | 文档识别方法、装置及电子设备 |
CN114171016A (zh) * | 2021-11-12 | 2022-03-11 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083413A (zh) * | 2022-08-17 | 2022-09-20 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN115083413B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN116110396A (zh) * | 2023-04-07 | 2023-05-12 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116110396B (zh) * | 2023-04-07 | 2023-08-29 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
US11676575B2 (en) | On-device learning in a hybrid speech processing system | |
CN109616108B (zh) | 多轮对话交互处理方法、装置、电子设备及存储介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
US9190055B1 (en) | Named entity recognition with personalized models | |
CN109243468B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
JP7300435B2 (ja) | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 | |
CN111199732B (zh) | 一种基于情感的语音交互方法、存储介质及终端设备 | |
CN109741735B (zh) | 一种建模方法、声学模型的获取方法和装置 | |
US10049656B1 (en) | Generation of predictive natural language processing models | |
CN114822532A (zh) | 语音交互方法、电子设备和存储介质 | |
WO2020119432A1 (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN108538294B (zh) | 一种语音交互方法及装置 | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
US11200885B1 (en) | Goal-oriented dialog system | |
US20200265843A1 (en) | Speech broadcast method, device and terminal | |
CN114822533B (zh) | 语音交互方法、模型训练方法、电子设备和存储介质 | |
US20170018268A1 (en) | Systems and methods for updating a language model based on user input | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
Wu et al. | A probabilistic framework for representing dialog systems and entropy-based dialog management through dynamic stochastic state evolution | |
CN114550718A (zh) | 热词语音识别方法、装置、设备与计算机可读存储介质 | |
US20240185846A1 (en) | Multi-session context | |
US10140981B1 (en) | Dynamic arc weights in speech recognition models | |
US11996081B2 (en) | Visual responses to user inputs | |
CN111063337A (zh) | 可快速更新语言模型的大规模语音识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220729 |
|
RJ01 | Rejection of invention patent application after publication |