CN117594045A - 一种基于语音的虚拟人物模型控制方法及*** - Google Patents
一种基于语音的虚拟人物模型控制方法及*** Download PDFInfo
- Publication number
- CN117594045A CN117594045A CN202410072641.1A CN202410072641A CN117594045A CN 117594045 A CN117594045 A CN 117594045A CN 202410072641 A CN202410072641 A CN 202410072641A CN 117594045 A CN117594045 A CN 117594045A
- Authority
- CN
- China
- Prior art keywords
- character string
- control
- original
- real time
- original character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000000875 corresponding effect Effects 0.000 claims abstract description 108
- 238000010223 real-time analysis Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于语音的虚拟人物模型控制方法及***,该方法包括:当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与语音指令对应的原始字符串;对原始字符串进行实时解析处理,以检测出与用户对应的控制结果,并根据控制结果判断是否对原始字符串进行修改;若根据控制结果判断到不对原始字符串进行修改,则将原始字符串转换成对应的控制代码,并基于控制代码生成对应的控制指令,以使虚拟人物模型根据控制指令执行对应的动作。本发明能够使虚拟人物模型执行准确的动作,对应提升了用户的使用体验。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于语音的虚拟人物模型控制方法及***。
背景技术
随着时代的发展以及科技的进步,人们已经能够研发出不同的虚拟人物模型,并且已经将虚拟人物模型应用在不同的领域,以对应提升人们的工作效率。
其中,人们已经能够通过现有技术将研发出的虚拟人物模型适用于不同的工作场景,以使虚拟人物模型完成对应的工作,对应提升人们的生产力。
进一步的,现有技术在控制虚拟人物模型的过程中,大部分通过手动或者语音的方式对虚拟人物模型进行对应的控制,然而,在实际手动控制的过程中,操作过程较为繁琐,导致控制所需耗费的时间较长,另外,现有技术在语音控制的过程中,由于现有的同音字以及同音词较多,导致会出现现有的虚拟人物模型根据用户输入的语音指令执行错误的动作,对应降低了工作效率,同时也降低了用户的使用体验。
发明内容
基于此,本发明的目的是提供一种基于语音的虚拟人物模型控制方法及***,以解决现有技术会出现虚拟人物模型根据用户输入的语音指令执行错误的动作,导致降低了工作效率的问题。
本发明实施例第一方面提出了:
一种基于语音的虚拟人物模型控制方法,其中,所述方法包括:
当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作。
本发明的有益效果是:通过实时接收用户输入的语音指令,与此同时,为了便于后续的控制,需要将实时生成与当前语音指令适配的原始字符串。进一步的,对当前原始字符串进行解析处理,并对应解析出与当前语音指令适配的控制结果,即当前用户发布当前语音指令的目的。基于此,实时根据当前控制结果判断是否需要对当前用户的语音指令进行修改。具体的,若否,则可以直接将当前原始字符串转换成对应的控制指令,并下发至对应的虚拟人物模型,从而能够使当前虚拟人物模型准确的执行对应的动作,进而能够有效的防止出现执行错误动作的现象,提升了工作效率,也提升了用户的使用体验。
进一步的,所述对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果的步骤包括:
当实时获取到所述原始字符串时,实时检测出所述原始字符串中包含的原始语句,所述原始语句为一个或者多个;
对所述原始语句进行正向最大步长分词处理,并实时判断所述原始语句中是否出现预设关键词:
若实时判断到所述原始语句中出现所述预设关键词,则根据所述预设关键词在预设控制数据表中匹配出对应的目标控制结果。
进一步的,所述根据所述控制结果判断是否对所述原始字符串进行修改的步骤包括:
当获取到所述目标控制结果时,调出预设控制流程表,并根据所述目标控制结果在所述预设控制流程表中匹配出对应的控制流程代码;
将所述控制流程代码转换成对应的目标字符串,并实时判断所述目标字符串与所述原始字符串是否相同;
若实时判断到所述目标字符串与所述原始字符串相同,则不对所述原始字符串进行修改;
若实时判断到所述目标字符串与所述原始字符串不相同,则将所述原始字符串替换成所述目标字符串,所述目标字符串具有唯一性。
进一步的,所述若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码的步骤包括:
若实时判断到不对所述原始字符串进行修改,将所述原始字符串拆分成若干对应的最小字符单元,所述最小字符单元包括文字以及符号;
在预设算法数据库中调出ETL算法,并将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码。
进一步的,所述将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码的步骤包括:
当实时获取到若干所述最小字符单元时,基于预设规则对每一所述最小字符单元分别添加对应的目标标识,并基于所述目标标识将每一所述最小字符单元依次输入至所述编码层中的Transformer编码网络中;
通过所述Transformer编码网络将每一所述最小字符单元转换成对应的若干属性值,并通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码。
进一步的,所述通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码的步骤包括:
当获取到若干所述属性值时,对若干所述属性值进行预处理,以生成若干对应的标准属性值,并将若干所述标准属性值输入至所述解析层的解析网络中;
通过所述解析网络将每一所述标准属性值逐一转换成对应的序列代码,并将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码。
进一步的,所述将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码的步骤包括:
当实时获取到若干所述序列代码时,实时检测出每一所述序列代码的起始节点以及终止节点,并通过所述输出层对若干所述序列代码进行排序,以生成对应的目标序列;
根据所述目标序列以及所述输出层中的DTW算法对若干所述序列代码进行拼接处理,以对应输出所述控制代码。
本发明实施例第二方面提出了:
一种基于语音的虚拟人物模型控制***,其中,所述***包括:
接收模块,用于当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
判断模块,用于对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
执行模块,用于若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作。
进一步的,所述判断模块具体用于:
当实时获取到所述原始字符串时,实时检测出所述原始字符串中包含的原始语句,所述原始语句为一个或者多个;
对所述原始语句进行正向最大步长分词处理,并实时判断所述原始语句中是否出现预设关键词:
若实时判断到所述原始语句中出现所述预设关键词,则根据所述预设关键词在预设控制数据表中匹配出对应的目标控制结果。
进一步的,所述判断模块还具体用于:
当获取到所述目标控制结果时,调出预设控制流程表,并根据所述目标控制结果在所述预设控制流程表中匹配出对应的控制流程代码;
将所述控制流程代码转换成对应的目标字符串,并实时判断所述目标字符串与所述原始字符串是否相同;
若实时判断到所述目标字符串与所述原始字符串相同,则不对所述原始字符串进行修改;
若实时判断到所述目标字符串与所述原始字符串不相同,则将所述原始字符串替换成所述目标字符串,所述目标字符串具有唯一性。
进一步的,所述执行模块具体用于:
若实时判断到不对所述原始字符串进行修改,将所述原始字符串拆分成若干对应的最小字符单元,所述最小字符单元包括文字以及符号;
在预设算法数据库中调出ETL算法,并将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码。
进一步的,所述执行模块具体用于:
当实时获取到若干所述最小字符单元时,基于预设规则对每一所述最小字符单元分别添加对应的目标标识,并基于所述目标标识将每一所述最小字符单元依次输入至所述编码层中的Transformer编码网络中;
通过所述Transformer编码网络将每一所述最小字符单元转换成对应的若干属性值,并通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码。
进一步的,所述执行模块还具体用于:
当获取到若干所述属性值时,对若干所述属性值进行预处理,以生成若干对应的标准属性值,并将若干所述标准属性值输入至所述解析层的解析网络中;
通过所述解析网络将每一所述标准属性值逐一转换成对应的序列代码,并将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码。
进一步的,所述执行模块还具体用于:
当实时获取到若干所述序列代码时,实时检测出每一所述序列代码的起始节点以及终止节点,并通过所述输出层对若干所述序列代码进行排序,以生成对应的目标序列;
根据所述目标序列以及所述输出层中的DTW算法对若干所述序列代码进行拼接处理,以对应输出所述控制代码。
本发明实施例第三方面提出了:
一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上面所述的基于语音的虚拟人物模型控制方法。
本发明实施例第四方面提出了:
一种可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上面所述的基于语音的虚拟人物模型控制方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的基于语音的虚拟人物模型控制方法的流程图;
图2为本发明第六实施例提供的基于语音的虚拟人物模型控制***的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例提供的基于语音的虚拟人物模型控制方法,本实施例提供的基于语音的虚拟人物模型控制方法能够使虚拟人物模型准确的执行对应的动作,从而能够有效的防止出现执行错误动作的现象,提升了工作效率,也提升了用户的使用体验。
具体的,本实施例提供了:
一种基于语音的虚拟人物模型控制方法,具体包括以下步骤:
步骤S10,当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
步骤S20,对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
步骤S30,若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作。
具体的,在本实施例中,首先需要说明的是,现有的虚拟人物模型都应用在特征的场景中,例如新闻的播报以及赛事的解说等。其中,在虚拟人物模型工作的过程中,当遇到特殊情况时,需要实时根据接收到的语音指令执行对应的动作。基于此,当设置在后台的服务器实时接收到用户输入的语音指令时,由于该语音指令中会包含一定的文字信息,从而能够实时生成与当前语音指令对应的原始字符串,但是,又因为现有的同音字以及同音词较多,从而生成的原始字符串可能会出现一定的错误,基于此,需要对实时生成的原始字符串进行检测,即进行对应的解析处理,以实时判断当前原始字符串是否能够进一步使用。
进一步的,在对实时生成的原始字符串进行解析后,能够对应检测出与当前用户所发出的语音指令对应的控制结果,即当前用户的目的。基于此,就能够进一步根据当前控制结果实时判断是否对当前原始字符串进行修改。具体的,若否,则说明实时生成的原始字符串可以直接使用,并进一步根据当前原始字符串生成需要的控制代码,该控制代码是一种计算机代码,并且能够进一步根据当前控制代码生成需要的控制指令,最后,只需将当前控制指令对应输入至上述虚拟人物模型的内部,就能够使当前虚拟人物模型执行对应的动作,以提升了工作效率,同时提升了用户的使用体验。
第二实施例
进一步的,所述对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果的步骤包括:
当实时获取到所述原始字符串时,实时检测出所述原始字符串中包含的原始语句,所述原始语句为一个或者多个;
对所述原始语句进行正向最大步长分词处理,并实时判断所述原始语句中是否出现预设关键词:
若实时判断到所述原始语句中出现所述预设关键词,则根据所述预设关键词在预设控制数据表中匹配出对应的目标控制结果。
具体的,在本实施例中,需要说明的是,在实时获取到需要的原始字符串之后,为了能够对应准确的了解到当前用户所需的控制结果,以实现后续精准的控制。具体的,需要首先检测出当前原始字符串中所包含的原始语句,与此同时,对当前原始语句进行正向最大步长分词处理,就能够对应将当前原始语句拆分成若干个字词,基于此,就能够实时判断当前原始语句中是否出现需要的预先关键词。
进一步的,若是,则能够直接根据当前预设关键词在预先设置好的控制数据表中匹配出对应的目标控制结果,对应的,若否,则说明当前原始语句没有起到判断的作用,从而可以忽略当前原始语句,并进一步检测下一个原始语句,直至匹配出需要的目标控制结果。
进一步的,所述根据所述控制结果判断是否对所述原始字符串进行修改的步骤包括:
当获取到所述目标控制结果时,调出预设控制流程表,并根据所述目标控制结果在所述预设控制流程表中匹配出对应的控制流程代码;
将所述控制流程代码转换成对应的目标字符串,并实时判断所述目标字符串与所述原始字符串是否相同;
若实时判断到所述目标字符串与所述原始字符串相同,则不对所述原始字符串进行修改;
若实时判断到所述目标字符串与所述原始字符串不相同,则将所述原始字符串替换成所述目标字符串,所述目标字符串具有唯一性。
具体的,在本实施例中,还需要说明的是,在通过上述步骤获取到当前用户所需的目标控制结果之后,为了能够使上述虚拟人物模型能够准确的执行与当前目标控制结果适配的目标动作,具体的,需要进一步调出预先设置好的控制流程表,与此同时,实时根据获取到的目标控制结果在当前预设控制流程表中匹配出对应的控制流程代码,同理,该控制流程代码也是一种计算机代码,并且能够进一步将当前控制流程代码转换成对应的目标字符串,即标准的控制指令所对应的字符串。基于此,进一步实时判断当前目标字符串是否与当前原始字符串相同,具体的,若是,则说明上述原始字符串不需要修改,对应的,若否,则需要将当前原始字符串对应修改成当前目标字符串,以进一步生成与用户的需求适配的控制指令,以便于后续的处理。
第三实施例
进一步的,所述若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码的步骤包括:
若实时判断到不对所述原始字符串进行修改,将所述原始字符串拆分成若干对应的最小字符单元,所述最小字符单元包括文字以及符号;
在预设算法数据库中调出ETL算法,并将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码。
另外,在本实施例中,需要说明的是,若实时判断到不需要对原始字符串进行修改,从而能够直接基于当前原始字符串生成后续的控制指令。具体的,需要进一步将当前原始字符串拆分成若干对应的最小字符单元,具体的,该最小字符单元可以是符号也可以是文字。
进一步的,在预先设置好的算法数据库中调出现有的ETL(Extract TransformerLoad)算法,与此同时,只需要将实时获取到的若干最小字符单元输入至当前ETL算法的编码层、解析层以及输出层中,就能够进一步输出需要的控制代码。
进一步的,所述将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码的步骤包括:
当实时获取到若干所述最小字符单元时,基于预设规则对每一所述最小字符单元分别添加对应的目标标识,并基于所述目标标识将每一所述最小字符单元依次输入至所述编码层中的Transformer编码网络中;
通过所述Transformer编码网络将每一所述最小字符单元转换成对应的若干属性值,并通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码。
另外,在本实施例中,还需要说明的是,在通过上述步骤实时获取到若干需要的最小字符单元之后,进一步的,实时按照当前若干最小字符单元出现的先后顺序对每个最小字符单元添加对应的目标标识,具体的,可以用数字或者字母作为目标标识。进一步的,根据当前目标标识的先后顺序将每个最小字符单元依次输入至上述编码层的Transformer编码网络中,就能够进一步编码出与每个最小字符单元适配的属性值,基于此,根据当前若干属性值、解析层以及输出层能够最终获取到需要的控制代码。
第四实施例
进一步的,所述通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码的步骤包括:
当获取到若干所述属性值时,对若干所述属性值进行预处理,以生成若干对应的标准属性值,并将若干所述标准属性值输入至所述解析层的解析网络中;
通过所述解析网络将每一所述标准属性值逐一转换成对应的序列代码,并将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码。
其中,在本实施例中,需要指出的是,在通过上述步骤实时获取到需要的若干属性值之后,由于每个属性值的格式参差不齐,为了便于提升数据的处理效率,此时还可以进一步对当前若干属性值依次进行滤波以及降噪处理,并能够对应生成若干需要的标准属性值。进一步的,只需要将当前若干标准属性值依次输入至上述解析层的解析网络中,与此同时,该解析网络内部设置好的解析算法能够同步将当前每个标准属性值分别转换成对应的序列代码,并进一步将当前序列代码输入至上述输出层中,以最终输出需要的控制代码。
第五实施例
进一步的,所述将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码的步骤包括:
当实时获取到若干所述序列代码时,实时检测出每一所述序列代码的起始节点以及终止节点,并通过所述输出层对若干所述序列代码进行排序,以生成对应的目标序列;
根据所述目标序列以及所述输出层中的DTW算法对若干所述序列代码进行拼接处理,以对应输出所述控制代码。
其中,在本实施例中,需要指出的是,在通过上述步骤分别获取到若干序列代码之后,由于当前若干序列代码均为单独的个体,而单独的个体并不能发挥对应的控制效果。基于此,还需要实时对当前若干序列代码进行拼接处理,即连接为一个整体,并基于整体生成后续的控制代码。
进一步的,为了便于拼接,需要实时检测出与每个序列代码对应的起始节点以及终止节点,与此同时,实时根据每个序列代码产生的先后顺序对当前若干序列代码进行对应的排序,并能够生成一个对应的目标序列。基于此,将当前若干序列代码以及对应的目标序列同时输入至上述输出层中预先设置好的DTW(动态规整)算法中,从而进一步通过当前DTW算法对当前若干序列代码进行拼接处理,并最终输出需要的控制代码。
请参阅图2,本发明第六实施例提供了:
一种基于语音的虚拟人物模型控制***,其中,所述***包括:
接收模块,用于当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
判断模块,用于对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
执行模块,用于若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作。
进一步的,所述判断模块具体用于:
当实时获取到所述原始字符串时,实时检测出所述原始字符串中包含的原始语句,所述原始语句为一个或者多个;
对所述原始语句进行正向最大步长分词处理,并实时判断所述原始语句中是否出现预设关键词:
若实时判断到所述原始语句中出现所述预设关键词,则根据所述预设关键词在预设控制数据表中匹配出对应的目标控制结果。
进一步的,所述判断模块还具体用于:
当获取到所述目标控制结果时,调出预设控制流程表,并根据所述目标控制结果在所述预设控制流程表中匹配出对应的控制流程代码;
将所述控制流程代码转换成对应的目标字符串,并实时判断所述目标字符串与所述原始字符串是否相同;
若实时判断到所述目标字符串与所述原始字符串相同,则不对所述原始字符串进行修改;
若实时判断到所述目标字符串与所述原始字符串不相同,则将所述原始字符串替换成所述目标字符串,所述目标字符串具有唯一性。
进一步的,所述执行模块具体用于:
若实时判断到不对所述原始字符串进行修改,将所述原始字符串拆分成若干对应的最小字符单元,所述最小字符单元包括文字以及符号;
在预设算法数据库中调出ETL算法,并将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码。
进一步的,所述执行模块具体用于:
当实时获取到若干所述最小字符单元时,基于预设规则对每一所述最小字符单元分别添加对应的目标标识,并基于所述目标标识将每一所述最小字符单元依次输入至所述编码层中的Transformer编码网络中;
通过所述Transformer编码网络将每一所述最小字符单元转换成对应的若干属性值,并通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码。
进一步的,所述执行模块还具体用于:
当获取到若干所述属性值时,对若干所述属性值进行预处理,以生成若干对应的标准属性值,并将若干所述标准属性值输入至所述解析层的解析网络中;
通过所述解析网络将每一所述标准属性值逐一转换成对应的序列代码,并将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码。
进一步的,所述执行模块还具体用于:
当实时获取到若干所述序列代码时,实时检测出每一所述序列代码的起始节点以及终止节点,并通过所述输出层对若干所述序列代码进行排序,以生成对应的目标序列;
根据所述目标序列以及所述输出层中的DTW算法对若干所述序列代码进行拼接处理,以对应输出所述控制代码。
本发明第七实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上面所述的基于语音的虚拟人物模型控制方法。
本发明第八实施例提供了一种可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上面所述的基于语音的虚拟人物模型控制方法。
综上所述,本发明上述实施例提供的基于语音的虚拟人物模型控制方法及***能够使虚拟人物模型准确的执行对应的动作,从而能够有效的防止出现执行错误动作的现象,提升了工作效率,也提升了用户的使用体验。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于语音的虚拟人物模型控制方法,其特征在于,所述方法包括:
当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作;
所述若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码的步骤包括:
若实时判断到不对所述原始字符串进行修改,将所述原始字符串拆分成若干对应的最小字符单元,所述最小字符单元包括文字以及符号;
在预设算法数据库中调出ETL算法,并将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码;
所述将若干所述最小字符单元依次输入至所述ETL算法的编码层、解析层以及输出层中,以对应生成所述控制代码的步骤包括:
当实时获取到若干所述最小字符单元时,基于预设规则对每一所述最小字符单元分别添加对应的目标标识,并基于所述目标标识将每一所述最小字符单元依次输入至所述编码层中的Transformer编码网络中;
通过所述Transformer编码网络将每一所述最小字符单元转换成对应的若干属性值,并通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码。
2.根据权利要求1所述的基于语音的虚拟人物模型控制方法,其特征在于:所述对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果的步骤包括:
当实时获取到所述原始字符串时,实时检测出所述原始字符串中包含的原始语句,所述原始语句为一个或者多个;
对所述原始语句进行正向最大步长分词处理,并实时判断所述原始语句中是否出现预设关键词:
若实时判断到所述原始语句中出现所述预设关键词,则根据所述预设关键词在预设控制数据表中匹配出对应的目标控制结果。
3.根据权利要求2所述的基于语音的虚拟人物模型控制方法,其特征在于:所述根据所述控制结果判断是否对所述原始字符串进行修改的步骤包括:
当获取到所述目标控制结果时,调出预设控制流程表,并根据所述目标控制结果在所述预设控制流程表中匹配出对应的控制流程代码;
将所述控制流程代码转换成对应的目标字符串,并实时判断所述目标字符串与所述原始字符串是否相同;
若实时判断到所述目标字符串与所述原始字符串相同,则不对所述原始字符串进行修改;
若实时判断到所述目标字符串与所述原始字符串不相同,则将所述原始字符串替换成所述目标字符串,所述目标字符串具有唯一性。
4.根据权利要求1所述的基于语音的虚拟人物模型控制方法,其特征在于:所述通过若干所述属性值、所述解析层以及所述输出层对应生成所述控制代码的步骤包括:
当获取到若干所述属性值时,对若干所述属性值进行预处理,以生成若干对应的标准属性值,并将若干所述标准属性值输入至所述解析层的解析网络中;
通过所述解析网络将每一所述标准属性值逐一转换成对应的序列代码,并将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码。
5.根据权利要求4所述的基于语音的虚拟人物模型控制方法,其特征在于:所述将每一所述序列代码输入至所述输出层中,以对应输出所述控制代码的步骤包括:
当实时获取到若干所述序列代码时,实时检测出每一所述序列代码的起始节点以及终止节点,并通过所述输出层对若干所述序列代码进行排序,以生成对应的目标序列;
根据所述目标序列以及所述输出层中的DTW算法对若干所述序列代码进行拼接处理,以对应输出所述控制代码。
6.一种基于语音的虚拟人物模型控制***,其特征在于,用于实现如权利要求1至5中任意一项所述的基于语音的虚拟人物模型控制方法,所述***包括:
接收模块,用于当检测到虚拟人物模型工作时,实时接收用户输入的语音指令,并实时生成与所述语音指令对应的原始字符串;
判断模块,用于对所述原始字符串进行实时解析处理,以检测出与所述用户对应的控制结果,并根据所述控制结果判断是否对所述原始字符串进行修改;
执行模块,用于若根据所述控制结果判断到不对所述原始字符串进行修改,则将所述原始字符串转换成对应的控制代码,并基于所述控制代码生成对应的控制指令,以使所述虚拟人物模型根据所述控制指令执行对应的动作。
7.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的基于语音的虚拟人物模型控制方法。
8.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任意一项所述的基于语音的虚拟人物模型控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410072641.1A CN117594045A (zh) | 2024-01-18 | 2024-01-18 | 一种基于语音的虚拟人物模型控制方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410072641.1A CN117594045A (zh) | 2024-01-18 | 2024-01-18 | 一种基于语音的虚拟人物模型控制方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117594045A true CN117594045A (zh) | 2024-02-23 |
Family
ID=89920429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410072641.1A Pending CN117594045A (zh) | 2024-01-18 | 2024-01-18 | 一种基于语音的虚拟人物模型控制方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117594045A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239547A (zh) * | 2017-06-05 | 2017-10-10 | 北京智能管家科技有限公司 | 用于语音点歌的语音纠错方法、终端及存储介质 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111833849A (zh) * | 2020-03-10 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 语音识别和语音模型训练的方法及存储介质和电子设备 |
CN111862977A (zh) * | 2020-07-27 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音对话处理方法和*** |
CN112487157A (zh) * | 2019-09-12 | 2021-03-12 | 甲骨文国际公司 | 用于聊天机器人的基于模板的意图分类 |
CN112802467A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 语音识别方法及装置 |
CN113515586A (zh) * | 2021-04-16 | 2021-10-19 | 阿里巴巴新加坡控股有限公司 | 数据处理方法及装置 |
GB202203733D0 (en) * | 2022-03-17 | 2022-05-04 | Samsung Electronics Co Ltd | Patched multi-condition training for robust speech recognition |
CN117234341A (zh) * | 2023-11-15 | 2023-12-15 | 中影年年(北京)文化传媒有限公司 | 基于人工智能的虚拟现实人机交互方法及*** |
-
2024
- 2024-01-18 CN CN202410072641.1A patent/CN117594045A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239547A (zh) * | 2017-06-05 | 2017-10-10 | 北京智能管家科技有限公司 | 用于语音点歌的语音纠错方法、终端及存储介质 |
CN112487157A (zh) * | 2019-09-12 | 2021-03-12 | 甲骨文国际公司 | 用于聊天机器人的基于模板的意图分类 |
CN110750959A (zh) * | 2019-10-28 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111833849A (zh) * | 2020-03-10 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 语音识别和语音模型训练的方法及存储介质和电子设备 |
CN111862977A (zh) * | 2020-07-27 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音对话处理方法和*** |
CN112802467A (zh) * | 2020-12-21 | 2021-05-14 | 出门问问(武汉)信息科技有限公司 | 语音识别方法及装置 |
CN113515586A (zh) * | 2021-04-16 | 2021-10-19 | 阿里巴巴新加坡控股有限公司 | 数据处理方法及装置 |
GB202203733D0 (en) * | 2022-03-17 | 2022-05-04 | Samsung Electronics Co Ltd | Patched multi-condition training for robust speech recognition |
CN117234341A (zh) * | 2023-11-15 | 2023-12-15 | 中影年年(北京)文化传媒有限公司 | 基于人工智能的虚拟现实人机交互方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526826B (zh) | 语音搜索处理方法、装置及服务器 | |
CN114757176B (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN111339278A (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN112017643B (zh) | 语音识别模型训练方法、语音识别方法及相关装置 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN113434631A (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
US20190156835A1 (en) | Diarization Driven by Meta-Information Identified in Discussion Content | |
CN112597034A (zh) | 测试用例的生成方法、装置及计算机可读存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN117594045A (zh) | 一种基于语音的虚拟人物模型控制方法及*** | |
CN113792166B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、***及存储介质 | |
CN113886520A (zh) | 一种基于图神经网络的代码检索方法、***及计算机可读存储介质 | |
CN113283218A (zh) | 一种语义文本压缩方法及计算机设备 | |
CN112786041A (zh) | 语音处理方法及相关设备 | |
CN112395402A (zh) | 基于深度模型的推荐话术生成方法、装置和计算机设备 | |
CN117994610B (zh) | 一种图表生成方法及*** | |
CN112183114A (zh) | 模型训练、语义完整性识别方法和装置 | |
CN114519357B (zh) | 基于机器学习的自然语言处理方法和*** | |
CN117875267B (zh) | 一种汉字转拼音的方法及*** | |
CN111027667B (zh) | 意图类别的识别方法和装置 | |
CN118278882A (zh) | 一种项目问题管理方法及*** | |
CN116913278B (zh) | 语音处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |