CN111399629B - 一种终端设备的操作引导方法、终端设备及存储介质 - Google Patents
一种终端设备的操作引导方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN111399629B CN111399629B CN201811642382.2A CN201811642382A CN111399629B CN 111399629 B CN111399629 B CN 111399629B CN 201811642382 A CN201811642382 A CN 201811642382A CN 111399629 B CN111399629 B CN 111399629B
- Authority
- CN
- China
- Prior art keywords
- data
- semantic analysis
- terminal device
- text data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 238000013145 classification model Methods 0.000 claims abstract description 40
- 230000010365 information processing Effects 0.000 claims abstract description 37
- 238000005516 engineering process Methods 0.000 claims abstract description 27
- 230000003993 interaction Effects 0.000 claims abstract description 25
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000006399 behavior Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000009849 deactivation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 description 19
- 238000013135 deep learning Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种终端设备的操作引导方法、终端设备及存储介质,所述方法包括:在接收到用户的语音数据时,将所述语音数据转换为文本数据;通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;通过语音合成技术将所述回复语句转换为语音。本发明使得人机交互过程更加人性化和智能化。
Description
技术领域
本发明涉及计算机程序应用技术领域,尤其涉及一种终端设备的操作引导方法、终端设备及存储介质。
背景技术
人工智能(AI :Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学,当前人工智能技术发展迅速,在各类终端设备上都出现了AI语音助手,通过语音能唤醒AI语音助手完成简单的操作,这些AI语音助手适用于简单的场景交互,它能完成一些简单的功能和聊天,但在复杂的应用场景中,目前的AI语音助手往往令人失望,表现很差,无法满足用户的多样化需求,并且用户的说话方式和语言习惯有较大差异,目前的AI语音助手也没有能够良好的运用这些个性化信息,导致无法很好的为用户服务。
因此,现有技术还有待于改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术缺陷,本发明提供一种终端设备的操作引导方法、终端设备及存储介质,针对终端设备进行功能操作引导,提高在复杂场景下的AI语音助手的分析和处理能力,避免在实践过程中对终端设备的错误操作,使人机交互过程更加人性化和智能化。
本发明解决技术问题所采用的技术方案如下:
一种终端设备的操作引导方法,其中,所述终端设备的操作引导方法包括:
在接收到用户的语音数据时,将所述语音数据转换为文本数据;
通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;
若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;
根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;
通过语音合成技术将所述回复语句转换为语音。
所述的终端设备的操作引导方法,其中,所述情景分类模型的生成包括如下步骤:
获取训练数据,对所述训练数据进行预处理操作;
获取满足要求的神经网络模型;
将完成预处理的所述训练数据输入到所述神经网络模型进行训练,得到情景分类模型。
所述的终端设备的操作引导方法,其中,所述预处理为:
通过文本分词技术生成词典,去停用词技术处理训练数据,通过文本特征提取技术得到嵌入矩阵,并将文本向量化生成输入数据。
所述的终端设备的操作引导方法,其中,若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句具体包括:
当判断出所述文本数据属于预设场景所对应的数据后,将所述文本数据输入到所述语义分析模块;
所述语义分析模块对所述文本数据进行语义分析,结合知识库的相关三元组,将所述文本数据中的非命令式语句转换为命令式语句,并输入到信息处理模块。
所述的终端设备的操作引导方法,其中,所述语义分析模块对所述文本数据进行语义分析具体包括:
通过知识图谱获取预设的非命令式和命令式语句匹配的三元组;
通过语义分析模块对知识图谱中缺少的三元组进行生成;
通过迭代学习模块使用人机交互中用户的反馈数据对语义分析模块产生指导行为。
所述的终端设备的操作引导方法,其中,根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句具体为:
提取所述情景分类模型的输出数据和所述信息处理模块的反馈数据进行拼接,并输入到会话生成模块中;
所述会话生成模块产生相应的回复语句。
所述的终端设备的操作引导方法,其中,所述终端设备的操作引导方法还包括:
当所述语义分析模块将所述命令式语句输入到所述信息处理模块后,将知识库中的数据进行更新,并控制迭代学习模块和语义分析模块进行迭代训练。
所述的终端设备的操作引导方法,其中,所述终端设备的操作引导方法还包括:
当所述会话生成模块产生相应的回复语句后,控制所述迭代学习模块和会话生成模块进行迭代训练。
一种终端设备,其中,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端设备的操作引导程序,所述终端设备的操作引导程序被所述处理器执行时实现如上所述的终端设备的操作引导方法的步骤。
一种存储介质,其中,所述存储介质存储有终端设备的操作引导程序,所述终端设备的操作引导程序被处理器执行时实现如上所述的终端设备的操作引导方法的步骤。
本发明公开了一种终端设备的操作引导方法、终端设备及存储介质,所述方法包括:在接收到用户的语音数据时,将所述语音数据转换为文本数据;通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;通过语音合成技术将所述回复语句转换为语音。本发明针对终端设备进行功能操作引导,提高在复杂场景下的AI语音助手的分析和处理能力,避免在实践过程中对终端设备的错误操作,使人机交互过程更加人性化、智能化。
附图说明
图1是本发明终端设备的操作引导方法的较佳实施例的流程图;
图2为本发明终端设备的较佳实施例的运行环境示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明较佳实施例所述的终端设备的操作引导方法,如图1所示,所述终端设备的操作引导方法包括以下步骤:
步骤S10、在接收到用户的语音数据时,将所述语音数据转换为文本数据。
具体地,通过AI语音助手(例如通过语音能唤醒AI语音助手完成简单的操作,进行语音识别等)接收用户输入的语音数据,通过语音识别将语音数据转换为文本数据。
步骤S20、通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据。
具体地,将所述文本数据输入到所述情景分类模型,通过所述情景分类模型判断输入的所述文本数据是否符合预设场景所对应的数据,并得出判断结果。
其中,所述预设场景为符合终端设备功能操作引导场景,如果所述文本数据符合预设场景所对应的数据,则提取符合终端设备功能操作引导场景的文本数据进行预处理,并将预处理后的文本数据输入到语义分析模块;如果所述文本数据不符合预设场景所对应的数据,则将所述文本数据分配给AI语音助手进行处理。
其中,所述情景分类模型的生成包括如下步骤:获取训练数据,对所述训练数据进行预处理操作;获取满足要求的神经网络模型;将完成预处理的所述训练数据输入到所述神经网络模型进行训练,得到情景分类模型。
进一步地,所述预处理为通过文本分词技术生成词典,去停用词技术处理训练数据,通过文本特征提取技术得到嵌入矩阵,并将文本向量化生成输入数据。所述神经网络模型包括:DNN模型(深度神经网络模型)、CNN模型(卷积神经网络模型)、RNN模型(循环神经网络模型)或者fasttext模型(词向量及文本分类模型)。
进一步地地,所述情景分类模型用于判断输入数据是否符合特定复杂场景,特定复杂场景指对终端设备功能操作引导场景,对于不符合本特定复杂场景的语句,例如“今天天气怎么样”的这类语句,直接交给AI语音助手处理;对于符合本特定复杂场景的语句,例如“我怎么样才能用手机支付”的这类语句,目前的AI语音助手不能很好的理解,那么就要通过操作引导方法进行处理。
具体地,本发明基于深度学习技术,构造了一个神经网络模型分类器(情景分类模型),该分类器将文本数据分为正样本和负样本(正样本和负样本分别为符合特定复杂场景的数据和不符合特定复杂场景的数据),设定各自的标签为1和0。
步骤S30、若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句。
具体地,当判断出所述文本数据属于预设场景所对应的数据后,将所述文本数据输入到所述语义分析模块;所述语义分析模块对所述文本数据进行语义分析,结合知识库的相关三元组,将所述文本数据中的非命令式语句转换为命令式语句,并输入到信息处理模块。
其中,所述语义分析模块对所述文本数据进行语义分析具体包括:通过知识图谱获取预设(即常见的非命令式和命令式语句,可以预先设定)的非命令式和命令式语句匹配的三元组;通过语义分析模块对知识图谱中缺少的三元组进行生成;通过迭代学习模块使用人机交互中用户的反馈数据对语义分析模块产生指导行为。
步骤S40、通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能。
具体地,所述信息处理模块将所述语义分析模块输入的所述命令式语句通过机器翻译成对应的指令语句,根据所述指令语句控制终端设备执行相应的功能。
进一步地,当语义分析模块将命令式语句输入到信息处理模块后,将知识库中的数据进行更新,并控制迭代学习模块和语义分析模块进行迭代训练。
具体地,语义分析模块主要目的是对语句进行语义分析,将非命令式语句转换为命令式语句,内部有三个处理过程,分别通过知识图谱、语义分析模块、迭代学习模块进行处理;知识图谱的目的是为了能够得到常见的非命令式和命令式语句匹配的三元组;语义分析模块是为了对知识图谱中缺少的三元组进行生成;迭代学习模块和语义分析模块进行组合训练是为了更好的理解用户的语义,使用人机交互中用户的反馈数据对语义分析模块产生奖励指导行为。例如语义分析模块执行步骤示例:
用户:“我要去跑步”;
引导方法:“帮助您打开音乐播放器”;
用户:“不对,我想计时”
引导方法:“好的,已打开计时器,跑步中听音乐会降低您的疲劳感哦”;
用户:“不用,我只跑一会儿”;
引导方法:“好的,停止播放音乐。”
具体流程:语义分析模块得到用户输入“我要去跑步”,预处理后同时将文本向量数据输入到知识库和语义分析模块中,根据输出的不同的情况进行选择。例如同时在知识库和语义分析模块中得到输出结果,处理情况如下:在知识库中检索相关三元组,发现对应的文本向量中关系排名前三的有“记录跑步路线”,“播放音乐”,“打开计时器”,同时得到语义分析模块的生成“打开音乐播放器”使用word2vec(是为一群用来产生词向量的相关模型)方法分别对句子进行相似度比较确定结果“打开音乐播放器”,将数据传递给信息处理模块进行后续步骤;得到用户第一次反馈“不对,我想计时”,此为命令式语句直接进行后续步骤;得到用户第二次反馈“不用,只跑一会儿”,经过语义分析模块处理后得到“关闭音乐播放器”;由此完成一次人机交互。
知识库和语义分析模块输出结果情况具体如下:如果知识图谱中没有相关元组,则使用语义分析模块结果;如果知识图谱搜索时间超过了阈值T,则使用语义分析模块生成的结果,反之亦然;如果在T的阈值内得到了两个命令式语句,通过word2vec方法进行句子间相似度比较,大于阈值S使用匹配结果,小于阈值S则使用知识库中关系度比重最大的三元组;如果在T的阈值内没有得到命令式语句,则使用最早得到的结果。
迭代学习目标:为知识库三元组{“我要去跑步”,“打开计时器”,关系度}提高关系度,增加比重;为知识库三元组{“我要去跑步”,“播放音乐”,关系度}降低关系度,减少比重;并且利用迭代学习模块产生的奖励指导行为对语义分析模块进行训练,提升语义分析模块准确度。
语义分析模块主要基于知识图谱技术、深度学习技术,迭代学习模块,利用知识图谱技术得到一种三元组结构的知识库,三元组的格式是向量化的{非命令式语句,命令式语句,关系度}。利用深度学习技术得到一个语义分析模块,训练数据是具有上下文关系的非命令式语句/命令式语句组成的数据/标签对。训练步骤如下:对情景分类模型得到的正样本数据进行预处理,具体操作和情景分类模型预处理操作相同;使用论文上的层次化模型方法改进编码模型结构,使之具备上下文处理能力,整体框架为BiGRU和Encoder-Decoder模式;将训练数据输入模型进行训练,得到语义分析模块,利用迭代学习模块进行迭代学习,具体结构和迭代学习模块相同。
步骤S50、根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句。
具体地,提取所述情景分类模型的输出数据和所述信息处理模块的反馈数据进行拼接,并输入到会话生成模块中,所述会话生成模块产生相应的回复语句。
进一步地,当所述会话生成模块产生相应的回复语句后,控制迭代学习模块和会话生成模块进行迭代训练。
具体地,所述信息处理模块主要目的是将所述语义分析模块得到的命令式语句翻译成机器可以理解的指令;所述会话生成模块主要目的是使人机对话方式变得更加丰富,多样化,提升用户的体验;结合所述迭代学习模块的目的是在人机交互中学习用户操作方式,得到个性化的操作引导方法。
所述会话生成模块主要使用了深度学习技术和强化学习模型,构造了一个可以处理多轮对话的神经网络模型,并且将会话生成模块和迭代学习模块组合训练。训练的输入数据是特定复杂场景的多轮对话数据,具体训练步骤如下:将收集好的多轮对话数据划分整合并进行处理结果标注,对其进行上下文的预处理;使用论文上的层次化模型方法改进编码模型结构,使之具备上下文处理能力,整体框架为BiGRU和Encoder-Decoder模式;将训练数据输入模型中训练,得到会话生成模块。
进一步地,所述迭代学习模块主要目的是迭代学习出个性化的操作引导方法,用户使用终端设备的时间越久,人机交互产生的数据越丰富,本方法的引导方式与该用户的对话和操作方式就越相似,提升用户的体验度。
所述迭代学习模块主要使用了强化学习的思想,构造了一个迭代学习模块与其他模型进行组合训练,该模型的输入数据是人机交互中产生的数据。训练步骤如下:数据的预处理工作由语义分析模块和会话生成模块负责,本模块使用处理好的数据即可;模型内部结构主要是借鉴了AC模型和NAF模型思想;训练数据输入语义分析模块和会话生成模块时,通过标识符α的值判断是否激活迭代学习模块,激活后通过不断反馈使语义分析模块和会话生成模块得到奖励指导行为。
步骤S60、通过语音合成技术将所述回复语句转换为语音。
其中,所述语音合成技术例如采用TTS(Text To Speech,从文本到语音),将所述回复语句转换为语音,方便人机交互。
本发明的标准工作流程如下:AI语音助手接收到用户输入数据时使用语音识别技术(ASR)将语音转换为文本;将文本数据输入到情景分类模型,负样本交给AI语音助手进行处理;正样本输出到语义分析模块;语义分析模块将非命令式语句输入到语义分析模块,同时在知识库中搜寻相关三元组,经过处理得到相应的命令式语句,输入到信息处理模块;交互完毕后对知识库中的数据更新,迭代学习模块和语义分析模块进行迭代训练;信息处理模块将命令式语句机器翻译(NMT)成指令语句,使机器执行相应功能;提取情景分类模型的输出数据和信息处理模块的反馈数据做一个简单的拼接,输入到会话生成模块中,会话生成模块产生相应的回复;交互完毕后迭代学习模块和会话生成模块进行迭代训练;AI语音助手接收到回复语句使用语音合成技术(TTS)将文字转换为语音。
本发明的方法用于终端设备的AI语音助手上,输入数据是语音数据,交互方式是多轮对话方式;由于目前深度学习技术的泛化性不好,本发明中的操作引导方法只适用于特定复杂场景(用户对终端设备功能操作引导的场景);因为本操作引导方法需要应用到不同的终端设备上,所以相应的训练数据也就不同(如:智能音箱的功能主要与播放歌曲有关,训练得到解决与设备有关的功能操作引导方法),下面以两个场景示例来进行说明。
其中,场景示例1主要模拟了本终端设备的操作引导方法的“说明书”功能,适用于用户与终端设备初始交互;场景示例2主要模拟了本终端设备的操作引导方法解决用户操作终端设备的问题,适用于终端设备的整个生命周期。
场景示例1:用户第一次使用某品牌的终端设备(如手机),对该设备的功能不熟悉。操作引导方法激活后,进入手机功能介绍交互流程中,如下:
引导方法:“是否进入操作引导流程。”
用户:“什么是操作引导流程呢。”
引导方法:“操作引导流程是一种基于语音交互方式的‘说明书’,在聊天中帮助您对本终端设备快速上手操作。”
用户:“哦,那说下本机的功能吧。”
引导方法:“好的, 本机分为常用功能、非常用功能,您需要先了解哪一方面呢。”
用户:“给我介绍下常用功能吧。”
引导方法:“好的,常用功能有打电话、……、遥控器、NFC、……”
用户:“什么是NFC功能呢。”
引导方法:“NFC可以实现近距离无线通信,目前应用于公交卡和门禁卡。”
用户:“好的,我想发短信,怎么便捷操作呢。”
引导方法:“您需要确认联系人或者电话号码,输入短信内容后发送。如果您发送途中需要撤销操作,可以直接晃动手机。”
用户:“好的,知道了,我有需要时在找你。”
引导方法:“好的,您有需要可以随时找我。”
场景示例2:用户使用过一段时间的终端设备(如手机),现在需要使用该手机进行软件开发,不知道如何对手机进行设置。用户主动激活语音助手,向其询问该问题,进入交互流程,如下:
用户:“我想要进行手机开发,该怎么做。”
引导方法:“需要您打开开发者选项功能,是否打开。”
用户:“那打开吧。”
引导方法:“好的,您还需要允许使用USB调试功能。”
用户:“允许使用。”
引导方法:“好的,您还可以选择开启允许模拟位置功能。”
用户:“模拟位置功能有什么用。”
引导方法:“在手机开发某些定位软件时使用,模拟手机位置。”
用户:“哦,我现在不需要。”
引导方法:“好的,您还可以选择启用视图属性检查功能。”
用户:“启用,我需要使用该功能。”
引导方法:“好的,您允许使用选择调试应用选项么。”
用户:“允许使用。”
引导方法:“好的,您现在需要调试什么应用。”
用户:“现在没有。”
引导方法:“手机设置完毕,您还有什么需要帮助的么。”
用户:“没有了,谢谢。”
引导方法:“不客气,能帮到您很开心,您有需要可以随时找我。”
本发明的方法主要针对特定复杂场景的进行操作引导,特定复杂场景指对终端设备功能操作引导的场景,例如用户接触新的终端设备时,本方法对终端设备上全部功能进行引导操作和详细介绍,解决用户对终端设备不熟悉的问题;再例如用户在使用终端设备的时候,本方法解决用户遗忘设备功能和操作方法的问题,并且在每次人机交互后迭代学习,达到操作引导方法个性化的目的。
本发明的终端设备的操作引导方法在人与终端设备的初始交互中,操作引导承担了说明书的角色,让用户可以边聊天边实践,节省查看说明书和记忆设备功能的精力,并且避免了在实践过程中对设备的错误操作;在特定复杂场景下提升人机交互的体验,使人机交互过程更加人性化;考虑到不同人群(如:地域/国家等不同)的对话方式不同,丰富了人机交互方式的多样性,达到了操作引导方法个性化的目的。
如图2所示,基于上述终端设备的操作引导方法,本发明还相应提供了一种终端设备,所述终端设备包括处理器10、存储器20及显示器30。图2仅示出了终端设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端设备的应用软件及各类数据,例如所述安装终端设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有终端设备的操作引导程序40,该终端设备的操作引导程序40可被处理器10所执行,从而实现本申请中终端设备的操作引导方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述终端设备的操作引导方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述终端设备的信息以及用于显示可视化的用户界面。所述终端设备的部件10-30通过***总线相互通信。
在一实施例中,当处理器10执行所述存储器20中终端设备的操作引导程序40时实现以下步骤:
在接收到用户的语音数据时,将所述语音数据转换为文本数据;
通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;
若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;
根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;
通过语音合成技术将所述回复语句转换为语音。
通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据具体为:
将所述文本数据输入到所述情景分类模型,通过所述情景分类模型判断输入的所述文本数据是否符合预设场景所对应的数据,并得出判断结果。
通过情景分类模型对所述文本数据进行分类具体为:
通过使用文本分词技术生成词典和去停用词技术处理所述文本数据,并通过文本特征提取技术得到嵌入矩阵,将所述文本数据通过预设模型进行训练。
若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句具体包括:
当判断出所述文本数据属于预设场景所对应的数据后,将所述文本数据输入到所述语义分析模块;
所述语义分析模块对所述文本数据进行语义分析,结合知识库的相关三元组,将所述文本数据中的非命令式语句转换为命令式语句,并输入到信息处理模块。
所述语义分析模块对所述文本数据进行语义分析具体包括:
通过知识图谱获取预设的非命令式和命令式语句匹配的三元组;
通过语义分析模块对知识图谱中缺少的三元组进行生成;
通过迭代学习模块使用人机交互中用户的反馈数据对语义分析模块产生指导行为。
通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能具体为:
所述信息处理模块将所述语义分析模块输入的所述命令式语句通过机器翻译成对应的指令语句,根据所述指令语句控制终端设备执行相应的功能。
根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句具体为:
提取所述情景分类模型的输出数据和所述信息处理模块的反馈数据进行拼接,并输入到会话生成模块中,所述会话生成模块产生相应的回复语句。
当所述语义分析模块将所述命令式语句输入到所述信息处理模块后,将知识库中的数据进行更新,并控制迭代学习模块和语义分析模块进行迭代训练;
当所述会话生成模块产生相应的回复语句后,控制所述迭代学习模块和会话生成模块进行迭代训练。
本发明还提供一种存储介质,其中,所述存储介质存储有终端设备的操作引导程序,所述终端设备的操作引导程序被处理器执行时实现如上所述的终端设备的操作引导方法的步骤。
综上所述,本发明提供一种终端设备的操作引导方法、终端设备及存储介质,所述方法包括:在接收到用户的语音数据时,将所述语音数据转换为文本数据;通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;通过语音合成技术将所述回复语句转换为语音。本发明针对终端设备进行功能操作引导,提高在复杂场景下的AI语音助手的分析和处理能力,避免在实践过程中对终端设备的错误操作,使人机交互过程更加人性化、智能化。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种终端设备的操作引导方法,其特征在于,所述终端设备的操作引导方法包括:
在接收到用户的语音数据时,将所述语音数据转换为文本数据;
通过情景分类模型对所述文本数据进行分类,以确定所述文本数据是否属于预设场景所对应的数据;其中,所述预设场景为符合终端设备功能操作引导场景;
若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句;
若所述文本数据属于预设场景所对应的数据,则通过语义分析模块对所述文本数据进行语义分析,以将所述文本数据转换为命令式语句具体包括:
当判断出所述文本数据属于预设场景所对应的数据后,将所述文本数据输入到所述语义分析模块;
所述语义分析模块对所述文本数据进行语义分析,结合知识库的相关三元组,将所述文本数据中的非命令式语句转换为命令式语句,并输入到信息处理模块;
所述语义分析模块对所述文本数据进行语义分析具体包括:
通过知识图谱获取预设的非命令式和命令式语句匹配的三元组;
通过语义分析模块对知识图谱中缺少的三元组进行生成;
通过迭代学习模块使用人机交互中用户的反馈数据对语义分析模块产生指导行为;
将训练数据输入模型进行训练,得到语义分析模块,利用迭代学习模块进行迭代学习;
通过信息处理模块将所述命令式语句翻译成对应的指令命令,以使终端设备根据所述指令命令执行相应的功能;
根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句;
通过语音合成技术将所述回复语句转换为语音。
2.根据权利要求1所述的终端设备的操作引导方法,其特征在于,所述情景分类模型的生成包括如下步骤:
获取训练数据,对所述训练数据进行预处理操作;
获取满足要求的神经网络模型;
将完成预处理的所述训练数据输入到所述神经网络模型进行训练,得到情景分类模型。
3.根据权利要求2所述的终端设备的操作引导方法,其特征在于,所述预处理为:
通过文本分词技术生成词典,去停用词技术处理训练数据,通过文本特征提取技术得到嵌入矩阵,并将文本向量化生成输入数据。
4.根据权利要求1所述的终端设备的操作引导方法,其特征在于,根据所述情景分类模型的输出数据以及所述信息处理模块的反馈数据生成回复语句具体为:
提取所述情景分类模型的输出数据和所述信息处理模块的反馈数据进行拼接,并输入到会话生成模块中;
所述会话生成模块产生相应的回复语句。
5.根据权利要求4所述的终端设备的操作引导方法,其特征在于,所述终端设备的操作引导方法还包括:
当所述语义分析模块将所述命令式语句输入到所述信息处理模块后,将知识库中的数据进行更新,并控制迭代学习模块和语义分析模块进行迭代训练。
6.根据权利要求4所述的终端设备的操作引导方法,其特征在于,所述终端设备的操作引导方法还包括:
当所述会话生成模块产生相应的回复语句后,控制所述迭代学习模块和会话生成模块进行迭代训练。
7.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的终端设备的操作引导程序,所述终端设备的操作引导程序被所述处理器执行时实现如权利要求1-6任一项所述的终端设备的操作引导方法的步骤。
8.一种存储介质,其特征在于,所述存储介质存储有终端设备的操作引导程序,所述终端设备的操作引导程序被处理器执行时实现如权利要求1-6任一项所述的终端设备的操作引导方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642382.2A CN111399629B (zh) | 2018-12-29 | 2018-12-29 | 一种终端设备的操作引导方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642382.2A CN111399629B (zh) | 2018-12-29 | 2018-12-29 | 一种终端设备的操作引导方法、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111399629A CN111399629A (zh) | 2020-07-10 |
CN111399629B true CN111399629B (zh) | 2022-05-03 |
Family
ID=71433891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811642382.2A Active CN111399629B (zh) | 2018-12-29 | 2018-12-29 | 一种终端设备的操作引导方法、终端设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111399629B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116910A (zh) * | 2020-10-30 | 2020-12-22 | 珠海格力电器股份有限公司 | 语音指令的识别方法和装置、存储介质、电子装置 |
CN112669840A (zh) * | 2020-12-17 | 2021-04-16 | 北京梧桐车联科技有限责任公司 | 一种语音处理方法、装置、设备及存储介质 |
CN113314123B (zh) * | 2021-04-12 | 2024-05-31 | 中国科学技术大学 | 语音处理方法、电子设备及存储装置 |
CN114842847A (zh) * | 2022-04-27 | 2022-08-02 | 中国第一汽车股份有限公司 | 一种车载用语音控制方法以及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975511A (zh) * | 2016-04-27 | 2016-09-28 | 乐视控股(北京)有限公司 | 智能对话的方法及装置 |
CN107773982A (zh) * | 2017-10-20 | 2018-03-09 | 科大讯飞股份有限公司 | 游戏语音交互方法及装置 |
CN108009285A (zh) * | 2017-12-22 | 2018-05-08 | 重庆邮电大学 | 基于自然语言处理的林业生态环境人机交互方法 |
CN108897848A (zh) * | 2018-06-28 | 2018-11-27 | 北京百度网讯科技有限公司 | 机器人互动方法、装置及设备 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
-
2018
- 2018-12-29 CN CN201811642382.2A patent/CN111399629B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975511A (zh) * | 2016-04-27 | 2016-09-28 | 乐视控股(北京)有限公司 | 智能对话的方法及装置 |
CN107773982A (zh) * | 2017-10-20 | 2018-03-09 | 科大讯飞股份有限公司 | 游戏语音交互方法及装置 |
CN108009285A (zh) * | 2017-12-22 | 2018-05-08 | 重庆邮电大学 | 基于自然语言处理的林业生态环境人机交互方法 |
CN108897848A (zh) * | 2018-06-28 | 2018-11-27 | 北京百度网讯科技有限公司 | 机器人互动方法、装置及设备 |
CN108962217A (zh) * | 2018-07-28 | 2018-12-07 | 华为技术有限公司 | 语音合成方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111399629A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111399629B (zh) | 一种终端设备的操作引导方法、终端设备及存储介质 | |
CN109918680B (zh) | 实体识别方法、装置及计算机设备 | |
US20210127003A1 (en) | Interactive voice-control method and apparatus, device and medium | |
CN109410927B (zh) | 离线命令词与云端解析结合的语音识别方法、装置和*** | |
CN109003624B (zh) | 情绪识别方法、装置、计算机设备及存储介质 | |
KR102462426B1 (ko) | 발화의 의미를 분석하기 위한 전자 장치 및 그의 동작 방법 | |
CN110807332A (zh) | 语义理解模型的训练方法、语义处理方法、装置及存储介质 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN111241245B (zh) | 人机交互处理方法、装置及电子设备 | |
CN110807333B (zh) | 一种语义理解模型的语义处理方法、装置及存储介质 | |
US11830482B2 (en) | Method and apparatus for speech interaction, and computer storage medium | |
CN110795945A (zh) | 一种语义理解模型训练方法、语义理解方法、装置及存储介质 | |
CN112699686B (zh) | 基于任务型对话***的语义理解方法、装置、设备及介质 | |
CN110096516B (zh) | 自定义的数据库交互的对话生成方法及*** | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN111309876A (zh) | 一种服务请求的处理方法、装置、电子设备及存储介质 | |
CN115392264A (zh) | 一种基于rasa的任务型智能多轮对话方法及相关设备 | |
CN112199486A (zh) | 一种办公场景的任务型多轮对话方法及*** | |
CN112837683B (zh) | 语音服务方法及装置 | |
CN112818096A (zh) | 对话生成方法及其装置 | |
CN111046674B (zh) | 语义理解方法、装置、电子设备和存储介质 | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN115017914A (zh) | 语言处理方法、装置、电子设备以及存储介质 | |
US11574246B2 (en) | Updating training examples for artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 516006 TCL science and technology building, No. 17, Huifeng Third Road, Zhongkai high tech Zone, Huizhou City, Guangdong Province Applicant after: TCL Technology Group Co.,Ltd. Address before: 516006 Guangdong province Huizhou Zhongkai hi tech Development Zone No. nineteen District Applicant before: TCL Corp. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |