CN117672227B - 基于智能音箱的问答控制方法、装置、计算机设备和介质 - Google Patents

基于智能音箱的问答控制方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN117672227B
CN117672227B CN202410101435.9A CN202410101435A CN117672227B CN 117672227 B CN117672227 B CN 117672227B CN 202410101435 A CN202410101435 A CN 202410101435A CN 117672227 B CN117672227 B CN 117672227B
Authority
CN
China
Prior art keywords
intention
text data
router
recognition model
intent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410101435.9A
Other languages
English (en)
Other versions
CN117672227A (zh
Inventor
方斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Tech Development Co ltd
Original Assignee
New Tech Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Tech Development Co ltd filed Critical New Tech Development Co ltd
Priority to CN202410101435.9A priority Critical patent/CN117672227B/zh
Publication of CN117672227A publication Critical patent/CN117672227A/zh
Application granted granted Critical
Publication of CN117672227B publication Critical patent/CN117672227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本实施例提供了一种基于智能音箱的问答控制方法、装置、计算机设备和介质,第一智能音箱将第一语音数据发送第一路由器,第一路由器包含第一意图识别模型;第一路由器通过第一意图识别模型将第一语音数据转化为第一文本数据,将第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;第一路由器将第一文本数据及第一意图结果发送至总路由器;总路由器包含第三意图识别模型;总路由器通过第三意图识别模型将第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果,实现了分布式的人工智能模型,不需要很高的硬件成本,降低硬件成本,减少训练时间,提高运行效率,提高智能音箱的语音识别率。

Description

基于智能音箱的问答控制方法、装置、计算机设备和介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于智能音箱的问答控制***、一种基于智能音箱的问答控制方法和一种基于智能音箱的问答控制装置、一种计算机设备及一种存储介质。
背景技术
随着科技的进步,音箱的功能越来越多,智能音箱技术逐渐成熟与商业化。智能音箱本身可以输出播放语音、音乐等,还能接受用户的语音与用户进行对话的交互。智能音箱一般是通过意图识别的方式来识别出用户的问题,从而输出相关的答案,但是,现有意图识别模型的硬件对于运行速度,响应时间等要求较高,模型训练时间较长,硬件成本较高,导致现在的智能音箱语音识别率很难有很大的提升。
发明内容
鉴于上述问题,提出了本实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于智能音箱的问答控制方法、一种基于智能音箱的问答控制***、一种基于智能音箱的问答控制装置、一种计算机设备及一种存储介质。
为了解决上述问题,本实施例公开了一种基于智能音箱的问答控制方法,包括:
第一智能音箱获取所在的第一特定空间的第一语音数据;
第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱。
优选地,所述方法还包括:
第二智能音箱获取所在的第二特定空间的第二语音数据;
第二智能音箱将所述第二语音数据发送第二路由器,所述第二路由器包含第二意图识别模型;所述第二路由器通过第二意图识别模型将所述第二语音数据转化为第二文本数据,将所述第二文本数据转化为第二意图特征,根据第二意图特征输出第二意图结果;其中,所述第二文本数据包含意图关键字;
所述第二路由器将第二文本数据及第二意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第二文本数据转化为第四意图特征,根据第四意图特征输出第四意图结果;
所述总路由器分别计算所述意图关键字与所述第二意图结果、所述第四意图结果的相似度,得到第二特征相似度、第四特征相似度,确定所述第二特征相似度及第四特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第二智能音箱。
优选地,所述第一意图识别模型包括训练后的歌曲意图模型;所述歌曲意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及歌曲分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、歌曲分类意图标签得到歌曲意图损失函数;
根据所述歌曲意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
优选地,所述第二意图识别模型包括训练后的电器控制意图模型;所述电器控制意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及电器控制分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、电器控制分类意图标签得到电器控制意图损失函数;
根据所述电器控制意图损失函数调节该意图识别模型的参数,得到训练后的电器控制意图模型。
优选地,所述第三意图识别模型包括训练后的搜索意图模型;所述搜索意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及搜索分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、搜索分类意图标签得到搜索意图损失函数;
根据所述搜索意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
优选地,所述方法还包括:
计算歌曲意图损失函数、电器控制意图损失函数、搜索意图损失函数三者的综合损失函数;
根据所述综合损失函数调节意图识别模型的参数,得到训练后的综合意图识别模型。
优选地,所述方法还包括:
获取到预设时间间隔后未被重复提问的语音数据,将所述语音数据转化为文本数据训练集,将所述语音数据对应的意图结果确定为意图标签,通过所述文本数据训练集及意图标签训练初始的意图识别模型。
本实施例公开了一种基于智能音箱的问答控制***,包括:
第一智能音箱、第一路由器、第二智能音箱、第二路由器、第三智能音箱及总路由器;
所述总路由器分别与所述第一路由器、所述第二路由器、所述第三智能音箱连接,所述第一路由器与所述第一智能音箱连接,所述第二路由器与所述第二智能音箱连接;
所述第一路由器与第一智能音箱设置于第一特定空间内;所述第二路由器与第二智能音箱设置于第二特定空间;所述总路由器与第三智能音箱设置于第三特定空间内;所述第一特定空间、所述第二特定空间与所述第三特定空间是相邻的三个空间;
所述第一智能音箱、第二智能音箱及第三智能音箱用于接收语音数据;所述第一路由器设置有第一意图识别模型;所述第二路由器设置有第二意图识别模型;所述总路由器设置有第三意图识别模型。
本实施例公开一种基于智能音箱的问答控制装置,包括:
第一获取模块,用于第一智能音箱获取所在的第一特定空间的第一语音数据;
第一输出模块,用于第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
第一发送模块,用于所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
第一确定模块,用于所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱。
本实施例还公开了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的基于智能音箱的问答控制的步骤。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于智能音箱的问答控制的步骤。
本实施例包括以下优点:
本发明实施例中,在路由器的芯片及储存器中设置有人工智能模型,通过分布式的人工智能模型进行多空间的语音识别,实现了分布式的人工智能模型,不需要很高的硬件成本,降低硬件成本,减少训练时间,提高运行效率,提高智能音箱的语音识别率。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本实施例的一种基于智能音箱的问答控制方法实施例的步骤流程图;
图2是本实施例的一种具体应用场景的示意;
图3是本实施例的一种基于智能音箱的问答控制装置实施例的结构框图;
图4是一个实施例的一种计算机设备的内部结构图。
具体实施方式
为了使本实施例所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本实施例进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的一种核心构思中,特定空间(两室一厅或三室一厅的房屋)内的每个节点(路由器)设置有不同意图类型样本训练的人工智能模型,每个训练后的人工智能模型在不同的空间上接收语音数据时识别出意图,并语音数据发送至另外的节点(路由器)设置的不同意图类型样本训练的人工智能模型,该不同意图类型样本训练的人工智能模型同样对上述的语音数据进行意图的识别,将两者的意图进行对比,以最接近原意图类型样本(意图关键字)的训练的人工智能模型的意图为准,进行输出,在意图识别的同时,可以训练其他意图类型样本训练的人工智能模型,最终多个人工智能模型都可以识别出多种意图类型,实现了分布式的人工智能模型,不需要很高的硬件成本,降低硬件成本,减少训练时间,提高运行效率,提高智能音箱的语音识别率。
参照图1,示出了本实施例的一种基于智能音箱的问答控制方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,第一智能音箱获取所在的第一特定空间的第一语音数据;
本发明实施例中,该基于智能音箱的问答控制方法可以应用于问答控制***中,该***可以包括第一智能音箱、第一路由器、第二智能音箱、第二路由器、第三智能音箱及总路由器;
所述总路由器分别与所述第一路由器、所述第二路由器、所述第三智能音箱连接,所述第一路由器与所述第一智能音箱连接,所述第二路由器与所述第二智能音箱连接;
所述第一路由器与第一智能音箱设置于第一特定空间内;所述第二路由器与第二智能音箱设置于第二特定空间;所述总路由器与第三智能音箱设置于第三特定空间内;所述第一特定空间、所述第二特定空间与所述第三特定空间是相邻的三个空间;
所述第一智能音箱、第二智能音箱及第三智能音箱用于接收语音数据;所述第一路由器设置有第一意图识别模型;所述第二路由器设置有第二意图识别模型;所述总路由器设置有第三意图识别模型。
参照图2,示出了本发明实施例的一种具体应用场景的示意图,举例而言,第三智能音箱及总路由器可以设置于房屋的客厅区域,而第一智能音箱、第一路由器可以设置于房屋的主卧区域,第二智能音箱、第二路由器可以设置于房屋的次卧区域,利用多个不同区域的路由器之间的数据处理及转换,将每个独立空间内的问答识别率提高,提高问答控制的准确度及应用性。
实际应用中,该第一智能音箱、第二智能音箱、第三智能音箱的组成可以包括喇叭、麦克风、处理器、电源及无线网络适配器等,当然还可以包括旋转组件、移动组件等,本发明实施例对此不作过多的限制;上述的智能音箱可以通过无线网络适配器与对应的路由器连接,进一步地,该路由器可以包括处理器及存储器,该存储器上可以设置有意图识别模型,即该路由器可以用于网络数据传输及交换外,还可以用于意图识别模型的运行,进一步需要说明的是,该路由器上的存储器还可以是外接的存储器,外接的存储器及处理器相结合,充分利用空闲的具有强大的协议处理能力的处理器资源用于意图识别模型的运行及训练,提高资源运用效率。
步骤102,第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
其中,该第一意图识别模型训练后的歌曲意图模型;所述歌曲意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及歌曲分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、歌曲分类意图标签得到歌曲意图损失函数;
根据所述歌曲意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
步骤103,所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
具体应用到本发明实施例中,该第三意图识别模型包括训练后的搜索意图模型;所述搜索意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及搜索分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、搜索分类意图标签得到搜索意图损失函数;
根据所述搜索意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
在本发明实施例中,通过三种不同的意图识别模型进行分布式的模型布局,该意图识别模型可以包括歌曲意图模型、搜索意图模型及电器控制意图模型,具体地,还可以划分为其他的类型的意图识别模型,本发明实施例对此不作过多的限制;具体而言,可以通过设置不同的训练样本来训练该意图识别模型,得到不同的训练后的意图模型,在一种具体示例中,该文本数据训练集及歌曲分类意图标签中的文本数据训练集可以是包含用户语音数据转化的文本数据中有关歌曲关键字(如文本数据“某某某的稻香怎么唱”中的“某某某”、“稻香”)的文本数据,歌曲分类意图标签则可以为歌曲名称“某某某演唱的不同版本的稻香”或“其他歌手演唱的不同版本的稻香”。
针对搜索意图模型的文本数据训练集及搜索分类意图标签,文本数据训练集可以是包含有搜索关键字的文本数据,搜索分类意图标签是对应的意图结果,举例而言,该文本数据可以是“帮我查找下附近的饭店”,则搜索分类意图标签为饭店名称及地址,两者组成该搜索意图模型的文本数据训练集及搜索分类意图标签。
针对意图识别模型的另一种具体组成方面,其也可以包括输入层、最大池化层、全连接层、隐藏层、softmax层等,本发明实施例对意图识别模型的具体构成不作过多的限制,能够实现意图识别的效果即可,针对意图识别模型的类型,其可以是其他有监督的神经网络模型,如递归神经网络等,也可以采用无监督的神经网络模型作为意图识别模型来实现意图识别的功能,该无监督的神经网络模型可以包括K-means算法模型、分层聚类算法模型、PCA主成分分析模型等,本发明实施例对此不作过多的限制。
步骤104,所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱。
具体地,第一特征相似度、第三特征相似度可以是余弦相似度,总路由器计算出所述意图关键字与所述第一意图结果的第一特征相似度,再计算出所述意图关键字与所述第三意图结果的第三特征相似度,比较所述第一特征相似度与第三特征相似度的大小,选取出两者中较高的特征相似度,即若第三特征相似度大于第一特征相似度,则输出该第三特征相似度对应的意图结果于第一智能音箱。
本发明实施例中,在路由器的芯片及储存器中设置有人工智能模型,通过分布式的人工智能模型进行多空间的语音识别,实现了分布式的人工智能模型,不需要很高的硬件成本,降低硬件成本,减少训练时间,提高运行效率,提高智能音箱的语音识别率。
在一种优选实施例中,第二智能音箱也可以获取所在的第二特定空间的第二语音数据;如第二智能音箱可以获取所在的次卧的第二语音数据;
第二智能音箱将所述第二语音数据发送第二路由器,所述第二路由器包含第二意图识别模型;所述第二路由器通过第二意图识别模型将所述第二语音数据转化为第二文本数据,将所述第二文本数据转化为第二意图特征,根据第二意图特征输出第二意图结果;其中,所述第二文本数据包含意图关键字;
在一种具体应用中,第二意图识别模型包括训练后的电器控制意图模型;所述电器控制意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及电器控制分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;将所述编码特征进行池化操作,得到池化后的语音特征;将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、电器控制分类意图标签得到电器控制意图损失函数;根据所述电器控制意图损失函数调节该意图识别模型的参数,得到训练后的电器控制意图模型。
在一种具体示例中,该文本数据训练集可以为包含有电器控制关键字的文本数据,电器控制分类意图标签是对应的意图结果,举例而言,该文本数据可以是“帮我关下空调”,则电器控制意图标签为控制空调关闭并输出是否关闭成功,两者组成该电器控制意图模型的文本数据训练集及电器控制分类意图标签。
进一地,所述第二路由器将第二文本数据及第二意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第二文本数据转化为第四意图特征,根据第四意图特征输出第四意图结果;
所述总路由器分别计算所述意图关键字与所述第二意图结果、所述第四意图结果的相似度,得到第二特征相似度、第四特征相似度,确定所述第二特征相似度及第四特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第二智能音箱,即本发明实施例中,可以设置两个或两个以上的智能音箱及对应的路由器,实现分布式的人工智能模型,进行多空间无障碍的语音识别,提高语音识别效率。
需要说明的是,上述的特征相似度可以是余弦相似度、欧氏距离相似度等,本发明实施例对此不作过多的限制。
本发明实施例的一种优选实施例中,所述方法还包括:
计算歌曲意图损失函数、电器控制意图损失函数、搜索意图损失函数三者的综合损失函数;
本发明实施例中,该歌曲意图损失函数可以包括以下公式:
其中,为歌曲意图损失函数;为关键词影响系数;为样本数量;为第i 个歌曲意图模型样本的模型输出的估算意图的预测值;为歌曲分类意图标签的真实值;
进一步地,电器控制意图损失函数可以包括以下公式:
其中,为电器控制意图损失函数;为环境影响系数;为样本数量;为第 i个电器控制意图模型样本的模型输出的估算意图的预测值;为电器控制分类意图标签 的真实值;
进一步地,搜索意图损失函数可以包括以下公式:
其中,为电器控制意图损失函数;为控制影响系数;为样本数量;为第i 个搜索意图模型样本的模型输出的估算意图的预测值;为搜索分类意图标签的真实值;
具体而言,该综合损失函数可以由上述的歌曲意图损失函数、电器控制意图损失函数、搜索意图损失函数计算得到,具体地;
综合损失函数即为歌曲意图损失函数、电器控制意图损失函数、搜索意图损失 函数的三者综合的距离。
再根据所述综合损失函数调节意图识别模型的参数,得到训练后的综合意图识别模型。本发明实施例中,还可以通过三个损失函数对意图识别模型进行训练,得到训练后的综合意图识别模型,极大提高了模型性能。
本发明实施例中还实现了训练集自动生成,降低模型训练的成本,具体地,可以获取到预设时间间隔后未被重复提问的语音数据,将所述语音数据转化为文本数据训练集,将所述语音数据对应的意图结果确定为意图标签,通过所述文本数据训练集及意图标签训练初始的意图识别模型。即将用户只提问了一次的语音数据及对应的意图结果转化为文本数据训练集及意图标签,用于训练初始的意图识别模型,降低模型训练的成本。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本实施例并不受所描述的动作顺序的限制,因为依据本实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本实施例所必须的。
参照图3,示出了本实施例的一种基于智能音箱的问答控制装置实施例的结构框图,具体可以包括如下模块:
第一获取模块301,用于第一智能音箱获取所在的第一特定空间的第一语音数据;
第一输出模块302,用于第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
第一发送模块303,用于所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
第一确定模块304,用于所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱。
优选地,所述装置还包括:
第二获取模块,用于第二智能音箱获取所在的第二特定空间的第二语音数据;
第二输出模块,用于第二智能音箱将所述第二语音数据发送第二路由器,所述第二路由器包含第二意图识别模型;所述第二路由器通过第二意图识别模型将所述第二语音数据转化为第二文本数据,将所述第二文本数据转化为第二意图特征,根据第二意图特征输出第二意图结果;其中,所述第二文本数据包含意图关键字;
第二发送模块,用于所述第二路由器将第二文本数据及第二意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第二文本数据转化为第四意图特征,根据第四意图特征输出第四意图结果;
第二确定模块,用于所述总路由器分别计算所述意图关键字与所述第二意图结果、所述第四意图结果的相似度,得到第二特征相似度、第四特征相似度,确定所述第二特征相似度及第四特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第二智能音箱。
优选地,所述第一意图识别模型包括训练后的歌曲意图模型;所述歌曲意图模型的训练模块包括:
第一编码特征获取子模块,用于将语音数据转换为文本数据,得到文本数据训练集及歌曲分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
第一池化子模块,用于将所述编码特征进行池化操作,得到池化后的语音特征;
第一损失函数获取子模块,用于将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、歌曲分类意图标签得到歌曲意图损失函数;
第一调节子模块,用于根据所述歌曲意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
优选地,所述第二意图识别模型包括训练后的电器控制意图模型;所述电器控制意图模型的训练模块包括:
第二编码特征获取子模块,用于将语音数据转换为文本数据,得到文本数据训练集及电器控制分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
第二池化子模块,用于将所述编码特征进行池化操作,得到池化后的语音特征;
第二损失函数获取子模块,用于将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、电器控制分类意图标签得到电器控制意图损失函数;
第二调节子模块,用于根据所述电器控制意图损失函数调节该意图识别模型的参数,得到训练后的电器控制意图模型。
优选地,所述第三意图识别模型包括训练后的搜索意图模型;所述搜索意图模型的模块步骤包括:
第三编码特征获取子模块,用于将语音数据转换为文本数据,得到文本数据训练集及搜索分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
第三池化子模块,用于将所述编码特征进行池化操作,得到池化后的语音特征;
第三损失函数获取子模块,用于将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、搜索分类意图标签得到搜索意图损失函数;
第三调节子模块,用于根据所述搜索意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
优选地,所述装置还包括:
综合损失函数计算模块,用于计算歌曲意图损失函数、电器控制意图损失函数、搜索意图损失函数三者的综合损失函数;
综合意图识别模型获得模块,用于根据所述综合损失函数调节意图识别模型的参数,得到训练后的综合意图识别模型。
优选地,所述装置还包括:
转化模块,用于获取到预设时间间隔后未被重复提问的语音数据,将所述语音数据转化为文本数据训练集,将所述语音数据对应的意图结果确定为意图标签,通过所述文本数据训练集及意图标签训练初始的意图识别模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
关于基于智能音箱的问答控制装置的具体限定可以参见上文中对于基于智能音箱的问答控制方法的限定,在此不再赘述。上述基于智能音箱的问答控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
上述提供的基于智能音箱的问答控制装置可用于执行上述任意实施例提供的基于智能音箱的问答控制方法,具备相应的功能和有益效果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是智能音箱或路由器,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种采光率模拟的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现如图1所述的步骤:
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如图1所述的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本实施例是参照根据本实施例的装置、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品,该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、装置、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于智能音箱的问答控制方法和一种基于智能音箱的问答控制装置、一种计算机设备及一种存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于智能音箱的问答控制方法,其特征在于,包括:
第一智能音箱获取所在的第一特定空间的第一语音数据;
第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱;
所述第一意图识别模型包括训练后的歌曲意图模型;所述歌曲意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及歌曲分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、歌曲分类意图标签得到歌曲意图损失函数;
根据所述歌曲意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型;
所述第三意图识别模型包括训练后的搜索意图模型;所述搜索意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及搜索分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、搜索分类意图标签得到搜索意图损失函数;
根据所述搜索意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
第二智能音箱获取所在的第二特定空间的第二语音数据;
第二智能音箱将所述第二语音数据发送第二路由器,所述第二路由器包含第二意图识别模型;所述第二路由器通过第二意图识别模型将所述第二语音数据转化为第二文本数据,将所述第二文本数据转化为第二意图特征,根据第二意图特征输出第二意图结果;其中,所述第二文本数据包含意图关键字;
所述第二路由器将第二文本数据及第二意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第二文本数据转化为第四意图特征,根据第四意图特征输出第四意图结果;
所述总路由器分别计算所述意图关键字与所述第二意图结果、所述第四意图结果的相似度,得到第二特征相似度、第四特征相似度,确定所述第二特征相似度及第四特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第二智能音箱。
3.根据权利要求2所述的方法,其特征在于,所述第二意图识别模型包括训练后的电器控制意图模型;所述电器控制意图模型的训练步骤包括:
将语音数据转换为文本数据,得到文本数据训练集及电器控制分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
将所述编码特征进行池化操作,得到池化后的语音特征;
将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、电器控制分类意图标签得到电器控制意图损失函数;
根据所述电器控制意图损失函数调节该意图识别模型的参数,得到训练后的电器控制意图模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算歌曲意图损失函数、电器控制意图损失函数、搜索意图损失函数三者的综合损失函数;
根据所述综合损失函数调节意图识别模型的参数,得到训练后的综合意图识别模型。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取到预设时间间隔后未被重复提问的语音数据,将所述语音数据转化为文本数据训练集,将所述语音数据对应的意图结果确定为意图标签,通过所述文本数据训练集及意图标签训练初始的意图识别模型。
6.一种基于智能音箱的问答控制装置,其特征在于,包括:
第一获取模块,用于第一智能音箱获取所在的第一特定空间的第一语音数据;
第一输出模块,用于第一智能音箱将所述第一语音数据发送第一路由器,所述第一路由器包含第一意图识别模型;所述第一路由器通过第一意图识别模型将所述第一语音数据转化为第一文本数据,将所述第一文本数据转化为第一意图特征,根据第一意图特征输出第一意图结果;其中,所述第一文本数据包含意图关键字;
第一发送模块,用于所述第一路由器将第一文本数据及第一意图结果发送至总路由器;所述总路由器包含第三意图识别模型;所述总路由器通过所述第三意图识别模型将所述第一文本数据转化为第三意图特征,根据第三意图特征输出第三意图结果;
第一确定模块,用于所述总路由器分别计算所述意图关键字与所述第一意图结果、所述第三意图结果的相似度,得到第一特征相似度、第三特征相似度,确定所述第一特征相似度及第三特征相似度高的特征相似度为意图相似度,输出所述意图相似度对应的意图结果至第一智能音箱;
所述第一意图识别模型包括训练后的歌曲意图模型;所述歌曲意图模型的训练模块包括:
第一编码特征获取子模块,用于将语音数据转换为文本数据,得到文本数据训练集及歌曲分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
第一池化子模块,用于将所述编码特征进行池化操作,得到池化后的语音特征;
第一损失函数获取子模块,用于将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、歌曲分类意图标签得到歌曲意图损失函数;
第一调节子模块,用于根据所述歌曲意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型;
所述第三意图识别模型包括训练后的搜索意图模型;所述搜索意图模型的模块包括:
第三编码特征获取子模块,用于将语音数据转换为文本数据,得到文本数据训练集及搜索分类意图标签;将所述文本数据训练集进行编码特征转换,得到编码特征;
第三池化子模块,用于将所述编码特征进行池化操作,得到池化后的语音特征;
第三损失函数获取子模块,用于将所述语音特征输入至全连接层得到输出的估算意图,根据估算意图、搜索分类意图标签得到搜索意图损失函数;
第三调节子模块,用于根据所述搜索意图损失函数调节该意图识别模型的参数,得到训练后的歌曲意图模型。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的基于智能音箱的问答控制方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的基于智能音箱的问答控制方法的步骤。
CN202410101435.9A 2024-01-25 2024-01-25 基于智能音箱的问答控制方法、装置、计算机设备和介质 Active CN117672227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410101435.9A CN117672227B (zh) 2024-01-25 2024-01-25 基于智能音箱的问答控制方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410101435.9A CN117672227B (zh) 2024-01-25 2024-01-25 基于智能音箱的问答控制方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN117672227A CN117672227A (zh) 2024-03-08
CN117672227B true CN117672227B (zh) 2024-04-05

Family

ID=90079109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410101435.9A Active CN117672227B (zh) 2024-01-25 2024-01-25 基于智能音箱的问答控制方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN117672227B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
CN110347789A (zh) * 2019-06-14 2019-10-18 平安科技(深圳)有限公司 文本意图智能分类方法、装置及计算机可读存储介质
CN110517686A (zh) * 2019-09-26 2019-11-29 合肥飞尔智能科技有限公司 智能音箱端语音开通应用的方法及***
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN112565207A (zh) * 2020-11-20 2021-03-26 南京大学 一种非侵入式的智能音箱安全取证***及其方法
CN112687270A (zh) * 2020-12-22 2021-04-20 苏州思必驰信息科技有限公司 智能语音路由方法和装置
CN113343709A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 意图识别模型的训练方法、意图识别方法、装置及设备
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN116016002A (zh) * 2022-12-01 2023-04-25 海尔优家智能科技(北京)有限公司 智能家电配网方法、装置及电子装置
CN117093687A (zh) * 2023-08-03 2023-11-21 京东科技信息技术有限公司 问题应答方法和装置、电子设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11514897B2 (en) * 2020-09-25 2022-11-29 Genesys Telecommunications Laboratories, Inc. Systems and methods relating to bot authoring by mining intents from natural language conversations
US20230097940A1 (en) * 2021-09-27 2023-03-30 David Sandai Kurokawa System and method for extracting and using groups of features for interpretability analysis

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006053203A (ja) * 2004-08-10 2006-02-23 Sony Corp 音声処理装置および方法、記録媒体、並びにプログラム
CN110347789A (zh) * 2019-06-14 2019-10-18 平安科技(深圳)有限公司 文本意图智能分类方法、装置及计算机可读存储介质
CN110517686A (zh) * 2019-09-26 2019-11-29 合肥飞尔智能科技有限公司 智能音箱端语音开通应用的方法及***
CN111159346A (zh) * 2019-12-27 2020-05-15 深圳物控智联科技有限公司 基于意图识别的智能答疑方法、服务器及存储介质
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN112565207A (zh) * 2020-11-20 2021-03-26 南京大学 一种非侵入式的智能音箱安全取证***及其方法
CN112687270A (zh) * 2020-12-22 2021-04-20 苏州思必驰信息科技有限公司 智能语音路由方法和装置
CN113343709A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 意图识别模型的训练方法、意图识别方法、装置及设备
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN116016002A (zh) * 2022-12-01 2023-04-25 海尔优家智能科技(北京)有限公司 智能家电配网方法、装置及电子装置
CN117093687A (zh) * 2023-08-03 2023-11-21 京东科技信息技术有限公司 问题应答方法和装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN117672227A (zh) 2024-03-08

Similar Documents

Publication Publication Date Title
Zhang et al. Cooperative learning and its application to emotion recognition from speech
CN108694940B (zh) 一种语音识别方法、装置及电子设备
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
KR20190120353A (ko) 음성 인식 방법, 디바이스, 장치, 및 저장 매체
CN109684456B (zh) 基于物联网能力知识图谱的场景能力智能问答***
Vrysis et al. 1D/2D deep CNNs vs. temporal feature integration for general audio classification
CN112328849A (zh) 用户画像的构建方法、基于用户画像的对话方法及装置
CN112634897B (zh) 设备唤醒方法、装置和存储介质及电子装置
CN113813609B (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
CN116956835A (zh) 一种基于预训练语言模型的文书生成方法
CN113220828B (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN117672227B (zh) 基于智能音箱的问答控制方法、装置、计算机设备和介质
CN113823265A (zh) 一种语音识别方法、装置和计算机设备
CN111583938B (zh) 电子装置与语音识别方法
CN117453885A (zh) 提问信息处理方法、装置、设备、存储介质及产品
CN111026908B (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
Kai [Retracted] Optimization of Music Feature Recognition System for Internet of Things Environment Based on Dynamic Time Regularization Algorithm
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN115101052A (zh) 音频识别方法及计算机设备
CN103474063B (zh) 语音辨识***以及方法
CN111552778B (zh) 音频资源管理方法、装置、计算机可读存储介质及设备
CN113112969A (zh) 基于神经网络的佛教音乐记谱方法、装置、设备及介质
CN113838466B (zh) 语音识别方法、装置、设备及存储介质
KR102623467B1 (ko) 사용자 보컬 평가 정보에 기반한 기획사 추천 서비스 제공 방법, 장치 및 시스템
CN114512113B (zh) 一种音频合成方法及相关方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant