WO2023222090A1

WO2023222090A1 - 基于深度学习的信息推送方法和装置

Info

Publication number: WO2023222090A1
Application number: PCT/CN2023/095083
Authority: WO
Inventors: 曾谁飞; 孔令磊; 张景瑞; 李敏; 刘卫强
Original assignee: 青岛海尔电冰箱有限公司; 海尔智家股份有限公司
Priority date: 2022-05-20
Filing date: 2023-05-18
Publication date: 2023-11-23
Also published as: CN115098765A

Abstract

本发明提供一种基于深度学习的信息推送方法和装置，涉及计算机技术领域，所述方法包括步骤：获取实时语音数据，获取历史文本数据；转写实时语音数据为语音文本数据，提取语音文本数据文本特征；提取历史文本数据的文本特征；将实时语音数据文本特征和历史文本数据文本特征融合得到融合特征；对融合特征进行实体抽取和意图识别生成会话状态跟踪任务；基于会话状态跟踪任务计算结果信息；输出结果信息。

Description

基于深度学习的信息推送方法和装置

技术领域

本发明涉及计算机技术领域，具体地涉及一种基于深度学习的信息推送方法、和装置。

背景技术

伴随智能语音技术的快速发展及应用场景的成熟落地，目前冰箱在食材选择及推送方面普遍存在2个层面的问题，一是智能冰箱所使用的应用软件在进行食材信息推送时效率低而导致用户体验差；二是推送食材内容主题的准确率较低、或响应时间较慢。以上问题难以满足人们在日常生活之中使用冰箱的基本需求，甚至引起推送食材信息不准确或不对称信息。因此，如何使用智能语音技术推送食材内容已成为冰箱智能化、一体化的关键技术与迫切问题。特别是人类与机器的交互越来越频繁，简单、便捷的人机交互方式成为AI核心技术的根本特征及便利生活方式，这些交互方式离不开语音、文本、图像等多模态数据，针对这些多模态数据如何利用好及如何融合最有效的特征表示，从而为用户提供更加的使用体验效果，已成为学界、产业界及工业界面临的关键问题。

发明内容

本发明的目的在于提供一种基于深度学习的信息推送方法和装置。

本发明提供一种基于深度学习的信息推送方法，包括步骤：

获取实时语音数据，获取历史文本数据；

转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征；

提取所述历史文本数据的文本特征；

将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征；

对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务；

基于所述会话状态跟踪任务计算结果信息；

输出所述结果信息。

作为本发明的进一步改进，所述转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征，具体包括：

提取所述实时语音数据特征，得到语音特征；

将所述语音特征输入语音识别组件的深度神经网络模型转写得到第一语音文本向量；

将所述第一语音文本向量输入双向长短记忆网络模型，获取包含基于所述语音文本数据上下文特征信息的语音文本上下文特征向量。

作为本发明的进一步改进，所述提取所述实时语音数据特征，具体包括：

提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征。

作为本发明的进一步改进，提取所述历史文本数据的文本特征，具体包括：

将所述历史文本数据转化为历史文本词向量；

将所述历史文本词向量输入双向长短记忆网络模型，获取包含基于所述历史文本数据上下文特征信息的历史文本上下文特征向量。

作为本发明的进一步改进，还包括步骤：

基于注意力机制模型，增强所述语音文本数据和所述历史文本数据的文本特征。

作为本发明的进一步改进，所述基于注意力机制模型，增强所述语音文本数据和历史文本数据的文本特征，具体包括：

分别将所述语音文本上下文特征向量和所述历史文本上下文特征向量输入自注意力机制和全连接层的融合模型；

获取包含所述语音文本数据自身权重信息的语音文本注意力特征向量；

获取包含所述历史文本数据自身权重信息的历史文本注意力特征向量。

作为本发明的进一步改进，所述将所述实时语音数据文本特征和所述历史文本数据文本特征融合到融合特征向量，具体包括：

将所述语音文本注意力特征向量和所述历史文本注意力特征向量进行融合得到所述融合特征向量。

作为本发明的进一步改进，所述对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务，具体包括：

将所述融合特征向量输入双向长短记忆网络和卷积神经网络的组合模型进行实体抽取和意图识别生成所述会话状态跟踪任务。

作为本发明的进一步改进，所述基于所述会话状态跟踪任务计算结果信息，具体包括：

根据所述会话状态跟踪任务，并通过基于实体信息和意图识别所形成的***自有和历史积累形成的决策库、以及执行动作命令的引擎库，计算得到用以反馈的所述结果信息。

作为本发明的进一步改进，所述转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征；提取所述历史文本数据的文本特征，还包括：

获取存储于外部缓存的配置数据，将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算，进行文本转写和提取文本特征。

作为本发明的进一步改进，所述获取实时语音数据，具体包括：

获取语音采集装置所采集的所述实时语音数据，和/或

获取自客户终端传输的所述实时语音数据。

作为本发明的进一步改进，获取历史文本数据，具体包括：

获取内部存储的历史文本作为历史文本数据，和/或

获取外部存储的历史文本作为历史文本数据，和/或

获取客户终端传输的历史文本作为历史文本数据。

作为本发明的进一步改进，还包括步骤：

对所述实时语音数据进行预处理，包括：对所述实时语音数据进行分帧处理和加窗处理，

对所述历史文本数据进行预处理，包括：对所述语音文本数据进行清洗处理、标注、分词、去停用词。

作为本发明的进一步改进，所述输出所述结果信息包括：

将所述结果信息转换为语音进行输出，和/或

将所述结果信息转换为语音传输至客户终端输出，和/或

将所述结果信息转换为文本进行输出，和/或

将所述结果信息转换为文本传输至客户终端输出。

作为本发明的进一步改进，所述获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息，具体包括：

获取存储于外部缓存的配置数据，将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算，获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。

本发明还提供一种基于深度学习的信息推送装置，包括：

数据获取模块，用于获取实时语音数据和获取历史文本数据；

转写模块，用于转写所述实时语音数据为语音文本数据；

特征提取模块，用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征；

融合模块，用于将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征；

结果计算模块，用于对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务，并基于所述会话状态跟踪任务计算结果信息；

输出模块，用于输出所述结果信息。

本发明的有益效果是：本发明完成了对所获取的语音数据的识别与分类任务，并且通过获取历史文本数据，将历史文本数据作为预训练和预测模型的数据集的一部分，更全面地获取了文本语义特征信息，通过综合运用语音文本数据和历史文本数据，将历史文本数据作为补充数据，弥补了语音数据文本语义信息较少的问题，有效提高了文本分类准确度，从而提高了相关信息推送的准确率。并且，通过构建融合了ASR组件、上下文信息机制的神经网络模型提高了实时语音识别的精度；通过构建融合了上下文信息机制和自互注意力机制的神经网络模型，更充分地提取文本语义特征信息。另外，通过获取外部存储的配置数据进行计算，提高了模型的计算效率，从而降低了信息推送的响应时间。整体模型结构具有优秀的深度学习表征能力，语音识别精度高，对语音文本分类的准确率高，大幅提升了信息推送的准确率和效率。

附图说明

图1是本发明一实施方式中的基于深度学习的信息推送方法所涉及模型的结构框图。

图2是本发明一实施方式中的基于深度学习的信息推送方法步骤示意图。

图3本发明一实施方式中获取实时语音数据，获取历史文本数据步骤示意图。

图4是发明一实施方式中转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征步骤示意图。

图5是发明一实施方式中提取所述历史文本数据的文本特征步骤示意图。

图6是本发明一实施方式中的基于深度学习的信息推送装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

为方便说明，本文使用表示空间相对位置的术语来进行描述，例如“上”、“下”、“后”、“前”等，用来描述附图中所示的一个单元或者特征相对于另一个单元或特征的关系。空间相对位置的术语可以包括设备在使用或工作中除了图中所示方位以外的不同方位。例如，如果将图中的装置翻转，则被描述为位于其他单元或特征“下方”或“上方”的单元将位于其他单元或特征“下方”或“上方”。因此，示例性术语“下方”可以囊括下方和上方这两种空间方位。

如图1所示，为本发明所提供的一种基于深度学习的信息推送方法所涉及模型的结构框图，如图2所示，为基于深度学习的信息推送方法步骤示意图，其包括：

S1：获取实时语音数据，获取历史文本数据。

S2：转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征。

S3：提取所述历史文本数据的文本特征。

S4：将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征。

S5：对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务。

S6：基于所述会话状态跟踪任务计算结果信息。

S7：输出所述结果信息。

本发明提供的方法可供智能电子设备基于用户的实时语音输入，来实现与用户之间的实时交互或消息推送等功能。示例性的，在本实施方式中，以智能冰箱为例，并结合预先训练好的深度学习模型对本方法进行说明。基于用户的语音输入，智能冰箱对用户语音所对应的文本内容进行分类，并根据分类结果信息计算需要输出的结果信息。

如图3所示，在步骤S1中，其具体包括：

S11：获取语音采集装置所采集的所述实时语音数据，和/或

获取自客户终端传输的所述实时语音数据。

S12：获取内部存储的历史文本作为历史文本数据，和/或

获取外部存储的历史文本作为历史文本数据，和/或

获取客户终端传输的历史文本作为历史文本数据。

这里所述的实时语音指的是用户当前对智能电子设备或对与智能电子设备通信连接的客户终端设备等说出的询问性或指令性语句等。如在本实施方式中，用户可提出诸如“今天冰箱里有啥蔬菜”、“今天有什么菜谱推荐”等问题，或用户可发出诸如“提醒冰箱里快到期的酸奶”、“给出当季的水果”等命令指令。基于上述信息，智能冰箱的处理器通过本发明所提供的方法进行语音识别后，与用户进行实时语音交互或推送相关信息。

这里所述的历史文本数据指的是在以往使用过程中，用户的实时语音所转写成的语音文本数据，进一步的，其还可包括用户自行输入的历史文本数据等。具体的，在本实施方式中，其可包括：以往用户提问或发出指令后，相关问题和指令所转写成的文本；以往使用过程中用户依据放入的物品发出的说明性语音所转写的文本，如“今天放入了一个西瓜”、“冰箱里还剩3瓶酸奶”等；以往使用过程中用户对食材进行的评论所转写的文本，如“今天放进去的辣椒很辣”“某种品牌的酸奶很好喝”等；或者用户在以往使用过程中其他自行输入的文本数据等。在不同实施方式中，可以根据需要选择以上历史文本中的一种或多种作为本方法所需的所述历史文本数据。

如步骤S11所述，在本实施方式中，可通过设置于智能冰箱内的拾音器、麦克风阵列等语音采集装置采集用户实时语音，在使用过程中，当用户需要与智能冰箱进行交互时，直接对智能冰箱发出语音即可。并且，也可通过与智能冰箱基于无线通信协议连接的客户终端获取传输而来的用户实时语音，客户终端为具有信息发送功能的电子设备，如手机、平板电脑、智能音响、智能手环或蓝牙耳机等智能电子设备，在使用过程中，用户直接对客户终端发出语音，客户终端采集语音后通过wifi或蓝牙等无线通信方式传输至智能冰箱。从而实现多渠道的实时语音获取方式，并不局限于必须面向智能冰箱发出语音。当用户有交互需求时，通过任意便捷渠道发出实时语音即可，从而能够显著提高用户的使用便捷度。在本发明的其他实施方式中，也可采用上述实时语音获取方法中一种或任意多种，或者也可基于现有技术通过其他渠道获取所述实时语音，本发明对此不作具体限制。

如步骤S12所述，在本实施方式中，可通过读取智能冰箱的内部存储器所存储的历史文本来获取所述历史文本数据。并且，也可通过读取智能冰箱配置的外部存储装置所存储的历史文本来获取所述历史文本数据，外部存储装置为诸如U盘、SD卡等移动存储设备，通过设置外部存储装置可进一步拓展智能冰箱的存储空间。并且，也可通过获取存储在诸如手机、平板电脑等客户终端或应用软件服务器端等处的所述历史文本数据。实现多渠道的历史文本获取渠道，能够大幅提高历史文本信息的数据量，从而提高后续语音识别的准确度。在本发明的其他实施方式中，也可采用上述历史文本数据获取方法中的一种或任意多种，或者也可基于现有技术通过其他渠道获取所述历史文本数据，本发明对此不作具体限制。

进一步的，在本实施方式中，智能冰箱配置有外部缓存，至少有部分所述历史文本数据被储存在所述外部缓存中，随着使用时间增加，历史文本数据增多，通过将部分数据存储在外部缓存中，能够节省智能冰箱内部存储空间，并且在进行神经网络计算时，直接读取存储于外部缓存中的所述历史文本数据，能够提高算法效率。

具体的，在本实施方式中，采用Redis组件作为所述外部缓存，Redis组件为当前一种使用较为广泛的key/value存储结构的分布式缓存***，其可用作数据库，高速缓存和消息队列代理。在本发明的其他实施方式中也可采用诸如Memcached等其他外部缓存，本发明对此不作具体限制。

综上所述，在步骤S11和步骤S12中，能够通过多渠道灵活获取包含物品信息的实时语音数据和历史文本数据，在提升了用户体验的同时，保证了数据量，并有效提升了算法效率。

进一步的，步骤S1还包括对数据进行预处理的步骤，其包括：

S13：对所述实时语音数据进行预处理，包括：对所述实时语音数据进行分帧处理和加窗处理。

S14：对所述历史文本数据进行预处理，包括：对所述语音文本数据进行清洗处理、标注、分词、去停用词。

具体的，在步骤S13中，将语音根据指定的长度(时间段或者采样数)进行分段，结构化为可编程的数据结构，完成对语音的分帧处理得到语音信号数据。接着，将语音信号数据与一个窗函数相乘，使原本没有周期性的语音信号呈现出周期函数的部分特征，完成加窗处理。进一步的，还可在分帧处理之前进行预加重处理，对语音的高频部分进行加重，以消除发声过程中***辐射的影响，从而补偿语音信号受到发音***所压抑的高频部分，并能突显高频的共振峰。并且，在加窗处理之后还可进行过滤音频噪音点处理和增强人声处理等步骤，从而完成对所述实时语音数据的加强，提取得到所述实时语音的特征参数，使所述实时语音数据符合后续神经网络模型的输入要求。

具体的，在步骤S14中，删除历史文本数据集中的无关数据、重复数据以及处理异常值和缺失值数据等，初步筛选掉与分类无关的信息，对所述历史文本数据进行清洗处理。接着，基于规则统计的方法等对所述历史文本数据进行类别标签标注，以及基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法等对所述历史文本数据进行分词处理。之后，去除停用词，完成对所述历史文本数据的预处理，从而使所述历史文本数据符合后续神经网络模型的输入要求。

在步骤S13和步骤S14中，对所述实时语音数据和所述历史文本数据预处理所采用的的具体算法可参考当前本领域现有技术，具体在此不再赘述。

如图4所示，在步骤S2中，其具体包括步骤：

S21：提取所述实时语音数据特征，得到语音特征。

S22：将所述语音特征输入语音识别组件的深度神经网络模型转写得到第一语音文本向量。

S23：将所述第一语音文本向量输入双向长短记忆网络模型，获取包含基于所述语音文本数据上下文特征信息的语音文本上下文特征向量。

在步骤S21中，提取所述实时语音数据特征具体包括：

提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征(Mel-scale Frequency Cepstral Coefficients，简称MFCC)。MFCC是一种语音信号中具有辨识性的成分，是在Mel标度频率域提取出来的倒谱参数，其中，Mel标度描述了人耳频率的非线性特性，MFCC的参数考虑到了人耳对不同频率的感受程度，特别适用于语音辨别和语者辨识。

示例性的，步骤S21可包括：

将预处理后的所述实时语音数据经过快速傅里叶变换后得到各帧实时语音数据信号的能量谱，并将能量谱通过一组Mel尺度的三角形滤波器组来对频谱进行平滑化，消除谐波的作用，突显实时语音的共振峰，之后在进一步通过对数运算和离散余弦变换后得到MFCC系数特征。

在本发明的其他实施方式中，也可通过不同算法步骤获取所述实时语音数据的感知线性预测特征(Perceptual Linear Predictive，简称PLP)或线性预测系数特征(Linear Predictive Coding，简称LPC)等特征参数来取代MFCC特征，具体可基于实际模型参数和本方法实际应用的领域而进行具体选择，本发明对此不做具体限制。

上述步骤中所涉及的具体的算法步骤可参考当前本领域现有技术，具体在此不再赘述。

在步骤S22中，通过预语音识别(Automatic Speech Recognition，简称ASR)组件的深度神经网络模型完成对所述实时语音数据的文本内容转写，得到所述第一语音文本向量。

在本实施方式中，通过深度神经网络模型来完成语音识别，相比于现有技术中常用的高斯混合模型等模型，深度神经网络模型避免了声学特征需要服从独立同分布的假设，与高斯混合模型中的网络输入不同，深度神经网络模型由相邻的若干帧拼接重叠得到，从而能够更好地利用上下文的信息，获取更多语音特征信息，具有更高的语音识别精度。

在步骤S23中，双向长短记忆网络(Bi-directional Long Short-Term Memory，简写BiLSTM)由前向长短记忆网络(Long Short-Term Memory，简写LSTM)和后向长短记忆网络组合而成，LSTM模型能够更好地获取文本语义长距离的依赖关系，而在其基础上，BiLSTM模型能更好地获取文本双向语义。将所述第一语音文本向量输入BiLSTM模型中，经过前向LSTM和后向LSTM后，得到每个时间步输出的表示有效信息的隐藏层状态，输出带有语境上下文信息的所述语音文本上下文特征向量。

在本发明的其他实施方式中，也可通过构建其他结构神经网络模型或者通过高斯混合模型等模型等来将所述实时语音数据转写为所述语音文本数据，只要能够将所述实时语音数据转写为所述语音文本数据即可。

进一步的，在本实施方式中，步骤S2还可包括：

获取存储于外部缓存的配置数据，将所述语音文本数据基于所述配置数据执行深度神经网络计算，进行文本转写和提取文本特征。

将相关模型的配置数据存储在所述外部缓存中，并配合用以访问所述外部缓存的接口，可快速、高效地读取和更新模型配置数据，从而提高计算效率，有效解决了所述历史文本数据量较大带来的时间响应和空间计算复杂度等问题，从而提升用户的使用体验。

与上文所述类似，可使用Redis组件作为所述外部缓存。

综上所述，通过步骤S2完成了对所述实时语音数据的文本转写及特征提取。

如图5所示，在步骤S3中，其具体包括：

S31：将所述历史文本数据转化为历史文本词向量。

S32：将所述历史文本词向量输入双向长短记忆网络模型，获取包含基于所述历史文本数据上下文特征信息的历史文本上下文特征向量。

在步骤S31中，为了将文本数据转化为计算机能够识别和处理的向量化形式，可通过Word2Vec算法，将所述历史文本数据转化为所述历史文本词向量，或者也可通过其他诸如Glove算法等本领域现有算法转化得到所述词向量，本发明对此不做具体限制。

在步骤S32中，与上述类似，通过BiLSTM模型得到带有语境上下文信息的所述历史文本上下文特征向量。

在本发明的其他实施方式中，也可采用诸如门控循环单元(Gated Recurrent Unit，简写GRU)网络等本领域常见的循环网络模型来提取上下文特征信息，本发明对此不作具体限制。

进一步的，在本实施方式中，步骤S3还可包括：

获取存储于外部缓存的配置数据，将所述历史文本数据基于所述配置数据执行深度神经网络计算，提取文本特征。

与上文所述类似，可使用Redis组件作为所述外部缓存。

从而，通过步骤S2和S3分别完成了对所述语音文本数据和所述历史文本数据的特征提取，分别得到了不同的语义特征信息并进而提取了上下文特征信息，提升了物品分类的准确性，避免有用信息的丢失或过滤，提升了模型的性能。

进一步的，在本发明一些实施方式中，在步骤S3之后，还包括步骤：

S3a：基于注意力机制模型，增强所述语音文本数据和所述历史文本数据的文本特征。

具体的，步骤S3a包括：

注意力机制可以引导神经网络去关注更为关键的信息而抑制其他非关键的信息，因此，通过引入注意力机制，能够得到所述输出文本数据的局部关键特征或权重信息，从而进一步减少模型训练时序列的不规则误差对齐现象。

这里，通过自注意力机制和全连接层相融合的模型将输入的所述语音文本上下文特征向量和所述历史文本上下文特征向量赋予其自身权重信息，从而更好的获得所述语音文本数据和所述历史文本数据文本语义特征的内部权重信息，以增强文本语义特征信息不同部分的重要性，使得模型的可解释性进一步优化。

进一步的，在本发明的其他实施方式中，也可在步骤S3a的基础上基于互注意力机制模型，对所述语音文本上下文特征向量和所述历史文本上下文特征向量赋予其相互之间的关联权重信息，从而获得所述语音文本数据和所述历史文本数据之间的关联权重信息。或通过其他算法模型完成对所述语音文本数据和所述历史文本数据的文本特征增强。

在本发明的其他实施方式中，可以根据需要调整深度神经网络各层的排列顺序或省略部分层，只要能够完成对所述语音文本数据和所述历史文本数据的文本分类即可，本发明对此不作具体限制。

在步骤S4中，其具体包括：

将所述语音文本注意力特征向量和所述历史文本注意力特征向量进行融合得到所述融合特征向量。多模态融合的所述融合特征向量融合了文本语义的上下文信息、历史数据特征等最优表征能力，具有丰富的语义特征信息，从而能够获得到优秀的文本、语音表征能力。

需要说明的是，在目前的神经网络模型中，多模态的融合和多模态联合特征表示之间已经没有明确的界限，因此，在本发明的一些实施方式中，步骤S4也可为：将所述语音文本注意力特征向量和所述历史文本注意力特征向量共同映射到一个统一多模态向量空间进行联合表示得到所述联合特征向量。多模态融合以及多模态联合特征表示均是为了将所述实时语音数据和所述历史文本组合，更好地提取和表示两者的特征信息。

在步骤S5中，其具体包括：

具体的，在本实施方式中，在步骤S5中，所采用的卷积神经网络由2层卷积层和一层最大池化构成。

在步骤S6中，其具体包括：

根据所述会话状态跟踪任务，并通过基于实体信息和意图识别所形成的***自有和历史积累形成的决策库、以及执行动作命令的引擎库，计算所要执行的下一步动作信息，得到用以反馈的所述结果信息。

综上所述，本发明所提供的方法依次通过上述步骤，完成了对所获取的语音数据的识别与分类任务，并且通过获取所述历史文本数据，将所述历史文本数据作为预训练和预测模型的数据集的一部分，更全面地获取了文本语义特征信息，通过综合运用所述语音文本数据和所述历史文本数据，将所述历史文本数据作为补充数据，弥补了所述语音数据文本语义信息较少的问题，有效提高了文本分类准确度。并且，通过构建融合了ASR组件、上下文信息机制的神经网络模型提高了实时语音识别的精度；通过构建融合了上下文信息机制和自互注意力机制的神经网络模型，更充分地提取文本语义特征信息。另外，通过获取外部存储的配置数据进行计算，提高了模型的计算效率。整体模型结构具有优秀的深度学习表征能力，提高了对语音文本分类的准确率，从而大幅提升了对物品类别进行分类的准确率和泛化能力。

在步骤S7中，其具体包括：

将所述结果信息转换为语音进行输出，和/或

将所述结果信息转换为语音传输至客户终端输出，和/或

将所述结果信息转换为文本进行输出，和/或

将所述结果信息转换为文本传输至客户终端输出。

如步骤S7所述，在本实施方式中，在通过前述步骤获得分类结果信息并判断得到结果信息后，可将其转换为语音，通过智能冰箱内置的声音播放设备播报所述结果信息，从而直接与用户进行语音交互，或者也可将所述结果信息转换为文本，直接通过智能冰箱配置的显示装置显示。并且，也可将结果信息语音通信传输至客户终端输出，这里，客户终端为具有信息接收功能的电子设备，如将语音传输至手机、智能音响、蓝牙耳机等设备进行播报，或将分类结果信息文本通过短信、邮件等方式通讯传输至诸如手机、平板电脑等客户终端或客户终端安装的应用软件，供用户查阅。从而实现多渠道多种类的分类结果信息输出方式，用户并不局限于只能在智能冰箱附近处获得相关信息，配合本发明所提供的多渠道多种类实时语音获取方式，使得用户能够直接在远程与智能冰箱进行交互，具有极高的便捷性，大幅提高了用户使用体验。在本发明的其他实施方式中，也可仅采用上述分类结果信息输出方式中的一种或几种，或者也可基于现有技术通过其他渠道输出分类结果信息，本发明对此不作具体限制。

综上所述，本发明提供的一种基于深度学习的信息推送方法，其通过多渠道获取包含物品信息的实时语音数据，在将实时语音数据进行文本转写后，结合历史文本数据通过深度神经网络模型充分提取了文本语义特征，获得结果信息后通过多渠道进行输出，显著改善语音识别精度和物品类别判断准确率的同时，使得交互方式更加便捷多元，大幅提高用户体验。

基于同一发明构思，本发明还提供一种基于深度学习的信息推送装置8，其包括：

数据获取模块81，用于获取实时语音数据和获取历史文本数据；

转写模块82，用于转写所述实时语音数据为语音文本数据；

特征提取模块83，用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征；

融合模块84，用于将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征；

结果计算模块85，用于对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务，并基于所述会话状态跟踪任务计算结果信息；

输出模块86，用于输出所述结果信息。

基于同一发明构思，本发明还提供一种电器设备，其包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现上述的基于深度学习的信息推送方法。

基于同一发明构思，本发明还提供一种冰箱，其包括：

存储器，用于存储可执行指令；

基于同一发明构思，本发明还提供一种计算机可读存储介质，其存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现上述的基于深度学习的信息推送方法。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

一种基于深度学习的信息推送方法，其特征在于，包括步骤：

获取实时语音数据，获取历史文本数据；

转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征；

提取所述历史文本数据的文本特征；

将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征；

对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务；

基于所述会话状态跟踪任务计算结果信息；

输出所述结果信息。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，所述转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征，具体包括：

提取所述实时语音数据特征，得到语音特征；

将所述语音特征输入语音识别组件的深度神经网络模型转写得到第一语音文本向量；

将所述第一语音文本向量输入双向长短记忆网络模型，获取包含基于所述语音文本数据上下文特征信息的语音文本上下文特征向量。
根据权利要求2所述的基于深度学习的信息推送方法，其特征在于，所述提取所述实时语音数据特征，具体包括：

提取所述实时语音数据特征，获取其梅尔频率倒谱系数特征。
根据权利要求2所述的基于深度学习的信息推送方法，其特征在于，提取所述历史文本数据的文本特征，具体包括：

将所述历史文本数据转化为历史文本词向量；

将所述历史文本词向量输入双向长短记忆网络模型，获取包含基于所述历史文本数据上下文特征信息的历史文本上下文特征向量。
根据权利要求4所述的基于深度学习的信息推送方法，其特征在于，还包括步骤：

基于注意力机制模型，增强所述语音文本数据和所述历史文本数据的文本特征。
根据权利要求5所述的基于深度学习的信息推送方法，其特征在于，所述基于注意力机制模型，增强所述语音文本数据和历史文本数据的文本特征，具体包括：

分别将所述语音文本上下文特征向量和所述历史文本上下文特征向量输入自注意力机制和全连接层的融合模型；

获取包含所述语音文本数据自身权重信息的语音文本注意力特征向量；

获取包含所述历史文本数据自身权重信息的历史文本注意力特征向量。
根据权利要求6所述的基于深度学习的信息推送方法，其特征在于，所述将所述实时语音数据文本特征和所述历史文本数据文本特征融合到融合特征向量，具体包括：

将所述语音文本注意力特征向量和所述历史文本注意力特征向量进行融合得到所述融合特征向量。
根据权利要求7所述的基于深度学习的信息推送方法，其特征在于，所述对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务，具体包括：

将所述融合特征向量输入双向长短记忆网络和卷积神经网络的组合模型进行实体抽取和意图识别生成所述会话状态跟踪任务。
根据权利要求7所述的基于深度学习的信息推送方法，其特征在于，所述基于所述会话状态跟踪任务计算结果信息，具体包括：

根据所述会话状态跟踪任务，并通过基于实体信息和意图识别所形成的***自有和历史积累形成的决策库、以及执行动作命令的引擎库，计算得到用以反馈的所述结果信息。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，所述转写所述实时语音数据为语音文本数据，提取所述语音文本数据文本特征；提取所述历史文本数据的文本特征，还包括：

获取存储于外部缓存的配置数据，将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算，进行文本转写和提取文本特征。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，所述获取实时语音数据，具体包括：

获取语音采集装置所采集的所述实时语音数据，和/或

获取自客户终端传输的所述实时语音数据。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，获取历史文本数据，具体包括：

获取内部存储的历史文本作为历史文本数据，和/或

获取外部存储的历史文本作为历史文本数据，和/或

获取客户终端传输的历史文本作为历史文本数据。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，还包括步骤：

对所述实时语音数据进行预处理，包括：对所述实时语音数据进行分帧处理和加窗处理，

对所述历史文本数据进行预处理，包括：对所述语音文本数据进行清洗处理、标注、分词、去停用词。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，所述输出所述结果信息包括：

将所述结果信息转换为语音进行输出，和/或

将所述结果信息转换为语音传输至客户终端输出，和/或

将所述结果信息转换为文本进行输出，和/或

将所述结果信息转换为文本传输至客户终端输出。
根据权利要求1所述的基于深度学习的信息推送方法，其特征在于，所述获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息，具体包括：

获取存储于外部缓存的配置数据，将所述语音文本数据和所述历史文本数据基于所述配置数据执行深度神经网络计算，获取所述实时语音数据和所述历史文本数据的上下文信息和权重信息。
一种基于深度学习的信息推送装置，其特征在于，包括：

数据获取模块，用于获取实时语音数据和获取历史文本数据；

转写模块，用于转写所述实时语音数据为语音文本数据；

特征提取模块，用于提取所述语音文本数据文本特征和提取所述历史文本数据的文本特征；

融合模块，用于将所述实时语音数据文本特征和所述历史文本数据文本特征融合得到融合特征；

结果计算模块，用于对所述融合特征进行实体抽取和意图识别生成会话状态跟踪任务，并基于所述会话状态跟踪任务计算结果信息；

输出模块，用于输出所述结果信息。