CN117033556A

CN117033556A - 基于人工智能的记忆保存和记忆提取方法及相关设备

Info

Publication number: CN117033556A
Application number: CN202311051700.9A
Authority: CN
Inventors: 凌瑞端; 宋少鹏
Original assignee: Sugr Electronics Corp
Current assignee: Sugr Electronics Corp
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-10

Abstract

本申请涉及人工智能技术领域，尤其涉及一种基于人工智能的记忆保存和记忆提取方法及相关设备。本申请通过采集用户所在场景的视频数据和音频数据，分别进行处理得到图像信息与音频信息后，再进行分类识别，得到记忆原始文本；调用大语言模型对记忆原始文本进行处理，并将处理得到的记忆摘要与记忆原始文本存储在数据库中。在接收到用户针对过往发生事情的查询问题时，在数据库中查询并输出与查询问题对应的记忆摘要。本申请能够填补用户记忆的不足，减少用户记忆遗漏和记忆失误的可能性，减少用户脑力负担，提高工作效率和生活质量；另外基于用户输入的查询问题输出问答结果，形成记忆保存和记忆提取的闭环，方便用户使用，提高用户工作生活效率。

Description

基于人工智能的记忆保存和记忆提取方法及相关设备

技术领域

本申请涉及人工智能技术领域，尤其是涉及一种基于人工智能的记忆保存和记忆提取方法及相关设备。

背景技术

互联网的出现与普及给用户带来了大量的信息，使得人类需要处理的信息越来越多，导致了人类存在记忆信息遗漏的现象。随着人工智能的不断发展，虽然出现了许多帮助人类完成记忆的工具，比如纸质笔记本，电脑上的笔记软件，视频会议的会议纪要软件等，但这些都需要人类主动的去打开使用，存在不方便携带和使用问题。

发明内容

有鉴于此，本申请提供一种基于人工智能的记忆保存和记忆提取方法及相关设备，用于填补用户记忆的不足，减少用户记忆遗漏和记忆失误的可能性，并解决现有技术存在的不方便携带和使用的技术问题。

本申请的第一方面提供基于人工智能的记忆保存和记忆提取方法，所述方法包括：

采集用户所在场景的视频数据和音频数据用户所在场景的；

对所述视频数据进行处理得到图像信息，及对所述音频数据进行处理得到音频信息；

对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本；

调用大语言模型对所述记忆原始文本进行处理，并将处理得到的记忆摘要与所述记忆原始文本存储在数据库中；

接收到所述用户的查询问题时，在所述数据库中查询并输出与所述查询问题对应的记忆摘要。

在一个可选的实施方式中，所述对所述视频数据进行处理得到图像信息包括：

结合场景变换检测算法和速率预测算法对所述视频数据进行动态分帧采集，得到多个图像数据；

对每个所述图像数据进行内容分割，得到图像数据块；

对所述图像数据块进行图像识别，得到所述图像信息。

在一个可选的实施方式中，所述结合场景变换检测算法和速率预测算法对所述视频数据进行动态分帧采集，得到多个图像数据包括：

运用场景变化检测算法对所述视频数据进行场景检测，得到视频场景类型；

运用速率预测算法对每一种视频场景类型对应的视频数据进行自适应变换速率预测；

当预测的变换速率高于预设速率阈值时，采用第一预设帧率对所述视频数据进行帧率采集，得到所述视频场景类型对应的多个图像数据；

当预测的变换速率低于所述预设速率阈值时，采用第二预设帧率对所述视频数据进行帧率采集，得到所述视频场景类型对应的多个图像数据；

其中，所述第一预设帧率大于所述第二预设帧率。

在一个可选的实施方式中，所述对所述音频数据进行处理得到音频信息包括：

对所述音频数据进行分帧采集，得到多个子音频数据；

根据场景变换检测算法检测所述音频数据的采集场景是否发生变换；

当所述音频数据的采集场景发生变换时，对所述采集场景发生变换的子音频数据进行场景分类，得到音频场景类型；

对每个所述子音频数据进行音频分层，得到分层音频；

对所述分层音频进行音频识别，得到所述音频信息。

在一个可选的实施方式中，所述对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本包括：

对所述图像信息进行分类识别得到图像文本，对所述音频信息进行分类识别得到音频文本，对所述图像文本及所述音频文本进行语义关联，得到所述记忆原始文本。

在一个可选的实施方式中，所述对所述图像文本及所述音频文本进行语义关联包括：

基于场景或时间或地点或主题将所述图像文本及所述音频文本进行语义关联，以对所述图像文本及所述音频文本进行结构化合并。

在一个可选的实施方式中，所述方法还包括：

根据所述视频场景类型对对应的所述图像信息进行分类压缩存储；及

将所述音频场景类型及对应的所述音频信息进行存储。

在一个可选的实施方式中，当所述查询问题为所述用户通过语音形式输入的语音查询问题时，所述在所述数据库中查询并输出与所述查询问题对应的记忆摘要包括：

对所述语音查询问题进行语音识别，得到文本查询问题；

在所述数据库中查询并输出与所述文本查询问题对应的记忆摘要。

本申请的第二方面提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的基于人工智能的记忆保存和记忆提取方法的步骤。

本申请的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的基于人工智能的记忆保存和记忆提取方法的步骤。

综上所述，本申请实施例提供的基于人工智能的记忆保存和记忆提取方法及相关设备，采集用户所在场景的视频数据和音频数据，并分别进行处理得到图像信息与音频信息后，对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本，调用大语言模型对所述记忆原始文本进行处理，并将处理得到的记忆摘要与所述记忆原始文本存储在数据库中，能够填补用户记忆的不足，减少用户记忆遗漏和记忆失误的可能性，减少用户脑力负担，提高工作效率和生活质量；另外基于用户输入的查询问题输出问答结果，形成记忆保存和记忆提取的闭环，可以方便用户使用，提高用户工作生活效率。

附图说明

图1是本申请实施例示出的基于人工智能的记忆保存和记忆提取方法的流程图；

图2是本申请实施例示出的对视频数据进行处理的数据流图；

图3是本申请实施例示出的对视频数据进行处理的流程图；

图4是本申请实施例示出的对音频数据进行处理的数据流图；

图5是本申请实施例示出的对音频数据进行处理的流程图；

图6是本申请实施例示出的一种电子设备的结构图；

图7是本申请实施例示出的另一种电子设备的结构图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

图1是本申请实施例示出的基于人工智能的记忆保存和记忆提取方法的流程图。所述基于人工智能的记忆保存和记忆提取方法可以由电子设备执行，所述基于人工智能的记忆保存和记忆提取方法具体包括以下步骤。

S11，采集用户所在场景的视频数据和音频数据。

将用户所在场景的数据实时采集起来，作为记忆进行存储处理，起到记忆保存作用；后续当用户遗忘或者模糊不清时，可以从存储的数据中进行查找或检索，从而起到记忆提取的作用。用户所在场景的数据包括用户所在场景的视频数据和音频数据。

用户所在场景的视频数据可以包括用户面前的视觉信息及用户在用户端设备（例如，电脑）的显示器上浏览的所有图像信息。用户所在场景的音频数据可以包括用户面前的听觉信息及用户端设备（例如，电脑）的麦克风接收到的所有声音信息。采集用户所在场景的视频数据和音频数据相当于将用户所能见到的视觉信息及所能听到的听觉信息全部收集起来。

在一些实施例中，可以利用图像采集设备采集用户所在场景的视频数据，所述图像采集设备可以内置于电子设备中，例如，电子设备的摄像头，也可以独立于电子设备外。当图像采集设备独立于电子设备外时，图像采集设备可以通过有线或者无线的方式将采集到的用户所在场景的视频数据传输给电子设备。

在一些实施例中，可以利用音频采集设备采集用户所在场景的音频数据，所述音频采集设备可以内置于电子设备中，例如，电子设备的麦克风，也可以独立于电子设备外。当音频采集设备独立于电子设备外时，音频采集设备可以通过有线或者无线的方式将采集到的用户所在场景的音频数据传输给电子设备。

在一些实施例中，所述电子设备可以为手环式、眼镜式、项链式、头盔式或者手持式的设备，只要是能够实现本申请实施例提供的基于人工智能的记忆保存和记忆提取方法的设备，无论结构形式如何，均可包含在本申请中。

S12，对所述视频数据进行处理得到图像信息，及对所述音频数据进行处理得到音频信息。

在对所述视频数据进行处理时，一并参阅图2和图3所示，对所述视频数据进行处理得到图像信息的方法具体包括以下步骤：

S21，结合场景变换检测算法和速率预测算法对所述视频数据进行动态分帧采集，得到多个图像数据。

由于考虑到所述视频数据不是用于观看或通信，所以分帧频率可以设置为每秒一帧或多秒一帧，即通过循环逐帧读取视频数据，每秒读取一帧或每秒读取多帧，以实现对视频数据的动态分帧采集。

其中，所述第一预设帧率大于所述第二预设帧率。

本申请实施例可以根据所需应用场景和***要求，设定初始的采集帧率，例如15帧/秒。先使用初始的采集帧率对视频数据进行分帧采集，并记录采集到的每帧图像数据的时间戳和帧率信息。

同时对采集的图像数据进行分析，使用场景变换检测来检测视频数据的采集场景是否发生了变换。可以采用背景差分法、帧间差分法、光流法、背景建模法、特征点匹配等来检测采集场景是否发生变化，如物体移动、光照变化、物品出现/消失等。示例性的，电子设备可以获取图像数据的色彩信息的加权均值，根据所述色彩信息的加权均值计算前后两个图像数据的帧间差分。其中，色彩信息可以包括，但不限于：亮度信息、色度信息、饱和度信息、纹理信息等。所述图像数据的色彩信息的加权均值可以通过将所述图像数据从RGB色彩空间转换为HSV（色调、饱和度、亮度）色彩空间，对于所述图像数据的每个像素，提取每个像素亮度通道的值，并为每个像素的亮度值分配一个权重，将每个像素的亮度值乘以其对应的权重得到多个加权值，然后将多个加权值相加并除以总权重之和，则可以得到所述图像数据的色彩信息的加权均值，从而得到前后两个图像数据的帧间差分。当确定所述帧间差分大于预设差分阈值时，表明前后两个所述图像数据之间具有较大的差别，则确定所述视频数据的采集场景发生变换；当确定所述帧间差分小于所述预设差分阈值时，表明前后两个所述图像数据之间几乎相同或者有较小的差别，则确定所述视频数据的采集场景没有发生变换。

在当前采集场景，触发变换速率预测和采集帧率调整的逻辑。在采集场景发生了变换时，再次触发变换速率预测和采集帧率调整的逻辑。使用机器学习、统计分析或其他算法预测场景的变化速率。对过去一段时间内的帧率、变换频率、变换幅度等数据进行分析和建模，以估计未来的变换速率。可以使用历史数据的回归分析、时间序列分析或者基于模型的预测方法来进行变换速率的预测。

根据变换速率的预测结果，决定采集的帧率应该增加还是减少。若预测的变换速率快，代表视频数据变化频繁，应采用较快的帧率进行采集，提供更流畅的画面。若预测的变换速率慢，代表视频数据变化缓慢，可以降低帧率进行采集，节省存储空间和处理资源。

示例性的，在当前场景，进行自适应变换速率预测，对于变换速率快（即，预测的变换速率高于预设速率阈值）的视频数据采用快帧率（第一预设帧率）进行采集，比如，行驶在马路上时，针对汽车前窗，可以使用120帧/秒的帧率进行视频数据的采集；对于变换速率慢（即，预测的变换速率低于预设速率阈值）的视频数据采用慢帧率（第二预设帧率）进行采集，比如，正在阅读书籍时，每分钟翻一页，可以使用1帧/分的帧率进行视频数据的采集。当检测视频数据的采集场景发生了变换时，标记为新的场景类型，对于新的场景类型，进行自适应变换速率预测，对于变换速率快的场景采用快帧率采集，对于变换速率慢的场景采用慢帧率采集。如此重复，直至用户关闭图像采集设备为止，得到多个视频场景类型，每个视频场景类型对应多个图像数据。

本申请上述实施例，一边进行视频数据的采集，一边利用场景变换检测算法检测视频数据的采集场景是否发生变换。并在检测到采集场景发生了变换时，触发变换速率的预测及采集帧率的调整的逻辑。本申请实施例结合了实时视频数据采集、场景变换检测和变换速率预测，来动态调整采集帧率以适应不同场景下的变化。对于变换较快的动态场景，使用较快的帧率进行采集，可以精准地捕获采集场景的变化细节，提高存储效率和后续视频数据处理的质量；对于静态或变化较慢的场景，使用较慢的帧率进行采集，可以减少不必要的图像数据处理和计算资源使用，节省存储空间和传输带宽，从而提高对视频数据进行处理的效率。

需要说明的是，有了场景变换才会触发场景分类，没有场景变换不会触发场景分类，场景分类包括了场景识别。对所述图像数据进行场景分类得到视频场景类型可以根据具体任务或用户需求进行灵活设计和调整。

在一些实施例中，可以利用支持向量机（Support Vector Machine，SVM）、随机森林（Random Forest）、深度神经网络等训练场景分类模型，电子设备可以使用训练完成的场景分类模型对所述采集场景发生变换的图像数据进行场景分类，得到场景类型。为便于与下文进行区分，将对图像数据进行场景分类得到的场景类型称之为视频场景类型。所述视频场景类型可以包括，但不限于：文本类、人物类、风景类等。

示例性的，当所述图像数据包含文本（文字标识、广告牌等）时，则所述图像数据的视频场景类型为文本类型；当所述图像数据包含人物（可以使用人脸检测或目标检测算法，识别出图像数据中的人物区域）时，则所述图像数据的视频场景类型为人物类型；当所述图像数据不包含明显的文本和人物时，例如，包含风景、建筑物、自然环境等，则所述图像数据的视频场景类型为风景类。

在一些实施例中，在得到多个图像数据之后，可以对所述多个图像数据进行处理，例如，尺寸归一化、图像去噪、图像增强等，以提高检测所述视频数据的采集场景发生变换的准确性和效率，及提高对图像数据进行场景分类的准确性和效率。

S22，对每个所述图像数据进行内容分割，得到图像数据块。

电子设备可以利用预先存储的内容分割算法，对每个所述图像数据进行内容分割，从而提取每个图像数据中的一个或多个物体块。所述内容分割算法可以包括，但不限于：语义分割、实例分割等。

示例性的，假设某个图像数据，对应的是图书馆场景，那么通过内容分割算法对该图像数据进行内容分割后，可以得到三个图像数据块，其中一个图像数据块的内容为对应前景的书本，一个图像数据块的内容为对应中景的桌子，另一个图像数据块的内容为对应背景的图书馆。

S23，对所述图像数据块进行图像识别，得到所述图像信息。

电子设备可以将分割得到的每个图像数据块输入到训练完成的图像识别模型中进行识别，得到对应的图像信息。例如，人物图像数据块识别得到的图像信息为“人物”，汽车图像数据块识别得到的图像信息为“汽车”，动物图像数据块识别得到的图像信息为“动物”等。

应当理解的是，针对不同类型的图像数据块可以使用不同的识别方法，例如，针对人物图像数据块可以使用人脸识别技术，针对汽车图像数据块可以使用车辆型号识别技术，针对动物图像数据块可以使用动物物种分类技术等。

在一个可选的实施方式中，电子设备将所述视频场景类型及对应的所述图像信息进行存储。

电子设备可以根据所述视频场景类型对所述图像信息进行分类存储。即，将具有相同的视频场景类型的图像信息存储在同一个位置，将具有不同的视频场景类型的图像信息存储在不同的位置。示例性的，假设第一张图像数据至第三张图像数据对应相同的视频场景类型，例如，人物类，则将第一张图像数据至第三张图像数据的图像信息及对应的视频场景类型（人物类）进行存储。假设第四张图像数据与第五张图像数据对应相同的视频场景类型，例如，对话类，则将第四张图像数据与第五张图像数据的图像信息及对应的视频场景类型（对话类）进行存储。

在一个可选的实施方式中，电子设备还可以据所述视频场景类型对对应的所述图像信息进行分类压缩。例如，假设所述图像信息为文本，比如书报、名片、车牌，则采用适合文本的压缩算法进行压缩。假设图像信息为场景，则采用通用压缩算法进行压缩。

将所述视频场景类型及对应的所述图像信息进行存储，可以实现对图像信息的结构化存储。

对所述图像信息进行分类压缩的目的是为了对于不同场景类型的图像信息选择最合适的压缩方式，从而减小存储。

在对所述音频数据进行处理时，一并参阅图4和图5所示，对所述音频数据进行处理得到音频信息的方法具体包括以下步骤：

S41，对所述音频数据进行分帧采集，得到多个子音频数据。

电子设备可以预先设置音频采集帧率，根据预设音频采集帧率采集音频数据。对音频数据进行分帧采集是指将连续的音频信号分割成多个短时段的音频数据，每个短时段的音频数据则为子音频数据。音频数据通常以连续的模拟信号形式存在，在音频采集设备中被采样和离散化为数字信号。

S42，根据场景变换检测算法检测所述音频数据的采集场景是否发生变换。

场景变换检测算法可以包括，但不限于：基于统计的方法、机器学习算法（例如，支持向量机、决策树、随机森林等）以及深度学习算法（例如，卷积神经网络等）。

其他实施例中，电子设备还可以从所述子音频数据中提取用于检测所述音频数据的采集场景是否发生变换的特征。所述特征可以包括，但不限于：时域特征（例如，音量、能量等）、频域特征（例如，谱质心、谱平均能量等）、时频特征（例如，短时傅里叶变换系数等）等。根据场景变换检测算法基于所提取的特征检测所述音频数据的采集场景是否发生变换。

S43，当所述音频数据的采集场景发生变换时，对所述采集场景发生变换的子音频数据进行场景分类，得到音频场景类型。

将对子音频数据进行场景分类得到的场景类型称之为音频场景类型。

在一些实施例中，电子设备可以利用机器学习算法（例如，支持向量机、决策树、随机森林等）从每个所述子音频数据中提取相关的特征向量进行场景分类，得到音频场景类型。所述音频场景类型可以包括，但不限于：对话类、音乐类、场景类等。

示例性的，假设所述子音频数据包含人们的对话声音（例如，电话通话、会议讨论等）时，确定所述音频场景类型为对话类。对话类音频数据通常具有明显的语音特征，如语音的时频特征、语速、语调等。假设所述子音频数据包含表示音乐播放、演奏、唱歌等音频时，确定所述音频场景类型为音乐类。音乐类音频数据通常具有独特的频谱特征、节奏和乐器声音。假设所述子音频数据包含表示背景环境的音频（例如，城市街头噪音、自然环境声音、交通声等）时，确定所述音频场景类型为场景类。场景类音频数据通常包含环境噪声、声音纹理等特征。

需要说明的是，有了场景变换才会触发场景分类，否则，没有场景变换不会触发场景分类，场景分类包括了场景识别。对所述子音频数据进行场景分类得到音频场景类型可以根据具体任务或用户需求进行灵活设计和调整。

S44，对每个所述子音频数据进行音频分层，得到分层音频。

在一些实施例中，所述子音频数据可以基于音频信号在时间上的分布特征，或者人们在日常生活中经常遇到的场景情景进行音频分层。所述音频分层可以划分为前层-对话、中层-音乐、后层-背景。可以将每个所述子音频数据输入到预先训练完成的音频分层识别模型中，通过音频分层识别模型输出每个所述子音频数据的音频分层结果，即确定所述子音频数据属于前层-对话、中层-音乐还是后层-背景。

示例性的，假设子音频数据是一个人在咖啡馆里进行交谈的场景。在这个场景中，前层-对话可以是人们实际交谈声音（例如，语言、说话声音等）；中层-音乐可以是咖啡馆播放的背景音乐；后层-背景可以是背景噪音和环境声音（例如，人们的脚步声、咖啡机的声音、环境的回声等）。

通过上述可选的实施方式，由于不同层次的音频数据的音频特征对应着不同的场景元素，通过将子音频数据划分为前、中、后三层，甚至更多层，并对指定的层的音频信息进行处理，提高处理效率和质量。例如，如果想提取咖啡馆中人们的对话内容，则可以专注于前层对话部分，并在处理时减少中层音乐和后层背景的影响。

S45，对所述分层音频进行音频识别，得到音频信息。

电子设备可以将每个分层音频输入到训练完成的音频识别模型（例如，基于深度学习的卷积神经网络（Convolutional Neural Network ，CNN）、循环神经网络（RecurrentNeural Network，RNN）和Transformer等）中进行识别，得到对应的音频信息。所述音频信息可以包括音频数据的内容、特征等。

示例性的，假设某个分层音频为音乐数据，电子设备可以通过训练完成的音频识别模型输出“流行音乐”、 “摇滚音乐”、 “古典音乐”等作为识别结果。

在一些实施方式中，电子设备还可以通过训练完成的音频识别模型获取分层音频的音频信息，如歌曲的标题、艺术家名称等。

在一个可选的实施方式中，电子设备将所述音频场景类型及对应的所述音频信息进行存储。

电子设备可以根据所述音频场景类型对所述音频信息进行分类存储。即，将具有相同的音频场景类型的音频信息存储在同一个位置，将具有不同的音频场景类型的音频信息存储在不同的位置。

将所述音频场景类型及对应的所述音频信息进行存储，可以实现对音频信息的结构化存储。

S13，对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本。

将对视频数据进行处理得到的图像信息及每个图像信息对应的音频场景类型，及对音频数据进行处理得到的音频信息及每个音频信息对应的音频场景类型存储于电子设备的记忆整理模块，从而使得电子设备的记忆整理模块对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本。

电子设备的记忆整理模块对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本可以包括对所述图像信息进行分类识别得到图像文本，对所述音频信息进行分类识别得到音频文本，对所述图像文本及所述音频文本进行语义关联，得到所述记忆原始文本。

在一些实施例中，电子设备可以利用自然语言处理技术、语音识别技术等从图像信息中提取图像文本，从音频信息中提取音频文本，即将图像信息和音频信息转换为文本描述、文本标签、文本关键词等形式实现。记忆原始文本可以是与图像信息或音频信息相关的描述性文本，用于记录关键信息、内容摘要或识别信息。例如，对图像信息进行分类识别可以得到类别标签，如“人物”、 “场景”、 “物体”等；对音频信息进行分类识别可以得到声音类型的标签，如“说话”、“音乐”等。

在一些实施方式中，可以基于场景或时间或地点或主题将所述图像文本及所述音频文本进行语义关联，以对所述图像文本及所述音频文本进行结构化合并。

其中，电子设备基于场景或时间或地点或主题将所述图像文本及所述音频文本进行语义关联，是指将所述图像文本和所述音频文本基于场景或时间或地点或主题进行匹配、对应或关联，以实现所述图像文本和所述音频文本二者之间的语义连接。将所述图像文本及所述音频文本进行语义关联，得到所述图像文本及所述音频文本结构化合并后的合并数据，作为记忆原始文本。所述合并数据可以为文本格式（例如，XML、JSON等）。

示例性的，假设所述视频数据中展示了一个咖啡馆的室内环境，根据图像信息可以提取视觉特征，所述视觉特征可以包括：咖啡馆、咖啡、室内环境等。同时音频数据中的人声提到了咖啡馆的名称，可以从音频信息中提取音频特征，所述音频特征可以包括咖啡馆的名称、咖啡价格等。由于视觉特征和音频特征都包括“咖啡馆”，则可以根据图像信息和音频信息进行语义关联。

通过上述可选的实施方式，通过语义关联，可以将所述图像信息和所述音频信息进行关联到共同的语义概念上，并将所述图像信息和所述音频信息进行结构化合并为一个统一的数据存储形式，这有助于整合和共享多模态数据，从而提高搜索结果的准确性和相关性，为用户提供更丰富、更准确的数据描述和分析结果。

S14，调用大语言模型对所述记忆原始文本进行处理，并将处理得到的记忆摘要与所述记忆原始文本存储在数据库中。

大语言模型是指通过机器学习和人工智能技术训练完成的模型，用于理解和生成自然语言文本。大语言模型通过在大规模文本数据上进行训练，可以实现语义理解、文本生成、问答等任务，并具有强大的语言处理能力。

电子设备可以定期（每分钟或者每10分钟，周期可以视采集场景变换产生的数据量确定）调用大语言模型的应用程序接口（Application Programming Interface，API），或直接调用本地存储的大语言模型来对记忆整理模块整理得到的记忆原始文本进行处理，得到记忆摘要。

电子设备将记忆摘要和记忆原始文本同时存储于数据库中，并将记忆摘要和记忆原始文本进行关联，供日后进行检索。

S15，接收到所述用户的查询问题时，在所述数据库中查询并输出与所述查询问题对应的记忆摘要。

其中，所述用户可以通过语音输入或者键盘输入的方式在电子设备中输入查询问题。所述查询问题为对过往发生事情的查询问题，是指用户在出现记忆遗忘的时候，可以根据用户在过往场景中采集到的用户面前的视觉信息及听觉信息进行查询。

在一个可选的实施方式中，当用户通过键盘输入的方式在电子设备中输入查询问题时，由于通过键盘输入的查询问题为文本形式的查询问题（文本查询问题），则电子设备可以直接在所述数据库中查询并输出与文本形式的查询问题对应的记忆摘要。电子设备还可以输出与记忆摘要对应的记忆原始文本。

在一个可选的实施方式中，当用户通过语音输入的方式在电子设备中输入查询问题时，由于通过语音输入的查询问题为语音形式的查询问题（语音查询问题），则电子设备需要先对所述语音形式的查询问题进行语音识别，得到文本形式的查询问题，再在所述数据库中查询并输出与所述文本形式的查询问题对应的记忆摘要。

在一些实施例中，可以通过所述音频采集设备或语音录音设备来采集所述用户的语音查询问题，使用语音识别技术（例如，自动语音识别（Automatic Speech Recognition，ASR）技术）将所述语音查询问题转换为文本查询问题。其他实施例中，在对所述语音查询问题进行语音识别之前，可以对所述语音查询问题进行预处理（例如，去除噪声、降低音频级别、语音信号增强等），以提高后续对所述语音查询问题进行语音识别的准确性。在对所述语音查询问题进行语音识别之后，可以对识别得到的所述文本查询问题进行后处理（例如，去除识别错误、标点符号处理等），以得到更准确的文本查询问题。

下面来列举几个本申请的基于人工智能的记忆保存和记忆提取方法的应用场景。

应用场景一，用户U1今天跟朋友A聊天，谈到了苹果公司会在6月6日凌晨1点召开新品发布会，用户U1听完就忘了，晚上用户U1输入查询问题为“今天提到苹果发布会”，则以语音或者文字的形式输出问答结果为“今天聊天中的信息：苹果发布会，6月6日凌晨1点”。

应用场景二，用户U2上周跟客户B开了一个视频会议，会议中客户B的PPT中显示了后年的市场容量，用户U2忘记了市场容量是多少，现在用户U2输入查询问题为“上周客户提到的市场容量是多少”，则以语音或者文字的形式输出问答结果为市场容量：XXX。

应用场景三，用户U3上周跟家人C讨论去XX火锅店吃火锅，用户U3忘记了火锅店的地点，现在用户U3输入查询问题为“我上周讨论的XX火锅店在哪里”，则以语音或者文字的形式输出问答结果为“您上周讨论的XX火锅店在XX街道XX栋XX号”。电子设备可以通过文字形式显示XX火锅店地点位置、XX火锅店的电话、并规划出相关路径、火锅消费套餐等，还可以通过图片形式显示与XX火锅店相关的图片（比如门面照片）。

需要说明的是，本申请所述的基于人工智能的记忆保存和记忆提取方法，可以全部由电子设备来执行，也可以云端+电子设备相结合的方式共同执行，即由电子设备实时获取用户所在场景的视频数据和音频数据，并对视频数据进行处理得到图像信息，对音频数据进行处理得到音频信息，由云端运行大语言模型基于图像信息和音频信息进行处理、理解并提取记忆摘要，电子设备将云端提取的记忆摘要进行保存，供用于进行查询，从而实现记忆的提醒。

另外还需要说明的是，本申请还可以只获取用户所在场景的音频数据，基于音频数据实现记忆的保存与记忆的提取。

本申请通过获取用户所在场景的视频数据和音频数据，并分别进行处理得到图像信息与音频信息，再对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本，调用大语言模型对所述记忆原始文本进行处理，并将处理得到的记忆摘要与所述记忆原始文本存储在数据库中。在接收到所述用户针对过往发生事情的查询问题时，在所述数据库中查询并输出与所述查询问题对应的记忆摘要。本申请将用户所在场景的视频数据及/或音频数据随时随地的记录并保存下来，相当于帮用户增加了一个外脑记忆，填补了用户记忆的不足，减少用户记忆遗漏和记忆失误的可能性，减少用户脑力负担，提高工作效率和生活质量；另外基于用户输入的查询问题输出问答结果，形成记忆保存和记忆提取的闭环，可以方便用户使用，提高用户工作生活效率。

参阅图6所示，为本申请实施例示出的一种电子设备的结构示意图。在本申请较佳实施例中，所述电子设备6可以包括存储器61、至少一个处理器62及至少一条通信总线63。

本实施例中，包括存储器61、至少一个处理器62及至少一条通信总线63的电子设备6可以从其他设备，例如，从图像采集设备获取用户所在场景的视频数据，例如，从音频采集设备获取用户所在场景的音频数据。

在一些实施例中，所述存储器61中存储有计算机程序，所述计算机程序被所述至少一个处理器62执行时实现如所述的基于人工智能的记忆保存和记忆提取方法中的全部或者部分步骤。

在一些实施例中，所述至少一个处理器62是所述电子设备6的控制核心（ControlUnit），利用各种接口和线路连接整个电子设备6的各个部件，通过运行或执行存储在所述存储器61内的程序或者模块，以及调用存储在所述存储器61内的数据，以执行电子设备6的各种功能和处理数据。例如，所述至少一个处理器62执行所述存储器61中存储的计算机程序时实现本申请实施例中所述的基于人工智能的记忆保存和记忆提取方法的全部或者部分步骤。

所述至少一条通信总线63被设置为实现所述存储器61以及所述至少一个处理器62等之间的连接通信。

参阅图7所示，为本申请实施例示出的另一种电子设备的结构示意图。所述电子设备7可以包括存储器71、至少一个处理器72、摄像头73、麦克风74、喇叭75、屏幕76及至少一条通信总线77等。

所述电子设备7可以包括用户端设备，所述用户端设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

在一些实施例中，所述存储器71中存储有计算机程序，所述计算机程序被所述至少一个处理器72执行时实现如所述的基于人工智能的记忆保存和记忆提取方法中的全部或者部分步骤。

在一些实施例中，所述至少一个处理器72是所述电子设备7的控制核心（ControlUnit），利用各种接口和线路连接整个电子设备7的各个部件，通过运行或执行存储在所述存储器71内的程序或者模块，以及调用存储在所述存储器71内的数据，以执行电子设备7的各种功能和处理数据。例如，所述至少一个处理器72执行所述存储器71中存储的计算机程序时实现本申请实施例中所述的基于人工智能的记忆保存和记忆提取方法的全部或者部分步骤。

所述摄像头73用以采集用户所在场景的视频数据并将所述视频数据传输给所述至少一个处理器72。

所述麦克风74用以采集用户所在场景的音频数据并将所述音频数据传输给所述至少一个处理器72。

所述喇叭75用于播放电子设备7输出的各类语音信息。

所述屏幕76可以显示电子设备7输出的各类信息，也可以用于接收用户的触摸操作等。

所述至少一条通信总线77被设置为实现所述存储器71、所述至少一个处理器72、所述摄像头73、所述麦克风74、所述喇叭75及所述屏幕76等之间的连接通信。

本领域技术人员应该了解，图6及图7示出的电子设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述电子设备6及电子设备7还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

需要说明的是，所述电子设备6及电子设备7仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

尽管未示出，所述电子设备6及所述电子设备7还可以包括给各个部件供电的电源（比如电池），优选的，电源可以通过电源管理装置与处理器，例如，所述至少一个处理器62或至少一个处理器72逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备6及所述电子设备7还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机，电子设备，或者网络设备等）或处理器（processor）执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

Claims

1.一种基于人工智能的记忆保存和记忆提取方法，其特征在于，所述方法包括：

采集用户所在场景的视频数据和音频数据；

2.根据权利要求1中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述对所述视频数据进行处理得到图像信息包括：

对每个所述图像数据进行内容分割，得到图像数据块；

对所述图像数据块进行图像识别，得到所述图像信息。

3.根据权利要求2中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述结合场景变换检测算法和速率预测算法对所述视频数据进行动态分帧采集，得到多个图像数据包括：

其中，所述第一预设帧率大于所述第二预设帧率。

4.根据权利要求1至3中任意一项所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述对所述音频数据进行处理得到音频信息包括：

对所述音频数据进行分帧采集，得到多个子音频数据；

对每个所述子音频数据进行音频分层，得到分层音频；

对所述分层音频进行音频识别，得到所述音频信息。

5.根据权利要求4中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述对所述图像信息和所述音频信息进行分类识别，得到记忆原始文本包括：

6.根据权利要求5中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述对所述图像文本及所述音频文本进行语义关联包括：

7.根据权利要求6中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，所述方法还包括：

将所述音频场景类型及对应的所述音频信息进行存储。

8.根据权利要求7中所述的基于人工智能的记忆保存和记忆提取方法，其特征在于，当所述查询问题为所述用户通过语音形式输入的语音查询问题时，所述在所述数据库中查询并输出与所述查询问题对应的记忆摘要包括：

对所述语音查询问题进行语音识别，得到文本查询问题；

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至8中任意一项所述的基于人工智能的记忆保存和记忆提取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任意一项所述的基于人工智能的记忆保存和记忆提取方法的步骤。