CN117640947B

CN117640947B - 视频图像的编码方法、物品检索方法、电子设备、介质

Info

Publication number: CN117640947B
Application number: CN202410094709.6A
Authority: CN
Inventors: 严磊; 王芳
Original assignee: Lingke Hangzhou Network Technology Co ltd
Current assignee: Lingke Hangzhou Network Technology Co ltd
Priority date: 2024-01-24
Filing date: 2024-01-24
Publication date: 2024-05-10
Anticipated expiration: 2044-01-24
Also published as: CN117640947A

Abstract

本发明公开一种视频图像的编码方法，其中，所述编码方法包括：获取视频源文件；利用设定编码模型对所述视频源文件的每帧图像进行编码，得到图像编码；其中，所述设定编码模型为基于ViT的编码模型，在所述设定编码模型中，自注意力层的输出由以下公式：；将每帧图像的时间信息添加至所述图像编码中，得到所述视频源文件的时序图像表征。本发明还提供一种物品检索方法、一种电子设备和一种计算机可读介质。

Description

视频图像的编码方法、物品检索方法、电子设备、介质

技术领域

本发明涉及视频处理领域，具体地，涉及一种视频图像的编码方法、一种物品检索方法、一种电子设备和一种计算机可读介质。

背景技术

随着互联网技术的发展，视频技术也得到了长足的进步。例如，希望在视频文件中得到特定目标时，就需要利用神经网络模型对视频源文件进行编码、并对目标图像进行编码，然后根据相似度计算来确定目标图像所在的位置。

如何对视频源文件进行合理的编码、以提高检索匹配的准确度，是本领域一直所追求的。

发明内容

本发明旨在一定程度上解决相关技术中的技术问题之一。为此，本发明提供了一种视频图像的编码方法、一种物品检索方法、一种电子设备和一种计算机可读介质。通过所述视频图像的编码方法对所述视频源文件进行编码后，有利于提高后续物品检索的准确度。

作为本发明的第一个方面，提供一种视频图像的编码方法，其中，所述编码方法包括：

获取视频源文件；

利用设定编码模型对所述视频源文件的每帧图像进行编码，得到图像编码；其中，所述设定编码模型为基于ViT的编码模型，在所述设定编码模型中，自注意力层的输出由以下公式（1）表示；

将每帧图像的时间信息添加至所述图像编码中，得到所述视频源文件的时序图像表征；

（1）

其中，y_s,t为第t帧图像中第s个token的自注意力层的输出；

表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵堆叠后的矩阵，n≥1；

表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵。

可选地，n=2。

可选地，所述编码方法还包括：

对所述视频源文件进行语音识别，得到携带有时间戳的字幕文本；

将字幕划分为端点时间有重叠的多个窗口；

利用基于转换器结构的编码模型对每个窗口的文本用进行网络编码，得到多个文本编码序列；

对多个所述文本编码序列进行总结得到多个段落，并为得到的段落添加段落标签；

将添加有段落标签的多个文本编码序列与所述时间戳结合，得到时序文本表征；

根据时间顺序所述时序文本表征与所述时序图像表征进行对齐。

可选地，所述编码方法还包括：

接收设定的物品名称；

对所述物品名称进行文本编码，得到多个物品名称编码；

计算所述物品名称编码与所述段落标签之间的相似度；

根据计算获得的相似度，将所述物品名称编码***相应的文本编码序列中，其中，在***有物品名称编码的段落中，段落标签与被***的物品名称编码之间的相似度不低于第一预设值；

确定各个物品名称所对应的段落在所述视频源文件中的开始时间和结束时间。

作为本发明的第二个方面，提供一种物品检索方法，其中，所述物品检索方法包括：

接收检索指令，所述检索指令包括图片和/或文字；

对所述检索指令进行编码，得到指令编码；

将所述指令编码与视频源文件的编码文件进行匹配，其中，所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征，其中，所述时序图像表征为根据本发明第一个方面所述的编码方法所获得；

将与所述指令编码之间相似度超过第二预设值的图像编码所在的位置作为所述检索指令所对应的目标物品出现的位置。

可选地，所述视频源文件的编码文件还包括***有物品名称编码的文本编码序列，所述物品检索方法还包括：

将与所述指令编码之间相似度超过第二预设值的物品名称编码所对应的段落在所述视频源文件中的开始时间和结束时间作为所述目标物品出现的位置。

可选地，所述物品检索方法还包括：

将所述视频源文件中出现所述目标物品的部分作为目标视频，输出所述目标视频。

可选地，在所述物品检索请求包括图片的情况下，所述物品检索方法还包括：

生成目标框，并利用所述目标框框选出所述目标视频上与所述物品检索请求相匹配的物品。

作为本发明的第三个方面，提供一种电子设备，包括：

一个或多个处理器；存储器，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据本发明第一个方面和/或第二个方面所述的方法。

作为本发明的第四个方面，提供一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据本发明第一个方面和/或第二个方面所述的方法。

与单张图像相比，视频文件的特点在于，相邻帧图像的内容是连续的。在本发明实施例所提供的编码方法中，编码模型为在ViT模型基础上进行修改得到的改良模型（即，上文中所述的设定编码模型）。在所述设定编码模型中，自注意力层的输出与和当前帧图像相关，也就是说，在利用所述设定编码模型进行编码时，捕捉了相邻帧之间的图像信息。因此，利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地，在进行物品检索、目标识别等匹配动作时，可以使得匹配结果更加准确。

附图说明

下面结合附图对本发明作进一步说明：

图1为本发明所提供的视频图像的编码方法的一种实施方式的流程图；

图2是本发明所提供的视频图像的编码方法的另一种实施方式中，步骤S140至步骤S190的流程图；

图3是本发明所提供的视频图像的编码方法的还一种实施方式中，步骤S1010至步骤S1040的流程图；

图4是本发明所提供的物品检索方法的一种实施方式的流程图；

图5是本发明所提供的物品检索方法的另一种实施方式的流程图；

图6是本发明所提供的电子设备的一种实施方式的模块示意图；

图7是本发明所提供的计算机可读介质的模块示意图。

附图标记说明

101：处理器102：存储器

103： I/O接口104：总线

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。基于实施方式中的实施例，旨在用于解释本发明，而不能理解为对本发明的限制。

在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本发明公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。

作为本发明的第一个方面，提供一种视频图像的编码方法，其中，如图1所示，所述编码方法包括：

在步骤S110中，获取视频源文件；

在步骤S120中，利用设定编码模型对所述视频源文件的每帧图像进行编码，得到图像编码；其中，所述设定编码模型为基于ViT的编码模型，在所述设定编码模型中，自注意力层的输出由以下公式（1）表示；

在步骤S130中，将每帧图像的时间信息添加至所述图像编码中，得到所述视频源文件的时序图像表征。

（1）

其中，y_s,t为第t帧图像中第s个token的自注意力层的输出；

表示第t-n帧图像中的key向量矩阵至第t帧图像中的key向量矩阵key向量矩阵堆叠（stacking）后的矩阵，n≥1；

与单张图像相比，视频文件的特点在于，相邻帧图像的内容是连续的。在本发明实施例所提供的编码方法中，编码模型为在ViT模型基础上进行修改得到的改良模型（即，上文中所述的设定编码模型）。在所述设定编码模型中，自注意力层的输出与和当前帧图像（即，公式（1）中的第t帧图像）相关，也就是说，在利用所述设定编码模型进行编码时，不仅获取了当前帧图像的信息，还捕捉了相邻帧之间的图像信息，从而获得了更多的特征。因此，利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地，在进行物品检索、目标识别等匹配动作时，可以使得匹配结果更加准确。

在本发明实施例中，对视频源文件的具体类型不做特殊的限定。作为一种可选实施方式，视频源文件可以为电商直播时产生的视频文件。这类视频文件对为多种商品进行讲解的视频。因此，视频文件中会存在“多重图像”和/或“多重文本”的问题。在本发明实施例所提供的技术方案中，在利用所述设定编码模型进行编码时，不仅获取了当前帧图像的信息，还捕捉了相邻帧之间的图像信息，从而获得了更多的特征可以消除“多重图像”和/或“多重文本”所造成的干扰。

本发明实施例所提供的编码方法尤其适用于对电商直播产生的视频源文件进行编码。

在本发明实施例中，对n的具体取值不做特殊的限定，n的取值越多、则获得的时序图像表征能够更准确地体现视频源文件。相应地，为了提高计算效率，可选地，n=2。

相应地，公式（1）可以被具体表示为：

其中，表示第t-2帧图像中的key向量矩阵、第t-1帧图像中的key向量矩阵、以及第t帧图像中的key向量矩阵堆叠（stacking）后的矩阵；

表示第t-2帧图像中的value向量矩阵、第t-1帧图像中的value向量矩阵、第t帧图像中的value向量矩阵堆叠后的矩阵。

如上文中所述，在对视频源文件进行编码后，获得的编码文件用于目标识别、物品检索等场景。为了使得编码文件更适用于后续的目标识别、物品检索等场景，可选地，如图2所示，所述编码方法还包括：

在步骤S140中，对所述视频源文件进行语音识别，得到携带有时间戳的字幕文本；

在步骤S150中，将字幕划分为端点时间有重叠的多个窗口；

在步骤S160中，利用基于转换器结构（transformer）的编码模型对每个窗口的文本用进行网络编码，得到多个文本编码序列；

在步骤S170中，对多个所述文本编码序列进行总结得到多个段落，并为得到的段落添加段落标签；

在步骤S180中，将添加有段落标签的多个文本编码序列与所述时间戳结合，得到时序文本表征；

在步骤S190中，根据时间顺序所述时序文本表征与所述时序图像表征进行对齐。

本发明实施例所提供的视频源文件可以为电商直播时产生的视频文件，通常，该视频源文件为针对物品（例如，商品）的讲解文件，因此，视频源文件的字幕文本中会包括物品名称。因语音识别获得的字幕文件携带有时间戳，因此，通过字幕文本可以相对精确地确定物品出现的时间。

在本发明实施例中，从视频源文件中提取音频文件，并完成自动语音识别（ASR，Automatic Speech Recognition）处理，得到所述携带有时间戳的字幕文本。可选地，从所述视频源中所提取的音频文件可以是双声道音频文件。

对于电商直播而言，“时间段”与“物品”相对应的现象。例如，视频源文件的第一个小时对应的是物品A、视频源文件的第2个小时对应的是物品B等等。通过对文本编码序列进行分段，该段落可以与视频源的“时间段”相对应，段落标签可以与“物品”相对应。

对每帧图像进行编码、获得时序图像表征后，再将时序图像表征、以及时序文本表征对齐，对齐后的时序图像表征、以及时序文本表征能够更进准地反映物品在视频源文件中出现的时间，更加有利于后续的检索。

如上文中所述，transformer结构的网络编码，能够对每个滑窗的文本进行编码，滑窗所对应的序列中的每个token被分配一个二进制标签来标记是否为新段落的开始。

如上文中所述，所述视频源文件为电商直播过程中所产生的视频文件。在视频源文件中展现的产品情况比较庞杂，例如，视频源文件中可能包含了多个商品的概况、或者商品的一部分图像、再或者，拆除包装后的商品的图像。

对于讲解人员而言，通常会明确地提出商品（或者物品）名称。因此，通过步骤S150和步骤S190，将时间顺序所述时序文本表征与所述时序图像表征进行对齐，可以更准确地确定商品（或者物品）在视频源文件中出现的位置。

本发明实施例所提供的技术方案，相当于在跨多模态对比学习中使用了跨粒度的多文本和图像对对齐，利用这样的蒸馏方式，可以把多视频和文本对交叉的细粒度跨模态相似性转移到基于全局视频和文本表征的粗粒度相似性。

为了使得视频源文件的编码文件更适于后续的物品检索场景，可选地，如图3所示，所述编码方法还包括：

在步骤S1010中，接收设定的物品名称；

在步骤S1020中，对所述物品名称进行文本编码，得到多个物品名称编码；

在步骤S1030中，计算所述物品名称编码与所述段落标签之间的相似度；

在步骤S1040中，根据计算获得的相似度，将所述物品名称编码***相应的文本编码序列中，其中，在***有物品名称编码的段落中，段落标签与被***的物品名称编码之间的相似度不低于第一预设值；

在步骤S1050中，确定各个物品名称所对应的段落在所述视频源文件中的开始时间和结束时间。

如上文中所述，在视频源文件中展现的产品情况比较庞杂，“物品名称”是较为精确的信息。将精确的“物品名称”编码后，***到视频源文件的编码文件中，从而更加有利于后续检索的进行。

换言之，在本发明中，文本编码包括两部分：字幕文本编码、以及子句层级的主题编码。可以利用预序列完整的语言模型实现字幕文本编码。

因电商商品标题中包含搜索优化去趋势词，所述主题中的信息并非完全与物品（或者商品）图片对齐，因此，可以在对主题进行编码时，引入子句建模，利用注意力遮盖（attention mask）来保留关键词的特征的同时、消除不相关单词间的相互作用。

作为一种可选实施方式，可以采用Grounding DINO对主题进行编码。

作为本发明的第二个方面，提供一种物品检索方法，其中，如图4所示，所述物品检索方法包括：

在步骤S210中，接收检索指令，所述检索指令包括图片和/或文字；

在步骤S220中，对所述检索指令进行编码，得到指令编码；

在步骤S230中，将所述指令编码与视频源文件的编码文件进行匹配，其中，所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征，其中，所述时序图像表征为根据本发明第一个方面所提供的编码方法所获得；

在步骤S240中，将与所述指令编码之间相似度超过第二预设值的图像编码所在的位置作为所述检索指令所对应的目标物品出现的位置。

如上文中所述，在本发明实施例所提供的编码方法中，编码模型为在ViT模型基础上进行修改得到的改良模型（即，上文中所述的设定编码模型）。在所述设定编码模型中，自注意力层的输出与和当前帧图像（即，公式（1）中的第t帧图像）相关，也就是说，在利用所述设定编码模型进行编码时，捕捉了相邻帧之间的图像信息。因此，利用本发明实施例所提供的编码方法编码获得的时序图像表征能够更真实地体现视频源文件的特点。相应地，在进行物品检索、目标识别等匹配动作时，可以使得匹配结果更加准确。

作为一种可选实施方式，所述视频源文件的编码文件还包括***有物品名称编码的文本编码序列。相应地，如图5所示，所述物品检索方法还包括：

在步骤S250中，将与所述指令编码之间相似度超过第二预设值的物品名称编码所对应的段落在所述视频源文件中的开始时间和结束时间作为所述目标物品出现的位置。

在本发明实施例中，可以同时进行步骤S240、以及步骤S250，还可以先进行步骤S240后进行步骤S250，也可以先进行步骤S250后进行步骤S240。

作为一种可选实施方式，所述物品检索方法还包括：

在步骤S260中，将所述视频源文件中出现所述目标物品的部分作为目标视频，输出所述目标视频。

通过步骤S260输出的目标视频，可以用作商品的切片广告。

为了更加便于操作者判断输出的目标视频是否与检索请求相匹配，可选地，在所述物品检索请求包括图片的情况下，所述物品检索方法还包括：

在步骤S270中，生成目标框，并利用所述目标框框选出所述目标视频上与所述物品检索请求相匹配的物品。

作为本发明的第二个方面，提供一种电子设备，其中，如图6所示，该电子设备包括：

一个或多个处理器101；

存储器102，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器101执行，使得所述一个或多个处理器101实现根据本发明第一个方面和/或第二个方面所提供的方法。

所述物料信息采集工控机还可以包括一个或多个I/O接口103，连接在处理器101与存储器102之间，配置为实现处理器101与存储器102的信息交互。

其中，处理器101为具有数据处理能力的器件，其包括但不限于中央处理器（CPU）等；存储器102为具有数据存储能力的器件，其包括但不限于随机存取存储器（RAM，更具体如SDRAM、DDR等）、只读存储器（ROM）、带电可擦可编程只读存储器（EEPROM）、闪存（FLASH）；I/O接口（读写接口）连接在处理器与存储器间，能实现处理器与存储器的信息交互，其包括但不限于数据总线（Bus）等。

在一些实施例中，处理器101、存储器102和I/O接口103通过总线104相互连接，进而与计算设备的其它组件连接。

作为本发明的第三个方面，提供一种计算机可读介质，如图7所示，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现根据本发明第一个方面和/或第二个方面所提供的方法。

本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。据此，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可实现上述任意一项实施例的方法。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)以及存储器总线动态RAM(RDRAM)等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

Claims

1.一种视频图像的编码方法，其特征在于，所述编码方法包括：

获取视频源文件，所述视频源文件为电商直播过程中所产生的视频文件；

（1）

其中，y_s,t为第t帧图像中第s个token的自注意力层的输出；

表示第t-n帧图像中的value向量矩阵至第t帧图像中的value向量矩阵堆叠后的矩阵；

所述编码方法还包括：

将字幕划分为端点时间有重叠的多个窗口；

根据时间顺序所述时序文本表征与所述时序图像表征进行对齐；

接收设定的物品名称；

对所述物品名称进行文本编码，得到多个物品名称编码；

计算所述物品名称编码与所述段落标签之间的相似度；

2.根据权利要求1所述的编码方法，其特征在于，n=2。

3.一种物品检索方法，其特征在于，所述物品检索方法包括：

接收检索指令，所述检索指令包括图片和/或文字；

对所述检索指令进行编码，得到指令编码；

将所述指令编码与视频源文件的编码文件进行匹配，其中，所述视频源文件的编码文件至少包括携带有每帧图像的时间信息的时序图像表征，其中，所述时序图像表征为根据权利要求1或2所述的编码方法所获得；

4.根据权利要求3所述的物品检索方法，其特征在于，所述视频源文件的编码文件还包括***有物品名称编码的文本编码序列，所述物品检索方法还包括：

5.根据权利要求3或4所述的物品检索方法，其特征在于，所述物品检索方法还包括：

6.根据权利要求5所述的物品检索方法，其特征在于，在所述物品检索请求包括图片的情况下，所述物品检索方法还包括：

7.一种电子设备，其特征在于，包括：

一个或多个处理器；存储器，其上存储有一个或多个计算机程序，当所述一个或多个计算机程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至6中任意一项所述的方法。

8.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1至6中任意一项所述的方法。