CN113901785A

CN113901785A - 一种标记方法及电子设备

Info

Publication number: CN113901785A
Application number: CN202111153604.6A
Authority: CN
Inventors: 杨奇川; 张杨; 张柳新
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-07

Abstract

本申请公开了一种标记方法及电子设备，该方法包括：分别获取当前播放的第一影像中的音频和图像；对所述音频进行语音识别，生成相对应的第一文本信息；确定所述图像中的实物对象和/或文本对象；将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标；对所述第一目标进行标记。该标记方法能够根据当前播放的第一影像，来自动的对第一影像中当前播放内容进行标记，从而使得用户可以随时准确的获知第一影像在当前时间所表达的内容，节省了用户理解第一影像所表达内容的时间。

Description

一种标记方法及电子设备

技术领域

本申请涉及图像及音频处理领域，特别涉及一种标记方法及电子设备。

背景技术

在使用网络进行交互时，多个交互方能够通过网络进行视频和音频的交流。但是，在交互过程中交互一方经常会遇到另一方表达过程中的指代不明问题。例如，第一交互方在针对文稿发表演讲过程中，第二交互方并不能及时在交互影像的文稿中看到当前语音对应的位置点，而且该现象还可能会出现多次，从而影响了交互准确度，降低了交互效率。对于该问题的解决方式，通常是通过人工的对话来询问当前演讲在文稿中的具***置，费时费力。

发明内容

本申请实施例的目的在于提供一种标记方法，包括：

分别获取当前播放的第一影像中的音频和图像；

对所述音频进行语音识别，生成相对应的第一文本信息；

确定所述图像中的实物对象和/或文本对象；

将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标；

对所述第一目标进行标记。

作为可选，所述确定所述图像中的实物对象和/或文本对象，包括：

对所述图像进行图像语义分割操作，确定所述图像中的至少一个实物对象；

对所述实物对象进行标识，形成相应的实物标识；相应的，

所述将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标，包括：

将所述第一文本信息与所述实物标识进行对比；

在一个或多个所述实物标识中，确定所述第一文本信息所指示的目标为所述第一目标。

对所述图像进行图像语义分割操作，确定所述图像中的至少一个文本对象；

对所述文本对象中的文字进行识别，形成相应的文本块；相应的，

将所述第一文本信息与所述文本块进行对比；

在一个或多个所述文本块中，确定所述第一文本信息所指示的目标为所述第一目标。

作为可选，所述对所述图像进行图像语义分割操作，包括：

基于所述图像中的像素点的显示，确定所述像素点的所属类别；

基于对所述像素点的所属类别的划分，确定所述图像中的实物对象和/或文本对象。

作为可选，在所述实物对象包括人物的情况下，所述方法还包括：

获取所述人物的肢体信息，其中所述肢体信息包括指引动作信息；

确定所述指引动作信息在所述第一图像中所指引的指引对象；相应的，

所述至少基于匹配结果确定所述图像中的第一目标，包括：

基于所述匹配操作的匹配结果以及确定的所述指引对象，确定所述第一目标。

作为可选，所述指引动作信息包括所述人物的眼部指引信息和姿态指引信息，所述的确定所述指引动作信息在所述第一图像中所指引的指引对象，包括：

基于所述眼部指引信息和所述姿态指引信息，确定相应的所述指引对象。

作为可选，所述对所述音频进行语音识别，生成相对应的第一文本信息，包括：

基于所述音频的频率特征，确定与所述音频相对应的语音识别模式；

基于确定的所述语音识别模式，对所述音频进行语音识别。

作为可选，所述方法还包括：

将标记了的所述第一目标输出到客户端用以显示。

作为可选，所述对所述第一目标进行标记，包括：

利用标记线对第一目标进行圈定，以使所述第一目标能够在与所述第一影像相关的第一文件中被突出显示。

本申请实施例还提供了一种电子设备，包括：

获取模块，其配置为分别获取当前播放的第一影像中的音频和图像；

识别模块，其配置为对所述音频进行语音识别，生成相对应的第一文本信息；确定所述图像中的实物对象和/或文本对象；

处理模块，其配置为将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标；对所述第一目标进行标记。

该标记方法能够根据当前播放的第一影像，来自动的对第一影像中当前播放内容进行标记，从而使得用户可以随时准确的获知第一影像在当前时间所表达的内容，节省了用户理解第一影像所表达内容的时间。

附图说明

图1为本申请实施例的标记方法的流程图；

图2为本申请实施例的图1中步骤S300的第一个实施例的流程图；

图3为本申请实施例的图1中步骤S400的第一个实施例的流程图；

图4为本申请实施例的图1中步骤S300的第二个实施例的流程图；

图5为本申请实施例的图1中步骤S400的第二个实施例的流程图；

图6为本申请实施例的标记方法的一个具体实施例的流程图；

图7为本申请实施例的图1中步骤S200的一个实施例的流程图；

图8为本申请实施例的标记方法的另一个具体实施例的流程图；

图9为本申请实施例的电子设备的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例的一种标记方法，该标记方法可以应用于服务端，特别是可以被应用于在线实时交互领域中的服务端上。例如可以应用于会议***、在线教学等领域。该标记方法能够对第一影像中的当前的焦点进行标注，以使客户端能够通过标注而准确的查看第一影像中的当前的焦点(如教师的当前教学内容)。该方法包括分别获取当前播放的第一影像中的音频和图像。第一影像可以是服务端当前播放的影像，通过客户端可以观看该第一影像，并查看与该第一影像相关的第一文件，该第一文件可以是第一影像中需要表达的特定内容，例如第一影像是教学视频，而第一文件则为第一影像中的教师所讲述的教学内容。获取第一影像后可以分别获取其中的音频和视频。再对音频进行语音识别，生成相对应的第一文本信息，如通过ASR语音识别获得该第一文本信息。对于图像来说，需要确定图像中的实物对象和/或文本对象，图像中具有不同类型的事物，包括文本对象以及其他非文本的实物对象，如人物或其他非文本的物体。确定图像中的实物对象和/或文本对象后，再将第一文本信息与实物对象和/或文本对象的内容进行匹配操作。包括将第一文本信息与实物对象的内容进行对比，还可以是第一文本信息与文本对象的内容进行对比，还可以是第一文本信息与实物对象的内容和文本对象的内容两者所有的内容进行对比，具体对比的方式包括在实物对象和/或文本对象的内容中查找第一文本信息的内容，进而至少基于匹配结果确定图像中的第一目标，该第一目标即为第一文本信息的相关内容。确定第一目标后需要对第一目标进行标记，从而可以将标记的第一目标发送给客户端，以便用户使用客户端对包含有第一目标的第一文件进行查看时，能够及时准确的获知第一影像当前时间所讲述的具体内容，如教师在当前讲述的内容(第一目标)在第一文件中的具***置，提高了教学效果。当然，如果该方法应用在其他的应用领域也可以实现相对应的效果。

为了更加详细的说明该标记方法，下面结合附图对标记方法进行详细说明，图1为本申请实施例的标记方法的流程图，如图1所示并结合图7，该标记方法包括以下步骤：

S100，分别获取当前播放的第一影像中的音频和图像。

当前播放的第一影像可以是服务端播放的影像，如在线教学领域中服务端当前播放的教学影像，在线会议领域中服务端当前播放的会议影像。当然也可以是其他领域中的当前播放的相应影像。服务端可以对第一影像进行处理，分别获取第一影像中的音频和图像，进而分别对音频和图像进行处理。

S200，对所述音频进行语音识别，生成相对应的第一文本信息。

第一文本信息可以是以文本形式表示的当前播放的音频内容的相关信息。

在对音频进行语音识别时可以通过多种识别方式，如通过语音识别(ASR，Automatic Speech Recognition)的具体识别方式识别，还可以通过语义识别的方式将音频的内容进行识别等，生成的第一文本信息为当前的音频的具体表达内容文本。例如第一文本信息为教学视频中的教师当前所讲授的内容而生成的信息。该第一文本信息包含有具体的数据内容，能够方便被使用。

S300，确定所述图像中的实物对象和/或文本对象。

图像中具有不同类型的事物(也可以看作对象)，包括文本对象以及其他非文本的实物对象，实物对象可以包括人物以及其他非文本的物体。

在确定实物对象和/或文本对象时，可以根据图像中的不同对象的形态以及内容来做出具体的区分。

在一个实施例中，预先构建包含各个不同对象的相关信息的数据库，数据库中存储有各个对象的相关特征。例如，存储有实物对象的各个特征，如形态、色彩、尺寸等特征。还存储有文本对象的形态、内容等特征。在确定实物对象时，可以将图像中的对象与数据库中存储的实物对象的相关数据进行对比，从而确定出实物对象。类似的，确定文本对象时，可以将图像中的对象与数据库中存储的文本对象的相关数据进行对比，从而确定出文本对象。

在另一个实施例中，可以从显示图像的像素的具体显示内容入手，基于像素的显示情况来区分图像中的实物对象和/或文本对象。如显示有相同或相近的且与文本相关的一组像素形成的图像块可以被认为是一个文本对象。

S400，将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标。

具体的，该匹配操作可以包括将第一文本信息与实物对象的内容进行匹配，将第一文本信息与文本对象的内容进行匹配，以及将第一文本信息与实物对象和文本对象两者的内容进行匹配。进而确定出第一目标。该第一目标可以是第一文本信息当前所指代的目标。

例如，将第一文本信息的内容与文本对象所表达的内容进行对比，确定第一文本信息是否出现在该文本对象的内容中，以及如果出现确定是具体在何位置出现。在文本对象中与第一文本信息相同或相关的内容可以被认为是第一目标。例如，在线教学过程中，文本对象为教学课件，而第一文本信息为教学影像中的教师当前所讲授的内容，在将第一文本信息与教学课件进行对比后，可以确定教学课件中与第一文本信息相对应的第一目标，即为教师当前的教学内容。

当然，也可以将第一文本信息的内容与实物对象进行对比，或者与实物对象和文本对象两者的内容进行对比，以确定实物对象和/或文本对象中的第一目标。

S500，对所述第一目标进行标记。

具体来说，对第一目标进行标记可以将第一目标进行突出显示，如在发送给客户端显示的第一文件中突出显示，从而将第一目标明显区别于同时出现的其他内容。例如，通过醒目的颜色对第一目标进行涂抹或者圈定。

用户在使用客户端对包含有第一目标的第一文件进行查看时，能够及时准确的获知第一影像当前时间所讲述的具体内容，同时也能够明显的注意到该第一目标。

仍旧以在线教学为例，例如，第一文件为在客户端中显示的教学课件，第一目标为教师当前讲述的第一文件中的内容。学生查看该第一文件时，可以明显的查看到被标记了的第一目标。从而便于学生听课，提高学习效果。

在本申请的一个实施例中，所述确定所述图像中的实物对象和/或文本对象，如图2所示，包括：

S310，对所述图像进行图像语义分割操作，确定所述图像中的至少一个实物对象。

图像语义分割操作是根据显示对象语义的不同，对图像中表现出的各个不同实物对象进行分割，而实物对象可以是图像中显示的非文本的各个不同对象，如显示的人物或其他非文本的物体。

例如，在图像中出现有多个人物，以及多个物品，可以通过图像语义分割操作确定上述的每个人物以及每个物品。将所有的人物以及物品单独分割出来。

以在线教学为例，图像中是教师在讲台上讲课的情形，在对图像进行图像语义分割后，确定了图像中的实物对象，包括一名教师，一块黑板，一张桌子，多本不同的书籍等。

S320，对所述实物对象进行标识，形成相应的实物标识。

具体的，对实物对象进行标识，可以是基于实物对象的具体类型和/或名称进行标识。形成的实物标识能够对该实物对象进行指代，如实物对象以名称进行标识，形成的实物标识即为该实物对象的名称。

仍然以在线教学为例，对图像中的各个实物对象进行标识时，可以将教师标记为“教师”，黑板标记为“黑板”，多本书籍分别被标记为“书籍1”、“书籍2”、“书籍3”等等。相应的实物标识即为上述的：“教师”、“黑板”、“书籍1”、“书籍2”以及“书籍3”。

相应的，所述将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标，如图3所示，包括：

S410，将所述第一文本信息与所述实物标识进行对比；

S420，在一个或多个所述实物标识中，确定所述第一文本信息所指示的目标为所述第一目标。

具体的，将第一文本信息的内容与所有的实物标识进行对比，可以确定第一文本信息所指代的具体的实物标识，例如将第一文本信息的内容即为书籍1，则在将第一文本信息的内容与所有的实物标识进行对比后确定了第一文本信息所指示的目标即为书籍1，从而将该书籍1作为第一目标。

当然，如果图像中的实物对象发生了变化，例如教师从讲台上走到了讲台下，则该图像的内容发生了变化，原本实物对象分别为教师、黑板、书籍1、书籍2以及书籍3。变换为：教师、窗户、教学模型、实验器具。相应的，实物标识也会发生变化，即对上述的实物对象标记为：“教师”、“窗户”、“教学模型”、“实验器具”。随后需要从新将第一文本信息与变化后的实物标识进行对比，重新确定第一文本信息所指示的第一目标。如教师当前讲述的内容(第一文本信息)为实验器具，则该实验器具即为第一目标。

在本申请的一个实施例中，所述确定所述图像中的实物对象和/或文本对象，如图4所示，包括：

S330，对所述图像进行图像语义分割操作，确定所述图像中的至少一个文本对象。

类似的，图像语义分割操作是根据显示对象语义的不同，对图像中表现出的至少一个文本对象进行分割。文本对象是图像中显示的一个或多个包含文本的对象。

如文本对象可以是书籍中的文本内容，教学课件中的显示的文字内容等。在图像中显示出包含有文本的相关图像后，对所述图像进行图像语义分割操作，从而确定出各个文本对象。

仍旧以在线教学为例，图像中显示有教学课件(包含有文字)，打开的教学书籍(包含有文件)。对该图像进行图像语义分割操作后，可以将上述的教学课件以及教学书籍确定为不同的文本对象。

S340，对所述文本对象中的文字进行识别，形成相应的文本块。

具体的，对文字进行识别可以是对原本以图像显示的文本对象进行识别，形成的文本块可以包含有该文本对象的具体文本内容。

具体对文本对象中的文字进行识别的方式可以有多种不同的方式。例如使用图形符号的形态识别的方式，或者使用OCR文字识别(Optical Character Recognition)的方式对文本对象进行文字的识别。其中，OCR是指电子设备检查纸上打印的字符，然后利用字符识别的方法发将形状翻译成计算机文字的过程，即对文本对象进行扫描，然后再对推按文件进行分析处理，从而获取文字及版面信息的过程。从而识别提取出文本对象上的文字，形成文本块。

相应的，所述将所述第一文本信息与所述实物对象和/或所述文本对象的内容进行匹配操作，至少基于匹配结果确定所述图像中的第一目标，如图5所示，包括：

S430，将所述第一文本信息与所述文本块进行对比；

S440，在一个或多个所述文本块中，确定所述第一文本信息所指示的目标为所述第一目标。

具体的，将第一文本信息的内容与所有的文本块进行对比，可以确定第一文本信息所指代的具体的文本块或者文本块中的部分内容。例如将第一文本信息的内容为“学习编程”，则在将第一文本信息的内容与所有的文本块进行对比后，确定了第一文本信息所指示的目标即为第一文本块中的关于学习编程的内容，从而将该第一文本块中的学习编程的相关内容确定为第一目标。

此外，如果第一文本信息的内容发生了变化，如教师随时讲课内容的不断深入，讲述的内容发生了变化，使得第一文本信息的内容也发生了变化。在将第一文本信息与文本块进行对比时，当前的第一文本信息的内容由原本出现在文本块的前一部分，转为出现在文本块的后一部分。再将第一文本信息与文本块进行对比后，能够确定该文本块的后一部分即为当前的第一文本信息的内容，从而将文本块的后一部分确定为第一目标。从而使得第一目标始终保持与第一文本信息内容的一致性。

在本申请的一个实施例中，所述对所述图像进行图像语义分割操作，包括以下步骤：

具体来说，图像语义分割操作是将图像区分为带有一定语义信息的色块。进而识别出每个色块的语义类别，并给每个像素点都标注上其对应的所属类别的标签，从而实现从底层到高层的语义推理过程，最终得到一张具有各个像素语义标注信息的分割图像，该分割后的图像包括确定出的事物对象和/或文本对象。

例如，在对图像中的教师和黑板进行划分时，由于各自对应的像素点显示的颜色以及像素点之间的关联关系不同，将其各自对应的像素点集合的边界进行划分，形成了不同所述类别的实物对象，即上述的教师和黑板。

在本申请的一个实施例中，在所述实物对象包括人物的情况下，如图6所示并结合图7，所述方法还包括以下步骤：

S600，获取所述人物的肢体信息，其中所述肢体信息包括指引动作信息。

实物对象包括人物以及非文本的其他物品，如果实物对象包括人物的情况下，可以对人物的图像进行分析，获取该一个或多个任务的肢体信息，该肢体信息即为该人物的肢体所表达的信息，其中包括具有指引效果的指引动作信息。

例如，对于在线教学领域中，指引动作信息可以是图像中的教师通过手部发出指引动作，对教学课件中的部分内容进行指引，或者对图像中的教学模具进行指引。

此外，指引动作信息还可以教师的眼神信息，如眼镜注视着教学模具，从而形成了对教学模具进行指引的效果。

S700，确定所述指引动作信息在所述第一图像中所指引的指引对象。

在确定指引动作信息在第一图像中所指引的指引对象时，可以首先指引动作信息的具体类型，如眼神的指引，手势的指引，教鞭的指引等。再进一步确定根据指引动作信息的具体动作、形态等特征来确定其在第一图像中所指引的指令对象。例如，对于手势的指引，分析手指的指向，从而将指向的对象确定为指引对象。

相应的，所述至少基于匹配结果确定所述图像中的第一目标，包括：基于所述匹配操作的匹配结果以及确定的所述指引对象，确定所述第一目标。

具体来说，可以将上述的第一文本信息与实物对象和/或文本对象的内容进行匹配操作的匹配结果，与指引动作信息所指引的指引对象相结合，从而能够更加精准的确定图像中的第一目标，即当前播放的音频中的第一文本信息的相关内容。

在一个实施例中，如果匹配结果所确定的目标，与指引对象所确定的目标并不相同，可以根据匹配操作和指引动作信息的权重来进行重新确定第一目标。例如当匹配操作的权重较大时，则可以将匹配结果所确定的目标作为第一目标。

作为可选，所述指引动作信息包括所述人物的眼部指引信息和姿态指引信息，所述的确定所述指引动作信息在所述第一图像中所指引的指引对象，包括：基于所述眼部指引信息和所述姿态指引信息，确定相应的所述指引对象。

例如，眼部指引信息即为教师在教学过程中的眼神信息，而姿态指引信息则为教师在教学过程中的手势以及身体信息。可以通过基于上述的眼部指引信息和姿态指引信息两者准确的确定出指引对象。如眼部指引信息对书籍1进行了指引，而姿态指引信息中的手势所指引的对象为书籍1中的第一部分内容，则该第一部分内容则可以被确定为指引对象。

在本申请的一个实施例中，所述对所述音频进行语音识别，生成相对应的第一文本信息，如图8所示，包括：

S210，基于所述音频的频率特征，确定与所述音频相对应的语音识别模式；

S220，基于确定的所述语音识别模式，对所述音频进行语音识别。

具体来说，音频中可以是多个不同对象发出的音频，不同的对象发出的音频的频率特征并不相同。例如，教学影像中包括一个教师和若干个学生，教师发出的声音，与学生发出的声音的频率特征并不相同。可以基于频率特征，来确定教师的所有音频。不同的人物对应有不同的语音识别模式，对于教师来说，可以根据其发声的频率特征预先关联语音识别模式，从而将教师发出的所有音频均使用该关联的语音识别模式进行识别，准确的得到教师的教学音频所对应的第一文本信息。

在本申请的一个实施例中，所述方法还包括以下步骤：将标记了的所述第一目标输出到客户端用以显示。

具体的，服务端与客户端连接，服务端可以播放第一影像，而客户端可以同时播放第一影像，和/或播放与该第一影像相关联的第一文件。第一目标可以在第一影像和/或在第一文件中显示。

例如，服务端播放教师教学的第一影像，而客户端被学生使用，其中播放教师的教学课件，如幻灯片。第一文件即为该教学课件，本实施例中客户端在显示该教学课件时，其中包含的被标记的第一目标会更加明显的被学生注意到。从而使得学生能够快速的确定当前教师所讲述的内容，提高了教学质量。

在本申请的一个实施例中，所述对所述第一目标进行标记，包括以下步骤：利用标记线对第一目标进行圈定，以使所述第一目标能够在与所述第一影像相关的第一文件中被突出显示。

举例说明，在对第一目标进行标记时，可以对第一目标使用特定标记线，如特定颜色的粗体标记线对第一目标进行圈定，从而使得第一目标显示的更加明显。第一目标在第一文件中，由于第一目标显示明显，从而使得用户在查看第一文件时可以明显的看到该第一目标。其中需要说明的是，第一文件与第一影像相关联，如第一影像为教学影像，第一文件为该教学影像相关联的教学课件，学生可以使用客户端查看该教学课件，从而可以很容易的查看到该教学课件中被标记的第一目标，即为教师当前所讲授的教学内容。

本申请实施例还提供了一种电子设备，如图9所示并结合图7，包括：

获取模块，其配置为分别获取当前播放的第一影像中的音频和图像。

当前播放的第一影像可以是服务端播放的影像，如在线教学领域中服务端当前播放的教学影像，在线会议领域中服务端当前播放的会议影像。当然也可以是其他领域中的当前播放的相应影像。获取模块可以对第一影像进行处理，分别获取第一影像中的音频和图像，进而使电子设备分别对音频和图像进行处理。

识别模块，其配置为对所述音频进行语音识别，生成相对应的第一文本信息；确定所述图像中的实物对象和/或文本对象。

识别模块在对音频进行语音识别时可以通过多种识别方式，如通过语音识别(ASR，Automatic Speech Recognition)的具体识别方式识别，还可以通过语义识别的方式将音频的内容进行识别等，生成的第一文本信息为当前的音频的具体表达内容文本。例如第一文本信息为教学视频中的教师当前所讲授的内容而生成的信息。该第一文本信息包含有具体的数据内容，能够方便被使用。

具体的，图像中具有不同类型的事物(也可以看作对象)，包括文本对象以及其他非文本的实物对象，实物对象可以包括人物以及其他非文本的物体。

处理模块在确定实物对象和/或文本对象时，可以根据图像中的不同对象的形态以及内容来做出具体的区分。

在一个实施例中，预先构建包含各个不同对象的相关信息的数据库，数据库中存储有各个对象的相关特征。例如，存储有实物对象的各个特征，如形态、色彩、尺寸等特征。还存储有文本对象的形态、内容等特征。在确定实物对象时，处理模块可以将图像中的对象与数据库中存储的实物对象的相关数据进行对比，从而确定出实物对象。类似的，确定文本对象时，处理模块可以将图像中的对象与数据库中存储的文本对象的相关数据进行对比，从而确定出文本对象。

在另一个实施例中，处理模块可以从显示图像的像素的具体显示内容入手，基于像素的显示情况来区分图像中的实物对象和/或文本对象。如显示有相同或相近的且与文本相关的一组像素形成的图像块可以被认为是一个文本对象。

处理模块将第一文本信息与实物对象和/或文本对象的内容进行匹配操作，其中可以包括将第一文本信息与实物对象的内容进行匹配，将第一文本信息与文本对象的内容进行匹配，以及将第一文本信息与实物对象和文本对象两者的内容进行匹配。进而确定出第一目标。该第一目标可以是第一文本信息当前所指代的目标。

例如，处理模块将第一文本信息的内容与文本对象所表达的内容进行对比，确定第一文本信息是否出现在该文本对象的内容中，以及如果出现确定是具体在何位置出现。在文本对象中与第一文本信息相同或相关的内容可以被认为是第一目标。例如，在线教学过程中，文本对象为教学课件，而第一文本信息为教学影像中的教师当前所讲授的内容，处理模块在将第一文本信息与教学课件进行对比后，可以确定教学课件中与第一文本信息相对应的第一目标，即为教师当前的教学内容。

当然，处理模块也可以将第一文本信息的内容与实物对象进行对比，或者与实物对象和文本对象两者的内容进行对比，以确定实物对象和/或文本对象中的第一目标。

对于处理模块对第一目标进行标记步骤，具体来说，处理模块对第一目标进行标记可以将第一目标进行突出显示，如在发送给客户端显示的第一文件中突出显示，从而将第一目标明显区别于同时出现的其他内容。例如，通过醒目的颜色对第一目标进行涂抹或者圈定。

在本申请的一个实施例中，识别模块进一步配置为：

对所述实物对象进行标识，形成相应的实物标识；相应的，

处理模块进一步配置为：

将所述第一文本信息与所述实物标识进行对比；

在本申请的一个实施例中，识别模块进一步配置为：

处理模块进一步配置为：

将所述第一文本信息与所述文本块进行对比；

在本申请的一个实施例中，识别模块进一步配置为：

在本申请的一个实施例中，在所述实物对象包括人物的情况下，获取模块进一步配置为：

相应的，识别模块进一步配置为：

处理模块进一步配置为：

在本申请的一个实施例中，所述指引动作信息包括所述人物的眼部指引信息和姿态指引信息，识别模块进一步配置为：

在本申请的一个实施例中，识别模块进一步配置为：

基于确定的所述语音识别模式，对所述音频进行语音识别。

在本申请的一个实施例中，处理模块进一步配置为：

将标记了的所述第一目标输出到客户端用以显示。

在本申请的一个实施例中，处理模块进一步配置为：

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种标记方法，包括：

分别获取当前播放的第一影像中的音频和图像；

对所述音频进行语音识别，生成相对应的第一文本信息；

确定所述图像中的实物对象和/或文本对象；

对所述第一目标进行标记。

2.根据权利要求1所述的方法，所述确定所述图像中的实物对象和/或文本对象，包括：

对所述实物对象进行标识，形成相应的实物标识；相应的，

将所述第一文本信息与所述实物标识进行对比；

3.根据权利要求2所述的方法，所述确定所述图像中的实物对象和/或文本对象，包括：

将所述第一文本信息与所述文本块进行对比；

4.根据权利要求2或3所述的方法，所述对所述图像进行图像语义分割操作，包括：

5.根据权利要求1所述的方法，在所述实物对象包括人物的情况下，所述方法还包括：

所述至少基于匹配结果确定所述图像中的第一目标，包括：

6.根据权利要求5所述的方法，所述指引动作信息包括所述人物的眼部指引信息和姿态指引信息，所述的确定所述指引动作信息在所述第一图像中所指引的指引对象，包括：

7.根据权利要求1所述的方法，所述对所述音频进行语音识别，生成相对应的第一文本信息，包括：

基于确定的所述语音识别模式，对所述音频进行语音识别。

8.根据权利要求1所述的方法，所述方法还包括：

将标记了的所述第一目标输出到客户端用以显示。

9.根据权利要求1所述的方法，所述对所述第一目标进行标记，包括：

10.一种电子设备，包括：