CN110489674B

CN110489674B - 页面处理方法、装置及设备

Info

Publication number: CN110489674B
Application number: CN201910591159.8A
Authority: CN
Inventors: 王群
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2020-11-06
Anticipated expiration: 2039-07-02
Also published as: CN110489674A

Abstract

本发明实施例提供一种页面处理方法、装置及设备，该方法包括：在当前页面中获取待处理的第一图像；获取所述第一图像的图像信息，并在所述第一图像中提取文本信息，所述图像信息包括所述第一图像所显示对象的对象类别；根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息，并语音播放所述介绍信息。提高了页面处理的可靠性。

Description

页面处理方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种页面处理方法、装置及设备。

背景技术

随着互联网技术的发展，互联网中的内容越来越丰富，且使用互联网的用户也越来越多。例如，越来越多的低龄用户和高龄用户开始使用互联网。

为了便于用户方便的获取互联网中的内容，在用户浏览互联网中的页面时，可以以语音的形式播放页面中的内容。目前，通过将页面中的文本信息转换成语音信息，并播放该语音信息，当页面中出现图像时，则跳过该图像，并继续播放其它文本信息对应的语音信息。然而，当页面中的图像包括重要信息，则无法使用户获取完整的页面内容，导致页面处理的可靠性较低。

发明内容

本发明实施例提供一种页面处理方法、装置及设备，提高页面处理的可靠性。

第一方面，本发明实施例提供一种页面处理方法，包括：

在当前页面中获取待处理的第一图像；

获取所述第一图像的图像信息，并在所述第一图像中提取文本信息，所述图像信息包括所述第一图像所显示对象的对象类别；

根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息，并语音播放所述介绍信息。

在一种可能的实施方式中，所述根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息，包括：

获取所述第一图像的上下文信息；

根据所述上下文信息、所述图像信息和所述文本信息，确定所述介绍信息。

在一种可能的实施方式中，所述根据所述上下文信息、所述图像信息和所述文本信息，确定所述介绍信息，包括：

根据所述上下文信息和所述图像信息，在所述文本信息中确定目标文本信息；

在所述上下文信息中确定图像关键词；

根据所述目标文本信息、所述图像关键词和所述图像信息确定所述介绍信息，所述介绍信息中包括所述目标文本信息、所述图像关键词和所述图像信息。

在一种可能的实施方式中，根据所述上下文信息和所述图像信息，在所述文本信息中确定目标文本信息，包括：

获取所述文本信息中各词条与所述上下文信息和所述图像信息的匹配度；

将所述文本信息中、与所述上下文信息和所述图像信息的匹配度大于或等于预设阈值的词条确定为所述目标文本信息中的词条。

在一种可能的实施方式中，所述根据所述目标文本信息、所述图像关键词和所述图像信息确定所述介绍信息，包括：

获取图像介绍模板，所述图像介绍模板中包括固定信息和至少一个信息填充位；

将所述目标文本信息、所述图像关键词和所述图像信息填充至所述至少一个信息填充位，得到所述介绍信息。

在一种可能的实施方式中，所述将所述目标文本信息、所述图像关键词和所述图像信息填充至所述至少一个信息填充位，得到所述介绍信息，包括：

获取每个信息填充位对应的信息类型、所述目标文本信息的信息类型、所述图像关键词的信息类型；

根据每个信息填充位对应的信息类型、所述目标文本信息的信息类型、所述图像关键词的信息类型，分别确定所述目标文本信息、所述图像关键词和所述图像信息对应的信息填充位；

分别将所述目标文本信息、所述图像关键词和所述图像信息填充至对应的信息填充位，得到所述介绍信息。

在一种可能的实施方式中，所述获取所述第一图像的图像信息，包括：

通过识别模型获取第一图像的图像信息，其中，所述识别模型为对多组样本数据学习得到的，每组样本数据中包括样本图像和样本图像中对应的样本图像信息。

在一种可能的实施方式中，所述在当前页面中获取待处理的第一图像，包括：

获取对当前页面的语音播放进度；

若所述语音播放进度对应的下一个处理对象为图像，则将所述当前页面中所述语音播放进度对应的下一个处理对象确定为所述第一图像。

接收用户对所述第一图像输入的语音播放操作，所述语音播放操作用于指示语音播放所述第一图像中的内容；

根据所述语音播放操作，获取所述第一图像。

在一种可能的实施方式中，接收用户对所述第一图像输出的语音播放操作之后，还包括：

获取所述语音播放操作在所述第一图像中的位置信息；根据所述位置信息，在所述第一图像中确定局部图像；

所述获取所述第一图像的图像信息，包括：

根据所述第一图像和所述局部图像获取所述图像信息，所述图像信息包括所述对象类别和所述局部图像所显示的局部对象的局部对象类别；或者，

根据所述局部图像获取所述图像信息，所述图像信息包括所述局部图像所显示的局部对象的局部对象类别。

第二方面，本发明实施例提供一种页面处理装置，包括第一获取模块、第二获取模块、提取模块、第一确定模块和播放模块，其中，

所述第一获取模块用于，在当前页面中获取待处理的第一图像；

所述第二获取模块用于，获取所述第一图像的图像信息；

所述提取模块用于，在所述第一图像中提取文本信息，所述图像信息包括所述第一图像所显示对象的对象类别；

所述第一确定模块用于，根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息；

所述播放模块用于，语音播放所述介绍信息。

在一种可能的实施方式中，所述第一确定模块具体用于：

获取所述第一图像的上下文信息；

在一种可能的实施方式中，所述第一确定模块具体用于：

在所述上下文信息中确定图像关键词；

在一种可能的实施方式中，所述第一确定模块具体用于：

在一种可能的实施方式中，所述第二获取模块具体用于：

在一种可能的实施方式中，所述第一获取模块具体用于：

获取对当前页面的语音播放进度；

在一种可能的实施方式中，所述第一获取模块具体用于：

根据所述语音播放操作，获取所述第一图像。

在一种可能的实施方式中，所述装置还包括第二确定模块，其中，

所述第二确定模块用于，在所述第一确定模块接收到用户对所述第一图像输出的语音播放操作之后，获取所述语音播放操作在所述第一图像中的位置信息；根据所述位置信息，在所述第一图像中确定局部图像；

所述第一获取模块具体用于：根据所述第一图像和所述局部图像获取所述图像信息，所述图像信息包括所述对象类别和所述局部图像所显示的局部对象的局部对象类别；或者，根据所述局部图像获取所述图像信息，所述图像信息包括所述局部图像所显示的局部对象的局部对象类别。

第三方面，本发明实施例提供一种页面处理装置，包括：处理器，所述处理器与存储器耦合；

所述存储器用于，存储计算机程序；

所述处理器用于，执行所述存储器中存储的计算机程序，以使得所述终端设备执行上述第一方面任一项所述的方法。

第四方面，本发明实施例提供一种可读存储介质，包括程序或指令，当所述程序或指令在计算机上运行时，如上述第一方面任意一项所述的方法被执行。

本发明实施例提供的页面处理方法、装置及设备，在当前页面中获取待处理的第一图像；获取第一图像的图像信息，并在第一图像中提取文本信息，图像信息包括第一图像所显示对象的对象类别；根据图像信息和文本信息，确定第一图像的介绍信息，并语音播放介绍信息。在上述过程中，可以对页面中的第一图像进行处理，以及在第一图像中提取文本信息，以获取第一图像对应的介绍信息，并语音播放第一图像对应的介绍信息，这样，可以使得电子设备语音播放第一图像对应的介绍信息，进而使得用户可以通过语音的形式获取得到页面中图像的相关内容，提高了页面处理的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的页面处理方法的应用场景示意图；

图2为本发明实施例提供的一种页面处理方法的流程示意图；

图3为本发明实施例提供的确定介绍信息的方法的流程示意图；

图4为本发明实施例提供的一种页面示意图；

图5为本发明实施例提供的另一种页面示意图；

图6为本发明实施例提供的一种页面处理装置的结构示意图；

图7为本发明实施例提供的另一种页面处理装置的结构示意图；

图8为本发明实施例提供的页面处理装置的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的页面处理方法的应用场景示意图。请参见图 1，电子设备可以显示页面，页面中可能包括文本、图片等内容。在电子设备显示页面的过程中，电子设备可以语音播放页面中的内容，例如，电子设备可以将页面中的文本信息转换成语音信息，并播放文本信息对应的语音信息，电子设备还可以对页面中的图像进行处理，以获取图像对应的语音信息，并播放图像对应的语音信息。

在本申请中，若页面中包括图像，则可以对图像进行处理，以及在图像中提取文本信息，以获取图像对应的介绍信息，并语音播放图像对应的介绍信息，这样，可以使得电子设备语音播放图像对应的介绍信息，进而使得用户可以通过语音的形式获取得到页面中图像的相关内容，提高了页面处理的可靠性。

下面，通过具体实施例对本申请所示的技术方案进行详细说明。需要说明的是，下面几个具体实施例可以相互结合，对于相同或相似的内容，在不同的实施例中不再进行重复说明。

图2为本发明实施例提供的一种页面处理方法的流程示意图。请参见图 2，该方法可以包括：

S201、在当前页面中获取待处理的第一图像。

本发明实施例的执行主体可以为电子设备，也可以为设置在电子设备中的页面处理装置。可选的，电子设备可以为手机、电脑等设备。可选的，页面处理装置可以通过软件实现，也可以通过软件和硬件的结合实现。

可选的，当前页面为电子设备当前显示的页面。当前页面中至少包括第一图像，当然，当前页面中还可以包括其它，例如，当前页面中还可以包括文字和/或其它图像。

可选的，电子设备可以具有多种页面阅读方式，页面阅读方式可以包括第一页面阅读方式和第二页面阅读方式。其中，第一页面阅读方式是指，自动阅读页面中的所有页面内容。第二页面阅读方式是指，在用户触发下阅读页面中的部分页面内容。

例如，请参见图1，当电子设备的页面阅读方式为第一页面阅读方式时，在电子设备显示图1所示的页面后，电子设备开始语音播放文本内容“长城，是中国古代的军事防御工程，是一道高大、坚固而连绵不绝的长垣，用以限隔敌骑的行动。长城不是一道单纯孤立的城墙，而是以城墙为主体，同大量的城、障、亭、标相结合的防御体系”，在电子设备语音播放完上述文本内容之后，电子设备获取页面中的图像、以及获取图像的介绍信息，并语音播放图像的介绍信息。

例如，请参见图1，当电子设备的页面阅读方式为第二页面阅读方式时，在电子设备显示图1所示的页面后，若用户对页面中的图像输入语音播放操作，则电子设备获取该图像、以及获取图像的介绍信息，并语音播放图像的介绍信息。

在实际应用过程中，用户可以根据实际需要设置电子设备的页面阅读方式。例如，电子设备可以包括第一页面阅读方式的图标和第二页面阅读方式的图标，用户可以对相应的图标进行选中操作，以实现设置电子设备的页面阅读方式。

可选的，电子设备可以通过至少如下两种可行的实现方式在当前页面中获取待处理的第一图像：

一种可行的实现方式：电子设备的阅读方式为第一页面阅读方式。

获取对当前页面的语音播放进度，若语音播放进度对应的下一个处理对象为图像，则将当前页面中所述语音播放进度对应的下一个处理对象确定为第一图像。

例如，请参见图1，在电子设备对页面中的文本信息阅读完毕之后，电子设备的语音播放进度对应的下一个处理对象为页面中的图像，则电子设备获取页面中的图像。

另一种可行的实现方式：电子设备的阅读方式为第二页面阅读方式。

接收用户对第一图像输入的语音播放操作，语音播放操作用于指示语音播放第一图像中的内容；根据语音播放操作，获取第一图像。

可选的，语音播放操作可以为长按操作、双击操作等。

例如，请参加图1，在电子设备显示图1所示的页面之后，若用户需要电子设备语音播放页面中的图像的内容，则用户可以对页面中的图像输入语音播放操作。在电子设备获取得到用户输入的语音播放操作之后，电子设备可以获取页面中的图像。

可选的，在电子设备获取第一图像时，电子设备可以获取第一图像的地址，根据第一图像的地址获取第一图像。例如，第一图像的地址可以为第一图像的统一资源定位符(Uniform Resource Locator，URL)。

可选的，在电子设备获取第一图像时，电子设备可以在当前页面中截取第一图像。例如，电子设备可以获取当前页面对应的页面图像，并在页面图像中截取第一图像，当前页面对应的页面图像中包括当前页面中的所有内容。

S202、获取第一图像的图像信息，并在第一图像中提取文本信息。

其中，图像信息包括第一图像所显示对象的对象类别。

可选的，电子设备可以通过识别模型获取第一图像所显示对象的对象类别，例如，可以将第一图像输入至识别模型，以使识别模型输出第一图像所显示对象的对象类别。

可选的，可以通过多组样本数据对神经网络进行训练，以得到识别模型，每组样本数据中包括样本图像和样本图像中对应的样本对象类别。

例如，假设第一图像中包括一架飞机，则第一图像所显示对象的对象类别为飞机，第一图像的图像信息包括飞机。假设第一图像中包括一只猴子，则第一图像所显示对象的对象类别为猴子，第一图像的图像信息包括猴子。

可选的，可以通过OCR技术在第一图像中提取文本信息。在第一图像中提取的文本信息包括第一图像中所显示的所有文本信息，例如，在第一图像中提取的文本信息包括第一图像中图像介绍、水印、广告等。

可选的，当电子设备的阅读方式为第二页面阅读方式时，还可以设置图像阅读方式，图像阅读方式包括整体阅读方式和局部阅读方式。

当图像阅读方式为整体阅读方式时，在用户对一个图像输入语音播放操作之后，电子设备语音播放整个图像中的内容。

当图像阅读方式为局部阅读方式时，在用户对一个图像输入语音播放操作之后，电子设备可以获取语音播放操作在第一图像中的位置信息，并根据位置信息在第一图像中确定局部图像，电子设备可以语音播放该局部图像中的内容，相应的，第一图像的图像信息中包括局部图像所显示局部对象的局部对象类别。在该种阅读方式下，为了使得能够更加准确的播放局部图像中的内容，在获取第一图像的图像信息时，可以通过参考第一图像所显示对象的对象类别、以及局部图像所显示的局部对象的局部对象类别，相应的，第一图像的图像信息中包括第一图像所显示对象的对象类别和局部对象类别。

例如，假设第一图像为一张人脸图像，假设用户对人脸图像中的眼睛输入语音播放操作，则获取到的第一图像的图像信息包括人脸和人眼。

S203、根据图像信息和文本信息，确定第一图像的介绍信息。

可选的，还可以获取第一图像的上下文信息，并根据上下文信息、图像信息和文本信息，确定介绍信息。可以在当前页面中获取第一图像的上下问信息，也可以在当前页面的上一个页面或者下一个页面中获取第一图像的上下文信息。

需要说明的是，在图3所示的实施例中对确定第一图像的介绍信息的过程进行说明，此处不再进行赘述。

S204、语音播放介绍信息。

可选的，可以先获取文本类型的介绍信息，再将文本类型的介绍信息转换为语音信息，并播放该语音信息。

本发明实施例提供的页面处理方法，在当前页面中获取待处理的第一图像；获取第一图像的图像信息，并在第一图像中提取文本信息，图像信息包括第一图像所显示对象的对象类别；根据图像信息和文本信息，确定第一图像的介绍信息，并语音播放介绍信息。在上述过程中，可以对页面中的第一图像进行处理，以及在第一图像中提取文本信息，以获取第一图像对应的介绍信息，并语音播放第一图像对应的介绍信息，这样，可以使得电子设备语音播放第一图像对应的介绍信息，进而使得用户可以通过语音的形式获取得到页面中图像的相关内容，提高了页面处理的可靠性。

在上述任意一个实施例的基础上，下面，通过图3所示的实施例，对确定介绍信息的过程进行说明。

图3为本发明实施例提供的确定介绍信息的方法的流程示意图。请参见图3，该方法可以包括：

S301、根据上下文信息和图像信息，在文本信息中确定目标文本信息。

可选的，文本信息中包括多个词条。文本信息中的词条可以为在第一图像的不同位置提取的文本。一个词条中包括至少一个字符，一个词条中的每个字符的文本属性相同，例如，文本属性可以包括字体、尺寸、颜色、字体特效等。

可选的，可以通过如下可行的实现方式在文本信息中确定目标文本信息：获取文本信息中各词条与上下文信息和图像信息的匹配度，将文本信息中、与上下文信息和图像信息的匹配度大于或等于预设阈值的词条确定为目标文本信息中的词条。这样，可以在文本信息中滤除与图像内容无关的文本，例如，可以滤除文本信息中的水印、广告等。

可选的，可以获取上下文信息和图像信息对应的第一语义信息，获取词条的第二语音信息，根据第一语义信息和第二语义信息的匹配度，确定文本信息中词条与上下文信息和图像信息的匹配度。

S302、在上下文信息中确定图像关键词。

可选的，可以对上下文信息进行语义分析，以在上下文信息中确定图像关键字。

可选的，可以图像关键词可以为对第一图像进行描述的词汇。例如，假设第一图像为飞机，则图像关键词可以包括：飞机的型号、飞机的颜色、飞机的制造商等。假设第一图像为人脸，则图像关键词可以包括：人的性别、人的名字、人的大致年龄、人脸的状态(微笑、哭泣等)。

S303、获取图像介绍模板，图像介绍模板中包括固定信息和至少一个信息填充位。

其中，固定信息是指图像介绍模板中自带的固定的信息。信息填充位中用于填充与图像相关的信息。

可选的，图像介绍模板可以如下所示：

下面，介绍页面中的图像，该图像中的内容为(信息填充位1(图像信息))，(信息填充位2(图像信息))的特点为(信息填充位3(图像关键词))，(信息填充位4(图像信息))中记载着文字(信息填充位5(目标文本信息))。

在上述图像介绍模板中，固定信息包括：“下面，介绍页面中的图像，该图像中的内容为”、“的特点为”、“中记载着文字”。上述图像介绍模板中包括5个信息填充位。

需要说明的是，上述只是以示例的形式示意一种图像介绍模板，图像介绍模板还可以为其它，本发明实施例对此不作具体限定。

S304、将目标文本信息、图像关键词和图像信息填充至至少一个信息填充位，得到介绍信息。

可选的，介绍信息中包括目标文本信息、图像关键词和图像信息。

可选的，可以通过如下可行的实现方式将目标文本信息、图像关键词和图像信息填充至至少一个信息填充位，得到介绍信息：获取每个信息填充位对应的信息类型、目标文本信息的信息类型、图像关键词的信息类型；根据每个信息填充位对应的信息类型、目标文本信息的信息类型、图像关键词的信息类型，分别确定目标文本信息、图像关键词和图像信息对应的信息填充位；分别将目标文本信息、图像关键词和图像信息填充至对应的信息填充位，得到介绍信息。

在图3所示的实施例中，第一图像的介绍信息与第一图像中的目标文本信息、上下文信息和第一图像相关，因此，通过介绍信息可以准确的描述第一图像。

下面，结合图4-图5，通过具体示例，对页面处理过程进行介绍。

图4为本发明实施例提供的一种页面示意图。请参见图4，包括界面401 和界面402，其中，

请参见界面401，界面401为页面阅读方式设置页面，包括两种页面阅读方式(第一页面阅读方式和第二页面阅读方式)和每种页面阅读方式对应的选中框，其中，在同一时刻，只有一种页面阅读方式对应的选中框可以被选中。假设用户选中了第一页面阅读方式，则电子设备将电子设备的页面阅读方式设置为第一页面阅读方式。

请参见界面402，在电子设备显示界面402所示的页面之后，电子设备播放该页面中的文字信息，对文字信息播放完成之后，获取页面中图像的介绍信息，并语音播放图像的介绍信息。

在图4所示的实施例中，在电子设备的页面阅读方式为第一页面阅读方式时，电子设备可以语音播放页面中的所有内容(包括图像的介绍信息)，这样，可以使得用户可以通过语音的形式获取得到页面中图像的相关内容，提高了页面处理的可靠性。

图5为本发明实施例提供的另一种页面示意图。请参见图5，包括界面 501和界面502，其中，

请参见界面501，界面501为页面阅读方式设置页面，包括两种页面阅读方式(第一页面阅读方式和第二页面阅读方式)和每种页面阅读方式对应的选中框，其中，在同一时刻，只有一种页面阅读方式对应的选中框可以被选中。假设用户选中了第二页面阅读方式，则电子设备将电子设备的页面阅读方式设置为第二页面阅读方式。在用户选择第二页面阅读方式之后，电子设备显示界面502。

请参见界面502，界面502为图像阅读方式设置页面，包括两种图像阅读方式(整体阅读方式和局部阅读方式)和每种图像阅读方式对应的选中框，其中，在同一时刻，只有一种图像阅读方式对应的选中框可以被选中。假设用户选中了局部阅读方式，则电子设备将电子设备的图像阅读方式设置为局部阅读方式。

请参见界面503，在电子设备显示界面503所示的页面之后，当用户需要电子设备播放图像中的内容时，用户对图像输入语音播放操作(例如长按操作)，则电子设备根据用户输入语音播放操作的位置确定局部图像(亭子)，则电子设备确定得到的图像的介绍信息中包括该图像和局部图像的介绍信息，以使用户可以详细了解局部图像的信息。

在图4所示的实施例中，在电子设备的页面阅读方式为第二页面阅读方式时，在用户的触发下，电子设备可以语音播放页面中的图像的介绍信息，这样，可以使得用户可以通过语音的形式获取得到页面中图像的相关内容，提高了页面处理的可靠性。

图6为本发明实施例提供的一种页面处理装置的结构示意图。请参见图 6，该页面处理装置10可以包括第一获取模块11、第二获取模块12、提取模块13、第一确定模块14和播放模块15，其中，

所述第一获取模块11用于，在当前页面中获取待处理的第一图像；

所述第二获取模块12用于，获取所述第一图像的图像信息；

所述提取模块13用于，在所述第一图像中提取文本信息，所述图像信息包括所述第一图像所显示对象的对象类别；

所述第一确定模块14用于，根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息；

所述播放模块15用于，语音播放所述介绍信息。

本发明实施例提供的页面处理装置可以执行上述方法实施例所示的基础方案，其实现原理以及有益效果类似，此处不再进行赘述。

在一种可能的实施方式中，所述第一确定模块14具体用于：

获取所述第一图像的上下文信息；

在一种可能的实施方式中，所述第一确定模块14具体用于：

在所述上下文信息中确定图像关键词；

在一种可能的实施方式中，所述第一确定模块14具体用于：

在一种可能的实施方式中，所述第二获取模块12具体用于：

在一种可能的实施方式中，所述第一获取模块11具体用于：

获取对当前页面的语音播放进度；

在一种可能的实施方式中，所述第一获取模块11具体用于：

根据所述语音播放操作，获取所述第一图像。

图7为本发明实施例提供的另一种页面处理装置的结构示意图。在图6 所示实施例的基础上，请参见图7，页面处理装置10还包括第二确定模块16，其中，

所述第二确定模块16用于，在所述第一确定模块14接收到用户对所述第一图像输出的语音播放操作之后，获取所述语音播放操作在所述第一图像中的位置信息；根据所述位置信息，在所述第一图像中确定局部图像；

所述第一获取模块11具体用于：根据所述第一图像和所述局部图像获取所述图像信息，所述图像信息包括所述对象类别和所述局部图像所显示的局部对象的局部对象类别；或者，根据所述局部图像获取所述图像信息，所述图像信息包括所述局部图像所显示的局部对象的局部对象类别。

图8为本发明实施例提供的页面处理装置的硬件结构示意图，如图8所示，该页面处理装置20包括：至少一个处理器21和存储器22。其中，处理器21和存储器22通过总线23连接。

在具体实现过程中，至少一个处理器21执行所述存储器22存储的计算机执行指令，使得至少一个处理器21执行如上的页面处理方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图8所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的页面处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器 (SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路 (Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种页面处理方法，其特征在于，包括：

在当前页面中获取待处理的第一图像；

根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息，并语音播放所述介绍信息；

所述根据所述图像信息和所述文本信息，确定所述第一图像的介绍信息，包括：

获取所述第一图像的上下文信息；

在所述上下文信息中确定图像关键词，其中，所述图像关键字为对所述第一图像进行描述的词汇；

根据所述目标文本信息、所述图像关键词和所述图像信息确定所述介绍信息；

所述在所述上下文信息中确定图像关键词，包括：

对所述上下文信息进行语义分析，以在所述上下文信息中确定图像关键字；

所述在当前页面中获取待处理的第一图像，包括：

接收用户对所述第一图像输入的交互操作，所述交互操作用于指示语音播放所述第一图像中的内容；

根据所述交互操作的位置，获取所述第一图像；或者，

所述在当前页面中获取待处理的第一图像，包括：

获取对当前页面的语音播放进度；

2.根据权利要求1所述的方法，其特征在于，根据所述上下文信息和所述图像信息，在所述文本信息中确定目标文本信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标文本信息、所述图像关键词和所述图像信息确定所述介绍信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标文本信息、所述图像关键词和所述图像信息填充至所述至少一个信息填充位，得到所述介绍信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取所述第一图像的图像信息，包括：

6.根据权利要求1所述的方法，其特征在于，接收用户对所述第一图像输出的语音播放操作之后，还包括：

所述获取所述第一图像的图像信息，包括：

7.一种页面处理装置，其特征在于，包括第一获取模块、第二获取模块、提取模块、第一确定模块和播放模块，其中，

所述第二获取模块用于，获取所述第一图像的图像信息；

所述播放模块用于，语音播放所述介绍信息；

所述第一确定模块具体用于：

获取所述第一图像的上下文信息；

所述第一确定模块还用于：

所述第一获取模块具体用于：

根据所述交互操作的位置，获取所述第一图像；或者，

所述第一获取模块具体用于：

获取对当前页面的语音播放进度；

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块具体用于：

9.根据权利要求7或8所述的装置，其特征在于，所述第一确定模块具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第一确定模块具体用于：

11.根据权利要求7所述的装置，其特征在于，所述第二获取模块具体用于：

12.根据权利要求7所述的装置，其特征在于，所述装置还包括第二确定模块，其中，

13.一种页面处理装置，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至6任一项所述的页面处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6任一项所述的页面处理方法。