CN114220034A

CN114220034A - 图像处理方法、装置、终端及存储介质

Info

Publication number: CN114220034A
Application number: CN202111504938.3A
Authority: CN
Inventors: 董岩岩
Original assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Current assignee: Guang Dong Ming Chuang Software Technology Corp ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-22

Abstract

本申请实施例公开了一种图像处理方法、装置、终端及存储介质，属于人机交互技术领域。该方法包括：通过读屏服务识别终端的屏幕显示内容；在读屏服务识别出屏幕显示内容中包含图像的情况下，执行图像提示；在接收到用于指示对屏幕显示内容中的图像进行识图的语音的情况下，对屏幕显示内容中的图像内容进行识别，获得图像内容描述文本；通过语音服务播放与图像内容描述文本对应的语音。避免了包括视觉障碍人士或者不方便浏览终端屏幕显示内容的人士的特殊人群无法感知终端中显示的图像内容的情况，提高了特殊人群对屏幕显示内容获取的完整性，进而提高了上述特殊人群对终端进行操作的便捷性。

Description

图像处理方法、装置、终端及存储介质

技术领域

本公开涉及人机交互技术领域，特别涉及一种图像处理方法、装置、终端及存储介质。

背景技术

随着智能科技的蓬勃发展，每个人都享受着智能科技带来的生活上的便利，人们可以通过浏览智能终端获取各种各样的信息，比如，通过智能终端浏览文字内容以及图片内容，但是，针对于视觉障碍人士或者不方便浏览终端屏幕显示内容的人士，无法直接通过浏览终端屏幕获取文字内容以及图片内容。

在相关技术中，各个手机厂商针对于视觉障碍人士或者不方便浏览终端屏幕显示内容的人士开发了用于读屏的应用程序，可以将终端屏幕上显示的文字内容转换为语音通过终端进行播放，使得用户无需看手机屏幕就可以获得屏幕显示的文字信息。

然而，目前的读屏软件仅可以对文字内容进行识别并且转化为语音向用户播放，而终端屏幕上显示的图片内容用户仍无法知晓，使得终端通过语音的方式播放屏幕显示内容的局限性较大。

发明内容

本申请实施例提供了一种图像处理方法、装置、终端及存储介质，用户可以通过获取终端播放的描述屏幕显示内容中的图像内容的语音，满足用户无需浏览屏幕就可以知晓屏幕显示的图像内容的需求，提高了视觉障碍人士或者不方便浏览终端屏幕显示内容的人士对屏幕显示内容获取的完整性。所述技术方案如下：

一方面，本申请实施例提供了一种到图像处理方法，所述方法由终端执行，所述终端中安装有读屏服务和语音服务；所述方法包括：

通过所述读屏服务识别所述终端的屏幕显示内容；

在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示；所述目标方式包括视觉提示之外的其它提示方式；

在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本；

通过所述语音服务播放与所述图像内容描述文本对应的语音。

另一方面，本申请实施例提供了一种图像处理装置，所述装置用于终端中，所述终端中安装有读屏服务和语音服务；所述装置包括：

内容识别模块，用于通过所述读屏服务识别所述终端的屏幕显示内容；

提示模块，用于在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示；所述目标方式包括视觉提示之外的其它提示方式；

文本获取模块，用于在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本；

语音播放模块，用于通过所述语音服务播放与所述图像内容描述文本对应的语音。

另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器；所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如上述方面所述的图像处理方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如上述方面所述的图像处理方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行上述方面的各种可选实现方式中提供的图像处理方法。

本申请实施例提供的技术方案的有益效果至少包括：

通过终端中的读屏服务对终端屏幕显示的内容进行识别，识别得到其中包括图像时向用户进行屏幕中具有图像的提示，用户在获取到该提示后，且终端获取到用于指示对图像进行识图的语音的情况下，终端对图像内容进行识别，并且向用户播放识别得到的用于描述图像内容的语音，使得用户全程无需对屏幕的视觉感知即可获取屏幕显示内容，避免了包括视觉障碍人士或者不方便浏览终端屏幕显示内容的人士的特殊人群无法感知终端中显示的图像内容的情况，提高了特殊人群对屏幕显示内容获取的完整性，进而提高了上述特殊人群对终端进行操作的便捷性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种应用场景示意图；

图2是根据一示例性实施例示出的一种图像处理方法的流程图；

图3是根据另一示例性实施例示出的一种图像处理方法的流程图；

图4是图3所示实施例涉及的一种BriVL模型在跨模式对比学习框架内的示意图；

图5是图3所示实施例涉及的一种用于大规模多模型预训练的BriVL模型的示意图；

图6是图3所示实施例涉及的一种图像编码器的架构图；

图7是图3所示实施例涉及的一种图像处理过程屏幕显示过程的示意图；

图8是本申请一个示例性实施例提供的图像处理装置的结构框图；

图9示出了本申请一个示例性实施例提供的终端的结构方框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请后续实施例提供了一种图像处理的方案，可以在使用终端的用户为视觉障碍人士或者不方便直接浏览终端屏幕显示内容的人士时，无需用户的视觉即可通过终端对图像的描述感知屏幕显示内容中的图像内容。其中图像可以包括图片以及视频。

请参考图1，其示出了本申请各个实施例涉及的应用场景示意图。如图1所示，终端100中内置有语音播放采集组件101以及显示屏幕102。比如，该终端100可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。

可选的，终端100中可以安装有具有屏幕内容识别功能的读屏服务，以及具有人工智能语音助手功能的语音服务，读屏服务以及语音服务可以基于获取到的用户指令对显示屏幕102上显示的图像内容进行识别，通过语音播放采集组件101对图像内容进行语音描述。

比如，用户开启终端100的读屏服务之后，终端100开始实时对显示屏幕102上显示的内容进行识别，对于屏幕显示的文字内容，读屏服务可以通过文字识别功能直接将文字内容转化为语音进行播放，而当读屏服务检测到屏幕显示内容中包含图像内容时，向用户进行非视觉感知的提示，比如，语音提示，用于提示使用终端读屏服务的用户当前显示屏幕上存在图像内容。若用户想要获取到图像内容，则可以通过语音播放采集组件101接收用户的语音指令，并且通过唤醒的具有人工智能语音助手功能的语音服务确定接收到的语音指令是否为指示用户需要获取图像内容的指令。当终端100确定该语音指令是为获取图像内容的指令，则对图像内容进行识别得到用于描述图像内容的描述文本，并且通过语音服务将描述文本对应的语音进行播放。

图2示出了本申请一个示例性实施例提供的图像处理方法的流程图。其中，该图像处理方法可以由终端执行，该终端中可以安装有读屏服务以及语音服务，例如，该终端可以是上述图1所示应用场景中的终端100。该图像处理方法包括如下步骤：

步骤201，通过读屏服务识别终端的屏幕显示内容。

在本申请实施例中，终端通过安装的读屏服务对当前终端的屏幕显示内容进行识别。

其中，读屏服务可以是一种将屏幕显示内容的视觉感知内容转换为听觉感知内容进行输出的应用程序。

也就是说，读屏服务可以将获取到的终端上屏幕所显示的内容通过语音播放的形式传递给终端用户，以便使用终端的用户在无法通过视觉获取屏幕上的显示内容时，通过听觉获取语音播放的描述信息得到屏幕显示内容。

示例性的，读屏服务可以是终端厂家或者其他厂家开发的，针对于视障人士获取屏幕显示内容的应用程序，该读屏服务可以通过包括在设置中开启，或者语音唤起等指定的方式进行唤醒，唤醒后的读屏服务可以运行在终端后台，此时，终端可以同时运行其他程序，在后台运行的读屏服务可以持续对终端屏幕进行识别和信息获取。

例如，当终端预先开启了读屏服务，用户可以将该读屏服务在后台运行，不影响屏幕显示其他内容，当屏幕显示内容为浏览器的某一网页时，读屏服务可以对当前所处的网页进行内容识别，可以识别得到当前网页上的文字内容，并且可以通过读屏服务自带的语音播放功能，朗读获取到的文字内容。

步骤202，在读屏服务识别出屏幕显示内容中包含图像的情况下，通过目标方式进行提示；目标方式包括视觉提示之外的其它提示方式。

在本申请实施例中，在读屏服务识别到屏幕显示内容中包含图像内容的情况下，可以通过除了需要视觉进行获取的，用于表明屏幕显示内容中包含图像内容的图像提示，向用户发出提醒。

步骤203，在接收到用于指示对屏幕显示内容中的图像进行识图的语音的情况下，对屏幕显示内容中的图像内容进行识别，获得图像内容描述文本。

在本申请实施例中，终端通过语音服务采集并识别用户语音，获得用户指令，终端可以对获取到的用户指令进行识别，确定用户指令是否为指示用户需要进行图像内容获取的识图指令，当终端确定用户指令为识图指令时，终端获取屏幕显示内容中包含的图像内容。终端对获取到的屏幕显示内容中包含的图像内容进行识别，获得图像内容对应的描述文本。

其中，当用户获取到终端执行的图像提示后，用户可以对该图像提醒进行语音回应，终端通过语音服务可以采集并且识别回应的用户语音，得到对应的用户指令。

其中，语音服务可以是一种基于人工智能技术通过语音助手询问用户信息并且接收用户指令的应用程序，同时语音服务在本申请实施例中可以具有图像内容获取的功能、图像内容识别的功能以及图像内容语音描述功能。

也就是说，语音服务可以是方便用户通过语音控制终端执行指定指令的人工智能应用程序，也可以是方便用户通过语音接收到各种需要查询的信息。

示例性的，语音服务可以是终端厂家或者其他厂家开发的。该语音服务可以是针对于视障人士向终端发送用户指令控制终端以及执行用户指令向用户反馈语音的应用程序，该语音服务可以通过包括在设置中开启，或者语音唤起，或者自动唤醒等指定的方式进行唤醒。

例如，当终端采集到用户的指定语音口令，唤醒终端的语音服务，并且接收用户语音，基于接收到的用户语音确定对应的用户指令。

示例性的，当终端接收到的用户语音是“图像内容是什么”，可以确定该用户语音对应的用户指令为识图指令，并且获取屏幕显示内容中的图像内容。其中，图像内容描述文本可以是对图像内容进行语言描述，使得用户可以通过语言描述感知图像内容的文本。

步骤204，通过语音服务播放与图像内容描述文本对应的语音。

其中，终端获取到图像内容描述文本后，可以通过语音服务播放与该图像内容描述文本对应的语音，以使得用户收听到该语音后得知图像内容。

综上所述，本申请实施例中，通过终端中的读屏服务对终端屏幕显示的内容进行识别，识别得到其中包括图像时向用户进行屏幕中具有图像的提示，用户在获取到该提示后，且终端获取到用于指示对图像进行识图的语音的情况下，终端对图像内容进行识别，并且向用户播放识别得到的用于描述图像内容的语音，使得用户全程无需对屏幕的视觉感知即可获取屏幕显示内容，避免了包括视觉障碍人士或者不方便浏览终端屏幕显示内容的人士的特殊人群无法感知终端中显示的图像内容的情况，提高了特殊人群对屏幕显示内容获取的完整性，进而提高了上述特殊人群对终端进行操作的便捷性。

图3示出了本申请一个示例性实施例提供的图像处理方法的流程图。其中，该图像处理方法可以由终端执行，例如，该终端中可以安装有读屏服务以及语音服务，例如，该终端可以是上述图1所示应用场景中的终端100。该图像处理方法包括如下步骤：

步骤301，终端唤醒读屏服务，通过读屏服务识别终端的屏幕显示内容。

在本申请实施例中，终端预先唤醒读屏服务，可以通过读屏服务识别终端各时刻的屏幕显示内容。

在一种可能的实现方式中，通过读屏服务识别终端的屏幕显示内容，确定屏幕显示内容中包含的内容种类，基于内容种类确定后续对内容的处理方式。

其中，内容种类可以包括文字内容、图像内容以及超链接内容等。对于屏幕显示内容中的文字内容，读屏服务可以直接进行文字内容识别，得到文字内容对应的语音内容，并且通过语音播放模块将语音内容进行播放；对于超链接内容，一种情况可以与文字内容的处理方式相同，进行文字识别并且播放文字识别内容对应的语音内容，另一种情况是，唤醒终端的语音服务，向用户发送询问是否打开超链接，若接收到打开超链接的指令，控制终端屏幕显示界面显示超链接对应的页面，并且继续对新打开的超链接对应的页面进行屏幕显示内容的识别，若接收到无需打开超链接的指令或者未收到用户发送的指令，则可以自动跳过对该超链接内容的语音转换；而对于屏幕显示内容中包含的图像内容可以通过下面的步骤进行处理。

步骤302，当读屏服务识别出屏幕显示内容中包含图像时，终端执行图像提示。

在本申请实施例中，当终端通过读屏服务识别到当前屏幕显示界面中显示的内容包括图像时，可以控制终端自动执行图像提示。

其中，图像提示用于通过视觉提示之外的提示方式提示屏幕显示内容中包含图像。

示例性的，目标方式是视觉提示之外的其它提示方式，目标方式包括声音提示以及震动提示中的至少一项。

比如，当终端通过读屏服务识别到当前屏幕显示界面中显示的内容包括图像时，可以控制终端通过播放“画面中存在图像”的语音内容进行对用户的提示，或者，也可以控制终端震动对用户进行提示。

在一种可能的实现方式中，在读屏服务识别出屏幕显示内容中包含图像的情况下，获取屏幕显示内容中包含的图像数量；通过目标方式进行第一提示；该第一提示中包括屏幕显示内容中包含的图像数量。

在一种可能的实现方式中，当读屏服务识别出屏幕显示内容中包含不止一个图像时，终端基于识别到的图像数量执行图像提示。

其中，若视觉提示之外的提示方式为声音提示，且声音提示为提示音时，则可以接通过提示音连续响起的次数指示屏幕显示内容中的图像数量，若声音提示为语音提示，则可以直接通过语音阐述屏幕显示内容中包含的图像数量；当视觉提示之外的提示方式为震动提示时，可以通过一轮震动的次数指示屏幕显示内容中包含的图像的数量。

比如，当终端通过读屏服务识别到当前屏幕显示界面中显示的内容包括两个图像时，可以控制终端通过播放“画面中存在两个图像”的语音内容进行对用户的提示，或者，连续响起两次提示音，也可以控制终端连续震动两次对用户进行提示。

在一种可能的实现方式中，在读屏服务识别出屏幕显示内容中包含图像的情况下，通过读屏服务获取屏幕显示内容中的图像占比；当图像占比大于比例阈值时，通过读屏服务以目标方式进行提示。

其中，屏幕显示内容中的图像占比可以是图像在显示屏幕中的面积占比。

示例性的，当读屏服务识别出屏幕显示内容中包含图像时，并且通过读屏服务获取屏幕显示内容中的图像占显示屏幕的1/2，若设置比例阈值为1/6，由于图像占比1/2大于比例阈值1/6，所以通过读屏服务执行该图像提示。

由于，屏幕显示内容中可能包含一些头像、图标等图像内容，这类图像内容在显示内容中所占面积的比例较小，并且这类图像内容一般不需要用户知晓图像中的内容，视障人士在使用读屏服务进行屏幕识别的过程中，为了减少不必要的图像内容获取，可以通过上述设置比例阈值的方式，过滤掉部分图像内容不进行图像识别，一方面可以减少视障人士获取与屏幕显示内容没有关联的干扰信息，提高视障人士获取屏幕显示内容的效率，另一方面也可以避免不必要的资源浪费。

在一种可能的实现方式中，当读屏服务识别出屏幕显示内容中包含图像时，通过读屏服务获取屏幕显示内容中的图像的类型；当屏幕显示内容中的图像的类型为非广告类型时，通过读屏服务以目标方式进行提示。

其中，获取屏幕显示内容中的图像的类型的方式可以包括通过图像类别识别模型进行识别得到、通过获取屏幕显示内容中的图像上是否覆盖有超链接地址确定以及通过获取图像是否以弹窗的形式叠加在画面之上确定。

示例性的，当终端通过读屏服务识别出屏幕显示内容中包含图像时，将图像输入图像类型识别模型中，基于图像类型识别模型输出该图像是否属于广告类型。当屏幕显示内容中的图像的类型为非广告类型时，通过读屏服务执行图像提示，当屏幕显示内容中的图像的类型为广告类型时，不执行图像提示。该图像类型识别模型可以包括卷积神经网络以及分类网络。

其中，图像类型识别模型是基于图像样本以及图像样本对应的标签类别进行训练得到的。

示例性的，当终端通过读屏服务识别出屏幕显示内容中包含图像时，通过读屏服务获取图像所在位置处是否具有超链接地址，响应于获取到图像所在位置处存在超链接地址，确定该图像的类型为广告类型，响应于获取到图像所在位置处不存在超链接地址，确定该图像的类型为非广告类型。

或者，当终端通过读屏服务识别出屏幕显示内容中包含图像时，通过读屏服务获取图像是否为以弹窗的形式叠加在屏幕显示内容之上的，响应于确定该图像是以弹窗的形式叠加在屏幕显示内容之上的，确定该图像的类型为广告类型，反之，确定该图像的类型为非广告类型。

步骤303，终端通过语音服务采集并识别用户语音，获得用户指令。

在本申请实施例中，用户在接收到图像提示后，可以对图像提示进行语音回应，即终端可以通过语音服务采集并且识别用户对图像提示进行语音回应对应的用户语音，从而得到用户指令，该用户指令用于指示用户回应的用户语音对应的需要对终端执行的控制指令。

在一种可能的实现方式中，通过语音服务采集并识别用户语音，获得用户指令之前，唤醒语音服务。

也就是说，在终端通过读屏服务确定屏幕显示内容中包括图像后，执行图像提示后，需要唤醒终端上的语音服务。

在一种可能的实现方式中，在接收到用于指示对屏幕显示内容中的图像进行识图的语音的情况下，对屏幕显示内容中的图像内容进行识别，获得图像内容描述文本之前，在读屏服务识别出屏幕显示内容中包含图像的情况下，通过读屏服务唤醒语音服务。

其中，在终端通过读屏服务确定屏幕显示内容中包括图像，并且执行图像提示，同时终端通过读屏服务唤醒语音服务，通过语音服务采集并且识别用户回应的用户语音，获得与用户语音对应的用户指令。

比如，终端通过读屏服务确定屏幕显示内容中包括图像，并且执行图像提示，同时终端通过读屏服务唤醒语音服务，用户接收到图像提示后，基于需要获取图像内容的意愿，回应用户语音为“图像是什么内容”，通过语音服务采集并且识别用户回应的该用户语音，获得与用户语音对应的获取图像内容的用户指令。

在另一种可能的实现方式中，通过语音服务采集并识别用户语音，获得用户指令之前，当用户接收到图像提示后，用户通过语音指令唤醒语音服务，该语音指令是通过终端的语音采集模块获得的，然后用户向终端回应用户语音，终端通过语音服务获取并且识别用户语音，得到对应的用户指令。

比如，终端通过读屏服务确定屏幕显示内容中包括图像，并且执行图像提示，当用户接收到图像提示后，若用户需要获取图像内容，则通过回应语音指令“小X小X”，或者长按电源键一秒钟唤醒语音服务，然后用户继续回应用户语音为“图像是什么内容”，通过语音服务采集并且识别用户回应的该用户语音，获得与用户语音对应的获取图像内容的用户指令。

步骤304，当用户指令为识图指令时，通过语音服务对终端进行截屏，获得截屏图像。

在本申请实施例中，当语音服务识别得到用户指令是识图指令时，终端可以通过语音服务对屏幕显示内容进行截图，得到屏幕显示内容对应的截图图像。

在一种可能的实现方式中，在接收到用于指示对屏幕显示内容中的图像进行识图的语音的情况下，通过语音服务对终端进行截屏，获得截屏图像。

其中，截图图像上不仅仅包括图像内容，还可以包括文字内容等。

步骤305，通过语音服务，根据截屏图像获取屏幕显示内容中的图像内容。

在本申请实施例中，基于截屏图像，通过语音服务获取屏幕显示内容中的图像内容。

在一种可能的实现方式中，通过语音服务，将截屏图像获取为图像内容。

其中，当语音服务接收到识图指令时，终端对当前屏幕进行截屏处理，得到截屏后的截图图像，终端可以将该截图图像直接获取为对应的图像内容。

也就是说，当语音服务接收到识图指令时，若当前时刻屏幕显示内容中不仅仅包括图像内容，还包括文字内容，则通过对当前屏幕进行截屏处理，可以得到截屏后的截图图像，并且直接将该截图图像获取为对应的图像内容。

示例性的，若直接将截图图像获取为对应的图像内容，则可以对图像内容进行文字识别，获取其中的文字内容进行语音播放，同时也将该图像内容进行图像识别，得到用于描述图像内容的描述文本。

在另一种可能的实现方式中，通过语音服务，获取截屏图像中的图像内容的位置；通过语音服务，根据截屏图像中的图像内容的位置，从截屏图像中分割出图像内容。

也就是说，通过语音服务对屏幕显示内容对应的截图图像进行对象识别，获取识别到的其中的图像内容以及图像内容对应的位置信息，终端基于获取到的图像内容的位置信息从截图图像中分割出对应的图像内容。

示例性的，位置信息可以是图像内容在截图图像中所占的像素坐标范围，基于对图像内容识别获取到的图像内容对应的像素坐标范围，从截图图像中分割出对应的图像内容。

其中，终端可以通过语音服务对截屏图像进行图像区域识别，获取截屏图像中的图像内容的位置，或者，终端也可以通过语音服务，从读屏服务获取截屏图像中的图像内容的位置；截屏图像中的图像内容的位置是读屏服务识别终端的屏幕显示内容时获取的。

步骤306，终端对图像内容进行识别，获得图像内容描述文本。

在本申请实施例中，终端通过对获取到的图像内容进行智能识别，可以得到图像内容描述文本。

在一种可能的实现方式中，基于图像识别算法，对获取到的图像内容进行识别，得到图像内容描述文本。

其中，终端可以通过语音服务将获取到的图像内容输入图像识别模型中，经过图像识别模型输出图像内容描述文本。

其中，该图像识别模型可以是一种多模态预训练模型，该多模态预训练模型用以将视觉和语言进行联系，由于大多数视觉和语言可以通过假设文本和图像模态之间存在强语义相关性来明确模拟图像-文本对之间的跨模态交互。但是，这种强假设在现实世界场景中往往无效，因此可以选择隐式建模跨模态相关性以进行大规模的对模型的多模态预训练。

也就是说，可以利用图像文本对的弱相关假设，在跨模态对比学习框架内提出了一个双塔预训练模型(BriVL)。与采用简单对比学习方法的，负责重排序的新型神经网络(DALL·E)中的核心模块(Open AI CLIP)不同，通过构建一个基于队列的大型字典，BriVL可以在有限的GPU(Graphics Processing Unit，图形处理器)资源中整合更多的负样本。另外，可以进一步的构建了一个大型中文多源图像文本数据集，用于预训练该BriVL模型。

示例性的，整理用于预训练的网络爬取图像文本数据，为了使得多模态预训练加强其表示能力。基于自监督学习中的对比学习具有可以明显提高深度神经网络的表示能力的能力，将比较学习引入到双塔架构中得到一种跨模态对比学习算法。其中，该跨模态对比学习算法优于采用简单的大批量对比学习方法的Open AI CLIP，图4是本申请实施例中涉及到的一种BriVL模型在跨模式对比学习框架内的示意图，如图4所示，包括图像编码器41、动量更新图像编码器42、动量更新文字编码器43以及文字编码器44，给定一个特定的图像文本对，可以使用图像模态或文本模态来构建图像文本对的缺失样本，并根据最新的动态字典(MoCo)扩展负样本的数量，从而提高神经网络的表示能力，该动态字典(MoCo)中新的小批量(minibatch)对应的字典在进入图像特征队列45以及文本特征队列46时，将会替换掉最早进入的字典，使得字典始终是所有数据的子集，又始终代表最新的表征。通过构建一个基于队列的大型字典，模型可以在有限的GPU资源中包含更多的负样本，从而在图像文本检索中获得更好的结果。

其中，跨模态预训练模型是基于图像-文本检索任务定义的。因此，需要学习训练两个图像编码器以及两个文本编码器，通过图像编码器以及文本编码器可以将图像和文本样本嵌入到同一空间中以进行有效的图像文本检索。为了实施跨模态嵌入学习，可以利用用于自监督学习的对比损失函数(Info NCE)进行BriVL模型训练。

图5是本申请实施例中涉及的一种用于大规模多模型预训练的BriVL模型的示意图，如图5所示。预训练模型通过联合训练图像编码器和文本编码器来学习跨模态嵌入空间，最大化批次中每个样本的真实对的图像和文本嵌入的余弦相似度，同时最小化余弦相似度其他不正确对的嵌入。因此，与OPEN AI CLIP相比，BriVL模型可以在有限的GPU资源中包含更多的负样本，从而在图像文本检索中获得更好的结果。针对于图像文本检索任务，可以将训练集表示为

其中

是来自数据集的匹配图像-文本对，N是训练集D的大小。该图像识别模型利用对比学习并扩展了最新的MoCo作为预训练框架，每个图像

(或每个文本

)是由图像编码器f^I(或文本编码器f^T)编码以获得其一维嵌入

(或

)。

其中，图6是本申请实施例涉及的一种图像编码器的架构图。如图6所示，图像编码器中包含一个卷积神经网络(Convolutional Neural Network，CNN)的主干以及一个连续的自注意力块。首先使用对象检测器对来自CNN61的特征图进行下采样，然后由自注意力块62进行编码，从而获得一系列对象嵌入。

其中，文本编码器可以由多个自注意力块堆叠而成，例如，文本编码器可以是中文领域的预训练语言模型(RoBERTa)。具有激活函数(RELU)的多层感知块用于将每个编码器的表示映射到联合跨模态嵌入空间中。f^I和f^T的参数分别表示为θ^I和θ^T。动态字典(MoCo)提供了一种为对比学习构建动态词典的机制，通过实例判别任务，如果图像对应于文本，则图像的查询匹配增强文本的键，反之亦然。此外，队列的引入将字典分成小批量(minibatch)，并且可以将字典大小设置为超参数，设置给定动量参数m，两个动量更新编码器

(具有参数

)和

(具有参数

)，分别用于图像模态和文本模态。参数

以及参数

的更新规则由下式给出，

BriVL模型需要维护两个队列Q^I和Q^T，分别包含K个图像负样本和K个文本负样本。在预训练阶段给定批量大小，每次迭代后，所有给定批量大小的图像负样本和给定批量大小的文本负样本被分别推送到上述两个队列中。队列中的样本在每次迭代中都会更新。也就是说，在迭代为t时，当前数据批

的图像和文本负样本是通过动量更新的编码器

和

来计算，

将

以及

分别更新为Q^I和Q^T。此外，正样本对于每个图像

(或文本

)都是唯一的，并且也是通过动量更新的编码器获得的

(或

)。每个数据批次的损失函数构造如下，

对于每个图像样本

将其图像嵌入

与队列Q^T中所有文本正/负样本之间的对比损失，然后获得Info NCE损失函数。

其中，n^T表示每个图像查询的文本负样本，超参数τ表示温度。这里的相似度是通过点积来衡量的。类似地，对于每个文本样本

Info NCE损失函数公式如下，

其中，n^I表示每个文本查询的图像负样本。BriVL模型的总损失函数L_total定义为，

L_total＝L_I2T+L_T2I

在测试阶段，图像或文本也可以简单地通过在预训练编码器的输出(即嵌入)上定义的点积来检索。由于预训练编码器高度灵活性，BriVL模型可以轻松部署在广泛的应用场景中。在本申请实施例中BriVL模型可以作为图像识别模型，将获取到的屏幕显示的图像输入经过预训练的BriVL模型中，输出该图像的描述文本。

其中，可以通过共享相同的文本编码器或图像编码器将其他预训练任务(例如图像到文本的生成)添加到BriVL模型中。另一方面，预训练的文本和图像编码器还可以直接应用于下游多模态任务，例如图像到文本检索、文本到图像检索、文本到图像生成和视觉对话等场景。

由于使用了双塔架构以及基于对比学习的预训练策略，训练得到图像识别模型(即BriVL模型)，该模型具有很高的灵活性，可以容易地部署在实际应用场景中。其中，由于采用了两塔式架构，文本编码器和图像编码器可以轻松替换为最新的更大的单模态预训练模型，进一步增强了BriVL模型的表示能力。另外，由于BriVL模型经过预训练，所以可以提供图像和文本特征嵌入的云访问API(Application Programming Interface，应用程序接口)以及图像-文本对的匹配分数，当使用向量引擎加速推理阶段时，可以显着提高图文检索的效率。同时，将其他预训练任务(例如，图像到文本生成的任务)添加到该BriVL模型中较为便捷。

在一种可能的实现方式中，响应于屏幕显示内容中包含至少两个图像；在接收到用于指示对屏幕显示内容中的图像进行识图的语音的情况下，且语音用于指示对至少两个图像内容进行识别时，对屏幕显示内容中的至少两个图像内容按照顺序依次进行识别，获得至少两个图像内容的图像内容描述文本。

其中，响应于屏幕显示内容中包含至少两个图像；当用户指令为识图指令，且识图指令用于指示对至少两个图像内容进行识别时，对屏幕显示内容中的至少两个图像内容按照顺序依次进行识别，获得至少两个图像内容的图像内容描述文本。

其中，终端向用户发送的提醒可以通知用户当前屏幕显示内容中包括至少两个图像，用户可以回应语音指示对多个图像进行识别并且获取描述文本。

示例性的，对多个图像进行识别的顺序可以是按照常用的阅读顺序，即从左到右，从上至下的顺序一次对多个图像进行图像识别。

步骤307，通过语音服务播放与图像内容描述文本对应的语音。

在本申请实施例中，经过上述图像识别算法输出得到图像的描述文本，终端可以通过语音服务播放得到的描述文本对应的语音，以便用户无需视觉就可以感知到屏幕显示的图像内容。

在一种可能的实现方式中，当屏幕显示内容中包含至少两个图像，且用户指令指示识别至少两个图像时，通过语音服务按照顺序依次播放至少两个图像内容的图像内容描述文本。

示例性的，图7是本申请实施例涉及的一种图像处理过程屏幕显示过程的示意图，如图7所示，在视障用户使用终端的读屏服务浏览手机图像信息的时候，当屏幕显示的内容中包括图像内容时，终端首先展示的界面为第一界面71，读屏服务提示用户当前所浏览的内容是图像，用户即可唤起语音服务，用户发出询问图像内容的指令“图像是什么内容”，语音服务收到语音后，终端展示第二界面72，同时会生成对应的指令，基于该指令截取当前屏幕内容，然后用图像识别算法对图像内容进行自然语言描述，随后将该图像内容的描述“室内三点整有一个戴着帽子的女人在比赞”通过语音合成技术播放给视障用户，此时终端展示的为第三界面73。

图8示出了本申请一个示例性实施例提供的图片处理装置的结构框图。该图片处理装置用于终端中，该终端中安装有读屏服务和语音服务，该图片处理装置包括：

内容识别模块810，用于通过所述读屏服务识别所述终端的屏幕显示内容；

提示模块820，用于在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示；所述目标方式包括视觉提示之外的其它提示方式；

文本获取模块830，用于在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本；

语音播放模块840，用于通过所述语音服务播放与所述图像内容描述文本对应的语音。

在一种可能的实现方式中，所述文本获取模块830，包括：

截屏子模块，用于在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，通过所述语音服务对所述终端进行截屏，获得截屏图像；

内容获取子模块，用于通过所述语音服务，根据所述截屏图像获取所述屏幕显示内容中的图像内容；

文本获取子模块，用于对所述图像内容进行识别，获得所述图像内容描述文本。

在一种可能的实现方式中，所述内容获取子模块，包括：

第一内容获取单元，用于通过所述语音服务，将所述截屏图像获取为所述图像内容；

或者，

位置获取单元，用于通过所述语音服务，获取所述截屏图像中的图像内容的位置；

第二内容获取单元，用于通过所述语音服务，根据所述截屏图像中的图像内容的位置，从所述截屏图像中分割出所述图像内容。

在一种可能的实现方式中，所述位置获取单元，用于，

通过所述语音服务，从所述读屏服务获取所述截屏图像中的图像内容的位置；所述截屏图像中的图像内容的位置是所述读屏服务识别所述终端的屏幕显示内容时获取的。

在一种可能的实现方式中，所述提示模块820，包括：

数量获取子模块，用于在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，获取所述屏幕显示内容中包含的图像数量；

提示子模块，用于通过所述目标方式进行第一提示；所述第一提示中包括所述屏幕显示内容中包含的所述图像数量。

在一种可能的实现方式中，响应于所述屏幕显示内容中包含至少两个图像；

所述文本获取模块830，包括：

获取子模块，用于在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，且所述语音用于指示对至少两个图像内容进行识别时，对所述屏幕显示内容中的至少两个图像内容按照顺序依次进行识别，获得所述至少两个图像内容的所述图像内容描述文本；

所述语音播放模块840，包括：

播放子模块，用于通过所述语音服务按照顺序依次播放至少两个所述图像内容的所述图像内容描述文本。

在一种可能的实现方式中，所述提示模块820，包括：

占比获取子模块，用于在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务获取所述屏幕显示内容中的图像占比；

第一提示子模块，用于当所述图像占比大于比例阈值时，通过所述读屏服务以所述目标方式进行提示。

在一种可能的实现方式中，所述提示模块820，包括：

类型获取子模块，用于在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务获取所述屏幕显示内容中的图像的类型；

第二提示子模块，用于当所述屏幕显示内容中的图像的类型为非广告类型时，通过所述读屏服务以所述目标方式进行提示。

在一种可能的实现方式中，所述目标方式包括声音提示以及震动提示中的至少一项。

在一种可能的实现方式中，所述装置还包括：

服务唤醒模块，用于在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本之前，在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务唤醒所述语音服务。

图9示出了本申请一个示例性实施例提供的终端的结构方框图。该终端可以是智能手机、平板电脑、电子书、便携式个人计算机等安装并运行有应用程序的电子设备。本申请中的终端可以包括一个或多个如下部件：处理器910、存储器920和屏幕930。

处理器910可以包括一个或者多个处理核心。处理器910利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器920内的指令、程序、代码集或指令集，以及调用存储在存储器920内的数据，执行终端的各种功能和处理数据。可选地，处理器910可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器910可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责屏幕930所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器910中，单独通过一块通信芯片进行实现。

存储器920可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器920包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器920可用于存储指令、程序、代码、代码集或指令集。存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作***可以是安卓(Android)***(包括基于Android***深度开发的***)、苹果公司开发的IOS***(包括基于IOS***深度开发的***)或其它***。存储数据区还可以存储终端在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

屏幕930可以为电容式触摸显示屏，该电容式触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏通常设置在终端的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端的结构并不构成对终端的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、拍摄组件、传感器、音频电路、无线保真(WirelessFidelity，WiFi)组件、电源、蓝牙组件等部件，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行以实现如上各个实施例所述的图像处理方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法由终端执行，所述终端中安装有读屏服务和语音服务；所述方法包括：

通过所述读屏服务识别所述终端的屏幕显示内容；

2.根据权利要求1所述的方法，其特征在于，所述在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本，包括：

在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，通过所述语音服务对所述终端进行截屏，获得截屏图像；

通过所述语音服务，根据所述截屏图像获取所述屏幕显示内容中的图像内容；

对所述图像内容进行识别，获得所述图像内容描述文本。

3.根据权利要求2所述的方法，其特征在于，所述通过所述语音服务，根据所述截屏图像获取所述屏幕显示内容中的图像内容，包括：

通过所述语音服务，将所述截屏图像获取为所述图像内容；

或者，

通过所述语音服务，获取所述截屏图像中的图像内容的位置；

通过所述语音服务，根据所述截屏图像中的图像内容的位置，从所述截屏图像中分割出所述图像内容。

4.根据权利要求3所述的方法，其特征在于，所述通过所述语音服务，获取所述截屏图像中的图像内容的位置，包括：

5.根据权利要求1所述的方法，其特征在于，所述在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示，包括：

在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，获取所述屏幕显示内容中包含的图像数量；

通过所述目标方式进行第一提示；所述第一提示中包括所述屏幕显示内容中包含的所述图像数量。

6.根据权利要求1所述的方法，其特征在于，响应于所述屏幕显示内容中包含至少两个图像；

所述在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本，包括：

在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，且所述语音用于指示对至少两个图像内容进行识别时，对所述屏幕显示内容中的至少两个图像内容按照顺序依次进行识别，获得所述至少两个图像内容的所述图像内容描述文本；

所述通过所述语音服务播放与所述图像内容描述文本对应的语音，包括：

通过所述语音服务按照顺序依次播放至少两个所述图像内容的所述图像内容描述文本。

7.根据权利要求1所述的方法，其特征在于，所述在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示，包括：

在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务获取所述屏幕显示内容中的图像占比；

当所述图像占比大于比例阈值时，通过所述读屏服务以所述目标方式进行提示。

8.根据权利要求1所述的方法，其特征在于，所述在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过目标方式进行提示，包括：

在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务获取所述屏幕显示内容中的图像的类型；

当所述屏幕显示内容中的图像的类型为非广告类型时，通过所述读屏服务以所述目标方式进行提示。

9.根据权利要求1所述的方法，其特征在于，所述目标方式包括声音提示以及震动提示中的至少一项。

10.根据权利要求1所述的方法，其特征在于，所述在接收到用于指示对所述屏幕显示内容中的图像进行识图的语音的情况下，对所述屏幕显示内容中的图像内容进行识别，获得图像内容描述文本之前，还包括：

在所述读屏服务识别出所述屏幕显示内容中包含图像的情况下，通过所述读屏服务唤醒所述语音服务。

11.一种图像处理装置，其特征在于，所述装置用于终端中，所述终端中安装有读屏服务和语音服务；所述装置包括：

12.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器中存储有至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现如权利要求1至10任一所述的图像处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如权利要求1至10任一所述的图像处理方法。

14.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令由终端的处理器执行，使得所述终端执行如权利要求1至10任一所述的图像处理方法。