CN104461545B

CN104461545B - 将移动终端中内容提供至用户的方法及装置

Info

Publication number: CN104461545B
Application number: CN201410773743.2A
Authority: CN
Inventors: 罗航
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2018-09-07
Anticipated expiration: 2034-12-12
Also published as: CN104461545A

Abstract

本发明公开了一种将移动终端中内容提供至用户的方法，包括：获取移动终端屏幕的当前截图；对当前截图进行分析以获取当前截图对应的布局模式；根据布局模式对当前截图进行识别以获取当前截图的信息；以及将信息转换为语音，并播放。本发明实施例的方法将移动终端屏幕上的信息通过OCR转化为语音输出，使得用户通过听觉即可获取移动终端当前屏幕中的内容，解放了用户的双眼，减轻了用户获取信息的负担，提升了用户体验。本发明还公开了一种将移动终端中内容提供至用户的装置。

Description

将移动终端中内容提供至用户的方法及装置

技术领域

本发明涉及移动终端设备技术领域，尤其涉及一种将移动终端中内容提供至用户的方法及装置。

背景技术

目前，移动终端设备在人们生活当中已经非常普及，为人们工作生活等各方面带来各种各样的资讯信息，极大丰富了人们信息获取的范围。

目前用户可通过视觉的方式(如查看等)获取移动终端当前屏幕中的内容。但是，对于特殊人群来说，例如盲人、有保护视力需求的人等，由于他们的某些原因不能方便地通过视觉的方式获取移动终端当前屏幕中的内容，因此，需要提供一种可以通过听觉的方式(如语音播放等)来协助用户读取移动终端屏幕中的内容。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种将移动终端中内容提供至用户的方法。该方法可以使得用户通过听觉即可获取移动终端当前屏幕中的内容，解放了用户的双眼，减轻了用户获取信息的负担，提升了用户体验。

本发明的第二个目的在于提出一种将移动终端中内容提供至用户的装置。

为了实现上述实施例，本发明第一方面实施例的将移动终端中内容提供至用户的方法，包括：获取移动终端屏幕的当前截图；对所述当前截图进行分析以获取所述当前截图对应的布局模式；根据所述布局模式对所述当前截图进行识别以获取所述当前屏幕的信息；以及将所述信息转换为语音，并播放。

本发明实施例的将移动终端中内容提供至用户的方法，可先获取移动终端屏幕的当前截图，之后可对当前截图进行分析以获取当前截图对应的布局模式，并根据布局模式对当前截图进行识别以获取当前截图的信息，以及将信息转换为语音，并播放，即将移动终端屏幕上的信息通过OCR转化为语音输出，使得用户通过听觉即可获取移动终端当前屏幕中的内容，解放了用户的双眼，减轻了用户获取信息的负担，提升了用户体验。

为了实现上述实施例，本发明第二方面实施例的将移动终端中内容提供至用户的装置，包括：获取模块，用于获取移动终端屏幕的当前截图；分析模块，用于对所述当前截图进行分析以获取所述当前截图对应的布局模式；识别模块，用于根据所述布局模式对所述当前截图进行识别以获取所述当前截图的信息；转换模块，用于将所述信息转换为语音；以及播放模块，用于播放所述语音。

本发明实施例的将移动终端中内容提供至用户的装置，可通过获取模块获取移动终端屏幕的当前截图，分析模块对当前截图进行分析以获取当前截图对应的布局模式，识别模块根据布局模式对当前截图进行识别以获取当前截图的信息，转换模块将信息转换为语音，播放模块播放语音，即将移动终端屏幕上的信息通过OCR转化为语音输出，使得用户通过听觉即可获取移动终端当前屏幕中的内容，解放了用户的双眼，减轻了用户获取信息的负担，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的将移动终端中内容提供至用户的方法的流程图；

图2是根据本发明一个实施例的布局模式为类书信式布局模式的示例图；

图3是根据本发明一个实施例的布局模式为类报纸式布局模式的示例图；

图4是根据本发明一个实施例的通过云端的预设的OCR对当前截图进行识别的示例图；

图5是根据本发明一个实施例的将移动终端中内容提供至用户的装置的结构示意图；以及

图6是根据本发明一个实施例的分析模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为了解决对于特殊人群来说，例如盲人、有保护视力需求的人等，由于他们的某些原因不能方便地通过视觉的方式获取移动终端当前屏幕中的内容的问题，本发明提出了一种将移动终端中内容提供至用户的方法及装置。具体地，下面参考附图描述本发明实施例的将移动终端中内容提供至用户的方法及装置。

本发明提出了一种将移动终端中内容提供至用户的方法，包括：获取移动终端屏幕的当前截图；对当前截图进行分析以获取当前截图对应的布局模式；根据布局模式对当前截图进行识别以获取当前截图的信息；以及将信息转换为语音，并播放。

图1是根据本发明一个实施例的将移动终端中内容提供至用户的方法的流程图。需要说明的是，在本发明的实施例中，移动终端可以是手机、平板电脑、个人数字助理等具有各种操作***的硬件设备。

如图1所示，该将移动终端中内容提供至用户的方法可以包括：

S101，获取移动终端屏幕的当前截图。

例如，假设将移动终端中内容提供至用户的方法应用于移动终端中，移动终端为用户提供具有自动截取移动终端屏幕功能的应用程序，该应用程序可以后台方式进行运行，当检测到用户通过新闻客户端阅读新闻、或阅读电子书、或浏览网页等时，该应用程序可自动截取移动终端屏幕，以获取到移动终端屏幕的当前截图。

S102，对当前截图进行分析以获取当前截图对应的布局模式。

具体而言，在本发明的实施例中，可对当前截图进行分析，以识别当前截图中的主要信息模块。之后，可根据主要信息模块获取当前截图对应的布局模式。举例而言，可通过数据清洗算法对当前截图进行分析处理，例如可对当前截图通过增加对比度、降噪、灰度处理等方式以提升识别率，又如可通过裁减处理来将当前截图中的非主要信息模块(如广告等)去除掉，以识别出当前截图中的主要信息模块。之后，可根据主要信息模块在当前截图中的分布情况来确定当前截图对应的布局模式。

其中，在本发明的实施例中，布局模式可为类书信式布局模式或类报纸式布局模式。例如，当主要信息模块中的信息在当前截图中的分布顺序是由上到下、从左到右时，可确定其所对应的布局模式为类书信式布局模式，如图2所示，这种类书信式布局模式的场景一般是用户阅读新闻、电子书等；又如，当主要信息模块为多个，且分布在当前截图中的不同位置时，可确定其所对应的布局模式为类报纸式布局模式，如图3所示，这种类报纸式布局模式的场景一般是用户浏览网页、使用其他应用程序(如微信)等。

S103，根据布局模式对当前截图进行识别以获取当前截图的信息。

具体而言，在本发明的一个实施例中，可根据布局模式通过预设的OCR(OpticalCharacter Recognition，光学字符识别)库对当前截图进行识别以获取当前截图的信息。其中，在本发明的实施例中，预设的OCR库可位于本地或云端等。

需要说明的是，例如，当用户更关注流量消耗时，可通过位于本地的预设的OCR库对当前截图进行识别，本地的预设的OCR库可在合适情况(如Wi-Fi(Wireless Fidelity，无线保真)环境、或用户强制)下同步和更新云端的预设的OCR库。又如，当用户更关心识别体验时，可通过云端的预设的OCR库对当前截图进行识别。

还需要说明的是，由于移动终端屏幕中的内容布局模式是不一样的，因此，根据布局模式对当前截图进行识别的过程也有所不同。下面可分别介绍根据不同的布局模式对当前截图进行识别的不同过程。

举例而言，在本发明的一个实施例中，当布局模式为类书信式布局模式时，根据布局模式对当前截图进行识别可具体包括：按照类书信式布局模式所对应的识别顺序对当前截图进行识别，其中，识别顺序为由上到下、从左到右的顺序。例如，当检测到用户想阅读新闻、或电子书时，分析出当前截图所对应的布局模式为类书信式布局模式，可按照当前截图布局的信息由上到下、从左到右的顺序对当前截图进行识别。

在本发明的一个实施例中，当布局模式为类报纸式布局模式时，根据布局模式对当前截图进行识别可具体包括：可先根据类报纸式布局模式对当前截图进行识别，以获取当前截图的至少两个信息区块。之后，可按照类书信式布局模式所对应的识别顺序对每个信息区块进行识别。例如，当检测到用户浏览网页、或使用其他应用程序(如微信)时，可先根据类报纸式布局模式对当前截图进行识别，识别出当前截图中的信息区块。之后，可通过用户的选择指令先选择某一区块，然后按照类书信式布局模式所对应的识别顺序对该区块进行识别，识别结束之后，在对用户的下一个选择指令对其所选择的区块进行识别，直至所有用户所选择的区块全部识别为止。

由此，根据不同的布局模式通过不同的方式分别对当前截图进行识别，提升识别结果的准确率。

S104，将信息转换为语音，并播放。

例如，可通过语音识别技术将信息转换为语音，并将该语音进行输出来为用户进行播放移动终端屏幕的当前截图中所对应的内容。

需要说明的是，在本发明的一个实施例中，可为用户提供一个交互控制的接口以供用户进行操作。例如，在交互过程中可通过用户的手势操作来对移动终端当前屏幕进行翻页(如上一页、下一页等)；又如，用户还可通过该交互控制接口，来对布局模式为类报纸式布局模式的当前截图中的某个区块进行选择，以实现对该区块进行识别等。本发明实施例的将移动终端中内容提供至用户的方法，可先获取移动终端屏幕的当前截图，之后可对当前截图进行分析以获取当前截图对应的布局模式，并根据布局模式对当前截图进行识别以获取当前截图的信息，以及将信息转换为语音，并播放，即将移动终端屏幕上的信息通过OCR转化为语音输出，使得用户通过听觉即可获取移动终端当前屏幕中的内容，解放了用户的双眼，减轻了用户获取信息的负担，提升了用户体验。

需要说明的是，在本发明的一个实施例中，如图4所示，当预设的OCR库位于云端时，移动终端可将当前截图上传到云端，云端根据布局模式通过云端的预设的OCR库对当前截图进行识别以获取到当前截图的信息，之后云端可将该信息返回到移动终端。然后，移动终端可将信息转换为语音，并将该语音进行输出来为用户进行播放。

还需要说明的是，在本发明的一个实施例中，当用户在浏览一篇长新闻或长篇小说等时，在播放语音，即语音输出的过程中，可判断当前信息后面是否还有内容，若有，则可控制自动滚屏，以获取下一个屏幕的截图；若没有，则语音播放结束。

为了实现上述实施例，本发明还提出一种将移动终端中内容提供至用户的装置，包括：获取模块，用于获取移动终端屏幕的当前截图；分析模块，用于对当前截图进行分析以获取当前截图对应的布局模式；识别模块，用于根据布局模式对当前截图进行识别以获取当前截图的信息；转换模块，用于将信息转换为语音；以及播放模块，用于播放语音。

图5是根据本发明一个实施例的将移动终端中内容提供至用户的装置的结构示意图。需要说明的是，在本发明的实施例中，移动终端可以是手机、平板电脑、个人数字助理等具有各种操作***的硬件设备。

如图5所示，该将移动终端中内容提供至用户的装置可以包括：获取模块10、分析模块20、识别模块30、转换模块40和播放模块50。

具体地，获取模块10可用于获取移动终端屏幕的当前截图。例如，假设将移动终端中内容提供至用户的装置应用于移动终端中，移动终端为用户提供具有自动截取移动终端屏幕功能的应用程序，该应用程序可以后台方式进行运行，当检测到用户通过新闻客户端阅读新闻、或阅读电子书、或浏览网页等时，该应用程序可自动截取移动终端屏幕，获取模块10可获取到移动终端屏幕的当前截图。

分析模块20可用于对当前截图进行分析以获取当前截图对应的布局模式。具体而言，在本发明的一个实施例中，如图6所示，分析模块20可包括分析单元21和获取单元22。具体地，分析单元21可用于对当前截图进行分析，以识别当前截图中的主要信息模块。获取单元22可用于根据主要信息模块获取当前截图对应的布局模式。

举例而言，分析单元21可通过数据清洗算法对当前截图进行分析处理，例如可对当前截图通过增加对比度、降噪、灰度处理等方式以提升识别率，又如可通过裁减处理来将当前截图中的非主要信息模块(如广告等)去除掉，以识别出当前截图中的主要信息模块。获取单元22可根据主要信息模块在当前截图中的分布情况来确定当前截图对应的布局模式。

识别模块30可用于根据布局模式对当前截图进行识别以获取当前截图的信息。具体而言，在本发明的实施例中，识别模块30可根据布局模式通过预设的OCR库对当前截图进行识别以获取当前截图的信息。其中，在本发明的实施例中，预设的OCR库可位于本地或云端。

需要说明的是，例如，当用户更关注流量消耗时，识别模块30可通过位于本地的预设的OCR库对当前截图进行识别，本地的预设的OCR库可在合适情况(如Wi-Fi(WirelessFidelity，无线保真)环境、或用户强制)下同步和更新云端的预设的OCR库。又如，当用户更关心识别体验时，识别模块30可通过云端的预设的OCR库对当前截图进行识别。

举例而言，在本发明的一个实施例中，当布局模式为类书信式布局模式时，识别模块30可具体用于：按照类书信式布局模式所对应的识别顺序对当前截图进行识别，其中，识别顺序为由上到下、从左到右的顺序。例如，当检测到用户想阅读新闻、或电子书时，分析模块20可分析出当前截图所对应的布局模式为类书信式布局模式，识别模块30可按照当前截图布局的信息由上到下、从左到右的顺序对当前截图进行识别。

在本发明的一个实施例中，当布局模式为类报纸式布局模式时，识别模块30可具体用于：先根据类报纸式布局模式对当前截图进行识别，以获取当前截图的至少两个信息区块。之后可按照类书信式布局模式所对应的识别顺序对每个信息区块进行识别。例如，当检测到用户浏览网页、或使用其他应用程序(如微信)时，识别模块30可先根据类报纸式布局模式对当前截图进行识别，识别出当前截图中的信息区块。之后，可通过用户的选择指令先选择某一区块，然后按照类书信式布局模式所对应的识别顺序对该区块进行识别，识别结束之后，在对用户的下一个选择指令对其所选择的区块进行识别，直至所有用户所选择的区块全部识别为止。由此，根据不同的布局模式通过不同的方式分别对当前截图进行识别，提升识别结果的准确率。

转换模块40可用于将信息转换为语音。播放模块50可用于播放语音。例如，转换模块40可通过语音识别技术将信息转换为语音。播放模块50可将该语音进行输出来为用户进行播放移动终端屏幕的当前截图中所对应的内容。

需要说明的是，在本发明的一个实施例中，可为用户提供一个交互控制的接口以供用户进行操作。例如，在交互过程中可通过用户的手势操作来对移动终端当前屏幕进行翻页(如上一页、下一页等)；又如，用户还可通过该交互控制接口，来对布局模式为类报纸式布局模式的当前截图中的某个区块进行选择，以实现对该区块进行识别等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种将移动终端中内容提供至用户的方法，其特征在于，包括以下步骤：

获取移动终端屏幕的当前截图；

对所述当前截图进行分析以获取所述当前截图对应的布局模式；

根据所述布局模式对所述当前截图进行识别以获取所述当前截图的信息；以及

将所述信息转换为语音，并播放；

其中，所述对所述当前截图进行分析以获取所述当前截图对应的布局模式具体包括：

对所述当前截图进行分析，以识别所述当前截图中的主要信息模块；以及

根据所述主要信息模块获取所述当前截图对应的布局模式；

所述对所述当前截图进行分析，以识别所述当前截图中的主要信息模块，包括：

采用数据清洗算法对所述当前截图进行分析处理；

对经所述数据清洗算法分析处理后得到的所述当前截图进行裁减处理以去除所述当前截图中的非主要信息模块进而识别所述当前截图中的主要信息模块；

还包括：在播放所述语音时，判断当前信息后面是否还有内容；

若有，则控制自动滚屏，以获取下一个屏幕的截图；若没有，则语音播放结束；

其中，所述布局模式为类书信式布局模式或类报纸式布局模式；

当所述布局模式为类书信式布局模式时，所述根据所述布局模式对所述当前截图进行识别具体包括：

按照所述类书信式布局模式所对应的识别顺序对所述当前截图进行识别，其中，所述识别顺序为由上到下、从左到右的顺序；

当所述布局模式为类报纸式布局模式时，所述根据所述布局模式对所述当前截图进行识别具体包括：

根据所述类报纸式布局模式对所述当前截图进行识别，以获取所述当前截图的至少两个信息区块；以及

按照所述类书信式布局模式所对应的识别顺序对每个信息区块进行识别。

2.如权利要求1所述的将移动终端中内容提供至用户的方法，其特征在于，所述根据所述布局模式对所述当前截图进行识别以获取所述当前截图的信息具体包括：

根据所述布局模式通过预设的光学字符识别OCR库对所述当前截图进行识别以获取所述当前截图的信息。

3.如权利要求2所述的将移动终端中内容提供至用户的方法，其特征在于，所述预设的光学字符识别OCR库位于本地或云端。

4.一种将移动终端中内容提供至用户的装置，其特征在于，包括：

获取模块，用于获取移动终端屏幕的当前截图；

分析模块，用于对所述当前截图进行分析以获取所述当前截图对应的布局模式；

识别模块，用于根据所述布局模式对所述当前截图进行识别以获取所述当前截图的信息；

转换模块，用于将所述信息转换为语音；以及

播放模块，用于播放所述语音；其中，所述分析模块包括：

分析单元，用于对所述当前截图进行分析，以识别所述当前截图中的主要信息模块；以及

获取单元，用于根据所述主要信息模块获取所述当前截图对应的布局模式；

其中，所述分析单元，具体用于：采用数据清洗算法对所述当前截图进行分析处理；

所述播放模块，还用于在播放所述语音时，判断当前信息后面是否还有内容；

当所述布局模式为类书信式布局模式时，所述识别模块具体用于：

当所述布局模式为类报纸式布局模式时，所述识别模块具体用于：

5.如权利要求4所述的将移动终端中内容提供至用户的装置，其特征在于，所述识别模块具体用于：

6.如权利要求5所述的将移动终端中内容提供至用户的装置，其特征在于，所述预设的光学字符识别OCR库位于本地或云端。