CN108229481B

CN108229481B - 屏幕内容分析方法、装置、计算设备及存储介质

Info

Publication number: CN108229481B
Application number: CN201711423613.6A
Authority: CN
Inventors: 陈若鹏; 徐志成; 杨希
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2020-09-11
Anticipated expiration: 2037-12-25
Also published as: CN108229481A

Abstract

本发明实施例公开了一种屏幕内容分析的方法、装置、计算设备及存储介质。该方法包括：基于应用图像模型库，识别屏幕图像中的活动窗口区域及其对应的应用；基于应用的应用图像模型，将活动窗口区域划分为一个或多个文本区和非文本区；以及识别文本区中的文字，得到字符串文本。通过本发明的技术方案，能够提高运维操作识别的准确性，提升IT运维操作审计的效率。

Description

屏幕内容分析方法、装置、计算设备及存储介质

技术领域

本发明涉及IT***运维技术领域，尤其涉及一种屏幕内容分析的方法、装置、计算设备及存储介质。

背景技术

目前，IT***运维操作审计中，运维终端的屏幕录像是一种常见的审计方法。但是，在日常审计过程中，尤其是当进行安全事件追溯时，面对海量的运维操作图像，审计操作员无法基于录像中的操作内容进行检索审计，需要逐帧查看录像，效率低下。

因此，需要一种能够提高审计效率的屏幕内容分析方法。

发明内容

本发明实施例提供了一种屏幕内容分析方法、装置、计算设备及存储介质，能够提高运维操作识别的准确性，提升IT运维操作审计的效率。

第一方面，本发明实施例提供了一种屏幕内容分析方法，方法包括：

基于应用图像模型库，识别屏幕图像中的活动窗口区域及其对应的应用；

基于应用的应用图像模型，将活动窗口区域划分为一个或多个文本区和非文本区；以及

识别文本区中的文字，得到字符串文本。

优选地，基于应用的应用图像模型将活动窗口区域划分为一个或多个文本区和非文本区的步骤包括：

在应用的窗口界面模式已知的情况下，基于应用的窗口界面模式将活动窗口区域划分为一个或多个文本区和非文本区；以及/或者

在应用的窗口界面模式未知的情况下，基于文本和图片的固有特征将活动窗口区域划分为一个或多个文本区和非文本区，并且根据划分结果更新所述应用图像模型中记载的窗口界面模式。

优选地，识别文本区中的文字得到字符串文本的步骤包括：

对文本区进行行切分，得到文本行图像；

基于分隔符进行词切分，得到单词或短语图像；

基于语法和经验模型进行字符切分，得到字符图像；

计算字符图像的特征向量；

基于特征向量识别字符图像对应的字符或字。

可选地，结合词切分和行切分的结果，对字符或字进行组合得到字符串文本。

可选地，基于预设的一种或多种语言识别文本区中的文字。

优选地，该方法还包括：

确定与应用对应的业务场景；

根据业务场景对所识别的文本进行处理。

可选地，根据业务场景将所识别的文本分类为一个或多个部分。

优选地，该屏幕内容分析方法还包括：

提取屏幕录像中的非重复帧，屏幕图像是非重复帧的屏幕图像。

优选地，提取屏幕录像中的非重复帧的步骤包括：

从当前非重复帧开始，以设定的初始抽样间隔，进行循环抽样，直到相邻两次抽样的帧的帧序号小于或等于预定阈值，以相邻两次抽样中前向抽样得到的帧作为下一个非重复帧，其中，循环抽样包括：

响应于在前向抽样中查找到与当前非重复帧不相似的帧，将抽样间隔减半，并执行后向抽样；

响应于在后向抽样中查找到与当前非重复帧相似的帧，将抽样间隔减半，并执行前向抽样。

优选地，该方法还包括：在数据库表中记录屏幕图像所对应的帧序号和在屏幕图像中识别的字符串文本。

优选地，屏幕录像是IT运维操作屏幕录像；并且/或者应用是运维工具。

第二方面，本发明实施例提供了一种屏幕内容分析装置，装置包括：

识别模块，用于基于应用图像模型库，识别屏幕图像中的活动窗口区域及其对应的应用；

区域划分模块，用于基于所述应用的应用图像模型，将所述识别模块识别的所述活动窗口区域划分为一个或多个文本区和非文本区；以及

文字识别模块，用于识别所述划分模块划分的所述文本区中的文字，得到字符串文本。

第三方面，本发明实施例提供了一种计算设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的屏幕内容分析方法、装置、设备及介质，提高了运维操作的准确性，提升了运维操作的审计效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一实施例的屏幕内容分析方法的示意性流程图。

图2示出了本发明一实施例中的区域划分的一个应用场景示例；

图3示出了本发明一实施例中的区域划分的另一应用场景示例；

图4示出了本发明一实施例中的区域划分的另一应用场景示例；

图5示出了本发明一实施例的屏幕内容分析方法的示意性流程图。

图6示出了本发明一实施例的提取屏幕录像中非重复帧的示意图。

图7示出了本发明一实施例的提取屏幕录像中非重复帧的示意图。

图8示出了本发明一实施例的屏幕内容分析装置的示意性结构框图。

图9示出了本发明一实施例的计算设备的示意性结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例对运维操作录像进行逐帧差异筛选识别，基于优先算法对录像中的重复帧进行高效去重；同时对IT运维工具图像模型进行建模，以提高运维操作识别的准确性。实现IT运维录像的内容识别，提升审计效率。

为了提升识别效率和识别精确度，根据运维工具特征进行内容识别，而不是全运维桌面图像识别。本发明对运维工具进行图像建模，下面将结合附图对各步骤进行详细说明。

在步骤S100中可以基于应用图像模型库，识别屏幕图像中的活动窗口区域及其对应的应用。

其中，应用可以是运维工具。工具信息可以包括运维工具名称，工具主要字体，工具窗口区范围等。例如，通过已构建的运维工具模型获取识别区域，识别区域定为当前应用的活动窗口区域，定位窗口当前位置，并配合窗口名称识别当前进程；通过构建的工具模型提升主要文本区的对比度，抑制非文本区图像，比如相对于菜单区、状态栏等，提升文本区的对比度。

在步骤S200中可以基于应用的应用图像模型，将活动窗口区域划分为一个或多个文本区和非文本区。

其中，在应用的窗口界面模式已知的情况下，可以基于应用的窗口界面模式将活动窗口区域划分为一个或多个文本区和非文本区；

在应用的窗口界面模式未知的情况下，基于文本和图片的固有特征将活动窗口区域划分为一个或多个文本区和非文本区，并且根据划分结果更新应用图像模型中记载的窗口界面模式。

例如，对于已知应用类型的图像采用文档模型匹配方式，快速对内容区域分类；对于未提供应用类型的图像拟采取自适应方法分类，并更新已有文档模型。其中，自适应图像区域分类可以基于文本和图片的固有特征，将图像内容区域类型分成文本区和图片区两类。

例如，在针对已知应用类型的图像快速对内容区域分类中，可以结合运维工具特殊布局划分功能区块，结合功能区块内业务特点，建立针对区块的内容识别规则。分为文本区和非文本区，其中文本区通常主要为文字信息占优的区域，基于预设的文档模型，且知其背景通常为纯色，如文本编辑类型的白色或命令窗口的黑色；非文本区通常可视作图像区，如工具的菜单栏、分割栏、状态栏等。

以通用Oracle访问工具PLSQL Developer举例，通常划分为菜单区域、文本输入区域，结果区域等，如图2所示。每个区域的特征和识别规则如下：

文本输入区域：关注DDL和DML语句，根据操作命令寻找命令特征，如select、update等操作，不关注注释内容的识别率，再配合词典 select、updte关键字的配置进行内容识别。

结果区域：根据结果区域的表格特征，每列字段类型都是一致的，因此按列内容识别，识别过程加入正则表达的判断，如此列为电话号码、邮箱地址、身份证号码等正则进行识别。

菜单区域：菜单区域文字内容根据不存在变化，事先预定义菜单矩阵，如a₁₁…a_1n代表“文件”菜单下的按钮，a₂₁…a_2n代表“工程”菜单下的按钮，以此类推。

类似情况，以FTP客户端访问工具FlashFXp举例，如图3所示，主要关注操作区域和结果区域：

操作区域：关注的当前目录名称，而目录名称是由英文和汉字组成，配合字体字号固定，进而进行文字识别。

工具结果区域：如图4所示，主要为连接、断开、文件交换信息，按照列和行双向识别，第一列都是[*]，当行[*]后是数字时代表信息的代码，此工具信息码是固定的，识别后，可根据预设固定信息码纠错识别的字符串信息。

本发明实施例的屏幕内容分析方法中，可以确定与应用对应的业务场景，并根据业务场景对所识别的文本进行处理。

由于运维工具是和业务场景进行关联的，每个运维工具一般只适用于一类业务场景，如plsql工具主要是Oracle维护访问场景，FlashFXP工具是针对FTP服务器进行文件上传和下载操作。

因此，可以根据业务场景将所识别的文本分类为一个或多个部分。

例如，识别过程会自动分类识别到的文字信息，如数据库识别内容、主机识别内容、业务***识别内容等。

在步骤S300中识别文本区的文字，得到字符串文本。

根据本发明一实施例，步骤S300可以包括：

对文本区进行行切分，得到文本行图像；

基于分隔符进行词切分，得到单词或短语图像；

基于语法和经验模型进行字符切分，得到字符图像；

计算字符图像的特征向量；

基于特征向量识别字符图像对应的字符或字；以及

结合词切分和行切分的结果，对字符或字进行组合得到字符串文本。

根据运维工具特征，识别过程将包括提取文本图像的行数据(行切分)、基于分隔符的单词或短语提取(词切分)和基于语法和经验模型的字符提取(字符切分)，对于分割出的字符计算特征向量(特征提取)，输入到分类器中识别输出对应的字符或字，结合词切分和行切分结果(词组合)，基于字典库组合输出最终的字符串文本。

本发明实施例中，可以基于预设的一种或多种语言识别文本区中的文字。

由于实际工具中可能出现的语言类别主要有简体中文和英文，因此，文本识别处理的语言类别拟限定为这两类，并分别为中文和英文创建相应的特征库，并按照菜单栏、编辑区、状态栏等工具固有区域进行文字识别。识别后的文字可以存储在大数据中，根据大数据的分析能力，计算词频，优化已定义词典。

图5示出了本发明一实施例的屏幕内容分析方法的示意性流程图。对于已知工具模型的图像采用文档模型匹配方式，快速对内容区域划分，进行关联业务、特征提取、定向识别；对于未提供应用类型的图像拟采取自适应方法分类，并更新已有工具模型。其中，自适应图像区域分类可以基于文本和图片的固有特征，将图像内容区域类型分成文本区和图片区两类。

综上所述，可以根据特定运维环境、特定运维工具、业务特征进行运维工具的建模。

下面以运维工具PLSQL Developer为具体实例，解释本发明屏幕内容分析的方法。

1)读取需识别的图像，通过已构建的运维工具模型获取识别区域，假设识别到的当前应用活动窗口为Oracle访问工具PLSQL Developer。

2)通过图像，计算当前活动窗口的相对位置，如为(33，58)(33,88)。

3)通过构建的工具模型提升相对位置内的PLSQL Developer工具区对比度，抑制非文本区图像。

4)将PLSQL Developer划分为菜单区域、文本输入区域，结果区域等，每个区域的特征和识别规则如下：文本输入区域：关注DDL和DML语句，根据操作命令寻找命令特征，如select、 update等操作，不关注注释内容的识别率，再配合词典select、 updte关键字的配置进行内容识别；结果区域：根据结果区域的表格特征，每列字段类型都是一致的，因此按列内容识别，识别过程加入正则表达的判断，如此列为电话号码、邮箱地址、身份证号码等正则进行识别；菜单区域：菜单区域文字内容根据不存在变化，事先预定义菜单矩阵进行内容识别。

5)将PLSQL Developer工具识别到的文字存入到操作类型为数据库的表中，表字段为帧序列、窗口名称、菜单内容、编辑区内容、结果区内容、状态区内容等。

在对运维工具图像建模之前，为了减少对屏幕图像的分析处理量，可以基于优先算法对屏幕录像中的重复帧进行高效去重，提取屏幕录像中的非重复帧。

根据本发明一实施例，提取屏幕录像中的非重复帧的步骤可以包括：

例如，在优先算法中，定义收敛策略，即通过相邻区域帧图片的扫描结果进行收敛性判断，例如当相邻区域的扫描识别结果重叠度达到一定标准时即认为扫描识别结果收敛；定义抽样策略，即在一个帧图片扫描收敛后，在选择下一帧图片扫描时，可以依据抽样算法得到最大效率的下一帧抽样图像，做到信息不丢失的情况下最大限度减少重复特征帧的扫描。抽样策略包括前向抽样和后向抽样，每一次抽样策略的计算循环过程如下：

在一帧图像被识别为收敛后，通过前向策略计算下一帧的序列号，如该帧的扫描识别结果与前一帧的识别结果相似度在收敛域外，则说明该帧属于非重帧，则进行向后策略计算，只有当选择的前向策略选择帧为非重帧，且向后策略选择帧为重帧时，该前向策略选择帧即为下一扫描帧。

在对屏幕图像进行抽样时，可以使用前向抽样和后向抽样循环往复的方法。

设S点代表搜索起点，E点代表搜索目标。设S点与E点之间的距离为R，R＝R1+R2，画出以S为圆心的R1为半径的小圆和以E为圆心以R2 为半径的小圆。大圆面积：S1＝πR²＝π(R1+R2)²，小圆面积： S2＝πR1²+πR2²＝π(R1+R2)²-2πR1R2。

大圆代表单向搜索可能的搜索范围，两个小圆表示某次双向搜索的搜索范围，容易证明两个小圆的的面积和必定要比大圆的小。因为S2＝S1- 2πR1R2，S1＝S2+2πR1R2。S2的值小于等于S1，因此小圆面积必定要比大圆的要小。

所以双向搜索的范围小于单向搜索的范围，因此，本发明实施例采用前向抽样与后向抽样结合的方法对屏幕录像进行抽样。

设S点与E点之间的距离为常量R，其中一小圆分半径为X，另一小圆半径为R-X，两个小圆的面积为S。

S＝π[X²+(R-X)²]；S＝2π[(X-R/2)²+R²\4]。因为(X-R/2)2>＝0，所以当 X-R/2＝0时，Smin＝2πR²\4＝πR²\2。X＝R/2，两小圆面积相等时，即X点处于中间时，两小圆面积最小。因此为了使前向抽样和后向抽样的抽样范围尽可能小，可以将每次的抽样间隔减半。

因此，优先算法去重帧步骤可以包括：

1)获取N分钟的视频数据，并计算采集频次，假设帧图像采集频次为M秒

2)直接获取0s和Ms处的帧图像

3)对两张帧图像的像素点进行减法运算

4)如结果为0，那么0s和Ms之间的帧图像属于重复帧，不进行内容识别

5)继续，获取M*2s处的帧图片与Ms处的帧图片进行减法运行

6)如结果为0，那么Ms和2Ms处的帧图像属于重复帧，不进行内容识别

7)如果Ms和2Ms处的帧图像计算结果不为0，那么获取 (M+2M)\2s处的帧图像与Ms处的图像进行对应

8)如Ms和(M+2M)\2s不同时，继续回跳到5M\4s处与Ms 的帧图像进行对比

9)如帧图像相同，那么获取上次对比的帧图像进行内容识别

10)以此类推，继续获取帧图片进行对比。

图6-图7示出了本发明一实施例的提取屏幕录像中非重复帧的示意图。

如图6所示，以抽样间隔为2s为例，间隔2s的帧图像和当前帧图像对比，如不同，往回跳1s，与当前帧图像再对比，依次类推，发相同时，取上次对比的帧图片进行内容识别。

如图7所示，间隔2s的帧图像和当前帧图像对比，如相同，往前跳 2s，与当前帧图像再对比，依次类推，当发现不同时，在2s内，往回跳时，发现相同时，取上次对比的帧图像进行内容识别。

根据本发明一实施例，该方法还包括：在数据库表中记录屏幕图像所对应的帧序号和在屏幕图像中识别的字符串文本。

可以将抽样后的屏幕图像作为运维工具模型的输入，通过记录屏幕录像对应的帧序号，将在屏幕录像中识别的字符串文本与屏幕录像的帧序号一一对应。

以上述及的屏幕录像可以是IT运维操作屏幕录像。通过上述方法，可以首先基于优先算法，实现对IT运维操作的逐帧差异筛选识别，获取待识别的内容；通过对IT运维工具建模，提高运维操作识别的准确性，解决了审计操作员无法基于屏幕录像中的操作内容进行检索审计的问题，能够实现IT运维操作录像的内容识别和录像内容的检索审计。

本发明实施例的屏幕内容分析方法可以通过本发明实施例提供的屏幕内容分析装置来实现。图8示出了根据本发明以实施例的屏幕内容分析装置的示意性结构框图。如图8所示，该屏幕内容分析装置500包括：识别模块510、区域划分模块520和文字识别模块530。

识别模块510可以基于应用图像模型库，识别屏幕图像中的活动窗口区域及其对应的应用。

区域划分模块520可以基于应用的应用图像模型，将识别模块510识别的活动窗口区域划分为一个或多个文本区和非文本区。

文字识别模块530可以识别区域划分模块520划分的文本区中的文字，得到字符串文本。

其中，区域划分模块520可以包括第一划分单元和第二划分单元。

第一划分单元可以在应用的窗口界面模式已知的情况下，基于应用的窗口界面模式将活动窗口区域划分为一个或多个文本区和非文本区。

第二划分单元可以在应用的窗口界面模式未知的情况下，基于文本和图片的固有特征将活动窗口区域划分为一个或多个文本区和非文本区，并且根据划分结果更新应用图像模型中记载的窗口界面模式。

文字识别模块可以包括行切分单元、词切分单元、字符切分单元和计算单元。

其中，行切分单元可以对文本区进行行切分，得到文本行图像。

词切分单元可以基于分隔符进行词切分，得到单词或短语图像。

字符切分单元可以基于语法和经验模型进行字符切分，得到字符图像。

计算单元可以计算字符图像的特征向量，以便基于特征向量识别字符图像对应的字符或字。

文字识别模块还可以包括组合单元，其可以结合词切分和行切分的结果，对字符或字进行组合得到字符串文本。

根据本发明一实施例，该屏幕内容分析装置500还可以包括：关联业务模块。关联业务模块可以确定与应用对应的业务场景，以便根据业务场景对所识别的文本进行处理。

根据本发明一实施例，该屏幕内容分析装置500还可以包括：提取模块，其可以提取屏幕录像中的非重复帧，以使识别模块510识别的屏幕图像是非重复帧的屏幕图像。

根据本发明一实施例，提取模块可以包括抽样单元，抽样单元可以从当前非重复帧开始，以设定的初始抽样间隔，进行循环抽样，直到相邻两次抽样的帧的帧序号小于或等于预定阈值，以相邻两次抽样中前向抽样得到的帧作为下一个非重复帧，其中，循环抽样包括：响应于在前向抽样中查找到与当前非重复帧不相似的帧，将抽样间隔减半，并执行后向抽样；响应于在后向抽样中查找到与当前非重复帧相似的帧，将抽样间隔减半，并执行前向抽样。

通过上述装置，可以基于优先算法，实现对IT运维操作的逐帧差异筛选识别，获取待识别的内容；通过对IT运维工具建模，提高运维操作识别的准确性，解决了审计操作员无法基于屏幕录像中的操作内容进行检索审计的问题，能够实现IT运维操作录像的内容识别和录像内容的检索审计。

另外，结合图9述的本发明实施例的屏幕内容分析方法可以由计算设备来实现。图9示出了本发明实施例提供的计算设备的硬件结构示意图。

计算设备可以包括处理器601以及存储有计算机程序指令的存储器 602。具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(Application SpecificIntegrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus， USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在数据处理装置的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器 (ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程 ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM (EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种屏幕内容分析方法。

在一个示例中，计算设备还可包括通信接口603和总线610。其中，如图9所示，处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。

通信接口603，主要用于实现本发明实施例中各模块、装置、单元和/ 或设备之间的通信。

总线610包括硬件、软件或两者，将计算设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT) 互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线610可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的屏幕内容分析方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种屏幕内容分析方法。

综上所述，本发明解决了审计操作员无法基于录像中的操作内容进行检索审计的难题，实现IT运维操作录像的内容识别和录像内容检索审计，同时对IT运维工具图像模型进行建模，提高运维操作识别的准确性，提升IT运维操作审计效率。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、 ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种屏幕内容分析方法，其特征在于，所述方法包括：

基于所述应用的应用图像模型，将所述活动窗口区域划分为一个或多个文本区和非文本区；

识别所述文本区中的文字，得到字符串文本；

提取屏幕录像中的非重复帧，所述屏幕图像是所述非重复帧的屏幕图像；

其中，所述提取屏幕录像中的非重复帧的步骤包括：

从当前非重复帧开始，以设定的初始抽样间隔，进行循环抽样，直到相邻两次抽样的帧的帧序号小于或等于预定阈值，以所述相邻两次抽样中前向抽样得到的帧作为下一个非重复帧，

所述循环抽样包括：

2.根据权利要求1所述的方法，其特征在于，所述基于应用的应用图像模型将所述活动窗口区域划分为一个或多个文本区和非文本区的步骤包括：

在所述应用的窗口界面模式已知的情况下，基于所述应用的窗口界面模式将所述活动窗口区域划分为一个或多个文本区和非文本区；以及/或者

在所述应用的窗口界面模式未知的情况下，基于文本和图片的固有特征将所述活动窗口区域划分为一个或多个文本区和非文本区，并且根据划分结果更新所述应用图像模型中记载的窗口界面模式。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述应用对应的业务场景；

根据所述业务场景对所识别的文本进行处理。

4.根据权利要求3所述的方法，其特征在于，所述根据所述业务场景对所识别的文本进行处理的步骤包括：

根据所述业务场景将所识别的文本分类为一个或多个部分。

5.根据权利要求1所述的方法，其特征在于，所述识别所述文本区中的文字得到字符串文本的步骤包括：

对所述文本区进行行切分，得到文本行图像；

基于分隔符进行词切分，得到单词或短语图像；

基于语法和经验模型进行字符切分，得到字符图像；

计算所述字符图像的特征向量；

基于所述特征向量识别所述字符图像对应的字符或字。

6.根据权利要求5所述的方法，其特征在于，所述识别所述文本区中的文字得到字符串文本的步骤还包括：

结合词切分和行切分的结果，对所述字符或字进行组合得到所述字符串文本。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于预设的一种或多种语言识别所述文本区中的文字。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在数据库表中记录屏幕图像所对应的帧序号和在所述屏幕图像中识别的字符串文本。

9.一种屏幕内容分析装置，其特征在于，所述装置包括：

文字识别模块，用于识别所述划分模块划分的所述文本区中的文字，得到字符串文本；

提取模块，用于提取屏幕录像中的非重复帧，以使识别模块识别的屏幕图像是非重复帧的屏幕图像；

提取模块包括抽样单元，抽样单元用于从当前非重复帧开始，以设定的初始抽样间隔，进行循环抽样，直到相邻两次抽样的帧的帧序号小于或等于预定阈值，以相邻两次抽样中前向抽样得到的帧作为下一个非重复帧，其中，循环抽样包括：响应于在前向抽样中查找到与当前非重复帧不相似的帧，将抽样间隔减半，并执行后向抽样；响应于在后向抽样中查找到与当前非重复帧相似的帧，将抽样间隔减半，并执行前向抽样。

10.一种计算设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-8任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。