CN108229481B - 屏幕内容分析方法、装置、计算设备及存储介质 - Google Patents

屏幕内容分析方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN108229481B
CN108229481B CN201711423613.6A CN201711423613A CN108229481B CN 108229481 B CN108229481 B CN 108229481B CN 201711423613 A CN201711423613 A CN 201711423613A CN 108229481 B CN108229481 B CN 108229481B
Authority
CN
China
Prior art keywords
text
frame
sampling
image
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711423613.6A
Other languages
English (en)
Other versions
CN108229481A (zh
Inventor
陈若鹏
徐志成
杨希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Jiangsu Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711423613.6A priority Critical patent/CN108229481B/zh
Publication of CN108229481A publication Critical patent/CN108229481A/zh
Application granted granted Critical
Publication of CN108229481B publication Critical patent/CN108229481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种屏幕内容分析的方法、装置、计算设备及存储介质。该方法包括:基于应用图像模型库,识别屏幕图像中的活动窗口区域及其对应的应用;基于应用的应用图像模型,将活动窗口区域划分为一个或多个文本区和非文本区;以及识别文本区中的文字,得到字符串文本。通过本发明的技术方案,能够提高运维操作识别的准确性,提升IT运维操作审计的效率。

Description

屏幕内容分析方法、装置、计算设备及存储介质
技术领域
本发明涉及IT***运维技术领域,尤其涉及一种屏幕内容分析的方 法、装置、计算设备及存储介质。
背景技术
目前,IT***运维操作审计中,运维终端的屏幕录像是一种常见的审 计方法。但是,在日常审计过程中,尤其是当进行安全事件追溯时,面对 海量的运维操作图像,审计操作员无法基于录像中的操作内容进行检索审 计,需要逐帧查看录像,效率低下。
因此,需要一种能够提高审计效率的屏幕内容分析方法。
发明内容
本发明实施例提供了一种屏幕内容分析方法、装置、计算设备及存储 介质,能够提高运维操作识别的准确性,提升IT运维操作审计的效率。
第一方面,本发明实施例提供了一种屏幕内容分析方法,方法包括:
基于应用图像模型库,识别屏幕图像中的活动窗口区域及其对应的应 用;
基于应用的应用图像模型,将活动窗口区域划分为一个或多个文本区 和非文本区;以及
识别文本区中的文字,得到字符串文本。
优选地,基于应用的应用图像模型将活动窗口区域划分为一个或多个 文本区和非文本区的步骤包括:
在应用的窗口界面模式已知的情况下,基于应用的窗口界面模式将活 动窗口区域划分为一个或多个文本区和非文本区;以及/或者
在应用的窗口界面模式未知的情况下,基于文本和图片的固有特征将 活动窗口区域划分为一个或多个文本区和非文本区,并且根据划分结果更 新所述应用图像模型中记载的窗口界面模式。
优选地,识别文本区中的文字得到字符串文本的步骤包括:
对文本区进行行切分,得到文本行图像;
基于分隔符进行词切分,得到单词或短语图像;
基于语法和经验模型进行字符切分,得到字符图像;
计算字符图像的特征向量;
基于特征向量识别字符图像对应的字符或字。
可选地,结合词切分和行切分的结果,对字符或字进行组合得到字符 串文本。
可选地,基于预设的一种或多种语言识别文本区中的文字。
优选地,该方法还包括:
确定与应用对应的业务场景;
根据业务场景对所识别的文本进行处理。
可选地,根据业务场景将所识别的文本分类为一个或多个部分。
优选地,该屏幕内容分析方法还包括:
提取屏幕录像中的非重复帧,屏幕图像是非重复帧的屏幕图像。
优选地,提取屏幕录像中的非重复帧的步骤包括:
从当前非重复帧开始,以设定的初始抽样间隔,进行循环抽样,直到 相邻两次抽样的帧的帧序号小于或等于预定阈值,以相邻两次抽样中前向 抽样得到的帧作为下一个非重复帧,其中,循环抽样包括:
响应于在前向抽样中查找到与当前非重复帧不相似的帧,将抽样间隔 减半,并执行后向抽样;
响应于在后向抽样中查找到与当前非重复帧相似的帧,将抽样间隔减 半,并执行前向抽样。
优选地,该方法还包括:在数据库表中记录屏幕图像所对应的帧序号 和在屏幕图像中识别的字符串文本。
优选地,屏幕录像是IT运维操作屏幕录像;并且/或者应用是运维工 具。
第二方面,本发明实施例提供了一种屏幕内容分析装置,装置包括:
识别模块,用于基于应用图像模型库,识别屏幕图像中的活动窗口区 域及其对应的应用;
区域划分模块,用于基于所述应用的应用图像模型,将所述识别模块 识别的所述活动窗口区域划分为一个或多个文本区和非文本区;以及
文字识别模块,用于识别所述划分模块划分的所述文本区中的文字, 得到字符串文本。
第三方面,本发明实施例提供了一种计算设备,包括:至少一个处理 器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程 序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储 有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方 式中第一方面的方法。
本发明实施例提供的屏幕内容分析方法、装置、设备及介质,提高了 运维操作的准确性,提升了运维操作的审计效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例 中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一实施例的屏幕内容分析方法的示意性流程图。
图2示出了本发明一实施例中的区域划分的一个应用场景示例;
图3示出了本发明一实施例中的区域划分的另一应用场景示例;
图4示出了本发明一实施例中的区域划分的另一应用场景示例;
图5示出了本发明一实施例的屏幕内容分析方法的示意性流程图。
图6示出了本发明一实施例的提取屏幕录像中非重复帧的示意图。
图7示出了本发明一实施例的提取屏幕录像中非重复帧的示意图。
图8示出了本发明一实施例的屏幕内容分析装置的示意性结构框图。
图9示出了本发明一实施例的计算设备的示意性结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本 发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置 为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本 发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施 例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用 来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者 暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者 设备中还存在另外的相同要素。
本发明实施例对运维操作录像进行逐帧差异筛选识别,基于优先算法 对录像中的重复帧进行高效去重;同时对IT运维工具图像模型进行建模, 以提高运维操作识别的准确性。实现IT运维录像的内容识别,提升审计效 率。
为了提升识别效率和识别精确度,根据运维工具特征进行内容识别, 而不是全运维桌面图像识别。本发明对运维工具进行图像建模,下面将结 合附图对各步骤进行详细说明。
图1示出了本发明一实施例的屏幕内容分析方法的示意性流程图。
在步骤S100中可以基于应用图像模型库,识别屏幕图像中的活动窗 口区域及其对应的应用。
其中,应用可以是运维工具。工具信息可以包括运维工具名称,工具 主要字体,工具窗口区范围等。例如,通过已构建的运维工具模型获取识 别区域,识别区域定为当前应用的活动窗口区域,定位窗口当前位置,并 配合窗口名称识别当前进程;通过构建的工具模型提升主要文本区的对比 度,抑制非文本区图像,比如相对于菜单区、状态栏等,提升文本区的对 比度。
在步骤S200中可以基于应用的应用图像模型,将活动窗口区域划分 为一个或多个文本区和非文本区。
其中,在应用的窗口界面模式已知的情况下,可以基于应用的窗口界 面模式将活动窗口区域划分为一个或多个文本区和非文本区;
在应用的窗口界面模式未知的情况下,基于文本和图片的固有特征将 活动窗口区域划分为一个或多个文本区和非文本区,并且根据划分结果更 新应用图像模型中记载的窗口界面模式。
例如,对于已知应用类型的图像采用文档模型匹配方式,快速对内容 区域分类;对于未提供应用类型的图像拟采取自适应方法分类,并更新已 有文档模型。其中,自适应图像区域分类可以基于文本和图片的固有特 征,将图像内容区域类型分成文本区和图片区两类。
例如,在针对已知应用类型的图像快速对内容区域分类中,可以结合 运维工具特殊布局划分功能区块,结合功能区块内业务特点,建立针对区 块的内容识别规则。分为文本区和非文本区,其中文本区通常主要为文字 信息占优的区域,基于预设的文档模型,且知其背景通常为纯色,如文本 编辑类型的白色或命令窗口的黑色;非文本区通常可视作图像区,如工具 的菜单栏、分割栏、状态栏等。
以通用Oracle访问工具PLSQL Developer举例,通常划分为菜单区 域、文本输入区域,结果区域等,如图2所示。每个区域的特征和识别规 则如下:
文本输入区域:关注DDL和DML语句,根据操作命令寻找命令特 征,如select、update等操作,不关注注释内容的识别率,再配合词典 select、updte关键字的配置进行内容识别。
结果区域:根据结果区域的表格特征,每列字段类型都是一致的,因 此按列内容识别,识别过程加入正则表达的判断,如此列为电话号码、邮 箱地址、身份证号码等正则进行识别。
菜单区域:菜单区域文字内容根据不存在变化,事先预定义菜单矩 阵,如a11…a1n代表“文件”菜单下的按钮,a21…a2n代表“工程”菜单下 的按钮,以此类推。
Figure BDA0001523542350000061
类似情况,以FTP客户端访问工具FlashFXp举例,如图3所示,主 要关注操作区域和结果区域:
操作区域:关注的当前目录名称,而目录名称是由英文和汉字组成, 配合字体字号固定,进而进行文字识别。
工具结果区域:如图4所示,主要为连接、断开、文件交换信息,按 照列和行双向识别,第一列都是[*],当行[*]后是数字时代表信息的代码, 此工具信息码是固定的,识别后,可根据预设固定信息码纠错识别的字符 串信息。
本发明实施例的屏幕内容分析方法中,可以确定与应用对应的业务场 景,并根据业务场景对所识别的文本进行处理。
由于运维工具是和业务场景进行关联的,每个运维工具一般只适用于 一类业务场景,如plsql工具主要是Oracle维护访问场景,FlashFXP工具 是针对FTP服务器进行文件上传和下载操作。
因此,可以根据业务场景将所识别的文本分类为一个或多个部分。
例如,识别过程会自动分类识别到的文字信息,如数据库识别内容、 主机识别内容、业务***识别内容等。
在步骤S300中识别文本区的文字,得到字符串文本。
根据本发明一实施例,步骤S300可以包括:
对文本区进行行切分,得到文本行图像;
基于分隔符进行词切分,得到单词或短语图像;
基于语法和经验模型进行字符切分,得到字符图像;
计算字符图像的特征向量;
基于特征向量识别字符图像对应的字符或字;以及
结合词切分和行切分的结果,对字符或字进行组合得到字符串文本。
根据运维工具特征,识别过程将包括提取文本图像的行数据(行切 分)、基于分隔符的单词或短语提取(词切分)和基于语法和经验模型的 字符提取(字符切分),对于分割出的字符计算特征向量(特征提取), 输入到分类器中识别输出对应的字符或字,结合词切分和行切分结果(词 组合),基于字典库组合输出最终的字符串文本。
本发明实施例中,可以基于预设的一种或多种语言识别文本区中的文 字。
由于实际工具中可能出现的语言类别主要有简体中文和英文,因此, 文本识别处理的语言类别拟限定为这两类,并分别为中文和英文创建相应 的特征库,并按照菜单栏、编辑区、状态栏等工具固有区域进行文字识 别。识别后的文字可以存储在大数据中,根据大数据的分析能力,计算词 频,优化已定义词典。
图5示出了本发明一实施例的屏幕内容分析方法的示意性流程图。对 于已知工具模型的图像采用文档模型匹配方式,快速对内容区域划分,进 行关联业务、特征提取、定向识别;对于未提供应用类型的图像拟采取自 适应方法分类,并更新已有工具模型。其中,自适应图像区域分类可以基 于文本和图片的固有特征,将图像内容区域类型分成文本区和图片区两 类。
综上所述,可以根据特定运维环境、特定运维工具、业务特征进行运 维工具的建模。
下面以运维工具PLSQL Developer为具体实例,解释本发明屏幕内容 分析的方法。
1)读取需识别的图像,通过已构建的运维工具模型获取识 别区域,假设识别到的当前应用活动窗口为Oracle访问工具PLSQL Developer。
2)通过图像,计算当前活动窗口的相对位置,如为(33,58)(33,88)。
3)通过构建的工具模型提升相对位置内的PLSQL Developer工具区对比度,抑制非文本区图像。
4)将PLSQL Developer划分为菜单区域、文本输入区域, 结果区域等,每个区域的特征和识别规则如下:文本输入区域:关 注DDL和DML语句,根据操作命令寻找命令特征,如select、 update等操作,不关注注释内容的识别率,再配合词典select、 updte关键字的配置进行内容识别;结果区域:根据结果区域的表格 特征,每列字段类型都是一致的,因此按列内容识别,识别过程加 入正则表达的判断,如此列为电话号码、邮箱地址、身份证号码等正则进行识别;菜单区域:菜单区域文字内容根据不存在变化,事 先预定义菜单矩阵进行内容识别。
5)将PLSQL Developer工具识别到的文字存入到操作类型 为数据库的表中,表字段为帧序列、窗口名称、菜单内容、编辑区 内容、结果区内容、状态区内容等。
在对运维工具图像建模之前,为了减少对屏幕图像的分析处理量,可 以基于优先算法对屏幕录像中的重复帧进行高效去重,提取屏幕录像中的 非重复帧。
根据本发明一实施例,提取屏幕录像中的非重复帧的步骤可以包括:
从当前非重复帧开始,以设定的初始抽样间隔,进行循环抽样,直到 相邻两次抽样的帧的帧序号小于或等于预定阈值,以相邻两次抽样中前向 抽样得到的帧作为下一个非重复帧,其中,循环抽样包括:
响应于在前向抽样中查找到与当前非重复帧不相似的帧,将抽样间隔 减半,并执行后向抽样;
响应于在后向抽样中查找到与当前非重复帧相似的帧,将抽样间隔减 半,并执行前向抽样。
例如,在优先算法中,定义收敛策略,即通过相邻区域帧图片的扫描 结果进行收敛性判断,例如当相邻区域的扫描识别结果重叠度达到一定标 准时即认为扫描识别结果收敛;定义抽样策略,即在一个帧图片扫描收敛 后,在选择下一帧图片扫描时,可以依据抽样算法得到最大效率的下一帧 抽样图像,做到信息不丢失的情况下最大限度减少重复特征帧的扫描。抽 样策略包括前向抽样和后向抽样,每一次抽样策略的计算循环过程如下:
在一帧图像被识别为收敛后,通过前向策略计算下一帧的序列号,如 该帧的扫描识别结果与前一帧的识别结果相似度在收敛域外,则说明该帧 属于非重帧,则进行向后策略计算,只有当选择的前向策略选择帧为非重 帧,且向后策略选择帧为重帧时,该前向策略选择帧即为下一扫描帧。
在对屏幕图像进行抽样时,可以使用前向抽样和后向抽样循环往复的 方法。
设S点代表搜索起点,E点代表搜索目标。设S点与E点之间的距离 为R,R=R1+R2,画出以S为圆心的R1为半径的小圆和以E为圆心以R2 为半径的小圆。大圆面积:S1=πR2=π(R1+R2)2,小圆面积: S2=πR12+πR22=π(R1+R2)2-2πR1R2。
大圆代表单向搜索可能的搜索范围,两个小圆表示某次双向搜索的搜 索范围,容易证明两个小圆的的面积和必定要比大圆的小。因为S2=S1- 2πR1R2,S1=S2+2πR1R2。S2的值小于等于S1,因此小圆面积必定要比 大圆的要小。
所以双向搜索的范围小于单向搜索的范围,因此,本发明实施例采用 前向抽样与后向抽样结合的方法对屏幕录像进行抽样。
设S点与E点之间的距离为常量R,其中一小圆分半径为X,另一小 圆半径为R-X,两个小圆的面积为S。
S=π[X2+(R-X)2];S=2π[(X-R/2)2+R2\4]。因为(X-R/2)2>=0,所以当 X-R/2=0时,Smin=2πR2\4=πR2\2。X=R/2,两小圆面积相等时,即X点处 于中间时,两小圆面积最小。因此为了使前向抽样和后向抽样的抽样范围 尽可能小,可以将每次的抽样间隔减半。
因此,优先算法去重帧步骤可以包括:
1)获取N分钟的视频数据,并计算采集频次,假设帧图像 采集频次为M秒
2)直接获取0s和Ms处的帧图像
3)对两张帧图像的像素点进行减法运算
4)如结果为0,那么0s和Ms之间的帧图像属于重复帧, 不进行内容识别
5)继续,获取M*2s处的帧图片与Ms处的帧图片进行减法 运行
6)如结果为0,那么Ms和2Ms处的帧图像属于重复帧, 不进行内容识别
7)如果Ms和2Ms处的帧图像计算结果不为0,那么获取 (M+2M)\2s处的帧图像与Ms处的图像进行对应
8)如Ms和(M+2M)\2s不同时,继续回跳到5M\4s处与Ms 的帧图像进行对比
9)如帧图像相同,那么获取上次对比的帧图像进行内容识 别
10)以此类推,继续获取帧图片进行对比。
图6-图7示出了本发明一实施例的提取屏幕录像中非重复帧的示意 图。
如图6所示,以抽样间隔为2s为例,间隔2s的帧图像和当前帧图像 对比,如不同,往回跳1s,与当前帧图像再对比,依次类推,发相同时, 取上次对比的帧图片进行内容识别。
如图7所示,间隔2s的帧图像和当前帧图像对比,如相同,往前跳 2s,与当前帧图像再对比,依次类推,当发现不同时,在2s内,往回跳 时,发现相同时,取上次对比的帧图像进行内容识别。
根据本发明一实施例,该方法还包括:在数据库表中记录屏幕图像所 对应的帧序号和在屏幕图像中识别的字符串文本。
可以将抽样后的屏幕图像作为运维工具模型的输入,通过记录屏幕录 像对应的帧序号,将在屏幕录像中识别的字符串文本与屏幕录像的帧序号 一一对应。
以上述及的屏幕录像可以是IT运维操作屏幕录像。通过上述方法,可 以首先基于优先算法,实现对IT运维操作的逐帧差异筛选识别,获取待识 别的内容;通过对IT运维工具建模,提高运维操作识别的准确性,解决了 审计操作员无法基于屏幕录像中的操作内容进行检索审计的问题,能够实 现IT运维操作录像的内容识别和录像内容的检索审计。
本发明实施例的屏幕内容分析方法可以通过本发明实施例提供的屏幕 内容分析装置来实现。图8示出了根据本发明以实施例的屏幕内容分析装 置的示意性结构框图。如图8所示,该屏幕内容分析装置500包括:识别 模块510、区域划分模块520和文字识别模块530。
识别模块510可以基于应用图像模型库,识别屏幕图像中的活动窗口 区域及其对应的应用。
区域划分模块520可以基于应用的应用图像模型,将识别模块510识 别的活动窗口区域划分为一个或多个文本区和非文本区。
文字识别模块530可以识别区域划分模块520划分的文本区中的文 字,得到字符串文本。
其中,区域划分模块520可以包括第一划分单元和第二划分单元。
第一划分单元可以在应用的窗口界面模式已知的情况下,基于应用的 窗口界面模式将活动窗口区域划分为一个或多个文本区和非文本区。
第二划分单元可以在应用的窗口界面模式未知的情况下,基于文本和 图片的固有特征将活动窗口区域划分为一个或多个文本区和非文本区,并 且根据划分结果更新应用图像模型中记载的窗口界面模式。
文字识别模块可以包括行切分单元、词切分单元、字符切分单元和计 算单元。
其中,行切分单元可以对文本区进行行切分,得到文本行图像。
词切分单元可以基于分隔符进行词切分,得到单词或短语图像。
字符切分单元可以基于语法和经验模型进行字符切分,得到字符图 像。
计算单元可以计算字符图像的特征向量,以便基于特征向量识别字符 图像对应的字符或字。
文字识别模块还可以包括组合单元,其可以结合词切分和行切分的结 果,对字符或字进行组合得到字符串文本。
根据本发明一实施例,该屏幕内容分析装置500还可以包括:关联业 务模块。关联业务模块可以确定与应用对应的业务场景,以便根据业务场 景对所识别的文本进行处理。
根据本发明一实施例,该屏幕内容分析装置500还可以包括:提取模 块,其可以提取屏幕录像中的非重复帧,以使识别模块510识别的屏幕图 像是非重复帧的屏幕图像。
根据本发明一实施例,提取模块可以包括抽样单元,抽样单元可以从 当前非重复帧开始,以设定的初始抽样间隔,进行循环抽样,直到相邻两 次抽样的帧的帧序号小于或等于预定阈值,以相邻两次抽样中前向抽样得 到的帧作为下一个非重复帧,其中,循环抽样包括:响应于在前向抽样中 查找到与当前非重复帧不相似的帧,将抽样间隔减半,并执行后向抽样; 响应于在后向抽样中查找到与当前非重复帧相似的帧,将抽样间隔减半, 并执行前向抽样。
通过上述装置,可以基于优先算法,实现对IT运维操作的逐帧差异筛 选识别,获取待识别的内容;通过对IT运维工具建模,提高运维操作识别 的准确性,解决了审计操作员无法基于屏幕录像中的操作内容进行检索审 计的问题,能够实现IT运维操作录像的内容识别和录像内容的检索审计。
另外,结合图9述的本发明实施例的屏幕内容分析方法可以由计算设 备来实现。图9示出了本发明实施例提供的计算设备的硬件结构示意图。
计算设备可以包括处理器601以及存储有计算机程序指令的存储器 602。具体地,上述处理器601可以包括中央处理器(CPU),或者特定集 成电路(Application SpecificIntegrated Circuit,ASIC),或者可以被配置 成实施本发明实施例的一个或多个集成电路。
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非 限制,存储器602可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱 动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus, USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储 器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储 器602可在数据处理装置的内部或外部。在特定实施例中,存储器602是 非易失性固态存储器。在特定实施例中,存储器602包括只读存储器 (ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程 ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM (EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上 这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以 实现上述实施例中的任意一种屏幕内容分析方法。
在一个示例中,计算设备还可包括通信接口603和总线610。其中, 如图9所示,处理器601、存储器602、通信接口603通过总线610连接并 完成相互间的通信。
通信接口603,主要用于实现本发明实施例中各模块、装置、单元和/ 或设备之间的通信。
总线610包括硬件、软件或两者,将计算设备的部件彼此耦接在一 起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总 线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT) 互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总 线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总 线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频 电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上 这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本 发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的屏幕内容分析方法,本发明实施例可提供 一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机 程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一 种屏幕内容分析方法。
综上所述,本发明解决了审计操作员无法基于录像中的操作内容进行 检索审计的难题,实现IT运维操作录像的内容识别和录像内容检索审计, 同时对IT运维工具图像模型进行建模,提高运维操作识别的准确性,提升IT运维操作审计效率。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配 置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实 施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过 程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发 明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或 者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成 电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时, 本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段 可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质 或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的 任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、 ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、 光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网 等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤 或者装置描述一些方法或***。但是,本发明不局限于上述步骤的顺序, 也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例 中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清 楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具 体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应 理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员 在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修 改或替换都应涵盖在本发明的保护范围之内。

Claims (11)

1.一种屏幕内容分析方法,其特征在于,所述方法包括:
基于应用图像模型库,识别屏幕图像中的活动窗口区域及其对应的应用;
基于所述应用的应用图像模型,将所述活动窗口区域划分为一个或多个文本区和非文本区;
识别所述文本区中的文字,得到字符串文本;
提取屏幕录像中的非重复帧,所述屏幕图像是所述非重复帧的屏幕图像;
其中,所述提取屏幕录像中的非重复帧的步骤包括:
从当前非重复帧开始,以设定的初始抽样间隔,进行循环抽样,直到相邻两次抽样的帧的帧序号小于或等于预定阈值,以所述相邻两次抽样中前向抽样得到的帧作为下一个非重复帧,
所述循环抽样包括:
响应于在前向抽样中查找到与当前非重复帧不相似的帧,将抽样间隔减半,并执行后向抽样;
响应于在后向抽样中查找到与当前非重复帧相似的帧,将抽样间隔减半,并执行前向抽样。
2.根据权利要求1所述的方法,其特征在于,所述基于应用的应用图像模型将所述活动窗口区域划分为一个或多个文本区和非文本区的步骤包括:
在所述应用的窗口界面模式已知的情况下,基于所述应用的窗口界面模式将所述活动窗口区域划分为一个或多个文本区和非文本区;以及/或者
在所述应用的窗口界面模式未知的情况下,基于文本和图片的固有特征将所述活动窗口区域划分为一个或多个文本区和非文本区,并且根据划分结果更新所述应用图像模型中记载的窗口界面模式。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定与所述应用对应的业务场景;
根据所述业务场景对所识别的文本进行处理。
4.根据权利要求3所述的方法,其特征在于,所述根据所述业务场景对所识别的文本进行处理的步骤包括:
根据所述业务场景将所识别的文本分类为一个或多个部分。
5.根据权利要求1所述的方法,其特征在于,所述识别所述文本区中的文字得到字符串文本的步骤包括:
对所述文本区进行行切分,得到文本行图像;
基于分隔符进行词切分,得到单词或短语图像;
基于语法和经验模型进行字符切分,得到字符图像;
计算所述字符图像的特征向量;
基于所述特征向量识别所述字符图像对应的字符或字。
6.根据权利要求5所述的方法,其特征在于,所述识别所述文本区中的文字得到字符串文本的步骤还包括:
结合词切分和行切分的结果,对所述字符或字进行组合得到所述字符串文本。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设的一种或多种语言识别所述文本区中的文字。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在数据库表中记录屏幕图像所对应的帧序号和在所述屏幕图像中识别的字符串文本。
9.一种屏幕内容分析装置,其特征在于,所述装置包括:
识别模块,用于基于应用图像模型库,识别屏幕图像中的活动窗口区域及其对应的应用;
区域划分模块,用于基于所述应用的应用图像模型,将所述识别模块识别的所述活动窗口区域划分为一个或多个文本区和非文本区;以及
文字识别模块,用于识别所述划分模块划分的所述文本区中的文字,得到字符串文本;
提取模块,用于提取屏幕录像中的非重复帧,以使识别模块识别的屏幕图像是非重复帧的屏幕图像;
提取模块包括抽样单元,抽样单元用于从当前非重复帧开始,以设定的初始抽样间隔,进行循环抽样,直到相邻两次抽样的帧的帧序号小于或等于预定阈值,以相邻两次抽样中前向抽样得到的帧作为下一个非重复帧,其中,循环抽样包括:响应于在前向抽样中查找到与当前非重复帧不相似的帧,将抽样间隔减半,并执行后向抽样;响应于在后向抽样中查找到与当前非重复帧相似的帧,将抽样间隔减半,并执行前向抽样。
10.一种计算设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201711423613.6A 2017-12-25 2017-12-25 屏幕内容分析方法、装置、计算设备及存储介质 Active CN108229481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711423613.6A CN108229481B (zh) 2017-12-25 2017-12-25 屏幕内容分析方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711423613.6A CN108229481B (zh) 2017-12-25 2017-12-25 屏幕内容分析方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN108229481A CN108229481A (zh) 2018-06-29
CN108229481B true CN108229481B (zh) 2020-09-11

Family

ID=62648634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711423613.6A Active CN108229481B (zh) 2017-12-25 2017-12-25 屏幕内容分析方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN108229481B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109801161A (zh) * 2019-03-13 2019-05-24 上海诚数信息科技有限公司 智能信用和信息认证***及方法
CN110314375A (zh) * 2019-06-25 2019-10-11 努比亚技术有限公司 一种游戏场景的录制方法、终端及计算机可读存储介质
CN110796140B (zh) * 2019-10-17 2022-08-26 北京爱数智慧科技有限公司 一种字幕检测方法和装置
CN112699860B (zh) * 2021-03-24 2021-06-22 成都新希望金融信息有限公司 一种个税app操作视频中自动化提取和整理有效信息的方法
CN116012570A (zh) * 2021-10-22 2023-04-25 华为技术有限公司 一种识别图像中文本信息的方法、设备及***
CN115859278B (zh) * 2023-03-01 2023-05-23 深圳市科力锐科技有限公司 软件操作行为审计方法、***、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1278533C (zh) * 2003-12-17 2006-10-04 大唐移动通信设备有限公司 可自动录入文字、图像的手机及其录入与处理方法
CN1753043A (zh) * 2004-09-20 2006-03-29 上海迪比特实业有限公司 一种远程无线抄表方法
CN101827264A (zh) * 2009-03-06 2010-09-08 刘永 分层式自适应的视频帧采样方法
US8396964B2 (en) * 2009-05-13 2013-03-12 International Business Machines Corporation Computer application analysis
CN104461545B (zh) * 2014-12-12 2018-09-07 百度在线网络技术(北京)有限公司 将移动终端中内容提供至用户的方法及装置
CN104657141B (zh) * 2015-02-12 2017-09-26 金光 一种基于计算机视觉的gui软件包装器及其实现方法
CN106445144A (zh) * 2016-09-27 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种笔记方法、装置及终端

Also Published As

Publication number Publication date
CN108229481A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108229481B (zh) 屏幕内容分析方法、装置、计算设备及存储介质
CN110135411B (zh) 名片识别方法和装置
CN109117777B (zh) 生成信息的方法和装置
US20210240682A1 (en) Automatic entity resolution with rules detection and generation system
CN110717470B (zh) 一种场景识别方法、装置、计算机设备和存储介质
US11366988B2 (en) Method and system for dynamically annotating and validating annotated data
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN109325148A (zh) 生成信息的方法和装置
EP3893125A1 (en) Method and apparatus for searching video segment, device, medium and computer program product
CN107229627B (zh) 一种文本处理方法、装置及计算设备
EP2657884A2 (en) Identifying multimedia objects based on multimedia fingerprint
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN113850162A (zh) 一种视频审核方法、装置及电子设备
US11756301B2 (en) System and method for automatically detecting and marking logical scenes in media content
CN111931859A (zh) 一种多标签图像识别方法和装置
CN113221918A (zh) 目标检测方法、目标检测模型的训练方法及装置
KR20150122855A (ko) 실시간 질의 및 정답을 위한 분산처리 시스템 및 방법
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
CN115396690A (zh) 音频与文本组合方法、装置、电子设备及存储介质
CN115393755A (zh) 视觉目标跟踪方法、装置、设备以及存储介质
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN108882033B (zh) 一种基于视频语音的人物识别方法、装置、设备和介质
CN104484414A (zh) 一种收藏夹信息的处理方法和装置
CN117076596B (zh) 应用人工智能的数据存储方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant