CN114417396A - 隐私政策文本数据提取方法、装置、电子设备及存储介质 - Google Patents

隐私政策文本数据提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114417396A
CN114417396A CN202111522146.9A CN202111522146A CN114417396A CN 114417396 A CN114417396 A CN 114417396A CN 202111522146 A CN202111522146 A CN 202111522146A CN 114417396 A CN114417396 A CN 114417396A
Authority
CN
China
Prior art keywords
privacy policy
hyperlink
text data
display window
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111522146.9A
Other languages
English (en)
Other versions
CN114417396B (zh
Inventor
陈业炫
刘涛
赵帅
齐向东
吴云坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qax Technology Group Inc
Qi'an Pangu Shanghai Information Technology Co ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qax Technology Group Inc
Qi'an Pangu Shanghai Information Technology Co ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qax Technology Group Inc, Qi'an Pangu Shanghai Information Technology Co ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qax Technology Group Inc
Priority to CN202111522146.9A priority Critical patent/CN114417396B/zh
Publication of CN114417396A publication Critical patent/CN114417396A/zh
Application granted granted Critical
Publication of CN114417396B publication Critical patent/CN114417396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种隐私政策文本数据提取方法、装置、电子设备及存储介质,所述方法包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。本发明实施例提供的隐私政策文本数据提取方法、装置、电子设备及存储介质,提高了隐私政策文本数据的提取成功率和准确率。

Description

隐私政策文本数据提取方法、装置、电子设备及存储介质
技术领域
本发明涉及移动应用领域,尤其涉及一种隐私政策文本数据提取方法、装置、电子设备及存储介质。
背景技术
目前主流的获取隐私政策文本的方式为从应用市场获取开发商提供的隐私政策,通过对静态扫描应用文件找到隐私政策文本进行静态扫描以及通过OCR技术对扫描得到的文件进行逐页提取。
以上所述技术都能一定程度上提取到隐私政策文本,但都存在一定的缺陷,例如从应用市场提取的隐私政策可能因为未及时更新导致与移动应用实际运行过程中展示给用户的隐私政策存在差异;静态扫描应用文件因为很大一部分隐私政策通过URL的方式加载展示且文件格式不固定,因此有较大概率提取不到隐私政策文件;完善的OCR技术可以较为准确的获取到隐私政策文本,但由于手机屏幕太小以及隐私政策文本普遍较长,因此需要通过多次滑动页面才能提取完整的隐私政策文本,在耗时上存在缺陷。
发明内容
本发明提供一种隐私政策文本数据提取方法、装置、电子设备及存储介质,用于解决现有技术中存在的技术问题。
本发明提供一种隐私政策文本数据提取方法,包括:
在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
根据本发明提供的隐私政策文本数据提取方法,所述方法还包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中不存在隐私政策超链接的情况下,从所述隐私政策显示窗口中提取隐私政策文本数据。
根据本发明提供的隐私政策文本数据提取方法,所述方法还包括:在终端界面上未出现隐私政策显示窗口的情况下,响应于用户的输入,在终端界面上出现隐私政策显示窗口,从所述隐私政策显示窗口中提取隐私政策文本数据。
根据本发明提供的隐私政策文本数据提取方法,所述从所述隐私政策显示窗口中提取隐私政策文本数据,包括:遍历当前终端界面下的所有窗口,获取处于显示状态下的所有窗口的指定数据,对所获取的所有指定数据进行去重与排列,将经过去重与排列后的指定数据进行合并,从合并后的指定数据中得到隐私政策文本数据。
根据本发明提供的隐私政策文本数据提取方法,所述对所获取的所有指定数据进行去重与排列,包括:
遍历处于显示状态下的所有窗口的指定数据所对应的树状结构;
将不同窗口中的相同指定数据所对应的树节点以及所述树节点的子树进行合并;
将剩余的指定数据所对应的树节点通过窗口的根节点DecorView合并。
根据本发明提供的隐私政策文本数据提取方法,所述指定数据为AccessibilityNodeInfo数据;
相应的,所述从合并后的指定数据中得到隐私政策文本数据,包括:
在所述指定数据中的text字段不为空的情况下,将所述text字段的内容作为隐私政策文本数据;
在所述指定数据中的text字段为空且description字段不为空的情况下,将description字段的内容作为隐私政策文本数据。
根据本发明提供的隐私政策文本数据提取方法,所述获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息,包括:
向终端发起请求,以使得所述终端利用SpannableString类的setSpan函数获取所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的起止点信息;利用TextPaint类的getTextBounds函数将所述起止点信息转化为所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的位置信息;利用TextLine类的drawTextRun函数将所述隐私政策超链接的位置信息转化为所述隐私政策超链接在文本视图中的位置信息;利用View类的getBoundsOnScreen函数将所述隐私政策超链接在所述文本视图中的位置信息转化为所述隐私政策超链接在所述终端界面上的位置信息。
本发明还提供一种隐私政策文本数据提取装置,包括:
坐标信息获取模块,用于在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
隐私政策提取模块,用于基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述隐私政策文本数据提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述隐私政策文本数据提取方法的步骤。
本发明还提供一种计算机程序产品,所计算机程序产品包括有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述隐私政策文本数据提取方法的步骤。
本发明提供的隐私政策文本数据提取方法、装置、电子设备及存储介质,通过使用自动化点击工具基于终端发来的隐私政策超链接的位置信息点击隐私政策超链接,最终获取隐私政策显示窗口中的隐私政策文本数据,基于此,提高了隐私政策文本数据的提取成功率和准确率,同时相较于现有技术也降低了隐私政策文本数据的获取成本。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的隐私政策文本数据提取方法的流程示意图;
图2是本发明提供的隐私政策文本数据提取装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的隐私政策文本数据提取方法的流程示意图,如图1所示,所述方法包括:
S110,在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
S120,基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
需要说明的是,对于隐私政策文本的显示方式有两种,一种是隐私政策文本的所有内容直接展示在隐私政策显示窗口,另一种是只显示隐私政策内容的摘要,剩余文本内容以超链接的形式存在于文本摘要中,想要获取完整的隐私政策文本内容需要点击摘要中的超链接进入一个新的界面,进而获取完整的隐私政策文本内容。
当在终端界面上出现隐私政策显示窗口,并且在该窗口中存在隐私政策超链接时,自动化点击工具接收终端发来的隐私政策超链接在终端界面上的坐标信息,此处自动化点击工具可以为UiAutomator,是一种安卓开源的自动化点击工具,多用于测试。在本实施例中,通过预设关键词对隐私政策超链接进行识别,例如,当在隐私政策显示窗口中的一个超链接上带有预设关键词时,则判定该超链接为隐私政策超链接,而预设关键词为以下词语中的任意一个或多个:隐私政策、隐私协议、隐私声明、隐私条款、隐私权政策、隐私权协议、隐私权声明、隐私权条款、隐私保护政策、隐私保护协议、隐私保护声明、隐私保护条款、隐私信息保护、privacy。
自动化点击工具基于终端发来的坐标信息对隐私政策超链接进行点击,然后在隐私政策显示窗口内进入到具有完整隐私政策文本数据的界面,提取上述完整的隐私政策文本数据,保留为本地文件。
本发明提供的隐私政策文本数据提取方法,通过使用自动化点击工具基于终端发来的隐私政策超链接的位置信息点击隐私政策超链接,最终获取隐私政策显示窗口中的隐私政策文本数据,基于此,提高了隐私政策文本数据的提取成功率和准确率;同时,相较于现有技术也降低了隐私政策文本数据的获取成本。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述方法还包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中不存在隐私政策超链接的情况下,从所述隐私政策显示窗口中提取隐私政策文本数据。
如前所述,当终端界面上存在隐私政策显示窗口,并且该隐私政策显示窗口中不存在隐私政策超链接时,直接利用自动化点击工具UiAutomator中的AccessibilityNodeInfo获取隐私政策显示窗口中的隐私政策文本数据,AccessibilityNodeInfo是UiAutomator用于控制自动化点击以及获取视图(View)信息所维护的一个类,基本可以实现对安卓***中所有视图(View)信息的获取。
本发明提供的隐私政策文本数据提取方法,通过利用UiAutomator中的AccessibilityNodeInfo对不存在隐私政策超链接的隐私政策窗口内的隐私政策文本数据进行获取,丰富了隐私政策文本数据的获取方式,同时也实现了针对隐私政策文本数据的不同存在情况进行不同提取方式的灵活处理过程。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述方法还包括:
在终端界面上未出现隐私政策显示窗口的情况下,响应于用户的输入,在终端界面上出现隐私政策显示窗口,从所述隐私政策显示窗口中提取隐私政策文本数据。
需要说明的是,当终端界面上不存在隐私政策显示窗口时,用户的输入具体为:进入“我的”界面或者注册登录界面,点击“我的”界面或者注册登录界面上的预设关键词。响应于用户的输入,终端进入隐私政策显示窗口,通过UiAutomator中的AccessibilityNodeInfo对隐私政策窗口内的隐私政策文本数据进行获取,并将获取得到的文本数据保存为本地文件,此处“预设关键词”与前述保持一致。
本发明提供的隐私政策文本数据提取方法,通过依次点击“我的”界面以及界面上的预设关键词,或者依次点击注册登录界面以及界面上的预设关键词,进入隐私政策文本数据存在的界面并对其进行提取;上述过程主要针对于终端界面不存在隐私政策显示窗口的情况,基于此,确保该情况下依然可以实现对隐私政策文本数据的准确提取,提高文本数据的获取成功率。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述从所述隐私政策显示窗口中提取隐私政策文本数据,包括:
遍历当前终端界面下的所有窗口,获取处于显示状态下的所有窗口的指定数据,对所获取的所有指定数据进行去重与排列,将经过去重与排列后的指定数据进行合并,从合并后的指定数据中得到隐私政策文本数据。
需要说明的是,由于UiAutomator提供的对外接口只能获取到处于焦点的Window窗口,在部分情况下,隐私政策界面显示时并非焦点窗口,导致UiAutomator无法获取到隐私政策对应的窗口AccessibilityNodeInfo数据。在本发明中,遍历当前终端界面下的所有窗口,获取处于显示状态下的所有窗口的指定数据,此处指定数据即AccessibilityNodeInfo数据,AccessibilityNodeInfo数据以树状结构存在,多个Window的AccessibilityNodeInfo信息存在重复和乱序的问题,所以将获取到的所有AccessibilityNodeInfo数据进行去重和排列,并将进行去重和排列后的数据进行合并,最终得到隐私政策文本数据。
本发明提供的隐私政策文本数据提取方法,通过遍历当前终端界面下的所有窗口,对所有窗口中的AccessibilityNodeInfo数据进行合并后得到最终的隐私政策文本数据,避免出现因为隐私政策显示窗口不是焦点窗口导致隐私政策文本数据提取失败的情况,基于此,提高了隐私政策文本数据的提取成功率。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述对所获取的所有指定数据进行去重与排列,包括:
遍历处于显示状态下的所有窗口的指定数据所对应的树状结构;将不同窗口中的相同指定数据所对应的树节点以及所述树节点的子树进行合并;将剩余的指定数据所对应的树节点通过窗口的根节点DecorView合并。
需要说明的是,树状结构指的是数据元素之间存在着“一对多”的树状关系的数据结构,是一类重要的非线性数据结构,在树状结构中,树根结点没有前驱结点,其余每个结点有且只有一个前驱结点,叶子结点没有后续结点,其余每个结点的后续节点数可以是一个也可以是多个,存储的就是视图信息(View),View在树状结构里作为树节点。一个窗口对应一个DecorView,这个DecorView相当于这个窗口的根节点View。View以树状结构存储,因此一个窗口对应一个DecorView以及它所有的子节点View,所有对该窗口的改动都通过DecorView分发。
为了将多个窗口的AccessibilityNodeInfo数据符合格式的输出,需要将它们合并到同一个树状结构中,先遍历所有窗口的AccessibilityNodeInfo数据对应的树状结构(AccessibilityNodeInfo与View是一一对应关系,因此也是以树状结构保存),找到不同窗口里相同的AccessibilityNodeInfo,由于这些重复的AccessibilityNodeInfo存在,因此直接通过树根节点合并的方式,会导致新生成的AccessibilityNodeInfo树状结构里有多个重复的树节点,进而使得遍历时会进入死循环。所以优先合并这些重复的AccessibilityNodeInfo,并将它们的子树合并,再把剩下的AccessibilityNodeInfo通过树节点DecorView合并,此处所提到的合并指的是将一棵树的树节点的所有子节点全部转移到另一颗树,作为其子节点。
本发明提供的隐私政策文本数据提取方法,通过对各个窗口中获取到的数据进行去重处理和排列处理,可以有效避免遍历窗口时进入死循环,同时也可以确保最终得到的隐私政策文本数据的准确性。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述指定数据为AccessibilityNodeInfo数据;
相应的,所述从合并后的指定数据中得到隐私政策文本数据,包括:
在所述指定数据中的text字段不为空的情况下,将所述text字段的内容作为隐私政策文本数据;在所述指定数据中的text字段为空且description字段不为空的情况下,将description字段的内容作为隐私政策文本数据。
需要说明的是,在隐私政策提取的过程中,经常会遇到明明界面上存在特定字符内容的视图,但就是识别不到的情况。经过分析可知,存在部分SDK会将View的文本内容传给AccessibilityNodeInfo的description字段,并将text字段置空。因此本发明在当AccessibilityNodeInfo里text字段不为空时,直接将text字段作为文本内容;当text字段为空且description字段不为空时,将description字段作为文本内容(通常description字段为描述字段)。
本发明提供的隐私政策文本数据提取方法,通过对合并后得到的AccessibilityNodeInfo数据进行基于不同情况下不同字段提取方式的文本数据获取过程,提高了隐私政策文本数据的提取成功率。
根据本发明提供的隐私政策文本数据提取方法,在本发明中,所述获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息,包括:
向终端发起请求,以使得所述终端利用SpannableString类的setSpan函数获取所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的起止点信息;利用TextPaint类的getTextBounds函数将所述起止点信息转化为所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的位置信息;利用TextLine类的drawTextRun函数将所述隐私政策超链接的位置信息转化为所述隐私政策超链接在文本视图中的位置信息;利用View类的getBoundsOnScreen函数将所述隐私政策超链接在所述文本视图中的位置信息转化为所述隐私政策超链接在所述终端界面上的位置信息。
需要说明的是,隐私政策超链接在当前显示文本中的起止点信息指的是隐私政策超链接在显示文本中所处的行号,即第几行,以及在该行下的起始字符串位置与终止字符串位置;隐私政策超链接在当前显示文本中的位置信息指的是隐私政策超链接在文本中的坐标信息,即(x1,y1);隐私政策超链接在文本视图中的位置信息指的是隐私政策超链接在文本视图中的坐标信息,即(x2,y2);隐私政策超链接在终端界面上的位置信息指的是隐私政策超链接在屏幕上的坐标信息,即(x3,y3)。
隐私政策超链接通常存在于长文本中,带有超链接的TextView(文本视图)的绘制流程中首先会使用SpannableString类的setSpan函数把标识为超链接的文本传入TextView中作为显示的文本,然后通过TextLine类的drawTextRun函数来绘制渲染文本。在本发明中,在SpannableString类的setSpan函数中获取该文本中超链接的起始点和结束点,获取到超链接的字符内容并通过是否包含预设关键词来判断是否为隐私政策超链接。如果是的话,则将该超链接的相对位置(在该文本中的起始点和结束点)及其字符内容保存;
当TextView(文本视图)的绘制流程走到TextLine类的drawTextRun函数时,先判断是否存在保存的超链接以及超链接内容和当前的文本相对应位置的字符内容是否一致,在一致的情况下,通过TextPaint类的getTextBounds函数得到超链接在长文本的位置坐标;再用drawTextRun函数传进来的长文本在View中的位置坐标x,y对超链接的位置坐标做偏移得到超链接在View里的位置坐标;
最后通过View类的getBoundsOnScreen函数得到View在屏幕中的位置坐标,以及获取View的上侧和左侧的padding,将这些值与超链接在View里的位置坐标做偏移后,最终得到超链接在屏幕里的位置坐标(绝对坐标),并传给UiAutomator来进行点击。
本发明提供的隐私政策文本数据提取方法,通过调用多个函数依次获取隐私政策超链接在当前显示文本中的位置信息、在文本中的坐标信息、在文本视图中的坐标信息、在屏幕上的坐标信息,最后将隐私政策超链接在屏幕上的坐标信息发送给自动化点击工具UiAutomator,使UiAutomator基于隐私政策超链接在屏幕上的坐标信息点击隐私政策超链接,最终获取隐私政策文本数据,克服了AccessibilityNodeInfo无法获取到换行的长文本中的特定文字的精确位置的缺陷,实现了对隐私政策文本数据的成功提取。
图2是本发明提供的隐私政策文本数据提取装置的结构示意图,如图2所示,所述装置包括:
坐标信息获取模块210,用于在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
隐私政策提取模块220,用于基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
本发明提供的隐私政策文本数据提取装置,通过使用自动化点击工具基于终端发来的隐私政策超链接的位置信息点击隐私政策超链接,最终获取隐私政策显示窗口中的隐私政策文本数据,基于此,提高了隐私政策文本数据的提取成功率和准确率,同时相较于现有技术也降低了隐私政策文本数据的获取成本。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,所述装置还包括:
直接提取模块,所述直接提取模块用于在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中不存在隐私政策超链接的情况下,从所述隐私政策显示窗口中提取隐私政策文本数据。
本发明提供的隐私政策文本数据提取装置,通过利用UiAutomator中的AccessibilityNodeInfo对不存在隐私政策超链接的隐私政策窗口内的隐私政策文本数据进行获取,丰富了隐私政策文本数据的获取方式,同时也实现了针对隐私政策文本数据的不同存在情况进行不同提取方式的灵活处理过程。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,所述装置还包括:
响应输入模块,所述响应输入模块用于在终端界面上未出现隐私政策显示窗口的情况下,响应于用户的输入,在终端界面上出现隐私政策显示窗口,从所述隐私政策显示窗口中提取隐私政策文本数据。
本发明提供的隐私政策文本数据提取装置,通过依次点击“我的”界面以及界面上的预设关键词,或者依次点击注册登录界面以及界面上的预设关键词,进入隐私政策文本数据存在的界面并对其进行提取;上述过程主要针对于终端界面不存在隐私政策显示窗口的情况,基于此,确保该情况下依然可以实现对隐私政策文本数据的准确提取,提高文本数据的获取成功率。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,隐私政策提取模块220在用于从所述隐私政策显示窗口中提取隐私政策文本数据时,具体用于:
遍历当前终端界面下的所有窗口,获取处于显示状态下的所有窗口的指定数据,对所获取的所有指定数据进行去重与排列,将经过去重与排列后的指定数据进行合并,从合并后的指定数据中得到隐私政策文本数据。
本发明提供的隐私政策文本数据提取装置,通过遍历当前终端界面下的所有窗口,对所有窗口中的AccessibilityNodeInfo数据进行合并后得到最终的隐私政策文本数据,避免出现因为隐私政策显示窗口不是焦点窗口导致隐私政策文本数据提取失败的情况,基于此,提高了隐私政策文本数据的提取成功率。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,隐私政策提取模块220在用于对所获取的所有指定数据进行去重与排列时,具体用于:
遍历处于显示状态下的所有窗口的指定数据所对应的树状结构;将不同窗口中的相同指定数据所对应的树节点以及所述树节点的子树进行合并;将剩余的指定数据所对应的树节点通过窗口的根节点DecorView合并。
本发明提供的隐私政策文本数据提取装置,通过对各个窗口中获取到的数据进行去重处理和排列处理,可以有效避免遍历窗口时进入死循环,同时也可以确保最终得到的隐私政策文本数据的准确性。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,所述指定数据为AccessibilityNodeInfo数据;隐私政策提取模块220在用于从合并后的指定数据中得到隐私政策文本数据时,具体包括:
在所述指定数据中的text字段不为空的情况下,将所述text字段的内容作为隐私政策文本数据;在所述指定数据中的text字段为空且description字段不为空的情况下,将description字段的内容作为隐私政策文本数据。
本发明提供的隐私政策文本数据提取装置,通过对合并后得到的AccessibilityNodeInfo数据进行基于不同情况下不同字段提取方式的文本数据获取过程,提高了隐私政策文本数据的提取成功率。
根据本发明提供的隐私政策文本数据提取装置,在本发明中,坐标信息获取模块210在用于获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息时,具体包括:
向终端发起请求,以使得所述终端利用SpannableString类的setSpan函数获取所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的起止点信息;利用TextPaint类的getTextBounds函数将所述起止点信息转化为所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的位置信息;利用TextLine类的drawTextRun函数将所述隐私政策超链接的位置信息转化为所述隐私政策超链接在文本视图中的位置信息;利用View类的getBoundsOnScreen函数将所述隐私政策超链接在所述文本视图中的位置信息转化为所述隐私政策超链接在所述终端界面上的位置信息。
本发明提供的隐私政策文本数据提取装置,通过调用多个函数依次获取隐私政策超链接在当前显示文本中的位置信息、在文本中的坐标信息、在文本视图中的坐标信息、在屏幕上的坐标信息,最后将隐私政策超链接在屏幕上的坐标信息发送给自动化点击工具UiAutomator,使UiAutomator基于隐私政策超链接在屏幕上的坐标信息点击隐私政策超链接,最终获取隐私政策文本数据,克服了AccessibilityNodeInfo无法获取到换行的长文本中的特定文字的精确位置的缺陷,实现了对隐私政策文本数据的成功提取。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行隐私政策文本数据提取方法,该方法包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的隐私政策文本数据提取方法,该方法包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的隐私政策文本数据提取方法,该方法包括:在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种隐私政策文本数据提取方法,其特征在于,包括:
在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
2.根据权利要求1所述的隐私政策文本数据提取方法,其特征在于,方法还包括:
在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中不存在隐私政策超链接的情况下,从所述隐私政策显示窗口中提取隐私政策文本数据。
3.根据权利要求1或2所述的隐私政策文本数据提取方法,其特征在于,方法还包括:
在终端界面上未出现隐私政策显示窗口的情况下,响应于用户的输入,在终端界面上出现隐私政策显示窗口,从所述隐私政策显示窗口中提取隐私政策文本数据。
4.根据权利要求1或2所述的隐私政策文本数据提取方法,其特征在于,所述从所述隐私政策显示窗口中提取隐私政策文本数据,包括:
遍历当前终端界面下的所有窗口,获取处于显示状态下的所有窗口的指定数据,对所获取的所有指定数据进行去重与排列,将经过去重与排列后的指定数据进行合并,从合并后的指定数据中得到隐私政策文本数据。
5.根据权利要求4所述的隐私政策文本数据提取方法,其特征在于,所述对所获取的所有指定数据进行去重与排列,包括:
遍历处于显示状态下的所有窗口的指定数据所对应的树状结构;
将不同窗口中的相同指定数据所对应的树节点以及所述树节点的子树进行合并;
将剩余的指定数据所对应的树节点通过窗口的根节点DecorView合并。
6.根据权利要求4所述的隐私政策文本数据提取方法,其特征在于,所述指定数据为AccessibilityNodeInfo数据;
相应的,所述从合并后的指定数据中得到隐私政策文本数据,包括:
在所述指定数据中的text字段不为空的情况下,将所述text字段的内容作为隐私政策文本数据;
在所述指定数据中的text字段为空且description字段不为空的情况下,将description字段的内容作为隐私政策文本数据。
7.根据权利要求1所述的隐私政策文本数据提取方法,其特征在于,所述获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息,包括:
向终端发起请求,以使得所述终端利用SpannableString类的setSpan函数获取所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的起止点信息;利用TextPaint类的getTextBounds函数将所述起止点信息转化为所述隐私政策超链接在所述隐私政策显示窗口当前所显示文本中的位置信息;利用TextLine类的drawTextRun函数将所述隐私政策超链接的位置信息转化为所述隐私政策超链接在文本视图中的位置信息;利用View类的getBoundsOnScreen函数将所述隐私政策超链接在所述文本视图中的位置信息转化为所述隐私政策超链接在所述终端界面上的位置信息。
8.一种隐私政策文本数据提取装置,其特征在于,包括:
坐标信息获取模块,用于在终端界面上出现隐私政策显示窗口,且所述隐私政策显示窗口中存在隐私政策超链接的情况下,获取终端发来的所述隐私政策超链接在所述终端界面上的位置信息;
隐私政策提取模块,用于基于所述隐私政策超链接在所述终端界面上的位置信息点击所述隐私政策超链接,在所述隐私政策显示窗口内显示所述隐私政策超链接所对应的隐私政策文本数据,从所述隐私政策显示窗口中提取隐私政策文本数据。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述隐私政策文本数据提取方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述隐私政策文本数据提取方法的步骤。
11.一种计算机程序产品,所计算机程序产品包括有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1至7任一项所述隐私政策文本数据提取方法的步骤。
CN202111522146.9A 2021-12-13 2021-12-13 隐私政策文本数据提取方法、装置、电子设备及存储介质 Active CN114417396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111522146.9A CN114417396B (zh) 2021-12-13 2021-12-13 隐私政策文本数据提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111522146.9A CN114417396B (zh) 2021-12-13 2021-12-13 隐私政策文本数据提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114417396A true CN114417396A (zh) 2022-04-29
CN114417396B CN114417396B (zh) 2023-03-24

Family

ID=81266323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111522146.9A Active CN114417396B (zh) 2021-12-13 2021-12-13 隐私政策文本数据提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114417396B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423446A (zh) * 2017-08-11 2017-12-01 义乌工商职业技术学院 基于云存储的新媒体自动化可信部署***和方法
CN111766993A (zh) * 2020-05-29 2020-10-13 维沃移动通信有限公司 信息显示方法、装置、电子设备及可读存储介质
WO2020247405A1 (en) * 2019-06-03 2020-12-10 Jpmorgan Chase Bank, N.A. Systems and methods for managing privacy policies using machine learning
CN112181255A (zh) * 2020-10-12 2021-01-05 深圳市欢太科技有限公司 控件的识别方法、装置、终端设备和存储介质
CN112565238A (zh) * 2020-11-30 2021-03-26 杭州华橙软件技术有限公司 弹出隐私政策的方法、客户端及计算机可读存储介质
CN112631704A (zh) * 2020-12-26 2021-04-09 深圳集智数字科技有限公司 一种界面元素识别方法、装置、存储介质及电子设备
CN113051607A (zh) * 2021-03-11 2021-06-29 天津大学 一种隐私政策信息提取方法
CN113076538A (zh) * 2021-04-02 2021-07-06 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法
CN113177205A (zh) * 2021-04-27 2021-07-27 国家计算机网络与信息安全管理中心 一种恶意应用检测***及方法
CN113254923A (zh) * 2021-06-25 2021-08-13 南京网眼信息技术有限公司 根据apk包生成隐私政策文本的方法和***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423446A (zh) * 2017-08-11 2017-12-01 义乌工商职业技术学院 基于云存储的新媒体自动化可信部署***和方法
WO2020247405A1 (en) * 2019-06-03 2020-12-10 Jpmorgan Chase Bank, N.A. Systems and methods for managing privacy policies using machine learning
CN111766993A (zh) * 2020-05-29 2020-10-13 维沃移动通信有限公司 信息显示方法、装置、电子设备及可读存储介质
CN112181255A (zh) * 2020-10-12 2021-01-05 深圳市欢太科技有限公司 控件的识别方法、装置、终端设备和存储介质
CN112565238A (zh) * 2020-11-30 2021-03-26 杭州华橙软件技术有限公司 弹出隐私政策的方法、客户端及计算机可读存储介质
CN112631704A (zh) * 2020-12-26 2021-04-09 深圳集智数字科技有限公司 一种界面元素识别方法、装置、存储介质及电子设备
CN113051607A (zh) * 2021-03-11 2021-06-29 天津大学 一种隐私政策信息提取方法
CN113076538A (zh) * 2021-04-02 2021-07-06 北京邮电大学 一种移动应用apk文件内嵌隐私政策提取方法
CN113177205A (zh) * 2021-04-27 2021-07-27 国家计算机网络与信息安全管理中心 一种恶意应用检测***及方法
CN113254923A (zh) * 2021-06-25 2021-08-13 南京网眼信息技术有限公司 根据apk包生成隐私政策文本的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张铭喆: "Android应用隐私协议提取验证***的设计与实现", 《信息科技》 *

Also Published As

Publication number Publication date
CN114417396B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US11620321B2 (en) Artificial intelligence based method and apparatus for processing information
US11030384B2 (en) Identification of sequential browsing operations
US20190179965A1 (en) Method and apparatus for generating information
JP2018116496A (ja) 差異検出装置及びプログラム
CN106874271A (zh) 一种将pc网页转换为移动终端网页的方法及***
CN109657121A (zh) 一种基于网络爬虫的Web页面信息采集方法及装置
CN109033282A (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN114595686A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
US20140129490A1 (en) Image url-based junk detection
CN104915404A (zh) 访问失效网址的方法和装置
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN114328947A (zh) 一种基于知识图谱的问答方法和装置
CN113204695A (zh) 网站识别方法和装置
CN114417396B (zh) 隐私政策文本数据提取方法、装置、电子设备及存储介质
CN115758011A (zh) 数据转存方法、数据展示方法、装置、设备及存储介质
CN111090651A (zh) 数据源的处理方法、装置、设备及可读存储介质
CN113342450B (zh) 页面处理的方法、装置、电子设备及计算机可读介质
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN102087653A (zh) 一种发布网站信息的方法及装置
CN105488054B (zh) 一种浏览图片的方法及装置
CN113138974A (zh) 数据库合规检测的方法和装置
JP2018120256A (ja) 設定操作入力支援装置、設定操作入力支援システム
CN112767933A (zh) 公路养护管理***的语音交互方法、装置、设备及介质
CN112579080A (zh) 一种生成用户界面代码的方法和装置
CN110516174A (zh) 基于简易信息聚合获取正文的方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 201100 floor 3, building 3, No. 2555, Hechuan Road, Minhang District, Shanghai

Applicant after: Qi'an Pangu (Shanghai) Information Technology Co.,Ltd.

Applicant after: QAX Technology Group Inc.

Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd.

Address before: 201100 floor 3, building 3, No. 2555, Hechuan Road, Minhang District, Shanghai

Applicant before: Qi'an Pangu (Shanghai) Information Technology Co.,Ltd.

Applicant before: QAX Technology Group Inc.

Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc.

GR01 Patent grant
GR01 Patent grant