CN108268438B

CN108268438B - 一种页面内容提取方法、装置以及客户端

Info

Publication number: CN108268438B
Application number: CN201611260567.8A
Authority: CN
Inventors: 李洋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2021-10-22
Anticipated expiration: 2036-12-30
Also published as: CN108268438A

Abstract

本发明提供一种页面内容提取方法、装置以及客户端，所述方法包括：获取所述页面中的被选中区域；逐一识别所述被选中区域中的字符，获取包含所述字符的元句，拆分所述元句以得到备选词；使用所述备选词的至少一个属性对所述备选词进行排序，获得排序结果；选取所述排序结果中排序最高的备选词作为目标备选词，并提取所述目标备选词。本发明通过元句拆分和利用备选词属性排序能够快速有效地提取出客户选取的页面内容，提取的内容更加准确，避免用户在选取后还需要手动调整，节省时间，提高用户体验。

Description

一种页面内容提取方法、装置以及客户端

技术领域

本发明涉及互联网技术领域，尤其涉及一种页面内容提取方法、装置以及客户端。

背景技术

随着移动互联网的快速发展，人们的日常生活与互联网紧密相连，使得互联网产生了海量的数据信息，成为信息获取的主要来源，这已经广泛渗透到网络的各个领域。

逐渐地，人们对于信息分析和信息处理的需求越来越多，其中，用户在使用客户端设备阅读网页文本时，经常会有复制文本文字进行其他操作的需求，比如进行检索，或粘贴至对话框进一步编辑；由于人们对于信息分析的准确性和及时性要求越来越高，所以用户希望能够高效准确的完成文本复制。

现有技术中，用户在文本选取和复制时，有的会出现标记速度慢，导致操作完成时间长；有的出现想要复制的内容没在默认的选取内，不能正确选择想要复制的内容，用户体验差；有的会出现需要多次调整选择闪光标才能选取，甚至会出现多次调整后，仍不能正确复制用户想要的词语的情况，操作效率低。

发明内容

为了解决上述技术问题，本发明提出了一种页面内容提取方法、装置以及客户端。

第一方面，提供了一种页面内容提取方法，所述方法包括：获取所述页面中的被选中区域；逐一识别所述被选中区域中的字符，获取包含所述字符的元句，拆分所述元句以得到备选词；使用所述备选词的至少一个属性对所述备选词进行排序，获得排序结果；根据所述排序结果选取目标备选词，并提取所述目标备选词。。

第二方面，提供了页面内容提取装置，所述方法包括：区域获取模块，用于获取所述页面中的被选中区域；备选词生成模块，用于逐一识别所述被选中区域中的字符，获取包含所述字符的元句，将所述元句拆分为备选词；属性排序模块，用于根据所述备选词的多个属性对所述备选词进行排序，获得排序结果；页面内容提取模块，用于根据所述排序结果选取目标备选词，并提取所述目标备选词。

第三方面，提供了一种客户端，所述客户端包括前述的页面内容提取装置，该客户端安装于用户终端内，用于根据用户的输入提取页面内容。

本发明实施例提供的技术方案带来的有益效果包括：基于将元句的拆分为备选词和利用备选词的至少一个属性对备选词进行排序能够快速、准确地提取用户选取区域的内容，方便用户进行复制、搜索等操作，极大地提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的应用场景示意图。

图2是本发明实施例提供的页面内容提取方法的方法流程图；

图3是本发明实施例提供的页面内容提取方法的方法流程图；

图4是本发明实施例提供的页面内容提取方法的方法流程图；

图5是本发明实施例提供的页面内容提取方法的方法流程图；

图6是本发明实施例提供的页面内容提取方法的方法流程图；

图7是本发明实施例提供的页面内容提取方法的方法流程图；

图8是本发明实施例提供的页面内容提取方法的方法流程图；

图9是本发明实施例提供的页面内容提取装置的装置原理框图；

图10是本发明实施例提供的页面内容提取装置的装置原理框图；

图11是本发明实施例提供的终端结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明实施例提供了一种移动设备评测的方法，请参考图1，其示出了本发明实施例提供的页面内容提取方法所涉及的实施环境的结构示意图。该实施环境包括配置有待评测的用户设备101、用户设备101会显示包含有待提取的页面，用户会对页面内容进行选取操作。用户设备会根据用户的选取显示出选取的内容。

在本发明的一个实施例中，提供一种页面内容提取方法，如图2所示，所述方法包括：

S210，获取所述页面中的被选中区域。

具体地，客户端会通过人机接口获得用户操作在页面中的选中区域。例如，该被选中区域可以是用户通过手指按压在触摸界面上所选中的区域。例如，该被选中区域也可以是使用诸如手写笔等输入工具在界面中通过划或者点击所选中的区域。

S220，逐一识别所述被选中区域中的字符，获取包含所述字符的元句，将所述元句拆分为备选词。

具体地，客户端会识别被选中区域内所包含的字符，这些字符可能是全部被包含在被选中区域中的完整字符，也可能是部分包含于被选中区域中的非完整字符。被选中区域是指用户通过按压、触摸、滑动等方式在用户界面上形成的选中区域，如果字符完全包含于被选中区域中，那么相对于选中区域而言，该字符是完整的，如果字符恰好位于选中区域的边界，部分位于选中区域内，部分位于选中区域外，那么相对于选中区域而言，该字符是非完整的，无论是完整字符还是非完整字符都会被作为被选中区域中的字符加以识别，在识别过程中，使用标识位对所述完整字符和非完整字符加以区分。

在一个示例中，对于全部被包含在被选中区域中的完整字符，使用标识位1来表示，对于非完整字符，使用标识位0来表示。

在另一个示例中，还可以使用量化的标识位数值来表示字符的完整程度，对于全部被包含在被选中区域中的完整字符，使用标识位数值1来表示，对于非完整字符，使用标识位数值X来表示，X是介于0到1之间的一个数值，该数值表示非完整字符占包含与其对应的完整字符的面积。

在一个示例中，包含字符的元句是通过在页面内容对应的位置检索获得的。元句是所述字符所在的、由相邻标点分割的字符串，例如页面内容“AAAAAA，BBBBBBB，CCCCCCCCCCC？DDDDDDD、EEE、FF；G，HHHHHHH；IIIIIIIIII”。其中包含的元句分别是“AAAAAA”、“BBBBBBB”、“CCCCCCCCCCC”、“DDDDDDD”、“EEE”、“FF”、“G”、“HHHHHHH”、“IIIIIIIIII”。其中A、B、C、D、E、F、G、H、I表示每个元句中的字符，字符可以相同也可以不同。

具体地，客户端将所述元句拆分为备选词，采用不同的分词技术，可以采用现有技术中的分词技术，也可以采用例如本实施例中的改进型分词技术。词是最小的、能够独立活动的、有意义的语言成分；英文单词之间是以空格作为自然分界符的，然而汉语是以字为基本的书写单位，汉语的词语之间是没有明显区分标记的，且中文词语分析是中文信息处理技术的基础与关键。因此，在对中文信息处理时需要选用成熟的分词技术。本实施例的客户端采用成熟的分词技术对所述目标语句中的每句话进行拆分，将每句话拆分为一个备选词词组，其中每个备选词词组均包括多个备选词。

在一个示例中，拆分备选词包括：设定拆分备选词的最大粒度，粒度为拆分出的备选词所包含的字符的个数。读取所述元句中的连续字符串；按照从左到右的顺序将所述连续字符串的与预设词表匹配；当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；若否，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；若是，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

在一个示例中，拆分备选词包括：设定拆分备选词的最大粒度，粒度为拆分出的备选词所包含的字符的个数。读取所述元句中的连续字符串；按照从右到左的顺序将所述连续字符串的与预设词表匹配；当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；若否，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；若是，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

在另一个示例中，重复前两个示例中的拆分过程，并按照粒度最大原则以及拆分词数量最小原则来选择输出拆分结果。例如对于元句“我们在野生动物园玩”，按照从左到右匹配拆分出的备选词为“我们/在野/生动/物/园/玩”，按照右到左的顺序拆分出的备选词为“我们/在/野生动物园/玩”，按照粒度最大原则，选择“我们/在/野生动物园/玩”作为输出结果。

可见，本实施例的备选词拆分方法可以提高对于备选词选择的准确性，从而提高页面内容提取的准确度。

S230，根据所述备选词的多个属性对所述备选词进行排序，获得排序结果。

备选词包含多种属性，例如，备选词的使用热度，备选词的词性，备选词包含的字符数等等，利用词的属性可以实现对于用户选取内容的区分和重要度排序，从而更加容易识别和提取用户所选取的页面内容。

在本实施例中，使用备选词中字符的完整程度、备选词的热度以及备选词的磁性的对拆分后的备选词进行排序，以下称为第一属性、第二属性和第三属性。

在使用备选词属性对备选词进行排序的过程中，首先利用备选词中的完整度属性值进行第一次排序，备选词完整度属性反映用户对页面内容进行选择时的选取位置，是对页面内容提取的最重要指标。如前所述，可以使用量化的标识位数值来表示字符的完整程度，对于全部被包含在被选中区域中的完整字符，使用标识位1来表示，对于非完整字符，使用标识位X来表示，X是介于0到1之间的一个数值，该数值表示非完整字符占包含与其对应的完整字符的面积。那么一个词的完整度属性值就是该词中各字符完整度之和的平均值。例如，备选词“野生动物园”中各字符的完整度分别为X1，X2，X3，X4和X5，那么该词的完整度为(X1+X2+X3+X4+X5)除以5。总结完整度公式为：

其中，I表示备选词中的字符序号，n表示备选词的个数，XI表示第I个字符的完整度。

在以上示例中，如果X1-X5的值分别为0.6，1，1，1，0.8，那么完整度公式为：

对所述备选词进行排序之后还包括：判断所述备选词的完整度是否大于第一预设阈值，若备选词的完整度过低，表明该词偏离用户选取区域的中心，通过该阈值能够筛选并非用户选择词。在一个示例中，若设定所述第一预设阈值为所述选取区域面积的50％，则在所述多个备选词中，有完整度大于所述选取区域面积的50％的备选词的话，客户端就将这样的备选词存储于第一备选词组中，所述第一备选词组中的备选词就是进行第二次排序的对象。

在一个示例中，客户端获得所述备选词的完整度排序结果，将排序最高的备选词作为目标备选词。

在一个示例中，客户端利用所述备选词的热度和词性对所述第一备选词组进行再次排序，得到所述排序结果。其中，所述排序结果中的备选词存在优先级，优先级最高的词语就是目标词，所述备选词的热度为所述备选词在热词服务中被搜索的次数；所述备选词的词性为用于划分词类的词的特点，其中，所述热词服务为搜索引擎或输入法等与热词有关的服务。

S240，根据所述排序结果选取目标备选词，并提取所述目标备选词。

具体地，所述排序结果中的各备选词必定存在顺序，可以通过各备选词的顺序来选中覆盖度较高、且满足热度和词性的一个或者几个备选词作为目标备选词。

在一个示例中，通过排序结果选择的目标备选词为一个，在页面中凸显该目标备选词，同时复制该目标备选词，用户可以针对客户端复制的目标词进行目标词相关操作，比如粘贴至聊天对话框进行编辑，或对复制的目标词进行相关检索。

在一个示例中，通过排序结果选择的目标备选词为多个，在页面中凸显该多个目标备选词，并等待用户进行选择操作；客户端根据用户选择复制该目标备选词，用户可以针对客户端复制的目标词进行目标词相关操作，比如粘贴至聊天对话框进行编辑，或对复制的目标词进行相关检索。

客户端将所述备选词在所述文本上凸显标记出来，被凸显标记的词语就是用户的目标词，进一步地客户端复制所述目标词

综上所述，本实施例提供通过元句拆分和利用备选词属性排序能够快速有效地提取出客户选取的页面内容，提取的内容更加准确，避免用户在选取后还需要手动调整，节省时间，提高用户体验。

请参考图3，本实施例提出一种页面内容提取方法，其包括如下步骤：

S310.获取所述页面中的被选中区域。

举例来说，若用户操作的对象为手机客户端，用户在浏览网页过程需要对文本进行复制，则用户在手机客户端的触摸屏幕上进行操作，用户的指面与触摸屏幕相接触得到一个环形的选取区域，如图3所示，图3中的环形区域就是所述文本中选取区域。

S320.识别所述选取区域中的字符，获取所述字符对应的所有语句，并删除所述所有语句中重复的语句，得到目标语句。

步骤S320包含如下子步骤：

S3201，识别所述选取区域中的字符。请参考图5，该步骤包括：

S32011，识别所述被选中区域中的完整字符，为所述完整字符增加完整字符标识位。

S32012，识别所述被选中区域中的非完整字符，为所述非完整字符增加非完整字符标识位。

在步骤S320中，客户端通过字符获取技术将选取区域中的所有字符均识别出来，请参考图4，属于所述选取区域中的字符有：

【二、十、国、集、的、出、色】

其中，“十”为选取区域中的完整字符，“二、国、集、的、出、色”为选取区域中的非完整字符。分别为这些字符增加字符标识位，用于表示字符是否为完整字符，或者字符的完整度。

S3202，获取所述字符对应的所有元句。请参考图6，该步骤包括：

S32021，在所述页面内容中检索所述字符，以获得所述被选中的区域中的每一个字符所对应的多个元句。

S32022，查询所述多个元句，以判断所述多个元句中是否存在重复的元句。

S32023，若是，删除所述重复的元句。

具体地，判断字符所属的元句是客户端通过语句与语句之间的标点符号为界限，依次识别出所述选取区域中的所有字符对应的元句。对于所有语句中重复的语句，客户端通过去重技术将重复的语句删除。举例来说。依旧参照图4，“二”对应的元句是“二十国集团领导人安塔利亚峰会开得很成功”，“十”对应的元句也是“二十国集团领导人安塔利亚峰会开得很成功”，“二”和“十”对应的元句是相同的，则对于重复的语句最终只保留一句，将其余相同的语句都删除；依此进行识别和去重，最终得到所述字符对应的语句，也就是目标语句：

【二十国集团领导人安塔利亚峰会开得很成功。

再次感谢去年***国土耳其的出色工作和取得的积极成果。】

S3203，拆分所述元句以得到备选词。请参考图7，该步骤包括如下子步骤：

S32031，读取所述元句中的连续字符串；

S32032，按照从左到右的顺序将所述连续字符串的与预设词表匹配；

S32033，当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；

S32034，若否，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；

S32035，若是，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

具体地，根据图4中选取出的所述语句进行拆分：

“二十国集团领导人安塔利亚峰会开得很成功。”拆分结果如下：

【二十国，集团，领导人，安塔利亚，峰会，开，得，很，成功】

“再次感谢去年***国土耳其的出色工作和取得的积极成果。”拆分结果如下：

【再次，感谢，去年，***，国，土耳其，的，出色，工作，和，取得，的，积极，成果。】

S330.使用所述备选词的至少一个属性对所述备选词进行排序，获得排序结果。备选词包含多种属性，例如，备选词的使用热度，备选词的词性，备选词包含的字符数等等，利用词的属性可以实现对于用户选取内容的区分和重要度排序，从而更加容易识别和提取用户所选取的页面内容。

在一个示例中，使用备选词的一个属性对备选词进行排序，进而获得所述备选词的排序结果。例如可以通过备选词中字符的完整度属性进行排序，因为在获得字符过程中即获得了备选词中字符的完整度属性，根据公式：

其中，I表示备选词中的字符序号，n表示备选词的个数，XI表示第I个字符的完整度。可以获得各个备选词中字符的完整度数值，根据完整度数值即可以实现对备选词进行排序。

在一个示例中，使用备选词的一个属性对备选词进行排序，进而获得所述备选词的排序结果。例如可以通过备选词中字符的热度属性进行排序，备选词的热度可以根据字库中对于热词的热度标记进行查询，字库中对于热度的标记则来源于大数据对互联网搜索引擎或者即时通信工具的收集获得。例如，烤鸭、公园、房车的热度值分别是370万搜索值、150万搜索值和80搜索值，那么三者的热度排序依次为“烤鸭-公园-房车”。

在一个示例中，使用备选词两个属性或者三个属性进行排序，该过程包括首先使用第一属性进行排序，然后利用第二属性和/或第三属性对排序结果进行校正。具体来说，此时步骤S330可以包含如下子步骤：

S3301，根据所述备选词的第一属性值对所述多个备选词进行优先级排序，得到第一排序结果。

S3302，判断所述备选词的第一属性值是否大于第一预设阈值，若是，则将所述备选词存储于第一备选词组；

S3303，根据所述备选词的第二属性值或第三属性值对所述第一备选词组中的备选词进行再次排序，得到所述排序结果。

选择第一属性为备选词的完整度，第二属性为备选词的热度，第三属性为备选词的词性时。首先根据备选词的完整度进行第一次排序，然后将完整度与预设的阈值进行比较，获得完整度高于阈值的备选词，将这些备选词作为第一备选词组，之后再对第一备选词组按照备选词的热度进行排序。然而存在一种情况，就是按照热度排序后仍然无法确定唯一的备选词，那么再按照备选词的词性进行排序。

当然不限于之前提到的三种属性，还可以使用备选词中包含的字符长度等进行参与排序，备选词的属性顺序也是可以进行排列组合的，例如第一属性可以选择为备选词的热度，首先通过热度进行排序，这样有利于网络热词的直接选出，提高提取内容的效率和准确率。

在一个示例中，请参考图8，步骤S3303还可以包含如下子步骤：

S33031，获取所述第一备选词组中所述备选词的第二属性值，比较所述备选词的所述第二属性值与第二预设阈值；

S33032，若存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第二属性值对所述第一备选词组中的备选词进行再次排序；

S33033，若不存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序。

具体地，若经过逐个判断，所述第一排序结果中的备选词中全部不是热词，或者说网络热度交底，不适合作为排序依据时，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序，得到排序结果。

所述第三属性包括备选词的词性，具体地，对于备选词的词性：通过对海量用户复制行为的统计可以知道，用户对名词、形容词和动词的复制几率要更高，其中名词为最高；所以，对所述备选词词组进行排序的顺序为：

名词>形容词>动词>其他词

其中，所述其他词包括数词、量词和代词等，由于其他词性的词语作为用户默认复制内容的可能性很小，所以其他词可以不用区分。

例如图3中，对于备选词的热度，若“二十国”被识别出被搜索了1万次，则“二十国”为热词，对应的热度值为1万；若“出色”被输入时，通过调用热词库发现“出色”也是热词，被搜索了5000次，所述热度为5000；此时，根据热度值对二者进行排序得到“二十国”的排序高于“出色”。但是如果预设的热度阈值是高于1万的，那么此时热度值不作为排序的参考值，而是使用词性作为判断排序的判断条件。

S340，根据所述排序结果选取目标备选词，并提取所述目标备选词。

客户端会根据排序结果将备选词中排序最高的备选词作为目标备选词，并将该备选词提取出来。具体地，提取可以包含两个方面的操作，一是复制备选词，二是将备选词预先复制在内存中。

具体地，客户端将所述第二排序结果中优先级为第一的词语，在所述文本上凸显标记出来，被凸显标记的词语就是用户的目标备选词，进一步客户端复制所述目标备选词。凸显的方式可以是高亮凸显、颜色凸显或者形状凸显等等。高亮凸显是指改变目标备选词的背景颜色，从而使该词所在的区域以高亮的形式展现；颜色凸显是指改变该词的文字颜色，以凸显于其他文字中；形状凸显是指改变备选词的字体或者备选词所在的区域形状。

综上所述，本实施例提供的页面内容提取方法，在采用多属性排序和筛选能够大大提高提取内容的效率和准确性。例如，备选词的完整度对所述备选词排序之后，进一步对第一排序结果中的备选词进行识别判断，选择备选词的热度或备选词的词性进行再次排序，从而更加高效地复制出用户的操作目标。

请参考图9，本实施例提供了一种页面内容提取装置，所述装置包括：

区域获取模块，执行步骤S210，用于获取所述页面中的被选中区域；

备选词生成模块，执行步骤S220，用于逐一识别所述被选中区域中的字符，获取包含所述字符的元句，将所述元句拆分为备选词；

属性排序模块，执行步骤S230，用于根据所述备选词的多个属性对所述备选词进行排序，获得排序结果；

页面内容提取模块，执行步骤S240，用于将所述排序结果最高的备选词作为目标备选词，并提取所述目标备选词。

请参考图10，本实施例提供了一种页面内容提取装置，所述装置包括：

区域获取模块，执行步骤S310，用于获取所述页面中的被选中区域。

备选词生成模块，执行步骤S320，用于识别所述选取区域中的字符，获取所述字符对应的所有语句，并删除所述所有语句中重复的语句，得到目标语句。

备选词生成模块包含如下子模块：

字符识别子模块，执行步骤S3201，用于识别所述选取区域中的字符。

字符识别子模块包含：

完整字符识别子模块，执行步骤S32011，用于识别所述被选中区域中的完整字符，为所述完整字符增加完整字符标识位。

非完整字符识别子模块，执行步骤S32012，用于识别所述被选中区域中的非完整字符，为所述非完整字符增加非完整字符标识位。

元句获取子模块，执行步骤S3202，用于获取所述字符对应的所有元句。

该元句获取子模块，包含如下子模块：

元句检索子模块，执行步骤S32021，在所述页面内容中检索所述字符，以获得所述被选中的区域中的每一个字符所对应的多个元句。

查询子模块，执行步骤S32022，查询所述多个元句，以判断所述多个元句中是否存在重复的元句。

去重子模块，执行步骤S32021，用于在存在重复元句时删除所述重复的元句。

元句拆分子模块执行步骤S3203，用于拆分所述元句以得到备选词。该步骤包括如下子步骤：

字符串读取子模块，执行步骤S32031，用于读取所述元句中的连续字符串；

匹配子模块，执行步骤S32032，按照从左到右的顺序将所述连续字符串的与预设词表匹配；

第一匹配判断子模块，执行步骤S32033，当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；

第一逻辑判断子模块，执行步骤S32034，用于在第一匹配判断子模的判断结果为否时，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；

第二逻辑判断子模块，执行步骤S32035，用于在第一匹配判断子模的判断结果为是时，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

属性排序模块，执行步骤S330，用于通过所述备选词的至少一个属性对所述备选词进行排序，获得排序结果。备选词包含多种属性，例如，备选词的使用热度，备选词的词性，备选词包含的字符数等等，利用词的属性可以实现对于用户选取内容的区分和重要度排序，从而更加容易识别和提取用户所选取的页面内容。

在一个示例中，此时属性排序模块可以包含如下子模块：

第一属性排序子模块，执行步骤S3301，根据所述备选词的第一属性值对所述多个备选词进行优先级排序，得到第一排序结果。

第一属性判断子模块，执行步骤S3302，判断所述备选词的第一属性值是否大于第一预设阈值，若是，则将所述备选词存储于第一备选词组；

二次排序子模块，执行步骤S3303，根据所述备选词的第二属性值或第三属性值对所述第一备选词组中的备选词进行再次排序，得到所述排序结果。

在一个示例中，二次排序模块还可以包含如下子模块：

第二属性阈值比较子模块，执行步骤S33031，获取所述第一备选词组中所述备选词的第二属性值，比较所述备选词的所述第二属性值与第二预设阈值；

第一逻辑排序子模块，执行步骤S33032，在存在第二属性值大于所述第二预设阈值的备选词时，则根据所述备选词的第二属性值对所述第一备选词组中的备选词进行再次排序；

第一逻辑排序子模块，在不存在第二属性值大于所述第二预设阈值的备选词时，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序。

页面内容提取模块，执行步骤S340，用于选取所述排序结果中排序最高的备选词作为目标备选词，并提取所述目标备选词。

请参考图11，本实施例提供了一种终端，所述终端可以用于实施上述实施例中提供的页面内容提取方法。具体来讲：

终端700可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端700的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131；除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图11中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端700还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端700移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端700之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端700的通信。

WiFi属于短距离无线传输技术，终端700通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块170，但是可以理解的是，其并不属于终端700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端700的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端700的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端700还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理***与处理器180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端700还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于进行以下操作的指令：

获取所述文本中的选取区域；

识别所述选取区域中的字符，获取所述字符对应的语句；

将所述语句拆分为多个备选词；

根据备选词属性对所述多个备选词进行优先级排序，获得排序结果；

根据所述排序结果标记目标词，并复制所述目标词。

进一步地，终端的处理器还用于执行以下操作的指令：识别所述选取区域中字符对应的所有语句；删除所述所有语句中重复的语句，得到所述字符对应的语句。

进一步地，终端的处理器还用于执行以下操作的指令：采用正向最大匹配算法拆分所述语句，得到多个备选词。

进一步地，终端的处理器还用于执行以下操作的指令：根据所述备选词的第一属性对所述多个备选词进行优先级排序，得到第一排序结果；判断所述备选词的第一属性是否大于第一预设阈值，若是，则将所述备选词存储于第一备选词组；根据所述备选词的第二属性或第三属性对所述第一备选词组中的备选词进行再次排序，得到所述排序结果。

具体地，所述第一属性包括所述备选词的完整度，所述备选词的完整度为所述备选词在所述选取区域中占据的面积。

进一步地，终端的处理器还用于执行以下操作的指令：获取所述第一备选词组中所述备选词的第二属性，比较所述备选词的所述第二属性与第二预设阈值；若存在第二属性大于所述第二预设阈值的备选词，则根据所述备选词的第二属性对所述第一备选词组中的备选词进行再次排序；若不存在第二属性大于所述第二预设阈值的备选词，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序。

进一步地，所述备选词的第二属性包括所述备选词的热度，所述第三属性包括备选词的词性。

综上所述，本实施例提供的终端，通过获取选取区域中部分完整和非完整字符，进一步对所述字符对应的语句进行拆分，以及对拆分得到的备选词进行多次排序，能够正确标注出用户想要复制的目标内容，减少了用户操作的次数；通过结合周围部件，进一步优化了用户复制文本的体验感。

本实施例中的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在存储介质中，包括若干指令用以使得一台或多台终端设备执行本发明各个实施例所述方法的全部或部分步骤。

本实施例中所述模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。可以根据实际的需要选择其中的部分或者全部模块/单元来达到实现本发明方案的目的。

另外，在本发明各个实施例中的各模块/单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种页面内容提取方法，其特征在于，所述方法包括如下步骤：

获取所述页面中的被选中区域；

逐一识别所述被选中区域中的字符，获取包含所述字符的元句，拆分所述元句以得到备选词；

使用所述备选词的至少一个属性对所述备选词进行排序，获得排序结果；

根据所述排序结果选取目标备选词，并提取所述目标备选词；

其中，所述逐一识别所述被选中区域中的字符包括：识别所述被选中区域中的完整字符；识别所述被选中区域中的非完整字符；为所述完整字符和非完整字符增加标识位，所述标识位用于标识所述完整字符和所述非完整字符的完整度。

2.根据权利要求1所述的方法，其特征在于，所述获取包含所述字符的元句包括：

在所述页面内容中检索所述字符，以获得所述被选中区域中的每一个字符所对应的多个元句；

查询所述多个元句，以判断所述多个元句中是否存在重复的元句；

若是，删除所述重复的元句。

3.根据权利要求1所述的方法，其特征在于，所述拆分所述元句以得到备选词包括：

读取所述元句中的连续字符串；

按照从左到右的顺序将所述连续字符串与预设词表匹配；

当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；

若否，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；

若是，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

4.根据权利要求1所述的方法，其特征在于，所述使用所述备选词的至少一个属性对所述备选词进行排序，获得排序结果，包括：

根据所述备选词的第一属性值对多个备选词进行优先级排序，得到第一排序结果；

判断所述备选词的第一属性值是否大于第一预设阈值，若是，则将所述备选词存储于第一备选词组；

根据所述备选词的第二属性或第三属性对所述第一备选词组中的备选词进行再次排序，得到所述排序结果。

5.根据权利要求4所述的方法，其特征在于，所述第一属性值包括所述备选词的完整度，所述备选词的完整度通过如下公式计算：

其中，X表示备选词的完整度，I表示备选词中的字符序号，n表示备选词中字符的个数，XI表示第I个字符的完整度。

6.根据权利要求4所述的方法，其特征在于，所述根据所述备选词的第二属性或第三属性对所述第一备选词组中的备选词进行再次排序，包括：

获取所述第一备选词组中所述备选词的第二属性值，比较所述备选词的所述第二属性值与第二预设阈值；

若存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第二属性值对所述第一备选词组中的备选词进行再次排序；

若不存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序。

7.根据权利要求6所述的方法，其特征在于，所述备选词的第二属性值包括所述备选词的热度值，所述第三属性包括备选词的词性。

8.根据权利要求1所述的方法，其特征在于，高亮显示所述目标备选词和/或复制所述目标备选词。

9.一种页面内容提取装置，其特征在于，所述装置包括如下模块：

区域获取模块，用于获取所述页面中的被选中区域；

备选词生成模块，用于逐一识别所述被选中区域中的字符，获取包含所述字符的元句，将所述元句拆分为备选词；

属性排序模块，用于根据所述备选词的多个属性对所述备选词进行排序，获得排序结果；

页面内容提取模块，用于根据所述排序结果选取目标备选词，并提取所述目标备选词；所述备选词生成模块包括字符识别子模块，所述字符识别模块用于：识别所述被选中区域中的完整字符；识别所述被选中区域中的非完整字符；为所述完整字符和非完整字符增加标识位，所述标识位用于标识所述完整字符和所述非完整字符的完整度。

10.根据权利要求9所述的装置，其特征在于，所述备选词生成模块包括元句获取子模块，该元句获取子模块用于：在所述页面内容中检索所述字符，以获得所述被选中区域中的每一个字符所对应的多个元句；查询所述多个元句，以判断所述多个元句中是否存在重复的元句；若是，删除所述重复的元句。

11.根据权利要求9所述的装置，其特征在于，所述备选词生成模块包括分词子模块，该分词子模块用于读取所述元句中的连续字符串；按照从左到右的顺序将所述连续字符串与预设词表匹配；当所述连续字符串中第一长度的字符串与预设词表匹配时，判断第一长度加1长度的字符串是否与预设词表匹配；若否，将该第一长度的字符串作为备选词，并将该第一长度的字符串从所述连续字符串中切除，使用切除后的连续字符串继续匹配；若是，将第一长度加1作为更新为第一长度，并继续判断所述第一长度加1长度的字符串是否与预设词表匹配的步骤。

12.根据权利要求9所述的装置，其特征在于，所述属性排序模块包括：

第一属性排序子模块，用于根据所述备选词的第一属性值对多个备选词进行优先级排序，得到第一排序结果；

第一属性阈值判断子模块，用于判断所述备选词的第一属性值是否大于第一预设阈值，若是，则将所述备选词存储于第一备选词组；

二次排序子模块，用于根据所述备选词的第二属性或第三属性对所述第一备选词组中的备选词进行再次排序，得到所述排序结果。

13.根据权利要求12所述的装置，其特征在于，所述第一属性值包括所述备选词的完整度，所述备选词的完整度通过如下公式计算：

14.根据权利要求12所述的装置，其特征在于，所述二次排序子模块包括：

第二属性值获得子模块，用于获取所述第一备选词组中所述备选词的第二属性值；

第二属性阈值判断子模块，比较所述备选词的所述第二属性值与第二预设阈值；若存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第二属性值对所述第一备选词组中的备选词进行再次排序；若不存在第二属性值大于所述第二预设阈值的备选词，则根据所述备选词的第三属性对所述第一备选词组中的备选词进行再次排序。

15.根据权利要求14所述的装置，其特征在于，所述备选词的第二属性值包括所述备选词的热度值，所述第三属性包括备选词的词性。

16.根据权利要求9所述的装置，其特征在于，所述页面内容提取模块包括：

高亮显示模块，用于高亮显示所述目标备选词；

复制子模块，用于复制所述目标备选词。

17.一种客户端，包含权利要求9-16之一所述的装置。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-8中任一项所述的页面内容提取方法。