CN106502968A

CN106502968A - 数据处理的方法及装置

Info

Publication number: CN106502968A
Application number: CN201610891505.0A
Authority: CN
Inventors: 陈学中; 张楷豪
Original assignee: Beijing Qihoo Technology Co Ltd; Beijing Qianxin Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Beijing Qianxin Technology Co Ltd
Priority date: 2016-10-12
Filing date: 2016-10-12
Publication date: 2017-03-15

Abstract

本发明公开了一种数据处理的方法及装置，涉及计算机技术领域，为解决现有包含新字体类型的网页加载效率低的问题而发明。本发明的方法包括：获取文本，所述文本为网页中的文本；在所述文本对应的原始字体文件中查找所述文本中所有字符对应的字形数据，所述原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；将所述文本中所有字符的字形数据按照所述原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。本发明应用于加载网页的过程中。

Description

数据处理的方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理的方法及装置。

背景技术

目前，文本信息仍是网页最主要的内容，随着层叠样式表(Cascading StyleSheets，CSS)技术的不断成熟，web字体逐渐成为关注的话题。为了使网页达到不同的丰富多彩的技术效果，对应的出现多种多样的字体类型，尤其是对于中文，字体类型更是多种多样，而且也不断有新的字体类型出现，因此浏览器在加载网页时，有可能会遇到加载的网页中包含新的字体类型，而浏览器不支持新的字体类型即没有新字体类型对应的字体文件的情况，这时需要浏览器在加载网页的同时也下载与新字体对应的字体文件，从而将网页中包含的新字体正确的显示。

在下载新字体类型对应的字体文件时，由于字体文件通常为包含所有文本对应的新字体，因此字体文件很大，比如可以达到4M甚至更大，而字体文件越大导致浏览器加载的速度越慢，尤其在网络状态不好的情况下，下载字体文件的效率更低，进而导致浏览器加载网页的效率更低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理的方法及装置。

为解决上述技术问题，一方面，本发明提供了一种数据处理的方法，包括：

获取文本，所述文本为网页中的文本；

在所述文本对应的原始字体文件中查找所述文本中所有字符对应的字形数据，所述原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；

将所述文本中所有字符的字形数据按照所述原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件。

另一方面，本发明提供了一种数据处理的装置，包括：

获取单元，用于获取文本，所述文本为网页中的文本；

字形查找单元，用于在所述文本对应的原始字体文件中查找所述文本中所有字符对应的字形数据，所述原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；

写入单元，用于将所述文本中所有字符的字形数据按照所述原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。

借由上述技术方案，本发明提供的数据处理的方法及装置，能够首先获取文本，文本为网页中的文本；其次，在文本对应的原始字体文件中查找文本中所有字符对应的字形数据，其中，原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；最后，将所述文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。与现有技术相比，本发明能够将文本对应的原始字体文件中仅包含所述文本中所有字符的字形数据重新组成新的字体文件即目标字体文件，由于目标字体文件中仅包含上述文本中的所有字符的字形数据，因此相比于原始字体文件大大减小了文件本身的大小，因此能够提高浏览器下载字体文件的速度，进而提高网页的加载效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种数据处理的方法流程图；

图2示出了本发明实施例提供的另一种数据处理的方法流程图；

图3示出了本发明实施例提供的一种数据处理的装置的组成框图；

图4示出了本发明实施例提供的另一种数据处理的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决现有包含新字体类型的网页加载效率低的问题，本发明实施例提供了一种数据处理的方法，如图1所示，该方法包括：

首先，需要说明的是本实施例的执行主体为一个插件，通常是浏览器的一个插件。

101、获取文本。

本实施例中的文本主要是指网页中的文本，并且引用网页的浏览器等本身是不包含该文本所属的字体类型，比如新字体类型或者特殊字体等组成的文本。新字体类型通常指充满动画感的字体、外形为动物头像的字体、图片制作的有趣字体等，特殊字体可能为甲骨文等。其中上述文本可能是网页中的全部文本或是网页中的一部分文本。

另外需要说明的是，获取文本不是直接从网页中获取文本，而是在网页中的文本还没有通过引用网页的浏览器等将其显示之前，获取将要在网页中显示的上述文本。

获取文本是后续步骤中获取文本中字符对应的字形数据的必要准备。

102、在文本对应的原始字体文件中查找文本中所有字符对应的字形数据。

当浏览器遇到引用的网页中包含步骤101中的文本时，操作***会暴露对应的应用程序接口(Application Program Interface，API)，使浏览器选取工具来对上述文本进行正确的处理。本实施例是提前设置预设后缀名，使浏览器读到预设后缀名的文件时，将其传回给插件，而不是直接对预设后缀名的文件进行下载。将原始字体文件传回给插件的过程可以是有多种形式，常见的形式为数据流的形式等。其中预设后缀名的文件为与文本对应的原始字体文件的后缀名。当插件接收到原始字体文件后，能够按照原始字体文件的需要读原始字体文件，并从中提取出上述文本中所有字符对应的字形数据。由于原始字体文件中包含的是与文本中字符同类型的所有字符的字形数据，而本实施例中需要使用的只是步骤101中涉及的文本中所有字符的字形数据，因此只需要从原始字体文件中提取符合需求的字形数据。

103、将文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件。

将由步骤102得到的所有字符的字形数据按照原始字体文件的规范编译成新的字体文件，记作目标字体文件。

每种字体文件都有对应的文件构成、文件读取等规范，比如字体文件(TrueTypeFont，TTF)文件，它是由微软公司和苹果公司共同推出的一种字体文件格式，其中TTF文件的文件规范包括：字体目录中包含字体格式的版本号和几个表，每个表都有一个tableentry结构项；并且所有数据使用big-endian编码，最高位字节在最前面；每个表中都保存了同的逻辑信息，比如图元数据表、字符到图元的映射表等；等更多的规范。不同的字体文件通常对应不同的文件规范。为了不符合原始字体文件的规范，因此将选择将从原始字体文件中提取的字形数据还按照原始字体文件的规范进行编译得到目标字体文件。

由于按照原始字体文件规范得到的目标字体文件中仅包含上述文本中所有字符的字形数据，相当于将原始字体文件中的字形数据进行了过滤，得到了仅包含需要的字形数据的字体文件，因此在浏览器下载字体文件时大大的减小了下载文件的大小，从而加快了下载的速度，并且在保证网页包含的上述文本正确显示的前提下提高了网页的加载速度。

本发明实施例提供的数据处理的方法，能够首先获取文本，文本为网页中的文本；其次，在文本对应的原始字体文件中查找文本中所有字符对应的字形数据，其中，原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；最后，将所述文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。与现有技术相比，本发明实施例能够将文本对应的原始字体文件中仅包含所述文本中所有字符的字形数据重新组成新的字体文件即目标字体文件，由于目标字体文件中仅包含上述文本中的所有字符的字形数据，因此相比于原始字体文件大大减小了文件本身的大小，因此能够提高浏览器下载字体文件的速度，进而提高网页的加载效率。

进一步的，作为对图1所示方法的细化及扩展，本发明另一实施例还给出了一种数据处理的方法。如图2所示，该方法包括：

201、获取文本。

其中获取文本具体的包括两种途径：

第一种途径，从网页对应的超文本标记语言(Hyper Text Markup Language，HTML)文件中提取文本。具体的实现方式如下：

首先，查找浏览器设置的HTML元素的选择器。

浏览器在传送原始字体文件的同时，会提前设置需要在原始字体文件中查找的文本所对应的HTML元素，文本包含在对应的HTML元素中，而HTML元素需要通过对应的选择器进行选择，因此需要查找对应的HTML元素对应的选择器。

然后，根据选择器提取对应HTML元素中的文本。

根据查找到的HTML元素对应的选择器定位到对应HTML元素中的文本，并提取该文本。

第二种途径，对于一些用户可以输入文本的网站，比如各种论坛、微博等，输入的文本中也会存在对应的浏览器不支持的字体类型的情况，这时需要从外部直接输入的文本中提取步骤201涉及的文本。

202、对文本中的每个字符按照预设编码规则进行编码，得到对应的字符编码。

本实施例中，预设编码是指一种字符编码，对于不同格式的字体文件对应的预设编码规则可能是不同的，比如对于TTF格式的字体文件对应的预设编码规则为Unicode编码规则。将文本中每个字符按照预设编码规则进行编码，得到对应的字符编码，得到字符编码是为了在原始字体文件中查找对应字符的字形数据。

203、根据字符编码在第一索引表中查找对应每个字符的字形索引。

原始字体文件中包含多个表，而本实施例中只需要使用其中的几个表，因此需要通过原始字体文件中的注册表即所有表的索引找到所需表的索引，然后根据所需表的索引在原始字体文件中查找到对应的所需表。本步骤中所需表为字符编码与字形索引的映射表，记作第一索引表。通过第一索引表就可以根据由步骤202中得到的字符编码找到对应的字形索引，得到字形索引是为后续找到字形数据的必要准备。其中，需要说明的是，若原始字体文件为TTF文件，则对应的第一索引表为Cmap表。

204、根据字形索引在字形数据表中查找对应每个字符的字形数据。

在根据字形索引查找对应的字形数据之前，首先需要获取到字形数据表，字形数据表中记录了所有的字形数据，而字形数据的查找需要通过字形索引进行查找，因此首先需要获取字形数据表。字形数据表的获取与步骤203中获取第一索引表的实现方式是相同的，都是通过原始字体文件中的注册表查找得到的。其中，需要说明的是，若原始字体文件为TTF文件，则对应的第一索引表为glyf表。

得到字形数据表之后，根据由步骤203得到的字形索引在字形数据表中查找与字形索引对应的字形数据。

需要说明的是字形数据指每个字形(也称作“图元”)的轮廓定义以及网格调整指令。得到的字形数据是文本中的字符对应的字形数据。

205、将文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件。

本步骤的实现方式与图1步骤103中的实现方式相同，此处不再赘述。

进一步的，作为对上述各实施例的实现，本发明实施例的另一实施例还提供了一种数据处理的装置，用于实现上述图1及图2所述的方法。如图3所示，该装置包括：获取单元31、字形查找单元32以及写入单元33。

获取单元31，用于获取文本，文本为网页中的文本。

字形查找单元32，用于在文本对应的原始字体文件中查找文本中所有字符对应的字形数据，原始字体文件为包含与文本中字符同类型的所有字符的字形数据。

当浏览器遇到引用的网页中包含获取单元31中的文本时，操作***会暴露对应的应用程序接口API，使浏览器选取工具来对上述文本进行正确的处理。本实施例是提前设置预设后缀名，使浏览器读到预设后缀名的文件时，将其传回给插件，而不是直接对预设后缀名的文件进行下载。将原始字体文件传回给插件的过程可以是有多种形式，常见的形式为数据流的形式等。其中预设后缀名的文件为与文本对应的原始字体文件的后缀名。当插件接收到原始字体文件后，能够按照原始字体文件的需要读原始字体文件，并从中提取出上述文本中所有字符对应的字形数据。由于原始字体文件中包含的是与文本中字符同类型的所有字符的字形数据，而本实施例中需要使用的只是获取单元31中涉及的文本中所有字符的字形数据，因此只需要从原始字体文件中提取符合需求的字形数据。

写入单元33，用于将文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将文本正确显示在网页中。

将由字形查找单元32得到的所有字符的字形数据按照原始字体文件的规范编译成新的字体文件，记作目标字体文件。

进一步的，如图4所示，字形查找单元32，包括：

编码模块321，用于对文本中的每个字符按照预设编码规则进行编码，得到对应的字符编码；

第一查找模块322，用于根据字符编码在第一索引表中查找对应每个字符的字形索引，第一索引表为字符编码与字形索引的映射表；

原始字体文件中包含多个表，而本实施例中只需要使用其中的几个表，因此需要通过原始字体文件中的注册表即所有表的索引找到所需表的索引，然后根据所需表的索引在原始字体文件中查找到对应的所需表。本步骤中所需表为字符编码与字形索引的映射表，记作第一索引表。通过第一索引表就可以根据由编码模块321中得到的字符编码找到对应的字形索引，得到字形索引是为后续找到字形数据的必要准备。其中，需要说明的是，若原始字体文件为TTF文件，则对应的第一索引表为Cmap表。

第二查找模块323，用于根据字形索引在字形数据表中查找对应每个字符的字形数据。

在根据字形索引查找对应的字形数据之前，首先需要获取到字形数据表，字形数据表中记录了所有的字形数据，而字形数据的查找需要通过字形索引进行查找，因此首先需要获取字形数据表。字形数据表的获取与第一查找模块322中获取第一索引表的实现方式是相同的，都是通过原始字体文件中的注册表查找得到的。其中，需要说明的是，若原始字体文件为TTF文件，则对应的第一索引表为glyf表。

得到字形数据表之后，根据由第一查找模块322得到的字形索引在字形数据表中查找与字形索引对应的字形数据。

进一步的，如图4所示，装置进一步包括：

注册表查找单元34，用于在根据字符编码在第一索引表中查找对应每个字符的字形索引之前，查找原始字体文件中的注册表，注册表为原始字体文件中包含的所有表的索引；

索引表查找单元35，用于根据注册表查找第一索引表以及字形数据表。

进一步的，如图4所示，获取单元31，包括：

提取模块311，用于从网页对应的超文本标记语言HTML文件中提取文本。

获取模块312，用于获取直接从外部输入的文本。

对于一些用户可以输入文本的网站，比如各种论坛、微博等，输入的文本中也会存在对应的浏览器不支持的字体类型的情况，这时需要从外部直接输入的文本中提取获取单元31涉及的文本。

进一步的，提取模块311用于：

查找HTML元素的选择器，HTML元素为文本对应的HTML元素；

首先，查找浏览器设置的HTML元素的选择器。

根据选择器提取对应HTML元素中的文本。

然后，根据查找到的HTML元素对应的选择器定位到对应HTML元素中的文本，并提取该文本。

本发明实施例提供的数据处理的装置，能够首先获取文本，文本为网页中的文本；其次，在文本对应的原始字体文件中查找文本中所有字符对应的字形数据，其中，原始字体文件为包含与所述文本中字符同类型的所有字符的字形数据；最后，将所述文本中所有字符的字形数据按照原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。与现有技术相比，本发明实施例能够将文本对应的原始字体文件中仅包含所述文本中所有字符的字形数据重新组成新的字体文件即目标字体文件，由于目标字体文件中仅包含上述文本中的所有字符的字形数据，因此相比于原始字体文件大大减小了文件本身的大小，因此能够提高浏览器下载字体文件的速度，进而提高网页的加载效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如数据处理的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种数据处理的方法，其特征在于，所述方法包括：

获取文本，所述文本为网页中的文本；

将所述文本中所有字符的字形数据按照所述原始字体文件的规范写入新的字体文件，得到目标字体文件，以使浏览器下载目标字体文件并将所述文本正确显示在网页中。

2.根据权利要求1所述的方法，其特征在于，所述在所述文本对应的原始字体文件中查找所述文本中所有字符对应的字形数据，包括：

对所述文本中的每个字符按照预设编码规则进行编码，得到对应的字符编码；

根据字符编码在第一索引表中查找对应每个字符的字形索引，所述第一索引表为字符编码与字形索引的映射表；

根据所述字形索引在字形数据表中查找对应每个字符的字形数据。

3.根据权利要求2所述的方法，其特征在于，在所述根据字符编码在第一索引表中查找对应每个字符的字形索引之前，所述方法进一步包括：

查找所述原始字体文件中的注册表，所述注册表为所述原始字体文件中包含的所有表的索引；

根据所述注册表查找所述第一索引表以及字形数据表。

4.根据权利要求1所述的方法，其特征在于，所述获取文本，包括：

从所述网页对应的超文本标记语言HTML文件中提取文本；或者，

获取直接从外部输入的文本。

5.根据权利要求1所述的方法，其特征在于，所述从所述网页对应的HTML文件中提取文本，包括：

查找HTML元素的选择器，所述HTML元素为所述文本对应的HTML元素；

根据所述选择器提取对应HTML元素中的文本。

6.一种数据处理的装置，其特征在于，所述装置包括：

获取单元，用于获取文本，所述文本为网页中的文本；

7.根据权利要求6所述的装置，其特征在于，所述字形查找单元，包括：

编码模块，用于对所述文本中的每个字符按照预设编码规则进行编码，得到对应的字符编码；

第一查找模块，用于根据字符编码在第一索引表中查找对应每个字符的字形索引，所述第一索引表为字符编码与字形索引的映射表；

第二查找模块，用于根据所述字形索引在字形数据表中查找对应每个字符的字形数据。

8.根据权利要求7所述的装置，其特征在于，所述装置进一步包括：

注册表查找单元，用于在所述根据字符编码在第一索引表中查找对应每个字符的字形索引之前，查找所述原始字体文件中的注册表，所述注册表为所述原始字体文件中包含的所有表的索引；

索引表查找单元，用于根据所述注册表查找所述第一索引表以及字形数据表。

9.根据权利要求6所述的装置，其特征在于，所述获取单元，包括：

提取模块，用于从所述网页对应的超文本标记语言HTML文件中提取文本；

获取模块，用于获取直接从外部输入的文本。

10.根据权利要求6所述的装置，其特征在于，所述提取模块用于：

根据所述选择器提取对应HTML元素中的文本。