CN104391993A

CN104391993A - 一种识别网页编码方法及***

Info

Publication number: CN104391993A
Application number: CN201410776424.7A
Authority: CN
Inventors: 高滨
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2015-03-04

Abstract

本发明提供一种识别网页编码方法及***，上述方法包括以下步骤：读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值；获取字符编码集合中待比较字符编码格式的文本中的各个字节值；将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果，确定目标编码格式。相较于先前技术，根据本发明提供的一种识别网页编码方法及***，可以准确、快速识别网页目标文件的编码方式。

Description

一种识别网页编码方法及***

技术领域

本发明属于编码识别领域，尤其涉及一种识别网页编码方法及***。

背景技术

字符编码定义，计算机中的信息包括数据信息和控制信息，数据信息又可分为数值和非数值信息。非数值信息和控制信息包括了字母、各种控制符号、图形符号等，它们都以二进制编码方式存入计算机并得以处理，这种对字母和符号进行编码的二进制代码称为字符代码(Character Code)。

常见的网页编码有ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE；ASCII码的提出，有效的解决了西文文字的信息化问题，但对于汉字字符却完全不适用。为了满足国内在计算机中使用汉字的需要，中国国家标准总局发布了一系列的汉字字符集国家标准编码，统称为GB码，或国标码。汉字编码中现在主要用到的有三类，包括GB2312，GBK和Big5。

一般获取网页编码的方式，可以通过读取页面的meta标签，或是从服务器端返回的response响应消息中携带的编码头信息中获得页面编码，而当meta标签中输入错误编码标识，或服务器端的编码头信息中编码信息错误时，如果用户在对页面按照此编码信息进一步加工时，就会出现乱码现象。

发明内容

本发明提供一种识别网页编码方法及***，以解决上述问题。

本发明提供一种识别网页编码方法，包括以下步骤：

读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值；

获取字符编码集合中待比较字符编码格式的文本中的各个字节值；

将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果，确定目标编码格式。

本发明还提供一种识别网页编码***，包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块；其中，所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连；

所述字符字节值获取模块，用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块；

所述文本字节值获取模块，用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块；

所述目标编码格式确定模块，用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果，确定目标编码格式。

相较于先前技术，根据本发明提供的一种识别网页编码方法及***，可以准确、快速识别网页目标文件的编码方式。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1所示为本发明实施例1的识别网页编码方法处理流程图；

图2所示为本发明实施例2的识别网页编码***结构图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1所示为本发明实施例1的识别网页编码方法处理流程图，包括以下步骤：

步骤101：读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值；

读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。

若第一预设数目为3，则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。

其中，所述3个字符可以是字符流中前3个字符，也可以是中间3个字符或者是最后3个字符。

将所述网页目标文件划分为第二预设数目段数，按照每一段目标文件所对应读取比例，读取字符流并获取所述字符流中各个字符对应的字节值。

例如：第二预设数目为3。

例如：将所述网页目标文件划分为3段(也即3部分)，第1段目标文件所对应的读取比例为20％，第2段目标文件所对应的读取比例为50％，第3段目标文件所对应的读取比例为20％。

也可以在上述3段中，每段目标文件所对应的读取比例相同，例如：读取比例均设为20％。

其中，划分的每一段所包含的字符数可以相等，也可以不相等。

其中，所述第一预设数目、所述第二预设数目根据实际情况进行灵活设定，在此不用于限定本发明的保护范围。

步骤102：获取字符编码集合中待比较字符编码格式的文本中的各个字节值；

所述待比较字符编码格式包括：UTF-8编码格式、GBK编码格式、GB2312编码格式、iso8859-1编码格式。

获取字符编码集合中待比较字符编码格式的文本中的第一预设数目字节对应的字节值。

若第一预设数目为3，待比较字符编码格式为UTF-8编码格式，则获取UTF-8编码格式的文本中的3个字节对应的字节值。

若所述3个字节为前3个字节，则字节值分别为-17、-69、-65。

步骤103：将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较，获取比较结果；

例如：将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较。

步骤104：根据所述比较结果，确定目标编码格式。

若比较结果为相等，则确定所述待比较字符编码格式为目标编码格式。

例如：将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较，若比较结果为相等，则确定UTF-8编码格式为目标编码格式。

图2所示为本发明实施例2的识别网页编码***结构图，包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块；其中，所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种识别网页编码方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，将所述网页目标文件划分为第二预设数目段数，按照每一段目标文件所对应读取比例，读取字符流并获取所述字符流中各个字符对应的字节值。

3.根据权利要求1所述的方法，其特征在于，读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。

4.根据权利要求3所述的方法，其特征在于，若第一预设数目为3，则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。

5.根据权利要求4所述的方法，其特征在于，所述3个字符是指字符流中前3个字符、中间3个字符或者最后3个字符。

6.根据权利要求5所述的方法，其特征在于，获取字符编码集合中待比较字符编码格式的文本中的第一预设数目字节对应的字节值。

7.根据权利要求6所述的方法，其特征在于，若第一预设数目为3，待比较字符编码格式为UTF-8编码格式，则获取UTF-8编码格式的文本中的3个字节对应的字节值。

8.根据权利要求7所述的方法，其特征在于，所述3个字节为前3个字节。

9.根据权利要求8所述的方法，其特征在于，若所述3个字符是指字符流中前3个字符，则将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较；

10.一种识别网页编码***，其特征在于，包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块；其中，所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连；