CN104391993A - 一种识别网页编码方法及*** - Google Patents

一种识别网页编码方法及*** Download PDF

Info

Publication number
CN104391993A
CN104391993A CN201410776424.7A CN201410776424A CN104391993A CN 104391993 A CN104391993 A CN 104391993A CN 201410776424 A CN201410776424 A CN 201410776424A CN 104391993 A CN104391993 A CN 104391993A
Authority
CN
China
Prior art keywords
character
byte value
text
compared
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410776424.7A
Other languages
English (en)
Inventor
高滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410776424.7A priority Critical patent/CN104391993A/zh
Publication of CN104391993A publication Critical patent/CN104391993A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种识别网页编码方法及***,上述方法包括以下步骤:读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;获取字符编码集合中待比较字符编码格式的文本中的各个字节值;将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。相较于先前技术,根据本发明提供的一种识别网页编码方法及***,可以准确、快速识别网页目标文件的编码方式。

Description

一种识别网页编码方法及***
技术领域
本发明属于编码识别领域,尤其涉及一种识别网页编码方法及***。
背景技术
字符编码定义,计算机中的信息包括数据信息和控制信息,数据信息又可分为数值和非数值信息。非数值信息和控制信息包括了字母、各种控制符号、图形符号等,它们都以二进制编码方式存入计算机并得以处理,这种对字母和符号进行编码的二进制代码称为字符代码(Character Code)。
常见的网页编码有ANSI、GBK、GB2312、UTF-8、GB18030和UNICODE;ASCII码的提出,有效的解决了西文文字的信息化问题,但对于汉字字符却完全不适用。为了满足国内在计算机中使用汉字的需要,中国国家标准总局发布了一系列的汉字字符集国家标准编码,统称为GB码,或国标码。汉字编码中现在主要用到的有三类,包括GB2312,GBK和Big5。
一般获取网页编码的方式,可以通过读取页面的meta标签,或是从服务器端返回的response响应消息中携带的编码头信息中获得页面编码,而当meta标签中输入错误编码标识,或服务器端的编码头信息中编码信息错误时,如果用户在对页面按照此编码信息进一步加工时,就会出现乱码现象。
发明内容
本发明提供一种识别网页编码方法及***,以解决上述问题。
本发明提供一种识别网页编码方法,包括以下步骤:
读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
获取字符编码集合中待比较字符编码格式的文本中的各个字节值;
将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
本发明还提供一种识别网页编码***,包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块;其中,所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连;
所述字符字节值获取模块,用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块;
所述文本字节值获取模块,用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块;
所述目标编码格式确定模块,用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
相较于先前技术,根据本发明提供的一种识别网页编码方法及***,可以准确、快速识别网页目标文件的编码方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的识别网页编码方法处理流程图;
图2所示为本发明实施例2的识别网页编码***结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的识别网页编码方法处理流程图,包括以下步骤:
步骤101:读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。
若第一预设数目为3,则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。
其中,所述3个字符可以是字符流中前3个字符,也可以是中间3个字符或者是最后3个字符。
将所述网页目标文件划分为第二预设数目段数,按照每一段目标文件所对应读取比例,读取字符流并获取所述字符流中各个字符对应的字节值。
例如:第二预设数目为3。
例如:将所述网页目标文件划分为3段(也即3部分),第1段目标文件所对应的读取比例为20%,第2段目标文件所对应的读取比例为50%,第3段目标文件所对应的读取比例为20%。
也可以在上述3段中,每段目标文件所对应的读取比例相同,例如:读取比例均设为20%。
其中,划分的每一段所包含的字符数可以相等,也可以不相等。
其中,所述第一预设数目、所述第二预设数目根据实际情况进行灵活设定,在此不用于限定本发明的保护范围。
步骤102:获取字符编码集合中待比较字符编码格式的文本中的各个字节值;
所述待比较字符编码格式包括:UTF-8编码格式、GBK编码格式、GB2312编码格式、iso8859-1编码格式。
获取字符编码集合中待比较字符编码格式的文本中的第一预设数目字节对应的字节值。
若第一预设数目为3,待比较字符编码格式为UTF-8编码格式,则获取UTF-8编码格式的文本中的3个字节对应的字节值。
若所述3个字节为前3个字节,则字节值分别为-17、-69、-65。
步骤103:将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较,获取比较结果;
例如:将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较。
步骤104:根据所述比较结果,确定目标编码格式。
若比较结果为相等,则确定所述待比较字符编码格式为目标编码格式。
例如:将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较,若比较结果为相等,则确定UTF-8编码格式为目标编码格式。
图2所示为本发明实施例2的识别网页编码***结构图,包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块;其中,所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连;
所述字符字节值获取模块,用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块;
所述文本字节值获取模块,用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块;
所述目标编码格式确定模块,用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
相较于先前技术,根据本发明提供的一种识别网页编码方法及***,可以准确、快速识别网页目标文件的编码方式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种识别网页编码方法,其特征在于,包括以下步骤:
读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值;
获取字符编码集合中待比较字符编码格式的文本中的各个字节值;
将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
2.根据权利要求1所述的方法,其特征在于,将所述网页目标文件划分为第二预设数目段数,按照每一段目标文件所对应读取比例,读取字符流并获取所述字符流中各个字符对应的字节值。
3.根据权利要求1所述的方法,其特征在于,读取网页目标文件的字符流并获取所述字符流中第一预设数目字符中的各个字符对应的字节值。
4.根据权利要求3所述的方法,其特征在于,若第一预设数目为3,则读取网页目标文件的字符流并获取3个字符中的各个字符对应的字节值。
5.根据权利要求4所述的方法,其特征在于,所述3个字符是指字符流中前3个字符、中间3个字符或者最后3个字符。
6.根据权利要求5所述的方法,其特征在于,获取字符编码集合中待比较字符编码格式的文本中的第一预设数目字节对应的字节值。
7.根据权利要求6所述的方法,其特征在于,若第一预设数目为3,待比较字符编码格式为UTF-8编码格式,则获取UTF-8编码格式的文本中的3个字节对应的字节值。
8.根据权利要求7所述的方法,其特征在于,所述3个字节为前3个字节。
9.根据权利要求8所述的方法,其特征在于,若所述3个字符是指字符流中前3个字符,则将读取的网页目标文件中的前3个字符对应的字节值分别与UTF-8编码格式的文本中的前3个字节对应的字节值进行比较;
若比较结果为相等,则确定所述待比较字符编码格式为目标编码格式。
10.一种识别网页编码***,其特征在于,包括字符字节值获取模块、文本字节值获取模块、目标编码格式确定模块;其中,所述字符字节值获取模块、所述文本字节值获取模块分别与所述目标编码格式确定模块相连;
所述字符字节值获取模块,用于读取网页目标文件的字符流并获取所述字符流中各个字符对应的字节值并将所述字符流中各个字符对应的字节值发送至所述目标编码格式确定模块;
所述文本字节值获取模块,用于获取字符编码集合中待比较字符编码格式的文本中的各个字节值并将所述待比较字符编码格式的文本中的各个字节值发送至所述目标编码格式确定模块;
所述目标编码格式确定模块,用于将读取的网页目标文件的字符流中各个字符对应的字节值分别与所述待比较字符编码格式的文本中的各个字节值进行比较并根据比较结果,确定目标编码格式。
CN201410776424.7A 2014-12-15 2014-12-15 一种识别网页编码方法及*** Pending CN104391993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410776424.7A CN104391993A (zh) 2014-12-15 2014-12-15 一种识别网页编码方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410776424.7A CN104391993A (zh) 2014-12-15 2014-12-15 一种识别网页编码方法及***

Publications (1)

Publication Number Publication Date
CN104391993A true CN104391993A (zh) 2015-03-04

Family

ID=52609897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410776424.7A Pending CN104391993A (zh) 2014-12-15 2014-12-15 一种识别网页编码方法及***

Country Status (1)

Country Link
CN (1) CN104391993A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468724A (zh) * 2015-11-20 2016-04-06 上海斐讯数据通信技术有限公司 数据流编码的预测方法及预测装置
CN106453869A (zh) * 2016-09-28 2017-02-22 努比亚技术有限公司 一种音乐附加信息的乱码校正方法及移动终端
CN110020343A (zh) * 2017-09-01 2019-07-16 北京国双科技有限公司 网页编码格式的确定方法和装置
CN111651406A (zh) * 2020-05-21 2020-09-11 杭州明讯软件技术有限公司 一种自动化载波调度***文件读取方法及装置
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质
CN113836869A (zh) * 2021-09-22 2021-12-24 中国农业银行股份有限公司 对混杂多编码字符文本进行统一编码转换的方法及装置
CN114024651A (zh) * 2020-07-16 2022-02-08 深信服科技股份有限公司 一种编码类型识别方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526963A (zh) * 2009-04-17 2009-09-09 深圳华为通信技术有限公司 网页编码识别方法、装置和终端设备
CN103548022A (zh) * 2011-03-28 2014-01-29 思杰***有限公司 Utf-8模式匹配***和方法
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101526963A (zh) * 2009-04-17 2009-09-09 深圳华为通信技术有限公司 网页编码识别方法、装置和终端设备
CN103548022A (zh) * 2011-03-28 2014-01-29 思杰***有限公司 Utf-8模式匹配***和方法
CN103970913A (zh) * 2014-05-28 2014-08-06 广州视源电子科技股份有限公司 Utf-8与ansi编码识别方法以及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468724A (zh) * 2015-11-20 2016-04-06 上海斐讯数据通信技术有限公司 数据流编码的预测方法及预测装置
CN106453869A (zh) * 2016-09-28 2017-02-22 努比亚技术有限公司 一种音乐附加信息的乱码校正方法及移动终端
CN110020343A (zh) * 2017-09-01 2019-07-16 北京国双科技有限公司 网页编码格式的确定方法和装置
CN110020343B (zh) * 2017-09-01 2021-03-30 北京国双科技有限公司 网页编码格式的确定方法和装置
CN111651406A (zh) * 2020-05-21 2020-09-11 杭州明讯软件技术有限公司 一种自动化载波调度***文件读取方法及装置
CN111651406B (zh) * 2020-05-21 2023-07-25 杭州明讯软件技术有限公司 一种自动化载波调度***文件读取方法及装置
CN114024651A (zh) * 2020-07-16 2022-02-08 深信服科技股份有限公司 一种编码类型识别方法、装置、设备及可读存储介质
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质
CN113836869A (zh) * 2021-09-22 2021-12-24 中国农业银行股份有限公司 对混杂多编码字符文本进行统一编码转换的方法及装置
CN113836869B (zh) * 2021-09-22 2023-12-08 中国农业银行股份有限公司 对混杂多编码字符文本进行统一编码转换的方法及装置

Similar Documents

Publication Publication Date Title
CN104391993A (zh) 一种识别网页编码方法及***
CN104750666B (zh) 一种文本字符编码方式的识别方法及***
CN104732228A (zh) 一种pdf文档乱码的检测、校正的方法
CN102567293B (zh) 文本文件的编码格式探测方法和装置
CN101526963A (zh) 网页编码识别方法、装置和终端设备
US10366143B2 (en) Method and system for selecting encoding format for reading target document
CN106227808B (zh) 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN104994128A (zh) 一种数据编码类型识别及转码方法和装置
US20210019366A1 (en) Text Extraction Heuristics
CN112200286B (zh) 字符串编码的方法和装置
US9798721B2 (en) Innovative method for text encodation in quick response code
CN106997335B (zh) 相同字符串的判定方法及装置
CN103970913B (zh) Utf‑8与ansi编码识别方法以及装置
CN108038093A (zh) Pdf文字提取方法和装置
CN104750663A (zh) 页面中文本乱码的识别方法及装置
CN101013420A (zh) 一种识别中文文本编码形式的方法
CN112949290B (zh) 文本纠错方法、装置及通信设备
CN104360988A (zh) 中文字符的编码方式的识别方法和装置
CN104331399A (zh) 字典树翻译方法
US8271263B2 (en) Multi-language text fragment transcoding and featurization
TW201407385A (zh) 於嵌入式設備處理字串的方法
CN106777061B (zh) 基于网页文本和图像的信息隐藏***、方法及提取方法
US20180247047A1 (en) Determining whether continuous byte data of inputted data includes credential
CN113434672A (zh) 文本类型智能识别方法、装置、设备及介质
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304

WD01 Invention patent application deemed withdrawn after publication