CN108197087B

CN108197087B - 字符编码识别方法及装置

Info

Publication number: CN108197087B
Application number: CN201810050150.1A
Authority: CN
Inventors: 王占一
Original assignee: Qianxin Technology Group Co Ltd
Current assignee: Qianxin Technology Group Co Ltd
Priority date: 2018-01-18
Filing date: 2018-01-18
Publication date: 2021-11-16
Anticipated expiration: 2038-01-18
Also published as: CN108197087A

Abstract

本发明提供一种字符编码识别方法及装置，该方法包括：获取待识别文本；根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。本发明实施例提供一种字符编码识别方法及装置，通过对获取到的待识别文本，根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合待识别文本的编码方式，然后进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

Description

字符编码识别方法及装置

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种字符编码识别方法及装置。

背景技术

在计算机信息技术领域，字符编码是一项基本技术。字符编码也称字集码，是把字符集中的字符编码为指定集合中某一对象，以便文本在计算机中存储和通过通信网络的传递。计算机中储存的信息都是用二进制数表示的，而要想让用户看得懂，必须按照某一字符集通过字符编码的方式进行转换。常见的编码方式主要有UTF-8、GB2312、GBK、BIG5等。通常，不同语种有其相对应的适用编码，如ISO-8859-1主要用于表示拉丁字符，GBK、GB2312常用于简体中文，而BIG5常用于繁体中文。

在计算机存储和展示信息时，由于信息缺失或被修改有时无法获取正确的编码方式，导致无法正常应用。因此，识别字符编码的方法和***非常重要。常用的识别方法有三种：(1)根据编码范围确定，每种编码有自己的使用范围，但当存在大量的编码重合点时这种方法将会失效。(2)使用特征匹配，用词典中的关键词或人工定义的特征去匹配当前信息，一旦匹配成功即可确定。但如果匹配不成功则无法确定。(3)字符分布法，事先建立字符的概率模型，根据模型计算当前字符分布的概率来判断归属情况。这种方法对于有特定词语使用习惯、篇幅过短的编码信息效果有限。

发明内容

本发明实施例提供一种字符编码识别方法及装置，用于解决现有技术中编码方式依赖人工设定，灵活性差的问题。

第一方面，本发明实施例提供一种字符编码识别方法，包括：

获取待识别文本；

根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；

根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

可选地，所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，包括：

将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值；

根据所述符合概率值确定符合所述待识别文本的编码方式。

从所述待识别文本中选取多个文本段；

将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值，根据所述符合概率值确定符合各个文本段的编码方式；

根据各个文本段的编码方式确定所述待识别文本的编码方式。

可选地，根据所述符合概率值确定符合所述待识别文本的编码方式，包括：根据所述符合概率值中选取最大概率值；将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。

第二方面，本发明实施例提供一种字符编码识别装置，包括：

获取模块，用于获取待识别文本；

处理模块，用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；

解码模块，用于根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

可选地，所述处理模块具体用于：

根据所述符合概率值确定符合所述待识别文本的编码方式。

可选地，所述处理模块具体用于：

从所述待识别文本中选取多个文本段；

可选地，所述处理模块包括计算单元和确定单元，其中：

计算单元，用于将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值；

确定单元，用于根据所述符合概率值中选取最大概率值，将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。

第三方面，本发明实施例提供一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

其中，所述处理器，存储器通过所述总线完成相互间的通信；

所述处理器执行所述计算机程序时实现如上述的方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述的方法。

由上述技术方案可知，本发明实施例提供一种字符编码识别方法及装置，通过对获取到的待识别文本，根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合待识别文本的编码方式，然后进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

附图说明

图1为本发明一实施例提供的字符编码识别方法的流程示意图；

图2为本发明一实施例提供的一种学习结构框架图；

图3为本发明一实施例提供的字符编码识别装置的结构示意图；

图4为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1示出了本发明一实施例提供一种字符编码识别方法，包括：

S11、获取待识别文本；

S12、根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；

S13、根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

针对上述步骤S11-步骤S13，需要说明的是，在本发明实施例中，数据采用某种编码方式进行编码后会生成一定的序列文本。

例如，“计算机技术快速发展”按UTF-8编码，用16进制表示为：e8aea1e7ae97e69cbae68a80e69cafe5bfabe9809fe58f91e5b195；按GBK编码，用16进制表示为：bcc6cbe3bbfabcbccaf5bfeccbd9b7a2d5b9。这里序列长度限制为不超过L个字符(L可灵活设置，如128)。

在本发明实施例中，还需要说明的是，可通过深度学习训练得到编码方式识别模型，具体可为：

将十万甚至数十万的序列数据进行深度学习反复迭代，直到训练误差和真实率达到可接受的程度。模型可采用LSTM(时间递归神经网络)、Text-CNN(Convolutional NeuralNetworks for Sentence Classification)等深度学习结构。

如图2所示为本发明实施例提供的一种学习结构框架图。

(1)由input_1的输入层开始，接embedding_1的嵌入层(也叫表示层)，嵌入层的参数值由模型自动学习得到。

在读入序列后，为便于计算，首先将每个16进制码转换为一个正整数的索引号。建立映射表，如下表所示：

预留	a	b	c	d	e	f	0	1	2	3	4	5	6	7	8	9
																	0	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16

如abc123转换为：1，2，3，8，9，10。这些索引号的序列作为输入层数据，可以被模型中的嵌入层所接收。长度不足L的部分补0。

嵌入层接收到索引号的序列后，将其转换为可进行卷积等操作的矩阵形式，就是将序列的每个索引号初始化为向量。常用的转换方式有随机法、one-hot法(独热法)、基于word2vec的词嵌入法等，这里以one-hot法为例。其基本思路是某字符对应的向量里只有一位为1，其他均为0。例如abc123转换为：

(2)嵌入层之后接3个不同大小卷积核的一维卷积层conv1d_1、conv1d_2、conv1d_3，三个卷积层为并行关系。卷积层参数与模型自动学习得到。

(3)上述3个结果聚合在一起，即聚合层concatenate_1。

(4)经平铺层flatten_1处理后，接约束层dropout_1和全连接层dense_1，连接到代表各种编码方式的多个结点。经过多轮迭代，输出的损失函数值(即预测值与真实值的差别度量值)逐渐下降，直至达到可以接受的极小值。同时，可以用验证集的准确率来检验模型效果。

当模型达到满意效果后，保存模型结构和权重数值，供***使用。

对于采用深度学习得到编码方式识别模型，是较成熟的技术。

在本发明实施例中，***根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，具体可包括：

11)将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值；

12)根据所述符合概率值确定符合所述待识别文本的编码方式。

针对步骤11)和步骤12)，需要说明的是，将待识别文本发送到所述编码方式识别模型中，其处理方式与训练深度学习过程相同，也是要先处理成索引号的序列，如转换前的待识别文本的序列为c4a7cadecad7d0…，则根据映射表可转换为：3，11，1，14，3，1，4，5，3，1，4，14，4，7……。然后根据保存的权重数值作为嵌入层、卷积层的参数，进而通过运算得到待识别文本在各编码方式的概率值。根据所述符合概率值中选取最大概率值，将最大概率值对应的编码方式作为符合所述待识别文本的编码方式。

如UTF-8:0.01，GBK：0.98，Latin1:0.01，因0.98最大，故取GBK为预测的编码方式。

本发明实施例提供一种字符编码识别方法，通过对获取到的待识别文本，根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合待识别文本的编码方式，然后进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

本发明一实施例提供一种字符编码识别方法，包括：

S21、获取待识别文本；

S22、根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；

S23、根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

针对上述步骤S21-步骤S23，需要说明的是，在本发明实施例中，数据采用某种编码方式进行编码后会生成一定的序列文本。

***根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，具体可包括：

21)从所述待识别文本中选取多个文本段；

22)将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值，根据所述符合概率值确定符合各个文本段的编码方式；

23)根据各个文本段的编码方式确定所述待识别文本的编码方式。

针对步骤11)和步骤12)，需要说明的是，将待识别文本发送到所述编码方式识别模型中，从所述待识别文本中选取多个文本段。每个文本段的处理方式与训练深度学习过程相同，也是要先处理成索引号的序列，如转换前的待识别文本的序列为c4a7cadecad7d0…，则根据映射表可转换为：3，11，1，14，3，1，4，5，3，1，4，14，4，7……。

然后根据保存的权重数值作为嵌入层、卷积层的参数，进而通过运算得到各个文本段在各编码方式的符合概率值。根据所述符合概率值中选取最大概率值，将最大概率值对应的编码方式作为符合所述各个文本段的编码方式。然后将出现的最多的编码方式作为所述待识别文本的编码方式。

本发明实施例提供一种字符编码识别方法，通过对获取到的待识别文本选取多个文本段，根据各个文本段和编码方式识别模型获得各个文本段对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合各个文本段的编码方式，然后确定待识别文本的编码方式，进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

图3示出了本发明一实施例提供的一种字符编码识别装置，包括获取模块31、处理模块32和解码模块33，其中：

获取模块31，用于获取待识别文本；

处理模块32，用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；

解码模块33，用于根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

所述处理模块具体用于：

根据所述符合概率值确定符合所述待识别文本的编码方式。

所述处理模块包括计算单元和确定单元，其中：

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

需要说明的是，本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

本发明实施例提供一种字符编码识别装置，通过对获取到的待识别文本，根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合待识别文本的编码方式，然后进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

本发明一实施例提供的一种字符编码识别装置，包括获取模块、处理模块和解码模块，其中：

获取模块，用于获取待识别文本；

所述处理模块具体用于：

从所述待识别文本中选取多个文本段；

本发明实施例提供一种字符编码识别装置，通过对获取到的待识别文本选取多个文本段，根据各个文本段和编码方式识别模型获得各个文本段对应于预设的各个编码方式的符合概率值，从符合概率值中确定符合各个文本段的编码方式，然后确定待识别文本的编码方式，进行解码获得解码结果，从而达到无需人为设定编码方式及匹配编码方式所需的特征序列，减少了工作量，灵活性强。

图4示出了本发明一实施例提供的一种电子设备，包括：处理器401、存储器402、总线403及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如上述的方法，例如包括：获取待识别文本；根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述的方法，例如包括：获取待识别文本；根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式；根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种字符编码识别方法，其特征在于，包括：

获取待识别文本；

根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，所述编码方式识别模型通过深度学习训练得到；

根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果；

其中，所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，包括：

从所述待识别文本中选取多个文本段；

根据所述各个文本段的编码方式出现的次数确定所述待识别文本的编码方式；

其中，所述编码方式识别模型中通过全连接层连接到各个编码方式的多个节点，获得各个编码方式的符合概率值。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，包括：

根据所述符合概率值确定符合所述待识别文本的编码方式。

3.根据权利要求2所述的方法，其特征在于，根据所述符合概率值确定符合所述待识别文本的编码方式，包括：根据所述符合概率值中选取最大概率值；将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。

4.一种字符编码识别装置，其特征在于，包括：

获取模块，用于获取待识别文本；

处理模块，用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式，所述编码方式识别模型通过深度学习训练得到；

解码模块，用于根据获得的所述编码方式对所述待识别文件进行解码，获得解码结果；

其中，所述处理模块具体用于：

从所述待识别文本中选取多个文本段；

5.根据权利要求4所述的装置，其特征在于，所述处理模块具体用于：

根据所述符合概率值确定符合所述待识别文本的编码方式。

6.根据权利要求5所述的装置，其特征在于，所述处理模块包括计算单元和确定单元，其中：

7.一种电子设备，其特征在于，包括：处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法。