CN108197087B - 字符编码识别方法及装置 - Google Patents

字符编码识别方法及装置 Download PDF

Info

Publication number
CN108197087B
CN108197087B CN201810050150.1A CN201810050150A CN108197087B CN 108197087 B CN108197087 B CN 108197087B CN 201810050150 A CN201810050150 A CN 201810050150A CN 108197087 B CN108197087 B CN 108197087B
Authority
CN
China
Prior art keywords
text
coding mode
recognized
probability value
conforming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810050150.1A
Other languages
English (en)
Other versions
CN108197087A (zh
Inventor
王占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN201810050150.1A priority Critical patent/CN108197087B/zh
Publication of CN108197087A publication Critical patent/CN108197087A/zh
Application granted granted Critical
Publication of CN108197087B publication Critical patent/CN108197087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种字符编码识别方法及装置,该方法包括:获取待识别文本;根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。本发明实施例提供一种字符编码识别方法及装置,通过对获取到的待识别文本,根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合待识别文本的编码方式,然后进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。

Description

字符编码识别方法及装置
技术领域
本发明实施例涉及信息处理技术领域,尤其涉及一种字符编码识别方法及装置。
背景技术
在计算机信息技术领域,字符编码是一项基本技术。字符编码也称字集码,是把字符集中的字符编码为指定集合中某一对象,以便文本在计算机中存储和通过通信网络的传递。计算机中储存的信息都是用二进制数表示的,而要想让用户看得懂,必须按照某一字符集通过字符编码的方式进行转换。常见的编码方式主要有UTF-8、GB2312、GBK、BIG5等。通常,不同语种有其相对应的适用编码,如ISO-8859-1主要用于表示拉丁字符,GBK、GB2312常用于简体中文,而BIG5常用于繁体中文。
在计算机存储和展示信息时,由于信息缺失或被修改有时无法获取正确的编码方式,导致无法正常应用。因此,识别字符编码的方法和***非常重要。常用的识别方法有三种:(1)根据编码范围确定,每种编码有自己的使用范围,但当存在大量的编码重合点时这种方法将会失效。(2)使用特征匹配,用词典中的关键词或人工定义的特征去匹配当前信息,一旦匹配成功即可确定。但如果匹配不成功则无法确定。(3)字符分布法,事先建立字符的概率模型,根据模型计算当前字符分布的概率来判断归属情况。这种方法对于有特定词语使用习惯、篇幅过短的编码信息效果有限。
发明内容
本发明实施例提供一种字符编码识别方法及装置,用于解决现有技术中编码方式依赖人工设定,灵活性差的问题。
第一方面,本发明实施例提供一种字符编码识别方法,包括:
获取待识别文本;
根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
可选地,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
可选地,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据各个文本段的编码方式确定所述待识别文本的编码方式。
可选地,根据所述符合概率值确定符合所述待识别文本的编码方式,包括:根据所述符合概率值中选取最大概率值;将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
第二方面,本发明实施例提供一种字符编码识别装置,包括:
获取模块,用于获取待识别文本;
处理模块,用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
解码模块,用于根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
可选地,所述处理模块具体用于:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
可选地,所述处理模块具体用于:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据各个文本段的编码方式确定所述待识别文本的编码方式。
可选地,所述处理模块包括计算单元和确定单元,其中:
计算单元,用于将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
确定单元,用于根据所述符合概率值中选取最大概率值,将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
第三方面,本发明实施例提供一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如上述的方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述的方法。
由上述技术方案可知,本发明实施例提供一种字符编码识别方法及装置,通过对获取到的待识别文本,根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合待识别文本的编码方式,然后进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
附图说明
图1为本发明一实施例提供的字符编码识别方法的流程示意图;
图2为本发明一实施例提供的一种学习结构框架图;
图3为本发明一实施例提供的字符编码识别装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明一实施例提供一种字符编码识别方法,包括:
S11、获取待识别文本;
S12、根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
S13、根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
针对上述步骤S11-步骤S13,需要说明的是,在本发明实施例中,数据采用某种编码方式进行编码后会生成一定的序列文本。
例如,“计算机技术快速发展”按UTF-8编码,用16进制表示为:e8aea1e7ae97e69cbae68a80e69cafe5bfabe9809fe58f91e5b195;按GBK编码,用16进制表示为:bcc6cbe3bbfabcbccaf5bfeccbd9b7a2d5b9。这里序列长度限制为不超过L个字符(L可灵活设置,如128)。
在本发明实施例中,还需要说明的是,可通过深度学习训练得到编码方式识别模型,具体可为:
将十万甚至数十万的序列数据进行深度学习反复迭代,直到训练误差和真实率达到可接受的程度。模型可采用LSTM(时间递归神经网络)、Text-CNN(Convolutional NeuralNetworks for Sentence Classification)等深度学习结构。
如图2所示为本发明实施例提供的一种学习结构框架图。
(1)由input_1的输入层开始,接embedding_1的嵌入层(也叫表示层),嵌入层的参数值由模型自动学习得到。
在读入序列后,为便于计算,首先将每个16进制码转换为一个正整数的索引号。建立映射表,如下表所示:
预留 a b c d e f 0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
如abc123转换为:1,2,3,8,9,10。这些索引号的序列作为输入层数据,可以被模型中的嵌入层所接收。长度不足L的部分补0。
嵌入层接收到索引号的序列后,将其转换为可进行卷积等操作的矩阵形式,就是将序列的每个索引号初始化为向量。常用的转换方式有随机法、one-hot法(独热法)、基于word2vec的词嵌入法等,这里以one-hot法为例。其基本思路是某字符对应的向量里只有一位为1,其他均为0。例如abc123转换为:
Figure BDA0001552125760000051
(2)嵌入层之后接3个不同大小卷积核的一维卷积层conv1d_1、conv1d_2、conv1d_3,三个卷积层为并行关系。卷积层参数与模型自动学习得到。
(3)上述3个结果聚合在一起,即聚合层concatenate_1。
(4)经平铺层flatten_1处理后,接约束层dropout_1和全连接层dense_1,连接到代表各种编码方式的多个结点。经过多轮迭代,输出的损失函数值(即预测值与真实值的差别度量值)逐渐下降,直至达到可以接受的极小值。同时,可以用验证集的准确率来检验模型效果。
当模型达到满意效果后,保存模型结构和权重数值,供***使用。
对于采用深度学习得到编码方式识别模型,是较成熟的技术。
在本发明实施例中,***根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,具体可包括:
11)将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
12)根据所述符合概率值确定符合所述待识别文本的编码方式。
针对步骤11)和步骤12),需要说明的是,将待识别文本发送到所述编码方式识别模型中,其处理方式与训练深度学习过程相同,也是要先处理成索引号的序列,如转换前的待识别文本的序列为c4a7cadecad7d0…,则根据映射表可转换为:3,11,1,14,3,1,4,5,3,1,4,14,4,7……。然后根据保存的权重数值作为嵌入层、卷积层的参数,进而通过运算得到待识别文本在各编码方式的概率值。根据所述符合概率值中选取最大概率值,将最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
如UTF-8:0.01,GBK:0.98,Latin1:0.01,因0.98最大,故取GBK为预测的编码方式。
根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
本发明实施例提供一种字符编码识别方法,通过对获取到的待识别文本,根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合待识别文本的编码方式,然后进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
本发明一实施例提供一种字符编码识别方法,包括:
S21、获取待识别文本;
S22、根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
S23、根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
针对上述步骤S21-步骤S23,需要说明的是,在本发明实施例中,数据采用某种编码方式进行编码后会生成一定的序列文本。
***根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,具体可包括:
21)从所述待识别文本中选取多个文本段;
22)将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
23)根据各个文本段的编码方式确定所述待识别文本的编码方式。
针对步骤11)和步骤12),需要说明的是,将待识别文本发送到所述编码方式识别模型中,从所述待识别文本中选取多个文本段。每个文本段的处理方式与训练深度学习过程相同,也是要先处理成索引号的序列,如转换前的待识别文本的序列为c4a7cadecad7d0…,则根据映射表可转换为:3,11,1,14,3,1,4,5,3,1,4,14,4,7……。
然后根据保存的权重数值作为嵌入层、卷积层的参数,进而通过运算得到各个文本段在各编码方式的符合概率值。根据所述符合概率值中选取最大概率值,将最大概率值对应的编码方式作为符合所述各个文本段的编码方式。然后将出现的最多的编码方式作为所述待识别文本的编码方式。
根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
本发明实施例提供一种字符编码识别方法,通过对获取到的待识别文本选取多个文本段,根据各个文本段和编码方式识别模型获得各个文本段对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合各个文本段的编码方式,然后确定待识别文本的编码方式,进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
图3示出了本发明一实施例提供的一种字符编码识别装置,包括获取模块31、处理模块32和解码模块33,其中:
获取模块31,用于获取待识别文本;
处理模块32,用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
解码模块33,用于根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
所述处理模块具体用于:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
所述处理模块包括计算单元和确定单元,其中:
计算单元,用于将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
确定单元,用于根据所述符合概率值中选取最大概率值,将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明实施例提供一种字符编码识别装置,通过对获取到的待识别文本,根据待识别文本和编码方式识别模型获得待识别文本对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合待识别文本的编码方式,然后进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
本发明一实施例提供的一种字符编码识别装置,包括获取模块、处理模块和解码模块,其中:
获取模块,用于获取待识别文本;
处理模块,用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;
解码模块,用于根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
所述处理模块具体用于:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据各个文本段的编码方式确定所述待识别文本的编码方式。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明实施例提供一种字符编码识别装置,通过对获取到的待识别文本选取多个文本段,根据各个文本段和编码方式识别模型获得各个文本段对应于预设的各个编码方式的符合概率值,从符合概率值中确定符合各个文本段的编码方式,然后确定待识别文本的编码方式,进行解码获得解码结果,从而达到无需人为设定编码方式及匹配编码方式所需的特征序列,减少了工作量,灵活性强。
图4示出了本发明一实施例提供的一种电子设备,包括:处理器401、存储器402、总线403及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如上述的方法,例如包括:获取待识别文本;根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述的方法,例如包括:获取待识别文本;根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式;根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (8)

1.一种字符编码识别方法,其特征在于,包括:
获取待识别文本;
根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,所述编码方式识别模型通过深度学习训练得到;
根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果;
其中,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据所述各个文本段的编码方式出现的次数确定所述待识别文本的编码方式;
其中,所述编码方式识别模型中通过全连接层连接到各个编码方式的多个节点,获得各个编码方式的符合概率值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,包括:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
3.根据权利要求2所述的方法,其特征在于,根据所述符合概率值确定符合所述待识别文本的编码方式,包括:根据所述符合概率值中选取最大概率值;将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
4.一种字符编码识别装置,其特征在于,包括:
获取模块,用于获取待识别文本;
处理模块,用于根据所述待识别文本和预设的编码方式识别模型获得符合所述待识别文本的编码方式,所述编码方式识别模型通过深度学习训练得到;
解码模块,用于根据获得的所述编码方式对所述待识别文件进行解码,获得解码结果;
其中,所述处理模块具体用于:
从所述待识别文本中选取多个文本段;
将每个文本段发送到所述编码方式识别模型中进行计算获得各个文本段对应于预设的各个编码方式的符合概率值,根据所述符合概率值确定符合各个文本段的编码方式;
根据所述各个文本段的编码方式出现的次数确定所述待识别文本的编码方式;
其中,所述编码方式识别模型中通过全连接层连接到各个编码方式的多个节点,获得各个编码方式的符合概率值。
5.根据权利要求4所述的装置,其特征在于,所述处理模块具体用于:
将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
根据所述符合概率值确定符合所述待识别文本的编码方式。
6.根据权利要求5所述的装置,其特征在于,所述处理模块包括计算单元和确定单元,其中:
计算单元,用于将所述待识别文本发送到所述编码方式识别模型中进行计算获得所述待识别文本对应于预设的各个编码方式的符合概率值;
确定单元,用于根据所述符合概率值中选取最大概率值,将所述最大概率值对应的编码方式作为符合所述待识别文本的编码方式。
7.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-3中任一项所述的方法。
CN201810050150.1A 2018-01-18 2018-01-18 字符编码识别方法及装置 Active CN108197087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810050150.1A CN108197087B (zh) 2018-01-18 2018-01-18 字符编码识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810050150.1A CN108197087B (zh) 2018-01-18 2018-01-18 字符编码识别方法及装置

Publications (2)

Publication Number Publication Date
CN108197087A CN108197087A (zh) 2018-06-22
CN108197087B true CN108197087B (zh) 2021-11-16

Family

ID=62589725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810050150.1A Active CN108197087B (zh) 2018-01-18 2018-01-18 字符编码识别方法及装置

Country Status (1)

Country Link
CN (1) CN108197087B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064733A (zh) * 2018-09-30 2018-12-21 珠海全志科技股份有限公司 自适应红外信号解码方法、计算机装置及其控制装置
CN111681670B (zh) * 2019-02-25 2023-05-12 北京嘀嘀无限科技发展有限公司 信息识别方法、装置、电子设备及存储介质
US11139827B2 (en) 2019-03-15 2021-10-05 Samsung Electronics Co., Ltd. Conditional transcoding for encoded data
TWI825305B (zh) * 2019-04-16 2023-12-11 南韓商三星電子股份有限公司 轉換編碼器及進行轉換編碼的方法及製品
CN113064863B (zh) * 2019-04-19 2022-06-07 福建天晴数码有限公司 自动识别文件编码的方法及计算机可读存储介质
CN110113327A (zh) * 2019-04-26 2019-08-09 北京奇安信科技有限公司 一种检测dga域名的方法及装置
CN110135566A (zh) * 2019-05-21 2019-08-16 四川长虹电器股份有限公司 基于lstm二分类神经网络模型的注册用户名检测方法
CN111428484B (zh) * 2020-04-14 2022-02-18 广州云从鼎望科技有限公司 一种信息管理方法、***、设备和介质
CN113807807A (zh) * 2021-08-16 2021-12-17 深圳市云采网络科技有限公司 一种元器件参数识别方法、装置、电子设备及可读介质
CN113627173B (zh) * 2021-08-16 2024-06-04 深圳市云采网络科技有限公司 一种制造商名称识别方法、装置、电子设备及可读介质
CN117391070B (zh) * 2023-12-08 2024-03-22 和元达信息科技有限公司 一种乱码字符调整方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360988A (zh) * 2014-10-17 2015-02-18 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040078191A1 (en) * 2002-10-22 2004-04-22 Nokia Corporation Scalable neural network-based language identification from written text
CN106354701B (zh) * 2016-08-30 2019-06-21 腾讯科技(深圳)有限公司 汉字处理方法和装置
CN107480723B (zh) * 2017-08-22 2019-11-08 武汉大学 基于局部二进制阈值学习网络的纹理识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360988A (zh) * 2014-10-17 2015-02-18 北京锐安科技有限公司 中文字符的编码方式的识别方法和装置
CN104750666A (zh) * 2015-03-12 2015-07-01 明博教育科技有限公司 一种文本字符编码方式的识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于N-gram模型的高速汉字编码识别***;李继峰等;《计算机工程与应用》;20040331;说明书第12段 *

Also Published As

Publication number Publication date
CN108197087A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197087B (zh) 字符编码识别方法及装置
JP6594988B2 (ja) 住所テキストを処理する方法及び機器
US9998145B2 (en) Data processing method and device
CN108108436B (zh) 数据存储方法、装置、存储介质及电子设备
CN111444931B (zh) 异常访问数据的检测方法和装置
US10484009B2 (en) Decoding method and decoder for low-density parity-check code
CN110276811B (zh) 图像转换方法、装置、电子设备及可读存储介质
CN112632912A (zh) 文本纠错方法、装置、设备及可读存储介质
CN116978011B (zh) 一种用于智能目标识别的图像语义通信方法及***
CN115496970A (zh) 图像任务模型的训练方法、图像识别方法以及相关装置
CN112800737B (zh) 自然语言文本生成方法和装置以及对话***
CN116579618A (zh) 基于风险管理的数据处理方法、装置、设备及存储介质
CN104065460A (zh) 基于二叉树的编码方法和编码装置
CN112995199B (zh) 数据编解码方法、装置、传输***、终端设备及存储介质
CN113761845A (zh) 一种文本生成方法、装置、存储介质及电子设备
CN110677827B (zh) 配网方法、装置、***、电子设备及存储介质
CN111046631A (zh) 基于字符转换的姓名存储方法、装置、计算机设备
CN111126420A (zh) 一种建立识别模型的方法及装置
CN113283241B (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN109802690B (zh) 译码方法、装置和计算机可读存储介质
CN108039935B (zh) 一种基于最大似然译码的信道编码识别方法
CN111384974B (zh) 多进制ldpc码的置信度量化方法、装置及解码器
CN111859917A (zh) 主题模型构建方法、设备及计算机可读存储介质
US20170117918A1 (en) Method and Apparatus for Calculating Estimated Data Compression Ratio
CN105634668B (zh) 一种dci0信号的虚检筛查方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088

Applicant after: Qianxin Technology Group Co.,Ltd.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: BEIJING QIANXIN TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant