CN113033150A - 一种程序文本的编码处理方法、装置以及存储介质 - Google Patents

一种程序文本的编码处理方法、装置以及存储介质 Download PDF

Info

Publication number
CN113033150A
CN113033150A CN202110289407.0A CN202110289407A CN113033150A CN 113033150 A CN113033150 A CN 113033150A CN 202110289407 A CN202110289407 A CN 202110289407A CN 113033150 A CN113033150 A CN 113033150A
Authority
CN
China
Prior art keywords
text
program
target
code
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110289407.0A
Other languages
English (en)
Inventor
刘均
李河金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Launch Technology Co Ltd
Original Assignee
Shenzhen Launch Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Launch Technology Co Ltd filed Critical Shenzhen Launch Technology Co Ltd
Priority to CN202110289407.0A priority Critical patent/CN113033150A/zh
Publication of CN113033150A publication Critical patent/CN113033150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种程序文本的编码处理方法、装置以及存储介质,用于提高多语言文本库的构建效率。本申请方法包括:获取目标程序的目标文本;根据目标文本的特征信息确定目标文本的结构信息;根据结构信息确定目标文本的目标编码;利用目标编码对目标文本进行编码转化,得到转换文本;判断转换文本与目标文本是否一致;根据判断结果对转换文本进行处理。

Description

一种程序文本的编码处理方法、装置以及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种程序文本的编码处理方法、装置以及存储介质。
背景技术
软件的多语言一般都是基于多语言文本库来实现的,多语言文本库包含了多国语言对应的文本,不同国家的语言往往编码格式不同,例如有UTF-8、UTF-16以及GBK2312等。
现有技术提供的方案中,在构建多语言文本库时,一般是通过人工进行整理的,文本在复制粘贴的过程中很容易造成编码混乱。现有技术中程序在加载多语言文本库时,会在显示界面显示相应语言文本,这些语言文本都是按照固定的编码格式去加载解析的,如果一条文本包含有多种编码,那么在构建多语言文本库时容易造成编码混乱,导致多语言文本库构建效率低下。
发明内容
为了解决上述技术问题,本申请提供了一种程序文本的编码处理方法、装置以及存储介质,用于用于提高多语言文本库的构建效率。
本申请第一方面提供了一种程序文本的编码处理方法,所述方法包括:
获取目标程序的目标文本;
根据所述目标文本的特征信息确定所述目标文本的结构信息;
根据所述结构信息确定所述目标文本的目标编码;
利用所述目标编码对所述目标文本进行编码转化,得到转换文本;
判断所述转换文本与所述目标文本是否一致;
根据判断结果对所述转换文本进行处理。
可选的,在所述获取目标程序的目标文本之前,所述方法还包括:
加载所述目标程序;
获取所述目标程序的程序文本;
按照预定义的结构体存储所述程序文本,生成程序文本结构;
提取所述程序文本的特征信息;
构建所述程序文本特征信息与所述程序文本结构的映射关系。
可选的,在所述按照预定义的结构体存储所述程序文本之前,所述方法还包括:
按预设数据格式存储所述程序文本;
以类型标签作为标识对所述程序文本的语言类型进行标记;
以属性标签作为标识对所述程序文本的默认编码进行标记。
可选的,所述利用所述目标编码对所述目标文本进行编码转化,具体为:
根据所述结构信息确定所述目标文本的源编码;
利用所述源编码调用编码转换接口将所述目标文本按照目标编码进行编码转换。
可选的,当所述转换文本与所述目标文本一致时,
所述根据判断结果对所述转换文本进行处理,具体包括:
确定所述目标文本仅包含一种编码;
对所述目标文本进行正常显示。
可选的,当所述转换文本与所述目标文本不一致时,
所述根据判断结果对所述转换文本进行处理,具体包括:
确定所述目标文本包含至少2种编码;
突出显示所述目标文本并记录。
本申请第二方面提供了一种程序文本的编码处理装置,所述装置包括:
获取单元,用于获取目标程序的目标文本;
第一确定单元,用于根据所述目标文本的特征信息确定所述目标文本的结构信息;
第二确定单元,用于根据所述结构信息确定所述目标文本的目标编码;
转换单元,用于利用所述目标编码对所述目标文本进行编码转化,得到转换文本;
判断单元,用于判断所述转换文本与所述目标文本是否一致;
处理单元,用于根据判断结果对所述转换文本进行处理。
可选的,所述装置包括:构建单元,所述构建单元具体用于:
加载所述目标程序;
获取所述目标程序的程序文本;
按照预定义的结构体存储所述程序文本,生成程序文本结构;
提取所述程序文本的特征信息;
构建所述程序文本特征信息与所述程序文本结构的映射关系。
本申请第三方面提供了一种程序文本的编码处理装置,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供的程序文本的编码处理方法中,终端可以根据目标文本的结构信息确定目标文本的目标编码,并利用该目标编码对目标文本进行编码转换,判断转换文本与目标文本是否一致,最终根据转换结构对转换文本进行处理。本申请提供的方法可以应用于程序文本的编码校验,可以提高多语言文本库的构建效率。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请中提供的程序文本的编码处理方法的一个实施例流程示意图;
图2为本申请中提供的程序文本的编码处理方法的另一个实施例流程示意图;
图3为本申请中提供的程序文本的编码处理装置的一个实施例结构示意图;
图4为本申请中提供的程序文本的编码处理装置的另一个实施例结构示意图。
具体实施方式
现有技术提供的方案中,在构建多语言文本库时,一般是通过人工进行整理的,文本在复制粘贴的过程中很容易造成编码混乱。例如一串中文文本中如果带一些英文字母或者特殊字符,那么这串文本统一编码格式应该是GBK2312,但在实际应用中,中文里夹带的英文可能是从其它地方拷贝过来,而拷贝过来的文本正好是其它格式的编码。然而***在加载多语言文本库时,会在显示界面显示相应语言文本,这些语言文本都是按照固定的编码格式去加载解析的,如果一条文本含有多种编码,那么最终解析出来的文本必定含有乱码。现有技术提供的方案中,在构建多语言文本库时容易出现乱码,多语言文本库的构建效率低。
基于此,本申请提供了一种程序文本的编码处理方法,用于降低文本编码的出错率。
需要说明的是,本申请提供的程序文本的编码处理方法,可以应用于终端也可以应用于***,还可以应用于服务器上,例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本申请中以终端为执行主体进行举例说明。
请参阅图1,图1为本申请中提供的程序文本的编码处理方法的一个实施例流程示意图,该程序文本的编码处理方法包括:
101、获取目标程序的目标文本;
本申请提供的程序文本的编码处理方法应用于多语言文本库,多语言的文本编码一般都基于多语言文本库的,多语言文本库中存储有多国语言对应的文本,不同国家的语言往往编码都不一样,例如有UTF-8、UTF-6以及GBK2312等。一般的多语言文本库都是人工进行整理的,目标文本在被拷贝到多语言文本库的过程中,目标文本的编码可能会发生改变,导致目标文本在多语言文本库中所使用的编码与默认的编码格式不一致。本申请提供的方法中,终端首先通过目标程序加载预先构建好的多语言文本库,并从多语言文本库中获取目标程序的目标文本,例如目标文本为“内部电路输出电压低”。
目标程序中有根据多语言文本库而设计的程序文本结构以及映射结构,映射结构用于程序文本结构以及信息摘要的映射,程序文本结构中存储有文本、文本的类型标签以及文本的默认编码,类型标签用于标识文本的语言类型,默认编码是指该文本所使用的语言对应的默认编码,不同国家的语言所使用的默认编码不同,本申请中所提及的结构体是指一种数据类型,例如,多语言文本库中包含有:
SLANGUGE s_4;
s_4.strType=“en_EN”;
s_4.strEncoding=“UTF-8”;
s_4.strText=circuit volt below threshold;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_4));
SLANGUGE s_3;
s_3.strType=“zh_CN”;
s_3.strEncoding=“GBK2312”;
s_3.strText=内部电路输出电压低;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_3));
其中SLANGUGE s_4以及SLANGUGE s_3为程序文本结构,s_4.strType为文本s_4的语言类型,s_4.strType=“en_EN”中的en_EN为类型标签,en_EN表示该文本为英文,s_4.strEncoding=“UTF-8”表示该文本的默认编码为UTF-8,s_4.strText=circuit voltbelow threshold表示该文本为circuit volt below threshold。
mapLanguge是指映射结构,映射结构中存储有信息摘要f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c和程序文本结构SLANGUGE s_4以及SLANGUGE s_3的映射关系,即信息摘要都映射到多个程序文本结构,因此可以通过信息摘要为key值映射到不同语言的文本。
102、根据目标文本的特征信息确定目标文本的结构信息;
终端根据目标文本的特征信息确定目标文本的结构信息,特征信息具体可以是目标文本的信息摘要,目标程序中有根据多语言文本库而设计的程序文本结构,程序文本结构中存储有结构信息,其中结构信息包括文本、文本的类型标签以及文本的默认编码,类型标签用于标识文本的语言类型,默认编码是指该文本所使用的语言对应的默认编码,不同国家的语言所使用的默认编码不同,本申请中所提及的结构体是指一种数据类型,例如,多语言文本库中包含有:
SLANGUGE s_4;
s_4.strType=“en_EN”;
s_4.strEncoding=“UTF-8”;
s_4.strText=circuit volt below threshold;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_4));
SLANGUGE s_3;
s_3.strType=“zh_CN”;
s_3.strEncoding=“GBK2312”;
s_3.strText=内部电路输出电压低;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_3));
其中SLANGUGE s_4以及SLANGUGE s_3为程序文本结构,s_4.strType为文本s_4的语言类型,s_4.strType=“en_EN”中的en_EN为类型标签,en_EN表示该文本为英文,s_4.strEncoding=“UTF-8”表示该文本的默认编码为UTF-8,s_4.strText=circuit voltbelow threshold表示该文本为circuit volt below threshold。
mapLanguge是指映射结构,映射结构用于表示信息摘要f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c和程序文本结构SLANGUGE s_4以及SLANGUGE s_3的映射关系,即信息摘要都映射到多个程序文本结构,因此可以通过信息摘要为key值映射多个程序文本结构。
103、根据结构信息确定目标文本的目标编码;
终端根据结构信息确定目标文本的目标编码,具体可以是,根据文本的特征信息与程序文本结构的映射关系来确定的目标文本的结构,进而根据目标文本的结构中的属性标签来确定目标文本的默认编码,进而将默认编码作为目标编码来使用,例如:
SLANGUGE s_4;
s_4.strType=“en_EN”;
s_4.strEncoding=“UTF-8”;
s_4.strText=circuit volt below threshold;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_4));
根据信息摘要“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”确定与其映射的程序文本结构SLANGUGE s_4以及SLANGUGE s_3,进而确定SLANGUGE s_4中的默认编码为UTF-8,SLANGUGE s_3中的默认编码为GBK2312。
104、利用目标编码对目标文本进行编码转化,得到转换文本;
终端在确定目标文本的默认编码之后,对目标文本进行编码转换,以默认编码同时作为源编码以及目标编码,对目标文本进行编码转换,并得到转换文本,具体的可以是,根据结构信息确定目标文本的源编码,利用源编码调用编码转换接口将目标文本按照目标编码进行编码转换。
105、判断转换文本与目标文本是否一致;
终端判断转换文本与目标文本的格式是否一致,最终得到判断结果。
根据判断结果对转换文本进行处理,具体的可以参考如步骤106或者步骤107所述内容。
106、确定目标文本仅包含一种编码;对目标文本进行正常显示;
终端根据判断结构对转换文本进行处理。例如,具体的处理方法可以是:
当转换文本与目标文本一致时,根据判断结果对转换文本进行处理,具体包括:确定目标文本仅包含一种编码;对目标文本进行正常显示。本申请提供的方法中,由于在进行编码转换时,所使用的源编码和目标编码一致,所以如果最终转换文本与目标文本一致,则可以说明目标文本仅包含有一种编码,目标文本不需要修订,不需要对目标文本进行突出显示。
107、确定目标文本包含至少2种编码;突出显示目标文本并记录。
在另一种可能的实现方式中,当转换文本与目标文本不一致时,根据判断结果对转换文本进行处理,具体包括:确定目标文本包含至少2种编码;突出显示目标文本并记录。如果目标文本与转换文本不一致,则说明目标文本包含有多种编码,则需要对目标文本进行修订,因此需要对该目标文本进行突出显示并记录,以方便运维人员进行修订。其中突出显示可以包括通过弹框显示,或者使该文本的显示颜色与其他仅包含一种编码的文本的显示颜色不相同。记录包括:生成记录日志,该日志包括信息摘要+文本内容+文本对应的语言标识。
本申请提供的程序文本的编码处理方法中,在获取目标程序的目标文本之前,需要先构建程序文本结构以及特征信息与程序文本结构的映射关系。下面将对该实施例进行详细说明。
请参阅图2,图2为本申请中提供的程序文本的编码处理方法的一个实施例流程示意图,该程序文本的编码处理方法包括:
201、加载目标程序;
终端加载目标程序。
202、获取目标程序的程序文本;
终端读取目标程序中的程序文本。
203、按照预定义的结构体存储程序文本,生成程序文本结构;
终端按照预设定义的结构体存储该程序文本,得到程序文本结构,结构体是一种数据存储类型,程序文本结构中包含有结构信息,例如程序文本结构:
SLANGUGE s_4;
s_4.strType=“en_EN”;
s_4.strEncoding=“UTF-8”;
s_4.strText=circuit volt below threshold;
mapLanguge.insert(pair<string,SLANGUGE>(“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,s_4));
其中包含有程序文本“circuit volt below threshold”以及该程序文本的相关结构信息,例如该程序文本的特征信息“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”,该特征信息为该程序文本的信息摘要。
在另一个可能的实现方式中,终端在按照预定义1的结构体存储该程序文本之前,还可以按照预设数据类型存储该程序文本,例如按照XML格式存储,并以类型标签作为标识对程序文本的语言类型进行标记,例如通过类型标签s_4.strType=“en_EN”来标记该程序文本的语言类型为英文,以属性标签作为标识对程序文本的默认编码进行标记,例如通过属性标签s_4.strEncoding=“UTF-8”对该程序文本的默认编码标记为“UTF-8”。
204、提取程序文本的特征信息;
终端提取程序文本的特征信息。
205、构建程序文本特征信息与程序文本结构的映射关系;
终端构建程序文本的特征信息与程序文本结构的映射关系,例如构建信息摘要“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”与程序文本结构SLANGUGE s_4的映射关系,需要说明的是,一个信息摘要可以映射到多个程序文本结构,例如“f6478d1f-dbc2-42d8-8d56-ea4b4b3eb34c”还可以映射到SLANGUGE s_3。
206、获取目标程序的目标文本;
207、根据目标文本的特征信息确定目标文本的结构信息;
208、根据结构信息确定目标文本的目标编码;
209、利用目标编码对目标文本进行编码转化,得到转换文本;
210、判断转换文本与目标文本是否一致;
211、确定目标文本仅包含一种编码;对目标文本进行正常显示;
212、确定目标文本包含至少2种编码;突出显示目标文本并记录。
本实施例中步骤206至步骤212与前述实施例中步骤101至步骤107类似,此处不再赘述。
上述实施例对本申请中提供的程序文本的编码处理方法进行了详细阐述,下面将结合附图对本申请中提供的程序文本的编码处理装置进行阐述。
请参阅图3,图3为本申请中提供的程序文本的编码处理装置的一个实施例结构示意图,该程序文本的编码处理装置包括:
获取单元301,用于获取目标程序的目标文本;
第一确定单元302,用于根据目标文本的特征信息确定目标文本的结构信息;
第二确定单元303,用于根据结构信息确定目标文本的目标编码;
转换单元304,用于利用目标编码对目标文本进行编码转化,得到转换文本;
判断单元305,用于判断转换文本与目标文本是否一致;
处理单元306,用于根据判断结果对转换文本进行处理。
可选的,装置包括:构建单元307,构建单元307具体用于:
加载目标程序;
获取目标程序的程序文本;
按照预定义的结构体存储程序文本,生成程序文本结构;
提取程序文本的特征信息;
构建程序文本特征信息与程序文本结构的映射关系。
可选的,装置包括:标记单元308,标记单元308具体用于:
按预设数据格式存储程序文本;
以类型标签作为标识对程序文本的语言类型进行标记;
以属性标签作为标识对程序文本的默认编码进行标记。
可选的,转换单元304具体用于:
根据结构信息确定目标文本的源编码;
利用源编码调用编码转换接口将目标文本按照目标编码进行编码转换。
可选的,处理单元306具体用于:
确定目标文本仅包含一种编码;
对目标文本进行正常显示。
可选的,处理单元306具体用于:
确定目标文本包含至少2种编码;
突出显示目标文本并记录。
本申请还提供了一种程序文本的编码处理装置,包括:
处理器401、存储器402、输入输出单元403、总线404;
处理器401与存储器402、输入输出单元403以及总线404相连;
存储器402保存有程序,处理器401调用程序以执行如上任一程序文本的编码处理方法。
本申请还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一程序文本的编码处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种程序文本的编码处理方法,其特征在于,所述方法包括:
获取目标程序的目标文本;
根据所述目标文本的特征信息确定所述目标文本的结构信息;
根据所述结构信息确定所述目标文本的目标编码;
利用所述目标编码对所述目标文本进行编码转化,得到转换文本;
判断所述转换文本与所述目标文本是否一致;
根据判断结果对所述转换文本进行处理。
2.根据权利要求1所述的程序文本的编码处理方法,其特征在于,在所述获取目标程序的目标文本之前,所述方法还包括:
加载所述目标程序;
获取所述目标程序的程序文本;
按照预定义的结构体存储所述程序文本,生成程序文本结构;
提取所述程序文本的特征信息;
构建所述程序文本特征信息与所述程序文本结构的映射关系。
3.根据权利要求2所述的程序文本的编码处理方法,其特征在于,在所述按照预定义的结构体存储所述程序文本之前,所述方法还包括:
按预设数据格式存储所述程序文本;
以类型标签作为标识对所述程序文本的语言类型进行标记;
以属性标签作为标识对所述程序文本的默认编码进行标记。
4.根据权利要求1所述的程序文本的编码处理方法,其特征在于,所述利用所述目标编码对所述目标文本进行编码转化,具体为:
根据所述结构信息确定所述目标文本的源编码;
利用所述源编码调用编码转换接口将所述目标文本按照目标编码进行编码转换。
5.根据权利要求1-4任一项所述的程序文本的编码处理方法,其特征在于,当所述转换文本与所述目标文本一致时,所述根据判断结果对所述转换文本进行处理,具体包括:
确定所述目标文本仅包含一种编码;对所述目标文本进行正常显示。
6.根据权利要求1-4任一项所述的方法,其特征在于,当所述转换文本与所述目标文本不一致时,所述根据判断结果对所述转换文本进行处理,具体包括:
确定所述目标文本包含至少2种编码;
突出显示所述目标文本并记录。
7.一种程序文本的编码处理装置,其特征在于,所述装置包括:
获取单元,用于获取目标程序的目标文本;
第一确定单元,用于根据所述目标文本的特征信息确定所述目标文本的结构信息;
第二确定单元,用于根据所述结构信息确定所述目标文本的目标编码;
转换单元,用于利用所述目标编码对所述目标文本进行编码转化,得到转换文本;
判断单元,用于判断所述转换文本与所述目标文本是否一致;
处理单元,用于根据判断结果对所述转换文本进行处理。
8.根据权利要求7中所述的程序文本的编码处理装置,其特征在于,所述装置包括:构建单元,所述构建单元具体用于:
加载所述目标程序;
获取所述目标程序的程序文本;
按照预定义的结构体存储所述程序文本,生成程序文本结构;
提取所述程序文本的特征信息;
构建所述程序文本特征信息与所述程序文本结构的映射关系。
9.一种程序文本的编码处理装置,其特征在于,所述装置包括:
处理器、存储器、输入输出单元以及总线;
所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
所述存储器保存有程序,所述处理器调用所述程序以执行如权利要求1至6任一项所述方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行如权利要求1至6中任一项所述方法。
CN202110289407.0A 2021-03-18 2021-03-18 一种程序文本的编码处理方法、装置以及存储介质 Pending CN113033150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110289407.0A CN113033150A (zh) 2021-03-18 2021-03-18 一种程序文本的编码处理方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110289407.0A CN113033150A (zh) 2021-03-18 2021-03-18 一种程序文本的编码处理方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN113033150A true CN113033150A (zh) 2021-06-25

Family

ID=76471336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110289407.0A Pending CN113033150A (zh) 2021-03-18 2021-03-18 一种程序文本的编码处理方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN113033150A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6204782B1 (en) * 1998-09-25 2001-03-20 Apple Computer, Inc. Unicode conversion into multiple encodings
CN107133201A (zh) * 2017-04-21 2017-09-05 东莞中国科学院云计算产业技术创新与育成中心 基于文本编码识别的热点信息采集方法和装置
CN107577482A (zh) * 2017-08-28 2018-01-12 北京锐安科技有限公司 软件语种的自动转换方法和装置
CN108255494A (zh) * 2018-01-30 2018-07-06 平安科技(深圳)有限公司 一种xml文件解析方法、装置、计算机设备及存储介质
CN110019793A (zh) * 2017-10-27 2019-07-16 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
CN110795913A (zh) * 2019-09-30 2020-02-14 北京大米科技有限公司 一种文本编码方法、装置、存储介质及终端
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法
CN111247581A (zh) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
CN111368508A (zh) * 2020-03-03 2020-07-03 深信服科技股份有限公司 数据处理方法、装置、设备及介质
CN111611769A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种多种语言模型的文本转换方法及装置
CN112507705A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6204782B1 (en) * 1998-09-25 2001-03-20 Apple Computer, Inc. Unicode conversion into multiple encodings
CN107133201A (zh) * 2017-04-21 2017-09-05 东莞中国科学院云计算产业技术创新与育成中心 基于文本编码识别的热点信息采集方法和装置
CN107577482A (zh) * 2017-08-28 2018-01-12 北京锐安科技有限公司 软件语种的自动转换方法和装置
CN110019793A (zh) * 2017-10-27 2019-07-16 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
CN108255494A (zh) * 2018-01-30 2018-07-06 平安科技(深圳)有限公司 一种xml文件解析方法、装置、计算机设备及存储介质
CN111611769A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 一种多种语言模型的文本转换方法及装置
CN110795913A (zh) * 2019-09-30 2020-02-14 北京大米科技有限公司 一种文本编码方法、装置、存储介质及终端
CN111178061A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于编码转换的多国语分词方法
CN111247581A (zh) * 2019-12-23 2020-06-05 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
CN111368508A (zh) * 2020-03-03 2020-07-03 深信服科技股份有限公司 数据处理方法、装置、设备及介质
CN112507705A (zh) * 2020-12-21 2021-03-16 北京百度网讯科技有限公司 一种位置编码的生成方法、装置及电子设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
叶蓉;陈榕;: "一种实现控件与多语言文本动态绑定的方法", 计算机技术与发展, no. 01, pages 43 - 45 *
李国红: "Web数据库技术与MySQL应用教程", 30 June 2020, 机械工业出版社, pages: 69 - 71 *
蒋衍君;: "电力监控软件多语言支持", 电力自动化设备, no. 03, pages 95 - 99 *
黄志勇: "基于中日韩的多国语言编码***的研究与实现", 中国优秀硕士论文电子期刊网, pages 136 - 69 *

Similar Documents

Publication Publication Date Title
CN110020358B (zh) 用于生成动态页面的方法和装置
CN111046135A (zh) 非结构文本处理方法、装置、计算机设备、存储介质
CN111143505A (zh) 文档处理方法、装置、介质及电子设备
CN113626223A (zh) 一种接口调用方法和装置
CN112527291A (zh) 网页生成方法、装置、电子设备及存储介质
US8930808B2 (en) Processing rich text data for storing as legacy data records in a data storage system
US20040181750A1 (en) Exception markup documents
CN110134920B (zh) 绘文字兼容显示方法、装置、终端及计算机可读存储介质
CN113760894A (zh) 数据调取方法、装置、电子设备及存储介质
CN102467490B (zh) 一种字体数据的处理方法及装置
CN109614592B (zh) 文本的处理方法、装置、存储介质和电子设备
CN111241096A (zh) 一种excel文档的文本提取方法、***、终端及存储介质
CN113127776A (zh) 面包屑路径生成方法、装置及终端设备
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN116204428A (zh) 一种测试用例生成方法和装置
CN113033150A (zh) 一种程序文本的编码处理方法、装置以及存储介质
CN115658127A (zh) 数据处理的方法、装置、电子设备和存储介质
CN115759029A (zh) 文档模板处理方法、装置、电子设备及存储介质
CN113791860B (zh) 一种信息转换方法、装置和存储介质
CN115904167A (zh) 网页图标的处理方法、装置、存储介质及电子设备
CN114417850A (zh) 信息抽取方法、装置、存储介质及电子设备
CN110378457B (zh) 一种码标的生成方法及装置
CN113343663A (zh) 一种票据结构化方法及装置
CN106569939A (zh) 一种控件脚本程序多国文字解析***及多国文字解析方法
CN113268617A (zh) 论文元数据的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination