CN113033200A - 数据处理方法、文本识别模型的生成方法和文本识别方法 - Google Patents

数据处理方法、文本识别模型的生成方法和文本识别方法 Download PDF

Info

Publication number
CN113033200A
CN113033200A CN202110581037.8A CN202110581037A CN113033200A CN 113033200 A CN113033200 A CN 113033200A CN 202110581037 A CN202110581037 A CN 202110581037A CN 113033200 A CN113033200 A CN 113033200A
Authority
CN
China
Prior art keywords
code
word segmentation
codes
participle
text recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110581037.8A
Other languages
English (en)
Other versions
CN113033200B (zh
Inventor
宁亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110581037.8A priority Critical patent/CN113033200B/zh
Publication of CN113033200A publication Critical patent/CN113033200A/zh
Application granted granted Critical
Publication of CN113033200B publication Critical patent/CN113033200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提出一种数据处理方法、文本识别模型的生成方法和文本识别方法,其中,数据处理方法包括:对待处理文本进行分词处理,得到分词结果;对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;根据分词结果的编码,确定训练样本。本申请获得的训练样本所训练的模型,能够提高处理数学相关自然语言处理任务的能力。

Description

数据处理方法、文本识别模型的生成方法和文本识别方法
技术领域
本申请涉及数据处理领域,尤其涉及数据处理方法、文本识别模型的生成方法和文本识别方法。
背景技术
由于目前的自然语言处理主要的应用场景为新闻、阅读、翻译等等场景,致使其在预训练阶段的编码和字典比较关注于自然语序和语义的理解。但是在数学题的场景中,数学题不仅包含大量的自然语句,同时也夹杂着大量的数学符号和数字。申请人发现,现有的基于完全自然语言训练得到的模型,可能不支持大多数的数学符号,又或者是没有对数学字符进行特殊考虑,致使经过这样训练的模型在数学题相关的应用场景下表现不佳。
发明内容
本申请实施例提供一种数据处理方法、文本识别模型的生成方法和文本识别方法,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种数据处理方法,包括:
对待处理文本进行分词处理,得到分词结果;
对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
根据分词结果的编码,确定训练样本。
第二方面,本申请实施例提供了一种文本识别模型的生成方法,包括:
获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括上述第一方面的数据处理方法所确定的训练样本;
根据训练数据训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
第三方面,本申请实施例提供了一种文本识别方法,包括:
对待识别文本进行分词处理,得到分词结果;
对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
将分词结果的编码输入文本识别模型,得到文本识别结果,其中,文本识别模型为利用上述第二方面的文本识别模型的生成方法所生成的。
第四方面,本申请实施例提供了一种数据处理装置,包括:
第一分词模块,用于对待处理文本进行分词处理,得到分词结果;
第一编码模块,用于对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
训练样本确定模块,用于根据分词结果的编码,确定训练样本。
第五方面,本申请实施例提供了一种文本识别模型的生成装置,包括:
训练数据获取模块,用于获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括上述第四方面的数据处理装置所确定的训练样本;
训练模块,用于根据训练数据训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
第六方面,本申请实施例提供了一种文本识别装置,包括:
第三分词模块,用于对待识别文本进行分词处理,得到分词结果;
第二编码模块,用于对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符;
识别模块,用于将分词结果的编码输入文本识别模型,得到文本识别结果,其中,文本识别模型为利用上述第五方面的文本识别模型的生成装置得到的。
第七方面,本申请实施例提供了一种电子设备,该电子设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第八方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:能够对于数学字符进行特殊考虑,使得该训练样本所训练的模型,能够提高处理数学相关自然语言处理任务的能力。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的数据处理方法的流程图;
图2为根据本申请实施例的文本识别模型的生成方法的流程图;
图3为根据本申请实施例的文本识别模型的生成方法所提供的具体示例的流程图;
图4为根据本申请实施例的文本识别方法的流程图;
图5为根据本申请实施例的数据处理装置的结构框图;
图6为根据本申请实施例的文本识别模型的生成装置的结构框图;
图7为根据本申请实施例的文本识别装置的结构框图;
图8为根据本申请实施例的电子设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本申请实施例的数据处理方法的流程图。如图1所示,该数据处理方法可以包括:
S101,对待处理文本进行分词处理,得到分词结果。
S102,对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符。
S103,根据分词结果的编码,确定训练样本。
其中,待处理文本可以从预先准备的语料库中获取。语料库包括和数学相关的文本,如数学题目、数学论文等,语料库也可以包括和数学不相关的普通文本。待处理文本可以是带有数学表达式子的句子,例如“计算33×3.3”。
其中,数学字符可以为数字,数字包括***数字0至9。数学字符也可以为数值,数值由一个、两个或多个***数字进行表示。需要说明的是,数学和数值主要是针对不同的分词方式。例如对“12×3.4”进行分词,如果分为“12”,“×”和“3.4”,此时“12”和“3.4”为数值;如果分为“1”,“2”,“×”,“3”,“.”,“4”,此时“1”,“2”,“3”,“4”为数字。数学字符也可以为数学符号,数学符号包括但不限于数量符号(如圆周率“π”,)、运算符号(如加号“+”,减号“-”)、关系符号(如等号“=”)、结合符号(如小括号“()”)等等。此外,待处理文本还可以包括如汉字、英文等语言文字。
其中,步骤S101可以将待处理文本输入分词器,通过分词器对待处理文本进行分词处理,得到分词结果。分词器可以采用预先准备的语料库进行训练,使得分词器的词表包含语料库中出现的所有字或者词。此外,为扩充词表的词量,还可以合并其它语料库中的不同的字和词,得到多个词表,一个词表对应一类字符,例如汉字词表V1,数字词表V2,数学符号词表V3等。
其中,步骤S102中,每一个分词的编码均包括至少两类编码,一类编码对应一类字符,并且,至少有一类编码所对应的字符是属于数学字符。例如,分词的编码为
Figure DEST_PATH_IMAGE001
,其中,
Figure DEST_PATH_IMAGE002
对应汉字字符,
Figure DEST_PATH_IMAGE003
对应数学符号,
Figure DEST_PATH_IMAGE004
对应数字。具体地,
Figure 498425DEST_PATH_IMAGE002
按照汉字词表V1进行独热编码,
Figure DEST_PATH_IMAGE005
表示该分词结果是否为数学符号,
Figure DEST_PATH_IMAGE006
按照数学符号词表V3进行独热编码,
Figure DEST_PATH_IMAGE007
表示该分词结果是否表示一个数值,
Figure DEST_PATH_IMAGE008
按照分词结果本身的具体数值。分词的编码也可以为
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
等。
其中,步骤S103中,训练样本可以用于训练预设神经网络,以得到文本识别模型。
本申请实施例所提供的数据处理方法,对训练样本采用至少两类编码方式,并且其中一类编码为关于数学字符的编码,能够对于数学字符进行特殊考虑,使得该训练样本所训练的模型,能够提高处理数学相关自然语言处理任务的能力。从而在数学场景下,更好地支持上层运用,例如数学题自动批改、智能解题等等。
在一种实施方式中,在步骤S102之前,还包括:在分词结果中存在数值的情况下,对数值按照单个数字进行再次分词。则步骤S102中,对分词结果中的分词进行编码,包括:对再次分词后的分词结果中的分词进行编码。
例如,对语句“12×3.4”进行分词,得到分词结果“12”,“×”,“3.4”;再次分词,得到“1”,“2”,“×”,“3”,“.”,“4”;然后,对再次分词得到的“1”,“2”,“×”,“3”,“.”,“4”进行编码。
如此,拆分至单个***数字[0~9]后再进行编码,可以利用单个***数字[0~9]对应的预热编码进行设定,使得编码的设定更加标准化。
在一种实施方式中,数学字符包括数字、数值和数学符号中至少一种。至少两类编码中其中一类编码为分词关于数字或数值的编码,和/或,至少两类编码中其中一类编码为分词关于数学符号的编码。如此,通过关于数字或数值的编码以及关于数学符号的编码这两类编码,对数字/数值和数学符号进行特殊考虑,使得经过该训练样本训练的模型,能够更好地处理数字/数值和数学符号,提高模型在数学题相关应用场景下的处理能力。
举例说明,分词结果的编码可以是关于数字或数值的编码和关于数学符号的编码的组合,也可以是关于数字或数值或数学符号的编码和关于其它种类字符的编码的组合,还可以是关于数字或数值的编码、关于数学符号的编码和关于其它种类字符的编码的组合等等。
此处,其它种类字符的编码可以为分词关于第三种字符的编码,第三种字符可以为汉字和/或英文等。具体地,确定分词结果的该类编码的过程是:获取预设词表,预设词表中包括属于第三种字符的多个分词以及多个分词对应的预设编码(如独热编码),在预设词表中找到与分词结果对应的预设编码,得到分词结果关于第三种字符的编码。
在一种实施方式中,至少两类编码中各类编码包括第一子编码和/或第二子编码,其中,第一子编码用于表示分词中是否包含对应类别字符,第二子编码用于表示分词中所包含的对应类别字符的内容。
如此,利用第一子编码可以表示分词是否包括某类字符,第二子编码子可以表示分词中存在某类字符的具体值,能够对分词中所包含的各类字符信息进行很好的处理,将编码输入至模型中,模型基于编码可以更充分地了解各类字符的信息,进而提高预测效果。
在一种实施方式中,在至少两类编码中第一类编码为分词关于数字的编码的情况下,采用数字对应的独热编码作为第一类编码的第二子编码。在至少两类编码中第一类编码为分词关于数值的编码的情况下,采用数值本身作为第一类编码的第二子编码。
如此,针对不同类型的字符,采用与该字符的特性相应的编码方式,保证编码的效果。数字[0~9]的状态仅有十个,直接对这十个状态进行独热编码,这样有利于编码的标准化;而数值的状态为无限个,此时较难直接进行独热编码,直接采用其数值本身作为编码,更有利于编码的实现。
在一种实施方式中,训练样本包括分词结果的编码经过随机掩码后剩下的部分编码,训练样本的标签包括分词结果的编码被随机掩码的部分编码;
或者,训练样本包括分词结果的编码中第一句内容的编码,训练样本的标签包括分词结果的编码中第二句内容的编码,第一句内容和第二句内容为训练样本中相邻的两句内容。
如此,采用随机掩码或者预测下一句的方式,对模型进行训练,并且训练样本标签和训练样本的编码方式一致,当利用标签的编码进行损失计算时,也能够更好地对数学字符进行特殊考虑。
图2示出根据本申请实施例的文本识别模型的生成方法的流程图。如图2所示,该文本识别模型的生成方法可以包括:
S201,获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括采用上述本申请任一实施例所提供的数据处理方法得到的训练样本。
S202,根据训练样本训练数据,训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
如此,本申请实施例的训练样本能够对于数学字符进行特殊考虑,经过该训练样本所训练的模型,能够提高处理数学相关自然语言处理任务的能力。从而在数学场景下,更好地支持上层运用,例如数学题自动批改、智能解题等等。
在一种实施方式中,步骤S202训练样本的标签中全部编码或指定部分编码参与损失计算。具体地,标签中分词的编码关于数学字符的编码包括第一子编码和第二子编码,第一子编码表示分词中是否包含对应类别字符,第二子编码表示分词中包含对应类别字符的内容的情况下,采用关于数学字符的编码中第一子编码和第二子编码进行损失计算,或者,采用关于数学字符的编码中第一子编码进行损失计算。
示例性地,训练样本中分词的编码为
Figure DEST_PATH_IMAGE012
,标签中分词的编码同样设置为
Figure 252449DEST_PATH_IMAGE012
。在训练过程中,可以是
Figure 607686DEST_PATH_IMAGE012
均参与损失计算,也可以是只有
Figure DEST_PATH_IMAGE013
参与损失计算。
示例性地,步骤S202的训练过程可以是:1)、将训练样本输入预设神经网络,得到识别结果;2)、用损失函数计算识别结果和标签的误差,3)、根据损失函数的导数,沿梯度最小方向将误差回传,修正预设神经网络中的各个权重值;4)、回到步骤1),直到损失函数值达到一个满意的值就停止迭代,得到文本识别模型。
在常规的自然语言处理中,每个词后面跟哪个词有概率倾向的(比如,自然语言,语字后面是“言”的概率是相对其它词概率更高的),但在算数中,后面跟几都有可能,没有概率倾向(比如数字1后面,有可能是各种数字,也有可能是数学符号,没有任何概率倾向),在数学题的自然语言处理中,目的在于知道是个什么数字就行了。也就是说,学习容量是固定的,有些信息不需要预测,那在这些信息上就不进行预测,因此上述第二种方法只需要部分编码参与损失计算,这样在其他信息的预测上,就会降低其他信息学习的难度,准确性也会提高。
下述为本申请实施例所提供的一个具体示例,参考图3,具体示例的步骤如下:
S300,获取数学语料,建立数学语料库。
S301,针对整个数学语料库采用基于统计的方法训练分词器,主要目的是使整个词表包含语料库中出现的所有的字或者词。同时合并其他的语料库中不同的字和词,得到一个规模为K的汉字词表
Figure DEST_PATH_IMAGE014
,数学符号词表
Figure DEST_PATH_IMAGE015
。合并其它的语料库的原因是,数学语料库的词有限,为了对其进行扩充,会合并其他现成的语料库以对数学语料库进行字和词的扩充,从而获得包括数学方面的词以及其他词。
S302,选取待处理语句,采用步骤S301训练好的分词器对待处理语句进行分词,然后对分词结果进行编码。待处理语句可以优选带有数学表达式子的语句。
示例性地,下述给出两种分词方式及其对应的编码方式。
第一种,对于任意一个句子,对于句子中的数字,分词器按照整个数值进行分词,然后进行编码。以语句“计算37.18 × 341.9”为例,分词后可以得到“计”,“算”,“37.18”,“×”,“341.9”,然后对“计”,“算”,“37.18”,“×”,“341.9”各个分词进行编码。每一个分词的编码区域分为五个部分
Figure 992443DEST_PATH_IMAGE012
,其中,
Figure 234245DEST_PATH_IMAGE002
部分为按照汉字词表
Figure 292593DEST_PATH_IMAGE014
进行独热编码的向量,
Figure 340052DEST_PATH_IMAGE005
为数学符号编码,表示该分词结果是否为数学符号,
Figure 102734DEST_PATH_IMAGE006
为数学符号的独热编码,
Figure 227072DEST_PATH_IMAGE007
为数值编码,表示该分析结果是否表示一个数值,
Figure 874565DEST_PATH_IMAGE008
为该数字代表的具体数值。
第二种,对于任意一个分词结果,对于分词结果中的数字,按照单个数字进行分词,然后进行编码。还是以语句“计算37.18 × 341.9”为例,分词后可以得到“计”,“算”,“3”,“7”,“.”,“1”,“8”,“×”,“3”,“4”,“1”,“.”,“9”,然后对“计”,“算”,“3”,“7”,“.”,“1”,“8”,“×”,“3”,“4”,“1”,“.”,“9”各个分词进行编码。每一个分词的编码区域分为五个部分
Figure 330692DEST_PATH_IMAGE012
,其中
Figure 726426DEST_PATH_IMAGE002
部分为按照汉字词表
Figure 361063DEST_PATH_IMAGE014
进行独热编码的向量,
Figure 89110DEST_PATH_IMAGE005
为数学符号编码,表示该分词结果是否为数学符号,
Figure 783265DEST_PATH_IMAGE006
为数学符号的独热编码,
Figure 282556DEST_PATH_IMAGE007
为数字编码,表示该分词结果的字符串是否为[0~9],
Figure 847398DEST_PATH_IMAGE008
为该数字的独热编码。
上述两种编码方式仅为示例,在可实现上,编码区域也可以是其中的3个部分,例如
Figure DEST_PATH_IMAGE016
或者
Figure 139489DEST_PATH_IMAGE010
S303,将编码后的向量作为神经网络的输入;神经网络的选择包括但不限于基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers,BERT)、GPT-2.0、单词转换成向量(word to vector,word2vec)或Elmo等语言模型。
S304,在训练的过程中,可以采用对句子中随机位置进行掩码的方式进行训练。具体操作:对于语句中随机位置上的词对应的编码,在输入阶段进行掩码(置空或置零),定义模型输出被掩码的字或者词对应的编码。
或者,采用对段落中预测下一句的方式进行训练。具体操作:将一段话中的下一句在输入阶段进行掩盖,定义模型输出下一句对应的编码。
S305,在训练的过程中,需要根据标签(label)进行损失计算,包括两种方式:第一种,对需要预测的分词,标签设置为整个编码区域,即
Figure 976733DEST_PATH_IMAGE012
整个区域;训练时整个编码区域全部参与损失计算。第二种,对需要预测的分词,标签设置为整个编码区域,即
Figure 573323DEST_PATH_IMAGE012
整个区域;训练时只有[
Figure DEST_PATH_IMAGE017
]参与损失计算。第一种方式适用于模型预测输出为全结果预测,第二种方式适用于模型预测输出为仅预测字符类型。
S306,经充分的训练后,得到最终的文本识别模型。
一种应用场景,在进行自然语言处理相关的上层任务(如文本分类、情感分析、机器、机器翻译、智能解题等等)时,首先在一个比较大的语料库上进行无监督的训练方法,得到初始模型;然后,再在具体的任务数据集上进行精调,此时可以采用上述步骤S300至步骤S306所提供的方法,完成初始模型的训练,得到最终的文本识别模型。
图4示出根据本申请实施例的文本识别方法的流程图。如图4所示,该方法可以包括:
S401,对待识别文本进行分词处理,得到分词结果。
S402,对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果中各分词的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符。
S403,将分词结果的编码输入文本识别模型,得到文本识别结果,其中,文本识别模型采用上述本申请任一实施例所提供的文本识别模型的生成方法所生成的。
如此,在预测阶段,输入模型的编码对数学字符进行特殊考虑,并且,在训练阶段,输入模型的训练样本也是对数学字符进行特殊考虑,因此,使得本模型能够提高处理与数学相关的自然语言处理能力,提高在数学场景中的适应能力。
进一步地,步骤S402关于分词结果的编码方式,可以参考上述本申请实施例提供的数据处理方法中分词结果的编码方式,此处不再赘述。
图5示出根据本申请实施例的数据处理装置500的结构框图。如图5所示,该装置可以包括:
第一分词模块501,用于对待处理文本进行分词处理,得到分词结果。
第一编码模块502,用于对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符。
训练样本确定模块503,用于根据分词结果的编码,确定训练样本。
在一种实施方式中,数据处理装置还包括:第二分词模块。
第二分词模块,用于在分词结果中存在数值的情况下,对数值按照单个数字进行再次分词。
第一编码模块,用于对再次分词后的分词结果中的分词进行编码。
在一种实施方式中,数学字符包括数字、数值和数学符号中至少一种。
至少两类编码中其中一类编码为分词关于数字或数值的编码,和/或,至少两类编码中其中一类编码为分词关于数学符号的编码。
在一种实施方式中,至少两类编码中各类编码包括第一子编码和/或第二子编码,其中,第一子编码用于表示分词中是否包含对应类别字符,第二子编码用于表示分词中所包含的对应类别字符的内容。
在一种实施方式中,在至少两类编码中第一类编码为分词关于数字的编码的情况下,采用数字对应的独热编码作为第一类编码的第二子编码。
在至少两类编码中第一类编码为分词关于数值的编码的情况下,采用数值本身作为第一类编码的第二子编码。
在一种实施方式中,训练样本包括分词结果的编码经过随机掩码后剩下的部分编码,训练样本的标签包括分词结果的编码被随机掩码的部分编码;
或者,训练样本包括分词结果的编码中第一句内容的编码,训练样本的标签包括分词结果的编码中第二句内容的编码,第一句内容和第二句内容为训练样本中相邻的两句内容。
图6示出根据本申请实施例的文本识别模型的生成装置600的结构框图。如图6所示,该装置可以包括:
训练数据获取模块601,用于获取训练数据,训练数据包括训练样本以及训练样本的标签,其中训练样本包括本申请任一实施例的数据处理装置得到的训练样本。
训练模块602,用于根据训练数据训练预设神经网络,训练完成后得到文本识别模型,文本识别模型能够对包含数学字符的文本进行识别。
在一种实施方式中,标签中分词的编码关于数学字符的编码包括第一子编码和第二子编码,第一子编码表示分词中是否包含对应类别字符,第二子编码表示分词中包含对应类别字符的内容的情况下,采用关于数学字符的编码中第一子编码和第二子编码进行损失计算,或者,采用关于数学字符的编码中第一子编码进行损失计算。
图7示出根据本申请实施例的文本识别装置700的结构框图。如图7所示,该装置可以包括:
第三分词模块701,用于对待识别文本进行分词处理,得到分词结果。
第二编码模块702,用于对分词结果中的分词进行编码,得到分词结果的编码,其中,分词结果的编码包括至少两类编码,至少两类编码中各类编码为分词关于各类字符的编码,各类字符中至少一类字符属于数学字符。
识别模块703,用于将分词结果的编码输入文本识别模型,得到文本识别结果,其中,文本识别模型采用本申请任一实施例的文本识别模型的生成装置得到的。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8示出根据本申请实施例的电子设备的结构框图。如图8所示,该电子设备包括:存储器810和处理器820,存储器810内存储有可在处理器820上运行的计算机程序。处理器820执行该计算机程序时实现上述实施例中的数据处理方法、文本识别模型的生成方法以及文本识别方法。存储器810和处理器820的数量可以为一个或多个。
该电子设备还包括:
通信接口830,用于与外界设备进行通信,进行数据交互传输。
如果存储器810、处理器820和通信接口830独立实现,则存储器810、处理器820和通信接口830可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect ,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器810、处理器820及通信接口830集成在一块芯片上,则存储器810、处理器820及通信接口830可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory ,DRAM) 、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (20)

1.一种数据处理方法,其特征在于,包括:
对待处理文本进行分词处理,得到分词结果;
对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符;
根据所述分词结果的编码,确定训练样本。
2.根据权利要求1所述的方法,其特征在于,还包括:在所述分词结果中存在数值的情况下,对数值按照单个数字进行再次分词;
对所述分词结果中的分词进行编码,包括:对所述再次分词后的分词结果中的分词进行编码。
3.根据权利要求1或2所述的方法,其特征在于,所述数学字符包括数字、数值和数学符号中至少一种;
所述至少两类编码中的其中一类编码为所述分词关于数字或数值的编码,和/或,所述至少两类编码中其中一类编码为所述分词关于数学符号的编码。
4.根据权利要求1或2所述的方法,其特征在于,所述至少两类编码中各类编码包括第一子编码和/或第二子编码,其中,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容。
5.根据权利要求4所述的方法,其特征在于,在所述至少两类编码中第一类编码为所述分词关于数字的编码的情况下,采用数字对应的独热编码作为所述第一类编码的第二子编码;
在所述至少两类编码中第一类编码为所述分词关于数值的编码的情况下,采用数值本身作为所述第一类编码的第二子编码。
6.根据权利要求1所述的方法,其特征在于,所述训练样本包括所述分词结果的编码经过随机掩码后剩下的部分编码,所述训练样本的标签包括所述分词结果的编码被随机掩码的部分编码;
或者,所述训练样本包括所述分词结果的编码中第一句内容的编码,所述训练样本的标签包括所述分词结果的编码中第二句内容的编码,所述第一句内容和所述第二句内容为所述训练样本中相邻的两句内容。
7.一种文本识别模型的生成方法,其特征在于,包括:
获取训练数据,所述训练数据包括训练样本以及所述训练样本的标签,其中所述训练样本包括采用权利要求1至6中任一项所述的数据处理方法所确定的训练样本;
根据所述训练数据训练预设神经网络,训练完成后得到文本识别模型,所述文本识别模型能够对包含数学字符的文本进行识别。
8.根据权利要求7所述的方法,其特征在于,所述标签中分词的编码关于数学字符的编码包括第一子编码和第二子编码,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容的情况下,采用关于数学字符的编码中第一子编码和第二子编码进行损失计算,或者,采用关于数学字符的编码中第一子编码进行损失计算。
9.一种文本识别方法,其特征在于,包括:
对待识别文本进行分词处理,得到分词结果;
对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符;
将所述分词结果的编码输入文本识别模型,得到文本识别结果,其中,所述文本识别模型为利用权利要求7或8所述的文本识别模型的生成方法所生成的。
10.一种数据处理装置,其特征在于,包括:
第一分词模块,用于对待处理文本进行分词处理,得到分词结果;
第一编码模块,用于对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符;
训练样本确定模块,用于根据所述分词结果的编码,确定训练样本。
11.根据权利要求10所述的装置,其特征在于,还包括:第二分词模块;
所述第二分词模块,用于在所述分词结果中存在数值的情况下,对数值按照单个数字进行再次分词;
所述第一编码模块,用于对所述再次分词后的分词结果中的分词进行编码。
12.根据权利要求10或11所述的装置,其特征在于,所述数学字符包括数字、数值和数学符号中至少一种;
所述至少两类编码中其中一类编码为所述分词关于数字或数值的编码,和/或,所述至少两类编码中其中一类编码为所述分词关于数学符号的编码。
13.根据权利要求10或11所述的装置,其特征在于,所述至少两类编码中各类编码包括第一子编码和/或第二子编码,其中,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容。
14.根据权利要求13所述的装置,其特征在于,在所述至少两类编码中第一类编码为所述分词关于数字的编码的情况下,采用数字对应的独热编码作为所述第一类编码的第二子编码;
在所述至少两类编码中第一类编码为所述分词关于数值的编码的情况下,采用数值本身作为所述第一类编码的第二子编码。
15.根据权利要求10所述的装置,其特征在于,所述训练样本包括所述分词结果的编码经过随机掩码后剩下的部分编码,所述训练样本的标签包括所述分词结果的编码被随机掩码的部分编码;
或者,所述训练样本包括所述分词结果的编码中第一句内容的编码,所述训练样本的标签包括所述分词结果的编码中第二句内容的编码,所述第一句内容和所述第二句内容为所述训练样本中相邻的两句内容。
16.一种文本识别模型的生成装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据,所述训练数据包括训练样本以及所述训练样本的标签,其中所述训练样本包括采用权利要求10至15中任一项所述的数据处理装置所确定的训练样本;
训练模块,用于根据所述训练数据训练预设神经网络,训练完成后得到文本识别模型,所述文本识别模型能够对包含数学字符的文本进行识别。
17.根据权利要求16所述的装置,其特征在于,所述标签中分词的编码关于数学字符的编码包括第一子编码和第二子编码,所述第一子编码表示所述分词中是否包含对应类别字符,所述第二子编码表示所述分词中包含对应类别字符的内容的情况下,采用关于数学字符的编码中第一子编码和第二子编码进行损失计算,或者,采用关于数学字符的编码中第一子编码进行损失计算。
18.一种文本识别装置,其特征在于,包括:
第三分词模块,用于对待识别文本进行分词处理,得到分词结果;
第二编码模块,用于对所述分词结果中的分词进行编码,得到所述分词结果的编码,其中,所述分词结果的编码包括至少两类编码,所述至少两类编码中各类编码为所述分词关于各类字符的编码,所述各类字符中至少一类字符属于数学字符;
识别模块,用于将所述分词结果的编码输入文本识别模型,得到文本识别结果,其中,所述文本识别模型为利用权利要求16或17所述的文本识别模型的生成装置得到的。
19.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至6任一项所述的数据处理方法、权利要求7或8所述的文本识别模型的生成方法或权利要求9所述的文本识别方法。
20.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据处理方法、权利要求7或8所述的文本识别模型的生成方法或权利要求9所述的文本识别方法。
CN202110581037.8A 2021-05-27 2021-05-27 数据处理方法、文本识别模型的生成方法和文本识别方法 Active CN113033200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110581037.8A CN113033200B (zh) 2021-05-27 2021-05-27 数据处理方法、文本识别模型的生成方法和文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110581037.8A CN113033200B (zh) 2021-05-27 2021-05-27 数据处理方法、文本识别模型的生成方法和文本识别方法

Publications (2)

Publication Number Publication Date
CN113033200A true CN113033200A (zh) 2021-06-25
CN113033200B CN113033200B (zh) 2021-08-24

Family

ID=76455689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110581037.8A Active CN113033200B (zh) 2021-05-27 2021-05-27 数据处理方法、文本识别模型的生成方法和文本识别方法

Country Status (1)

Country Link
CN (1) CN113033200B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792529A (zh) * 2021-11-17 2021-12-14 北京华云安信息技术有限公司 用于机器学习的文本字符编码方法、装置及电子设备
CN114358579A (zh) * 2021-12-31 2022-04-15 科大讯飞股份有限公司 评阅方法、评阅装置、电子设备以及计算机可读存储介质
CN116052648A (zh) * 2022-08-03 2023-05-02 荣耀终端有限公司 一种语音识别模型的训练方法、使用方法及训练***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN109960804A (zh) * 2019-03-21 2019-07-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置
US20190362266A1 (en) * 2017-06-08 2019-11-28 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using a conditional random field model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
US20190362266A1 (en) * 2017-06-08 2019-11-28 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for text attribute determination using a conditional random field model
CN110709828A (zh) * 2017-06-08 2020-01-17 北京嘀嘀无限科技发展有限公司 使用条件随机域模型确定文本属性的***及方法
CN109255013A (zh) * 2018-08-14 2019-01-22 平安医疗健康管理股份有限公司 理赔决策方法、装置、计算机设备和存储介质
CN109960804A (zh) * 2019-03-21 2019-07-02 江西风向标教育科技有限公司 一种题目文本句子向量生成方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792529A (zh) * 2021-11-17 2021-12-14 北京华云安信息技术有限公司 用于机器学习的文本字符编码方法、装置及电子设备
CN113792529B (zh) * 2021-11-17 2022-05-06 北京华云安信息技术有限公司 用于机器学习的文本字符编码方法、装置及电子设备
CN114358579A (zh) * 2021-12-31 2022-04-15 科大讯飞股份有限公司 评阅方法、评阅装置、电子设备以及计算机可读存储介质
CN116052648A (zh) * 2022-08-03 2023-05-02 荣耀终端有限公司 一种语音识别模型的训练方法、使用方法及训练***
CN116052648B (zh) * 2022-08-03 2023-10-20 荣耀终端有限公司 一种语音识别模型的训练方法、使用方法及训练***

Also Published As

Publication number Publication date
CN113033200B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113033200B (zh) 数据处理方法、文本识别模型的生成方法和文本识别方法
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN111611810A (zh) 一种多音字读音消歧装置及方法
CN110377882B (zh) 用于确定文本的拼音的方法、装置、***和存储介质
CN113380223B (zh) 多音字消歧方法、装置、***及存储介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114997174B (zh) 意图识别模型训练及语音意图识别方法、装置和相关设备
CN114881035A (zh) 训练数据的增广方法、装置、设备和存储介质
CN114333838A (zh) 语音识别文本的修正方法及***
CN113268996A (zh) 用于扩充语料的方法和用于翻译模型的训练方法及产品
CN116702765A (zh) 一种事件抽取方法、装置及电子设备
CN113066510B (zh) 一种元音弱读检测方法及装置
CN115577105A (zh) 基于多任务学习的医疗文本信息抽取方法和装置
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN115310432A (zh) 一种错别字检测及纠正方法
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN111816171A (zh) 语音识别模型的训练方法、语音识别方法及装置
CN112989821B (zh) 多音字的注音方法及计算机存储介质
CN111368526B (zh) 一种序列标注方法和***
CN110866390B (zh) 中文语法错误的识别方法、装置、计算机设备和存储介质
Olivo et al. CRFPOST: Part-of-Speech Tagger for Filipino Texts using Conditional Random Fields
CN114548080B (zh) 一种基于分词增强的中文错字校正方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant