CN109710922A

CN109710922A - 文本识别方法、装置、计算机设备和存储介质

Info

Publication number: CN109710922A
Application number: CN201811488045.2A
Authority: CN
Inventors: 张剑; 蒲璐汶; 刘勇
Original assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; Peking University Shenzhen Graduate School
Current assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; Peking University Shenzhen Graduate School
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-05-03

Abstract

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。所述方法包括：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。采用本申请的方案能够提高文本识别的准确性。

Description

文本识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机应用技术的发展，出现了文本识别技术。传统的基于字典的文本识别方法是预先建立实体的数据库，然后将词语和数据库进行匹配，若得不到识别结果，再采用其他方法进行识别。然而，目前的文本识别方法，存在文本识别准确性不高等问题。

发明内容

基于此，有必要针对传统的文本识别方法准确性不高的技术问题，提供一种文本识别方法、装置、计算机设备和计算机存储介质,能够提高文本识别的准确性。

一种文本识别方法，所述方法包括：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。

在其中一个实施例中，对文本内容进行预处理，包括：对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；将文本内容基于字进行分割，得到字数量相同的字序列。

在其中一个实施例中，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

在其中一个实施例中，将第一向量序列的组合特征和第二向量序列的组合特征进行融合,包括：将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

在其中一个实施例中，将第一向量序列的组合特征和第二向量序列的组合特征进行融合,包括：将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

在其中一个实施例中，在获取文本内容之前，还包括：对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体；对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列；根据训练文本内容对应的标记序列识别出命名实体；根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

在其中一个实施例中，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

一种文本识别装置，所述装置包括：获取模块，用于获取文本内容；处理模块，用于对文本内容进行预处理，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；特征组合模块，用于将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；标记序列输出模块，用于将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；命名实体输出模块，用于根据标记序列得到文本内容的命名实体。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。

上述文本识别方法、装置、计算机设备和存储介质，通过获取文本内容，对文本内容进行预处理，再进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络记忆网络，再将得到的特征进行融合输入至条件随机场，以此识别出文本内容的命名实体，不需要为命名实体准备词性和语法规则等，也不需要收集命名实体的数据库，能提取更多的向量序列，也能通过神经网络多次提取和融合更多的特征，得到更精确的命名实体识别结果，提高了文本识别的准确性。

附图说明

图1为一个实施例中文本识别方法的应用环境图；

图2为一个实施例中文本识别的***架构图；

图3为一个实施例中文本识别方法的流程示意图；

图4为一个实施例中第一向量序列的组合特征和第二向量序列的组合特征进行融合步骤的流程示意图；

图5为另一个实施例中第一向量序列的组合特征和第二向量序列的组合特征进行融合的步骤的流程示意图；

图6为一个实施例中训练双向长短时记忆网络和条件随机场步骤的流程示意图；

图7为一个实施例中文本识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例中提供的文本识别方法，可以应用于如图1所示的应用环境中。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，为一个实施例中文本识别***的架构图。终端将原始文本内容输入，进行分词后和分字操作后得到词序列和字序列。终端使用嵌入向量表示词序列和字序列，分别得到词嵌入向量和字嵌入向量。然后，终端将词嵌入向量输入前向长短时记忆网络和反向长短时记忆网络中，并进行特征组合，得到词嵌入向量的组合特征。同时，终端将字嵌入向量输入至前向长短时记忆网络和反向长短时记忆网络中，并进行特征组合，得到字嵌入向量的组合特征。终端将词嵌入向量的组合特征输入至全卷积网络，然后与字嵌入向量的组合特征进行融合。最后，终端将融合后的特征输入至条件随机场，得到原始文本内容对应的标记序列。终端再将原始文本内容对应的标记序列与原始文本内容进行结合，得到文本内容对应的命名实体。

上述文本识别方法中，使用字序列特征与词序列特征共同表达句子特征的方式，提升模型对命名实体的识别分析能力。终端单独使用字特征序列建立模型，先用神经网络提取特征，然后分析句子中任意两个字的关系。单独使用词特征建立模型，先用神经网络提取特征，然后利用特征做一个分类。联合模型里，两个模型共用一个神经网络的全连接层来进行特征融合，最后作为一个条件随机场的输入，进行最后的命名实体识别。

在一个实施例中，如图3所示，提供了一种文本识别方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤302，获取文本内容，并对文本内容进行预处理。

其中，文本内容可以是任意一个文本的内容，可以是中文文本内容，也可以是英文文本内容，包括文字和符号等。

具体地，终端获取文本内容，对文本内容进行预处理。预处理可包括对文本内容进行分字、分词或者分句中的至少一种。当对文本内容进行分句时，终端可根据标点符号进行分句。当对文本内容进行分词时，终端可根据数据库中的词语等对文本内容进行分词。当对文本内容进行分字时，终端可根据文本内容中的每个字进行分字。

步骤304，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列。

具体地，终端将预处理后的文本内容转化为向量，可得到第一向量序列和第二向量序列，其中第一向量序列与第二向量序列并非相同的向量序列。

本实施例中，第一向量序列和第二向量序列可以是句子向量序列、词向量序列或字向量序列。

步骤306，将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征。

其中，长短时记忆网络(Long Short Term Memory Network,LSTM)是一种循环神经网络。双向长短时记忆网络包括前向长短时记忆网络(Forward LSTM) 和反向长短时记忆网络(Backward LSTM)。

具体地，终端将第一向量序列输入前向长短时记忆网络和反向长短时记忆网络，前向长短时记忆网络和反向长短时记忆网络分别提取第一向量序列中的特征，并把得到的特征组合起来，得到第一向量序列的组合特征。同样地，终端将第二向量序列输入前向长短时记忆网络和反向长短时记忆网络，前向长短时记忆网络和反向长短时记忆网络分别提取第二向量序列中的特征，并把得到的特征组合起来，得到第二向量序列的组合特征。其中，长短时记忆网络提取的特征为包含上下文信息即时序信息的细胞状态特征。

步骤308，将第一向量序列的组合特征和第二向量序列的组合特征进行融合, 并输入至条件随机场，得到文本内容对应的标记序列。

其中，条件随机场(Conditional Random Field,CRF)是指是在给定一组输入随机变量条件下，另外一组输出随机变量的条件概率分布模型。在神经语言程序学中，条件随机场是用于标注和划分序列数据的概率化模型。标记序列是指对序列中的每一个元素做了标记的序列。

具体地，终端将第一向量序列的组合特征和第二向量序列的组合特征进行融合，将融合后的特征输入至条件随机场，条件随机场依据现有参数，计算出全局概率最高的文本内容对应的标记序列。

步骤310，根据标记序列得到文本内容的命名实体。

其中，命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体。命名实体中更广泛的实体还包括数字、日期、货币、地址等等。命名实体是命名实体识别的研究主体，一般包括3大类，包括实体类、时间类和数字类，和7小类，包括人名、地名、机构名、时间、日期、货币和百分比。当评判一个命名实体是否被正确识别包括两个方面：实体的边界是否正确；实体的类型是否标注正确。

具体地，终端根据得到的标记序列，再与文本内容进行结合，则能得到文本内容的命名实体。本实施例中，例如获取的文本内容中有“脱氧核糖核酸”，那么输出的标记序列为“B-NER、/I-NER、/I-NER、/I-NER、/I-NER、/E-NER”。终端将输出的标记序列与获取的文本内容相结合，则得到“脱氧核糖核酸”。其中，“脱氧核糖核酸”为一个医学命名实体。上述文本识别方法中，通过获取文本内容，对文本内容进行预处理，再进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络记忆网络，再将得到的特征进行融合输入至条件随机场，以此识别出文本内容的命名实体，不需要为命名实体准备词性和语法规则等，也不需要收集命名实体的数据库，能提取更多的向量序列，也能通过神经网络多次提取和融合更多的特征，得到更精确的命名实体识别结果，提高了文本识别的准确性。

在一个实施例中，对文本内容进行预处理，包括：对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；将文本内容基于字进行分割，得到字数量相同的字序列。

其中，分词是指将一个汉字序列切分成一个个单独的词。

具体地，终端可选择结巴中文分词等分词工具对文本内容进行分词，成为基于词的模型，将分词后的文本内容分割成词数量相同的词序列。例如，终端将文本内容按照句子先进行分割，每个句子的长度为一个预设值，本实施例中以句子的长度最多30个词为例。当句子长度大于30词时，终端对多出的部分进行截断。当句子长度小于30个词时，对于不足的部分，终端采用相同数量的 <PAD>进行填充。如句子长度为25个词，则不足的词语个数为5个词，那么采用5个<PAD>进行填充。

同时，终端将文本内容基于字进行分割，得到字数量相同的字序列。其中，字数量可以是预设的字数量，例如每个句子的长度最多为50个字,每个字序列中有50个字。

上述文本识别方法中，将文本内容分割成词数量相同的词序列和字数量相同的字序列，能从多角度提取文本内容中的特征，提高文本识别的准确性。

在一个实施例中，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

具体地，当终端将字序列转化为第一向量序列时，则词序列被转化为第二向量序列；当终端将词序列转化为第一向量序列时，则字序列被转化为第二向量序列。

本实施例中，向量转化可采用词嵌入的方式。终端将词序列和字序列中的一个采用词嵌入的方式转化为第一向量序列，将词序列和字序列中的另一个采用词嵌入的方式转化为第二向量序列。词嵌入是一种词的类型表示，是将词汇映射到实数向量的方法总称。例如在一个文本中包含“猫”“狗”“爱情”等若干单词，而当这若干单词映射到向量空间中，则“猫”对应的向量为(0.1，0.2， 0.3)，“狗”对应的向量为(0.2，0.2，0.4)，“爱情”对应的映射为(-0.4， -0.5，-0.2)。

上述文本识别方法中，通过将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列，能得到词向量序列和字向量序列，从而得到更多的特征，进一步得到更精确的命名实体识别结果，提高了文本识别的准确性。

在一个实施例中，如图4所示，将第一向量序列的组合特征和第二向量序列的组合特征进行融合,包括：

步骤402，将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征。

其中，全卷积网络(Fully Convolutional Networks，FCN)中的所有的层都是卷积层，其中卷积层不限个数。第一向量序列的组合特征可以是词向量序列的组合特征、字向量序列的组合特征和句子向量序列的组合特征中的一种，而另外两种中的一种作为第二向量序列的组合特征。

具体地，终端将第一向量序列的组合特征输入至全卷积网络，全卷积网络对第一向量序列的组合特征进一步地提取特征，得到第一向量序列的关联特征。卷积层的每一层都是在进行特征映射，当层数越多时，终端得到的特征就越具体。

步骤404，调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长。

具体地，终端调整第一向量序列的关联特征的长度和第二向量序列的组合特征的长度，将二者的长度调节为等长。其中，第一向量序列的关联特征的长度和第二向量序列的组合特征的长度可以是终端预设的长度，也可以是终端获取的长度对应的参数。终端还可以将第一向量序列的关联特征的长度调节成与第二向量序列的组合特征的长度相等，也可以将第二向量序列的组合特征的长度调节成与第一向量序列的关联特征的长度相等。

步骤406，将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

具体地，终端将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征进行叠加处理。例如，终端将等长的第一向量序列的关联特征和等长的第二向量序列的组合特征中的每一维度的值进行相加，或者进行加权叠加，或者直接扩充向量中的特征。

上述文本识别方法中，将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征，调整第一向量序列的特征长度和第二向量序列的特征长度为等长，再将特征叠加处理，能进一步地提取向量序列中更细致的特征，提高了文本识别的准确性。

在一个实施例中，第一向量序列的组合特征和第二向量序列的组合特征进行融合,包括：

步骤502，将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征。

其中，第一向量序列的组合特征可以是词向量序列的组合特征、字向量序列的组合特征和句子向量序列的组合特征中的一种，而另外两种中的一种作为第二向量序列的组合特征。

具体地，终端将第一向量序列的组合特征和第二向量序列的组合特征都输入全卷积网络，全卷积网络对第一向量序列和第二向量序列的组合特征进行进一步地提取特征，得到第一向量序列的关联特征和第二向量序列的关联特征。卷积层的每一层都是在进行特征映射，当层数越多时，终端得到的特征就越具体。

步骤504，调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长。

具体地，终端调整第一向量序列的关联特征的长度和第二向量序列的关联特征的长度，将二者的长度调节为等长。其中，第一向量序列的关联特征的长度和第二向量序列的关联特征的长度可以为终端预设的长度，也可以为终端获取的长度对应的参数。终端还可以将第一向量序列的关联特征的长度调节成与第二向量序列的关联特征的长度相等，也可以将第二向量序列的关联特征的长度调节成与第一向量序列的关联特征的长度相等。

步骤506，将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

具体地，终端将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征进行叠加处理。例如，终端将等长的第一向量序列的关联特征和等长的第二向量序列的关联特征中的每一维度的值进行相加，或者进行加权叠加，或者直接扩充向量中的特征。

上述文本识别方法中，将第一向量序列和第二向量序列都输入全卷积网络，能得到第一向量序列的关联特征和第二向量序列的关联特征，再进行叠加处理，能进一步提取向量序列中更多的更细致的特征，提高了文本识别的准确性。

在一个实施例中，在获取文本内容之前，还包括：

步骤602，对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体。

其中，第一序列是指词序列、字序列或向量序列中的一种，第二序列是指指词序列、字序列或向量序列中的另外一种。

具体地，终端获取训练文本，并对训练文本内容进行预处理。例如终端将该训练文本内容分割为第一序列，再将该训练文本内容分割为第二序列，则得到第一序列和第二序列。终端对第一序列和第二序列中命名实体进行标注，划分出第一序列和第二序列中的命名实体。

本实施中，终端还可以划分训练文本中的命名实体的类型。例如当训练为本为医学训练文本时，终端将命名实体分为三类，分别是药物实体、蛋白质实体和疾病实体。例如命名实体类型为组织，命名实体为世界贸易组织。命名实体类型人，命名实体为李某某或张某某。命名实体类型为地点，命名实体为世界之窗。命名实体类型为日期，命名实体为2018-06-05。命名实体类型为时间，命名实体为10：30或1:30pm。命名实体类型为货币，命名实体为100万美元。命名实体类型为百分数，命名实体为百分之二十或100％。命名实体类型为设施，命名实体为健身房、实验室。命名实体类型为地缘政治实体，命名实体为中国、广东省或深圳市。终端还可以按照一定的比例将标注好的命名实体分为训练文本和测试文本，例如按照8比2的比例。则训练文本用于训练双向长短时记忆网络和条件随机场等，测试文本用于测试经过双向长短时记忆网络和条件随机场得出的结果是否符合预期等。

步骤604，对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列。

具体地，终端将标注命名实体后的第一序列和标注命名实体后的第二序列转化为向量，则得到第一向量序列和第二向量序列。

本实施例中，终端使用收集的无标注医学文本训练词向量和字向量。然后使用工具word2vec，一种词向量学习模型，学习得到文本的嵌入向量表示。其中，词向量维度为300维，字向量维度为250维。

步骤606，将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征。

具体地，终端将第一向量序列输入前向长短时记忆网络和反向长短时记忆网络，前向长短时记忆网络和反向长短时记忆网络分别提取第一向量序列中的特征，并把得到的特征组合起来，得到第一向量序列的组合特征。同样地，终端将第二向量序列输入前向长短时记忆网络和反向长短时记忆网络，前向长短时记忆网络和反向长短时记忆网络分别提取第二向量序列中的特征，并把得到的特征组合起来，得到第二向量序列的组合特征。

步骤608，将第一向量序列的组合特征和第二向量序列的组合特征进行融合, 并输入至条件随机场，得到训练文本内容对应的标记序列。

步骤610，根据训练文本内容对应的标记序列识别出命名实体。

具体地，终端根据训练文本对应的标记序列，与训练文本中的标记序列相结合，识别出训练文本中的命名实体。

步骤612，根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

具体地，终端根据识别出的命名实体与标注的命名实体之间的结果，例如识别出的命名实体与标注的命名实体不完全一致时，调整双向长短时记忆网络中的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和训练好的条件随机场。

本实施例中，终端可不断获取训练文本内容，进行预处理得到第一序列和第二序列，并对第一序列和第二序列进行向量转化得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列。终端将标记序列再与训练文本内容结合，得到训练后的命名实体。当识别出的命名实体与标注的命名实体不完全一致时，则终端会通过损失函数得到整体模型的损失。根据整体模型的损失，终端持续调整双向长短时记忆网络中的参数和条件随机场的参数，例如连接层和池化层等双向长短时记忆网络模型中的各层参数，以提高双向长短时记忆网络和条件随机场识别文本的准确性。

上述文本识别方法中，将训练文本内容输入模型中进行训练，根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场，再用到后续文本识别中，能不断训练和优化整个文本识别的模型，提高文本识别的准确性。

在一个实施例中，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

其中，嵌入向量是指采用词嵌入的方式得到的向量，包括字嵌入向量、词嵌入向量和句子嵌入向量。

具体地，终端使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。例如当预处理后的文本内容为词序列时，使用嵌入向量表示该词序列，得到词向量序列；当预处理后的文本内容为字序列时，使用嵌入向量表示该字序列，得到字向量序列。

上述文本识别方法中，使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列，则当进行文本识别时，不需要去掉词语进行特征的提取，且能得到连续的向量，方便终端进行向量的学习，能提高终端的学习能力以及文本识别的准确性。在一个实施例中，一种文本识别方法，包括：

步骤(a1)，对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体。

步骤(a2)，对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列。

步骤(a3)，将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征。

步骤(a4)，将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列。

步骤(a5)，根据训练文本内容对应的标记序列识别出命名实体。

步骤(a6)，根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

步骤(a7)，获取文本内容，对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列。

步骤(a8)，将文本内容基于字进行分割，得到字数量相同的字序列。

步骤(a9)，将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

步骤(a10)，将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征。

终端执行下述的步骤(a11)至步骤(a13)，或者执行步骤(a14)至步骤 (a16)。

步骤(a11)，将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征。

步骤(a12)，调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长。

步骤(a13)，将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

步骤(a14)，将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征。

步骤(a15)，调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长。

步骤(a16)，将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

步骤(a17)，输入至条件随机场，得到文本内容对应的标记序列。

步骤(a18)，根据标记序列得到文本内容的命名实体。

上述文本识别方法中，通过获取文本内容，对文本内容进行预处理，再进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络记忆网络，再将得到的特征进行融合输入至条件随机场，以此识别出文本内容的命名实体，不需要为命名实体准备词性和语法规则等，也不需要收集命名实体的数据库，能提取更多的向量序列，也能通过神经网络多次提取和融合更多的特征，得到更精确的命名实体识别结果，提高了文本识别的准确性。

在一个实施例中，自文本识别正式提出以来，传统方式是基于规则和字典的方法。基于规则的方法是要尽力找出全部实体的构成规则，然后与单词或字序列进行匹配。基于规则的方法举例如下：

组织名：{[人名][组织名][地名][核心名]}*[组织类型]<指示词>

人名：[姓氏][名字]|[姓氏][职称|称谓]|阿<名字>|[老|小][姓氏]

地名：<名字部分>*<指示词>

而基于字典的方法则是预先建立实体的数据库，然后将单词或词序列和数据库进行匹配，如有没有识别结果，再采用其他方法进行识别。例如对于中文名和译名，建立姓氏数据库、名字数据库、职称和称谓数据库，以减小字词的搜索空间；对地名，建立一个包括国家、省、自治区、直辖市、县、镇，以及山脉、河流、湖泊、峡谷、海湾、海岛等具有固定意义的地名库；对于组织名，建立组织名数据库，加速组织数据库的识别。

与基于规则和字典的方法相比，基于机器学习的方法利用原始或经过简单加工的语料。用于命名实体识别的机器学习方法将命名实体任务视为一个序列到序列(seq2seq)的问题，使用BIO等方法标记。其中，B代表一个实体的开始，I代表一个实体的内部，O代表不是实体。主要有n元模型、隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵隐马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional Random Field，CRF)。其输入一个词序列或字序列，输出是对应长度的实体标记序列。例如文本内容为“于大宝帮助中国队获胜”，输出的标记序列为(B-PER、I-PER、I-PER、O、O、B-ORG、 I-ORG、O、O)。

鉴于深度学习自动提取特征的强大能力，出现了使用深度学习代替手工设计进行特征提取的方法。基于CNN(Convolution Neural Network)和RNN (Recurrent NeuralNetwork)的方法都有学者进行了尝试，典型的方法是使用双向LSTM提取时序特征，然后直接使用全FCN(Full Connected Network) +softmax，即将模型输出值转化为分别对各个类别的概率，对每一个词或字进行分类。但是这样忽略了标记之间的关系，容易输出错误标记序列。如“I-org”不可能出现在“B-location”的后面。

因此，上述传统的基于规则和字典的方法，因为规则的提取和专属数据库的构建都需要大量的人力，特别是规则的提取，构建过程需要大量的语言学知识，主观性强，需要富有经验的语言学家才能完成；其次，不同语言、不同领域的知识规则不尽相同，所以规则可移植性差；再次，规则之间存在冲突；最后，规则的覆盖范围有限，难以覆盖所有命名实体的知识，并且语言也在不断的发展，规则知识的获取成为这一传统方法的瓶颈。而上述基于机器学习的方法隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵隐马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional Random Field，CRF)，主要工作在于如何构建、学习更具有表征能力的特征。特征的选择对于模型的性能提升起着至关重要的作用，所以，这需要一定的专业知识和大量的设计经验，而这极大地限制了文本识别方法的发展和应用。

而本申请实施例中的文本识别方法，是双向LSTM(long short term memorynetwork)+条件随机场(conditinal random field,CRF)。条件随机场能依据现有参数，计算出全局概率最高的输出序列。常用于命名实体识别的机器学习方法，都存在马尔可夫独立性假设，即当前位置仅和相邻位置有关。这一假设明显和实际情况不相符合，即当前词可以还和距离它很远的词有关。将双向长短时记忆网络和条件随机场结合以后，前半部分网络提取出的特征，作为特征，可以基本假设是上下文无关的，或者是关系很弱的特征。所以双向长短时记忆网络和条件随机场结合后，得到的结果更加符合马尔可夫假设，优势互补，大幅提高性能。

应该理解的是，虽然图3-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本识别装置，包括：获取模块702、处理模块704、特征组合模块706和标记序列输出模块708，其中：

获取模块702，用于获取文本内容。

处理模块704，用于对文本内容进行预处理，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列。

特征组合模块706，用于将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征。

标记序列输出模块708，用于将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列。

命名实体输出模块710，用于根据标记序列得到文本内容的命名实体。

上述文本识别装置中，通过获取文本内容，对文本内容进行预处理，再进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络记忆网络，再将得到的特征进行融合输入至条件随机场，以此识别出文本内容的命名实体，不需要为命名实体准备词性和语法规则等，也不需要收集命名实体的数据库，能提取更多的向量序列，也能通过神经网络多次提取和融合更多的特征，得到更精确的命名实体识别结果，提高了文本识别的准确性。

在一个实施例中，处理模块704用于对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；将文本内容基于字进行分割，得到字数量相同的字序列。

上述文本识别装置中，将文本内容分割成词数量相同的词序列和字数量相同的字序列，能从多角度提取文本内容中的特征，提高文本识别的准确性。

在一个实施例中，处理模块704用于将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

上述文本识别装置中，通过将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列，能得到词向量序列和字向量序列，从得到更多的特征，进一步得到更精确的命名实体识别结果，提高了文本识别的准确性。

在一个实施例中，标记序列输出模块708用于将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

上述文本识别装置中，将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征，调整第一向量序列的特征长度和第二向量序列的特征长度为等长，再将特征叠加处理，能进一步地提取向量序列中更细致的特征，提高了文本识别的准确性。

在一个实施例中，标记序列输出模块708用于将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

上述文本识别装置中，将第一向量序列和第二向量序列都输入全卷积网络，能得到第一向量序列的关联特征和第二向量序列的关联特征，再进行叠加处理，能进一步提取向量序列中更多更细致的特征，提高了文本识别的准确性。

在一个实施例中，处理模块704还用于对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体；对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列。特征组合模块706还用于将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征。标记序列输出模块708还用于将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列。命名实体输出模块还用于根据训练文本内容对应的标记序列识别出命名实体。文本识别装置还包括参数调整模块，参数调整模块用于根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

上述文本识别装置中，将训练文本内容输入模型中进行训练，根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场，再用到后续文本识别中，能不断训练和优化整个文本识别的模型，提高文本识别的准确性。

在一个实施例中，处理模块704用于使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

上述文本识别装置中，使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列，则当进行文本识别时，不需要去掉词语进行特征的提取，且能得到连续的向量，方便终端进行向量的学习，能提高终端的学习能力以及文本识别的准确性。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；将文本内容基于字进行分割，得到字数量相同的字序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体；对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列；根据训练文本内容对应的标记序列识别出命名实体；根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取文本内容，并对文本内容进行预处理；对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；根据标记序列得到文本内容的命名实体。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；将文本内容基于字进行分割，得到字数量相同的字序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将词序列和字序列中的一个转化为第一向量序列，将词序列和字序列中的另一个转化为第二向量序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的组合特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将第一向量序列的组合特征和第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征；调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长；将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体；对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列；将第一向量序列和第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征；将第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到训练文本内容对应的标记序列；根据训练文本内容对应的标记序列识别出命名实体；根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，所述方法包括：

获取文本内容，并对所述文本内容进行预处理；

对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；

将所述第一向量序列和所述第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；

将所述第一向量序列的组合特征和所述第二向量序列的组合特征进行融合,并输入至条件随机场，得到所述文本内容对应的标记序列；

根据所述标记序列得到所述文本内容的命名实体。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行预处理，包括：

对所述文本内容进行分词，将分词后的文本内容分割成词数量相同的词序列；

将所述文本内容基于字进行分割，得到字数量相同的字序列。

3.根据权利要求2所述的方法，其特征在于，所述对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：

将所述词序列和所述字序列中的一个转化为第一向量序列，将所述词序列和所述字序列中的另一个转化为第二向量序列。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述将所述第一向量序列的组合特征和所述第二向量序列的组合特征进行融合,包括：

将所述第一向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征；

调整所述第一向量序列的关联特征的长度与所述第二向量序列的组合特征的长度为等长；

将等长的第一向量序列的关联特征与等长的第二向量序列的组合特征叠加处理。

5.根据权利要求1至3任意一项所述的方法，其特征在于，所述将所述第一向量序列的组合特征和所述第二向量序列的组合特征进行融合,包括：

将所述第一向量序列的组合特征和所述第二向量序列的组合特征输入至全卷积网络，得到第一向量序列的关联特征和第二向量序列的关联特征；

调整第一向量序列的关联特征的长度与第二向量序列的关联特征的长度为等长；

将等长的第一向量序列的关联特征与等长的第二向量序列的关联特征叠加处理。

6.根据权利要求1所述的方法，其特征在于，在所述获取文本内容之前，还包括：

对训练文本内容进行预处理，得到第一序列和第二序列，标注第一序列和第二序列中的命名实体；

对标注命名实体后的第一序列和第二序列进行向量转化，得到第一向量序列和第二向量序列；

将所述第一向量序列和所述第二向量序列输入至双向长短期网络，得到第一向量序列的组合特征和第二向量序列的组合特征；

将所述第一向量序列的组合特征和第二向量序列的组合特征进行融合,并输入至条件随机场，得到所述训练文本内容对应的标记序列；

根据所述训练文本内容对应的标记序列识别出命名实体；

根据识别出的命名实体与标注的命名实体调整双向长短时记忆网络的参数和条件随机场的参数，得到训练好的双向长短时记忆网络和条件随机场。

7.根据权利要求1至3任意一项所述的方法，其特征在于，所述对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列，包括：

使用嵌入向量表示预处理后的文本内容，得到第一向量序列和第二向量序列。

8.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取文本内容；

处理模块，用于对所述文本内容进行预处理，对预处理后的文本内容进行向量转化，得到第一向量序列和第二向量序列；

特征组合模块，用于将所述第一向量序列和所述第二向量序列输入至双向长短时记忆网络，得到第一向量序列的组合特征和第二向量序列的组合特征；

标记序列输出模块，用于将所述第一向量序列的组合特征和所述第二向量序列的组合特征进行融合,并输入至条件随机场，得到文本内容对应的标记序列；

命名实体输出模块，用于根据所述标记序列得到所述文本内容的命名实体。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。