CN111414757B - 一种文本识别方法及装置 - Google Patents
一种文本识别方法及装置 Download PDFInfo
- Publication number
- CN111414757B CN111414757B CN201910008861.7A CN201910008861A CN111414757B CN 111414757 B CN111414757 B CN 111414757B CN 201910008861 A CN201910008861 A CN 201910008861A CN 111414757 B CN111414757 B CN 111414757B
- Authority
- CN
- China
- Prior art keywords
- word vector
- text
- recognized
- word
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种文本识别方法及装置,涉及数据处理技术领域,主要目的在于提高识别命名实体的准确率;主要技术方案包括:利用语料进行语言模型训练,得到语言模型;确定所述语料对应的词向量列表;基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。
Description
技术领域
本发明涉及数据处理技术领域,特别是涉及一种文本识别方法及装置。
背景技术
命名实体识别是指识别文本中具有特定意义的实体,该具有特定意义的实体主要包括人名、地名、机构名、专有名词等。在电商、信息检索、智能翻译等应用中命名实体识别尤为重要,因为通过命名实体识别可以获取用户意图,从而快速准确完成搜索等业务处理。
目前,命名实体识别通常是基于规则或词表的识别方法进行的。在基于规则进行命名实体识别时,通常按照规则识别出待识别文本的固定部分和可变部分,但是由于待识别文本内容上的不确定性,因此命名实体识别的准确度不高。在基于词表进行命名实体识别时,该词表中存储了大量的已识别出的命名实体。在对待识别文本进行识别时,将待识别文本与词表中的命名实体进行匹配,在匹配上时则就识别出了待识别文本中的命名实体。但是如果待识别文本中的命名实体未记载在词表中,则就不能识别出待识别文本中的命名实体,可见,命名实体识别的准确度不高。
发明内容
有鉴于此,本发明提出了一种文本识别方法及装置,主要目的在于提高识别命名实体的准确率。
第一方面,本发明提供了一种文本识别方法,该方法包括:
利用语料进行语言模型训练,得到语言模型;
确定所述语料对应的词向量列表;
基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别。
第二方面,本发明提供了一种文本识别装置,该装置包括:
训练单元,用于利用语料进行语言模型训练,得到语言模型;
第一确定单元,用于确定所述语料对应的词向量列表;
第二确定单元,用于基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
第一识别单元,用于至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别。
第三方面,本发明提供了一种电子设备,所述电子设备包括:存储介质和处理器;
所述处理器,适于实现各指令;
所述存储介质,适于存储多条指令;
所述指令适于由所述处理器加载并执行如上述中任意一项所述的文本识别方法。
借由上述技术方案,本发明提供的文本识别方法及装置,通过利用语料进行语言模型训练得到语言模型,并基于该语言模型确定待识别文本的字符的第一词向量。然后确定预设语料对应的词向量列表,并基于该词向量列表确定待识别文本的字符的第二词向量。最后基于待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对待识别文本进行命名实体识别。可见,本方案中命名实体识别是基于待识别文本的字符的第一词向量以及第二词向量来进行的,由于字符的第一向量可以反映出字符在待识别文本中的上下文关系,第二向量可以对字符进行静态表示反映出字符的字面特征,因此本发明提供的方案可以提高识别命名实体的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明一个实施例提供的一种文本识别方法的流程图;
图2示出了本发明另一个实施例提供的一种文本识别方法的流程图;
图3示出了本发明一个实施例提供的一种文本识别方法的结构示意图;
图4示出了本发明另一个实施例提供的一种文本识别方法的结构示意图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种文本识别方法,如图1所示,该方法主要包括:
101、利用语料进行语言模型训练,得到语言模型。
其中,该文本识别方法可以在任意应用场景中使用,因此,本步骤中所涉及的语料应是该方法应用场景中所涉及的语料。举例说明:在该文本识别方法的应用场景为电商场景时,语料为电商运营过程所涉及的大量文本,该大量文本中可以包括但不限于品牌名称、产地名称、厂商名称、产品规格等命名实体。另外,该大量文本可以为但不限于中文文本。可见,本步骤中所涉及的语料与本方法的应用场景有关,也就是本方法可以对任意应用场景中的待识别文本进行文本识别,业务适用性较强。
本步骤中利用语料进行语言模型训练时可以利用语料的n-gram特征进行语言模型训练,其所涉及的语料的n-gram特征是从语料中提取的。从语料中提取n-gram特征的过程可以包括但不限于:基于语料中的标点符号将语料拆分成若干个短句子;基于预设的n(n为大于0的整数)的数值,从语料中提取若干个长度是n的字节片段序列,每一个长度是n的字节片段序列均为一个n-gram特征。
举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为1,则提取的1-gram特征分为:美、的、空、调。
举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为2,则提取的2-gram特征分为:美的、的空、空调、调。
举例说明:以语料中的一个短句“美的空调”为例进行说明,n的数值为3,则提取的3-gram特征分为:美的空、的空调、空调、调。
通过上述的举例说明可以看出,任意一个n-gram特征仅与其前面的n-1个字符相关,而与其他任何字符不相关。另外,需要说明的是,语料的n-gram特征可以是同一个数值n的n-gram特征,也可以是至少两个不同数值n的n-gram特征。
本步骤中在提取出语料的n-gram特征之后,采用预设的模型算法依据语料的n-gram特征训练出语言模型,该语言模型可以体现各个n-gram特征之间的上下文信息。该预设的模型算法可以根据业务要求确定,且可以包括但不限于双向多层LSTM(Long Short-Term Memory)。
102、确定所述语料对应的词向量列表。
具体的,将语料输入到预设的词向量产生模型中,由预设的词向量产生模型生成语料对应的词向量列表。该词向量列表中包括至少一个分词以及至少一个词向量的对应关系,且不同的分词对应不同的词向量,其中,至少一个分词均包括在语料中。词向量列表中的分词可以由至少一个字符排列成。
需要说明的是,词向量产生模型的具体类型可以根据业务要求确定。可选的,词向量产生模型可以包括但不限于word2vec。
103、基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量。
本步骤中所涉及的待识别文本可以是业务人员指定的,也可以是实时或以设定的周期从设定的网站(比如,电商网站)或设定的数据存储区(比如,电商数据库)中获取到的。在获取到待识别文本之后,需要切分出待识别文本中的字符。在切分时可以依据设定的字符数量进行切分,可选的,字符数量可以为1。举例说明:待识别文本为“淘宝网真好用”,则对待识别文本切分之后的字符为:淘、宝、网、真、好、用。在针对待识别文本针对每一个字符进行切分时,则确定的待识别文本的字符的第一词向量就是每一个字符的第一词向量。
具体的,由于语言模型是根据预设语料的n-gram特征得到的,因此基于语言模型得到的每一个字符的第一词向量特征可以准确的体现出待识别文本中每一个字符的上下文关系。
具体的,词向量列表中的每一个分词的词向量均是相对于语料中所有分词的一个固定向量,因此基于词向量列表得到的每一个字符的第二词向量特征仅是对每一个字符的静态表示,能够反映出字符的字面特征。
104、至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别。
其中,待识别文本的字符的第一词向量以及第二词向量可以是待识别文本的每n个相邻字符的第一词向量以及第二词向量。其中,n为大于或等于1的正整数。举例说明:基于所述待识别文本的每一个字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别。
其中,字符的第一词向量可以准确的体现出待识别文本中该字符的上下文关系,而字符的第二词向量可以准确的体现出该字符相对于语料中所有分词的一个固定表示,因此,在待识别文本中存在待识别命名实体时,基于待识别文本的字符的第一词向量以及第二词向量并通过预设的命名实体识别模型可以对待识别命名实体进行准确的识别。识别出的命名实体可以能是命名实体库中已存在的命名实体,也可以是在命名实体库中不存在的新挖掘出的命名实体。
需要说明的是,在基于待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对待识别文本进行命名实体识别时,没有识别出命名实体,那么说明该待识别文本中并不存在命名实体,此时也需要发出没有识别出命名实体的提示,以便可以根据该提示及时了解到识别结果。
本发明提供的文本识别方法,通过利用语料进行语言模型训练得到语言模型,并基于该语言模型确定待识别文本的字符的第一词向量。然后确定预设语料对应的词向量列表,并基于该词向量列表确定待识别文本的字符的第二词向量。最后基于待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对待识别文本进行命名实体识别。可见,本方案中命名实体识别是基于待识别文本的字符的第一词向量以及第二词向量来进行的,由于字符的第一向量可以反映出字符在待识别文本中的上下文关系,第二向量可以对字符进行静态表示反映出字符的字面特征,因此本发明提供的方案可以提高识别命名实体的准确率。
在本发明一个实施例中,上述图1所示流程图中的步骤101利用语料进行语言模型训练,得到语言模型,可以包括:
确定每一个所述n-gram特征的词向量;
将每一个所述n-gram特征的词向量输入双向LSTM进行训练,得到所述语言模型。
本实施例中从预设语料中提取n-gram特征的方法与上述步骤1中所阐述的方法相同这里将不再赘述。
在本实施例中,确定每一个n-gram特征的词向量过程可以包括但不限于:采用预设的向量产生模型确定n-gram特征中的每一个字符的字向量;在n-gram特征中仅包括一个字符时,则将该字符的字向量确定为该n-gram特征的词向量。在n-gram特征中包括至少两个字符时,则计算各个字符的字向量的平均值或加权平均值,将平均值或加权平均值确定为该n-gram特征的词向量。需要说明的是,向量产生模型可以根据业务要求确定,可选的,向量产生模型可以包括但不限于word2vec。
在本实施例中,将每一个n-gram特征的词向量输入双向LSTM进行训练得到语言模型,该语言模型可以准确的反映出每一个字符的上下文关系。
在本发明一个实施例中,上述图1所示流程图中的步骤102确定所述语料对应的词向量列表,可以包括:
对所述语料进行分词处理;
利用预设的词向量产生算法对分词处理后的所述语料进行训练得到所述词向量列表;所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;所述至少一个分词是对所述语料进行分词处理后得到的。
在本实施例中,对语料进行分词处理的过程可以包括但不限于:根据标点符号将语料划分成若干个短句,然后根据语义从若干个短句中划分出若干个分词。每一个分词中至少包括一个字符。在对语料进行分词处理得到若干个分词之后,利用预设的词向量产生算法对若干个分词进行训练得到词向量列表,词向量列表中包括至少一个分词以及至少一个词向量,且不同的分词对应不同的词向量。该词向量产生算法可以根据业务要求确定,可选的,词向量产生算法可以包括但不限于word2vec。
在本发明一个实施例中,上述图1所示流程图中的步骤103中所涉及的基于所述语言模型确定待识别文本的字符的第一词向量,可以包括:
将所述待识别文本输入到所述语言模型;
利用所述语音模型确定待识别文本中每一个字符对应的待选词向量以及所述待选词向量的概率;
针对每一个所述字符分别执行:将所述字符对应的待选词向量中概率最高的词向量确定为所述字符的第一词向量。
在本实施例中,在将待识别文本输入到语音模型中时,将待识别文本的1-gram特征输入到语言模型中。
在本实施例中,语言模型确定第一词向量的过程与得到语言模型的训练方法有关。举例说明:在通过双向LSTM训练得到语言模型时,则语言模型便可以基于双向LSTM得到每一个字符的第一词向量。得到的第一词向量可以反应出字符在待识别文本中的上下文关系。需要说明的是,由于将字符对应的待选词向量中概率最高的词向量确定为字符的第一词向量,因此确定出的第一词向量可以准确的表示出字符在待识别文本中的上下文关系。
在本发明一个实施例中,所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;上述图1所示流程图中的步骤103中所涉及的基于所述词向量列表确定所述待识别文本的字符的第二词向量,包括:
针对每一个所述字符分别执行:查询所述词向量列表确定与所述字符对应的目标分词;将与所述目标分词对应的词向量确定为所述字符的第二词向量。
在本实施例中,词向量列表中包括至少一个分词与至少一个词向量的对应关系,不同的分词对应不同的词向量。这里所说的分词由至少一个字符排列成。
在本实施例中,由于确定待识别文本中的每一个字符的第二词向量的过程均相同,因此下面以确定一个字符的第二词向量进行说明:查询词向量列表中是否存在与该字符相同的分词;若存在,则将查询到的分词对应的词向量确定为该字符的第二词向量;若不存在,则说明词向量列表不够全面,可以至少采用如下方法确定该字符的第二词向量。第一种,使用备用的词向量列表来确定该字符的词向量,该备用词向量列表中的分词均是在之前使用的词向量列表中不存在的;第二种,发出未查询到该字符的第二词向量的提醒,以便业务人员根据该提醒进行升级词向量列表。
在本发明一个实施例中,上述图1所示流程图中的步骤104至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别,可以包括:
针对每一个所述字符分别执行:拼接所述字符的第一词向量和第二词向量得到所述字符的第三词向量;
将每一个所述字符的第三词向量均输入到所述命名实体识别模型;
利用所述命名实体识别模型通过每一个所述字符的第三词向量对所述待识别文本进行命名实体识别。
在本实施例中,由于字符的第三向量是由字符的第一词向量和第二词向量拼接而成的,因此该第三向量不仅可以反映出字符在待识别文本中的上下文关系,又可以对每一个字符进行静态表示反映出字符的字面特征。举例说明:字符1的第一词向量为50维、第二词向量为50维,则字符1的第三词向量为100维。
在本实施例中,命名实体识别模型的具体型式可以根据业务要求确定。可选的,命名实体识别模型可以包括但不限于卷积神经网络模型、LSTM+CRF序列标注模型、递归神经网络模型。
在本实施例中,利用所述命名实体识别模型通过每一个所述字符的第三词向量对所述待识别文本进行命名实体识别可以包括如下步骤:将每一个所述字符的第三词向量输入到所述命名实体识别模型中的双向LSTM进行训练,得到所述待识别文本的语义信息特征;将所述语义信息特征输入所述命名实体识别模型中的条件随机场(CRF),利用所述命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果;基于所述标注结果识别所述待识别文本中的命名实体。
具体的,双向LSTM包括一个输入层、两个隐含层和一个softmax层。其中,一个隐含层表示前向LSTM神经网络,另一个隐含层表示后向LSTM神经网络。在字符的第三词向量输入到输入层时,输入层、隐含层以及softmax层通过反向传播算法进行训练,得到LSTM输出的语义信息特征。然后将语义信息特征输入条件随机场(CRF)中,条件随机场(CRF)根据语义对每一个字符进行标注,得到标注结果。然后根据标注结果识别待识别文本中的命名实体,该识别会存在两种结果,一种是从待识别文本中识别出命名实体,识别出的命名实体可以能是命名实体库中已存在的命名实体,也可以是在命名实体库中不存在的新挖掘出的命名实体。另一种是待识别文本中不存在命名实体。另外,需要说明的是标注的类别可以根据业务要求确定。可选的,标注类别可以包括但不限于“BIESO”四种类别,“BIE”表示一个实体的起始位置、中间位置、结束位置。“S”表示一个单字组成的实体,“O”表示不属于任何一类实体。
需要说明的是,由于命名实体识别是是基于字符的第三向量进行的,由于字符的第三向量不仅可以反映出字符在待识别文本中的上下文关系,又可以对每一个字符进行静态表示反映出字符的字面特征。因此,对待识别文本进行命名实体识别的准确率较高。
基于上述的实施例中的叙述,上述方法的实施例可以根据业务需要自由组合,组合成新的实施例。下面以图2所示的流程图为例对文本识别方法进行说明,该方法包括:
201、确定语料的n-gram特征。
202、确定每一个n-gram特征的词向量。
203、将每一个n-gram特征的词向量输入双向LSTM进行训练,得到语言模型。
204、对语料进行分词处理。
205、利用预设的词向量产生算法对分词处理后的语料进行训练得到词向量列表;词向量列表中包括至少一个分词以及至少一个词向量的对应关系;至少一个分词是对语料进行分词处理后得到的。
206、将待识别文本输入到语言模型。
207、利用语音模型确定待识别文本中每一个字符对应的待选词向量以及待选词向量的概率。
208、针对每一个字符分别执行:将字符对应的待选词向量中概率最高的词向量确定为字符的第一词向量。
209、针对每一个字符分别执行:查询词向量列表确定与字符对应的目标分词;将与目标分词对应的词向量确定为字符的第二词向量。
210、针对待识别文本中的每一个字符分别执行:拼接字符的第一词向量和第二词向量得到字符的第三词向量。
211、将每一个字符的第三词向量均输入到命名实体识别模型。
212、将每一个字符的第三词向量输入到预设的命名实体识别模型中的双向LSTM进行训练,得到待识别文本的语义信息特征。
213、将语义信息特征输入命名实体识别模型中的条件随机场(CRF),利用命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果。
214、基于标注结果识别出待识别文本中的命名实体。
进一步的,依据上述方法实施例,本发明的另一个实施例还提供了一种文本识别装置,如图3所示,所述装置包括:
训练单元31,用于利用语料进行语言模型训练,得到语言模型;
第一确定单元32,用于确定所述语料对应的词向量列表;
第二确定单元33,用于基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
第一识别单元34,用于至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别。
本发明提供的文本识别装置,通过利用语料进行语言模型训练得到语言模型,并基于该语言模型确定待识别文本的字符的第一词向量。然后确定预设语料对应的词向量列表,并基于该词向量列表确定待识别文本的字符的第二词向量。最后基于待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对待识别文本进行命名实体识别。可见,本方案中命名实体识别是基于待识别文本的字符的第一词向量以及第二词向量来进行的,由于字符的第一向量可以反映出字符在待识别文本中的上下文关系,第二向量可以对字符进行静态表示反映出字符的字面特征,因此本发明提供的方案可以提高识别命名实体的准确率。
可选的,如图4所示,该装置还包括:
拼接单元341,用于拼接所述待识别文本的字符的第一词向量和第二词向量得到所述待识别文本的字符的第三词向量;
第一输入单元342,用于将所述待识别文本的字符的第三词向量均输入到所述命名实体识别模型;
第二识别单元343,用于利用所述命名实体识别模型通过所述待识别文本的字符的第三词向量对所述待识别文本进行命名实体识别。
上述的拼接单元341、第一输入单元342、第二识别单元343在文本识别装置中的设置位置可以根据业务要求确定。图4中将拼接单元341、第一输入单元342、第二识别单元343设置在识别单元34中仅为一个实例。
可选的,如图4所示,该装置还包括:
第一训练单元3431,用于将所述待识别文本的字符的第三词向量输入到所述命名实体识别模型中的双向LSTM进行训练,得到所述待识别文本的语义信息特征;
标注单元3432,用于将所述语义信息特征输入所述命名实体识别模型中的条件随机场(CRF),利用所述命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果;
第三识别单元3433,用于基于所述标注结果识别出所述待识别文本中的命名实体。
上述的第一训练单元3431、标注单元3432、第三识别单元3433在文本识别装置中的设置位置可以根据业务要求确定。图4中将第一训练单元3431、标注单元3432、第三识别单元3433设置在第一识别单元34的第二识别单元343中仅为一个实例。
可选的,如图4所示,该装置还可以包括:
第二输入单元331,用于将所述待识别文本输入到所述语言模型;
第三确定单元332,用于利用所述语音模型确定待识别文本中每一个字符对应的待选词向量以及所述待选词向量的概率;
第四确定单元333,用于针对每一个所述字符分别执行:将所述字符对应的待选词向量中概率最高的词向量确定为所述字符的第一词向量。
上述的第二输入单元331、第三确定单元332、第四确定单元333在文本识别装置中的设置位置可以根据业务要求确定。图4中将第二输入单元331、第三确定单元332、第四确定单元333设置在第二确定单元33中仅为一个实例。
可选的,如图4所示,所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;该装置还包括:
第五确定单元334,用于针对每一个所述字符分别执行:查询所述词向量列表确定与所述字符对应的目标分词;将与所述目标分词对应的词向量确定为所述字符的第二词向量。
上述的第五确定单元334在文本识别装置中的设置位置可以根据业务要求确定。图4中将第五确定单元334设置在第二确定单元33中仅为一个实例。
可选的,如图4所示,该装置可以包括:
第六确定单元311,用于确定每一个所述n-gram特征的词向量;
第二训练模块312,用于将每一个所述n-gram特征的词向量输入双向LSTM进行训练,得到所述语言模型。
上述的第六确定单元311、第二训练模块312在文本识别装置中的设置位置可以根据业务要求确定。图4中将第六确定单元311、第二训练模块312设置在训练单元31中仅为一个实例。
可选的,如图4所示,该装置还可以包括:
分词单元321,用于对所述语料进行分词处理;
第七确定单元322,用于利用预设的词向量产生算法对分词处理后的所述语料进行训练得到所述词向量列表;所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;所述至少一个分词是对所述语料进行分词处理后得到的。
上述的分词单元321、第七确定单元322在文本识别装置中的设置位置可以根据业务要求确定。图4中将分词单元321、第七确定单元322设置在第一确定单元32中仅为一个实例。
本发明实施例提供的文本识别装置中,各个功能模块运行过程中所采用的方法详解可以参见上述方法实施例的对应方法详解,在此不再赘述。
基于同一发明构思,依据上述实施例,本发明的另一个实施例还提供了一种电子设备,所述电子设备包括:存储介质和处理器;
所述处理器,适于实现各指令;
所述存储介质,适于存储多条指令;
所述指令适于由所述处理器加载并执行如上述中任意一项所述的文本识别方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (13)
1.一种文本识别方法,其特征在于,包括:
利用语料进行语言模型训练,得到语言模型;
确定所述语料对应的词向量列表;
基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过命名实体识别模型对所述待识别文本进行命名实体识别;
所述基于所述语言模型确定待识别文本的字符的第一词向量,包括:
将所述待识别文本输入到所述语言模型;
利用所述语言模型确定待识别文本中每一个字符对应的待选词向量以及所述待选词向量的概率;
针对每一个所述字符分别执行:将所述字符对应的待选词向量中概率最高的词向量确定为所述字符的第一词向量。
2.根据权利要求1所述的方法,还包括:
拼接所述待识别文本的字符的第一词向量和第二词向量得到所述待识别文本的字符的第三词向量;
将所述待识别文本的字符的第三词向量均输入到所述命名实体识别模型;
利用所述命名实体识别模型通过所述待识别文本的字符的第三词向量对所述待识别文本进行命名实体识别。
3.根据权利要求2所述的方法,还包括:
将所述待识别文本的字符的第三词向量输入到所述命名实体识别模型中的双向LSTM进行训练,得到所述待识别文本的语义信息特征;
将所述语义信息特征输入所述命名实体识别模型中的条件随机场(CRF),利用所述命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果;
基于所述标注结果识别所述待识别文本中的命名实体。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;还包括:
针对每一个所述字符分别执行:查询所述词向量列表确定与所述字符对应的目标分词;将与所述目标分词对应的词向量确定为所述字符的第二词向量。
5.根据权利要求1-3中任一所述的方法,其特征在于,还包括:
确定所述语料的n-gram特征;
确定每一个所述n-gram特征的词向量;
将每一个所述n-gram特征的词向量输入双向LSTM进行训练,得到所述语言模型。
6.根据权利要求1-3中任一所述的方法,其特征在于,还包括:
对所述语料进行分词处理;
利用预设的词向量产生算法对分词处理后的所述语料进行训练得到所述词向量列表;所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;所述至少一个分词是对所述语料进行分词处理后得到的。
7.一种文本识别装置,其特征在于,包括:
训练单元,用于利用语料进行语言模型训练,得到语言模型;
第一确定单元,用于确定所述语料对应的词向量列表;
第二确定单元,用于基于所述语言模型确定待识别文本的字符的第一词向量,以及基于所述词向量列表确定所述待识别文本的字符的第二词向量;
第一识别单元,用于至少基于所述待识别文本的字符的第一词向量以及第二词向量,通过预设的命名实体识别模型对所述待识别文本进行命名实体识别;
所述第二确定单元,还用于将所述待识别文本输入到所述语言模型;利用所述语言模型确定待识别文本中每一个字符对应的待选词向量以及所述待选词向量的概率;针对每一个所述字符分别执行:将所述字符对应的待选词向量中概率最高的词向量确定为所述字符的第一词向量。
8.根据权利要求7所述的装置,其特征在于,还包括:
拼接单元,用于拼接所述待识别文本的字符的第一词向量和第二词向量得到所述待识别文本的字符的第三词向量;
第一输入单元,用于将所述待识别文本的字符的第三词向量均输入到所述命名实体识别模型;
第二识别单元,用于利用所述命名实体识别模型通过所述待识别文本的字符的第三词向量对所述待识别文本进行命名实体识别。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一训练单元,用于将所述待识别文本的字符的第三词向量输入到所述命名实体识别模型中的双向LSTM进行训练,得到所述待识别文本的语义信息特征;
标注单元,用于将所述语义信息特征输入所述命名实体识别模型中的条件随机场(CRF),利用所述命名实体识别模型中的条件随机场(CRF)对待识别文本进行标注,得到标注结果;
第三识别单元,用于基于所述标注结果识别出所述待识别文本中的命名实体。
10.根据权利要求7-9中任一所述的装置,其特征在于,所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;还包括:
第五确定单元,用于针对每一个所述字符分别执行:查询所述词向量列表确定与所述字符对应的目标分词;将与所述目标分词对应的词向量确定为所述字符的第二词向量。
11.根据权利要求7-9中任一所述的装置,其特征在于,还包括:
第六确定单元,用于确定所述语料的n-gram特征;确定每一个所述n-gram特征的词向量;
第二训练模块,用于将每一个所述n-gram特征的词向量输入双向LSTM进行训练,得到所述语言模型。
12.根据权利要求7-9中任一所述的装置,其特征在于,还包括:
分词单元,用于对所述语料进行分词处理;
第七确定单元,用于利用预设的词向量产生算法对分词处理后的所述语料进行训练得到所述词向量列表;所述词向量列表中包括至少一个分词以及至少一个词向量的对应关系;所述至少一个分词是对所述语料进行分词处理后得到的。
13.一种电子设备,其特征在于,所述电子设备包括:存储介质和处理器;
所述处理器,适于实现各指令;
所述存储介质,适于存储多条指令;
所述指令适于由所述处理器加载并执行如权利要求1至6中任意一项所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910008861.7A CN111414757B (zh) | 2019-01-04 | 2019-01-04 | 一种文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910008861.7A CN111414757B (zh) | 2019-01-04 | 2019-01-04 | 一种文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111414757A CN111414757A (zh) | 2020-07-14 |
CN111414757B true CN111414757B (zh) | 2023-06-20 |
Family
ID=71490649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910008861.7A Active CN111414757B (zh) | 2019-01-04 | 2019-01-04 | 一种文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414757B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111738007B (zh) * | 2020-07-03 | 2021-04-13 | 北京邮电大学 | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 |
CN112687332B (zh) * | 2021-03-12 | 2021-07-30 | 北京贝瑞和康生物技术有限公司 | 用于确定致病风险变异位点的方法、设备和存储介质 |
CN112687328B (zh) * | 2021-03-12 | 2021-08-31 | 北京贝瑞和康生物技术有限公司 | 确定临床描述信息的表型信息的方法、设备和介质 |
CN113095085B (zh) * | 2021-03-30 | 2024-04-19 | 北京达佳互联信息技术有限公司 | 文本的情感识别方法、装置、电子设备和存储介质 |
CN113343692B (zh) * | 2021-07-15 | 2023-09-12 | 杭州网易云音乐科技有限公司 | 搜索意图的识别方法、模型训练方法、装置、介质及设备 |
CN116052648B (zh) * | 2022-08-03 | 2023-10-20 | 荣耀终端有限公司 | 一种语音识别模型的训练方法、使用方法及训练*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10019438B2 (en) * | 2016-03-18 | 2018-07-10 | International Business Machines Corporation | External word embedding neural network language models |
-
2019
- 2019-01-04 CN CN201910008861.7A patent/CN111414757B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202054A (zh) * | 2016-07-25 | 2016-12-07 | 哈尔滨工业大学 | 一种面向医疗领域基于深度学习的命名实体识别方法 |
CN108205524A (zh) * | 2016-12-20 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 文本数据处理方法和装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN107885721A (zh) * | 2017-10-12 | 2018-04-06 | 北京知道未来信息技术有限公司 | 一种基于lstm的命名实体识别方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
Guillaume Lample 等."Neural Architectures for Named Entity Recognition".《arXiv》.2016,全文. * |
买买提阿依甫 ; 吾守尔・斯拉木 ; 帕丽旦・木合塔尔 ; 杨文忠 ; .基于BiLSTM-CNN-CRF模型的维吾尔文命名实体识别.计算机工程.2018,(08),全文. * |
李丽双 ; 郭元凯 ; .基于CNN-BLSTM-CRF模型的生物医学命名实体识别.中文信息学报.2018,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111414757A (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414757B (zh) | 一种文本识别方法及装置 | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
CN108121700B (zh) | 一种关键词提取方法、装置及电子设备 | |
CN108091328B (zh) | 基于人工智能的语音识别纠错方法、装置及可读介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN111310440B (zh) | 文本的纠错方法、装置和*** | |
CN108549656B (zh) | 语句解析方法、装置、计算机设备及可读介质 | |
CN108170859A (zh) | 语音查询的方法、装置、存储介质及终端设备 | |
US9645988B1 (en) | System and method for identifying passages in electronic documents | |
EP1619620A1 (en) | Adaptation of Exponential Models | |
Xu et al. | Exploiting shared information for multi-intent natural language sentence classification. | |
US11164210B2 (en) | Method, device and computer storage medium for promotion displaying | |
CN109766550B (zh) | 一种文本品牌识别方法、识别装置和存储介质 | |
US11023685B2 (en) | Affect-enriched vector representation of words for use in machine-learning models | |
CN105206274A (zh) | 一种语音识别的后处理方法及装置和语音识别*** | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN114995903B (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
CN112632956A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN111858860B (zh) | 搜索信息处理方法及***、服务器、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |